基于爬虫算法提升迁改及时率的研究

2021-01-04 08:40姜昊
科学与信息化 2021年6期
关键词:巡线爬虫管理员

姜昊

中国移动通信集团江苏有限公司 江苏 南京 210012

引言

随着我国城市化、工业化进程的发展,道路施工愈发普遍,平均每年影响业务故障上万次,其中99%以上发生在末梢段落,所有故障中,61%因为市政施工引起,对运营商通信设施稳定运行产生了一定影响,重复故障易对用户满意度形成负面影响。主要体现在以下两个方面:第一,政府临时通知迁改时间紧迫、难度大:每次施工都是政府召开临时通知会,给予迁改的时间短,一次迁改无法根本性解决问题,迁改难度大大提升;第二,靠线路巡线员按照传统的以天/周/月为周期的巡线办法,巡检不全面,成本高,无法及时了解到市政施工项目的相关信息,目前江苏线路代维人均巡线长度达140公里,已远远超过能力范围。

本研究借助爬虫技术及时获取全省建设项目立项信息,通过提取其中关键的施工道路信息,实时通知线路代维有针对性的现场巡检,及时设计迁改方案并立项,如:施工项目招标官网发布招标信息,通过爬虫技术获取招标的相关信息,经邮件,短信提醒地市管理员和区县线路代维,及时安排处理现场巡检勘察,仔细斟酌迁改方案,优化立项成本,从而提升迁改及时率,解决立项时间短,迁改强度大等难题,达到一次性完成迁改,有效降低故障率的同时降低了迁改成本。

1 爬虫算法简介

互联网时代网络快速发展,如何有效地提取并利用高价值信息成为一个巨大的挑战。传统方式是利用搜索引擎检索信息。但是通用性的搜索引擎也存在着一定的局限性,例如通用搜索引擎大多基于关键字的检索,难以支持根据语义信息提取并查询(例如施工涉及的危险段落、施工的具体时间周期等)。为了解决上述问题,爬虫应运而生。爬虫可根据抓取目标,有选择地对网页及相关的链接进行访问,获取所需信息[1]。

网页的抓取策略可以分为深度优先、广度优先和最佳优先三种。

方案一广度优先搜索策略:在抓取过程中分层搜索,当完成当前层次的搜索之后再进行下一层次的搜索。

方案二最佳优先搜索策略:根据网页分析算法,预测待选URL与目标主题的关联性,或与目标网页的相似程度,选择评价最好的URL进行抓取。

考虑迁改工作有明确的主题相关性,采用方案二最佳有限搜索策略。

市政施工信息获取采用基于网页内容的分析算法,利用网页内容特征进行的网页评价。网页内容以超文本和动态页面数据为主。随着各类网络资源形式(如Web、Service、多媒体等)日益丰富,基于网页内容的分析算法也由原来的单纯的文本检索方法,演进为包括网页数据提取、数据挖掘、机器学习、语义理解等多种方法的综合应用。

2 爬虫算法在迁改工作中的应用

设计基于模块requests的爬虫技术,实时获得全面的建设施工项目数据。依靠模块beautiful soup对获取的信息进行精准提取,并通过邮件发送至线路管理员邮箱,在由管理员通过代维管理系统下发,通知线路代维现场勘察,设计迁改方案,解决问题。

该算法的基本流程如下所示:

第一步:post请求方式:post请求方式中分页靠入参的改变而改变,对入参进行自增循环而获取全面的建设施工项目数据。利用lxml通过xpath解析隐藏域。声明一个字典,存储获取的信息,继续爬取,由于该网站post请求的入参,具有动态变化的特征和反爬功能,采用模拟登陆操作方案,使用selenium进行web自动化操作,通过findxpath路径的方式实现点击、下载。不断循环上述步骤,即可获取所有建设施工项目明细。

第二步:模块beautiful soup:采用Beautiful Soup库,选择最合适的解析器来解析这段文档,利用bsobj将文件中的重点信息提取出来作为预警内容。

第三步:预警:预警内容通过利用smtplib模块邮件发送至线路管理员邮箱里。由管理员通过代维管理系统下发现场巡线工单,现场巡检核查实情,确定是否需要迁改,最后设计迁改方案,同步安排看护、赔补事宜,完成隐患处理[2]。

3 实际案例

以扬州为例,已试点完成武坚-联合光缆,京沪高速江都段和百祥路北延工程等一系列的迁改项目。以下以扬州为例进行基于爬虫获取施工信息及时迁改:

第一步:通过爬虫获取扬州一周后的施工立项工程。

第二步:利用smtplib模块,自动邮件发送至线路管理员邮箱,提取重要信息,如区县和路段信息、时间计划等。

第三步,管理员现场核查,派发现场巡线工单。

工单中包含了施工方信息、施工周期要求,由线路代维结合具体情况,制定巡线计划,对于危险段落制定迁改方案。

4 创新点及可复制性

该研究方案具有极强的创新新,第一,选择了多个主流招标网站(如千里马),资源互补,运行一年以来,涵盖了95%以上的市政工程招标信息,确保重要市政施工信息无遗漏。第二,每天2次自动循环,不间断遍历招标网站,不遗漏任何关键施工信息。第三,利用模块beautiful soup对所需的关键信息进行精准提取,新增市政施工信息的抓取、邮件通知管理员,均为PYTHON自动运行,无须人工参与。新增市政施工信息,分钟级抓取,并按预设邮箱和电话,实时通知各区域线路管理员和代维人员,确保实时响应。第四,该项目符合国家规定的中华人民共和国数据安全法和中华人民共和国网络安全法,每日运行2次,不会造成DDos网站攻击以及其他危害网站的网络攻击。

该方案部署成本极低,可复制性极强,仅需PC机上部署python和Chrome浏览器,采用通用程序,适用于全国光缆维护场景,仅需修改招标网站网址和接口方式,录入全省线路维护人员邮箱和手机号即可使用。

具体部署步骤如下:

第一步,完成python运行脚本的更改,这里采用的是“千里马”招标网站,如使用其他招标网站,只需要更换网址即可。各省份的地市可以通过判断筛选自己当地的施工信息,只需更改成自己本省的相关地区名称即可,还有线路代维邮箱更改。

第二步,运行环境的搭建,这里只需要搭建python的脚本运行环境PyCharm社区版即可(百度上可免费下载),运行环建的搭建可以装在普通PC机上。

第三步,该运行脚本采用的是Web Driver模拟登入,这里使用的是Chrome浏览器,还需要下载一个驱动器(chromedriver.exe),版本必须和Chrome浏览器的版本一致,最后只需将修改后的运行脚本复制到PyCharm社区版里点击运行即可(File-Open)。

5 结束语

通过爬虫技术的应用,线路代维人员根据收取的信息有针对性地进行线路巡检,大大压降了传输末梢光缆故障,影响满意度的问题,同时解决了以往全面覆盖性线路巡检出现的范围大,人手少等问题,极大地提升了工作效率,节约人力资源;其次,通过爬虫技术可以实时的获取全省的建设施工项目招标信息,信息全面无遗漏,及时迁改、赔补,实现高效科学的管理。

该研究高效优化了迁改流程,有利于电信运营商降本增效。通过爬虫技术,末梢光缆故障大幅降低,网络质量得到了提升,家宽PON口群障次数从月均526次下降至358次,无线上网质量满意度领先值由0.93上升至2.73,集客月均投诉量由19次下降至11次。其次,市政施工信息获取时间,从传统的平均35天,降低至0.5天,避免了紧急状态下的临时迁改,有效减少了二次迁改,全年节省迁改成本2000万元。最后,施工信息无遗漏,及时与施工单位沟通,赔补金额从2.3亿上升至3.6亿。

猜你喜欢
巡线爬虫管理员
利用网络爬虫技术验证房地产灰犀牛之说
我是小小午餐管理员
基于共振磁耦合供电及电磁传感定位的无人机智能巡线技术与应用
基于移动互联网的智能化巡线管理系统的建设与应用
基于Python的网络爬虫和反爬虫技术研究
我是图书管理员
我是图书管理员
可疑的管理员
无人机为仁化高山电网线路“把脉”
无人机在电力巡线中的应用模式研究