政务服务大数据报告的技术原理分析

2018-05-16 05:06郑荣新齐同军
信息化建设 2018年2期
关键词:分词政务可视化

郑荣新 齐同军

政务服务大数据报告是针对政务服务的,主要反映了政务服务的社情民意和舆情动向,梳理并客观呈现政务服务的舆情热点、党和政府政务方针政策及反馈、治国理政体系及能力建设、政务服务新思想、新技术、新做法、新经验等有关政务服务的一切资讯。同时,介绍境外媒体网站上对中国政务服务的评论,关注国际重大事件特别是对中国政务服务有影响的事件,帮助领导干部拓展视野,更好地做好政务服务工作,在问责制年代为领导干部提供应对参考。

对一个政务服务大数据报告来说,它的基本流程有以下六步:明确分析的目的,确定关键词和分析角度;进行数据采集和预处理;进行数据储存、索引和编目;进行数据的分析,得出分析结果;进行可视化展现,直观反映分析结果;编写大数据报告,得出最终结论。在这六步中间,还贯穿着自然语言处理的步骤。

明确分析目的

用户提出一个政务服务大数据报告的生成需求后,首先由相关的技术人员把这个报告的题目进行分解,明确分析的目的,确定数据分析的对象。然后决定要获取哪些数据进行分析,从什么角度来分析,以及分析的关键词等等。最后决定数据采集的来源。

明确分析目的是大数据报告生成的第一步,如果这一步的方向错误,那么后面的全部步骤都是无用功。为了保证这一步的正确性,目的分析都是由经验丰富的技术人员来担任,并且在目的分析完成后,也要和用户反复的溝通,直到确定充分理解了用户的需求,才会进行后面的操作步骤。

对政务服务大数据报告的目的分析而言,这一步都是人工操作,没有人工智能或者算法能够代替。特别是数据采集的来源,通常都是由技术人员和用户来定义,无法像传统的搜索引擎一样,能够对整个Internet网进行全面的搜索。但是随着大数据的逐渐发展,最终它的数据来源会面向整个Internet网络。

分析的角度更是多样化,有地域划分、时间范围、用户类别、各类排名、满意度、支持度、活跃度、关注度等等。对政务服务而言,用户的情绪是一个很重要的分析角度。

同一个问题,分析角度不一样,得出的结论会有很大的偏差,所以,选择合适的分析角度也是非常重要,大数据报告应该尽可能多的选择不同的分析角度给出结论。

数据采集和预处理

大数据技术中最重要的一环就是数据采集,也叫数据挖掘。它是通过数据爬取软件平台实现的。

数据爬取不限定于某种编程语言,也不限定于某种操作系统。不管是Java语言+Linux操作系统,还是C#语言+Windows操作系统等等,都可以胜任数据爬取的工作。

同样,数据的来源也是多种多样,对政务服务大数据报告来说,数据来源可以是由爬取平台在相关政务网站上爬取,也可以由填报系统人工录入,也可以从Excel文档导入,甚至还可以从相关的业务系统的数据库直接读取。

那么政务服务数据采集是从哪些网站来获取数据的呢?主要是当地的省市县政务网站、国内知名的新闻网站的政务版块,以及一些国内知名论坛的相关版块。

一般来说,用户可以自建数据挖掘平台,但是也可以付费使用第三方的数据挖掘平台。在大数据报告生成中,付费使用第三方的挖掘平台的数据,是一件很常见的事情。一定程度上的数据共享,可以有效节约时间和成本,对大数据报告的生成是非常有利的。

数据爬取需要爬虫程序,从本质上来说,爬虫就是一个能够多线程运行的程序。它使用HTTP协议,根据设定好的爬取规则,通过GET和POST命令,得到相关网页的源数据。然后通过一些程序插件去除里面的HTML、CSS修饰符和JS脚本等无效字符,得到数据分析所需要的文本数据。

数据的爬取规则,经常采用XML文档来保存,因为XML文档里,可以定义非常复杂的爬取规则,读取和编辑也较为方便。

每个要爬取的网页的规则,通常是由程序员手工编写,熟练的程序员一天能够写出好几个页面的爬取规则。现在还没有好的智能算法能够自动适应不同页面数据爬取,一旦网站改版或者添加新的栏目,就必须要人工重新编写爬取规则。

为了保证网站的正常运行,很多网站都有反爬手段,阻止爬虫占用网站的数据和带宽等资源。常见的反爬手段有字符验证码、图片验证码、鼠标拖动滑块验证、IP访问限制、流量限制、用户必须登录等等。爬虫程序通常都有具有一定的反爬能力,能够自动处理一些简单的反爬手段,比如字符验证码和IP访问限制等。但是对一些复杂反爬手段,也是无能无力,只能付费买授权或者从第三方买数据。

数据的爬取速度,通常几个小时内,可以爬完一个小型网站的全部页面,如果该网站的数据更新量较小,那么几十分钟内就可以重新爬取一遍更新数据。爬虫的数量越多,爬取速度也越快,但是为了防止被限制IP和封号,爬虫的数量对单个网站都不会设置太多。对政务服务网站来说,需要爬取页面的数量相对较少,所以在整个大数据报告周期里,数据爬取占用的时间并不是最多的。

数据爬取失败报警机制是非常有必要的。如果某些网站数据爬取失败,势必影响最终的数据采集数量,从而影响最终的分析结果。

数据爬取完成后,还要进行数据预处理。这里的预处理一般是指根据网址进行数据排重和数据清洗,把重复的和有乱码的数据丢掉。这一步很重要,通过数据预处理,能够删除绝大部分的无效数据,可以大大减少存储数据占用的空间,同时也减少数据分析的时间和资源消耗。

在数据爬取和数据排重、清洗的中间,还有消息中间件的存在,常见的如Kafka。消息中间件的作用是暂时存储数据,防止数据预处理跟不上数据采集的速度,从而引起采集数据的丢失。

数据存储和索引

排重和清洗完成的数据,需要封装成便于后续处理的JSON格式,根据一定的规则,生成便于检索的索引,也就是关键字,存入数据库。

因为数据爬取每天要访问成千上万个网页,产生的数据量非常大,而且大数据的保存时间一般都是永久,所以通常使用HBase数据库。

HBase是Hadoop DataBase 的简称,也就是基于Hadoop的数据库,是一种NoSQL数据库,主要适用于海量明细数据(十亿、百亿)的随机实时查询,如日志明细、交易清单、轨迹行为等。简单来说,它就是一种存储量非常大、PB级别的、专门为大数据而生的超大型数据库。

数据采集到的文本数据,可能是一篇政务新闻,也可能一些用户发表的评论。

数据的索引生成,需要对采集到的文本数据进行分词,经过分词后的数据,才能有效的完成索引,便于后面的SQL查询。

文本的分词,就是提取出一大段文本里面的关键词。这些关键词,通常都是和分析角度有关系的。

简单的分词处理,可以用分词插件来完成,比如IK。但是分词插件很死板,只有你事先定义的关键词,才能帮你分词,智能程度很低。

如果分析角度中包含地域,那么文本数据里面全部的地名,比如省市县的名称,都要提取出来作为索引。同样,如果分析角度里面包含满意度,那么文本数据里面和满意度相关的情绪化的词语,比如“支持”、“满意”、“好”、“差”等等,也要全部提取出来,作为索引。

智能程度较高的索引,必须由自然语言处理平台来协助完成。

自然语言处理

所謂自然语言,是指一种自然地随文化演化的语言,比如英语、汉语、日语等。

有了自然语言处理的技术,计算机才能够真正理解人类的语言,懂得语言中的语义和情绪等等。

自然语言处理是政务服务大数据分析中很重要的一个数据处理技术。

国内比较知名的、开放的自然语言处理平台,有哈工大的语言技术平台(LTP)、腾讯文智自然语言处理NLP平台等等。哈工大的语言技术平台(LTP)的功能包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注。腾讯文智自然语言处理的功能包括词法分析,句法分析,篇章分析,下载抽取转码。

因为自然语言处理技术是一门非常复杂的技术,所以很少有大数据运营公司会单独进行开发,使用现成的自然语言技术平台进行文本处理,是一种常见的处理手段。

在大数据报告的生成过程中,自然语言处理技术,可以帮我们将采集的数据归类和建立索引,识别文本数据中的情绪,对政府服务报告有着不可或缺的作用。

自然语言处理技术,不仅仅用于数据的索引,还可以结合数据采集,对数据里面的日期和时间进行格式化和修复,对数据里面的地名进行省市县的归类。

很多文章里面的日期并不是年月日的标准格式,往往只有几月几号、今年、去年、几年以前等等描述,通过自然语言处理加上文章的发布时间,可以将类似的日期修复成年月日的标准格式。

另外,在很多文章中的地名,往往只有本埠之类的描述,或者一个村庄的名称,在本地是独一无二的,但是放到全国范围内,就有重名的。通过自然语言处理技术,分析出其他的一些信息,结合全国的地名表,也可以把地名修复成省市县村的标准格式。

数据分析

以上全部的操作,都是为数据分析提供基本数据的。到了数据分析这步的时候,全部的数据都已经入库并且生成了索引。

数据分析包括基本数据分析,数据探索,复杂数据分析等。数据分析是大数据报告形成过程中,技术含量最高的部分。这里往往涉及到机器学习、深度分析、人工智能等方面。

进行数据分析的人员,不仅要熟悉相关行业知识和业务流程,还要有自己的独到见解。若脱离了行业认知和业务背景,分析的结果就没有太大的使用价值。

数据分析人员还要求掌握各种数据分析软件工具,能够根据不同的情况,选择使用最合适的软件工具对数据进行归纳分析。因为通过采集得到的数据是海量的,所以无法通过人工的方式进行查看,必须通过数据分析工具进行处理。常见的分析工具有ElasticSearch、Kibana等等。

数据分析从本质上来说,就是从不同的分析角度,编写不同的SQL脚本,来获取各个角度的数据的数量,计算出百分比。

报告的编写人员,可以根据这些查询数据作出可视化展现的图表,写出大数据报告,得出最终结论。

可视化展现

可视化展现是大数据分析结果最好的表现形式,它用图表取代了文字说明,通过液晶屏或者高清彩色LED大屏幕,将数据分析结果用各种不同的图表进行可视化展现,让人一目了然。

在可视化展现中,常见的图表有散点图(气泡图)、折线图、柱状图、饼图、地图、雷达图等几种。除了这几种常见的图表以外,还有热力图、k线图、关系图、桑基图、漏斗图、仪表盘等等其他图表,也可以将各种图表进行组合显示,形成更复杂的图表。

可视化展现经常使用工具软件来实现,也可以根据实际情况,用ECharts等可视化图表来自己构建。

大数据报告编写

大数据报告是整个大数据分析流程的最终结果。

政务服务大数据报告是以一定的格式和规范,由熟悉相关行业知识和业务流程的专业人员,写出的专业报告。它具有下面几个特点:简单可靠、清晰明了、逻辑性强。

它的数据来源于网络,通过分析海量的数据,从不同的角度得出数据结论,最后根据这些,得出大数据报告的最终结论。政务服务大数据的报告,对用户情绪的关注度非常高。

由此可见,大数据报告是完全基于真实的数据,特别是由第三方大数据运营公司独立分析和编写的大数据报告,最终报告结论的可信度是很高的。

(作者单位:浙江省杭州市数据资源管理局)

猜你喜欢
分词政务可视化
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
分词在英语教学中的妙用
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
政务
政务
政务
政务
论英语不定式和-ing分词的语义传承