政务服务大数据报告的技术原理分析

2018-05-16 05:06郑荣新齐同军

信息化建设 2018年2期

郑荣新齐同军

政务服务大数据报告是针对政务服务的，主要反映了政务服务的社情民意和舆情动向，梳理并客观呈现政务服务的舆情热点、党和政府政务方针政策及反馈、治国理政体系及能力建设、政务服务新思想、新技术、新做法、新经验等有关政务服务的一切资讯。同时，介绍境外媒体网站上对中国政务服务的评论，关注国际重大事件特别是对中国政务服务有影响的事件，帮助领导干部拓展视野，更好地做好政务服务工作，在问责制年代为领导干部提供应对参考。

对一个政务服务大数据报告来说，它的基本流程有以下六步：明确分析的目的，确定关键词和分析角度；进行数据采集和预处理；进行数据储存、索引和编目；进行数据的分析，得出分析结果；进行可视化展现，直观反映分析结果；编写大数据报告，得出最终结论。在这六步中间，还贯穿着自然语言处理的步骤。

明确分析目的

用户提出一个政务服务大数据报告的生成需求后，首先由相关的技术人员把这个报告的题目进行分解，明确分析的目的，确定数据分析的对象。然后决定要获取哪些数据进行分析，从什么角度来分析，以及分析的关键词等等。最后决定数据采集的来源。

明确分析目的是大数据报告生成的第一步，如果这一步的方向错误，那么后面的全部步骤都是无用功。为了保证这一步的正确性，目的分析都是由经验丰富的技术人员来担任，并且在目的分析完成后，也要和用户反复的溝通，直到确定充分理解了用户的需求，才会进行后面的操作步骤。

对政务服务大数据报告的目的分析而言，这一步都是人工操作，没有人工智能或者算法能够代替。特别是数据采集的来源，通常都是由技术人员和用户来定义，无法像传统的搜索引擎一样，能够对整个Internet网进行全面的搜索。但是随着大数据的逐渐发展，最终它的数据来源会面向整个Internet网络。

分析的角度更是多样化，有地域划分、时间范围、用户类别、各类排名、满意度、支持度、活跃度、关注度等等。对政务服务而言，用户的情绪是一个很重要的分析角度。

同一个问题，分析角度不一样，得出的结论会有很大的偏差，所以，选择合适的分析角度也是非常重要，大数据报告应该尽可能多的选择不同的分析角度给出结论。

数据采集和预处理

大数据技术中最重要的一环就是数据采集，也叫数据挖掘。它是通过数据爬取软件平台实现的。

数据爬取不限定于某种编程语言，也不限定于某种操作系统。不管是Java语言+Linux操作系统，还是C#语言+Windows操作系统等等，都可以胜任数据爬取的工作。

同样，数据的来源也是多种多样，对政务服务大数据报告来说，数据来源可以是由爬取平台在相关政务网站上爬取，也可以由填报系统人工录入，也可以从Excel文档导入，甚至还可以从相关的业务系统的数据库直接读取。

那么政务服务数据采集是从哪些网站来获取数据的呢？主要是当地的省市县政务网站、国内知名的新闻网站的政务版块，以及一些国内知名论坛的相关版块。

一般来说，用户可以自建数据挖掘平台，但是也可以付费使用第三方的数据挖掘平台。在大数据报告生成中，付费使用第三方的挖掘平台的数据，是一件很常见的事情。一定程度上的数据共享，可以有效节约时间和成本，对大数据报告的生成是非常有利的。

数据爬取需要爬虫程序，从本质上来说，爬虫就是一个能够多线程运行的程序。它使用HTTP协议，根据设定好的爬取规则，通过GET和POST命令，得到相关网页的源数据。然后通过一些程序插件去除里面的HTML、CSS修饰符和JS脚本等无效字符，得到数据分析所需要的文本数据。

数据的爬取规则，经常采用XML文档来保存，因为XML文档里，可以定义非常复杂的爬取规则，读取和编辑也较为方便。

每个要爬取的网页的规则，通常是由程序员手工编写，熟练的程序员一天能够写出好几个页面的爬取规则。现在还没有好的智能算法能够自动适应不同页面数据爬取，一旦网站改版或者添加新的栏目，就必须要人工重新编写爬取规则。

为了保证网站的正常运行，很多网站都有反爬手段，阻止爬虫占用网站的数据和带宽等资源。常见的反爬手段有字符验证码、图片验证码、鼠标拖动滑块验证、IP访问限制、流量限制、用户必须登录等等。爬虫程序通常都有具有一定的反爬能力，能够自动处理一些简单的反爬手段，比如字符验证码和IP访问限制等。但是对一些复杂反爬手段，也是无能无力，只能付费买授权或者从第三方买数据。

数据的爬取速度，通常几个小时内，可以爬完一个小型网站的全部页面，如果该网站的数据更新量较小，那么几十分钟内就可以重新爬取一遍更新数据。爬虫的数量越多，爬取速度也越快，但是为了防止被限制IP和封号，爬虫的数量对单个网站都不会设置太多。对政务服务网站来说，需要爬取页面的数量相对较少，所以在整个大数据报告周期里，数据爬取占用的时间并不是最多的。

数据爬取失败报警机制是非常有必要的。如果某些网站数据爬取失败，势必影响最终的数据采集数量，从而影响最终的分析结果。

数据爬取完成后，还要进行数据预处理。这里的预处理一般是指根据网址进行数据排重和数据清洗，把重复的和有乱码的数据丢掉。这一步很重要，通过数据预处理，能够删除绝大部分的无效数据，可以大大减少存储数据占用的空间，同时也减少数据分析的时间和资源消耗。

在数据爬取和数据排重、清洗的中间，还有消息中间件的存在，常见的如Kafka。消息中间件的作用是暂时存储数据，防止数据预处理跟不上数据采集的速度，从而引起采集数据的丢失。

数据存储和索引

排重和清洗完成的数据，需要封装成便于后续处理的JSON格式，根据一定的规则，生成便于检索的索引，也就是关键字，存入数据库。

因为数据爬取每天要访问成千上万个网页，产生的数据量非常大，而且大数据的保存时间一般都是永久，所以通常使用HBase数据库。

HBase是Hadoop DataBase 的简称，也就是基于Hadoop的数据库，是一种NoSQL数据库，主要适用于海量明细数据（十亿、百亿）的随机实时查询，如日志明细、交易清单、轨迹行为等。简单来说，它就是一种存储量非常大、PB级别的、专门为大数据而生的超大型数据库。

数据采集到的文本数据，可能是一篇政务新闻，也可能一些用户发表的评论。

数据的索引生成，需要对采集到的文本数据进行分词，经过分词后的数据，才能有效的完成索引，便于后面的SQL查询。

文本的分词，就是提取出一大段文本里面的关键词。这些关键词，通常都是和分析角度有关系的。

简单的分词处理，可以用分词插件来完成，比如IK。但是分词插件很死板，只有你事先定义的关键词，才能帮你分词，智能程度很低。

如果分析角度中包含地域，那么文本数据里面全部的地名，比如省市县的名称，都要提取出来作为索引。同样，如果分析角度里面包含满意度，那么文本数据里面和满意度相关的情绪化的词语，比如“支持”、“满意”、“好”、“差”等等，也要全部提取出来，作为索引。

智能程度较高的索引，必须由自然语言处理平台来协助完成。

自然语言处理

所謂自然语言，是指一种自然地随文化演化的语言，比如英语、汉语、日语等。

有了自然语言处理的技术，计算机才能够真正理解人类的语言，懂得语言中的语义和情绪等等。

自然语言处理是政务服务大数据分析中很重要的一个数据处理技术。

国内比较知名的、开放的自然语言处理平台，有哈工大的语言技术平台（LTP）、腾讯文智自然语言处理NLP平台等等。哈工大的语言技术平台（LTP）的功能包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注。腾讯文智自然语言处理的功能包括词法分析，句法分析，篇章分析，下载抽取转码。

因为自然语言处理技术是一门非常复杂的技术，所以很少有大数据运营公司会单独进行开发，使用现成的自然语言技术平台进行文本处理，是一种常见的处理手段。

在大数据报告的生成过程中，自然语言处理技术，可以帮我们将采集的数据归类和建立索引，识别文本数据中的情绪，对政府服务报告有着不可或缺的作用。

自然语言处理技术，不仅仅用于数据的索引，还可以结合数据采集，对数据里面的日期和时间进行格式化和修复，对数据里面的地名进行省市县的归类。

很多文章里面的日期并不是年月日的标准格式，往往只有几月几号、今年、去年、几年以前等等描述，通过自然语言处理加上文章的发布时间，可以将类似的日期修复成年月日的标准格式。

另外，在很多文章中的地名，往往只有本埠之类的描述，或者一个村庄的名称，在本地是独一无二的，但是放到全国范围内，就有重名的。通过自然语言处理技术，分析出其他的一些信息，结合全国的地名表，也可以把地名修复成省市县村的标准格式。

数据分析

以上全部的操作，都是为数据分析提供基本数据的。到了数据分析这步的时候，全部的数据都已经入库并且生成了索引。

数据分析包括基本数据分析，数据探索，复杂数据分析等。数据分析是大数据报告形成过程中，技术含量最高的部分。这里往往涉及到机器学习、深度分析、人工智能等方面。

进行数据分析的人员，不仅要熟悉相关行业知识和业务流程，还要有自己的独到见解。若脱离了行业认知和业务背景，分析的结果就没有太大的使用价值。

数据分析人员还要求掌握各种数据分析软件工具，能够根据不同的情况，选择使用最合适的软件工具对数据进行归纳分析。因为通过采集得到的数据是海量的，所以无法通过人工的方式进行查看，必须通过数据分析工具进行处理。常见的分析工具有ElasticSearch、Kibana等等。

数据分析从本质上来说，就是从不同的分析角度，编写不同的SQL脚本，来获取各个角度的数据的数量，计算出百分比。

报告的编写人员，可以根据这些查询数据作出可视化展现的图表，写出大数据报告，得出最终结论。

可视化展现

可视化展现是大数据分析结果最好的表现形式，它用图表取代了文字说明，通过液晶屏或者高清彩色LED大屏幕，将数据分析结果用各种不同的图表进行可视化展现，让人一目了然。

在可视化展现中，常见的图表有散点图（气泡图）、折线图、柱状图、饼图、地图、雷达图等几种。除了这几种常见的图表以外，还有热力图、k线图、关系图、桑基图、漏斗图、仪表盘等等其他图表，也可以将各种图表进行组合显示，形成更复杂的图表。

可视化展现经常使用工具软件来实现，也可以根据实际情况，用ECharts等可视化图表来自己构建。

大数据报告编写

大数据报告是整个大数据分析流程的最终结果。

政务服务大数据报告是以一定的格式和规范，由熟悉相关行业知识和业务流程的专业人员，写出的专业报告。它具有下面几个特点：简单可靠、清晰明了、逻辑性强。

它的数据来源于网络，通过分析海量的数据，从不同的角度得出数据结论，最后根据这些，得出大数据报告的最终结论。政务服务大数据的报告，对用户情绪的关注度非常高。

由此可见，大数据报告是完全基于真实的数据，特别是由第三方大数据运营公司独立分析和编写的大数据报告，最终报告结论的可信度是很高的。

（作者单位：浙江省杭州市数据资源管理局）