一种基于地理空间大数据的网络舆情监测软件架构

2017-04-10 11:53杨宗亮张玉茜李建飞
测绘通报 2017年3期
关键词:舆情数据挖掘监测

杨宗亮,张玉茜,李建飞

(1. 武汉大学国际软件学院,湖北 武汉 430079; 2. 深圳市数字城市工程研究中心,广东 深圳 518034;3. 西安交通大学新闻与新媒体学院,陕西 西安 710049)

一种基于地理空间大数据的网络舆情监测软件架构

杨宗亮1,张玉茜2,李建飞3

(1. 武汉大学国际软件学院,湖北 武汉 430079; 2. 深圳市数字城市工程研究中心,广东 深圳 518034;3. 西安交通大学新闻与新媒体学院,陕西 西安 710049)

在梳理网络舆情大数据相关理论的基础上,对网络舆情监测软件的发展现状作了全面分析,结合舆情监测系统对地理空间信息的需求和现有的不足,提出了一种基于地理空间大数据环境的网络舆情监测系统的软件架构,实现地理空间数据环境下网络舆情的数据采集及处理、地理空间专题网络舆情的可视化、地理空间深层次的数据挖掘、网络舆情的时空关联性分析等功能。研究已得到一定的实践检验,结合地理空间数据可提高网络舆情监测和管理的高效性,能有效监测网络热点事件,做到科学辅助决策。

网络舆情监测;体系结构;地理空间大数据

网络舆情[1- 3]是社会舆情在互联网空间的映射,成为社会舆情动态的实时晴雨表,其产生、形成、传播和影响一般经过多步骤的变化,持续发酵,最终产生强大的网络舆论压力,进而影响政府决策[4- 5]。

网络舆情传播速度快,影响范围广,既能产生正面作用,也能产生负面作用。网络舆情在虚拟的网络中产生并迅速传播,影响着在地理空间位置分布各异的社会个体。社会个体(包括网民、社会团体等)可能来自不同的地域,网络舆情事件也由地理空间信息中的点状信息,迅速通过网络传播,变成线状信息或面状信息,甚至多点、多线、多面信息的集合。网络舆情的产生与发展中也有与之相伴的区域环境、社会人文等密切相关信息。结合地理空间信息对网络舆情的空间分布特征进行描述,有利于相关部门对网络舆情的产生、传播等动态发展进行监控与分析,并提出有效的决策及处理措施。

各级行政机关、企事业单位和教育科研机构都越来越重视互联网舆情的收集、分析、研究和引导工作。如何获取、分析网络舆情数据,挖掘潜在信息才能更好地服务科学决策,已引起越来越多的重视。

1 网络舆情监测软件的比较分析

网络舆情监测,是指通过对网络各类信息汇集、分类、整合、筛选等技术处理,研判网络热点、动态、网民意见等,简言之,即对网络舆论情况的收集、分析。随着网络舆情重要性的凸显,政府和企事业对网络舆情监测的需求不断上升,这推动了舆情监测软件的发展。目前舆情监测市场存在着多个舆情监测系统软件产品,但由于软件开发者的关注角度不同,处理的业务和关注点也存在差异,因此网络舆情监测系统软件评价的指标和侧重点也不尽相同。

国内主要的网络舆情监测软件[6]各具特色,所实现的功能有较大差异,表现形式各有不同。大部分软件能够完成对网络舆情数据的采集,并对采集的网络舆情数据进行内容分析、信息提取、分类,实现对各大搜索引擎、门户网站、博客、贴吧、论坛等多种网络载体的监控,监测重大事件(如重大灾害、重大事故)、突发事件、危机事件(如敏感性话题)、民众诉求(如网民政治意见)、正面报道等,分析舆情主题和舆情趋势,提供舆情预警、舆情分析报告。

大多数软件利用搜索引擎、文本数据挖掘、自然语言处理等技术可实现对网络舆情数据的获取、分析,但在对网络舆情事件的地理空间位置、影响区域范围、同类事件的多地域关联性等的分析方面表现较弱。因此,结合地理空间大数据分析网络舆情、地理空间专题网络舆情的可视化、网络舆情的地理空间深层次的数据挖掘、网络舆情与地理空间信息的关联性分析等有待加强。

2 网络舆情监测对地理空间数据的需求

通过网民的日常网络访问产生的海量数据[7],获取到网民的日常行为、关注点和兴趣点等一系列有价值的网络舆情信息。把网络舆情IP等数据映射到地理空间中,从地理学角度分析网络舆情,借助GIS可视化及空间分析技术来分析和挖掘网络舆情的时空特性。利用地理空间大数据可以真实反映地理空间特征下的网络舆情,分析舆情起源的地理位置、舆情的集散地、传播区域,或对同一地区的不同舆情进行比较,对不同地区的舆情进行对比,对不同时期的同一区域同类事件进行研究,深层次挖掘在统计时段内所研究舆情在地理特征下有价值的信息。

大数据时代为网络舆情监测提供了更好的数据源[8- 9],但同时也为网络舆情数据的处理、分析和应用带来了挑战。①海量非结构化数据,分析难度大。大数据时代数据的结构正在发生变化,包括网页数据、文档数据、图片数据、音频数据和视频数据在内的非结构化数据的增长远远超过结构化数据。传统的数据挖掘算法多是基于封闭的结构化数据进行挖掘,对于半结构化或非结构化数据无能为力,难以在宏观和微观上把控舆情整体规律、变化趋势。②数据中心是大数据采集、处理、分析的核心部位,舆情管理离不开数据中心的支撑,但建设大数据中心的成本高昂。③随着微博、微信、新闻客户端等基于移动互联网技术开发的应用的普及,舆情传播速度更快,已经进入秒传播时代。这就对及时捕捉和发现舆情提出了更高的要求。④利用大数据进行舆情分析、研判、预警需要专家知识支持,对人们解读和运用数据的能力要求更高。

利用地理空间大数据[10]可以全面观察舆情的整体态势;可以对网络舆情个案进行数据采集、数据分析;还可以通过大数据不断增强关联舆情信息的分析和预测,并对舆情进行深入研判拓展,通过对同类型舆情事件历史数据及影响舆情演进变化的其他因素进行大数据分析,提炼出相关舆情的规律和特点,分析出危机可能产生的各种条件和因素,增强对同类型舆情事件的认知和理解,帮助我们更加精准地预测未来。通过网络数据采集、大数据挖掘和分析技术,整合外部互联网数据,通过数据的融合,进行多维数据的关联分析,进行多角度、多维度数据的深度分析和挖掘,迅速发现网络舆情关键要素,实现专业的数据应用,达到基于数据驱动的科学决策与科学治理,正确引导和把握舆情发展方向,有针对性地解决社会治理难题。

3 基于地理空间大数据的软件架构

通过分析国内主要的网络舆情监测软件的优缺点,为了更好地发挥基于地理空间特征大数据的优势,笔者结合实际工作,完善地理空间大数据的分析、地理空间专题网络舆情的可视化、地理空间深层次的数据挖掘、网络舆情的时空关联性分析等功能,构建了一种基于地理空间大数据的网络舆情监测软件体系结构,如图1所示,该架构可分为5层:数据采集及处理、计算存储、数据挖掘分析、应用支撑和决策服务[11]。

数据采集及处理是网络舆情监测的基础,主要对网络上的舆情信息进行采集,通过搜索引擎、网络爬虫等对网络热点、舆情相关信息进行抓取,并对获取的网络舆情数据进行处理,如预处理、数据清洗、数据校核、数据治理、数据匹配,甚至需要语义分析,在完成关键词提取、全文索引建立、重复信息去除、结构化转换、分区存储等工作之后,存入数据库。网络舆情数据采集的深度、广度、范围视不同的舆情关注点可设置搜索范围及信息访问深度。根据各项指标综合计算舆情热点、负面信息、专题分析等,实现自动文本分类、内容聚类分析、观点倾向性识别、主题检测与跟踪、自动摘要等,并在大数据分析基础上实现海量数据中自动推送用户真正关心的舆情线索。在实施过程中可通过对训练集进行特征提取及向量表示,生成向量空间模型,然后与预处理文本进行比对,从而得出预处理文本的关键信息。

图1 基于地理空间大数据的网络舆情监测的技术架构

计算存储主要为了提高大数据分析处理响应速度,可采用分布式存储,并利用并行计算、集群等高性能计算模式为网络舆情监测提供性能支持。

数据挖掘分析[12- 13]主要侧重建立网络舆情分析所用的模型库、方法库,并利用常用的数据挖掘分析工具对网络舆情数据进行深度分析,结合应用统计学理论、空间分析和统计方法,对网络舆情进行地理空间大数据分析、地理空间专题网络舆情分析、探究网络舆情的地理空间特征、网络舆情地理空间关联性分析[14]。

应用支撑主要提供平台通用组件,如可视化、用户管理、权限管理、OLAP、报表管理、日志管理[15]、地理空间信息支持的GIS组件等,为系统功能的运行提供支持。

决策服务为用户提供舆情监测、舆情分析报告、专题舆情报告、舆情地理空间分析、舆情时空关联性分析,包括热点搜索、关键词搜索、汇总统计、自动推荐关键词及生成各类用户需要的统计报表等。

在架构的各层次中,各层的侧重点不同。其中,对于数据挖掘分析层,为了提高用户使用的方便性、舆情监测的智能化,可根据用户需要完善模型库、方法库,并利用数据挖掘技术提高舆情监测的准确性和高效性。在实施过程中,需要建立专业的方法库、模型库。其中方法库利用系统动力学、数理统计学、数据挖掘技术等;模型库利用网络舆情主题词识别、研判、评价等技术进行实现,涉及的关键技术主要有敏感词识别技术、舆情热点分析技术、舆情主题深度分析技术。

敏感词识别技术针对为逃避计算机的自动识别,经常通过变化形式出现的敏感词汇,进行多模式模糊匹配的敏感规则过滤算法可将字型拆分和拼音转换分成两步处理,并加上了屏蔽字串集以应对无效字符的干扰,以达到模糊匹配的效果。

舆情热点分析技术针对互联网中每天出现的网络舆情,基于时间和网页重要性等综合因素的舆情主题的评价策略,通过该评价策略对舆情主题进行排序、合并、调整和淘汰,实现针对持续互联网舆情信息流中热点舆情主题的有效检测。衡量网络舆情主题的重要性,应考虑多种因素:①舆情主题相关的新闻报道的篇数;②舆情主题新闻网页发布位置的权威性;③舆情主题新闻网页被点击和跟帖情况;④随着时间的推移,新闻重要性应慢慢减弱。因此,可结合时间衰减和网页原始权重相结合的方法来计算舆情主题的权重。

舆情主题深度分析技术包括舆情主题传播分析技术、舆情主题演化分析技术、舆情主题关联性分析技术。传播分析需要对同一舆情主题的舆情信息进行时间识别并按时间排序,形成一个由老到新的序列;然后依次检查该序列中的每条舆情信息,判断其是否与其前面的各舆情信息构成传播关系,并以拓扑图的方式来描述这种传播关系。舆情主题随着时间不断发展变化且通常是有一定规律的。分析舆情主题的发展演化规律有利于动态掌握舆情状况和发展趋势,以便在必要的时候进行舆情预警和引导应对。对多个网络舆情主题进行关联性分析,可更好地提供决策支持和数据服务。

4 应用验证

在实际应用中,系统可进行网络舆情监测,统计分析形成舆情分析报表,包括常规的舆情分析报表、专题舆情报表等。报表格式有多种,如某时间段内的热点舆情事件排名表,其格式见表1,其中地理位置和地理空间大数据结合,可以更好地分析网络舆情热点事件的发生地和辐射区域;某年不同舆情领域压力指数,其格式见表2,该表可对网络舆情进行分类统计,如社会矛盾、公共安全、吏治反腐等各类事件的相关参数,其中辐射区域可更方便地看出舆情事件的受关注或受影响的区域,结合GIS可进行舆情事件影响的空间分析,即区域叠置分析并进行“并”操作,形成新的面状地物,即舆情波及区域;也可进行时空关联性分析,即对某个或某类网络舆情多时间点、多地点多区域的数据进行时间序列上的空间关联性分析,形成动态时序图,更好地展示网络舆情发展的时间、地点的变化情况。

表1 舆情事件热度排名格式

表2 某年不同舆情领域压力指数统计格式

在对网络舆情进行地理空间分析时,可对特定的或同类的网络舆情事件进行过滤,并对其在地图上进行展示。对网络舆情事件进行监测分析,可通过散点图、热力图、柱状图、饼图、时间序列图等多种方式进行展示。

对于网络舆情热点事件多个分布点,可以将点状地物和底图(包括线状、面状地物)进行叠置分析,并形成舆情事件关注点分布图(可用常规的空间分析工具完成),反映出网络舆情事件的分布情况及影响范围。对网络舆情数据关注热度进行分析,可对点集采用K- Means、层次聚类的完全链接法等方法进行空间聚类分析[17](借助统计分析工具SPSS、R及相关软件包)[18- 19],将聚类分析结果叠加到地图显示,如图2所示,反映出不同地理区域对网络舆情事件的关注程度。

对多地点或多地域的网络舆情事件进行时空关联性分析[20- 21]时,根据位置相似性和属性相似性的匹配情况进行测度,利用空间关联指数,如Moran’s I[22]、Geary’s C、Getis- Ord G分析评价全局或局部事件之间的关联性。对同一或同类网络舆情事件的多时间点数据,结合事件的属性信息,可进一步在地理空间数据的基础上作时空关联性分析。

图2 特定区域网络舆情事件关注热力

5 结 语

本文通过分析现有国内主要网络舆情监测软件的优缺点,找出了现有软件的不足,结合实际应用,利用大数据技术建立了大数据环境下的网络舆情监测系统的软件架构;在该架构下利用敏感词识别技术、热点分析技术、舆情主题深度分析技术,并建立了深层次数据挖掘所需的方法库、模型库,结合空间分析、空间统计、数据挖掘等专业分析工具,实现了网络舆情的数据采集及处理、舆情地理空间大数据分析、地理空间专题网络舆情的可视化、舆情时空关联性分析等功能。该软件架构在实际项目中得到了应用,得到了初步验证,通过结合地理空间数据提高网络舆情监测和管理的高效性,有效监测网络热点事件,做到科学辅助决策。

[1] 王青,成颖,巢乃鹏.网络舆情监测及预警指标体系研究综述[J].情报科学,2011(7):1104- 1108.

[2] 陈新杰,呼雨,兰月新.网络舆情监测指标体系构建研究[J].现代情报,2012(5):4- 8.

[3] 白雅琴,张银川.网络舆情监测系统在社会舆情分析中的作用[J].网络与信息工程,2014(S0):73- 74.

[4] 朱恒民,苏新宁,张相斌.互联网舆情演化的动态网络模型研究[J].情报理论与实践,2010,33(10):75- 78.

[5] 谈国新,方一.突发公共事件网络舆情监测指标体系研究[J].华中师范大学学报(人文社会科学版),2010,49(3):66- 70.

[6] 国内舆情监测系统特点比较(2015年)[EB/OL].2015- 07- 25. http:∥www.doc88.com/p- 7157706904649.html.

[7] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146- 169.

[8] Big Processing of Geospatial Data[EB/OL].[2016- 03- 15]. http:∥www.opengeospatial.org/blog/1866.

[9] 唐涛.基于大数据的网络舆情分析方法研究[J].现代情报,2014,24(3):3- 11.

[10] Geospatial Analysis- A Comprehensive Guide[EB/OL].[2016- 03- 15]. http:∥www.spatialanalysisonline.com/HTML/index.html.

[11] 李奕.大数据应用方式:从数据服务、信息服务到知识服务[N].中国计算机报,2012- 07- 09(24).

[12] The R Project for Statistical Computing[EB/OL].[2016- 03- 15].https:∥www.r- project.org/.

[13] OYANA T J,MARGAI F M. Spatial Analysis: Statistics, Visualization, and Computational Methods[M].[S.l.]:CRC Press,2015.

[14] HAN J. Data Mining: Concepts and Techniques[M].3rd ed.[S.l.]:Morgan Kaufmann,2011.

[15] 邓双祥.一种搜索引擎日志分析的网络舆情监测探究[J].网络安全,2014(7):178- 179.

[16] IBM SPSS Software[EB/OL].[2016- 03- 15]. http:∥www.ibm.com/analytics/us/en/technology/spss/.

[17] BRIAN S. Everitt, Cluster Analysis[M]. 5th ed.[S.l.]:WILEY Press,2011.

[18] KABACOFF R I. R in Action[M].2nd ed.[S.l.]:Manning Press,2015.

[19] ROBBINS N B. Creating More Effective Graphs[M].[S.l.]: Chart House,2013.

[20] Esri.Spatial Analyst 工具箱概述[EB/OL].[2016- 03- 15].http:∥pro.arcgis.com/zh- cn/pro- app/tool- reference/spatial- analyst/an- overview- of- the- spatial- analyst- toolbox.htm.

[21] Esri.空间统计工具箱概述[EB/OL].[2016- 03- 15].http:∥pro.arcgis.com/zh- cn/pro- app/tool- reference/spatial- statistics/an- overview- of- the- spatial- statistics- toolbox.htm.

[22] Moran’s Autocorrelation Coefficient in Comparative Methods[EB/OL].[2016- 03- 15]. https:∥cran.r- project.org/web/packages/ape/vignettes/MoranI.pdf.

An Architecture of Public Sentiment Monitoring Based on Geospatial Big Data

YANG Zongliang1,ZHANG Yuqian2,LI Jianfei3

(1. International School of Software, Wuhan University, Wuhan 430079, China; 2. Shenzhen Research Center of Digital City Engineering,Shenzhen 518034, China; 3. School of Journalism and New Media, Xi’an Jiaotong University, Xi’an 710049, China)

Several popular software of Internet public sentiment monitoring were compared and their advantages and shortcomings were comprehensively analyzed. A software architecture for Internet public sentiment monitoring based on geospatial big data was proposed. It has been tested with data acquisition, data processing, visualization of thematic networks with public sentiment, geospatial thematic map on public sentiment, geospatial spatio- temporal correlation analysis and other functions. The research has been applied to the actual project. The reslut improved the efficiency of the public sentiment monitoring system. It can be effectively used to monitor network hot events and to make a scientific decision.

Internet public sentiment monitoring;software architecture;geospatial big data

2016- 05- 11;

2016- 06- 07 作者简介: 杨宗亮(1975—),博士,主要从事空间分析与建模、空间统计、空间大数据分析、移动地理信息服务等方面的研究。E- mail:YangZL@whu.edu.cn

张玉茜

杨宗亮,张玉茜,李建飞.一种基于地理空间大数据的网络舆情监测软件架构[J].测绘通报,2017(3):96- 100.

10.13474/j.cnki.11- 2246.2017.0093.

P208

A

0494- 0911(2017)03- 0096- 05

猜你喜欢
舆情数据挖掘监测
改进支持向量机在特征数据挖掘中的智能应用
特色“三四五六”返贫监测帮扶做实做细
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
数字舆情
数字舆情
软件工程领域中的异常数据挖掘算法
消费舆情
网络安全监测数据分析——2015年12月
网络安全监测数据分析——2015年11月