基于主动监测引擎和大数据的网络舆情烈度演化分析系统

2020-08-03 02:02杨森王黎李超
价值工程 2020年17期
关键词:烈度引擎舆情

杨森 王黎 李超

摘要:随着互联网技术和应用的发展,网络舆情在数据体量、复杂性和产生速度等方面发生巨大变化。因此本文提出网络舆情烈度演化分析必须在大数据分析的思维下应用主动监测引擎这一创新方式进行。

Abstract: With the development of Internet technology and applications, network public opinion has undergone tremendous changes in terms of data volume, complexity, and speed of production. Therefore, this paper proposes that the evolutionary analysis of network public opinion intensity must use the innovative method of active monitoring engine under the thinking of big data analysis.

關键词:主动监测引擎;大数据;网络舆情

Key words: active monitoring engine;big data;online public opinion

中图分类号:G206                                         文献标识码:A                                  文章编号:1006-4311(2020)17-0201-03

1  目的和意义

1.1 与项目研究内容紧密相关的公司实际生产力水平和今后的发展方向

目前公司舆情管理工作已经实现了对网络舆论信息的主动监测和舆情信息的流程化处置,工作质量和效率已经大幅度提高。通过主动监测引擎按照关键词在网络上进行定向元监测和全网监测,将公司关心的社会热点、行业热点、行业资讯和舆情等信息在不同的模块中进行展示。

总体上来说,舆情的全过程闭环管理分为五个阶段,分别为舆情监测、舆情研判、调查落实、处置引导、舆情归档。现阶段已经基本上可以全面、准确的监测网上出现的舆论信息,然而,舆论信息在网上出现后不是一成不变的。

一是作为监测手段,及时了解和掌握网络舆情信息的发展状况以及是否有扩大蔓延的苗头性的隐患。运用网络爬虫、大数据、人工智能等技术手段。

二是提高工作效率。人工手段对舆情信息烈度演化的分析方法,需要手动对舆情信息进行检索、统计与分析等各项操作,效率低下,难以适应新时代网络舆情工作。

三是受关注程度高。近年来互联网飞速发展,民众尤其关注政府及关系国计民生的重点企业的举动,因此有效的舆情监测和处置应对策略具有非常重要的意义。

1.2 项目成果对该现状和技术发展的作用

舆情信息烈度演化的过程,与源发媒体、话题类型、首发时间、跟帖量、转帖量、是否被大V关注、是否被主流媒体转载、是否和当前社会热点关联等因素有着极大的关系,需要通过监测分析手段的不断完善和预警能力的不断提高。

1.3 成果应用和推广的途径

基于主动监测引擎,实时监测网络舆论发展态势,建立舆情烈度演化大数据分析模型和预警机制,规范接入分析模型的各项因素,包括源发媒体、话题类型、首发时间、跟帖量、转帖量等信息。

①大数据应用:社会综治作为政府社会综合治理服务平台的一部分,应用主动监测和大数据分析,及时全面掌握互联网上出现的与本地区相关的舆情信息,形成“一口采集、多口使用”、“一方采集、多方使用”的信息采集与资源共享机制。

②信用建设:建设以大数据为支撑的信用分析技术平台,覆盖数据采集、整理、存储、数据挖掘和征信应用全生态,通过企业口碑监测实现企业信用评估。

③智慧政务:智慧政务管理平台对与各级政府辖区、各部门职责范围相关的各类互联网信息进行全面采集,一方面对敏感的、有害的舆情进行定性分析,做到“重要信息早发现”;另一方面对舆情事件进行定量分析,刻画发展态势、传播特点、核心节点、网民观点等。

1.4 成果推广后的直接和间接效益

①可以实现对与舆情信息发展态势有关的关键因素的实时监控,结合烈度演化大数据分析模型,按照数据接入规范,将各项关键因素数据接入分析模型,提前预判可能会出现的异常情况,指导工作人员有效的防止舆情扩大化。

②可以实现为公司各部门提供精准的网络舆论信息、情报信息和政策导向信息,比如为发展部提供新能源类的社会资讯信息和政策信息,为经法部提供电力体制改革的政策信息,以及重大决策发布后,民众对决策的评价。

③可以大幅度提高工作人员的生产效率,人工分析舆情信息的烈度演化,受搜索引擎、计算机水平和工作时间等因素影响较大,难以对舆情信息的烈度演化开展7*24小时的实时监测,工作效率相对较低。

2  国内外研究水平综述

2.1 与项目研究内容紧密相关的技术发展历史的简要回顾

随着互联网的发展壮大,人们获取信息的途径逐渐被网络所替代。互联网发展初期,人们主要通过浏览门户网站的方式获取所需信息,但是随着Web的急剧发展,用这种方式寻找自己所需信息变得越来越困难。

2.2 国内外研究水平的现状和发展趋势

中国互联网络信息中心(CNNIC)发布第45次《中国互联网络发展状况统计报告》,报告显示,截至2020年3月,我国网民规模为9.04亿,互联网普及率达64.5%,超全球平均水平。微信月活用户突破10亿,微博月活跃用户达5.16亿,庞大的网民构成了最重要的网络舆论场。

2.3 介绍国外研究机构或者公司对本项目的研究情况

舆情是中国独特政治社会背景和舆论生态环境的产物。网络舆情是极具现阶段中国政治与社会特色研究领域。国外网络媒体在反映社情民意方面的作用不及我国,研究相对较少,国外较多的关注网民进行网络内容创作、编辑与筛选。

2.4 介绍国内其他研究单位对本项目的研究情况

校企合作是网络舆情研究的特点,典型的如“中国人民大学-百度”中国社会舆情研究中心、“南京大学-谷尼”网络舆情监测与分析实验室、“清华大学-优讯”舆情实验室,促进了研究成果实践价值的展现。二是网络媒体,如人民网、新华网、中青网、天涯社区等知名网络媒体,纷纷建立舆情研究团队。三是商业部门,主要为政府和企业提供网络舆情监测服务的软件公司,从事工作包括网络舆情监测预警和舆情管理研究。

3  项目的理论和实践依据

3.1 项目的理论

在公司现有的主动监测引擎基础上,运用网络爬虫、文本聚类、NLP等技术。对出现的负面舆情信息的源发媒体、首发时间、话题类别、跟帖量、转帖量、是否被大V关注、是否被主流媒体转载、是否和当前社会热点关联、原有相似舆情是否引起舆情事件等影响舆情烈度演化的因素进行深度监测分析。

3.2 实践依据

①主动监测引擎现状:公司主动监测引擎是以网络爬虫为核心的舆论大数据监测系统,部署在特定机房中,通过9台高性能服务器支撑运行,每天对外监测并采集的数据超过60条万。(图1)

②技术实现路线:实现研究内容的技术有多种多样,例如JavaEE、.NET、PHP等,由于主动监测引擎和外联品牌业务系统都是基于JavaEE技术建设的,为了保持和原有项目同样的技术架构,提高研究的成功性,因此技术实现路线采取JavaEE技术。

③与公司外联品牌业务信息系统的集成:遵循模块化、可复用和面向对象的设计原则,借助可视化呈现和Echarts、HTML5等图形库技术,以时间轴图的方式展示舆情信息烈度在网络上演化传播的路径。

3.3 关键点和难点

文本语义分析和传播路径的追踪是本项目研究的关键点,单条舆情的转发关系会构成一棵树形结构,同一话题舆情的转发关系则会构成森林结构。利用网络爬虫、语义分析和文本聚类等技术,在网络中监测并采集与某一话题相关的所有信息,包括直接转发的、同义不同语法和不同词汇组成的。

4  項目研究内容和实施方案

舆情信息的研判和处置,与源发媒体、话题类型、首发时间、跟帖量、转帖量、是否被大V关注、是否被主流媒体转载、是否和当前社会热点关联等因素有着极大的关系。

4.1 主动监测引擎技术研究

精确、有效的关键因素数据是关键:

①依据舆情信息烈度演化分析模型需要的关键因素数据,需要对源发媒体、话题类型、首发时间、跟帖量、转帖量、是否被大V关注、是否被主流媒体转载、是否和当前社会热点关联进行监测和采集。

②能够对监测到的网络舆论数据进行相似度分析,保证文义相同的数据(同一个事情),但是词汇、语法不同的舆情信息可以有效的归集在一起,精确度必须大约95%。

③具有地域识别和分析功能,精准度必须大约80%。

4.2 外联品牌业务系统研究

①运用josn和restAPI技术实现主动监测引擎的数据接口,需达到7*24小时不间断运行的状态。②通过软件算法、接口业务数据和Echarts、HTML5等图形库技术,实现舆情信息烈度在网络上演化传播的路径以及标准范围对比雷达分析图的可视化呈现。③通过java技术将网络上演化传播的路径以及标准范围对比雷达分析图内置在舆情研判和舆情处置环节的各个关键流程点。

4.3 负面舆情信息时间-烈度演化可控范围标准及分析模型

可控范围标准是指导舆情研判和属地单位调查处置舆情依据。①过对近几年积累的海量舆论信息数据的结构化分析,结合ETL和大数据技术,研究源发媒体、话题类型、首发时间、跟帖量、转帖量、是否被大V关注。②运用软件算法,实现舆情信息时间-烈度演化分析模型,准确率需达到75%以上。③借助山东电力品牌短信通知,实现信息的预警提醒。

参考文献:

[1]董悦,王梦.基于情感分析与LDA模型的网络舆情案例研究[J].价值工程,2019,38(34):169-172.

[2]孙靖超.基于优化深度双向自编码网络的舆情情感识别研究[J/OL].情报杂志:1-6[2020-03-26].

[3]李传兵,马海瑞.贵州省中国特色社会主义理论体系研究中心省社科联基地.疫情防控中的网络舆情治理[N].贵州日报,2020-03-25(007).

猜你喜欢
烈度引擎舆情
高烈度地震区非规则多跨长联连续梁抗震分析
舆情
舆情
舆情
无形的引擎
基于Cocos2d引擎的PuzzleGame开发
318国道沿线芦山地震的震害特征与烈度区划探讨
微博的舆情控制与言论自由
什么是地震烈度,它与震级有什么不同
One Engine Left只剩下一个引擎