基于云计算技术的网络舆情数据挖掘研究

2018-02-02 05:38易珩马琪琪朱玺谕顾振宇
电脑知识与技术 2018年1期
关键词:线性回归网络舆情云计算

易珩+马琪琪+朱玺谕+顾振宇

摘要:梳理现有网络舆情文献研究,基于云计算爬虫技术获取微博API开放平台大数据,量化影响网络舆情传播三大主要因素,利用SPSS统计学软件针对大数据进行数据挖掘,构建散点图、直方图、折线图等描述性统计量,进而利用R语言构建线性回归方程,并针对数据处理结果进行分析,揭示网络舆情传播特点,就网络舆情监管、处理、预防过程中的缺失提出建议,为现存网络舆情传播提供新的研究工具。

关键词:网络舆情;云计算;数据挖掘;描述统计学;线性回归

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2018)01-0032-03

1 社会背景

我们已迈入大数据时代,数据挖掘技术与云处理技术的融合运用于多方问题的解决,具有广泛应用性。作为网络舆情这一愈发突出的网络社会问题,我国此类研究仍处于初级阶段,停留在简单的理论分析层面。面对问题的发生,政府部门的解决方案仍多处于隐瞒、躲避等低效处理手段,往往治理效果不佳。现如今,计算机网络与云计算技术的发展与运用可有效地达到“事前预防,事中控制,事候安置”的效果,更好地解决舆情问题,保持社会的和谐安定。

1.2 研究现状

网络舆情现主要存在于中国,属于网络发展中的突出问题。国内现研究主要集中于基于社会学与管理学研究,主要探讨公众对于政府行政工作、社会矛盾等事件的態度与反应,多基于某一特定事件进行具体研究,利用问卷调查或理论描述分析,虽具有一定的现实意义,但是由于网络舆情其突发性、不稳定性与复杂性,事件涉及各方人员较为复杂,事件性质各不统一,研究缺乏基于大数据对于网络舆情的整体发展情况与影响因素进行广泛性研究。故本文将结合数据挖掘技术与云计算处理技术针对网络舆情大数据进行分析讨论,更具代表性与适用性。

2 相关理论

2.1 网络舆情

网络舆情是对社会舆情的反映,也是舆情在互联网上的映射[1]。随着现如今互联网已全面普及,据截至2017年6月中国互联网络信息中心(CNNIC)发布的2017年度《中国互联网络发展状况统计报告》,我国网民规模达到7.51亿。中国网民、新媒体更多地利用互联网平台进行发声,使得网络舆情的传播范围更加广泛,传播速度更加快速。

2.2 云计算

现如今,对于云计算没有确切的定义,在本文中,我们引用认可度较广的NIST定义。NIST 认为云计算是一种模式,能泛在地、便利地、按需地通过网络访问可配置的计算资源,如网络、服务器、存储器、应用和服务等,这些资源可实现快速部署与发布,并且只需要极少的管理成本或服务提供商的干预[2]。合理地运用云计算技术可以更为高效地预防、处理、监控网络舆情发展情况。

2.3 数据挖掘

所谓数据挖掘, 就是从大量无序的数据中发现隐含的、有效的、有价值的、可理解的模式, 进而发现有用的知识, 并得出时间的趋向和关联, 为用户提供问题求解层次的决策支持能力[3]。利用数据挖掘技术可以将舆情进行精准分类、特定分析、数据拟合,建立高效的数据库,实现快速准确的信息检索。

3 应用过程

3.1 数据选取

新浪微博以其会员人数众多、信息量较大、结合移动与PC端等优势,在网络信息的传播过程中成为主流平台,本次我们选取新浪微博作为数据源进行分析。

网络舆情按其政府在网络舆情应对中的角色,可分为涉及政府事件,政府作为当事方与非政府事件,政府作为社会管理者角色[4]。政府事件包含城管暴力执法等事件,非政府事件包含娱乐新闻等事件。近些年,网络舆情情况愈发突出,例2017年8月日,魏凯扬陪同学邓某某、唐某饮酒,导致下午开庭不能正常进行等涉及政府部门事件频发。政府由于其特殊地位,作为敏感性问题更易引起社会关注并造成社会动荡与政府公信力下降等严重后果,成为社会治安的又一不稳定因素。因此,本次将重点分析涉及政府类信息,讨论政府在舆情处理方面存在的缺失环节并加以改进分析。

3.1 数据收集

我们利用Python的爬虫技术编写代码用于搜集微博平台移动端与PC端涉及“政府”、“城管”、“法官”等敏感性字样的舆情数据,获取以下信息:①微博发表时间;②微博的内容;③发微博的工具(手机类型或者平台);④微博被转发的数量,以此作为本次研究的数据基础。

3.2 数据分析

首先探讨网络舆情传播程度与事件发布时间之间的关系。

将自变量定义为发表时间(以微博舆情事件发表时间表示),我们构建散点图将微博平台近3个月内343件转发数量大于500的涉及“政府事件”在时间轴中标出,分析舆情发生时间主要集中的时间段进行分析。利用SPSS软件进行描述性统计学分析,得出结果如下:

我们发现近3个月内343件“政府事件”发布时间多集中6:00至11:00白天的时间段,在夜间17:00以后呈明显下降趋势。

接着探讨网络舆情传播程度与舆情内容敏感字段个数之间的关系。

利用统计学多元线性回归知识,将定义为舆情内容(以内容涉及“政府”、“城管”等敏感字段个数表示),利用SPSS软件对于所选取数据构建散点图,得出结果如下:

通过图我们发现舆情数量与敏感词条个数存在正相关的线性关系,即敏感词条个数越多,转发数量越多,为进一步分析两者之间具体量化关系,我们利R语言构建一元线性回归,得出结果如下:

根据表1分析,二者所构建回归方程为: 即平均每增长一条敏感性词条,转发数量会平均增加710条转发数量,为此,得以证明敏感性词条个数对于最终舆情的传播效果有着重大的影响。

接着探讨网络舆情传播程度与传播设备端之间的关系。

利用SPSS软件绘制描述统计学直方图分析因变量与自变量:传播方式(以传播方式是否利用移动端设备/PC端设备传播表示)之间的关系,得出结果如下:endprint

由图可知,所获取的数据中消息发布者与转发者使用移动端设备传播的人数占绝大多数,大约占据所有转发数量的,由此可见移动设备端的传播对于舆情传播起更大程度的影响作用。

3.3 讨论和分析

根据网络舆情传播程度与事件发布时间所作折线图分析,微博发表时间多集中于6:00至11:00白天的时间段,在夜间17:00以后呈明显下降趋势,由此分析其成因有①涉及政府事件的网络舆情发生时间多集中于白天,且由于现如今移动设备的普及,导致社会实践可以在第一时间发布与传播;②涉及政府类事件的曝光可以有效达到舆论监督的效果,在白天有关责任部门可第一时间进行核实,确保事件的真实性并及时做出应对与措施,减少事件所造成的不良影响;③夜间多集中娱乐性等非政府类事件的传播,政府类消息的关注度有所下降,传播效果不佳,故各媒体人为新闻关注度择时而发。

根据网络舆情传播程度与舆情内容敏感字段个数所作散点图与一元线性回归所作结论,敏感性词条的个数会大大影响舆情传播的程度,由此分析其成因有①敏感性词条数量增多,反应此事件涉及多方矛盾,影响人群范围更加广,社会关注度更高,舆论监督力度更大,更易导致舆情的快速传播②基于微博等互联网平台信息检索功能,敏感性词条数量增多可以增强微博词条的搜索效果,其信息检索效果更佳,更易被搜索,可吸引更多网民关注。

根据网络舆情传播程度与传播设备端所作消息发布者与转发者使用移动端与PC端设备传播的直方图所示,移动端设备较PC端设备对于舆情的传播拥有更重要的地位,我们分析其成因有:①现如今,移动端设备普及度较高,据工信部公布《2017年第1季度通信水平分省情况》,报告显示我国,移动电话普及率为97.9部/百人,“移动网民”也成了网络安全中又一股重要的人群。②由于移动端设备其便捷性与实时性的特点,“移动网民”可以达到“随时发布、随时查看、随时评论”的便利,其便捷性也客观上增强了舆情传播的程度。

3.4 改进建议

针对网络舆情传播程度与事件发布时间问题,官方政府机构开通各类大型平台官方账号,开通便民反馈通道,加强平台监督与信息的实时反馈,白天进行具体事项的处理与监控,确保其面对突发的网络舆情可以及时接收、及时核实、及时处理,避免引起不良影响。

针对网络舆情传播程度与舆情内容敏感字段个数问题,面对敏感词条數对于舆情传播的巨大影响力,增设敏感性词条监控手段,网络安全部门设定敏感词条数警戒线,对于不当内容及时发现、核实、处理,减少网络舆论的不当引导与不良谣言的散播。

针对网络舆情传播程度与传播设备端问题,面对现如今移动端设备作为网络舆情传播中重要的用户使用工具,需要更加关注移动端设备信息的监控,完善网络实名制与网络信息的管理制度,关注“移动网民”的实时动态。

4 结论

本文以网络舆情中政府部门在网络舆情应对中所处角色,将其分为以政府作为当事方的政府事件与政府作为监管方的非政府事件。以政府其特殊性地位与其所易造成的公信力下降等严重影响,本文主要针对政府类实践研究。

通过Python网络爬虫技术获取微博平台所需信息,分别给予描述统计学与线性回归基础,利用SPSS与R语言软件构建散点图、直方图、线性回归,具体分析网络舆情传播程度与事件发布时间、舆情内容敏感字段个数、传播设备端三大影响因素之间的关系。分析得出事件发布时间多集中于6:00至11:00白天的时间段,在夜间17:00以后呈明显下降趋势;舆情内容敏感字段个数与舆情传播程度存在显著的正相关关系,平均每增长一条敏感性词条,转发数量会平均增加710条转发数量;消息发布者与转发者使用移动端设备传播的人数占绝大多数,大约占据所有转发数量的,对于舆情的传播起主导作用。后基于以上分析,并结合政府先行舆情管理模式提出针对性解决方案,旨在加强网络舆情的监督、预防与处理,确保网络社会的和谐。

本文主要利用统计学与计算机知识,利用现有的新型大数据处理工具,以独特的视角分析舆情事件其特征与传播过程中各因素影响情况。在之后的研究中,将研究范围拓展至非政府事件的研究,以更大的数据量使结论更具代表性。

参考文献:

[1] 曾润喜.网络舆情管控工作机制研究[J].图书情报工作,2009,53(18):79-8.

[2] Peter M, Timothy G. The NIST Definition of Cloud Computing[011-9-1]. http://csrc.nist.gov/publications/ nistpubs/800-145/SP800-145.pdf.

[3] 贺玲,吴玲达,蔡益朝. 数据挖掘中的聚类算法综述[J]. 计算机应用研究,007,(01):10-13.

[4] 王晰巍,邢云菲,赵丹,等. 基于社会网络分析的移动环境下网络舆情信息传播研究——以新浪微博“雾霾”话题为例[J]. 图书情报工作,2015,59(07):14-22.

[5] 余江,万劲波,张越.推动中国云计算技术与产业创新发展的战略思考[J].中国科学院院刊,2015,30(02):181-186.

[6] 王国华,冯伟,王雅蕾.基于网络舆情分类的舆情应对研究[J].廉政文化研究,2013,4(4):92.

[7] 梁俊山.基于云计算的政府网络舆情治理研究[A].燕山大学文法学院.学习十八大精神与河北沿海地区发展论坛论文集[C].燕山大学文法学院,2012:7.

[8] 丁胜锋,杨绍辉.数据挖掘技术在网络舆情管理中的研究[J].大学教育,2016(11):173-174.

[9] 何雅琴,朱葛俊,张飞.基于云计算的常州本地网络舆情特点与对策研究[J].常州信息职业技术学院学报,2013,12(1):92-94.endprint

猜你喜欢
线性回归网络舆情云计算
浅析网络舆情治理
基于社会稳定视角的网络舆情预警机制构建的思考
实验云:理论教学与实验教学深度融合的助推器