微博的高校舆情监控系统设计

2018-06-07 06:48文展庞建刘捷张力
无线互联科技 2018年1期
关键词:爬虫网络舆情微博

文展 庞建 刘捷 张力

摘要:随着自媒体快速发展,网络舆论的负面影响日益凸显。文章以网络舆论敏感词为切入点,以高校学生为目标研究人群,针对其微博数据,提出高校舆情监控系统设计方案,通过自动爬取目标人群的原创微博内容,存储到本地数据库,并采用敏感词匹配的方式对微博内容进行判断。若出现敏感词则触发告警,通知高校网警等工作人员,从而实现高校网络舆情监控。

关键词:网络舆情;微博;爬虫;监控

校园网络舆论是当前影响大学生思想和行为的新兴力量,相比其他舆情监控,校园舆情监控有其特殊性,它的主体是参与意识强、好奇心理重的在校学生,导致网络舆论的聚焦和传播迅速。个别学生因为学业压力和心理原因,对社会事件的看法趋于偏激,产生不当行为。因此,学校有责任对倾向性、突发性、群发性的网络舆论及时进行疏导,有效化解偏激舆论,引导正确舆论。微博相比微信更加开放,成为网络舆论的主要集散地,也成为校园情绪宣泄的重要平台。虽然微博对于敏感言论可以实行举报,但长期以来发现,由于微博用户数量巨大,举报审核需人工进行,此项功能常常不管用。这就需要自动化网络舆情监控,对于敏感言论进行管理,达到净化网络空间的目的。

1 系统设计思路

针对校园舆情监控,首先获取1 000名成都某大学学生志愿者的微博账号,使用Python编写微博爬虫程序,并通过关键词(ID,用户名)模拟搜索,爬取相应的用户信息和微博内容,存入MySQL数据库,然后对数据进行处理,将含敏感词的微博内容过滤出来,列出其对应的微博账号,触发告警程序,以邮件形式通知高校网警等工作人员,从而实现对校园网络的舆情监控。11敏感词库创建

系统敏感词库是专门针对高校舆情本身的特征所建立的,大学生作为高校的主体,校园内与学习生活息息相关的一切事务都是其关注的焦点。另一方面,大学生作为思想觉悟较高和爱国热情强烈的社会群体,对社会各种焦点热点问题和国内外的重大事件也有极大的兴趣和关注度,对信息的关注自然会引发情绪、意愿、态度和意见的产生,进而会产生相关舆情的主题。通过查阅相关的文献资料和对近年来各大高校产生的重大事件进行梳理,并结合其相关的网络舆情信息,来建立敏感词库。文献把高校舆论产生的主题类歸结为时事政治类、高校内部管理类、高校安全类、大学生权益类、高校声誉类和大学生心理健康类。系统的敏感词也是围绕着这些主题类筛选的,具体明细如表l所示,并且系统提供对敏感词的管理模块,可以根据当前形势实时地更新敏感词库。

1.2网络舆情监控流程

网络舆情监控是指整合互联网信息采集技术及信息智能处理技术,通过对互联网海量信息自动抓取、自动分类聚类、主题检测、专题聚焦,实现用户的网络舆情监控和新闻专题追踪等信息需求,形成简报、报告、图表等分析结果,为客户全面掌握群众思想动态,做出正确舆论引导,提供分析依据。

本文提出了一个简单易行的网络舆情监控方案,首先获取监控对象的数据,存入数据库,然后通过敏感词判断,找出包含敏感词的内容和相应帐号,进行报警,其流程如图1所示。

其中,获取目标网站数据,指确定所要监控的目标网站,本文以微博作为监控对象,使用爬虫程序不间断获取前面所选取的1 000名大学生志愿者的微博内容;数据存储,指将爬虫获取的微博数据存入MySQL数据库,供分析使用;敏感词判断,指根据前面所选择的敏感词,对获取的微博数据进行分析对比,一旦发现敏感词,触发告警程序,将相应的微博账号和敏感微博内容通过邮件通知高校网警,网警将重点关注该报警名单上的微博账号,实现对高校网络舆情的监控。

2测试结果

舆情监控测试表明,基于该方案编程的程序能实现目标帐号的微博内容获取,并存入数据库,通过对网络舆情敏感词汇表的判断,实现敏感内容和帐号的报警,并形成舆情监控报告,发送至高校网警邮箱,网警对其进行密切关注。其中舆情监控报告包含ID、用户名、微博内容等多个微博账号数据,如表2所示(为保护隐私,省略了部分ID和用户名信息)。

因为篇幅原因,只取了测试结果的前3条。从微博内容可以看出,均含有敏感词汇。通过对微博帐号的关注,可以及时发现高校学生存在的问题,从而避免一些极端事件的发生。

3结语

据中国互联网络信息中心(CNNIC)统计显示,截至2016年12月,中国网民规模达7.31亿,其中大学生群体占到很大的比例。这部分人群通过互联网的社交网络、微博、即时通信,对各个热点问题表达自己的思想和态度,形成高校网络舆情信息。但由于校园网络没有时间、空间的限制,是一个比较自由开放的公共平台,校园发生的一些热点问题、突发事件都会以最快的速度在校园网传播。而大学生由于自身年龄、知识、价值观的限制,言论上会有一定的从众、倾向性,若是形成负面的网络舆论信息,会给高校的校园安全造成损害。

本文提出的高校网络舆情监控方案,可适用于微博、微信、博客、论坛等各种社交网络,通过舆情监控报告,为掌握高校大学生的思想动态提供依据,并进行积极引导和干预。

猜你喜欢
爬虫网络舆情微博
何以解忧?基于社交媒体大数据的睡眠健康公众叙事研究
利用网络爬虫技术验证房地产灰犀牛之说
基于Python的网络爬虫和反爬虫技术研究
利用爬虫技术的Geo-Gnutel la VANET流量采集
大数据环境下基于python的网络爬虫技术
事实与流言的博弈
浅析网络舆情治理
基于社会稳定视角的网络舆情预警机制构建的思考
重大突发事件中微博之力不微