网络舆情监测及报告系统在高校中的应用

2020-11-02 02:36林伟伟
电脑知识与技术 2020年26期
关键词:数据分析数据挖掘

林伟伟

摘要:目前微博、微信、博客等网络自媒体的出现使得任何人都可以通过网络取得信息。为了帮忙高校进行有效的政策制定,高校可以通过网民的讨论信息发掘目前大众所关注涉及高校的议题与舆情焦点。通过对巨量的网络数据进行文字挖掘可以帮助高校分析网民关注的议题,从而可以进行即时回应,或者加强政策沟通,还可以作为后续政策制定和舆情汇集的基础。高校通过舆情系统的研究可以有效了解网民对于舆情的关注点并准确预测未来议题发展方向。当高校相关单位所发布的信息与网民所关注的议题焦点有差异时,就可以及早地进行处理,从而能提升高校管理效率与满意度。

关键词:Web信息;数据分析;数据挖掘;信息聚合;正文抽取;文本聚类

中图分类号:TP311        文献标识码:A

文章编号:1009-3044(2020)26-0221-02

1 引言

网络将人与人之间的距离拉近,不同来源的信息也随着网络的便利性快速的传播开来。网络上的信息可能来自新闻媒体,个人经验、小道消息、新闻报道等。通过网民在网络中的公开讨论,使得网络信息的构成更加丰富多元。现在网络的出现使得任何人都可以通过网络取得信息。高校也可以通过巨量网民的讨论信息,发掘目前大众所关注的涉及高校的相关议题与舆情焦点。通过对巨量的网络数据进行文字挖掘即可以分析网民关注的议题,从而作为高校政策制定和舆情汇集的基础。现在人们宁愿从网络上其他个体(如网友)或在线社区中取得信息而非通过正式机构发布的信息,因此应着重开源信息(open source information)的收集。近年来,开源信息变得越来越有价值,包括网络新闻(news sites)、留言板(discussion boards)或聊天室(chat rooms)、博客等通常都可以作为某些事件或活动的报道与指引。高校通过对舆情系统的研究可以有效了解网民对于舆情的关注并准确预测未来议题发展方向。当高校相关单位所发布的信息与网民所关注的议题焦点有差异时,可以及早地进行处理,提升高校管理效率与满意度。

2 网页信息处理流程

2.1 预处理

总体上说,网络中各种Web信息是大量且零散分布在不同的在线社区中。从理论上而言,不管是文字、声音、图像或照片等多媒体形式的信息内容都可以被收集,但就技术层面而言,除了文字在收集后较容易进行自动化分析外,其他信息形式即使被收集了,其自动化分析部分尚须投入大量的研究,而且技术难度很高,所以本研究将着重以文字层面的自动化收集与處理机制作进行说明。网页抓取(Web Crawler)是一套软件或程序,通过自动化的方法在互联网中通过标准的http协议(Http Protocol)搜寻超文字链接与相关网站的文件,常被用来从网站上抓取网页的信息,如文章的标题、内容和作者等。一般来说,网页抓取也常被称为网络爬虫(Web Spider)或网络机器人(Web Robot),它的功能包括了个人化搜寻、收集网页、备份文件及网站统计。通常使用网页抓取技术可以帮助研究者自动收集网络中事先设置好的标的信息(target information),将其传送回来后再分门别类地储存在数据库中,供后续的研究与分析。

本舆情系统使用网络爬虫等现有的软件将指定网站的内容存储到本地硬盘,同时去除HTML文件中特殊的标记,将我们感兴趣的文本提取出来,并按照一定的格式存储到数据库中。本文需要提取的内容包括标题、文章内容等;然后分别读取每一篇文档,对其进行分词处理,去掉停用词(Stop Words)(自己定义),统计每一个词的词频,应用经典TFIDF方法计算出每个词的权值;最后将这些信息保存到数据库中。

2.2 文本特征向量化

在中文的文章里,词与词之间是没有明显的区隔,词可由一个以上的相邻中文字所组成。中文文本与英文文本的相异点在于:中文文本如果没经过中文分词技术进行前置处理,将无法拿来作后续文件分析处理,因此采用合适的中文分词技术是重要的。过去有许多的分词技术不断地被发表出来,而最常见的中文分词技术主要可以分为三大类:词库式分词(word identification)、统计式分词法与综合前面两种分词方法的混合式分词法(hybrid word identification)。词库式分词法通常配合词库或辞典一起运作,根据一些规则逐步排除不可能的词语组合,达到较好的分词结果,但由于受到词库质量的影响,当句子中出现新生的词汇,将使分词正确性降低;若要提高分词正确性,则应不断新增词库词汇,如此则会大幅降低实际分词时的效率。统计式分词法是基于对语料库(corpus)的词语统计训练,以邻近字元同时出现的频率高低作为分词根据,优点在于执行效率高,但多只能处理二字词和单字词。混合式分词法则是综合以上两种方法,利用词库找出不同组合的词汇,再利用词汇的统计信息找出最佳的分词组合。该方法先利用词典搜寻可能的分词组合,接着利用构词规则简化分词组合,再以一阶马可夫概率模型排列出所有可能的结果,然后根据概率值排列所有可能的分词组合,最后使用HPSG剖析器(Head-driven Phrase Structure Grammar Parser)逐一过滤这些分词组合,确认该分词组合是否符合文法。

目前国内最常使用于学术研究的是北京中科院ICTCLAS分词系统,该系统提供了中文分词与词性标注的服务,使用者可以免费试用它的简化版在线分词系统或申请账号后通过网络连线到该服务器处理中文文本。ICTCLAS系统包含一个约10万词的词汇库,每周固定更新与维护数据库,因此本研究选定该分词系统作为中文文本前置处理的分词工具。

一般而言,通过网络爬虫从网络上抓取下来的网页称为可用文本(texture)。文本须经通过前置处理挖掘出具有代表性的舆情特征词汇,接着再判断其特征词汇是否具有代表性或是鉴别力。本文通过ICTCLAS系统自动标记分词后的词汇特性,进行词性合并的动作,以获取出具有意义的特征词汇。本文首先根据本文信息挖掘出的各个特征词,然后采用向量空间模型(VSM),计算出每个单词的权重,而每个权重就代表着向量的一个维度,所有特征词的权重值就组成了文本向量。

2.3 Web信息发现

向量空间模型(Vector Space Model, VSM)最早是由Salton与Gill(1983)所提出的,向量空间模型是以文本向量为基础,而建立词汇—文件矩阵(Term-Document Matrix)是它的核心思想。可以利用VSM来计算文章之间向量的相似度来进行聚类(Cluster)或分类(Classification)的处理。VSM也是文件索引向量(index vector)与关键词的重要性(term significance)的计算的重要参考根据。本研究特征词权重当作向量空间模型的基底,然后计算文本的相似度,找出有高度关联的文本,并根据这些特性进行分类,此种文本汇聚所得出的内涵就是了解该类文本所描述舆论或事件方向的过程。文本相似度计算在信息处理的相关研究是最常被使用的技术,如文件检索、分群和分类等。

2.4 Web信息热度计算

社会焦点话题或敏感话题识别是根据信息来源、发言评论数量、时间及密集程度等参数,识别一定时间范围内的热门话题,并利词语权重及语义分析技术,识别出敏感或焦点话题,了解舆论现状。对已分析的特定主题在文本自动收集时作自动追踪,收集相同舆情主题的后续文本,并对正在分析的文本,经分类技术后根据权重设置主题。对每个话题或者发表文本的观点,通过文本分类技术,进行类别或倾向性分析、统计,勾勒出话题范畴与轮廓,同时分析某个主题在不同的时间段内人们所关注的程度及趋势。目前关于热点发现的算法都是基于热点词与话题的附属关系,基本原则是出现热点词频率较高的话题即为热点话题。这样有可能会出现局部较热,但是由于话题较分散,因此在所属类的热度并不高。为了避免该现象的发生,本文从宏观的角度先对相似话题聚类,然后在分类的基础上进行热度计算,从而提高了热点计算的精度。

个体平均相似度定义为类中某一文档与其余文档的相似度求和后取平均值,然后同一类中所有文档的个体平均相似度再取一次平均值,就得到了类平均相似度。引入这个概念的目的是减少内部比较杂乱的类的热度打分,可以说,其散度直接决定了其热度。类平均长度为对类中的文档整体求一次平均值,主要目的就是消除有的文档过长或过短从而对热度造成的损伤。通过计算Web信息的熱度和Web信息的出现频率可以很好地对Web信息进行排序,从而实现对目前网络中最新的Web热点进行跟踪,及时的监控网络中存在的热点,从而为高校相关部门留出快速处理的时间。

3 舆情系统数据分析

舆情数据的分析工具不同于传统社会科学分析方法。本文讨论以下几种类型:时序分析、关联分析以及情绪分析。随着信息科学技术和研究方法的发展,未来数据分析类型将更趋多元。

3.1 时序分析

时序分析也可用于预测议题趋势或生命周期。这类分析根据信息科学/统计建构的计算模型(例如 Hidden Markov Model),侦测并记录舆情讨论的生命周期,并将各种时序相关模型储存在数据库中,用来预测讨论的发展趋势。

3.2 关联分析

关联分析使用舆情产出的关联数据(relational data),其主要目的是观察使用者之间的关系脉络。例如,当微博平台使用者转贴(retweet)另一使用者文章,便在平台上留下转贴/被转贴者账号,此记录关联两位使用者,可视为网络节点(nodes)和链接(links),上述数据经过萃取和编码,可进行分析,以表征转贴者和被转贴者之间的社会关系。

3.3 情绪分析

情绪分析可视为一种特定的文本分析。研究者先从文本中挑选出目标词汇,然后比对这群词汇的情绪特征,来判断文本属于正向或负向情绪。情绪分析通常必须先断词,然后根据事先建构的情绪辞典(事先经过情绪属性分类的词汇群组),使用机器学习方法或者数据挖掘方法,识别词汇的正/负情绪类别,最后经过统计和整合,来判断该文本的情绪倾向。

4 总结

现在人们对社会现状的声音已不仅表现在其人际交往中,更进入网络的世界。假如高校能事先掌握社会舆论的动向,便能在其扩大而引发实际事件前先制订应对的对策,消除事件发生的可能性。在网络环境下,高校管理人员需要顾及社会舆论,这无疑加重其工作负荷。本文通过Web信息聚合技术的研究完成对Web信息的聚类分析,完成对Web热点的计算和追踪。通过舆情系统的研究高校可以有效了解网民对于舆情的关注并准确预测未来议题发展方向,就可以进行相应的应对。当相关单位所发布的信息与网民所关注的议题焦点有差异时,可以及早地进行处理,就能提升高校管理效率与满意度。

参考文献:

[1] 贾玉韬.新媒体时代网络舆情的收集和引导[J].新媒体研究,2017(3):7-8.

[2] 马晓东,刘亮.新媒体时代高校网络网页的传播特征及管理对策[J].湖北函授大学学报,2018(1):30-31.

[3] 张耀之.网络舆情语义识别的技术分析及识别流程构建[D].长春:吉林大学,2016.

[4] 王子豪,崔浩.大数据背景下的网络网页技术分析[J].新闻传播,2018(14):113-114.

[5] 杨兴坤,廖嵘,熊炎.虚拟社会的舆情风险防治[J].中国行政管理,2015(4):16-21.

【通联编辑:代影】

猜你喜欢
数据分析数据挖掘
基于并行计算的大数据挖掘在电网中的应用
浅析大数据时代对企业营销模式的影响
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究