网络舆情中的大数据分析方法研究

2017-12-29 23:48常卫东刘完芳

求知导刊 2017年28期

常卫东+刘完芳

摘要：网络舆情是指在网络空间中对网民和生活中的社会事件尤其是一些突发事件的看法和态度。网络舆情通常涉及社会的热点事件，因而经常在网络中快速传播，成为人们谈论的焦点。因而，对网络舆情进行分析和正确的引导显得尤为重要。文章采用大数据分析方法分析网络数据，通过聚类的方法发掘网络舆情中的热点问题。实验证明该分析方法具有较高的热点挖掘能力和及时的能力。

关键词：网络舆情；大数据分析；统计方法

一、舆情信息的获取

舆情分析的第一步是要对网页中的信息进行抓取，第二步是对抓取的网页的信息进行预处理。

对网页信息抓取主要采用网络爬虫，爬虫的主要作用是将互联网上的网页下载到本地形成一个互联网内容的镜像备份。它既可以爬取网页链接，又可以爬取网页的文本信息和图像信息。它通过关键字的搜索将对应的统一资源定位为相关的网页页面进行抓取，通過对其进行文本和图像的解析，提取对应网页的文本和图像信息并进行保存。本文中主要提取的是网页的文本信息。

而中文分词是把中文中的汉字系列分割为一个个独立的中文词汇。由于中文词汇与词汇之间的界限远不如英文单词那样清晰，因此，中文分词也是一个技术难点。当前中文分词主要是从主要包括字符串匹配分词方法和机器学习的统计分词方法。字符串匹配分词方法是事先通过一定的方法建立一个庞大的数据库字典，按照一定的方法把待分词的词汇与数据库字典中的词进行匹配从而实现分词的方法。机器学习的统计分词方法是通过词汇出现的频率和在文中的含义等信息对汉字的这些特征进行训练，从而实现分词。字符串匹配分词方法比较准确，但缺乏灵活性，机器学习的统计分词方法能对词的语意进行识别，但由于算法的不完善，准确率不高，因此，在实际中通常是将这两种结合来实现分词。

中文分词的词性主要包括名词、动词、形容词和副词等，形容词和副词常表示事物的状态和特征，因而经常能表明作者对事件的喜怒哀乐之情；动词一般就是用来表示动作或状态，它是对事物采取的动作的直接体现。这些词在舆情分析中就显得尤为重要。

二、文档特征的提取

一个网页的文本通过分词后会有成百上千个中文词汇，如果直接对其分类会影响分类的效率和准确性。因此，在分类前要去除一些无关的词语，留下最能代表文档特征的一些分词作为文档的特征。文档特征提取最主要的方法是把文档的内容和词频进行结合。

文档特征提取的是在不损伤文本核心信息的情况下尽量减少要处理的单词数，从而降低向量空间维数。其中最重要的方法是分析词频。其基本原理是一个词在一个文本中出现的次数越多，通常它在文本中就越重要。因此，可以计算词在文档中出现的概率即词频，来对文档的特征进行提取。另外，如果一个词在很多的文档中出现，表明它在该文档中的重要性越低，这个词就不能代表该文档的特征，文档的贡献度应该就越小，也就是通过这个词来区分文档的区分度越小，可以用逆文档频率（idf）来度量词在该文档中的重要性。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。

设文档d中词w出现次数为count（w， d），文档d中总词数为size（d），则词w在文档d中的词频tf由下式计算。

即tf（w，d） = count（w， d） / size（d）。

词w在整个文档中的逆向词频idf为文档总数n与词w所出现文档数docs（w，d）比值的对数。

即idf = log（n / docs（w，d））。

如果要对逆向词频归一化可以采用如下的公式：

idf = log（（n+0.5） / docs（w，d））/log（n+1）

tf-idf模型根据tf和idf为每一个文档d和由关键词w[1]...w[k]组成的查询串q计算一个权值，用于表示查询串q与文档d的匹配度

tf-idf（q， d）

= sum { i = 1...k | tf-idf（w[i]，d） }

= sum { i = 1...k | tf（w[i]，d） * idf（w[i]）}

三、文档特征的分类

文本特征的分类是在事先确定的分类标准下，根据文本的内容确定待分类的文本已知文本之间的类型关联。它和普通的数据分类方法是一致的，原则上现有的数据分类方法都可以实现这一功能。这一具体过程主要包括输入训练和分类两个步骤，对应的数据库包括训练数据库和检测数据库。训练数据库为带有分类标记的n个特征的若干个向量X组成的集合， x=（w1，... wi ...，wn，y），其中 wi 是文档向量的一个特征，y为该文档的分类标记。检测数据库同样是带有n个特征的若干个向量X组成的集合只是缺少分类标记。输出数据为标记号的集合即检测数据的分类标记。本文采用SVM分类方法对文本分类，对于一组训练数据 x=（w1，... wi ...，wn，y），在线性可分的情况下会有一个超平面，将这两类样本完全分开，并且离超平面最近的向量与超平面之间的距离最大。

四、实验与分析

本实验数据来源于天涯社区，它主要通过论坛、博客、微博为基础提供一系列网友和网站之间，网友和网友之间互动的虚拟综合平台。网友通过在其中发各种帖子能发表对各种事件的看法。实验中数据是从中获取的1500个帖子，其中1200个帖子作为训练数据，另外300个帖子作为测试数据。这1500个帖子包含六个话题，即经济、房产、体育、军事、时尚和汽车，每个帖子均带有话题类型的标记以方便训练和测试。实验中采用SVM分类方法对文本进行分类。

在信息检索中通常采用召回率和精度衡量分类系统对数据分类的能力。召回率是检索出的某一类型的文档数和文档库中所有的相关文档数的比率，它表明该文档类型的查全率。精度即正确率是在所有相关话题文档中，检索到的正确分类文档所占的比例，它表示分类的准确程度。上述六类文档分类的召回率和精度如下表所示。

五、结束语

综上所述，网络舆情的分析在维护互联网安全方面起到了重要的作用，通过网络舆情分析挖掘网民所关心的热点问题，发现其中的意见领袖，对网络舆情进行正确的引导是工作的重点。同时要根据这些数据的实际情况，采用高效的算法保证舆情分析具有较快的响应速度和较低的误报率。

参考文献：

[1]夏火松，甄化春.大数据环境下舆情分析与决策支持研究文献综述[J].情报杂志，2015，34（2）：1-5.

[2]江华丽.中文分词算法研究与分析 [J]. 物联网技术，2016（1）：87-89.

[3]张鹏高，毕曦.基于大数据的教育网络舆情监控与分析[J].中国教育信息化，2015（15）：7-9.