大数据环境下网络舆情文本挖掘技术研究

2020-10-23 09:54许戈静

湖北第二师范学院学报 2020年9期

许戈静

(泉州信息工程学院软件学院，福建泉州 362000)

《中共中央关于全面深化改革的若干重大问题的决定》要求加大网络管理的力度，推动互联网管理体制的完善，保证国家网络与信息的安全。随着现代社会信息技术的大面积应用，在舆情监控与分析过程中，传统的方法已不能高效地应对突发事件的管理需要，同时由于网络舆情在现实社会中的涉及程度不断加深，互联网中反映了现实社会的发展。互联网、云技术的发展迅速，面对新环境下的公共安全事件，运用大数据实现网络舆情中具有价值信息的挖掘，实现网络舆情的监测与预警能够有助于社会秩序的稳定，大数据的运用更是现代社会发展的需求。

一、大数据背景下网络舆情主体特征

(一)大数据与网络舆情

大数据涉及到的数据规模庞大，难以在适当的时间范围内由人工完成数据的搜集、管理与处理并且将其转化成人类能够读取的信息，大数据有着规模化、多样化以及高速化、价值化的特点。网络舆情并非直接存在于网络中的数据信息，而是需要借助有关技术实现网络数据的分析与处理，从而得到价值性的结论。所以通过分析可知，网络舆情数据渠道符合大数据的相关定义，大数据四个特点及其与网络舆情关联性特征详细如表1所示。

表1 大数据4V特征及网络舆情的相似特征

两者的共性在于从数量巨大的数据中快速、精确的找出具有价值的信息内容，且在数据基础上进行相关的分析和研究。大数据与网络舆情的共性说明了大数据的思维和技术能够用于网络舆情数据的处理，可行性较高且易操作。

(二)大数据背景下网络舆情主体特征

网络舆情通常要经过三个环节才能够形成，分别为突发事件的发生、政府或者网民信息的发布、媒体信息的传播。因此，网络舆情的主体不仅有政府，同时还包含事件、媒体以及网民。移动客户端的普及导致大量突发事件被曝光，且在短时间内实现大范围的传播，同时还将网民的观点、态度反馈到网络中。在此背景下，网民对于某一个话题热议进而产生的网络舆情形成了大数据，网络舆情的主体特征具体如图1所示。

图1 大数据背景下网络舆情主体特征

1.事件特征。基于大数据的环境下，网络舆情的特点能够归纳为四个方面，分别为舆情事件的种类多、发布的主体多、信息的格式多、上网的速度快。目前，我国社会处于转型阶段，突发事件相对较多，且曝光概率高，发生后基于网络发展会出现不同规模的网络舆情。与此同时，随着网络的普及，信息发布的主体从单一的政府逐渐转变成政府与网民共存的主体，且网民发布的信息数量将远超于政府发布的信息。网络的普及以及技术的发展，事件发生后信息格式也多种多样，从以往的单一文字信息发展成为图片结合文字的方式，更有文字、图片、视频综合性的信息，网民借助于网络信息进行事件的还原、事件发展的预测。另外，由于移动宽带、移动客户端的发展普及，事件发生后有关信息能够在极短的时间内上传到网络上，更有甚者，事件在网络端口实现同步发展。

2.网民特征。目前，我国网民在年龄、学历、职业以及收入等结构方面非常复杂，具体情况如表2所示。由于网民结构的复杂，网民在网络上发表的信息和言论是基于不同角度进行的，内容文化水平有高有低，还有少部分网民发表各种过激言论。另外，由于网民的心理呈现出多样化的特征，他们中有跟风的、有好奇的、有宣泄的、有学习的，这些心理因素都会对网民舆情造成严重的影响。

表2 我国网民结构

3.媒体特征。在大数据环境下，媒体数量非常多，导致网络舆情的信息传播渠道越来越广，而移动客户端的普及，手机APP以及媒体平台成为了网络舆情信息传播的重要载体。国内广泛应用的微博、网络新闻、社交、视频网站、论坛等多种网络媒体均能够实现信息的互动传播，提供了信息的转发以及共享，进而导致网络舆情信息量大增。根据相关统计数据可知，我国网民每天发布、转发的微博信息高达2.5亿条，若加上评论以及其他功能产生的信息量，将远超过3亿信息。

基于上述分析不难发现，大数据环境下网络舆情的主体特征可以归纳为三点，分别为信息源头多、网民数量大、传播渠道多。仅仅依赖传统的文本挖掘将难以科学引导和监控网络舆情，因此，要能够基于大数据的特点构建出高质量的网络舆情文本挖掘技术，实现网络舆情的合理管控。

(三) 大规模并行处理引擎 MapReduce技术

谷歌开发的MapReduce模型是一种分布式计算模型，主要用于分析处理海量数据，可借助于大规模的、廉价的服务器集群进行海量数据的并行处理，其可靠性较高、扩展性良好。该模型运行中，主要环境为客户端、主节点、工作节点。其中，客户端部分将用户所需处理的作业传输到主节点，之后进入到作业分解的环节，细化成Map与Reduce任务，最后主节点将所有任务发放到工作节点。而工作节点需要执行任务，开发人员在上传程序到模型时，只需要定义Map函数与Reduce函数。其中，Map操作主要处理输入数据，进而形成一组中间的键值对集；Reduce操作要合并拥有相同键的键值数据。Map Reduce模型的具体运算流程如图2所示。

图2 MapReduce计算过程

Map Reduce模型是一种并行计算模型，这一技术的使用较好地解决了系统层的容错性、可拓展性等关键的问题，能够通过Map函数以及Reduce函数的编写，实现数量巨大的数据的并行操作，进而提升数据分析与处理的效率。

综上所述，虽然传统的技术能够准确的实现数据处理，但处理效率较低，耗用时间较长，而网络舆情的预警要能够在准确的基础上及时发现且管控舆情。因此，网络舆情的处理首先要能够有效、及时、准确处理数据，而Map Reduce技术能够满足这一需求。

二、大数据背景下网络舆情文本挖掘模块构建

(一)构建混合型数据库

数据库与网络数据处理技术是网络舆情文本挖掘模块的重要构成，分布式数据库具备多样化数据存储和高扩展性等优点，同时还能够在后期数据查询中发挥出重要的作用。因此，当建立网络舆情文本挖掘模块的数据库模块时，可综合使用关系型数据库管理系统(RDBMS)与分布式数据库管理系统(HDFS)这种混合型数据库。在混合型数据库中，系统清楚地分成上下两层，其中，上层运用RDBMS完成数据的查询和处理，下层则运用HDFS完成任务的分解与调度工作。混合型数据库的优点明显，主要于运用HDFS完成任务的调度技术提升网络舆情文本挖掘模块系统的扩展性以及容错性，进而在面向海量网络数据的分析时能够解决横向扩展的问题，便于不同部分间实现信息共享，运用RDBMS完成数据的存储和查询功能提升查询分析的性能。网络舆情文本挖掘模块能够借助于网络爬虫技术在特定的或者数个网站上收集网络数据，将获取的数据存储在混合型数据库的下层，由于此类数据块未经预处理，为非结构化的数据，如果将此类数据放置于数据库上层，将会影响后期数据的查询和使用。HDFS数据的处理中，其能够将计算推向数据，明显优于传统的数据推向计算。数据块存储于磁盘中，如果将数据块传输到内存将耗费大量的时间，将会严重影响系统的处理效率。而将海量数据存储在分布式数据库的下层，能够在数据的预处理过程中运用将计算推向数据的方法缩短系统的处理时间。在经过预处理后，数据块能够根据向量空间模型的方式(VSM)存储在混合型数据库。向量空间模型在运用MapReduce技术处理后，得出的数据存储在数据库的上层，能够帮助用户快速高效地查询与分析，处理过的向量空间模型为无用数据，可进行压缩存储操作或者是直接删除处理。完整的混合型数据库运行流程如图3所示。

图3 混合型数据库的运行流程

在此生态系统中，HDFS对数据进行分析，随后将分析的结果以及汇总的数据提交到RDBMS中，而RDBMS则更加适用于OLTP类应用，能够为网络舆情的分析提供数据源，从而可供用户进行观察与查询。MapReduce有着极好的扩展性，能够满足海量历史数据同时在线的需求，即便是再久的数据也能够随时进行分析，运用新数据与新算法有助于网络舆情的高效挖掘。

(二)基于的文本特征向量提取

Map Reduce是该模块中处理大量网络数据的核心技术。根据Map Reduce的特点，文本特征向量的提取是数据预处理的核心与关键。文本特征的提取也是基于该模型实现的。其中，Map函数主要作用为对上传的文档开展分词操作，随后形成词语的序列：w1，w2，…，wn，在这一序列中，key值代表文档词语，Value值均为1，也就是输出的形式表示为(w1，1)，(w2，1)，…，(wn，1)。在MAP完成任务后，输出内容为(k，v1)，(k，v2)，…，(k，vn)，经Map Reduce框架处理后，根据Key值进行整合，之后将其作为任务递交到Reduce，对于键k而言，Reduce函数中的输入表达形式记为：(k，[v1，v2，…，vn])。Reduce函数将上述输入值(k，[v1，v2，…，vn])结合实际需求进行组合，得到最终结果且储存到下层的分布式存储系统(GFS或者HDFS)中。Map Reduce中的Map和Reduce任务以嵌套的形式进行运行，同时在原系统基础上优化，进而得到了Map Reduce的组合器。优化后的Map Reduce模型，其具体工作流程表示为图4。

图4 改进的模型工作流程图

上述模型的工作过程中，其中Map任务是实现输入信息的转化，将其转为中间key-value对序列；Reduce1的任务为统计某一篇文档dj中指定的词汇wi，得出数量fi，j；Reduce2的任务是合并文档中的键，且统计出Reduce1任务中计算出的value，最终得到所有的文档dj中特定词汇出现的所有次数；另外，借助于去重任务能够将value值设为1，从而对一篇文档中词汇数量进行计算，避免重复记录，影响计算的结果；对按键进行分组，是为了合并相同键的key-value，进而变为(k，[v1，v2，…，vn])，继而成为Reduce3任务的输入；Reduce3任务是计算key值的综合，从而核算文档中含有词汇wi的总数ni；最后，对于没有意义、或者不常用的词汇进行筛除，将对于结果影响意义不大或者没有影响的词汇筛除。

运用优化的Map Reduce模型，在相关的处理后能够得到需要的网络数据，保留每篇文档中的前十个TF-IDF值，满足主题的识别需求。但为更加精确地测量主题中的舆情指数，仅通过TF-IDF值难以实现衡量，可以计算主题相对应的文档数量进而用于测量。在本文中，可在Map Reduce的基础上运用矩阵与向量相乘的方法进行分析，先借助向量空间模型(VSM)的形式代表主题和文档的信息，分别运用VSM的行与列表示，最后在选择VSM与单位列向量的乘积，进而得出与之相应的文档数量，但向量的维数要能够结合实际的数据信息确定。VSM相关向量是通过对大量网络数据的处理操作后生成的，其涉及到的范围远远大于传统的计算范围。由于网络数据的数量非常巨大，以往的方法处理大量数据时需要耗费大量的时间且效率较低，因此难以满足舆情预警对于精准性和快速性的要求。所以本文中采用Map Reduce模型的矩阵—向量乘法，有效地实现了大量数据的高效处理。Map Reduce模型的矩阵—向量乘法的工作流程为：第一步，假定矩阵M为维m*n；第二步，在矩阵M中，元素mij用于代表第i行、第j列的元素；第三步，n维向量v中，元素vj表示第j个元素。综上，矩阵M与列向量v的乘积用x表示，在向量X中，第i个元素表示如下：

公式中，矩阵M中的元素mij，在Map任务输出后的key-value对为(i，mij)，随后与列向量V相乘得出n个mijvj。综上，key值是一致的，在MapReduce模型中，合并且计算出key值，在Reduce任务中输入结果，在使用加法对n个mijvj相加得出(i，xi)。通过上述分析了解到，任务在流程的最后步骤输出的向量x就是最终结果，通常用于体现网民对于网络舆情事件所关注的重点在舆情事件相关范围中的占比，比重越高，说明此事件受到的关注越多，但此数值仅能够用于分析舆情事件在网络中受到的关注热度，不可对关注产生的影响性质进行辨别。若影响结果为坏，有关政府部门就要重点关注此次舆情事件，对网络舆情的情感特征以及强度进行分析，进而制定出高效、及时的应急措施，实现网络舆情的预警。

三、大数据环境下网络舆情预警模型构建及运用

(一)系统功能架构

网络舆情预警模型的系统功能架构运用了三层结构的设计理念，逻辑方面依照“数据服务层、数据处理层以及数据查询层”三层结构完成设计，模型的架构图如图5所示。数据服务层与数据处理层独立设计，能够有效的屏蔽网络数据采集与存储的细节，满足网络舆情数据的共享，进而在全国范围内实现相关数据的横向组合。数据查询层独立设计能够优化模型的使用，还能够提高查询的灵活程度，有利于不同地区、不同部门实现信息的共享与个性化。

图5 网络舆情预警模型功能架构

(二)系统主要功能模块设计

网络舆情预警模型的构成主要分为三部分，分别是数据采集与存储层、舆情分析层、决策支持层，功能模块具体如图6所示。

图6 网络舆情预警模型功能架构

网络舆情预警模型中，舆情信息数据采集模块的主要功能为通过大量网页的查阅获取数据，满足模型中舆情分析的数据需求。模型主要的监控对象有大型的门户网站、新浪微博、腾讯微博、论坛、贴吧等流量较大的网站。为提升数据搜集的效率，系统根据Map Reduce的多任务进程理念，设计多个采集器任务，每一个任务负责单个网页数据的采集，单个采集器任务获取的数据构成一个数据块。此类设计有着显著的优势，数据服务层采集数据后传输到数据处理层，不再需要对数据进行重新分配，节约了大量的时间。数据处理模块主要对网络数据进行预处理操作、基于Map Reduce的文本特征向量进行提取操作、完成舆情参数的计算、舆情词库的更新操作。其中，数据的清洗功能是为了消除网页中的无意义数据，主要方法是对搜集到的网页采用DOM树进行解析操作，随后对DOM树中的HTML标记进行处理，最后得出清洗后的网页，保存成文本格式。在提取文本特征向量时运用Map Reduce方法，而网络话题中网络舆情指数是通过Map Reduce的矩阵—向量乘法实现。舆情词库的更新不仅仅是为实现数据的备份，同时还能够为后期舆情判断提供数据依据。舆情分析与查询模块是最为关键的模块，主要是借助于Map Reduce的矩阵—向量乘法计算数据处理模块中的向量空间模型(VSM)，完成网络舆情信息的挖掘和分析，从而进行舆情热点的识别与追踪，进而及时的预警。

(三)系统仿真分析

为了验证大数据背景下网络舆情预警模型的可靠性与可行性，本文以2020年1月的网络舆情数据为例进行仿真分析，而选择全年的数据是为分析本模型对于海量网络数据的处理能力。在仿真实验中，网页数据的采集对象为新浪微博、天涯论坛、百度贴吧，此三个网站具有较强代表性，且其网络流量非常大，实验的目标是为得到2020年1月网络舆情热点事件的前十位。数据采集模块共采集到的数据也为3.8条，数据在数据库中所占容量为273G，在数据清洗后共得出数据430万，为提升实验的效率，数据不仅运用遍历DOM树的方法进行清洗，同时还过滤掉字符数小于100字节的网页，最后每一个网页均形成一个数据块。

在完成基于Map Reduce的文本特征向量提取后，得出矩阵M(主题-文档VSM)，矩阵M中，行1万、列430万，矩阵M每行可包含1-10个非零元素，由于一篇文档可涉及到多个主题，但仅提取10个特征词的TF.IDF值，也就是最大主题数为10.矩阵M是非常稀疏的，每行最多10个非零元素。矩阵M部分数据与单位列向量V的乘积X计算的具体过程如图7所示。

图7 基于Map Reduce 的矩阵-向量乘法

单位列向量V的维数为430万，存储空间约为4MB，向量V能够完整的存入内存，无需重复输入Map任务中。表示在实验中，要能够获得第个主题中包含的文档树，通过归一化的处理，得出的结果能够理解为主题舆情指数，排名前10位的舆情热点事件就是指舆情指数前10的网络话题。为了让结果更加的形象，运用百分制的方式表示归一化的结果，舆情指数组成的向量VX为：

VX=(100.0，96.9，91.7，90.3，90.1，88.9，87.1，83.2，81.1，79.3)

2020年1月前10位舆情热点事件如表3所示。

表3 2020年1月年前10舆情热点事件

四、结语

大数据模型的复杂程度相对较低，具备良好的扩展性，能够用于网络舆情预警处理，且效果较好。本文通过运用优化后的Map Reduce组合器模型对网络大量数据的特征向量进行提取，同时基于Map Reduce的矩阵—向量乘法实现高维度VSM计算，大数据技术处理能够缩短大量时间，保证其时效性。同时，还能够实现热点事件的主观与客观分析，为企业、政府对了解热点事件的关注情况提供科学数据依据，从而做出相应的应对措施。但该模型在精确度方面对热点事件的主观与客观情感进行分析，有助于企业、政府更好的掌握人们对热点事件的关注度，进而制定出合理的策略与措施，维护社会的稳定。但该模型在精确性方面存在一定的偏差，在数据的采集以及关键词的设定方面存在不足，会对数据分析时的模型产生影响，今后的研究需要注重此方面的优化。