基于词向量高阶复杂性的链路预测技术*
——以矿产企业风险预警为例

2022-12-04 02:31赵雨恒
中文信息 2022年9期
关键词:词典舆论大众

赵雨恒 管 青 姜 驰

(中国地质大学(北京)信息工程学院,北京 100083)

引言

为了获得竞争优势,矿企从业人员必须及时了解并响应大众对矿产企业的舆论[1]。传统的人工获取大众舆情的方法存在以下问题。

(1)大众评价过度零碎且“个性化”

不一样的矿产资源在需要量、经济收益等领域出现差别,公众的评价趋向于“个性化”。高管需要每日核查公众对各网站的评价,人工成本大,易出差错。

(2)对关键舆论不够的预警信息和追踪

矿产资源开发设计存有一些漏洞,当要求提升时,资源进到一定时间时,一部分漏洞会加快曝露,并突发性新的漏洞[2]。通常会导致财产损失,乃至危害矿山开采生态体系的总体均衡。

(3)评论优劣和大众情绪难以得到客观点评

手动式汇总和区别很有可能会因为信息内容有误而造成战略决策不正确。

因为以上矿山公司搜集公众评价的不够,文中搜集某大型企业的“中国五矿”点评,运用数字模型和计算方式完成分析,发掘公众对热点话题的客观感情发展趋势,为矿产从业人员紧紧围绕企业舆论给予安全可靠的根据。

一、本文思路和研究框架,如图1所示

二、理论方法

1.文本表示

可依据不一样的工作标准,Word2Vec可以设定最后单词向量的层面[3],結果单词向量具备能加性,可以用来表明Word2Vec单词向量的总数:vec(Actor)-vec(Actress)=vec(Man)-vec(Woman)Word2Vec中含有连续词袋模型(CBOW)和Skip-gram。假设某个待推测的词是wi,则其前后词信息为Context(wi)={wi-c'…,wi-1',wi+1,…,wi+c}其中C为前后单词的个数,wi出现的概率可表示为P=P(wj|Context(wi))。

2.情感分析——知识工程法

知识工程法[4]必须事前搭建有收剖析的文本的各个领域的情感词典。完成环节:即将研究的句子分成单词,解析xml句子中的单词,分辨单词是不是发生在情感词典中。统计分析评定词典中产生的单词和句子中的部位,各自开展水平词解决和否定词处理,并依据具体文本测算权重值。更细腻的情感趋向剖析要恰当解决文章内容中的表情图、感叹句、反问句等。最终求合,获得文章内容的情感分值。

三、舆情文本的话题检测

基于Word2Vec扩展的LDA的文本表示,假设矿产企业相关评论文本集由N篇评论文本{d1,d2,…,dN}组成,任一篇文本都包含k个主题{z1,z2,…,zK},则矿产企业相关评论文本集D可表示为

在其中,ZjiZji等同于第i段文本中的第j段主题几率,n相当于语料库尺寸,即n篇文本。

与此同时,根据Skip-gram来练习词向量,可以假定单词空间向量维为K '。假如全部文本都包括M个词{w1,w2,w3,…,wm}以及k特性,则文本就可以被表明出来。

实验的训练集是采用了与“矿山公司”有关的16186篇评论性文章。本实验较为了基于Word2Vec拓展的LDA+SKM、基 于Word2Vec拓 展 的LDA+优 化SKM、Word2Vec+SKM、VSM+SKM、传统式LDA+SKM,比对五组实验结果,如表1所显示。

表1 五种组合算法对比实验评估结果

四、舆情文本情感分析

1.基于BosonNLP的情感词典

BosonNLP全自动搭建成来源于新浪微博、新闻报道、社区论坛等数据库的上百万条情感标识数据信息。最先解决要研究的文本中文分词,随后反复文本中的每一个词,在词典中搜索该词的情感分值,随后累计文本中产生的全部词的情感分值,假如在词典中找不着文本中的词,则算为零。全部文本都如上处理,获得了持续的文本情感评定分值。

2.实验方案

实验数据选用“中国五矿”矿企的新浪微博等平台的评论文本,文本预备处理后,12805个文本任意应用2000个做为检测集,剩余的10805个作为训练集。各自应用BosonNLP和HowNet评定字典,依据矿山公司行业的词开展拓展,对评论文本开展打分,确定最好阀值后,对全部文本开展评定进行情感归类。如图2所示。

上述3组对比实验的实验结果如表2所示。

表2 3组对比实验评估结果

五、“中国五矿”企业舆情文本的实证研究

此项实证分析为各个平台设计了专业的网络爬虫,每日手动式获得全新的舆论数据信息。应用Sqlalchemy库文件的create_engine函数将数据库连接到Python专用工具,提取“中国五矿”企业需要的评论文本。使用词云可视化各平台对同一个矿企的点评,届时还可看到不同平台对同一个矿企的评价。如图3所示。

从图4可以看得出,针对“中国五矿”矿企全部平台的文本分析,全部平台的评论中含有47%的负面评论。

对于话题检验方式与情感分析方式的融合非常清晰的反映在“中国五矿”企业的舆论文本分析中,这二者的运用合理缓解了矿企的舆论搜集和分析每日任务中具有的三个难点:

定向网络爬虫程序的开发设计一定程度解决了大家点评零碎、“个性化”产生的舆论信息收集耗费人力资源问题。从业者不需再手动式采集大众评价,只需运作网络爬虫,将全部舆论文本定期升级储存在数据库系统中。

“重点舆论的预警和追踪”问题一定程度上被整体话题检测所解决。矿产从业者无须再人工制作归纳搜集的信息内容,只用将全部评论文本键入到话题检测方式进行练习,并自动聚类分析每个话题类型以及浓度值。

“企业优劣和大众情绪无法获得客观性点评”的问题一定程度上被整体情感分析所解决。从业人员不用看大众评论来分辨情感趋向,只需将要研究的评论文本键入小型神经网络,就可自动检索其情感趋向。

六、结语

本文使用基于Word2Vec的舆论分析与预测技术,开展舆论文本话题检验、舆论文本的情感分析,以"中国五矿"矿企为例子,为矿企给予了进行舆论分析和避开舆论风险的方法。

猜你喜欢
词典舆论大众
一汽-大众ID.6CROZZ
上汽大众ID.3
大众ID.4
上汽大众
阿桑奇突然被捕引爆舆论
评《现代汉语词典》(第6版)
词典例证翻译标准探索
《胡言词典》(合集版)刊行