网络电影评论中的水军挖掘研究

2018-01-29 16:57胡晓康
科学与财富 2017年35期
关键词:数据挖掘

摘要:针对当前电影评论中存在过多的水军评论而导致电影评论失真的问题,分别讨论了当前三种主流水军挖掘方法在网络电影评论中运用的可行性,之后通过对部分水军账号进行分析,从而总结出电影评论网络水军的一些共性特点。

关键词:电影评论,网络水军,数据挖掘

1.引言

网络水军一般是以盈利为目的,通过对网络舆论的控制和引导,为企业提供品牌炒作、产品营销、口碑维护、危机公关等服务。随着近几年电影市场的火爆,网络水军开始大量渗透进各大电影论坛中,其评论欺骗人们相信一部电影值得看或者将一部影片的贬得一文不值,这会误导人们决定看什么电影,严重影响着许多电影的口碑走向,无形中对一些电影的收益产生重大影响,并危害国家的文化产业发展。

2.网络水军挖掘的常见方法

目前,按照研究方法的不同,网络水军挖掘研究可以分为基于用户产生内容特征、基于环境特征的识别方法和基于用户相关特征。

2.1 基于用户产生内容特征

该方法根据具体的评论内容来对疑似水军进行识别,早期的电影评论水军往往发表许多内容高度相似的影评,来达到其最大化网络影响且最大程度减少工作量的目的,因此具有显著可识别的特征,此时,结合机器学习中的自然语言处理、文本分类、情感分类等技术,比较容易分辨出水军的影评。但是,随着当今网络环境的复杂化及水军行业的专业化,其影评更加接近于正常用户,单单根据电影评论的内容,很难对两者进行区分,因此当前的电影评论水军挖掘通过该方法并不能取得很好的效果。

2.2 基于环境特征的识别方法

网络水军的异常行为使其在网络环境层级表现出不同于正常用户的特点,研究者们通常基于IP的黑名单信息、TCP脚印信息、路由信息以及机器人网站命令追踪信息等联系起来对水军的网络级别特征经行分析,以实现对水军的追踪。另外,也有学者利用网络服务提供商的水军记录行为,从ISP角度提出流量级别的特征,实现对网络水军行为的建模。此外,基于水军在制造垃圾评论时的网络负载突然加大这一特点,近几年通过网络流量的角度去挖掘水军特征也为这方面的研究提供了一条新思路。总的来说,基于环境特征的识别方法其研究需要相应的实验数据集,而获取相应的数据集存在相当大的难度,因此该方法在电影评论领域的运用并没有得到大规模推广。

2.3 基于用户相关特征

基于用户相关特征的方法又可以细分为基于用户行为特征和基于用户关系特征两种方法。前者的经典方法为通过人工标记首先建立训练集,然后通过对已经识别的网络水军进行分析并定义其特征,利用weka中的三种特征选择算法评价各个网络水军行为特征的分辨力,采用传统监督分类方法,判断未知用户是否为网络水军。之后的方法大多围绕该方法进行改进,以提高水军识别的准确率。

后者是目前广泛采用的用户关系特征的识别研究,该方法基于社会网络、图模型理论的研究,通过网络水军不同于正常用户的社交圈子的特点,来将两者进行区分。由于电影评论领域的水军往往会呈现高度的聚集性以及与普通用户关系稀疏性的明显特点。因此,网络电影评论中的水军更适合于通过用户特征来进行挖掘。

3.电影评论中的水军特点

通过收集微博电影评论平台水军账户信息及其外圍用户信息进行分析,可以总结出疑似水军用户具有一些共同的特征。

首先,社交网络中,正常用户往往通过各种交互行为逐渐形成一个以用户为中心的社交圈子,而水军用户账号不具有正常的社会关系,其形成的社会网络结构特殊。水军用户往往会关注大量用户,但并不关心这些用户真实的社会网络关系,其关注好友之间几乎没有连结,也就是说,其账户双边的朋友关系比例很低。

其次,水军的微博用户等级低于合法用户。水军经常会不断注册新用户账号,但却不会去刻意经营这些账号,因此这些账号本身不会有太多户主的日常生活记录,其个人主页点击率也会十分低。

另外,水军的账户往往会在短时间内同时发布大量的评论,对于电影的评分,出于雇佣者的要求,其给分极端(极高或极低)。

最后,水军账户的转发率低于合法用户。其发布的评论往往更加主观,即提出自己的意见来影响别人,而不是去传播别人的意见。

4 结语

网络的快速发展极大地便利了我们生活的同时,也使我们面临着网络水军的骚扰。当前中国各大电影论坛为人们交流电影和交流彼此的经验提供了极好的平台,而电影评论水军的介入扰乱了正常的秩序,妨碍了用户的利益。水军研究作为数据挖掘领域近几年的热点,今后将会得到国内外更广泛的研究。因此,结合网络电影评论水军的特点,综合其内容、行为、关系和环境等特征,努力提高网络水军识别的准确率,对于维护网络环境,恢复网络秩序,促进中国电影市场与文化产业蓬勃发展,具有十分重要的意义。

参考文献:

[1]Chen G, Cai W, Huang J, et al. Uncovering and Characterizing Internet Water Army in Online Forums[C]// IEEE International Conference on Data Science in Cyberspace. IEEE, 2016:169-178.

[2] 莫倩, 杨珂. 网络水军识别研究*[J]. 软件学报, 2014(7):1505-1526.

[3]程晓涛, 刘彩霞, 刘树新. 基于关系图特征的微博水军发现方法[J]. 自动化学报, 2015, 41(9):1533-1541.

[4]Zeng K, Wang X, Zhang Q, et al. Behavior Modeling of Internet Water Army in Online Forums[J]. Ifac Proceedings Volumes, 2014, 47(3):9858-9863.

作者简介:胡晓康(1992—),男,山西临汾人,山西财经大学2015(管理科学与工程)学术硕士研究生,研究方向:信息与知识管理.endprint

猜你喜欢
数据挖掘
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于并行计算的大数据挖掘在电网中的应用
数据挖掘技术在中医诊疗数据分析中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
数据挖掘技术综述与应用
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践
高级数据挖掘与应用国际学术会议