基于发文特征的引流机器人账号智能检测研究

2022-07-08 14:58柯家龙
江苏通信 2022年3期
关键词:新浪发文账号

柯家龙

国家互联网应急中心江苏分中心

0 引言

近年来,社交网站已经成为网民生活中的重要组成部分。然而与“网络黑产”紧密相关的引流机器人账号却充斥着各大社交网站,如新浪微博等。引流机器人账号是指:由程序控制并通过发帖、转载、评论等方式,将部分网民诱导至特定网站、特定人群、特定组织,从而起到传播不良信息、操控舆论、诱导消费甚至实施网络诈骗等目的的网络社交账号。常见的引流类型包括涉黄、涉赌、刷单、医美、股票投资、小贷广告等,其社会危害程度较大。因此,利用技术手段准确识别出社交网站中的引流机器人账号具有重要意义。

目前,国内外用于识别检测引流机器人账号的方式,基本上都是基于引流机器人账号和正常人类账号之间的特征差异,构造出检测准确率较高、综合代价较小的检测模型。模型的常用特征包括账号属性、信用属性、社交属性等,具体又可以细分为资料完整度、账号信用值、账号影响力、发文丰富度、发文互动率等特征值。Yang 等设计了基于图像、邻居等的识别算法。赵斌等重点研究了微博内容中的文本相关性和时间相关性,提出了基于重用检测模型的微博垃圾用户检测算法。刘勘等结合微博发送信息熵、发送端所属平台等特征,并基于随机森林算法,完成相关账号检测。

为准确高效地识别出网络引流机器人账号,本文在前人研究基础上,深入挖掘社交账号在发文方面的特性,提出了一种基于账号发文特征的智能检测方法。以新浪微博引流机器人账号为例,我们发现该类账号通常具有转载博文、重复发文、高频发文、深夜发文等特征,我们称之为“发文行为特征”,同时其在发文内容语义上也具有一定的引流特性,我们称之为“发文内容特征”。本文基于上述特征,引入自然语言处理领域的BERT 算法和多种机器学习算法,设计并实现了一套引流机器人账号智能检测模型。

1 发文行为特征提取

1.1 原创发文特征提取

引流机器人账号为了达到扩大知悉范围、增强引流效果的目的,其幕后操控的大量引流机器人账号往往会批量转发引流帖子内容,而正常的人类社交账号一般不会有此特征。基于此特征,我们引入“原创发文率”(Original Posting Ratio,OPR)特征指标。提取新浪微博账号的历史发文数量,并统计其中转发情况和原创发文情况,计算OPR 指标。“原创发文率”特征指标表达式为:

其中,posting_num 表示该账号发布的博文总数量(包括原创的和转发的),original_posting_num 表示该账号的原创发文数量。

1.2 重复发文特征提取

引流机器人账号出于引流的目的,经常会将事先编辑好的、具有诱导性的文字内容,在社交网站平台上重复发布或转载,而正常的人类社交账号一般不具备此特征。基于此特征,我们引入“重复发文率”(Repeated Posting Ratio,RPR)特征指标。提取新浪微博账号的历史发文内容,统计其重复发文情况,计算RPR 指标。“重复发文率”特征指标表达式为:

其中,posting_num 表示该账号发布的博文总数量(包括重复的和非重复的),repeated_posting_num 表示发文内容重复的数量。在判定博文内容是否重复之前,我们还需要对博文中的“@”字符、转发标识、表情、空格等特殊情况进行预处理,以保证真实效果。

1.3 发文频率特征提取

对新浪微博账号的发文频率进行研究后,我们发现引流机器人账号为了达到增加曝光率的目的,其往往存在短时间内多次发布博文的特征,而正常的人类社交账号则一般无此明显特征。基于此特征,我们引入“发文频率”(Posting Frequency,PF)特征指标。我们统计新浪微博账号的历史发文数量和时间跨度,计算其发文频率指标PF。记频率为:

其中,posting_num 表示该账号posting_period 统计时间内的博文总数,posting_period 表示该账号按天计数的发文时间跨度。则“发文频率”特征指标归一化表达式为:

xmax、xmin分别为频率原始数据的最大值、最小值。

1.4 发文时间特征提取

新浪微博引流机器人账号在发文时间上也有别于正常人类账号。例如,引流机器人账号往往会在深夜凌晨等时段发布引流博文。基于此特性,我们引入“发文时间”(Posting Time,PT)特征指标。

根据经验,我们将一天中的24 小时划分为5 个区间,并对发文时间落在不同区间内的情况赋予不同的权重值。“发文时间”特征权重经验值如表1 所示。

表1 发文时间特征权重值表

根据表1 的“发文时间”特征权重值表,提出“发文时间”PT 特征指标表达式为:

2 基于BERT 的发文内容特征提取

新浪微博引流机器人账号的发文内容或转载内容在语义方面往往具有较为明显的特征。目前,大量充斥在新浪微博网站平台上的引流机器人业务方向有很多,例如涉医疗美容、涉股票投资、涉色情网站、涉赌博网站、涉刷单诈骗、涉贷款广告等。我们重点研究上述引流方向特征,并结合自然语言处理领域的BERT 深度学习算法,对发文内容进行是否引流二分类训练,以完成文本语义检测识别。

2.1 BERT 文本分类简介

2018 年10 月11 日,Google 发布自然语言处理领域重磅论文,BERT 算法横空出世。BERT 全称是Bidirectional Encoder Representation from Transformers,是一种双向编码模型算法,其最大特点是抛弃了传统的RNN 和CNN,通过Attention 机制将任意位置的两个单词的距离转换成1,有效地解决了NLP 中棘手的长期依赖问题。BERT 作为一个Word2Vec 的替代者,其在NLP 领域的11 个方向大幅刷新了精度,可以说是近年来自残差网络最有突破性的一项技术。

2.2 发文内容分类

我们对获取的新浪微博引流机器人账号发文和转载数据进行总结,将常见的且危害较大的引流发文内容归纳为如表2 所示。

表2 重点引流业务方向

上述6 个重点引流业务方向,是基于新浪微博平台引流机器人账号发文类型总结得来的。尽管我们不能穷尽引流内容类别,但是表2 所列举的方向是我们关注的重点,具备较强的代表性,在很大程度上能够达到本文研究目的。图1 为某医美引流的微博样例截图。

图1 某医美引流微博截图

根据表2 分类方向,并结合人工研判方式,对新浪微博账号的历史发文和转载数据进行标注。具体标注方式为:正常的普通微博内容文本标注为0,命中表2 中的重点引流方向的文本标注为1。基于BERT 算法,利用已标注发文数据进行是否引流的二分类训练优化。训练完成的模型,已具备了对微博发文内容是否引流进行判别的语义分类能力。

2.3 发文内容引流率

为了伪装,一些引流机器人账号也会发布正常的微博内容。因此,具体到某一个引流机器人账号,其历史发文数据在语义上可能存在引流和非引流两类。基于上述分析,我们引入“发文内容引流率”(Drainage Ratio,DR)特征指标,将提取的新浪微博账号历史发文内容进行是否引流的二分类判别,并定义“发文内容引流率”特征指标表达式为:

其中,posting_num 表示该账号发布的博文总数量(包括引流的和非引流的),drainage_posting_num 表示该账号被BERT 判定为引流的博文数量。

3 发文特征融合分类模型

上述章节分别完成了微博账号发文行为、发文内容两方面共计5 个特征指标(OPR、RPR、PF、PT、DR)的计算。为充分利用发文行为和发文内容特征,我们设计了融合分类模型,将上述5 个检测特征指标送入机器学习模型(分类器分别选择随机森林、K 近邻、MLP 多层感知机),完成融合二分类训练。智能检测模型整体逻辑如图2 所示。

图2 基于发文特征的微博账号融合分类模型

4 实验与分析

4.1 实验数据

本文通过公开渠道获取新浪微博正常人类账号8000 个,通过其他方式获得引流机器人账号600 个,并获取上述账号3 个月内的历史发文时间、发文内容、是否转发、原帖内容(转发微博情况下原帖文本内容参与RPR、DR 特征指标计算)等详细样本数据,作为后续实验的原始数据集。

为了完成“发文内容引流率”(DR)指标的计算,我们随机选择2000 个正常人类账号和200 个引流机器人账号作为样本数据,对其发文内容数据进行人工标注,并结合BERT 算法完成二分类训练。

对剩余的6000 个正常人类账号和400 个引流机器人账号及其发文数据进行预处理,并计算每一个账号的发文行为特征指标值(OPR、RPR、PF、PT)和发文内容特征指标值(DR)。将这6400 个微博账号划分为训练集(60%)、验证集(20%)和测试集(20%)。

4.2 实验结果分析

4.2.1 特征指标区分度分析

针对前述提出的新浪微博账号的5 个发文特征指标值,分别绘制概率累积分布函数图(Cumulative Distribution Function,CDF)。CDF 图横坐标分别为本文提出的5 个特征指标值,纵坐标为对应特征指标的概率累积分布函数值。

图3为OPR 指标的CDF 图。从图中可以看出,原创发文率在0.5 左右时,正常人类账号累积占比只有24%,而引流机器人账号累积占比高达76%。引流机器人账号OPR 指标的累积概率始终大于正常人类账号,这也充分说明了引流机器人账号存在原创发文率低、转载比率较高的特征。

图3 OPR 指标的累积分布函数

图4为RPR 指标的CDF 图。从图中可以看出,正常人类账号重复发文率在0.2 以下的累积占比高达90%以上,说明其重复发文比率较低。而引流机器人账号重复发文率在0.5以上的累积占比近60%,说明引流机器人账号存在大量重复发文的特性。

图4 RPR 指标的累积分布函数

图5为PF 指标的CDF 图。从图中可以看出,正常人类账号发文频率较低,PF 指标一般不超过0.5。而引流机器人账号的PF 值大多集中在0.6 以上,说明其发文频率很高。

图5 PF 指标的累积分布函数

图6为PT 指标的CDF 图。从图中可以看出,正常人类账号发文时间指标PT 高于0.5 的比率不足10%。而引流机器人账号发文时间指标PT 高于0.5 的比率超过40%,这说明引流机器人账号PT 指标明显高于正常人类账号。

图6 PT 指标的累积分布函数

图7为DR 指标的CDF 图。从图中可以看出,正常人类账号DR 指标值集中在0.2 以下,说明其在发文内容上总体呈现出非引流特性。而引流机器人账号的DR 指标大多集中在0.4 以上,明显高出正常人类账号很多,这说明引流机器人账号在发文内容上大多呈现出引流的特性。

图7 DR 指标的累积分布函数

通过图3 至图7 的指标分析,新浪微博引流机器人账号的RPR、PF、PT 和DR 指标普遍高于正常人类账号,而OPR 指标明显低于正常人类账号,证明本文提出的5 个发文特征指标具备较好的区分度。

4.2.2 智能检测模型性能分析

本文实验构建5 个发文特征指标(OPR、RPR、PF、PT、DR),分别基于随机森林、K 近邻、MLP 多层感知机,完成模型训练优化。本文设计的智能检测模型在测试集上的性能指标如表3 所示。

表3 智能检测模型性能指标

从表3 可以看出,模型在三个分类算法下均具有良好的性能指标,这表明本文提出的基于发文特征的智能检测方法,能够准确地识别出微博引流机器人账号,具备较强的可行性和通用性。

5 结束语

本文根据社交网络引流机器人账号发文特征,以新浪微博账号为样本,引入了5 类特征值,设计并实现了一套基于发文特征的引流机器人账号智能检测系统。实验结果表明,本套系统具备较高的检测准确率,为有效识别网络引流机器人账号提供了一种新的思路和方法。由于精力有限,本次研究未引入更多维度的特征,后续可考虑结合社交账号的资料完整性、信息真实度、互动程度等方面的特征指标,开展更多维度特征的融合分析研究工作。

猜你喜欢
新浪发文账号
彤彤的聊天账号
猴子虽小
施诈计骗走游戏账号
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
新浪读书排行榜
Google Play游戏取消账号绑定没有Google账号也能玩
给骗子汇款
新浪与分众合并案告吹
新浪观战记