基于深度学习和特征分析的隐蔽性有害信息识别方法研究

2023-07-21 11:12张安康刘加兵
计算机应用文摘·触控 2023年14期
关键词:特征分析深度学习

张安康 刘加兵

摘 要 互联网上的有害信息层出不穷 而随着各项技术的发展 有害信息采用各种方式隐藏其核心内容 以躲避各类算法的识别和检索 目前 对此类隐蔽性有害信息识别的常用方法主要是基于人工智能技术 采用人工标注和训练学习的方式 但是算法较为复杂 对资源的需求较大 因此 一种新思路为 从隐蔽性有害信息的特征出发 分析出其特征规律 并基于以上结果设计一种新方法 同时降低人工参与和算法复杂度 最后 通过不同的样本库 对基于深度学习的方法和基于特征分析的方法效果进行对比分析 得到不同场景下的应用方案 为识别隐蔽性有害信息工作提供参考

关键词 隐蔽性有害信息 文本识别 深度学习 特征分析

中图法分类号TP18   文献标识码A

1 引言

随着互联网的高速发展,产生了大量有害信息,如诈骗、谣言、色情、暴恐等。如果对这些信息不加以检测和控制,不仅严重威胁人们的精神和物质财产安全,更严重制约着网络空间的健康发展[1~2] 。网络空间是现实世界的延伸,而并非法外之地。《网络安全法》规定,国家保护公民依法使用网络的权利,但不允许任何个人和组织有违背宪法法律、公共秩序以及社会公德的网络行为。由于互联网信息数量庞大、结构复杂、形式丰富,单纯依靠监管人工审核难以做到全面细致,并且需要耗費大量人力物力成本。因此,人工智能、数据挖掘等新技术新手段在近年来被广泛应用于有害信息识别工作。其主要方式为,通过人工提取样本数据,利用机器学习、深度学习等模型实现有害信息的自动识别,通过人工标注和算法迭代,实现识别效率的提升[4~5] 。

不过,也正是由于有害信息智能识别技术的发展,促使有害信息想方设法逃避智能算法的识别。最典型的方式为有害信息的核心内容被各种手段隐蔽(如特殊符号、火星文、标志符号等),从而规避智能算法的检索。对于此类信息,目前已有部分研究,本文称其为隐蔽性有害信息。为研究隐蔽性有害信息的特点,前期本文收集了约5 000 万条原始数据,并初步分析了隐蔽性有害信息的特点,主要表现为隐蔽性有害信息普遍不直接显示明文内容,而是通过增加特殊字符的方式隐藏关键信息,从而增加识别难度。

为实现隐蔽性有害信息的识别,常用方法为基于深度学习的经典算法模型,通过训练集加人工标注的方式训练算法,继而实现算法对隐蔽性有害信息的识别。本文基于隐蔽性有害信息的特征研究结果,提出一种方法———不使用人工标注,而是通过比对特征的方式进行隐蔽性有害信息的识别。本文通过对以上方法的研究,为实现快速、实用、准确地识别隐蔽性有害信息提供了一种思路。

2 隐蔽性有害信息特征分析

本文对收集到的属地有害信息原始数据进行多维度分析,识别出了有害信息的特征,初步分析如下。

(1)语言特征:通过分析输出结果发现,有害信息均含有部分特殊文字,如火星文等,但并非全文都是特殊文字。其具体如表1 所列。

(2)文字特征:通过分析输出结果发现,有害信息中的特殊文字一般不局限于某一类,繁体字、异体字、形近字等都会出现。其具体如表2 所列。

(3)信息特征:通过分析发现,有害信息一般含有网址、QQ 号、微信号等,否则无法传递关键信息,仅含有特殊字符但不含以上任何信息的文本基本不包含有害内容。其具体如表3 所列。

(4)逻辑特征:通过分析发现,QQ 号和微信号基本都使用特殊字符,很少使用完全明文信息,但网址基本都是明文。其具体如表4 所列。

特征总结:有害信息基本为正常文字和特殊字符混合,特殊文字一般不局限于某一类,一般都含有网址、QQ 号、微信号等。QQ 号和微信号基本都使用特殊字符,如变种“Q”或变种“V\微”等,避免被关键字识别检索;而网址基本都是明文,否则无法被目标用户直接点击,其他文字使用特殊字符,主要目的为在隐蔽性和可读性之间寻求平衡。

3 基于深度学习的传统识别方法

3.1 理论模型简介

在人工智能领域,研究人员设计了多种文本表示和识别类算法,本文采用经典的BERT 模型。BERT模型是谷歌公司的研究人员于2018 年提出的一种典型的预训练表征模型[6~7] ,采用maskedlanguage model(MLM)技术,用于生成深层次的文本特征表示,同时引入了遮蔽式语言模型,用于随机遮蔽文本序列中的部分词语。

BERT 模型按照功能模块分为输入层、预训练层和输出层。输入层由Token Embeddings, SegmentEmbeddings 和Position Embeddings 3 个部分组成;预训练层生成双向的深层文本特征表示,采用MLM 对双向的Transformers 预训练;输出层对模型内部的参数进行微调,得到最终的模型输出结果。

BERT 模型主要结构如图1 所示,基础模块为BERT Layer, 多个基础模块叠加组成了BERTEncoder,多个BERT Encoder 最终构成完整的BERT模型。

3.2 系统方案设计

利用BERT 模型设计一种识别隐蔽性有害信息的传统方案(如图2 所示),主要分为输入、输出、文本识别模型和人工标注等模块。从本文收集到的样本库中取出一部分样本并将其作为该模型的训练集,通过人工标注进行训练和调优,总体方案与目前人工智能领域普遍使用的深度学习BERT 模型设计方案类似。

4 一种基于特征分析的识别方法

4.1 方案设计

上述传统的有害信息识别方法是机器学习和深度学习理论的经典应用之一。如果将其应用到本文研究的隐蔽性有害信息识别中,有以下2 点可以优化:一是传统的有害信息识别方法需要人工参与标注,算法质量一定程度上取决于人工标注的质量;二是在海量文本数据情况下,人工标注工作需要耗费大量的人力资源,对课题或者项目的成本控制带来极大挑战。因此,为降低人工参与对算法的影响以及算法复杂度和人工成本,本文提出一种技术路线:通过研究分析隐蔽性有害信息的特点,将隐蔽性有害信息作为一个整体,针对其特征进行要素提取,以识别出隐蔽性有害信息。其具体技术框架如图3 所示。

4.2 具体算法

根据隐蔽性有害信息的特征分析结果,本文设计了一种算法———通过两级要素提取模型识别出有害信息,不需要人工标注参与。其具体算法框架如图4所示。

(1)文本分类环节。在该环节,首先判断输入的文本信息是否含有特殊字符。根据本文分析的隐蔽性有害信息的特征,不含特殊字符的文本基本不是有害信息,故将含有特殊字符的信息全部作为结果,输出到第二级信息识别模型中并将其进行处理。判断是否含有特殊字符的方法为将该文本与标准字符库进行比对,只要有任意字符不在标注字符库,即判定为含有特殊字符,将该文本输出。

(2)信息识别环节。在该环节,将第一级的输出作为输入,根据有害信息的特征进行判断,判断条件为该信息是否包含明文网址或QQ 号或微信关键字。具体判断方法为使用正则规则比对“.+连续字母或数字”判断是否包含网址;通过比对“Q”字符及其变种字符库和连续数字判断是否包含QQ 号;比对“微”字符及其相关变种字符库判断是否包含微信号。若输入文本满足以上3 个条件的任意一种,则判定该文本为隐蔽性有害信息,并将该文本输出。

(3)算法特点:本算法在文本分类和信息识别环节无需人工标注及人工参与,降低了算法人力成本。同时,本算法采取的两级要素提取模型仅需要使用正则表达式和比对字符库的方式实现,算法复杂度低,降低了算法所需的软硬件成本。

5 对比分析

5.1 评价指标

混淆矩阵是机器学习中总结分类模型预测结果的常用工具,数据集中的记录以矩阵形式且按照真实类别与分类模型预测的类别2 个判断标准进行汇总。其中,矩阵的行表示真实值,矩阵的列表示预测值。以典型的二分类评估指标为例,其中定义的一些符号含义如下。

(1)TP(True Positive):將正类预测为正类数,真实为0,预测也为0。

(2)FN(False Negative):将正类预测为负类数,真实为0,预测为1。

(3)FP(False Positive):将负类预测为正类数,真实为1,预测为0。

(4)TN(True Negative):将负类预测为负类数,真实为1,预测也为1。

本文的应用场景为最典型的二分类模型,正类代表该样本为隐蔽性有害信息,负类代表该样本不属于隐蔽性有害信息。评价算法结果的矩阵表现形式如图5 所示。

矩阵行数据相加是真实值类别数,列数据相加是分类后的类别数。因此,根据以上矩阵可以得到以下计算公式:

召回率(正)= a / (a+b) (1)

准确率(正)= a / (a+c) (2)

召回率和准确率是评价分类模型预测结果的常用指标,在本文的二分类应用场景中,召回率(正)表示经算法模型预测为隐蔽性有害信息的样本数量,在真实值为隐蔽性有害信息的样本总数中的占比;准确率(正)表示真实值为隐蔽性有害信息的样本,且经算法模型成功预测为隐蔽性有害信息的样本数量,在算法模型输出的所有预测为隐蔽性有害信息样本数量的占比。

5.2 结果与分析

本文使用前期收集到的有害信息原始数据,并将其划分成3 个样本库,分别对基于深度学习的传统算法(下称算法1)和本文设计的基于特征分析的算法(下称算法2)进行效果验证。对于算法1,将样本库中一部分样本作为训练集,采用人工标注的方法进行训练调优。对于算法2,直接将样本库送入算法模型中并进行筛选,不使用人工参与算法,仅在输出结果对比分析时,使用人工进行分析。

5.2.1 准确率结果分析

根据2 个算法模型和3 个样本库,对算法准确率进行研究和对比分析,如图6 所示。

根据图6 可以得到以下结论。

(1)算法1 和算法2 的准确率差异不大,均可以达到80%的目标要求。

(2)在不同样本库条件下,算法1 的准确率总体比较平稳,而算法2 的准确率波动相对较大。

(3)算法2 的准确率与样本库的相关性较大,在某些样本库条件下,算法2 的准确率优于算法1。为分析算法2 的准确率结果,本文对3 个样本库进行了抽样分析,与算法2 使用的隐蔽性有害信息的分析特征进行对比。分析发现,在样本库2 条件下,算法2 的准确性相对较高的原因主要是样本库2 中满足前期总结的隐蔽性有害信息特征的文本,属于非有害信息的数量很少,而样本库1 和样本库3 中有少量非有害信息文本也符合隐蔽性有害信息特征,但总体影响不大。

5.2.2 召回率结果分析

根据2 个算法模型和3 个样本库,对算法召回率进行研究和对比分析,如图7 所示。

根据图7 可以得到以下结论。

(1)算法1 和算法2 的召回率差异不大,在不同样本库条件下,算法1 的召回率总体比较平稳,而算法2 的召回率波动相对较大。

(2)算法1 的召回率总体高于算法2,因算法2 的召回率与样本库的相关性较大。

为分析算法2 的召回率结果,本文同样对3 个样本库进行了抽样分析,与算法2 使用的隐蔽性有害信息的分析特征进行对比。在样本库2 条件下,算法2召回率相对较低的原因主要是前期总结的隐蔽性有害信息的特征与样本库2 匹配程度较低,有少量有害信息文本不符合算法2 所使用的规律特征。因此,算法2 依赖于前期隐蔽性有害信息的特征总结,以及样本库与特征总结的匹配程度,特征总结越完备,样本库的匹配度越高,召回率越高。

5.2.3 应用场景分析

基于以上结果分析,算法1 和算法2 各有特点,需结合应用场景进行选择。算法1 采用目前相对成熟的机器学习算法和人工标注方式,输出识别样本的准确率和召回率均相对稳定,全部维持在85%和82%以上。但算法1 较为复杂,对硬件资源要求较高,同时需要人工参与,因此适用于对识别样本准确率和召回率的稳定性要求较高且资源充足的场景。算法2采用特征总结对比的方式,输出识别样本的准确率和召回率依赖于特征总结的完备性,以及样本库与特征总结的匹配程度,因此波动相对较大。但算法2 的优势在于实现相对简单,算法复杂度远低于算法1,同时不需要人工标注,对资源的需求相对较小,因此适用于对样本识别稳定性要求相对较低但资源有限的场景(如实验研究), 或者用于对庞大样本库的粗略筛选,其作为后续某个算法的输入样本,以减少后续某个算法模型的运行时间。

本文算法能够基于隐蔽性有害信息的特征减少算法复杂度,为智能识别隐蔽性有害信息工作提供了参考。

参考文献:

[1] 龚文全.人工智能在有害信息识别服务的应用和发展趋势[J].电信网技术,2018(2):10?14.

[2] 陶冶,王志军,刘镝,等.基于大数据的信息通信欺诈事件发现技术研究[J].信息通信技术,2017,11(3):7?12.

[3] 黄欣荣.大数据时代的精准诈骗及其治理[J].新疆师范大学学报,2017,38(4):86?92.

[4] 赵京胜,宋梦雪,高祥,等.自然语言处理中的文本表示研究[J].软件学报,2022,33(1):102?128.

[5] 张千,王庆玮,张悦,等.基于深度学习的文本特征提取研究综述[J].计算机技术与发展,2019,29(12):61?65.

[6] DEVLIN J,CHANG M W,LEE K,et al.BERT:Pre?training ofDeep Bidirectional Transformers for Language Understanding[ J ]. North American Chapter of the Association forComputational Linguistics,2018:179?195.

[7] 李杰,李欢.基于深度学习的短文本评论产品特征提取及情感分类研究[J].情报理论与实践,2018,41(2):143?148.

作者简介:

张安康(1989—),硕士,工程师,研究方向:信息安全、通信信息系统。

刘加兵(1993—),硕士,初级工程师,研究方向:网络安全、通信信息系统。

猜你喜欢
特征分析深度学习
泡罩包装挥发性有机物排放特征分析
2012 年南海夏季风特征分析
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现
基于PowerPC的脉内特征分析算法的工程实现
肾康注射液不良反应特征分析