基于深度残差神经网络的博彩网页识别算法设计

2022-03-07 12:36张立坤邓桂英

电子技术应用 2022年2期

张聪，张恒，张立坤，赵彤，邓桂英

(中国互联网络信息中心技术研发部，北京 100190)

0 引言

随着互联网技术的高速发展，我国网民人数持续增长，根据《第47 次中国互联网络发展状况统计报告》的数据，截至2020 年12 月，我国网民人数已达到9.89 亿[1]，毫无疑问，互联网已经成为人们日常生活不可或缺的一部分。然而，虚拟的网络空间中隐藏着大量有害的博彩类型网站，极易给参与者造成经济损失，设计有效方法对博彩类网站进行识别具有重要意义。

1 相关工作

博彩网站识别相当于对网页进行分类，预测其为博彩网页或其他类型网页。付顺顺[2]采用FastText[3]算法和Bootstrap[4]集成算法，利用网站文本数据，提高了识别速度并减轻了正常网站和博彩网站数据不均衡问题。唐喆[5]等人采用SVM[6]算法并提取不同的文本特征，实现对网页的分类。

已有的网页识别方法常利用网页的结构化数据，人工构造基于规则的特征，然后结合机器学习等技术进行预测和识别。很少直接采用非结构化的网页图像作为模型的输入和训练数据，导致算法无法利用网页中十分重要的图形图像信息。

近些年来，随着神经网络算法的进步和硬件算力的提升，卷积神经网络(Convolutional Neural Network，CNN)[7-8]在图像分类和识别中取得了显著的研究成果。直接将网页图像作为模型的输入，利用深度神经网络的强大特征提取能力对网页特征进行提取，进而预测网页类型很有研究和工程应用价值。本文利用现代残差神经网络技术设计了GamblingRec，实现了对博彩类网页图像的自动特征提取并预测和识别网页类别。

2 设计方法

2.1 博彩网页图形特点

博彩类网站与其他类型网站相比通常有比较明显的区别，一般会将赌博的游戏载体进行图像化、卡通画，从而可以吸引眼球，这些载体有卡通鱼、棋牌、球类等，如图1 所示，常用的关键词汇也常采用艺术化的形式展示。而CNN 算法，具有自动提取图像特征[7]的能力，很适合应用于此类图形特点明显的场景，本文基于残差神经网络[9]原理设计了算法，实现对该类网页的识别。

图1 博彩网页图像特征示例

2.2 残差神经网络

基本残差块由残差函数、跳跃连接和输出激活函数组成，通过跳跃连接将输入X 与残差函数F(X)输出相加，W、H、C 表示图像特征图的维度，求和结果经过激活函数G(X)作为残差模块的最后输出。如图2 所示，其中H(X)=F(X)+X，输出Y=G(H(X))。图3 在恒等映射上增加了尺度变换，是为了保持恒等映射尺寸与残差函数输出尺寸保持一致。

图2 残差块1

图3 残差块2

残差网络有助于解决深度网络的梯度消失和梯度爆炸问题，假设Xi和Xi+1分别表示第i 个残差块的输入和输出；F(X)为残差函数，表示残差网络学习到的残差；公式中的Wl和Wi为残差函数F(X)的可学习参数；G 表示ReLU 激活函数[10]，则残差模块可以表示为：

给定第i 个残差模块输入xi，通过递归，可以求得第L 个残差模块的输出为：

假设残差网络的损失函数为Loss(w)，w 表示网络参数，根据神经网络的链式求导法则，可得：

从式(3)可知，即使是很深的网络层，输出误差也可以无损地传播到网络最初的输入网络层(第l 层)，从而避免了普通深层网络长传播路径所带来的梯度消失或爆炸的问题。

2.3 模型设计

深度残差网络一般通过多组残差块的堆叠达到较强的特征提取能力，并可以获得良好的性能。本文设计了包含9 个卷积层和1 个全连接层的深度残差网络GamblingRec，具体的设计参数如表1 所示。网络结构如图4 所示，主要由卷积层(Conv)、池化层(Pooling)、Dropout层和全连接层(FC)构成[11-13]，Conv1 的卷积核尺寸为7×7，卷积核个数有64 个，卷积步长(stride)为2。Conv2～5采用图3 所示的残差块结构，残差函数包含两个卷积层，且第一个卷积层进行步长为2 的卷积运算，恒等映射路径上通过步长为2 的1×1 卷积运算将恒等映射输出的深度和宽度转化为与残差函数的输出特征图尺寸一致。在经过4 个卷积块处理后连接一个Dropout 层，以概率0.2 随机丢弃神经元来提高模型的泛化能力，然后通过全局平均池化提取每个通道特征图的特征，最后使用全连接FC 层和softmax[14]函数输出两种类别的预测值。

图4 GamblingRec 网络架构

表1 模型架构

3 图像数据扩增

卷积神经网络模型是一种数据驱动的算法，拥有大规模数据对于模型的训练十分重要，更多的数据能够提升模型的泛化能力，但获取大量的真实数据有时候并非那么容易，这时就要考虑采用数据增强技术[15]。数据增强不用实际收集新数据，却可以达到增加数据的效果，它在原始数据的基础上进行数据变换，增加了数据多样性，有助于降低模型过拟合并提升模型准确率。

数据增强对于图像数据而言更加有效，例如两张存在一定位移的图像，在人看来可能没什么区别，但在神经网络看来却是截然不同的数据，图像数据增强极大地增加了神经网络所能看到的图像多样性。

针对博彩网页图像数据，本文进行了随机水平翻转、随机旋转、随机灰度变化、随机截取的图像变换技术，最后对输入图像数据进行标准化处理，提升模型训练的速度和稳定性，如图5 所示。

图5 图像数据增强流程

4 实验介绍

4.1 实验数据

本文实验用的数据集分为训练集和验证集，为增加数据量并对图像尺寸进行统一化，将原始网页图像裁剪为高和宽都为1 000 的正方形，实际训练过程中还采用数据扩增技术，详情见第3 节，利用图像的随机变换大大增加了训练样本的数量，这有利于增加模型的泛化水平。经过图像扩增后的图像尺寸为600×600，训练集样本数量为15 649，验证集样本数量为3 509，正样本与负样本的比例为7.3:10，硬件采用GPU 进行训练，型号为Tesla P100。

4.2 实验设置

模型优化采用交叉熵[14]作为损失函数，具体实现使用了PyTorch 提供的交叉熵损失函数CrossEntropyLoss。卷积神经网络训练所采用的超参数如表2 所示，训练时通过随机的图像变换，图像尺寸转换为600×600，优化器采用随机梯度下降[16]，学习率衰减采用StepLR，初始学习率为0.01，每隔5 个Epoch 将学习率下降10%。

表2 模型训练超参数

4.3 实验结果分析

4.3.1 评估指标

本文采用4 个指标评估模型在验证集上的表现，分别是召回率(Recall)、精确率(Precision)、准确率(ACC)和F1 分值。TP 表示被正确分类的不良图片数量；FN 表示被误判为良性图片的不良图片数量；F1 分值是Recall 和Precision 的调和平均，反映了Recall 和Precision 的整体表现，一般F1 越大模型表现就越好；ACC 为验证集上整体准确率。如下所示为这几种指标的定义：

4.3.2 实验结果

实验表明采用深度残差网络输入网页截图可以有效识别出网页类别，且具有较高的准确率。表3 列出了模型在验证集上的不同评测指标，主要为正样本的精确率和召回率、负样本的精确率和召回率，以及验证集全样本的准确率。从表中可以看出，模型准确率达到了95.16%，正样本精确率和召回率分别为96.01%和93.21%，正样本的召回率略低于负样本的召回率。图6 的准确率(ACC) 曲线展示了模型训练过程中准确率的变化情况，从图中可以看出训练集的准确率稳步提升，而验证集的准确率先是经过了100 多个Epoch 的震荡，然后逐渐稳定在95%左右。图7 为损失函数(Loss)曲线，也是先经过100 多个Epoch 的震荡并逐渐收敛。

图6 准确率曲线

图7 损失函数曲线

表3 验证集评测结果 (%)

5 结论

本文针对博彩类网站的识别问题，从网络爬取了博彩类网页数据和其他类型网页数据，构建了博彩图像数据集。基于深度残差网络的方法设计了GamblingRec，进行了模型训练和优化，并在验证集上对博彩网页进行识别和评测，获得了良好的识别效果。但由于网页形式和内容多种多样，除了图形还有文字，有的网页图形特征明显，而有的网页以文字为主，未来有必要研究能同时兼顾图形和文字的识别方法。另外，进一步收集更多的数据，使模型对网页形式和内容有更强的适应性，还需要研究提升正样本召回率的方法。