基于改进注意力机制的口罩人脸识别算法

2023-09-04 14:51胡俐蕊

计算机仿真 2023年7期

胡俐蕊,李潇,谭凯

(1. 北部湾大学电子与信息工程学院,广西钦州 535000;2. 桂林理工大学信息科学与工程学院,广西桂林 541000)

1 引言

近些年,人脸识别算法在基准数据集上取得了显著的性能改进[1],[2]。然而由于新冠肺炎疫情的爆发,口罩人脸识别任务需求加大,传统人脸识别算法在口罩人脸识别中没有很好的性能表现,这成为计算机视觉中急需解决的难题。口罩人脸识别是对佩戴口罩的人脸进行身份识别,在口罩人脸图像中,口罩部分信息对人脸身份是无关的。例如,同一个人可以佩戴不同口罩,不同人可以佩戴同一种口罩。目前主流的人脸识别算法都是使用深度卷积神经网络对人脸图像进行特征提取[-7],生成具有类内距离较低、类间距离较高的人脸特征表示。当这些算法在对口罩人脸进行识别时,以同等的方式处理口罩信息和人脸信息,口罩特征嵌入到人脸表示中,减少了类内变化。这导致了人脸识别算法在口罩人脸识别中识别率准确率大幅降低。因此口罩人脸识别被认为是最具挑战性的计算机视觉任务之一。本文提出了一种基于改进注意力机制的口罩人脸识别算法,旨在对有效人脸进行特征提取,忽略被遮挡而失真的图像特征。在保证无遮挡人脸识别高准确率的同时大幅提升口罩人脸识别性能。

2 相关工作

2.1 遮挡人脸识别

口罩人脸识别是特殊的遮挡人脸识别,目前口罩人脸识别的大部分研究来源于遮挡人脸识别。遮挡人脸识别主要的方法有:遮挡鲁棒特征提取、遮挡感知人脸识别、基于遮挡恢复的人脸识别方法。在深度卷积神经网络出现前,遮挡人脸识别方法将人脸图像投影到低维子空间[8],[9],将遮挡看作单独的子空间。文献[10]的方法将人脸图像分割成局部区域进行独立,解决遮挡问题。在2014年,SUN等人[11]提出了DeepID2,在小面积遮挡人脸的识别具有一定的效果。在之后几年,研究人员通过改进卷积网络结构和设计新的损失函数提升人脸特征表达能力[3][4]。随后有人提出通过遮挡感知抑制遮挡物的特征表达[7],[12],降低遮挡对于人脸识别过程的干扰,提升模型对遮挡人脸识别的鲁棒性,本文从中受到很大启发。随着深度学习技术研究的不断深入,一些生成对抗学习的方法涌现出来[13],[16],对遮挡人脸进行修复,使用修复后的人脸进行识别,但是这种方式的识别性能很大程度依赖于修复结果的真实程度,由于口罩遮挡面积较大,修复后常常会失真,并且计算量较大,所以并不适用于口罩人脸识别中。

2.2 注意力机制

2017年,谷歌机器翻译团体发表的文章使用自注意力机制[17]来学习文本表示。此后注意力机制成为研究热点,各种注意力机制层出不穷,现在已经广泛的应用于计算机的各个领域:图像分割,图像分类,动作识别,文本分类,机器翻译等[18-20]。

Wang等率先将自注意力机制使用在计算机视觉中,基于图像处理中的非局部均值滤波[21]思想提出了Non-Local操作模块[5],其核心算子如下

(1)

式中,X为输入特征图,Y为输出,i,j为特征图X的位置索引;f()为两特征点相似关系计算函数;g()为映射函数,计算特征图X在i位置的输出特征信息。如式(1),对于输入特征图任一点Xi,先使用相似计算函数对其求得与特征图中所有点Xj的相似性,再分别将相似度分数与其对应的Xj相乘并相加即g(Xj),由此得到输出特征图的对应点Yi。

3 本文模型

本文是将改进的注意力机制嵌入ArcFace[4]提出的ResNet50网络中,放在layer3层,充分获得特征信息,整体结构如图1。

图1 本文模型整体结构

本文改进的注意力机制结构如图2所示。Layer3＿out是ResNet50的layer3的输出特征图大小为1024×14×14,将其作为改进注意力机制的输入。

图2 改进的注意力机制

本文采用关键点注意力机制替代了原注意力机制的全连接,如图2所示。使用3×3卷积(Conv＿3×3)去除冗余信息,实现关键特征的提取(大小为1024×6×6),再使用该特征图输入特征图X进行与通过1×1卷积(Conv＿1×1)整合后特征图相乘,通过softmax函数,进而形成新的注意力分布:

C=softmax(Conv＿1×1(X)Conv＿3×3(X)T)

(2)

得到的注意力分布再与输入特征图相乘

(3)

(4)

(5)

4 实验结果及分析

为了验证本文算法的有效性,使用公开人脸数据集进行训练,在国际标准人脸识别数据集进行测试,并且与经典的人脸识别算法进行比较,以证明本文算法的有效性。

4.1 数据集选取

在文献[22]中,通过在训练集中增加模拟遮挡提高算法遮挡情况下识别性能。因此,本文将口罩人脸数据集CASIA-WebFace＿Mask[23]和正常人脸CASIA-WebFace[24]混合组成本文训练数据集CASIA-WebFace＿Mix(其比例为1:1),该数据集包含了10 575个人的494414张图像。如图3,每一行四张照片为同一个人,两张正常人脸和两张口罩人脸。

图3 本文训练数据集示例

使用的第一个测试数据集是LFW[1],LFW数据集是为了研究非限制环境下的人脸识别问题而建立的。这个数据集包含超过13000张人脸图像,均采集于Internet。每个人脸均被标准了一个人名。其中,大约1680个人包含两个以上的人脸。这个集合被广泛应用于评价人脸验证算法的性能,如图4,同一个人受到拍照角度、光照和背景因素的影响,并且存在表情变化,所以同一个人的人脸图片存在较大差异。

图4 LFW数据集示例

使用的第二个测试数据集是LFW＿Mask,这个数据集是武汉大学国家多媒体软件工程技术研究中心对LFW数据集进行虚拟口罩,如图5,全脸将近一半的遮挡,只能通过有效人脸部分进行识别,口罩的佩戴对人脸特征提取过程中将产生极大的干扰,该数据集在人脸识别任务中具有很大挑战。

图5 LFW＿Mask数据集示例

4.2 实验环境及参数设置

计算机配置:Intel(R) Core(TM) i7-7820X CPU,32G内存,两块NVIDIA GeForce RTX 2080,每块8G显存。在Windows10系统下,使用深度学习框架pytorch。

本文将实验参数统一设置为:输入图片大小112×112,训练集batch＿size和测试的batch＿size为128,进行10个迭代训练(epoch),使用随机梯度下降(SGD)作为网络优化器,初始学习率为0.02。

4.3 实验结果及分析

4.3.1 训练步骤

本文训练使用的损失函数为Cosface[3]中提出的损失函数。

第一步:本文将算法在口罩人脸数据集CASIA-WebFace＿Mask进行训练,主要目的完成对掩码部分的训练。第二步:将第一步得到的算法使用混合数据集进行训练,提升正常人脸识别性能。

4.3.2 注意力可视化对比

图6(a)为输入图像,图6(b)和图6(c)显示输入图像的不同区域对卷积神经网络输出类别的“贡献”程度,红色为“贡献”较大,蓝色为“贡献”薄弱。从图6(b)可以看出,口罩人脸在ResNet50中,口罩区域仍有较大权重,口罩特征将会参与人脸识别,增大了佩戴同一口罩的不同人脸的相似度,干扰分类过程,将会大大降低口罩人脸识别正确率。从图6(b)和图6(c)的对比可以明显看出,本文算法由于改进的注意力机制消除了口罩信息,口罩部分权重大大降低,并且在这三个不同口罩人脸上都能将注意力集中在人脸区域。与ResNet50相比,本文算法具有更强的特征提取能力和去噪能力。

图6 类激活热力图

4.3.3 与主流人识别算法对比

LFW[1]是无约束条件下的标准人脸验证基准数据集。本文严格按照不受限制的标准协议评估本文算法,分别在LFW和LFW＿Mask测试3000图像对的平均准确率。为了公平对比,本文将这些主流人脸识别算法通过混合数据集的训练,在LFW和LFW＿Mask上评估算法的性能,如表1。在表1中,ResNet50为使用ArcFace[4]提出的ResNet50网络,并使用Cosface[3]中提出的损失函数,在混合数据集上进行训练。

表1 不同算法在LFW＿Mask和LFW上准确率对比表

从表1中可以看出,在ResNet50中加入Non-Local注意力机制,在LFW和LFW＿Mask上,算法准确率分别提高了0.02%和0.26%,Non-Local注意力机制的加入没有明显作用,这是因为Non-Local注意力机制增大了的算法的感受野,没有区别对待口罩信息和人脸信息。与只使用ResNet50相比,在LFW和LFW＿Mask上,本文算法的准确率分别提高了3.58%和6.4%。与遮挡人脸识别算法MaskNet[7]相比,本文算法在LFW和LFW＿Mask上,分别提高了3.7%和4.71%;与人脸识别算法ArcFace相比,本文算法在LFW和LFW＿Mask上,分别提高了3.87%和7.91%;与其它主流算法相比,也有不同提升,均获得最高准确率,证明了本文算法的有效性。

5 结论

本文提出了一种基于改进注意力机制的口罩人脸识别算法,在注意力机制中引入关键点注意力,具有区块注意力效果,再通过掩码增强人脸部分特征和抑制口罩部分信息,形成关键点注意力机制和掩码良好的融合,能精确的发现和丢弃口罩信息,解决口罩信息干扰人脸识别问题,将注意力集中在有效人脸区域。在合成口罩人脸数据集和真实人脸数据上的比对结果表明,该算法优于传统人脸识别算法,证明了本文算法改进的有效性。