NRCNN与角度度量融合的人脸识别方法

2018-12-07 09:08梁晓曦蔡晓东库浩华

西安电子科技大学学报 2018年6期

梁晓曦，蔡晓东，王萌，库浩华

(桂林电子科技大学信息与通信学院，广西桂林 541004)

近几年，卷积神经网络在计算机视觉方向成为了最流行的技术方法．在人脸识别任务中，相较于提取手工特征的传统算法[1]，卷积神经网络避免了复杂的特征选择问题，同时能达到更好的识别准确率．

目前，针对人脸识别任务，提出了众多基于卷积神经网络(Convolutional Neural Networks，CNN)的人脸特征提取网络和方法．文献[2]的视觉几何组织(Visual Geometry Group，VGG)网络拥有一定的深度，具有良好的特征提取能力，但是该网络参数过多，不容易收敛和优化．文献[3]的Deepface首先采用了比较复杂的3D人脸建模技术和逐块的仿射变换进行人脸对齐，然后使用卷积神经网络提取特征，同时使用了大量的训练数据．

通常，基于卷积神经网络的特征提取网络使用分类损失(softmax loss)来进行特征学习，这种方式可以学习到可分离的特征，但是特征的区分性不强．后来出现了一些度量学习的方法来解决特征区分性不强的问题，使得在训练的过程中缩小类内距离，增加类间距离．文献[4]的DeepID2在网络中加入了对比损失(contrastive loss)来联合分类损失进行监督训练，但是该方法需要大量的正负样本，而样本的生成有很大的随机性，容易影响网络的性能．文献[5]的FaceNet使用了一种三重损失(triplet loss)，所有训练样本都是三元组数据．虽然该方法有不错的准确率，但是对于样本的需求量太大．而三元组的选择处理过程也比较耗时，网络性能也比较不稳定．文献[6]的Center face使用了中心损失(center loss)加权结合分类损失的方式进行训练，但是中心损失仅仅作用于类内距离的压缩，而对类间距离并没有作用．

基于上述讨论，笔者提出一种基于嵌套残差卷积神经网络和角度度量的人脸识别方法，通过改进网络结构和特征区分学习方式提高人脸识别的准确率．使得在合适的选定度量空间下，学习到的特征满足最小的类间距离大于最大的类内距离．同时能在保持较高准确率的情况下，具有较低的复杂度．

1 基于嵌套残差卷积神经网络与角度度量的人脸识别方法

1.1 嵌套残差网络设计

为了提升人脸识别的准确率，可通过加深卷积神经网络的方式来提升网络的性能．因为卷积神经网络能够提取各维度的特征，网络的层数越多，则能够提取到不同维度的特征越丰富．并且，越深的网络提取的特征越抽象，越具有语义信息．但是随着网络层数的加深，会出现梯度弥散或梯度爆炸，使得随机梯度下降算法的优化变得更加困难，导致训练难以收敛，模型也达不到好的学习效果，层数过多时也会导致训练误差加大．文献[7]提出了一种捷径连接的方式增加了一个恒等映射，这种结构可以很好地解决模型性能的退化问题，并且不会产生额外的参数，也不会增加计算复杂度，同时却可以大大增加模型的训练速度、提高训练效果．为了控制模型的大小，使用小卷积核的堆叠来替代大卷积核，可有效地减少模型的参数数量．

图1 嵌套残差模块的结构

残差网络通过捷径连接传播信息只是在残差模块的相邻层，而文中提出了一种新颖的嵌套残差卷积神经网络结构，通过额外的捷径连接可以在不相邻的模块间传播信息，因此可以增强网络的学习能力．该网络主要由嵌套残差模块和缩减卷积构成．缩减卷积是一种卷积层，它的尺寸为 3×3，步长为2，填充为1．所以每经过一个缩减卷积，特征图的尺寸就会减少一半．由于池化层在下采样的过程会损失过多信息，所以文中采用缩减卷积替代池化层来减小特征图的尺寸．嵌套残差模块的结构如图1所示．

该模块使用了3×3的小卷积核，同时使用一个1×3和一个3×1的卷积并联的方式，可以加速计算，增加了网络的非线性．合并层则进行了多层次多特征图的相加融合，能够得到更丰富的特征，因此能获得更高准确率．假设输入为x，两个虚线框的为映射F和G，则最终输出为x+F(x)+G[F(x)]，令网络模块关系映射H(x)=x+F(x)+G[F(x)]，而拟合残差映射F和G比拟合原始映射H(x)要容易得多．该嵌套残差模块增加了网络的深度，并且通过捷径连接解决了深度网络存在的问题，同时具有良好的特征提取能力．

文中的嵌套残差卷积神经网络结构如图2所示，由4个缩减卷积和4个嵌套残差模块相间堆叠而成，最后连接一个512维的全连接层作为特征输出层．其网络结构细节如表1所示．

表1 文中提出的人脸特征提取网络的具体细节

1.2 基于权值标准化的角度度量方法

在应对人脸识别这种具有类内多样性和类间复杂性的任务时，基于分类损失的卷积神经网络往往难以达到理想的效果．因此文中使用了一种基于改进分类损失的角度度量损失[8]方法，首先对权值进行标准化，然后再使用角度度量的方式优化网络，从而实现了最大类内距离小于最小类间距离的识别标准．

这里以二维空间作为例子．在softmax映射空间中，当出现类间距离较小的情况时，特征的区分性不强，余弦距离度量方式会出现偏差，如图3所示．特征点a和c的余弦距离若是大于a和b的余弦距离，则就会判断a和c为一类，然而事实是a和b才是一类．为了解决此问题，使用了基于权值标准化的角度度量方法，如图4所示．固定w1和w2的值，此时要判断x属于哪一类，只需要比较α和θ的大小，由于α小于θ，所以x属于类A．

原始的分类损失是一个交叉熵损失L，可表示为

(1)

其中，M是训练样本的数量，xi是第i类的特征向量，yi为xi的标签，Wj和Wyi是最后全连接层的权值矩阵W的第j列和第yi列，b是指最后一层全连接层的偏置，θj，i是向量Wj和xi之间的角度．

(2)

其中，Lm指经过权值标准化后的损失函数．

此时特征归类决策只取决于角度，通过训练能使得卷积神经网络学习到基于角度分布的特征．

在此基础上，引入角度间距变量k(k>1)，k越大，其特征区分性越强，但是训练也会更加困难．因为本质上存在类内的较大差异性和类间的高度相似性，而k的增大，意味着类间角度间隔变大，类内角度需要压缩的更小，所以训练难度也会增大．最终的角度度量损失函数La可表示为

(3)

如图5所示，其中特征提取网络就是1.1小节的嵌套残差卷积神经网络，文中就是在特征提取网络的最后一层全连接分类层进行了权值标准化，然后使用角度度量损失进行训练优化网络．

图5 基于角度度量方法的卷积神经网络结构

2 实验结果与分析

文中实验平台的配置包括Intel i5-4460(4x3.2 GHz处理器)、8 GB内存、GTX980Ti显卡以及 Ubuntu14.04操作系统，并且使用文献[9]的快速特征嵌入的卷积(Convolutional Architecture for Fast Feature Embedding，CAFFE)深度学习框架作为实验运行环境．

2.1 实验数据库及处理

2.1.1 训练库与测试库

文中使用的训练库是经过筛选后文献[10]的中国科学院自动化研究所网络人脸数据库，去除了部分错误样本和重复样本，总共包含了 10 572 个人，共 453 201 张人脸图片．

文献[11]中的人脸标记(Labeled Faces in the Wild，LFW)数据库包含 5 749 个人，总共 13 233 张人脸图片．文中是在LFW数据库上进行测试，测试结果是基于LFW数据库的 6 000 对人脸验证任务，包括 3 000 对正样本和 3 000 对负样本．

2.1.2 预处理与测试方法

文中首先对训练库和测试库都进行文献[12]的多任务级联卷积神经网络预处理，包括人脸检测，人脸关键点(包括两个眼睛中心，一个鼻尖，两个嘴角)定位两个步骤．然后根据人脸关键点进行仿射变换校正，最终将图片尺寸裁剪为 112× 96．测试时提取图片原图和水平翻转图的特征，联合作为最终的比对特征，并通过余弦距离计算特征相似度．

2.2 实验数据与结果分析

2.2.1 中心损失与角度度量损失的对比分析

文中基于resnet-27[6]和提出的嵌套残差卷积神经网络进行了相关度量方法的对比试验，结果如表2所示．

表2 中心损失与角度度量损失的在LFW数据库上的结果对比

由表2的序号(1)、(2)和序号(3)、(5)可以看出，经过权值标准化和角度度量后，在LFW上的测试准确率会有所提高，说明角度度量方式有助于提高特征的区分性，增强网络的性能．通过表2的序号(4)、(5)可以看出，使用角度度量损失的方法优于使用中心损失，在LFW上有更高的测试准确率，可以保证最小的类间距离大于最大的类内距离，使网络能提取出区分性更强的特征．

2.2.2 角度度量损失的性能与代价分析

文中针对上节中提出的序号(3)、(5)两个网络进行实验对比，实验环境是在上节中提及的条件下，结果如表3所示．

表3 文中提出的两个网络的收敛速度与训练耗时对比

在嵌套卷积神经网络的基础上，使用角度度量后，收敛速度会有所放慢，需要多迭代 2 000 次，增加了9%．使用角度度量后，计算复杂度略微提高，达到相同的 20 000 迭代次数时所需耗时仅仅增加 298 s，增加了4.3%．虽然使用角度试验后达到收敛时所需耗时增加了 832 s，但是能够在较高准确率的情况下继续提高了2.63%的识别精度．

2.2.3 文中方法与其他方法的比较与分析

将文中方法同其他方法进行了对比，结果如表4所示．首先相对于使用分类损失的方法如DeepFace和VGG，文中方法使用了角度度量损失，能提取出区分性更强的人脸特征，人脸验证任务的准确率也更高．然后，与基于对比损失的DeepID2的方法相比，文中方法在准确率方面略低0.12%，但是文中方法仅仅使用了单个网络，相较于DeepID2使用的25个网络，具有更小的复杂度．最后与WebFace[10]相比，文中方法使用了更少的人脸关键点，并且识别准确率高了1.3%．

表4 文中方法与其他方法在LFW数据库上的结果对比

3 结束语

文中提出了一种基于嵌套残差卷积神经网络和角度度量的人脸识别方法．其中，嵌套残差卷积神经网络具有良好的学习能力，能够提取更加丰富的人脸特征．而基于权值标准化的角度度量方法能够使得学习到的特征满足最大的类内距离小于最小的类间距离，以此增强特征的区分性．在LFW数据库人脸验证任务上的实验结果表明，文中方法与其他方法相比，在具有较高准确率的同时，其在网络数量和关键点数目上也有明显的优势．未来的研究可考虑使用更深的网络来提取特征，进一步可结合更多的度量学习方法来提升识别的精度．除此之外，因为在实际的应用当中，行人处在自然动态状态下，抓拍难以获得正面的清晰人脸，因此对提取特征的有效性要求更高，未来的工作可以侧重于研究如何提取有效的特征．