基于卷积神经网络的人脸目标跟踪及表情检测

2020-06-10 09:37石翠萍赵可新王功帅赵捃博

科学技术创新 2020年9期

谭聪石翠萍* 左江赵可新王功帅赵捃博

（齐齐哈尔大学通信与电子工程学院，黑龙江齐齐哈尔161000）

1 概述

面部表情识别是近几十年来才逐渐发展起来的，由于面部表情的多样性和复杂性，并且涉及生理学和心理学，表情识别具有较大的难度。因此，表情识别与指纹识别、人脸识别等相比，发展相对较慢，应用还不广泛。但是表情识别对于人机交互却有着重要的价值，有待进一步的研究。表情识别研究课分为人脸图像的获取与预处理、表情特征提取和表情分类[1]。目前，利用迁移学习研究表情识别的有许多方法[2-3]。同时，传统的方法中，手工制作的特征，如Gabor 小波系数[4]、局部二值模式（LBP）[5]和梯度直方图[6]等也对表情识别也有着重要贡献。本文利用迁移学习的方法在VGG-16 的基础上进行微调，以VGG-16 网络作为基础网络，对人脸进行跟踪及表情检测分类。

2 方法论

本文提出的方法主要是在VGG-16 网络的基础之上进行微调，以VGG-16 网络为基础网络，通过展平层将输入特征压平为一维，最后利用两层全连接层加上Softmax 经典分类算法进行分类。该方法的主要原理如下。

2.1 迁移学习

迁移学习，即把现有的神经网络，进行细微的改造训练，已得到自己想要的分类器的结果。迁移学习具有很多优点，可以合理利用现有的网络，利用经典大型网络的特征提取能力，以经典大型卷积神经网络作为基础网络，在此基础上进行微调。通过改造现有网络的输出层，自己训练一个Softmax，把前面所有层当做一个整体，不进行训练，只是用其训练结果。同时，为了计算速度更快，可以把前面的输出结果存储，作为输入层，这样只需要训练2 层卷积神经网络。利用迁移学习的微调作用，可在Softmax 之前，加入几层隐藏层，这样可以使训练效果更好。通常对于计算机视觉，需要大量的数据，而且运算量很大，所以，合理利用现有训练好的网络，进行迁移学习，可以提高卷积神经网络的工作效率。

2.2 Dropout 正则化

Dropout 正则化，即输入层与输出层保持不变，隐藏层神经元按比例随机失活。Dropout 可以有效的缓解过拟合现象，在一定程度上起到了正则化的效果。当一个复杂的前馈神经网络被训练在的数据集时，容易造成过拟合，为了防止过拟合，可以通过阻止特征检测器的共同作用来提高神经网络的性能。当Dropout 参数为1 时，保留所有的神经元，若当Dropout 参数为0.5 时，首先随机删掉网络中一半的隐藏层神经元；然后将x 输入修改后的网络前向传播，将得到的损失结果通过修改的网络反向传播；一小批训练样本执行完这个过程后就按照随机梯度下降法更新保留的神经元对应参数。如图1 所示，为Dropout 神经元随机失活原理图。本文微调的VGG-16 网络在Softmax 前的全连接层后加上Dropout 正则化，参数设为0.5，防止微调模型出现过拟合。

图1 Dropout 随机失活图

3 实验结果及分析

本文将CK+数据集以8：2 的比例划分为训练集和验证集。通过导入预处理的数据集进行训练，然后分别将VGG-16 模型和微调的模型在该数据集上进行训练和验证。表1 是本文利用微调的模型与VGG-16 模型进行对比的结果表。从表1 可知，本文微调的VGG-16 模型比原始VGG-16 模型精度要高，且本文微调模型得到的准确率较高，具有良好的分类性能。

表1 微调模型与VGG-16 模型对比

如图2 所示，为本文利用微调的VGG-16 模型在CK+数据集上进行训练过程中的训练验证精度曲线图和训练验证损失图。由图2(a)可见，随着训练次数的增加，训练精度和验证精度逐渐提高且逼近于1，同时训练精度和验证精度非常贴合，相差不大。由图2（b）可见，训练验证损失逐渐降低且逼近于0。由图分析可得本文微调的模型拟合程度很好，分类性能好。

图2 训练验证的精度和损失图

4 结论

基于深度学习技术，本文以人脸为目标进行跟踪检测，以VGG-16 网络作为基础网络，进行微调，在基础网络后加上两层全连接层，每层全连接层后加上Dropout 正则化，防止过拟合，最后利用Softmax 经典分类算法进行分类。首先，利用微调的VGG-16 卷积神经网络模型和原始VGG-16 网络分别在CK+数据集上进行对比实验，由对比结果反映本文微调的模型的性能好。然后，通过分析训练过程中得到的训练验证精度和损失曲线图分析本文模型，可知，本文微调的模型拟合程度好、性能好。

5 下一步工作

目前，在深度学习技术背景下，以人脸为目标进行表情识别检测具有很重要的地位，但还存在着分类识别率低，受外界干扰等因素，如光照条件、人脸部分遮挡、检测角度等干扰条件。因此本文下一步工作拟针对外部干扰条件下，打算提出一种在具有较高识别精度、收敛速度快的卷积神经网络模型。实现跟踪以人脸为目标的表情识别的智能化。