基于卷积神经网络和PCA的人脸识别

2017-01-05 06:51穆国旺
河北工业大学学报 2016年5期
关键词:降维识别率人脸

邢 玲,冯 倩,穆国旺

(河北工业大学 理学院,天津 300401)

基于卷积神经网络和PCA的人脸识别

邢 玲,冯 倩,穆国旺

(河北工业大学 理学院,天津 300401)

主要研究了在基于深度学习的人脸识别算法中,对于由深度卷积神经网络提取得到的人脸特征进行降维处理是否有助于提高人脸识别的准确率.利用VGG网络模型提取人脸图像的深度特征,然后利用主成分分析(PCA)对提取到的深度特征进行降维,最后利用余弦分类器进行分类识别,并在LFW人脸库上进行实验.实验结果表明通过PCA降维后的深度特征具有较高识别率.

模式识别;人脸识别;深度学习;卷积神经网络;主成分分析

0 引言

人脸识别作为一种生物特征识别技术,是近年来模式识别、图像处理、机器视觉、神经网络以及认知科学等领域研究的热点课题之一.同时人脸识别作为一种高稳定性、难以复制、精度高、易于被人接受的生物特征识别技术,在身份认证、安防监控、人机交互等领域具有广泛的应用前景.目前人脸识别算法主要可以分为以下几类:

1)基于几何结构的方法.基本思想是利用一组几何特征矢量来表示人脸面部拓扑结构的几何关系,从而将识别过程转换为特征矢量之间的匹配,并采用欧式距离进行相似性度量.这种方法对特征点对齐的准确性要求较高,因此这种方法的实用性具有一定的限制.

2)基于子空间的方法.将高维的人脸图像特征通过空间变换压缩到一个低维的子空间中,使原始样本特征在这个低维子空间中更易于分类是基于子空间方法的基本思想.代表算法有主成分分析(PCA)[1]、线性鉴别分析(LDA)[2]、独立分量分析(ICA)[3]等.子空间方法是目前人脸识别的主流算法.

3)基于局部特征的方法.该方法用局部特征组成的拓扑结构描述人脸的整体特征,通过统计所有局部特征的相似度来完成最终识别.典型的局部特征有LBP特征[4],HOG特征[5]和Gabor[6]特征等.

近年来,深度学习成为了机器学习领域的一个研究热点,并且在计算机视觉、图像识别、语音识别、自然语言理解等领域得到了广泛的应用,取得了非常好的效果.基于卷积神经网络的深度学习方法在人脸识别方面也受到了人们的重视,并得到了应用[7-10].

卷积神经网络是一种带有卷积结构的深度神经网络.1989年,LeCun等人[11]在手写数字识别中采用神经网络误差反向传播算法,在网络结构设计中加入特征图像与权值共享.1998年,LeCun等人[12]提出用于文档识别的卷积神经网络(Convolutional Neural Networks,CNN),为了保证一定程度的平移、尺度、畸变不变性,CNN设计了局部感受野,共享权重以及空间和时间下采样,提出用于字符识别的卷积神经网络LeNet-5.2012年,Krizhevsky等人[13]采用称为A lexNet的CNN在ImageNet竞赛图像分类任务中取得了最好的成绩,是CNN在大规模图像分类中的巨大成功.在A lexNet之后,研究者又进一步改善网络性能,提出能有效分类检测的R-CNN[14],SPP-net[15]GoogLeNet[16]和VGG[17]等模型.

在利用深度学习方法进行人脸识别时,一般的做法是直接利用训练好的神经网络得到识别结果,或者利用训练好的深度神经网络提取图像特征,然后利用分类器进行识别.因为一般认为通过深度学习得到的图像特征已经具有很好的稀疏性和特征表达能力,因而一般不对其进行降维处理.

本文将研究在基于深度学习的人脸识别中,对于由深度网络提取得到的特征向量进行降维处理是否能够进一步提高识别率.本文采用VGG网络提取人脸特征,然后分别对其进行PCA降维处理,并在LFW人脸数据库上进行了实验.

1 卷积神经网络

卷积神经网络(Convolutional Neural Networks,CNN)是一种为了处理二维输入数据而特殊设计的多层人工神经网络,网络中的每层都由多个二维平面组成,而每个平面由多个独立的神经元组成,相邻两层的神经元之间存在连接,而同一层中的神经元没有连接关系.CNN是深度神经网络的一种,它的底层主要提取一些与边缘、角度、轮廓相关信息,具有一定的通用性.它的高层逐渐提取出一些图像的结构信息.通常而言,层数越多,提取到的信息越全面.CNN和其它网络的主要区别在于,一方面,相邻两层之间的神经元之间的连接是非全连接的,另一方面,同一层上的神经元同其它层的神经元的连接是权值共享的.这样CNN能够有效降低网络模型的学习复杂度,由于具有更少的网络连接数和权值参数,从而更容易训练.

CNN是一个多层的神经网络,由多个卷积层和子采样层交替组成,而每层由多个独立神经元组成,图1所示是一个简单的CNN网络结构.

图1 一个简单的CNN网络的结构Fig.1 A simple CNN network

1.1 卷积层

图1中的CNN由2个卷积层和2个子采样层交替组成.C标识的为卷积层,也称为特征提取层,每个神经元的输入与前一层的局部感受野相连,并提取该局部的特征,一旦该局部的特征被提取后,它与其他特征向量间的位置关系也随之确定下来.

1.2 子采样层

S标示层为子采样层,也称为特征映射层,负责将C层获得的特征图进行子采样,使提取的特征图具有缩放、旋转、平移等不变性.子采样层能降低特征图的维度,减少网络训练参数、加快网络收敛速度,防止过拟合.本文所用的VGG网络的子采样层采用最大值采样,采样大小为2×2,即把输入的特征图分割成不重叠的2×2大小的矩形,对每个矩阵取最大值,所以输出特征图的长和宽均是输入特征图的一半.比如卷积层大小为3×24×24,则在子采样层的大小就成为3×12×12,如图2所示.

图2 子采样示例Fig.2 Exampleof sub-sampling

1.3 全连接层

为增强网络的非线性映射能力,同时限制网络规模的大小,网络在卷积层与子采样层交替提取特征后,接着进入一个全连接层,该层的每一个神经元与前一层的所有神经元互相连接,同层神经元之间不连接.数学表达式[18]为

总之,卷积神经网络相比于一般神经网络在人脸识别中有突出的优点:1)网络结构能够较好的适应图像的结构;2)同时进行特征提取和分类,使得特征提取更加有效,有助于下一步的特征分类;3)非全连接以及权值共享可以减少网络的训练参数,使得神经网络结构变得简单、适应性更强.

2 VGG网络模型

VGG网络[17,19]是一种深度卷积神经网络,深层的网络能提取图像中更深层的特征,有较高的特征提取能力.本文利用的VGG网络配置如下:

卷积层滤波器的尺寸为3×3,卷积的间隔为s=1.这样设置的目的是因为多个3×3的卷积层可以代替大的滤波器的尺寸,同时比一个大尺寸的滤波器有更少的参数,而且有更多的非线性,使得判决函数更加具有区分能力.然后通过激活函数对卷积层所提取的特征进行非线性处理,增加网络的非线性表达能力.下采样层的滤波器大小为2×2,间隔s=2.VGG网络的结构参数如图3.

这个模型有5个max-pooling层,所以是5阶段卷积特征提取.每层的卷积个数从首阶段的64个开始,每个阶段增长一倍,直到达到最高的512个,然后保持.

基本结构A:

B:在A的stage2和stage3分别增加一个3×3的卷基层,10个卷积层,总计13层.

C:在B的基础上,stage3,stage4,stage5分别增加1×1的卷积层,13个卷基层,总计16层.

D:在C的基础上,stage3,stage4,stage5分别增加3×3的卷积层,13个卷基层,总计16层.

E:在D的基础上,stage3,stage4,stage5分别增加3×3的卷积层,16个卷基层,总计19层.

本文将网络第35层的输出向量作为特征向量,特征维数为4 096维,然后对提取得到的特征分别进行PCA降维.

3 实验结果与分析

由于早期的人脸数据库,例如Yale,ORL,AR等人脸库,或者图像数量太少,或者是在可控的实验室环境采集,光照、表情、姿势变换不大,随着人脸识别算法的成熟,在这些库上识别率已经很高.人脸识别的挑战主要是当光照、表情、姿势、年龄变换比较大时,识别率还不是很理想.为此,近些年人们将研究的重点转向了非约束的自然环境下人脸识别的研究.另外,近年来国内外研究者提出了很多人脸识别算法.为了研究在自然环境下拍摄得到的人脸图像的识别问题,并且对各种不同的人脸识别算法进行比较,马萨诸塞大学(University of Massachusetts)计算机视觉组采集了一个用于人脸识别的数据库-LFW人脸数据库[20].本文采用LFW(Labeled Faces in the Wild)人脸库[20]进行实验.该数据库包含了从网络上收集得到的5749个人的13 000多幅图像,其中,1 680人有2张以上的图片.LFW包括2个视图,视图A用于算法设计阶段,视图B用于算法的评估.其中,视图B由100个子集构成,每个子集包含600对人脸图像,其中300对属于正样本(每一对图像来自同一个人),另外300对属于负样本(每一对图像来自不同的人).

图3 VGG模型网络结构示意图Fig.3 VGG model of network structure diagram

图4给出了经过归一化后的部分LFW图像示例.

基于LFW的人脸识别实验有多种协议,包括无监督(unsupervised)方式,限制(Restricted)的方式,和非限制(Unrestricted)方式等.本文采用非限制方式等,即:在训练样本中,假设图像对(A,B)和(B, C)都是正样本,则可以将(A,C)作为正样本添加到训练集中.和所有LFW的实验相同,本文采用10折交叉验证的方法.即:首先提取所有图像的深度特征,然后,每次用视图B中的9个子集作为训练样本进行基于PCA或者LDA的子空间学习和余弦分类器训练,并确定最佳的距离阈值,用剩下的一个子集进行测试,重复10次,最后计算10次的正确识别率,用于对算法进行评价.

图4 归一化的LFW图像示例Fig.4 Examples of normalized LFW images

利用VGG模型对LFW数据库中的人脸图片进行深度特征提取,选择该模型中第35层的输出作为特征,接着对提取到的深度特征分别进行PCA降维,最后利用余弦距离进行分类,实验结果如表1所示.

表1 PCA不同维数下识别率Tab.1 PCA under different dimensions recognition rate

从表1中可以看出,将得到的深度特征直接进行分类识别,识别率为92.73%;将深度特征先进行PCA降维,再进行分类识别,则识别率随着维数的不同而不同,但是都高于不降维的结果.当将维数降为800时识别结果最好,为93.28%.

4 结论

本文首先通过卷积神经网络VGG模型提取了图像的深度特征,接着对提取到的特征分别进行PCA降维,最后通过余弦分类方法进行人脸识别.将提出的方法在LFW人脸库上进行实验,结果表明将提取到的深度特征先进行PCA降维再进行识别,可以提高识别率.

[1]Perlibakas V.Measures for PCA-based Face Recognition[J].Pattern Recognition Letters,2004,25(6):711-724.

[2]Highleyman W H.Linear decision functions,with application to pattern recognition[J].Proceedings of the IRE,1962,50(6):1501-1514.

[3]Jutten C,Herault J.Blind separation of sources,Part I:Anadaptive algorithm based on neuromimetic architecture[J].Signal processing,1991,24(1):1-10.

[4]Ahonen T,Hadid A,Pietikainen M.Face Recognition With Local Binary Patterns[C]//Proc European Conf computer Vision,2004:469-481.

[5]Monzo D,Albiol A,Sastre J.HOG-EBGM vs Gabor-EBGM[C]//International conference on Image Processing.San Diego,2008:12-15.

[6]Yang M,Zhang L.Gabor feature based sparse representation for face recognition with gabor occlusion dictionary[C]//Proceedings of Computer Vision-ECCV 2010.Crete,Greece:Springer Berlin Heidelberg,2010:448-462.

[7]Taigman Y,Yang M,Ranzato M,et al.DeepFace:Closing the Gap to Human-Level Performance in Face Verification[C]//Proceedings of the IEEE Interna-tional Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA,2014:1701-1708.

[8]Sun Y,Wang X,Tang X.Deeply learned face representations are sparse,selective,and robust[J].Computer Science,2014:2892-2900.

[9]Szegedy C,Liu W,Jia Y,et al.Going deeper with convolutions[C]//IEEE Conference on Computer Vision&Pattern Recognition.IEEE,2015:1-9.

[10]Schroff F,Kalenichenko D,Philbin J.FaceNet:A unified embedding for face recognition and clustering[C]//IEEE Conference on Computer Vision&Pattern Recognition.IEEE,2015:815-823.

[11]Lecun Y,Boser B,Denker J S,et al.Backpropagation applied to handwritten zip code recognition[J].Neural Computation,1989,1(4):541-551.

[12]Lecun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.

[13]Krizhevsky A,Sutskever I,Hinton GE.Image Net Classification with Deep Convolutional Neural Networks[J].Advances in Neural Information Processing Systems,2012,25(2):2012.

[14]Girshick R,Donahue J,Darrell T,et al.Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[J].Computer Science,2014:580-587.

[15]He K,Zhang X,Ren S,et al.Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2014,37(9):1904-1916.

[16]Szegedy C,Liu W,Jia Y,et al.Going deeper with convolutions[C]//IEEE Conference on Computer Vision&Pattern Recognition.Boston,IEEE,2015:1-9.

[17]Simonyan K, Zisserman A.Very deep convolutional networks for large-scale image recognition[EB/OL].[2016-03-16].http://arxiv.org/ abs/1409.1556.

[18]Syafeeza A R,Khalil-Hani M,Liew S S,et al.Convolutional Neural Network for Face Recognition with Pose and Illumination Variation[J].International Journal of Engineering&Technology(0975-4024),2014,6(1):498-519.

[19]Parkhi O M,Vedaldi A,Zisserman A.Deep Face Recognition[C]//British Machine Vision Conference.2015.

[20]Huang G B,Ramesh M,Berg T,et al.Labeled faces in thew ild:A database for studying face recognition in unconstrained environments[R].Technical Report07-49,University of Massachusetts,Amherst,2007.

[责任编辑 杨 屹]

Face recognition based on convolution neural network and PCA

XING Ling,FENG Qian,MU Guowang

(School of Science,Hebei University of Technology,Tianjin 300401,China)

The paper mainly discusses whether dimension reduction is useful for improving the accuracy of face recognition when the features are extracted using deep neural network in face recognition.The deep features of facial images are extract with pre-trained VGG network,and then the dimension of the features is reduced with principal component analysis (PCA)method,finally,cosine classifier is used for face recognition.Experiments on LFW face database are conducted. Experimental results show that the deep feature after dimension reduction with PCA has a high recognition rate.

pattern recognition;face recognition;deep learning;convolutional neural network(CNN);principle component analysis(PCA)

TP387

A

1007-2373(2015)05-0044-06

10.14081/j.cnki.hgdxb.2015.05.007

2016-08-10

邢玲(1990-),女(汉族),硕士生.通讯作者:穆国旺(1970-),男(汉族),教授.

猜你喜欢
降维识别率人脸
混动成为降维打击的实力 东风风神皓极
有特点的人脸
一起学画人脸
基于类图像处理与向量化的大数据脚本攻击智能检测
降维打击
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
三国漫——人脸解锁
提升高速公路MTC二次抓拍车牌识别率方案研究
高速公路机电日常维护中车牌识别率分析系统的应用
一种改进的稀疏保持投影算法在高光谱数据降维中的应用