基于改进LeNet-5的人脸识别研究

2019-12-05 08:35周官皓孙海洋

智能计算机与应用 2019年5期

周官皓孙海洋

摘要：近些年来，深度学习逐渐走入大众视野，并在譬如语音识别、人脸检测等方面发挥着举足轻重的作用。本文利用深度学习的优势，根据学术界的发展，使用Tensorflow在LeNet-5的基础上，创新地将2个卷积层的卷积核数目增长到15与20个，并且增加了批归一化与Dropout两种模型处理手段，减少过拟合的出现，提升模型泛化程度。实验结果从测试准确率来分析，结果表明增加了批归一化与Dropout的效果最好，单一地增加二者之一对精度损失微乎其微;验证了改进后的LeNet-5模型对校园内单一年龄段的人脸识别有着良好的效果。

关键词：卷积神经网络;深度学习;人脸识别

【Abstract】 In recent years， deep learning has entered the public's vision and played a pivotal role in fields like speech recognition and face detection， etc. This paper takes advantage of deep learning， using Tensorflow， on the basis of the LeNet-5 model， according to the development of academia and innovatively increases the number of convolution kernels of two convolutional layers to 15 and 20. Moreover， the two methods of batch normalization and Dropout are added to reduce the occurrence of over-fitting and improve the generalization of the model. The experimental results are analyzed from the test accuracy. The results show that the addition of batch normalization and Dropout is the best. Simply increasing one of them has little precision loss. The results verify that the improved LeNet-5 model has a good effect on face recognition in a single age group on campus.

【Key words】 CNN; deep learning; face recognition

0 引言

自2006年卷積神经网络模型架构[1]的提出与2012年卷积神经网络在ImageNet大赛上凭其出色表现而获学界赞许后，深度学习[2]便受到了全世界机器学习方向学者的密切关注。2016年AlphaGo击败人类围棋大师李世石之后，深度学习再次引发热潮，直到今天，深度学习已逐渐发展演变为一个相对独立的方向。深度学习隶属于人工神经网络体系，相对于传统的人工神经网络，深度学习更类似人脑，其网络结构与分析判别具体事物的流程也更接近于人类分析的过程。目前，深度学习已然衍生出运用于不同方向的网络架构，本文主要分析并使用CNN[3]。典型的卷积神经网络架构有AlexNet[4]、ZFNet[5]、VGGNet[6]、GoogLeNet[7]和 ResNet[8]等。卷积神经网络通过结合局部感受野、池化和下采样等方法来优化网络结构，一定程度上保证位移不变性，对于无约束条件下的特征提取，其算法也有较强的鲁棒性。卷积神经网络拥有的权值共享特点这一方面，也类似于深度学习所有的类似于生物神经网络的重要特点。

1 神经网络结构

本文模型搭建的基础LeNet-5[9]网络是一个用于手写数字识别的7层CNN网络，其模型设计如图1所示。虽然结构与此后的其它网络相比规模较小，但是包含了深度学习网络架构的基本模块。

LeNet-5每层都包含可训练参数，且每层都有多个特征图，每个特征图通过一种卷积核提取输入的一种特征，每个特征图有多个神经元。下面即以LeNet-5为示例来阐释说明卷积神经网络的层次结构。

2 数据采样及预处理

研究可知，人脸识别中，至关重要的一环就是数据采样和预处理。为此，研究收集了来自地区各个高校、共计100位同学的各10张照片，总计1 000张。考虑到拍摄背景、人占比与摄像机器等因素之间的差异，文中对于数据的采样与预处理，将做研究分述如下。

（1）使这100位同学拍摄时的实时背景为白色系。

（2）使用相同品牌型号的手机进行摄像，拍摄分辨率为4 K，无多余设置。

（3）统一截取面部。多余的拍摄到的身体部位或背景丢弃，上下只保留自脖颈至头顶，左右从左耳至右耳轮廓最外侧。

（4）压缩图片像素大小为100×100。

（5）对每张初步处理过的图片做像素归一化，使像素范围在[0，255]之间。

由此，即可得到研究数据示例如图2所示。

3 实验

3.1 LeNet-5预测表现

本文模型的构造基于LeNet-5网络，LeNet-5网络在本数据集上的表现如图3所示。

曲线图及最终结果显示，LeNet-5模型在本数据集上的预测准确率为0.841。初步估计准确率较低的原因则在于LeNet-5的参数设置是建立在MNIST数据集样本之上，而手写数字数据无论从图片像素、还是特征复杂度来说，都远远低于人脸数据。