基于Gabor和二值叠加CS-LBP 特征的人脸表情识别

2015-04-16 08:52张殷绮

计算机工程与应用 2015年19期

关键词：二值降维分块

王燕，张殷绮

WANG Yan,ZHANG Yinqi

兰州理工大学计算机与通信学院，兰州730050

College of Computer and Communication,Lanzhou University of Technology,Lanzhou 730050,China

1 引言

人脸表情在人与人交流过程中发挥着重要作用，与之相应的表情识别一直是模式识别与计算机视觉等领域中非常活跃的研究热点。由于表情具有准确性与复杂性，所以在人脸图像中对表情特征进行有效提取所采用的方法显得尤为重要。目前常用的静态人脸图像特征提取方法有基于统计特征提取、基于频域特征提取等。统计特征如线性判别分析（Linear Discriminant Analysis，LDA）[1]可实现快速识别，但它依赖训练和检测图像的灰度相关性，有很大局限。频域特征如Gabor[2-3]可有效提取多尺度的表情特征，Gabor 对光照强度等多种噪声不敏感，鲁棒性强，但其计算量较大，冗余度和特征维数都较高。局部二值模式（Local Binary Pattern，LBP）[4]能描述图像的局部纹理，但易受噪声的影响。而随着该方法的不断深入研究，已涌现出许多改进的LBP新方法，如中心对称局部二值模式（Center-Symmetric Local Binary Pattern，CS-LBP）[5-6]，局部定向二值模式（Local Directional Binary Pattern，LDBP）[7-8]在不同程度上提高了识别率。

目前的一种研究方向是提取多尺度特征，将其进行合理组合以及综合分析，使有限的特征发挥到极致。基于此提出的局部Gabor 二值模式结合直方图统计降维（Local Gabor Binary Pattern Histogram Sequence，LGBPHS）[9]的人脸识别方法，识别率有一定提高，由于在特征提取过程中，需要将图像进行分块，在每个分块中提取特征以及降维。因此该方法势必增加计算复杂度，而分块大小需要手动进行，不具确定性，且容易丢失块与块之间的表情连续信息。另外，使用直方图统计降维，特征维数仍然较高。局部Gabor 二值模式（Local Gabor Binary Pattern，LGBP）结合支持向量机（Support Vector Machine，SVM）[10]同样存在对图像做分块操作后所提取的特征不具完整性，且受到多种参数的限制，整体识别率不高。Gabor 和稀疏系数[11]的表情识别方法避免了个体特征对表情识别的干扰，在一定程度上提高了识别率。环形Gabor 与CS-LBP[12]、多通道Gabor 与CS-LBP[13]的人脸识别方法，利用CS-LBP 可提取人脸细节特征的优点并结合改进的Gabor 获得了较好的识别率。

近几年，离散余弦变换（Discrete Cosine Transform，DCT）作为国际标准编码成为数字图像压缩技术的核心，具有计算速度快，可去除图像内无关数据且不影响关键属性和特征，以此发现特征降维和图像压缩存在一定的相似性。文献[14-15]提出DCT 用于特征降维时可在一定程度提高特征的识别率。

因此基于以上分析，本文提出一种Gabor 结合改进的CS-LBP 即二值叠加中心对称局部二值模式（Addition of Two-Valued Center-Symmetric Local Binary Pattern，二值叠加CS-LBP）的特征提取方法。首先使用Gabor提取表情特征整体结构，再使用二值叠加CS-LBP 进一步提取特征，提取更为丰富的表情细节特征。在提取特征时，为保留表情变化的连续信息，对图像不做分块处理，而是直接对整幅图像提取特征。然后用DCT 做特征降维，并使用最近邻分类器进行表情的分类识别，最后在表情识别中取得了较好的效果。

2 中心对称局部二值模式（CS-LBP）概述

中心对称局部二值模式（Center-Symmetric Local Binary Pattern，CS-LBP）算子在提取特征时对光照，表情等变化具有比LBP 算子更为细致的纹理描述优点，CS-LBP 的基本原理是把中心对称思想引入到LBP 算子中，重新定义了中心像素和邻域像素之间的计算原则，即计算以中心像素为中心对称的邻域像素值对，若大于等于规定的参数（中心像素值或中心像素值加实验中的阈值），则为1，反之为0。然后依次得到一个二进制串，转换为十进制数，即为中心像素的编码。CS-LBP 特征能更快地从人脸表情图像中提取，且占用存储空间小很多，同时又保留了表情的有效信息。CS-LBP[5]的原理如图1 所示。

图1 LBP 和CS-LBP 原理

CS-LBP 编码公式：

LBP 编码公式：

图1 中，gc为中心点像素，gp为中心像素周围的8个像素，R是半径，P是周围像素个数，且N=P,T的取值可以为gc,也可以根据实验中对阈值的设定，取值为gc加阈值。LBP 编码是用周围8 个像素的灰度值与中心像素点灰度值进行比较，完成二值化，将其转换成十进制数即为中心像素的编码。而CS-LBP 是计算以中心像素为中心对称的邻域像素值对，也是转换成十进制数。从图1 看出，该编码长度是LBP 编码的1/2。

3 Gabor 结合二值叠加CS-LBP 特征并使用DCT 降维

3.1 Gabor小波

Gabor具有与人类大脑皮层简单细胞的二维反射区相同的特性，能捕捉频域不同尺度和方向上的相关特征，非常适用于表示人脸图像[3]。

二维Gabor函数可以表示为：

其中：

z(x,y)表示图像坐标，kmax是最大频率，f是频域内Gabor核函数的空间因子，φu表示Gabor 滤波器的方向选择性，v的取值决定Gabor滤波的波长，通过变换v可控制采样的尺度，u的取值表示Gabor 核函数的方向，通过定义v值和u值就可以得到Gabor滤波器。本文在实验中的取值定义依次为：kmax=π/2,,v=(0,1,2,3,4),u=(0,1,2,3,4,5,6,7)。最后得到5 个尺度8个方向的Gabor 滤波器，将表情图像的灰度值I(x,y)和Gabor 滤波器gu,v(x,y) 做卷积运算，即可得到Gabor特征：

3.2 Gabor结合二值叠加CS-LBP 特征

针对单一特征提取方法存在表情识别精度不高，且忽略了脸部不同区域的特征对不同算子的要求，因此本文提出一种Gabor 和二值叠加中心对称局部二值模式（Addition of Two-Valued Center-Symmetric Local Binary Pattern，二值叠加CS-LBP）方法。二值叠加CS-LBP 是基于CS-LBP 的基础上进行改进，即同时提取两个二进制编码值，将这两个值转换成十进制数进行叠加作为中心像素的最终值。由于LBP 和CS-LBP 的特征提取计算方式相对单一，而二值叠加CS-LBP 可同步用两种运算方式进行特征提取，因此丰富了纹理细节信息，而且对噪声有较强的抗干扰能力，使得特征更为健壮。具体算法描述如下：

第一个二进制编码A的提取：

第二个二进制编码B的提取：

具体计算过程如图2 所示。

图2 二值叠加CS-LBP 算子示意图

将上述同时提取到的A和B两个二进制编码，各自转换成十进制数后，进行相加，得到的值即为二值叠加CS-LBP 编码。其中，gc为中心点像素，gp为中心像素周围的8 个像素，gp+(N/2)是以中心像素为中心对称的邻域像素值，R是半径，取1；P是周围像素个数，N=P=8。关于T的取值范围在文献[5]中为[0,0.2]，T的取值大小可以过滤掉噪声对图像有效表情信息的影响，阈值T取值太大，会丢失主要表情信息，取值太小，则连同噪声与表情信息一起进行分类。因此本文在实验中最后设定阈值T1=T2=0.005,或T1=T2=0.01,两个取值都可达到实验得到的最好结果。如图3 所示各算子的特征提取图像，与CS-LBP相比，由于二值叠加CS-LBP使用两种计算方法同时提取特征，以及阈值对噪声的有效避免，从而进一步提取更多有效的特征信息。

图3 三种算子的特征图

本文提出将Gabor 和二值叠加CS-LBP 算子二者相结合，使提取的特征既包含多尺度多方向的特性，又包括对细节特征描述的丰富性。首先对表情图像进行Gabor滤波，然后再进行二值叠加CS-LBP 编码，公式如下：

3.3 DCT 特征降维

经过特征提取后，每幅图像的特征维数都会变得很大。以32×32 的图像为例，经处理后的维数高达32×32×40，这势必增加下一步计算的复杂度。因此，本文采用离散余弦变换（Discrete Cosine Transform，DCT）进行特征降维。DCT 定义为[15]：

式中：

式（13）中f(m,n) 是一幅大小为N×N的图像，u和v是降维后的图像尺寸，C(u,v) 是降维后的图像矩阵。由于人脸不同区域所含的表情信息不相同，因此为充分保留更有效的表情信息，对已提取到的特征进行分块处理后降维，本文在实验中将每个分块矩阵大小设定为8×8,特征图像分块后得到(N/8)2个矩阵块Mi(i=1,2,…,(N/8)2),对每个分块Mi进行式（13）中的运算，得到Di((N/8),(N/8))(i=1,2,…,(N/8)2) 的能量图矩阵，由于每个能量图Di的左上角集中了原矩阵的有效信息，因此只保留左上角的元素，进行式（15）操作。

其中Hi=[hi1,hi2,…,hip,0,0,…,0],A中左上角元素1的个数为压缩比P,通过设置压缩比就可以实现特征降维，Hi的0 元素已无实际意义，将其去除后所得的H矩阵即为降维后的特征矩阵，本文在实验中设置压缩比P为1/64。如下式所示：

如图4 所示，以32×32 维的图像为例，将获得的每幅二值叠加LGCS-BP 特征划分为16 个分块，分块为8×8 大小，对每个分块依次进行式（13）、（15）的运算，压缩比P是1/64，对得到的能量图去除0 元素后保留左上角的矩阵元素，即是降维后的特征矩阵，其元素个数为16(=(32/8)×(32/8))，将每块特征矩阵转换成向量依次顺序连接，即是最终用来识别的表情特征向量。

图4 DCT 降维示意图

二值叠加LGCS-BP 特征提取和DCT 降维过程如图5 所示。

图5 二值叠加LGCS-BP 特征提取和DCT 降维示意图

4 实验及结果分析

本文方法在JAFFE 表情库中进行实验，该库共有7类表情，213 张人脸表情图像。选择其中的210 张表情图像，每个表情含10 幅图像。由于图片的尺寸也会影响DCT 的降维效果，库中原始图片为256×256 大小，因此将图片分别做两组方式进行裁剪和缩放，如图6 所示，图6（a）去除背景，保留整个人脸肖像，图6（b）为面部主要表情区域，两组图片大小经预处理后统一为64×64,48×48,32×32 各三种尺寸。

图6 两组JAFFE 表情图像

4.1 实验1

首先获取上述图片的Gabor 结合二值叠加CS-LBP的表情特征，通过DCT 进行特征降维，最后使用最近邻分类器进行表情分类识别。如表1 所示。

表1 本文方法在JAFFE 数据集上的7 种表情识别率%

由表1 可知，图6（a）的各表情识别率总体要高于图6（b），表明经过裁剪的面部主要表情区域图片会丢失重要的特征信息，影响分类效果。其次，对于不同尺寸的图片，如图6（a），生气、厌恶、惊奇和中性的识别率没有变化，害怕在48×48 和64×64 维的识别率均为96.7%，32×32 维的识别率为93.3%，表明7 种表情特征在不同尺寸图片上保持了较好的稳定性。

另外，由于每幅图片在获得Gabor+二值叠加CS-LBP特征时，它的维数都会变成原来维数的40 倍，经DCT 降维后，压缩比P为1/64,即降维后的维数均为原图片尺寸的1/64,如32×32×40 维在降维后的维数为4×4×40维。说明DCT 不仅能有效降维，并且能保留更多的表情纹理信息，提高了识别率。

4.2 实验2

分别用Gabor+LBP、Gabor+CS-LBP，以及单独使用这些算法对图6（a）和（b）两组图片进行特征提取，得到的最好识别率如表2 所示。

在表2 的实验结果中，图6（b）的识别率总体要低于图6（a）的识别率，与表1 的结果同样说明对图片的大幅度裁剪会丢失表情特征用来分类的重要信息。通过上述数据的对比分析，Gabor+LBP、Gabor+CS-LBP和Gabor的平均识别率为94.3%。二值叠加CS-LBP 和CS-LBP的为78.6%，LBP 的最低。而本文提出的Gabor+二值叠加CS-LBP 方法的识别率较其他方法有明显提高，是95.7%，说明将两种方法的优点结合，能更加有效地将表情整体特征和局部细节特征相结合，提高了表情识别率。

表2 3 种算法在不同图片样式和尺寸的最好识别率 %

为进一步验证本文方法的有效性，在JAFFE 数据集上，对文献[7，10]和本文不同方法所得识别率的最好结果进行了对比。如表3 所示。

表3 与现有方法在JAFFE 数据集上的7 种表情平均识别率比较

5 结束语

本文提出的Gabor 和二值叠加CS-LBP 的方法中，由于同时以两种计算方式提取的二值叠加CS-LBP 能进一步获取更多的表情纹理细节，将其与Gabor 相结合使所得的特征信息更为丰富，与单独使用这些方法相比，提高了表情的识别精度；且该方法对噪声有较好的抑制作用。本文在特征提取时，对图像不做分块处理，而是对整体图像直接提取，因此能获得表情连续变化的信息，在一定程度上避免了图像分块而无法保留块与块之间的关联信息。将图像压缩技术DCT 应用于特征降维，在降低特征维数的同时，能充分保留特征信息，且相关参数设置简单，计算量较小。实验证实了本文方法可有效提高识别精度。

[1] Wang Zhan，Ruan Qiuqi，An Gaoyun.Facial expression recognition based on tensor local linear discriminant analysis[C]//2012 IEEE 11th International Conference on Signal Processing，2012：1226-1229.

[2] Asharaf A B，Lucey S，Chen T.Reinterpreting the application of Gabor filters as a manipulation of the margin in linear support vector machines[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2010，32（7）：2510-2521.

[3] Liu Weifeng，Wang Zengfu.Facial expression recognition based on fusion of multiple Gabor features[C]//The 18th International Conference on Pattern Recognition，2006：536-539.

[4] Ojala T，Pietikainan M.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2002，24（7）：971-987.

[5] Marko H，Matti P，Cordelia S.Description of interest region with center-symmetric local binary pattern[C]//Proc of Conf on Computer Vision Graphic and Image Processing，2006：58-69.

[6] 卢建云，何中市，余磊.基于多级CS-LBP 特征融合的人脸识别方法[J].计算机工程与科学，2010，32（6）.

[7] Wang Yan，He Guoqing.Expression recognition algorithm based on local directional binary pattern[J].Journal of Computational Information Systems，2014，10（8）：3221-3228.

[8] 龚劬，叶剑英，华桃桃.结合改进的LBP 和LDP 的人脸表情识别[J].计算机工程与应用，2013，49（22）：197-200.

[9] Zhang Wenchao，Shan Shiguang，Gao Wen，et al.Local Gabor Binary Pattern Histogram Sequence （LGBPS）：a novel non-statistical model for face representation and recognition[C]//Proceedings of the 10th International Conference on Computer Vision，Beijing，China，2005：150-155.

[10] Bafandehkar A，Rahat M，Nazari M.Pictorial structure based keyparts localization for facial expression recognition using Gabor filters and local binary patterns operator[C]//International Conference on Soft Computing and Pattern Recognition，2011.

[11] 朱明旱，李树涛，叶华.基于子空间稀疏系数的表情识别方法[J].计算机工程与应用，2014，50（12）：33-37.

[12] 邵诗强，施立欣，周龙沙.基于环形Gabor 小波与CS-LBP算法在人脸识别中的应用[J].光电子技术，2012（3）：180-184.

[13] 何中市，卢建云，余磊.基于多通道Gabor 滤波与CS-LBP的人脸识别方法[J].计算机科学，2010，37（5）.

[14] Zhang Yankun，Liu Chongqing.Efficient face recognition method based on DCT and LDA[J].Journal of Engineer and Electronics，2004，15（2）：211-216.

[15] Jiang Bin，Yang Guosheng，Zhang Huanlong.Cpmparative study of dimension reduction and recognition algorithms of DCT and 2DPCA[C]//Proceedings of the 7th International Conference on Machine Learning and Cybernetics，Kunming，2008：12-15.