一种融合多特征的笑脸分类方法

2011-11-20 09:08
关键词:识别率像素点特征提取

陈 俊

(1.华南理工大学电子与信息学院, 广东广州 510640; 2.华南师范大学南海学院信息工程与技术系,广东佛山 528225)

一种融合多特征的笑脸分类方法

陈 俊1,2*

(1.华南理工大学电子与信息学院, 广东广州 510640; 2.华南师范大学南海学院信息工程与技术系,广东佛山 528225)

探讨了一个能够代表真实环境的数据集GENKI,构建笑脸分类系统,并采用支持向量机结合GentleBoost作为分类器.讨论了数据预处理、Gabor特征提取、PHOG特征提取和局部二值模式特征提取,给出了GENKI数据集上的实验结果并进行讨论,表明了该方法的有效性.

笑脸分类; Gabor滤波器组; 金字塔分割; 梯度方向直方图; 局部二值模式; 支持向量机

人脸表情作为一种自然的交互方式,在人与人之间传递着喜怒哀乐等丰富的情感,在人机交互领域以及自动人脸表情识别领域引起了普遍关注[1-2].卡内基-梅隆大学构建了专门的人脸表情数据库CMU-PIE,有代表性的人脸表情数据库还有Cohn-Kanade[3].为了实现智能的人机交互,针对这些数据集合上复杂多变的光照条件、对象姿态、研究对象的表情变化以及个体表情差异开展了研究[4];2009年3月,SONY发布的一款数码相机W120,已经实现笑脸识别功能,体现了当今产业界对于表情分类识别的重视.笑脸表情作为人脸表情的一个子集受到关注.

人脸特征提取方法分为局部方法和全局方法.有代表性的局部方法有图像Gabor特征提取和LBP特征提取.其中,图像Gabor特征[5]模仿了人类的部分视觉过程,很好地捕捉到图像的空间位置、朝向选择以及空间尺度等视觉特征;有代表性的全局方法有主成分分析(以下简称PCA)和线性判别分析(以下简称LDA)[6-7].1996年,OJALA等[8]在纹理分类中首次引入LBP特征.2002年,OJALA等[9]将基本LBP特征引入到人脸图像描述,提取光照无关特征.大多数纹理分类都假定或隐含着这样的假设,即未知样品与训练样本在空间尺度、方向和灰度特性方面是相似的.真实环境中,图像纹理的光照条件、空间尺度和旋转角度都是在一定范围内不可避免,且在实际设计分类器当中必须考虑的因素[10].

为了解决对真实环境尽量近似的问题,本文首次提出在新的数据集GENKI[10]上构建融合Gabor特征、PHOG特征和PLBP特征的笑脸分类器,给出了该分类器的详细设计,包括:(1)数据预处理;(2)Gabor特征提取,PHOG特征提取和局部二值模式特征提取;(3)支持向量机结合GentleBoost的笑脸分类机器学习算法和详细实验内容及讨论.

1 特征提取

1.1Gabor特征提取

研究人类大脑皮层简单细胞的反射区后发现,二维Gabor小波具有与之相同的特性[5],而且与傅立叶变换相比较,Gabor能够在时域和频域中兼顾对信号分析的分辨率要求,Gabor小波(滤波器)定义如下:二维Gabor函数可看成二维带通滤波器,由二维Gaussian函数对平面波进行调制而成[6],其公式表达为:

(1)

图1 Gabor滤波器组的实值模板,8个朝向,5个尺度

Figure 1 Gabor filter bank magnitude masks,5 scales,8 directions

1.2PHOG特征提取

HOG(Histogram of Oriented Gradient,梯度方向直方图)的基本思想是归一化后的N×M像素图像的各个像素点的梯度幅值在某种意义上反映了图像的边缘及其尖锐程度,而梯度方向反映了各个点的边缘方向[7].两者结合表征了完整的纹理信息.

对于图像的每一个像素,本文采用下列2个3×3的Sobel算子计算梯度幅值J和梯度方向Θ:

(2)

PHOG特征描述了边缘的空间分布.PHOG是对图像进行分割以后再对子图像进行HOG特征的提取,过程如图2所示.具体的PHOG特征提取分4个步骤.

步骤1:对图像进行若干层级的金字塔分割.

步骤2:提取图像的边缘轮廓用于描述形状.这里采用Canny边缘检测算法.

步骤3:每一级金字塔子图像的局部形状由一个梯度方向直方图(Histogram of Oriented Gradient, HOG)描述.其中边缘方向的梯度计算方法如下:高斯平滑情况下,首先,使用上述3×3的Sobel算子与预处理后的64×48像素图像卷积,得到每个像素点的梯度方向Θ和梯度幅值J;然后,图像域[0,360]被量化成5×8=40个方向,针对每个方向的角度范围,统计梯度方向Θ处于该范围的像素点的个数;并以各个像素点梯度幅值J的大小作为权重计算每个像素点的贡献;表示在特征向量直方图中,某个柱子的高度代表该柱子对应方向角度范围内所有像素点贡献的总和.

图2 PHOG特征提取过程

1.3金字塔局部二值模式(PLBP)特征提取

金字塔局部二值模式(PLBP)是对图像进行金字塔分割的基础上,提取局部二值特征方法的简称.局部二值模式是由OJALA等[8]在1996年引入到模式识别领域.

1.3.1 基本LBP特征

LBP特征的基本形式是一个像素邻域大小为3×3的二进制算子,计算步骤如图3所示.

步骤1:将图3(a)所示的某3×3邻域的周围8个像素点的灰度值(记为g0,g1,…,g7)分别与中心像素点的值gc比较大小,对该邻域进行二值化.若某像素点的灰度值gi>gc(i=0,1,…,7),则将其置为1,否则置为0,如图3(b)所示.

步骤2:得到3×3邻域二值化后8个像素点的灰度值(图3(c)).将其和权值矩阵相应的值对应相乘,结果如图3(d)所示.

步骤3:对3×3邻域的8个灰度值求和(图3(d)),得到的十进制数就为该3×3邻域的LBP特征值.如图3(a)所示的3×3邻域的LBP特征值为120,二进制模式值为011110002(按顺时针).

图3 基本LBP特征

1.3.2 扩展LBP特征

基本LBP特征的思想是提取样本点周围的像素值,并按照样本点灰度值进行二值化[8].OJALA等[9]在此基础上对像素邻域范围进行了扩展,使得LBP特征在以样本点为圆心、R为半径的圆周上等间隔地采样,设采样个数为P.常见的R和P参数如图4所示. 则样本点R邻域的LBP特征计算公式为:

(3)

图4 扩展LBP特征

1.3.3 旋转无关LBP特征

为了处理实际应用当中纹理旋转而导致的LBP特征变化,OJALA等[9]实现了具有旋转不变性的LBP特征(记为LBPri,上标ri表示旋转不变).通过将扩展的LBP特征的二进制值进行循环移位,实现旋转不变的LBP特征.计算公式为:

(4)

其中ROR(z,k)表示对P位二进制数z进行向右循环移位k次(|k|

表1 旋转无关LBP特征Table 1 Rotation invariant LBP features

2 实验准备

2.1预处理

GENKI数据库包含从互联网收集的各种条件下的照片11 160张,包括户外和户内,以及不同年龄、不同性别等.首先剔除无法甄别是否存在人脸区域的图像,再对符合检测要求的数据进行预处理,以消除由于光照、尺度缩放或平移所带来的影响,得到规模为64×48像素的图像.过程如图6(a)所示.为进行测试,对数据集(GENKI)进行了手工标定(分为大笑、微笑和不笑),得到标记为大笑、微笑2种类别. 预处理过程如图5所示.

图5 人脸表情样本图像预处理流程图

Figure 5 Flowchart of face expression image preprocessing

2.2特征选择与分类器设计

比较2种学习算法——GentleBoost和支持向量机.支持向量机SVM算法基于统计学习理论和结构风险最小化原则,在解决高维模式识别中表现出许多特有的优势;GentleBoost的执行情况是每个基本模块包含从滤波器组中选择的一个滤波器,以及一个非线性调谐函数,用非参数回归计算.GentleBoost输出的是给定观测图像分类标签的对数似然率估计.在实验中,所有GentleBoost分类器均迭代500次.将两者进行结合训练时,GentleBoost仅用于特征选择并将获得的候选特征用于后续支持向量机的训练.

3 结果与分析

从GENKI[10]实验数据集中选择1 202张笑脸表情图像,分为2类:微笑和大笑.最终得到了524张微笑样本和678张大笑样本.为进行微笑和大笑二分类,对于训练集合,从524张微笑图像中随机选432张样本,从678张大笑图像中随机选568张样本.其余的样本用于测试.

3.1Gabor特征与PHOG特征比较

本实验所提取特征包括以下3种:第1种是Gabor特征,即原始图像与5个尺度和8个方向的Gabor滤波器组进行卷积作为特征向量;第2种是PHOG特征,即金字塔分割得到的所有子图像的HOG特征向量串联作为特征向量;第3种是混合特征,即PHOG+Gabor,Gabor+PLBP,PHOG+PLBP,以及Gabor+PHOG+PLBP.

表2 6种特征提取方法的SVM分类结果比较

Table 2 Comparing results of 6 feature extraction schemes for SVM

%

表3 6种特征提取方法的GentleBoost分类结果比较Table 3 Comparing results of 6 feature extraction schemes for GentleBoost %

由表2和表3可知,由PHOG进行特征提取方法取得了媲美Gabor特征所生产的效果.特别是PHOG只使用SVM分类器时,表现优于Gabor滤波器.使用GentleBoost时Gabor特征表现优于PHOG特征.GentleBoost结合SVM针对融合后的PHOG和Gabor特征进行学习,获得的效果最好.

3.2Gabor特征与PHOG特征融合

Gabor特征与PHOG特征融合特征(以下简记为Gabor+PHOG特征),即将两者进行串接得到新的向量作为特征向量.串接方法如下:假定X={x1,x2,…,xs}是A(可以是Gabor或PHOG或LBP)特征向量;Y={y1,y2,…,yt}是B(可以是Gabor或PHOG或LBP)特征向量,其中s和t分别表示X和Y的特征维数.得到新的特征向量Z如下:

Z={X∪Y}={x1,x2,…,xs,y1,y2,…,yt}.

(5)

3.3Gabor特征、PHOG特征以及PLBP特征融合

本实验所提取特征包括:第1种提取Gabor特征再提取PLBP特征(记为Gabor+PLBP);第2种提取PHOG特征再提取PLBP特征(记为PHOG+PLBP);第3种提取Gabor特征再提取PLBP+PHOG特征(记为Gabor+PHOG+PLBP).其中,所有特征均按式(5)串接.PLBP算法如上文.

表4 6种特征提取方法的GentleBoost+SVM分类结果比较Table 4 Comparing results of 6 feature extraction schemes for GentleBoost+SVM %

图6 本文特征提取方法结果比较

由表4可知,局部二值模式特征对局部几何结构旋转或单调像素灰度值变化有良好的稳定性,保持并提高了分类识别性能.原因在于能够提取对旋转、局部灰度单调变化鲁棒的分类信息,一定程度上减少了对特定分类任务有影响的人脸姿态变化、光照变化等因素的影响.

由图6可知,融合特征在低维时仍然保持着较高的识别率,随着训练迭代次数的增加,识别率上升,在迭代次数为500次附近时,获得最佳识别率.大于500次时,PHOG特征比Gabor特征获得了更高的识别率,融合维特征在训练迭代900次时识别率为86.087%,相对于500次迭代获得的最高识别率并无明显变化.对于实际应用来说,迭代次数选择500能够在较短时间内获得较好的分类识别率.证明了融合特征具有优越分类能力.并且能够在相对较短的训练时间内获得最佳分类识别率.

3.4取得分类识别率相应的时间代价

实验硬件平台使用奔腾4台式机,CPU频率1.7 GHz,迭代次数与对应的消耗时间(采用最小刻度为千分之一秒(ms)的秒表人工计时)关系如表5所示.

表5 迭代次数与消耗时间关系Table 5 Relationship between iterations and time consuming

从表5可看到,除掉大约200 ms的必要系统准备和人工反应时间,迭代次数与笑脸分类的消耗时间呈正比例关系,平均迭代消耗时间为325 ms/100次迭代,平均消耗时间约为1 810 ms.拟合曲线是一条近似直线.

3.5Gabor+PHOG+PLBP特征与公开发表特征提取方法的比较

将Gabor+PHOG+PLBP特征分别与公开发表的PCA特征、LDA特征提取方法[6-7]在GENKI数据集上比较重新计算的分类识别率,对于训练集合,从524张微笑图像中随机选432张样本,从678张大笑图像中随机选568张样本.其余的样本用于测试.分类算法沿用上述的SVM和GentleBoost.结果如表6~表8所示.

表6 3种特征提取方法的SVM分类结果比较

Table 6 Comparing results of 3 feature extraction schemes for SVM %

表7 3种特征提取方法的GentleBoost分类结果比较

Table 7 Comparing results of 3 feature extraction schemes for GentleBoost %

表8 3种特征提取方法的GentleBoost+SVM分类结果比较

Table 8 Comparing results of 3 feature extraction schemes for GentleBoost+SVM %

从表6~表8可以看出,SVM、GentleBoost和SVM+GentleBoost分类算法在GENKI数据集上的实验结果皆优于PCA特征提取方法和LDA特征提取方法在GENKI数据集上的结果.证明了本文方法的有效性.

4 结论

本文将Gabor特征、PHOG特征和旋转无关LBP特征融合后引入到笑脸分类,构造了一个对光照变化和局部几何结构的旋转变化鲁棒的笑脸分类系统.Gabor特征是一种高效的多尺度分解方法,模仿了人类大脑皮层简单细胞的反射区的立即响应视觉过程;PHOG特征的引入解决了LBP算子对局部几何结构的纹理边缘和方向变化不敏感的问题,最后采用GentleBoost和SVM分类方法对3种特征对应的识别性能进行测试.本文研究的主要结果有:

(1)GENKI数据库包括户外和户内,以及不同年龄、不同性别,也包括平面内、外人脸的旋转和不同姿态的图像,在一定程度上能够代表真实环境下采集的数据.

(2)将Gabor特征和PHOG特征进行了融合,比单独运用这2种特征之一,提高了分类识别率;采用GentleBoost进行特征选择结合SVM来训练分类器,在提取同一特征情况下,结果优于单独采用GentleBoost训练或SVM训练.提取不同特征情况下,2种特征分类方式:(PHOG+Gabor)+(GentalBoost+SVM),(Gabor+PHOG+PLBP)+(GentalBoost+SVM)分类识别率最高,分别为86.147%,86.197%.

(3)经过PLBP特征的融合,由于减少和消除了高维特征中可能存在的光照、旋转变化等阻碍特定分类任务的因素,很好地保持甚至提高了分类能力;同时,对于预处理过程中的图像配准[11],人脸定位和直方图均衡的精度要求也大大降低.同样迭代次数下,GENKI数据库中单一特征和融合特征最大分类识别率差距为:86.197%-82.588%=3.609%.

(4)在GENKI数据集上使用SVM、GentleBoost、SVM+GentleBoost算法,本文特征提取方法大幅优于传统的PCA特征提取方法和LDA特征提取方法,体现了融合特征的有效性.

(5)人工计算时间消耗虽然有一定误差,但反映了本算法消耗时间与迭代次数呈现正比例的规律,在容易获得的PC机平台上,揭示了算法迭代过程改进的指导方向,以提高效率.

上述结果揭示了融合特征在真实环境中对特定表情分类任务的潜力;同时,由于局部特征的表示均为向量模式,PHOG和PLBP特征在图像预处理和金字塔图像分割方面的统一性,以及PHOG和PLBP各自对于边缘方向梯度变化以及光照、旋转变化的稳定性和互补性,给予了提取融合特征的可能性,提高了分类识别准确率.未来将进一步研究真实环境中对光照、旋转、尺度和平移等场景几何变换和表情变换各种因素鲁棒的表情分类系统.

[1] FASEL B,LUETTIN J.Automatic facial expression analysis: a survey[J].Pattern Recognition,2003,36(1):259-275.

[2] ZENG Z, PANTIC M, ROISMAN G, et al.A survey of affect recognition methods: Audio, visual, and spontaneous expressions[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,31(1):39-58.

[3] KANADE T, TIAN Y,COHN J.Comprehensive database for facial expression analysis[C]∥Proceedings of the 4th IEEE Int’l Conf Automatic Face and Gesture Recognition. Grenoble France:IEEE Computer Society, 2000:46-53.

[4] SIM T, BAKER S,BSAT M.The CMU pose, illumination, and expression database[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2003,25(12):1615-1618.

[5] LEE T.Image representation using 2D Gabor wavelets[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1996,18(10):959-971.

[6] COHN J,SCHMIDT K.The timing of facial motion in posed and spontaneous smiles[J].International Journal of Wavelets, Multiresolution and Information Processing,2004,2(2):121-132.

[7] DALAL N, TRIGGS B, RHONE A I, et al.Histograms of oriented gradients for human detection[C]∥IEEE Conf on Computer Vision and Pattern Recognition.San Diego, CA, USA:IEEE Computer Society,2005:886-893.

[8] OJALA T, PIETIKINEN M,HARWOOD D.A comparative study of texture measures with classification based on feature distribution[J].Pattern Recognition,1996,29(1):51-59.

[9] OJALA T, PIETIKINEN M.Multiresolution Gray-scale and rotation invariant texture classification with local binary patterns[J].IEEE Transaction on Pattern Analysis and Machine Intelligence,2002,24(7):971-987.

[10] WHITEHILL J, LITTLEWORT G, FASEL I, et al.Toward practical smile detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(11):2106-2111.

[11] 肖化.基于Talairach坐标系统的脑图谱配准算法的实现[J].华南师范大学学报:自然科学版,2008(1):34-39.

XIAO hua.Implementation of brain atlas registration based on talairach coordinate system[J].Journal of South China Normal University:Natural Science Edition,2008(1):34-39.

Keywords: smile classification; Gabor filters bank; pyramid segmentation; histogram of oriented gradient; local binary pattern; support vector machine

【责任编辑 庄晓琼】

AFUSIONMETHODOFMULTIPLEFEATURESFORCLASSIFICATIONOFSMILEEXPRESSION

CHEN Jun1,2

(1.School of Electrical and Information Engineering, South China University of Technology, Guangzhou 510640, China; 2. Department of information Engineering & Technique,Nanhai College,South China Normal Univercity,Foshan,Guangdong 528225,China)

A smile expression classification system on data sets of GENKI is built which can represent real-world environments, and the support vector machine and GentleBoost algorithm are used as tools to learn. The followings are introduced: data preprocessing, Gabor features extraction, PHOG features extraction, and local binary pattern features extraction. The experiment results and detailed analysis of these results based on the GENKI dataset shows the effectiveness of the method.

2010-09-07

*通讯作者,jun.cb@mail.scut.edu.cn

1000-5463(2011)02-0049-07

TP391.41

A

猜你喜欢
识别率像素点特征提取
基于局部相似性的特征匹配筛选算法
基于类图像处理与向量化的大数据脚本攻击智能检测
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
基于Daubechies(dbN)的飞行器音频特征提取
基于5×5邻域像素点相关性的划痕修复算法
提升高速公路MTC二次抓拍车牌识别率方案研究
基于canvas的前端数据加密
Bagging RCSP脑电特征提取算法
基于逐像素点深度卷积网络分割模型的上皮和间质组织分割
高速公路机电日常维护中车牌识别率分析系统的应用