基于人脸运动单元及表情关系模型的自动表情识别

2016-11-18 09:10解仑卢亚楠姜波孙铁王志良
北京理工大学学报 2016年2期
关键词:眉眼识别率人脸

解仑, 卢亚楠, 姜波, 孙铁, 王志良

(1.北京科技大学 计算机与通信工程学院, 北京 100083; 2.北京科技大学 自动化学院, 北京 100083)



基于人脸运动单元及表情关系模型的自动表情识别

解仑1, 卢亚楠2, 姜波1, 孙铁2, 王志良1

(1.北京科技大学 计算机与通信工程学院, 北京 100083; 2.北京科技大学 自动化学院, 北京 100083)

面部表情是人们表达情感和意向最有效、自然、快捷的方式. 表情的发生主体不同,程度不同,导致了表情的自发性. 基于这一难点,建立了一种人脸运动单元(action units,AUs)及面部表情间的概率关系模型,该模型将人脸分为眉眼区域和嘴巴区域两部分,采用Gabor小波提取区域特征,通过K临近(Knearest neighbor,KNN)与贝叶斯网络(Bayesian network,BN)相结合的机器学习算法进行自动AUs表情识别. 这种改进的机器学习算法,通过训练数据以及主观的先验知识进行模型学习,为AUs配以不同的权重,并且根据极大后验概率(maximum a posteriori probability,MAP)选取最优表情. 实验表明,本文所提出的模型对不同主体、不同程度的表情都表现出了较高的识别率,是一种高效且鲁棒性强的自动表情识别系统.

运动单元;Gabor特征;K临近;贝叶斯网络;极大后验概率

面部表情是人们表达情感和意向最有效、自然、快捷的方式. 人们对人脸表情识别的研究,最早可以追溯到20世纪70年代,美国心理学家Ekman和Friesen定义了6种基本表情:生气(angry)、厌恶(disgust)、害怕(fear)、伤心(sad)、高兴(happy)和惊讶(surprise),并于 1978年开发了面部动作编码系统FACS(facial action coding system)[1]来检测面部表情的细微变化. FACS共定义了44个运动单元(AUs),其中30个运动单元与面部特定肌肉运动有直接关联:12个为人脸上半部分,18个为人脸下半部分. 这些运动单元可以单独出现,也可以联合出现.

表情发生根本原因是由于面部肌肉运动,使得面部特征单元发生改变. 例如嘴角上扬,表现出高兴. 嘴巴张开,眉毛上扬,表现出惊讶. 所以,面部特征单元的改变(即运动单元的表现)对人脸表情识别起着至关重要的作用[2]. 本文利用Gabor小波提取面部局部特征[3],结合K临近和贝叶斯网络[4],建立了一种新的AUs及人脸表情识别系统. 该系统与先前的工作相比,更注重于眉眼和嘴巴区域AUs的纹理变化,通过 AUs与表情的关系模型的训练,针对眉眼和嘴巴区域对不同表情的贡献值不同,配以不同权重,降低不同表情间的相互干扰,提高表情识别率.

1 相关工作

目前,广义上可以将人脸表情识别分为基于人脸运动单元(AUs)的识别方法和基于内容(non-AUs)的方法[5]. 近年来,研究人员通过建立AUs与表情的关系模型进行人脸表情识别,将AUs及表情的识别融为一体[6-7],使表情的研究工作更加系统化,得到了较高的识别率,具有很高的研究价值.

对于基于内容的(non-AUs)的方法,主要分为基于几何特征点,基于纹理特征以及几何和纹理特征相结合[8]的识别系统. 这类方法通常针对于脸部整体特征的变化. 文献[9]提出了一种利用Kanade-Lucas-Tomasi进行特征点跟踪,并用支持向量机(SVM)进行数据训练来分类,该方法仅进行了几何特征提取. 文献[10]提出了一种基于纹理特征的提取方法:局部二元模式(LBPs). 该方法根据LBP直方图利用boosting算法提取动态特征,并通过支持向量机(SVM)进行分类.

对于基于人脸运动单元(AUs)的方法,该方法最大的特点是引入了AUs,它作为中间层是低层人脸特征与高层表情之间的沟通桥梁[11-12],该方法更注重于面部局部的、离散的特征改变,更有助于自发性表情的识别. 如何提高AUs的识别率,以及如何建立三者之间的关系是该方法的关键. 一些文章利用不同的方法来提高AUs识别率,例如主成分分析(PCA),独立分量分析(ICA),线性判别分析(LDA),Gabor小波以及光流法等[13]. 近年来,一些文献引入了动态贝叶斯网络(DBN)[14]以及隐马尔科夫模型(HMM)[15]建立AUs之间以及AUs与表情之间的关系模型,取得了较好的识别效果. 但是,这些模型较为复杂,不仅建立了AUs与表情间的模型,还注重于AUs间以及AUs与特征点间的关系,这种方法计算量庞大,识别过程中往往需要手动标记以及结构学习,很难进行自动识别.

为建立一种高效且简洁的人脸表情自动识别系统,本文更注重于AUs与人脸表情间的关系[16],通过建立AUs与表情间的概率模型进行表情识别. 文中模型将人脸分为眉眼区域与嘴巴区域两部分,针对于不同表情,两部分的贡献值是不同的,例如厌恶这一表情,通常表现为内眉眼皱起,以及下巴皱起,而生气和悲伤时通常也会表现出下巴皱起,会对厌恶这一表情的识别形成干扰,此时眉眼处的贡献就要多于嘴巴处. 又例如高兴这一表情,嘴巴处的变化是明显于其他部位的,此时嘴巴处的贡献要大于眉眼处. 通过所提出的模型进行参数学习,针对不同表情对眉眼区域和嘴巴区域配以不同权重,作为反馈输入模型进行识别. 通过人脸分区分析,使AUs的分析相对独立,舍弃AUs间相互影响的复杂关系网,使表情识别工作在注重分析局部特征变化的同时,更加简洁有效.

2 人脸表情识别系统

表情识别系统主要分为人脸特征提取和表情分类两部分. 本文所提出的人脸表情识别系统如图1所示.

2.1 特征提取

本文采用Gabor小波对相关区域进行特征提取. Gabor小波能够抓住图像局部区域内多个方向的空间频率(尺度)和局部性结构特征[17],有效的局部信息是AUs及表情识别的前提和关键.

Gabor变换的定义如下

(1)

(2)

式中:*表示卷积操作;Reyes为眉眼区域;Rmouth为嘴巴区域.

2.2 表情分类

贝叶斯网络是人工智能学科中处理不确定性问题的新兴分支,是概率图模型的一种,它是将图论与概率论结合起来应用于复杂事件的描述和建模,主要用于进行概率推理,由于其对于处理不确定性问题可以保证推理结果正确性的优势,在人工智能和机器学习领域起着越来越重要的作用. 贝叶斯公式如下

(3)

式中:P(A|B)为后验概率;P(B|A)为已知A发生后B的条件概率;P(A)与P(B)是先验概率. 贝叶斯网络的推理过程即是根据已知的先验概率和条件概率求得后验概率的过程.

根据贝叶斯网络分类的思想,把输入图像作为一个事物,记为I(z),选取要识别的5种基本表情作为类别,记c={y1,y2,y3,y4,y5},y1=Hap(高兴),y2=Sur(惊讶),y3=Dis(厌恶),y4=Ang(生气),y5=Sad(悲伤),并且把AUs作为特征属性. 根据相关文献记载以及观察和实验分析[18],本文选取了如下AUs,如表1所示. 这些AUs是人脸表情发生过程中经常出现的运动单元,包括A1(前眉升起),A2(外眉上挑),A4(眉毛下压),A6(颧骨升起),A9(鼻子皱起),A12(嘴角拉伸),A15(嘴角下压),A17(下巴皱起),A23(嘴唇收紧),A24(嘴唇压紧),A25(嘴唇分开),A26(下颚下降),A27(嘴巴张开). 并且根据AUs与表情间的关系,建立表2. 其中,对于眼部区域,当发生惊讶表情时,由A1与A2共同作用;对于嘴部区域,A23与A24主要发生于生气这一表情过程中,区分度不大,并且几乎同时出现,对其他表情干扰较小,故将这4个AUs分别合并为A1+2与A23+24进行讨论与实验.

表1 AUs以及相关解释

识别的过程即测量I(z)所具有的特征属性,根据特征属性AUs与表情间的条件概率关系,求得具有最大后验概率的表情类别. 利用情感预测得到AUs与表情之间的关系,如表2所示. 并根据贝叶斯网络模型,建立如图2所示的表情识别数学模型. 该模型的第1层为5种基本表情,第2层为基本AUs单元,箭头表示表情与AUs之间的关系,第3层节点a1~a11分别代表相应的AUs测量值. 节点ce代表眉眼区域下测得的表情,节点cm代表嘴巴区域下测得的表情,节点c为两个区域共同作用下测得的表情.

表2 AUs与表情间的关系

(4)

式中:α,β,χ,…,φ≥0且α+β+χ+…+φ=k,a5,a7,…,a11的取值为0或1.

根据贝叶斯公式,在已知特征属性的情况下每种表情yi(yi∈c)发生的概率为

(5)

在本文的工作中,眉眼与嘴巴区域是进行独立分析的,以嘴巴区域为例,与其相关的AUs是相对独立的,假设各特征属性间相互独立,则根据条件独立性关系,由式(5)可得

(6)

式中p(yi)和P(aj|yi)可以根据训练样本中属性值和类别组合出现频率来进行计算,具体公式如下

(7)

(8)

式中:n为训练实例的个数;yi为第i个训练实例的类标记;aij为第i个训练样本中第j个属性值;nc为表情类别的个数;nj为训练样本中特征属性AUs的取值个数;δ(yi,c)为二值函数,当yi=c时为1,否则为0.

应用极大后验概率,在嘴巴区域作用下,求得的表情类别为

(9)

其中每一幅输入图像被标记的特征属性是固定的,即P(I(z)m)对每一种表情来说是相同的,在求极大后验概率时可以忽略不计.

同理,在已知眉眼区域的属性情况下,可得到5种表情发生的概率P(yi|I(z)e),以及在眉眼区域作用下求得的表情类别ce. 为求最终的表情类别,需要将眉眼区域和嘴巴区域进行概率归一化计算. 通过归一化求得眉眼区域和嘴巴区域共同作用下的表情类别,如式(10)所示

(10)

式中η+θ=1,η与θ的比例关系为通过训练、统计、学习得到的眉眼区域AUs和嘴巴区域AUs对输出正确表情类别所做的贡献比.

综上,输入图像I(z)会被标记为AUs的不同线性组合,作为输入图像的特征属性,并且根据特征属性AUs与表情间的条件概率关系P(I(z)|yi),应用极大后验概率(MAP),得到最可能的表情类标记c.

3 实验分析

文中选取扩展的Cohn-Kanade(CK+)[18]作为实验的数据库,该数据库于2010年9月28日修订完成,是目前人脸表情识别领域应用最广泛的数据库. 该数据库通过123个主体呈现了593组图像序列,每一组图像序列包括人脸从自然状态到达表情峰值的全过程,并且对每一个表情峰值做了对应的人脸运动单元(AUs)标记.

本文中的实验是基于VC+MFC平台上建立的,实现了从输入图像到输出结果的自动化表情识别过程,实验流程如图3所示. 首先通过选取训练样本,对样本图像进行预处理、提取经过特征定位的Gabor特征,形成标准模板;然后输入测试样本,对测试样本进行同训练样本相同的处理过程;再将提取特征后的测试图像输入KNN+BN模型,进行眉眼区域及嘴巴区域的权重学习,修正 AUs与表情间的概率关系;最后将修正过后的权重重新输入KNN+BN模型,得到人脸表情识别结果.

基于CK+数据库,根据其标记与作者的观察建立AUs训练库. 首先,为文中所提到的AUs分别选取20幅图像作为训练库,是相应AUs较优且不同强度的体现,可以来自相同主体或不同主体,共220幅训练图像. 另外,选取CK+数据库除训练库以外的图像作为测试库,测试库包括本文中所要识别的5种表情,每种表情各30张图像,且每张图像包括3种程度的表情,共450幅测试图像.

通过样本训练,得出11个AUs在5种表情下所出现的频率均值,结果如表3和表4所示. 其中红色数字为被标记相关表情的频率. 将所得到的统计数据,利用公式进行Matlab仿真,得到输入图像在不同AUs作用下输出的表情类别概率值,如图4、图5所示.

表3 嘴巴区域对应AU出现频率

表4 眉眼区域对应AU出现频率

其中,I(z)m为一幅输入图像在嘴巴区域AUs标记下的特征属性,I(z)e为一幅输入图像在嘴巴区域AUs标记下的特征属性. 该柱状图的意义:以图5中的Hap(y1)为例,对于一幅表情为Hap的图像,输入本文所提出的系统,得到P(y1|I(z)m)>P(y2|I(z)m),P(y3|I(z)m),P(y4|I(z)m),P(y5|I(z)m),则输出为Hap(y1),是正确的. 同理,对于Dis(y3),P(y4|I(z)m)>P(y1|I(z)m),P(y2|I(z)m),P(y3|I(z)m),P(y5|I(z)m),则输出为Ang(y4). 在嘴巴区域的作用下,Hap,Sur,Sad,Ang 4种表情的正确概率远远大于其他,根据极大后验概率规则可以得到正确的表情分类,而对于Dis,根据极大后验概率规则,输入的图像则会被识别为Ang;同理,在眼睛区域的作用下,Sur,Dis,Ang,Sad 4种表情可以做出正确选择,但是Hap的识别出现了错误,所以,当眼部区域单独作用时,会产生一定的识别错误,使得算法不能收敛.

通过实验可以发现,对于眼部和嘴部区域不同的权重η与θ的选取,将会直接影响最终的正确率. 故利用式(10)进行归一化处理:

① 取η=0.5、θ=0.5,得到眉眼区域和嘴巴区域AUs共同作用下的表情类别概率值,如图6所示. 归一化处理后,算法得以收敛,每种表情都可以得到正确的类别选择.

② 为了提高系统的鲁棒性,使得正确表情的概率P(yi|I(z))要远大于其他表情的概率,可以通过修正权重η与θ的值来实现.

表3与表4中数据所示,不同区域对表情识别的贡献不同. 以Dis为例,利用表3及表4的数据中标红的数据可得η/θ=(31.29+41.42)/40.66;同理,通过表3与表4数据,可以得到Hap、Sur、Ang、Sad的修正权重. 对于表情Hap,本文发现经过权重修正后识别有效性提高较低,根据图表分析,相对于眉眼区域,嘴巴区域变化尤为突出,而且总是存在,并且A6同时对Dis与Ang有影响,忽略眉眼区域的AUs对其影响. 所以,对于这一表情将权重修正为η=0,θ=1. 经权重修正后的η与θ对表情概率柱状图得以优化,如图7所示.

将修正后的AUs与表情间的条件概率关系重载入KNN+BN模型,基于VC+MFC平台,将测试图像输入该系统,进行自动表情识别,统计识别的正确与否,并且计算识别率. 如图8所示,红色标记为5种表情最终识别率,蓝色为未经权重修正(η=0.5,θ=0.5)的表情识别率. 通过实验验证,所提出的系统针对这5种表情得到了较高的识别率,平均识别率达到了92%,尤其对于惊讶和高兴这两种表情识别率接近100%.

4 结 论

本文提出了一种新的人脸表情识别模型,该模型注重于人脸局部特征的改变以及AUs与表情间的条件概率关系,通过KNN+BN数学模型进行AUs/人脸表情的自动识别.

模型简化了AUs间复杂的关系网,将AUs分为眉眼区域和嘴巴区域做独立分析,根据两部分的贡献比,为5种表情配以不同的权重,加强确定性,减弱不确定性对表情识别的影响,降低了表情间的互相干扰,优化了表情识别系统,对不同程度的5种表情取得了较高的识别率. 综上,本文所提出的系统具有简洁、高效且鲁棒性强等优点.

[1] Vick S J, Waller B M, Parr L A, et al. A cross-species comparison of facial morphology and movement in humans and chimpanzees using the facial action coding system (FACS) [J]. Journal of Nonverbal Behavior, 2007,31(1):1-20.

[2] Marsh P J, Luckett G, Russell T, et al. Effects of facial emotion recognition remediation on visual scanning of novel face stimuli [J]. Schizophrenia Research, 2012,141(2):234-240.

[3] Cassio P, De Campos, Ji Q. Efficient structure learning of Bayesian networks using constraints[J]. Mach Learn Res, 2011,12:663-689.

[4] Zhao S, Gao Y, Zhang B. Gabor feature constrained statistical model for efficient landmark localization and face recognition [J]. Pattern Recognition Letters, 2009,30(10):922-930.

[5] Fang H, Parthalin M N, Aubrey A J, et al. Facial expression recognition in dynamic sequences: an integrated approach[J]. Pattern Recognition, 2014,47(3):1271-1281.

[6] Tong Y, Chen J, Ji Q. A unified probabilistic framework for spontaneous facial action modeling and understanding[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010,32(2):258-273.

[7] Chen J, Liu X, Tu P, et al. Learning person-specific models for facial expression and action unit recognition[J]. Pattern Recognition Letters, 2013,34(15):1964-1970.

[8] Cheon Y, Kim D. Natural facial expression recognition using differential-AAM and manifold learning[J]. Pattern Recognition, 2009,42(7):1340-1350.

[9] Kotsia I, Pitas I. Facial expression recognition in image sequences using geometric deformation features and support vector machines[J]. IEEE Transactions on Image Processing, 2007(16):172-187.

[10] Shan C, Gong S, McOwan P W. Facial expression recognition based on local binary patterns: a comprehensive study[J]. Image and Vision Computing, 2009,27(6):803-816.

[11] Koelstra S, Pantic M, Patras I. A dynamic texture-based approach to recognition of facial actions and their temporal models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010,32(11):1940-1954.

[12] Chen J, Liu X, Tu P. Learning person-specific models for facial expression and action unit recognition[J]. Pattern Recognition Letters, 2013,34(15):1964-1970.

[13] Zeng Z, Pantic M, Roisman G I, et al. A survey of affect recognition methods: audio, visual, and spontaneous expressions[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009,31(1):39-58.

[14] Li Yongqiang, Wang Shangfei, Zhao Yongping, et al. Simultaneous facial feature tracking and facial expression recognition[J]. IEEE Transactions on Image Processing, 2013,22(7):2559-2573.

[15] Valstar M, Pantic M. Fully automatic recognition of the temporal phases of facial actions[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, 2012,42(1):28-43.

[16] Cid F, Prado J A, Bustos P, et al. A real time and robust facial expression recognition and imitation approach for affective human-robot interaction using Gabor filtering[C]∥Proceedings of 2013 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).[S.l.]: IEEE, 2013: 2188-2193.

[17] Gu W, Xiang C, Venkatesh Y V, et al. Facial expression recognition using radial encoding of local Gabor features and classifier synthesis[J]. Pattern Recognition, 2012,45(1):80-91.

[18] Lucey P, Cohn J F, Kanade T, et al. The extended Cohn-Kanade dataset (CK+): a complete dataset for action unit and emotion-specified expression[C]∥Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).[S.l.]: IEEE, 2010:94-101.

(责任编辑:李兵)

Expression Automatic Recognition Based on Facial Action Units and Expression Relationship Model

XIE Lun1, LU Ya-nan2, JIANG Bo1, SUN Tie2, WANG Zhi-liang1

(1.School of Computer and Communication Engineering, University of Science and Technology Beijing,Beijing 100083,China; 2.School of Automation and Electrical Engineering, University of Science and Technology Beijing, Beijing 100083, China)

Facial expression is a natural, powerful and efficient mean of human communication. Different subjects and varying degrees of emotion lead to the spontaneous expression. Based on this difficulty, this paper established a probabilistic model between the facial action units (AUs) and the facial expression. In this model, the face was divided into two parts, eye brow area and mouth area, and the Gabor wavelet was used to perform the areas. Then AUs/expressions were recognized by a machine learning method which combined theKnearest neighbor (KNN) and the Bayesian network (BN). By training data and using priori knowledge to learn a model, this enhanced method provides AUs for different weights and select the optimal expression according to the maximum a posterior probability (MAP). Experiments illustrate that, the framework proposed in this paper showes a high recognition rate to different subjects and different degrees of emotion. It’s an efficient, robust and automatic facial expression recognition system.

action units; Gabor characteristics;Knearest neighbor; Bayesian networks; maximum a posterior probability

2014-10-19

国家自然科学基金资助项目(61170115);国家自然科学基金重点资助项目(61432004);国家科技支撑计划资助课题(2014BAF08B04);镇江市“331计划”第七批引进人才资助项目和北京市融合网络与泛在业务工程技术研究中心资助项目

解仑(1968—),男,教授,博士生导师,E-mail:xielun@ustb.edu.cn.

TP 751.1

A

1001-0645(2016)02-0163-07

10.15918/j.tbit1001-0645.2016.02.011

猜你喜欢
眉眼识别率人脸
有特点的人脸
一起学画人脸
玻璃窗上的人脸
终南山
遇见你的眉眼,如清风明月
档案数字化过程中OCR技术的应用分析
基于PCA与MLP感知器的人脸图像辨识技术
科技文档中数学表达式的结构分析与识别
人工智能现状和发展
待他眉眼如初,守她岁月如故