双通道决策信息融合下的微表情识别

2022-08-09 06:59戎如意薛珮芸贾海蓉谢娅利
西安电子科技大学学报 2022年4期
关键词:纹理特征提取模态

戎如意,薛珮芸,白 静,贾海蓉,谢娅利

(太原理工大学 信息与计算机学院,山西 太原 030024)

表情是一种人类社会中非语言式的交流方式,它能够在人的内心状态发生变化时,直接反应出人类的情感。根据持续时间的长短和强度的高低可以将表情分为宏表情和微表情,宏表情是一种面部动作幅度大且没有经过刻意掩藏和抑制的面部表情;而微表情是一种区别于宏表情的特殊面部表情,它具有持续时间短、动作幅度小的特点,通常在人们想要抑制他们的情感时产生[1]。相比于宏表情,微表情的识别难度更大。由于微表情可以作为一种判断人们内心真实情感的重要依据,微表情识别在很多领域都有着非常重要的应用[2]。微表情能够有效地帮助人们识别谎言,同时也可以为公共安全防范提供必要的线索,这对维护社会公共安全具有重要价值和现实意义。

目前现有的基于机器学习的微表情特征提取的算法主要有文献[3]提出的主方向平均光流特征(Main Directional Mean Optical flow feature,MDMO)。首先将面部区域基于动作单元划分为36个感兴趣区域,然后在每个区域内提取不同帧之间的光流运动信息。该方法简单且有效,并且提取的特征维数较少。尽管主方向平均光流特征的操作简单,但它很容易失去特征空间中内在的流形结构。文献[4]提出通过Gabor特征描述每一帧的面部图像,然后利用Gentle SVM对微表情进行分类,这种方法可以自动完成对图片序列的分割,并且付出较低的计算代价,但是在进行帧分类时,容易将帧分错,从而导致模型错判。文献[5]提出一种以光流场来描述微表情运动的特征提取方法(Facial Dynamics Map,FDM)。该方法把抽取出来的光流场分割成小的时空立方体,然后抽取每个立方体的主方向。该方法能够很好地反应微表情的运动模式,但是稠密光流场的计算时间相对较长,不适合进行大规模的微表情识别。文献[6]提出一种基于时空梯度特征的识别方法。该方法将微表情图片划分为12个区域,计算区域内每一帧图片中所有像素在3个方向(X,Y,T)上的梯度,并对其量化,从而将构建的梯度直方图作为微表情的特征。该方法的特征简单,同时也存在局限性。文献[7]提出了一种新的动态纹理识别方法(Local Binary Patterns on Three Orthogonal Planes,LBP-TOP),并对其进行了简化和扩展。该方法将特征提取从二维空间(X-Y平面)扩展到了X-Y、X-T和Y-T三维空间平面上,而且此方法计算简单、算法复杂度较低。

微表情是一种复杂的心理行为,目前微表情识别方面的研究主要集中在单一模态,由于单一模态自身的局限性,仅使用单一模态很难提高其识别率。近年来生理信号已经成为隐藏情绪识别研究的热门对象[8-9],面部颜色作为一种生理信号,会伴随着隐藏情绪的变化而发生改变。通过上述分析,笔者提出一种面部颜色特征提取算法,并将其与性能较好的LBP-TOP动态纹理识别算法共同构建微表情双模态情感识别模型。该模型首先利用SVM分类器分别训练微表情纹理和面部颜色两种不同模态的特征,然后将两种模态训练得到的分类信息进行决策融合,最后得到微表情情绪分类结果。

1 微表情纹理特征提取

动态纹理是纹理向时域的扩展。为了对动态文本进行描述和识别,提出了一种动态纹理识别方法(LBP-TOP),它是LBP从二维空间到三维空间的拓展。LBP-TOP在LBP(X-Y平面)的基础上添加了X-T、Y-T平面的纹理特征,其中X-Y平面提取图片的空间信息,X-T和Y-T平面提取图片帧序列的运动信息。

LBP-TOP的提取过程如图1所示[10]。首先将图片帧序列分成3×3的区域块,然后选取每一个分块帧序列的中间帧的像素点作为中心,分别计算X-Y、X-T和Y-T平面上的LBP值,并用直方图表示。笔者在提取LBP-TOP特征的过程中采用uniform code编码,每个分块产生59×3的数组,最后每个样本生成3×3×59×3=1593维数的特征。

2 微表情面部颜色特征提取算法的提出

人们皮肤的外观会随着情绪的变化而发生变化,这是因为面部含有丰富的血管分布,这些血管中的血流以及血液成分的变化会使面部产生可见的颜色变化。面孔颜色与血红蛋白的浓度有关,而血流以及血液成分的变化会使血红蛋白浓度发生变化,从而引起肤色的变化[11]。由于肤色的变化是细微的,因此文中在提取面部肤色变化特征之前,先对图片帧序列进行了面部颜色放大,然后选取合适的两帧图片,计算其帧间色差作为面部特征。

笔者提出的面部颜色特征提取算法的主要思路是将图片帧序列的第1帧图片,即面部尚未因微表情情绪而产生颜色变化的图片作为第1张目标图片。为避免动作特征影响实验结果,并且突出面部颜色的变化,再选取1张图片帧序列中颜色特征显著且动作特征不明显的图片作为第2张目标图片,然后对两张目标图片的每个像素点进行色差计算。

由于 CIEL、a、b颜色空间是一种基于生理特征、与光线及设备无关的颜色系统,在人肤色相关的研究中拥有较好的应用,且更适合人的视觉感应[12],所以在进行特征提取之前,先将选取的目标图片的R、G、B值转换到CIEL、a、b颜色空间中。L、a、b颜色空间由3个要素组成:L分量代表像素的亮度,表示从纯黑到纯白,取值范围是[0,100];a和b代表颜色通道,取值范围均为[-128,127],a表示从红色到绿色,b表示从黄色到蓝色。

为了将目标图片的R、G、B值转换到L、a、b值中,需要先将R、G、B值转换成基色系统XYZ值,再从XYZ值转换成L、a、b值。其中,R、G、B值转换成CIEXYZ值是线性转换,其转换公式如下:

(1)

再将获取的CIEXYZ值转换成L、a、b值,公式如下:

(2)

(3)

其中,X0,Y0,Z0参照白点的CIEXYZ三色刺激值。L、a、b色差用来表示两种颜色之间的感知差别,其公式如下:

ΔE=[(L2-L1)2+(a2-a1)2+(b2-b1)2]1/2。

(4)

为避免亮度因素影响微表情面部颜色特征提取的结果,利用

ΔE′=[(a2-a1)2+(b2-b1)2]1/2

(5)

计算两张输入的面部图像的每一个像素点之间的欧式距离来获取颜色之间的感知差别,相比于计算视频帧每幅图像之间各个颜色通道的像素均值的变化,更能凸显面部颜色发生变化的位置信息以及变化的程度大小,而且计算量相对较小。图2为微表情面部颜色特征提取样的图。

3 微表情双模态情感识别模型

笔者提出的微表情双模态情感识别模型的总体结构如图3所示。一方面从微表情纹理特征入手,采用LBP-TOP算法进行特征提取,然后通过SVM分类器进行情感识别;另一方面从微表情面部颜色特征入手,将计算的图片帧间色差作为要提取的特征,对提取的特征进行特征选择后通过SVM分类器进行情感识别。最后将得到的纹理特征和颜色特征的分类信息进行D-S决策融合,从而得到最终的微表情识别结果。

由于微表情具有动作强度低且面部颜色变化不明显的特点,在进行微表情纹理特征和面部颜色特征提取之前,先对经过裁剪和配准的人脸图片帧序列分别进行欧拉视频动作放大(Euler Video action Magnification,EVMa)和颜色放大(Euler Video color Magnification,EVMc)。欧拉视频放大[13-14]主要是通过结合空间和时间的处理方式来放大视频中的微小变化的,其具体流程如图4所示。动作放大是采用拉普拉斯金字塔对原始视频进行下采样,接着利用巴特沃斯滤波器对金字塔的不同层进行时域滤波,再利用放大因子对滤波后的信号进行放大,最后将原始视频和放大后的信号重构,合成动作放大后的视频。颜色放大是采用高斯金字塔对原始视频进行下采样,接着利用理想带通滤波器对金字塔的不同层进行时域滤波,再利用放大因子对滤波后的信号进行放大,最后将原始视频和放大后的信号重构,合成颜色放大后的视频。

经过色差计算得到的面部颜色特征的维数相对较高,此时的特征集中存在较多的冗余特征。为了提高模型精确度,减少运行时间,采用基于惩罚项的嵌入式特征选择方法剔除不相关和冗余的特征。该方法为了缓解过拟合,引入L1、L2范数正则化,通过L1正则项来选择特征,通过L2正则方法交叉检验,其目标函数如下所示:

(6)

笔者采用D-S证据理论进行决策信息的融合。D-S证据理论是一种用来处理不确定性信息的数学方法,它能够有效地处理存在的不完整性、不确定性和非精确性的问题。在笔者给出的微表情双模态情感识别模型中,它给予两个单模态的分类器(m1,m2)基本分配概率(Basic Probability Assignment,BPA),然后通过mass函数将m1和m2合成新的证据体m,从而为融合结果提供对分类类别的决策支持,即

(7)

其中,Ai表示第i个类别;m(A)表示证据对类别A的基本支持度;1/(1-K)为归一化因子,K为冲突因子,K∈[0,1]:

(8)

笔者提出的微表情双模态情感识别模型的具体操作方法如下:

(1) 对待测的图片帧序列进行人脸裁剪和配准,提取面部关键区域;

(2) 将预处理好的人脸图片帧序列进行欧拉视频动作放大(金字塔分解层数为6,频率区间是[0.2,2.6],放大倍数为8),然后再经时间插值模型[15](TIM为10)对图片帧序列进行抽取。对抽取的10帧图片依次求每个子块(5×5)的LBP-TOP特征,并将每个子块提取的LBP-TOP特征进行级联,最后将级联的LBP-TOP特征进行串联,得到最终的微表情纹理特征;

(3) 将预处理好的人脸图片帧序列进行欧拉视频颜色放大(金字塔分解层数为4,频率区间是[0,4],放大倍数为15),将颜色放大后的图片利用式(1)~(3)进行颜色空间的转化,再根据式(5)进行色差计算,鉴于获取的特征维数较大,采用基于惩罚项的嵌入式特征选择(式(6))(λ1=100,λ2=10,分类方式选择“ovr”,优化算法选用“liblinear”)得到最终的微表情面部颜色特征;

(4) 分别将提取到的微表情纹理特征和面部颜色特征输入到SVM中,训练SVM分类器;

(5) 根据D-S合成规则(式(7))将两种不同模态的决策信息进行合成,即当决策信息不完全冲突(K≠1)时,利用证据合成法将两个分类器得到的基本分类概率m1(Ai) 和m2(Ai) 合成一个新的信度函数m12(A),该函数对微表情分类类别提供决策支持。

4 实验结果分析

4.1 实验数据集

为验证文中提出方法的有效性,采用中科院心理所CASME Ⅱ[16]数据库和芬兰奥卢大学SMIC[17]数据库进行实验论证。CASME Ⅱ数据库包含255个图片帧序列,并将微表情分为7类进行标注,分别是高兴(happiness)、害怕(fear)、惊喜(surprise)、沮丧(sadness)、厌恶(disgust)、压抑(repression)和其他(others)。鉴于CASME Ⅱ 数据集样本数量小、分布不均匀的特点,将恶心(disgust)、厌恶(disgust)和害怕(fear)归为消极(negative)情绪,将压抑(repression)归于其他(others),对CASME Ⅱ数据库进行四分类情绪识别。SMIC(HS)数据库包含164个图片帧序列,将微表情的情绪分为3类进行标注,分别是积极(positive)、消极(negative)和惊喜(surprise),对该数据集进行三分类情绪识别。

4.2 实验结果与分析

表1 单模态与双模态特征识别结果对比

对CASME Ⅱ数据库和SMIC(HS)数据库进行实验测试,使用图3网络模型提取微表情特征,并对微表情序列进行识别。为验证笔者提出方法的有效性,将微表情单模态情感识别方法和微表情双模态情感识别方法的识别率进行比较。由表1可知,双模态的微表情情感识别率相比于单一模态的纹理信息和面部颜色信息的识别率均有提升,在CAMSE Ⅱ和SMIC数据库上分别提升了约3.38%、16.47%和2.85%、15.95%。

为验证图3网络模型各个步骤的有效性,对其进行消融实验,实验结果如表2所示。在纹理特征提取之前添加欧拉视频动作放大模块之后,在CAMSE Ⅱ和SMIC数据集中基于纹理特征的微表情识别准确率分别提升了约1.86%和2.15%;在面部特征提取之前添加欧拉视频颜色放大模块之后,在CASME Ⅱ和SMIC数据集中基于面部颜色特征的微表情识别准确率分别提升了约3.27%和2.37%;在进行D-S决策融合之前,对提取的面部颜色特征进行嵌入式特征选择,可以使得微表情双模态情感识别模型的准确率在CASME Ⅱ和SMIC数据集上分别提升了约1.04%和0.29%。可以看出,欧拉视频动作放大和颜色放大可以有效地提升微表情纹理特征和面部颜色特征分类的准确率,且对面部颜色特征进行特征选择后,可以促进D-S决策融合后微表情识别率的提升。

最后,为验证笔者提出方法的优越性,将笔者提出的方法与目前已有的微表情识别方法在CASME Ⅱ和SMIC数据库上进行比较,结果如表3所示。从表中可以看出,笔者提出的微表情双模态情感识别模型相比于目前常用的微表情识别模型,识别效果更好。

表2 消融实验结果对比

表3 笔者提出的方法与其他主流方法对比

5 结束语

笔者提出的融合微表情纹理特征和面部颜色特征的决策信息的双模态情感识别模型,相比于单一模态的两种识别方法在CASME Ⅱ和SMIC数据库上均有一定的提升。此外,笔者提出的面部颜色特征提取算法属于非接触式特征提取方法,在实际操作中更具有便捷性,但基于面部颜色的微表情情感识别方法的准确率相对较低。因此,在后续的工作中,需要进一步研究如何提升微表情基于面部颜色的情感识别能力,从而提升微表情双模态情感识别模型的准确率。

猜你喜欢
纹理特征提取模态
联合仿真在某车型LGF/PP尾门模态仿真上的应用
多模态超声监测DBD移植肾的临床应用
跨模态通信理论及关键技术初探
基于BM3D的复杂纹理区域图像去噪
空间目标的ISAR成像及轮廓特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于特征提取的绘本阅读机器人设计方案
肺纹理增多是病吗?
微动目标雷达特征提取、成像与识别研究进展
TEXTURE ON TEXTURE质地上的纹理