结合FDM 与STLBP-IP 特征的微表情识别

2021-04-23 05:50韦丽娟梁建娟刘本永

软件导刊 2021年4期

韦丽娟，梁建娟，刘洪，刘本永

（贵州大学大数据与信息工程学院，贵州贵阳 550025）

0 引言

微表情分析逐渐成为机器视觉领域研究热点。与普通表情不同，微表情无法伪造和抑制，可以反映人的真实情绪［1］。因此，通过分析和研究微表情，可以挖掘人内心的真实情感［2］，不仅可以改善和促进人们之间的交往，还可用于临床医学、司法刑侦、婚姻关系预测、教育等领域。

微表情持续时间短且动作幅度微弱，加上人们试图控制和压抑，很难被检测和识别。为帮助人们识别微表情，Ekman［3］开发了微表情训练工具，但是这种通过训练来识别微表情的方法识别效率很低；Polikovsky 等［4］将人脸图像分为12 个区域，使用3D 梯度直方图表征微表情。但这种方法假设每一帧微表情图像只有一个动作单元，存在一定的局限性；Wu 等［5］使用Gabor 算法提取微表情特征进行微表情识别，但是当表情变化幅度较小时识别率很低；Wang等［6］将微表情看作三阶张量并用判别式张量子空间分析算法生成判别特征进行分类，这种算法虽然能够保存图像的空间结构信息，但容易丢失小幅度变化信息，并对噪声敏感；Zhao 等［7］将LBP（Local Binary Patterns）扩展到三维提取时空域信息并应用到微表情识别，结果表明了LBP_TOP 提取微表情特征的有效性，而LBP-TOP 虽然考虑了图像外观和运动纹理信息，但只关注了像素之间的信息，没有关注大小、方向等信息；为了描述面部图像的形状特征，Huang等［8］提出积分投影（Spatiotemporal Local Binary Pattern with Integral Projection，STLBP-IP）时空局部二值模式，通过计算差分图像的积分投影并进行LBP 编码得到图像的形状外观和运动特征，这种算法增强了微表情的识别能力；Liu等［9-11］使用主方向平均光流特征方法提取微表情特征，基于关键点对人脸面部进行分块，计算人脸面部分块中光流主方向的平均光流并作为微表情特征，但该方法特别依赖于面部的有效分块；Xu 等［12］认为，如果观察区间很小且观察时间短暂，微表情会大致在相同的空间和时间上运动。通过对视频序列两帧之间稠密光流场在水平和垂直方向进行修正，求出时空立方体的光流主方向并将其角度量化，从而得到微表情的面部动力谱特征（Facial dynamics map，FDM），但是这种算法易受光照等因素影响。

以上研究工作大多是采用单一的特征进行微表情识别，不能全面、细致地表征微表情运动，导致识别效果不理想，而目前比较流行的基于深度学习的方法则需要大量的样本，训练复杂。因此，如何从特征结合方面提高平均识别率具有重要的研究意义和探讨价值。

FDM 算法在计算光流时需要严格满足两个基本假设，而且光照带来的亮度变化会影响光流计算，影响对运动信息的提取，并且FDM 方法对时空立方体主方向的描述只量化了10 个方向，对运动的描述不够细致。针对这些问题，本文结合STLBP-IP 从3 个平面提取特征以弥补FDM 对运动信息描述的不足，对人脸面部信息进行补充描述，将FDM 特征与STLBP-IP 特征结合以提高微表情的识别效果。

1 FDM 特征提取与表示

FDM 算法以光流为基础，采用一维直方图统计实现光流场的精细化对齐，并利用迭代算法寻找时空立方体的主方向，从而构造面部动力谱特征。

计算相邻针间的稠密光流场如下：

其中，Ut、Vt表示第t帧图像、第t+1 帧图像水平和垂直方向的光流场，Δu和Δv是水平和垂直方向的位移修正，I表示元素为1 的矩阵，Φ 用来统计矩阵中0 元素的数量。由于假设微表情中面部区域大部分保持静止，所以要寻找水平和垂直方向上的修正量，使修正后的光流场中大多数元素为0，然后减去两帧之间共同平移造成的误差，处理后实现面部的精细化对齐。

将光流场分割成小的时空立方体，使用迭代算法寻找时空立方体的主方向。用ωi，j表示立方体在（i，j）处的光流运动向量，通过式（3）确定主方向：

式（3）的目的是要寻找一个主方向ξ来描述时空立方体的运动方向。当ξ固定时，ξ与ωi，j方向越接近内积就越大。但是通过式（3）迭代的方式寻找主方向计算量太大，因此涂亮等［13］提出用PCA 算法替代FDM 中的迭代算法来抽取时空立方体主方向。通过计算PCA 的第一主成分即最大特征值对应的特征向量，就可确定时空立方体的主方向，通过这种方式可以快速寻找时空立方体的主方向，简化计算量，节约时间。

2 STLBP_IP 特征提取与表示

Mateos 等［14-15］提出积分投影方式以增加形状属性和面部图像之间的判别性，及对白噪声的鲁棒性。通过对面部图像的像素进行横向和纵向累加，得到与宽度和高度相同维度的特征向量［16］。

将一段微表情视频序列所有帧减去某一中性表情的图像作为新的人脸图片。对每一帧新的人脸图片进行水平和垂直方向的累加求和得到图像的积分投影，借用LBP_TOP 的性质从3 个平面提取微表情的时空信息。

假设St为图像在时间t的积分投影，将中心点和邻域点的灰度值进行比较，然后通过式（4）进行1DLBP 编码：

式（4）中，W为线性掩模（类似LBP 的半径），δ是狄拉克增量，St（zc）是中心像素值，zp是zc的相邻像素。通过计算差分图像的1DLBP 得到XY 方向特征fXY。XT 和YT 方向的处理过程相同，分别计算差分图像的水平和垂直积分投影并进行归一化，然后计算LBP 编码，得到特征fXT和fYT，最后结合fXY、fXT和fYT就可得到微表情图像特征。

3 特征结合与微表情识别实验

特征结合过程如图1 所示，结合的基本方式是直方图级联。

Fig.1 Feature combination and micro-expression recognition process图1 特征结合与微表情识别过程

实验在中国科学院心理研究所2014 年建立的CASMEII［17］和芬兰奥卢大学2011 年建立的SMIC［18］两个微表情数据集上进行。其中，CASMEII 微表情数据集由26 位受试者的255 个微表情图像序列组成，分为高兴、厌恶、压抑、惊讶和其他5 类表情；SMIC 微表情数据集由6 位受试者的152 段微表情的图像序列组成，包含消极和积极表情两类。编程环境为Matlab2016b 和Python3.7。

为了更好地验证本文方法性能，实验分为不同特征结合的两组。第一组实验是对微表情数据集CASMEII 和SMIC 进行预处理，分别采用STLBP_IP 算法、FDM 算法和PCA 改进的FDM 算法提取微表情特征，然后将STLBP_IP提取的特征分别与FDM 和PCA 改进的FDM 提取的特征进行结合。利用STLBP-IP 提取微表情图像特征时，分别从3个平面计算面部特征，按照XY、XT、YT 的顺序级联直方图得到微表情图像的STLBP-IP 特征。其中，STLBP-IP 涉及的主要参数设置如下：掩模W=9，LBP 的半径R=3，邻域点数P=8。采用STLBP-IP 级联直方图方式分别将两种特征相结合。对结合后的特征采用SVM 作为分类器进行分类识别，采用libsvm［19］自带的n-fold 交叉检验计算识别率。

由表1 可以看出，相比于STLBP-IP 和改进前后的FDM算法，特征结合后，微表情的识别率都有提高，表明两种特征具有很好的互补性，不仅可以捕捉表情的细微运动，还可以很好地描述面部表情细节信息。

Table 1 Micro-expression recognition rate under different data sets表1 不同数据集下微表情识别率（%）

第二组实验是将本文方法与其他传统特征方法进行比较，实验结果如表2 所示。LBP 和局部相位量化（Local Phase Quantization，LPQ）特征结合的方法［20］由于只考虑了纹理特征，所以识别效果较差；而光流（Optical Flow，OF）与LBP-TOP 特征结合的方法［21］虽然考虑了运动特征和纹理特征，但本文中的FDM 方法关注了人脸对齐对微表情识别的影响，加上STLBP-IP 方法考虑了人脸的形状属性，所以本文方法性能更好。

Table 2 Experimental comparison of different feature combination methods表2 不同特征结合方法的实验对比（%）

将本文方法与深度学习方法相比，如STSTNet（Shallow Triple Stream Three-dimensional CNN）和光流法［22］相结合，从3 个方面提取微表情特征，卷积神经网络（Convolutionnal Neural Network，CNN）与长短时记忆网络（Long Short-Term Memory，LSTM）结合［23-24］提取微表情的时域和空域特征，还有苏育挺等［25］提出的多运动特征结合法。通过提取微表情序列3 种运动特征，在CNN+LSTN 框架下进行微表情识别都离不开样本训练，计算量大，而且STSTNet 模型性能受光流法影响。综合比较后发现，本文方法比较简便，能很好地表征微表情。

4 结语

本文从微表情特征提取环节入手，针对现有方法采用的单一特征不能很好描述微表情信息问题，探讨了采用FDM 特征和STLBP-IP 特征相结合的方法进行微表情识别。在相同的实验条件下，两种特征结合比单一特征的识别率高。本文方法虽然可以很好地表达微表情运动，增强人脸细节信息，但是采用这种方式表达微表情特征过于复杂，不利于实际环境中应用。在后续微表情研究中应考虑简化微表情特征表达形式，提高识别率，实现实时、大规模的微表情识别。