基于表情及姿态融合的情绪识别

2021-07-15 09:45文虹茜卿粼波晋儒龙
关键词:识别率姿态情绪

文虹茜, 卿粼波, 晋儒龙, 王 露

(四川大学电子信息学院, 成都 610065)

1 引 言

情绪的感知和表达在心理学和神经科学领域已经得到了广泛的研究,随着人工智能的不断发展,利用计算机进行情绪的分析也获得了人们的关注.能够感知和分析人类情绪和意图的计算机系统将在娱乐、医疗、教育和公共安全等领域发挥作用.例如,提高机器人情绪识别能力将丰富人机交互应用;情绪感知医疗辅助系统可以帮助评估焦虑和抑郁等精神障碍;在机场、地铁和公园等人流量大的场所进行情绪监测可以帮助识别潜在威胁,及时处理突发事件.

面部表情可以最直观地反映出人们的情绪状态和心理活动,是表达情绪的重要方式.目前基于视觉感知的人类情感的研究主要集中在面部.心理学家Ekman[1]研究不同文化之间的面部行为模式,定义了6类基本情绪(快乐、悲伤、厌恶、惊讶、愤怒和恐惧).传统的表情识别研究大多采用手工特征或浅层学习,随着应用环境转向具有挑战性的真实场景,神经网络越来越多地被用于特征提取,并取得了超前的识别精度.在表情识别中应用广泛的深度学习技术有卷积神经网络(Convolutional Neural Networks, CNN)、深度置信网络(Deep Belief Network, DBN)、递归神经网络(Recursive Neural Network, RNN)等[2].然而,有心理研究表明,面部表情本身可能包含误导性信息,特别是应用于互动和社交场景时.而通过观察身体姿势、动作、语调等不同的表现形式能提高对情绪状态的判断能力[3-4].此外,在真实环境中,距离、姿势、光照等因素会对面部情绪的识别产生很大影响,人脸分辨率不高,面部特征模糊,会降低面部表情识别率.

近年来,越来越多的情感神经科学研究表明,身体姿态在情感表达中与面部一样具有诊断性[5],姿态表现出来的倾斜方向、身体开放度和手臂、肩膀、头部位置等信息对情感状态的识别是有贡献的.通过连接到身体的传感设备可以感知人体位置和运动,获得的特征通常以骨骼的形式来进行情绪识别[6-7].然而,传感技术的使用存在诸多限制和差异,基于视觉的姿态情绪识别技术在图像、视频数据上的使用更加广泛.目前关于身体情绪表达的研究较少,大多使用人工提取特征的方法.但是在当今数据量越发巨大、数据越发复杂的情况下,手工设计和提取特征将耗费巨大的计算代价.

以前的人工特征或深度学习情绪识别工作使用单一的模式,如面部表情[8-12]、言语[13]、步态[6]以及生理信号[14]等.多模态情绪识别受到心理学研究的启发,情感的表达方式不是孤立存在的,这也有助于提高野外情绪识别的准确性[3].其中,面部表情和身体姿态的组合视觉渠道被认为是判断人类行为线索的重要渠道[15].有关融合表情及姿态的情绪识别文献很少,大多使用传统方法提取融合来自面部表情、身体姿态或者手势的线索.Gunes等[15]基于轮廓和肤色跟踪头部和手部并提取了两百多个特征用于情绪识别,特征提取操作复杂,只使用了来自4个受试者的27个视频,数据量非常有限.Chen等[16]使用运动历史图像(Motion History Image, MHI)方向梯度直方图(Histogram of Oriented Gradient, HOG)和图像方向梯度直方图的方法表示人脸和人体手势的局部运动信息和外观信息,提取的特征向量更加庞大.王晓华等[17]提出时空局部三值模式矩(TSLTPM),融合3 维梯度方向直方图(3DHOG)特征描述纹理变化.姜明星等[18]使用时空局部三值方向角模式进行特征提取.Mittal等[3]使用了静态的人脸和步态信息进行情绪识别,然而运动对于识别身体表达的情绪是十分重要的[5].神经网络的快速发展[19]使情感识别与分析领域也取得很大进步[20-21].然而由于缺乏大型的表情及姿态情绪数据集,表情及姿态融合情绪识别研究的潜力还待发掘.

本文针对公共空间个体人脸分辨率较低、面部特征模糊的问题,提出了融合表情及姿态的情绪识别方法.首先,对视频数据进行预处理获得表情通道和姿态通道的输入流;使用深度学习的方法实现表情和姿态情绪特征构建过程的自动化,减少计算复杂度;最后,在决策层进行融合和分类.通过有效融合表情和姿态在情绪识别中独特的优势,实现了公共空间个体情绪状态的有效识别.

2 融合表情及姿态的情绪识别

目前融合表情及姿态的情绪识别大多研究纯色背景实验室环境中采集的数据,人工构建和提取特征,多种特征提取技术的局限性在不断积累,降低了模型的泛化能力.而且使用手工特征将导致大量的计算开销,处理无约束情形下的大量数据会是巨大挑战.本文使用基于视觉的表情和姿态来扩展情绪识别的通道,提出基于深度学习的双通道情绪识别模型(如图1).模型由数据预处理、特征提取和模式融合3个部分组成.为提供面部通道和姿态通道的输入流,首先对原始数据进行预处理,包括面部检测、面部和身体视频序列尺寸处理.针对表情进行空间流静态图像特征学习;对于姿态情绪,外观特征和运动特征都有重要作用,需要提取视频序列中有效的时空信息.CNN网络具有很强的图像特征学习能力,不依赖人工经验;3DCNN能同时学习时空特征,因此,本文采用两个网络分别对表情图像信息及姿态外观和运动信息进行建模.最后,将两通道的输出加权融合并得到最终的分类结果.

图1 模型结构Fig.1 Architecture of model

2.1 数据预处理

数据预处理部分包括面部检测、面部和身体视频序列尺寸处理.为了提供面部通道的输入流,本文使用多任务卷积神经网络MTCNN[22]进行面部检测.将所有帧通过MTCNN得到面部图像,并调整为48×48像素.双通道中的身体通道输入为视频序列,所有视频帧尺寸统一调整为510×786像素.

2.2 特征提取

2.2.1 面部通道 为获得面部表情信息,使用深度可分离卷积神经网络Mini-Xception[23]进行特征提取.Mini-Xception的网络模型来源于Xception架构,深度可分离卷积能更加有效地利用模型参数,残差连接模块能加快收敛过程,结构如图2所示.通过Mini-Xception能自动提取面部输入的有效特征,为与身体通道的融合做准备.训练阶段学习率设置为0.1,批量大小32,使用早停法防止过拟合.

图2 Mini-Xception结构Fig.2 Architecture of Mini-Xception

2.2.2 姿态通道 为了获得姿态情绪信息,使用C3D网络[24]进行特征提取.研究表明,外观和运动信息都对从身体表达中感知情绪起重要作用.同时,对于视频序列,有效的时空信息也很关键.C3D能简单高效地学习时空特征,关注外观和运动信息,适合用于身体姿态情绪特征的提取.C3D网络结构示意图如图3,训练阶段初始学习率为0.001,批量大小10.

图3 C3D结构Fig.3 Architecture of C3D

2.3 通道融合

面部通道和身体通道获得的特征信息各有优势,将两个通道融合进行分类.采用加权和的决策层融合:使用神经网络学习特征后,在全连接层后获得类别的后验概率,将面部和身体两个通道输出的后验概率求加权和.因为面部表情是主要模式,因此面部通道和身体通道的权重分别设置为0.7和0.3.

3 公共空间个体情绪数据集构建

目前利用表情及姿态进行情绪识别的研究较少,可以直接用于训练的数据集也十分匮乏.Gunes等人[15]在实验室中收集了包含面部和上身的情绪数据集FABO,此后相关研究大多基于此数据集开展.然而FABO标注不全,23个受试者中只有16个具有标注;样本数量很少且情感类别不均匀,利用深度学习方法训练时容易出现过拟合现象,因此无法利用FABO开展本文研究.Bänziger等[25]创建了日内瓦多模态情感刻画(GEMEP)数据集,数据集包含了来自实验室的10个受试者的面部和身体的视频及语音.然而GEMEP并未公开发布,无法用于本文个体情绪的研究.

通过定点拍摄、网上搜集和真人表演3种方式建立公共空间个体情绪数据集SCU-FABE.首先,利用KCF跟踪算法[26]对视频中的行人进行跟踪和保存,KCF算法具有准确度高、运算速度快的双重优势,适用于少量行人目标的跟踪.然后,剔除不合格的个体序列再进行情绪标注.情感计算领域使用比较广泛的模型有离散型和连续型.连续型并不适用于城市公共空间中个体的情绪划分,因为在公共空间中人流密度大,对视频中的每一个人进行精细化的情绪分析耗时耗力.相对于判断情感程度,识别个体情绪的正负性更为首要.Russell[27]提出的Arousal-Valence模型中价效(Valence)表征了情感的正负性.SCU-FABE主要从价效出发,将情绪划分为消极、中性和积极三类,邀请10名志愿者(5名男性和5名女性)进行手动标注.实验中总共使用公共空间个体情绪数据序列993个,每个序列的长度为20帧到100帧不等.其中Negative类包含324个序列、Neutral类包含315个序列、Positive类包含354个序列,按照接近1∶1的比例划分训练集和测试集.图4为表达序列示例.

图4 数据集表达序列示例 (a)“消极”序列;(b)“积极”序列;(c)“中性”序列Fig.4 Samples of dataset (a) negative; (b) positive; (c) neutral

4 实验结果与分析

4.1 实验设置

本文在基于Python的深度学习框架TensorFlow环境下进行实验.实验环境为:Ubuntu 18.04, NVIDIA Tesla K80 GPU.为评估本文提出的融合表情及姿态的情绪识别性能,进行如下实验:(1) 数据增强实验,探究针对姿态数据情绪识别的数据增强方法;(2) 面部情绪识别实验和姿态情绪识别实验,作为单模式情绪识别对照组,与融合的情绪识别结果进行对比分析;(3) 融合情绪识别实验,验证融合表情及姿态的情绪识别方法的有效性.

4.2 数据增强实验

神经网络需要大量的数据训练才能获得更好的性能.对于面部数据,已验证过可靠性和有效性的数据增强方法有很多,最常用的方法包括旋转、平移、翻转、随机裁剪和随机加入噪声等等,可以很好地扩充数据集,增强模型的泛化能力.然而对于姿态数据,使用常见的扩充数据的操作是否会破坏身体姿态序列在情绪识别方面潜在的重要特征是一个需要探究的问题.

为了更有效地扩充数据、完成情绪识别目标,针对身体姿态数据分别使用原始数据、颜色处理数据、旋转处理数据以及镜像处理数据进行扩充.方案基于以下假设:未处理的原始数据不会丢失情绪识别相关线索.在唯一变量为输入数据的情况下训练和测试,以原始数据的测试结果为阈值,已处理数据的测试结果低于此阈值则判断为有破坏相关线索的可能.数据处理对比图如图5所示.

图5 数据处理对比图 (a)原始图像;(b)颜色处理;(c)旋转处理;(d)镜像处理Fig.5 Samples of data processing (a) Original image; (b) Color processing; (c) Rotation processing; (d) Mirror image

使用测试集进行测试,因为样本数量比较均衡,以10次测试结果的平均识别率为评价指标.实验结果表明,有关外观和运动的信息都对情绪感知有作用,颜色处理和旋转处理加强了潜在特征,识别率更高;镜像处理破坏了潜在特征,识别率更低.最终训练使用10%自动对比度和逆时针旋转5°的方法进行处理,数据量扩充为原来的3倍.分别使用原始数据和扩充后的数据进行训练,测试结果对比如表1.实验结果表明,使用颜色处理和旋转处理的方法进行数据增强效果比较明显,识别率提高了5.927%.

表1 数据增强实验结果

4.3 单模式情绪识别实验

为了验证单独的面部和姿态对情绪识别的作用以及作为融合模式的双通道产生的贡献,进行单模式情绪识别对照实验.使用经过预处理和数据增强的训练集进行训练,面部序列和姿态序列是相互对应的.使用测试集进行10次测试,采用平均识别率作为评价指标.

从表2实验结果可知,面部对于情绪识别有重要意义,平均识别率为94.698%,从表3混淆矩阵可知,通过面部感知“消极”情绪的效果最差,容易误判为“中性”情绪.身体姿态在情绪表达中具有诊断性,能自发揭示一些情绪线索,平均识别率为88.024%.从表4混淆矩阵可知,通过身体姿态感知“积极”情绪的效果最差.

表2 情绪识别实验结果

表3 面部情绪识别混淆矩阵

表4 姿态情绪识别混淆矩阵

4.4 融合情绪识别实验

如表5所示,融合情绪识别实验验证了通过表情和姿态进行情绪识别的有效性,平均识别率达到95.766%,高于单独的面部情绪识别和姿态情绪识别.通过对比单模式和融合情绪识别混淆矩阵可以更加直观的看出融合模式的优势:当两个通道融合时,面部感知“消极”情绪的局限和身体感知“积极”情绪的局限得到互补改进,“中性”情绪的识别率提高,从而获得整体判决正确率的提高.说明面部表情和身体姿态都对情绪识别有所贡献,并且表达的信息可有效地互补,结合面部表情和身体姿态能提高识别情绪状态的能力和可靠性.

表5 融合情绪识别混淆矩阵

5 结 论

本文设计了一种融合表情及姿态的情绪识别方法,使用两个通道提取面部和身体与情绪有关的信息,在决策层进行融合和分类.实验结果表明,对于大量真实场景视频数据,本文方法具有良好的泛化能力和适用性;表情和姿态表达的情感信息具有较好的互补作用,结合使用能提高情绪识别可靠性.对于身体姿态情绪识别,使用深度学习的方法自动提取特征取得了很好的效果,表明身体姿态情绪识别从使用几何表示的简单静态或动态特征转向深度学习表征具有很大的潜力.

本文的研究针对公共空间个体情绪识别,而公共空间中多人群组普遍存在,表达的情绪之间存在相关性,对于人群整体情绪的计算也十分有意义.研究公共空间中多尺度情绪识别是下一步所要做的工作.

猜你喜欢
识别率姿态情绪
攀爬的姿态
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
全新一代宋的新姿态
小情绪
小情绪
小情绪
档案数字化过程中OCR技术的应用分析
科技文档中数学表达式的结构分析与识别
人工智能现状和发展
另一种姿态