疼痛自动识别综述①

2020-03-23 06:03支瑞聪周才霞
计算机系统应用 2020年2期
关键词:模态婴儿数据库

支瑞聪, 周才霞

(北京科技大学 计算机与通信工程学院, 北京 100083)

国际疼痛研究协会将“疼痛”定义为“与实际或潜在的组织损伤相关的令人不快的感觉和情绪体验, 或对此类损伤的描述”.疼痛在医学上被当作一个重要指标[1], 正确地判断疼痛能够让治疗更加有效, 但目前没有直接高效检测疼痛的简单方法.疼痛检测的黄金准则是病人的“自我报告”[2-4], 然而这不是对所有病人都适用的一种方法, 例如对于婴儿、具有语言障碍的人[5]来说, 这种方法就无法实施.对于此类患者, 目前由其代理人, 如专业的医疗人士、婴儿的父母等, 来评估疼痛并进行治疗[6].这种方法带来的另一个问题是评估的不连续性和不一致性, 而且需要代理人具有非常专业的医疗知识, 这对劳动力的需求非常高[7].为了克服上述问题, 很多研究人员都开展了疼痛自动识别方法的探索中, 特别是UNBC-McMaster (McMaster University and University of Northern British Columbia)肩痛数据库[8]和BioVid 热痛数据库[9]的公布, 推动了这一领域的发展.

疼痛发生时会在脸上显露出来以表达经历痛苦的感觉, 脸上显露的疼痛表情还可以提供有关疼痛强度的信息.尽管自我报告的疼痛和面部疼痛表达之间的相关性存在争议[10], 但许多文献发现这两者之间存在显著的关系[11,12].然而从面部图像或视频自动评估疼痛水平是相当具有挑战性的.这不仅是因为在疼痛与非疼痛面部框架之间缺乏足够的视觉差异来发现与疼痛相关的特征, 也因为存在外部因素导致疼痛表达的复杂性, 如“痛着微笑”现象、性别差异(男性与女性的体验方式)等对疼痛的影响[13-15].因此除了利用面部图像的空间[16]和时间信息[17]外, 面部质量[18-23]和面部捕获模态[24]、头部姿势[25]、身体运动[26-28]、语音[29-31]和生理指标[27,32]等许多其他因素也在疼痛自动评估中起了重要作用[33].

本文内容安排如下: 第1 节介绍了疼痛特征的提取方法, 并据此将现有的代表性研究分为基于行为的、基于语音的、基于生理的、基于多模态的, 这是本文的主体章节; 第2 节中介绍了与疼痛研究相关常见的数据库, 以及该数据库的获取方式、规模; 第3 节介绍了疼痛识别任务中使用到的常见分类器; 第4 节说明了疼痛自动识别领域发展的挑战及方向; 最后在第5 节中进行总结.

1 特征提取

一个疼痛自动识别模型的设计主要分为以下过程(图1): 首先对选取的原始数据进行裁剪、旋转等预处理以减少干扰信息, 随后根据实验方案对预处理后数据提取特征, 然后将提取出的特征输入到预先选择或设计好的分类器中进行训练学习, 对分类器的输出结果进行各项指数计算来判断这个疼痛自动识别模型的好坏.本文主要根据所提取的特征将近几年该领域的研究成果进行分类汇总.我们通过查看医疗专业人员对成人、婴儿进行疼痛评估的量表(如NIPS、COMFORT量表等[34,35]), 将特征分成基于行为的、基于语音的、基于生理的以及多模态的来进行介绍(图2).

图1 疼痛自动识别模型的设计

1.1 基于行为的特征

与疼痛相关的评判标准中, 行为的变化是肉眼可见的明显变化之一, 且记录过程简单.因此, 有大量文献基于这方面进行探讨.我们将行为方面的特征分为基于面部表情的和基于身体运动的来进行介绍.

1.1.1 基于面部表情的特征

面部表情是疼痛的最常见的指标之一[36], 所有目前公开发布的疼痛相关数据库面部表情都是必不可少的一部分.疼痛的面部表情被定义为与疼痛刺激相关的面部肌肉的运动和扭曲, 面部运动可以由活动单元(AU)描述[37].与成人疼痛相关的AU[38]包括眉毛下垂(AU4), 脸颊抬高(AU6), 眼睑收紧(AU7), 鼻子皱纹(AU9), 上唇抬高(AU10), 斜唇抬起(AU12), 水平唇拉伸(AU20), 嘴唇分离(AU25), 下颌下垂(AU26), 嘴拉伸(AU27)和闭眼(AU43).与婴儿疼痛相关的AU[39]包括鼻唇沟的加深, 眉毛下垂, 眼睛变窄, 垂直和水平的嘴唇伸展, 唇部噘起, 唇部开口, 舌头突出, 绷紧的舌头和下巴颤动.

图2 疼痛自动识别方法框架

根据特征提取的对象的差异, 将基于面部表情识别的方法分为基于静态图像的、基于序列的和基于面部动作编码系统(Facial Action Coding System,FACS)的.基于静态图像的特征提取可能会丢失时间上的一些与疼痛相关的信息, 造成识别率低下; 基于序列的特征同时获得空间信息和时间信息, 但因此增加了运算复杂度; 基于静态图像和基于序列的都是对全脸进行分析的, 而基于FACS 的是对人脸肌肉区域进行分析, 检测是否发生与疼痛相关的活动单元.

1.1.1.1 基于静态图像的特征

对静态图像进行分析时, 确定人脸位置后, 由于我们无法使用时间和空间上的信息, 因此我们利用图像标志点间的关系、像素点间的关系等来构造特征向量进行疼痛识别, 其中基于标志点之间关系的即为几何特征; 基于像素点间关系的即为外观特征.基于几何特征的方法是早期的人脸识别算法[40-42], 但由于疼痛表达的复杂性, 在静态图像上利用几何特征来进行疼痛识别十分困难, 相关文献几乎没有.但是加上时间信息或者纹理特征的几何特征识别性比较理想, 会在后面进行介绍.本节将基于外观的特征分为基于像素点间相对位置和基于像素点间数学变化来进行介绍.

1.1.1.1.1 基于像素点间相对位置的特征

记录像素点间相对位置的常用特征是局部二值模式(Local Binary Pattern, LBP), 它是一种用来描述图像局部纹理特征的算子, 计算简单, 所以LBP 以及LBP 的变体被广泛应用于人脸特征提取[43-45].原始的LBP 算子定义为在 3×3的窗口内, 以窗口中心像素为阈值, 将相邻的8 个像素的灰度值与其进行比较, 若周围像素值大于中心像素值, 则该像素点的位置被标记为1, 否则为0.这样, 3×3邻域内的8 个点经比较可产生8 位二进制数(通常转换为十进制数即LBP 码, 共256 种), 即得到该窗口中心像素点的LBP 值, 并用这个值来反映该区域的纹理信息.这种LBP 算子只覆盖了一个固定范围内的小区域, 可以通过将 3×3邻域换为圆形区域来改进; 原始LBP 算子具有灰度不变性不具有旋转不变形, 通过不断旋转圆形邻域得到一系列初始定义的LBP 值, 取其最小值作为该邻域的LBP 值来保证旋转不变性.

Aung 等[29]为了检测Emopain 数据库疼痛存在与否, 采用LBP 特征和留一法交叉验证来训练SVM, 识别精度相比UNBC 肩痛数据库较低, 这可以通过数据集性质之间的差异来解释: Emopain 数据库由长时间遭受慢性疼痛的参与者组成, 他们的许多表达被抑制,这进一步使识别任务复杂化, 也体现了自然疼痛表情识别的难度很大.Nanni 等[46]提出使用LBP 纹理描述符及其变体(局部三元模式Local Ternary Pattern、细长二元模式Elongated Binary Pattern 和细长三元模式Elongated Ternary Pattern)检测婴儿疼痛表达的方法.在预处理阶段, 对图像进行调整大小、对齐、裁剪以获得精确的面部区域, 并将其划分为 25 ×25维的块或单元格.为了选择最有代表的单元格, 将SFFS 特征选择算法应用于训练集, 结果表明将整个图像分成单元格可以改善性能.Li 等[47]使用约束局部模型(CLM)进行婴儿不适检测, 将面部形状与检测到的面部区域相对应.之后, 通过在相似性标准化外观(SAPP)上使用细长局部二值模式(ELBP)来提取表达特征.

由于数据收集和标记的困难, 在实际应用中特定人员数据非常稀少.从稀疏数据中学习可能会严重过度拟合, 因此Chen 等[48]提出通过迁移学习来学习特定于人的面部表情模型.通过传递来自其他人的信息知识, 它允许我们仅用少量某个人的特定数据来学习针对新对象的准确人的特定模型.实验在UNBC 肩痛数据库上测试, 圆形区域的LBP 算子用作实验中的面部图像特征, 实验结果相比较Lucey 等[8]稍有提升, 而且训练时间显著缩短.

1.1.1.1.2 基于像素点数学变化的特征

像素点数学变化中最常见的是利用主动外观模型(Active Appearance Model, AAM)和离散余弦变换(Discrete Cosine Transform, DCT).AAM 是广泛应用于模式识别领域的一种特征点提取方法[8,49].基于AAM 的人脸特征定位方法在建立人脸模型过程中, 不但考虑局部特征信息, 而且综合考虑到全局形状和纹理信息, 通过对人脸形状特征和纹理特征进行统计分析, 建立人脸混合模型, 即为最终对应的AAM 模型[50].DCT 变换是与傅里叶变换相关的一种变换, 它与离散傅里叶变换类似, 但是只使用实数.

Lucey 等[8]利用AAM 形状和外观来跟踪患者的面部, 使用跟踪到的信息从面部推导出相似的归一化形状(SPTS)和规范的归一化外观(CAPP)作为特征.Rupenga 等[51]用AAM 提取出特征, 并在UNBC 数据库上评估ELM(超限学习机)和SVM 两种分类器在疼痛事件检测中的有效性.Kaltwang 等[52]提出基于面部表情对疼痛进行持续疼痛估计的模型中将离散余弦变换(DCT)应用于对齐的面部图像而获得外观特征.Agrawal 等[53]首先提取面部区域, 再用Gabor 过滤器提取特征.Fotiadou 等[54]讨论了使用AAM 检测急性疼痛过程中婴儿的疼痛表现, 从跟踪的面部提取SPTS、SAPP(相似性标准化外观)和CAPP.8 名婴儿的15 个视频被用于构建自动化不适检测系统, 结果表明所提出的系统可以自动检测不适(AUC=98%).

基于AAM 模型的疼痛检测算法的限制是面部标注问题, 当已知面部的初始形状偏差太大、外观模型估计失败时, AAM 搜索不到一个很好的匹配来标注面部[55], AAM 的另一个限制是其训练阶段计算复杂性较高.

此外, 进行逐帧标记的成本非常大, 因此Ashraf 等[49]研究序列级分类情况.提供了一种利用AAM 模型非刚性配准的方法来分离外观和形状分量, 利用AAM模型提取出SPTS、CAPP 和SAPP.在UNBC 肩痛数据库上利用SVM 分类器进行分类, 实验结果为对于帧级疼痛检测, 正确率为82%, 误报率为30%; 序列水平标记的相应比率分别为77%和44%.结果表明, 学习帧级标签最适合于帧级检测疼痛.然而, 即使在他们未被直接训练的任务上进行评估, 序列水平训练的分类也比几率好得多.这个结果推动自动疼痛识别的研究人员在未来标记数据集时应该如何使用资源问题的探索.继续在帧级标记确保学习的数据集的大小适中或采用混合标记策略在帧中标记一些部分, 在序列级别标记某些部分, 以便在更大的数据集中学习.

基于帧的疼痛自动识别方法汇总见表1.

1.1.1.2 基于序列的特征

基于静态图像的特征丢失了时间信息, 因此我们将静态图像加上时间信息组合成序列, 并从其中提取特征, 从而达到更好的识别效果.在序列上提取特征的方法主要包括光流法、多示例学习、时空局部描述符以及深度学习等.

1.1.1.2.1 光流法提取的特征

光流是一种众所周知的运动估计方法, 其通过直接估计连续视频帧上的像素速度来工作.它依据亮度守恒原理, 并提供密集的像素到像素的对应关系.将光流法用于人脸提取相关特征的实验已有很多, Zhao 等在[56]中应用了光流法和累积光流法取得很好的实验结果, 表明光流法适用于该领域.

Zamzmi 等[57]提出光流法来检测视频中婴儿的疼痛表现.在预处理阶段, 在每个帧中检测婴儿的面部并提取68 个面部点.然后将这些点用于对齐面部, 将其裁剪, 并将其分成4 个区域.为了提取与疼痛相关的特征, 在连续帧之间计算光学流动矢量并用于估计光学应变量值, 以测量面部表情发生期间的面部形变.然后,将峰值检测器应用于应变曲线, 以找到对应于面部表情的最大应变量值.

与疼痛相关的数据库在采集过程中保持了亮度恒定, 保证照明条件良好且不变, 因此数据比较适合采用光流法处理.但是在现实情况下光流法的亮度恒定不变和小运动假设不容易满足, 时效性与精确性难以兼得.在对于运动场景和目标无有效认知、运动模型难以预测、目标特征无法确定的情况下, 若使用光流法构建稠密光流场, 并且使用金字塔算法补充对于大幅度运动的检测精度, 可以有效提高检测精度.但是, 这样的算法复杂度很高, 计算量巨大, 时效性较差.

1.1.1.2.2 多示例学习提取的特征

多示例学习(MIL)[58]可以被描述为: 假设训练数据集中的每个数据是一个包(bag), 每个包都是一个示例(instance)的集合, 每个包都有一个训练标记, 如果包中存在一个以上正标记的示例, 则包被标为正标记; 而对于一个负标记的包, 其中所有的示例均为负标记.通过定义可以看出, 与监督学习相比, 多示例学习数据集中的样本示例的标记并不都是已知的, 而监督学习的训练样本集中, 每个示例都被标记; 与非监督学习相比,多示例学习仅仅只有包的标记是已知的, 而非监督学习样本所有示例均没有标记.多示例学习是一种用于解决不同的弱监督问题的流行的建模框架.

表1 基于帧的疼痛自动识别方法汇总

Sikka 等[59]提出一种多段结合的多示例学习方法,每个序列表示为包含多个段的包, 这些片段通过序列的多个聚类或运行多尺度时间扫描窗口生成, 并且使用词袋(BoW)来表示.这种方法数据的表示不是作为单独的帧而是作为段来结合时间动态, 而且做到仅使用序列级正确标签来检测和定位疼痛的帧, 在试验过程中提取了多个段, 这适用于信号在视频中具有不确定的时间位置和持续时间的情况.Ruiz 等[60]提出了新的多实例动态序数随机场(MI-DORF)模型, 这个模型将袋内的实例标签视为潜在的序数状态.MIL 假设通过将与袋和实例标签相关的高阶基数潜力结合到能量函数中来建模, 这种方法充分考虑目标数据中的时间和序数两种类型的结构.

UNBC、EmoPain 数据库由人工标注时, 因数据量巨大, 难免会出现一些错误, 是典型的弱监督学习问题,这类问题适合应用多示例学习来建模解决.多示例学习中存在的问题就是示例标签的不稳定性, 也就是说,如果训练集出现了轻微的变动(例如数量略微增加和减少), 那么输出的示例标签就会出现不稳定的情况.

1.1.1.2.3 时空描述符特征

仅通过面部表情的静态图像来准确判断疼痛强度十分困难, 可以利用静态图像的上下文信息[61], 也就是在静态图像的时间序列、空间序列上提取相关特征.

Khan 等[62]使用Viola-Jones 算法[63]检测视频中的人脸, 将检测到的面部分成两个相等的部分, 上面部分包括鼻子上部、眼睛和皱纹区域, 下部包括嘴部区域和鼻子下部, 从上下部分分别提取PHOG(金字塔直方图)和PLBP(金字塔局部二进制模式)特征, 并将它们连接起来, 形成最终的特征向量, PLBP 是LBP 描述符的基于金字塔的空间表示.

Yang 等[64]提出的方法包括5 个主要步骤.首先根据眼睛坐标和其他面部标注检测、分割和对齐人脸图像.然后, 分别提取来自视频帧的空间纹理特征和来自视频序列的时空特征, 即LBP, 局部相位量化(LPQ)和二值化统计图像特征(BSIF), 它们都是使用3 个正交平面(TOP)从视频中提取的.使用早期融合将得到的特征向量组合, 作为SVM 的输入, 从而判别疼痛的表达是否存在于序列中.Werner 等[65]提出了一个新的特征集来描述面部动作及其动态, 将其称为面部活动描述符.这些描述符通过从时间序列及其第一和第二导数中提取特征, 将特征信号(帧级特征的时间序列)浓缩成信号描述符.新提出来的特征集的维度较低, 而且运用了时间上的信息.Bourou 等[66]基于Openface 跟踪面部和检测标注点并估计头部姿势, 从感兴趣的区域提取若干距离及灰度、颜色强度值.随后, 在整个视频持续时间内, 根据每个特征的时间序列计算统计指标,如均值、中位数、模式、最小值、最大值、标准差、方差、平均绝对偏差、偏度、峰度、熵、四分位数范围和相关系数.鼻子和眉毛皱纹和鼻唇沟用于灰度强度值统计, 以估计疼痛表达.使用面颊来提取4 个颜色通道中的值, 以估计面部变红.通过套索回归确定最具信息性的特征.特征选择首次表明, 在YCbCr 颜色空间中编码的面部颜色确实是用于疼痛表达的高信息量.与Werner 等[65]相比, 该研究中鼻唇沟相关特征的相对重要性更高具有对称性.Chen 等[17]提出一种将帧级特征P-HOG、段级特征HOG-TOP, 以及最大池化生成的序列级全局P-HOG 和HOG-TOP 结合.Zhi 等[67]提出了一种动态疼痛面部表情表示和融合方案, 用于自动婴儿疼痛评估, 结合时间外观面部特征和时间几何面部特征, 构建不同的自动疼痛评估模型以更好地理解影响婴儿疼痛反应性的各种因素.

使用时空描述符表示的特征维度较低, 但是特征集的特征数目较多, 需要计算的特征较多, 分类器需要学习的特征也比较多.应用时空描述符方法的关键在于如何找到更具有特异性的特征, 需要在实验中不断总结、尝试.

1.1.1.2.4 基于深度学习提取的特征

深度学习是对人脑处理信息时所采用方法的抽象总结和模拟.未经处理的数据(图像, 声音信息或者文字信息)被输入至输出层的“输入单元”; 输入信息经过一定的映射输出至输出层的“输出节点”, 映射的方法根据用户定义.深度学习是一种通过多层神经网络对信息进行抽取和表示, 并实现分类、检测等复杂任务的算法架构.深度学习是近十年来人工智能领域取得的最重要的突破之一, 它在人脸识别方面取得巨大成功[68-72].深度学习架构已广泛用于人脸识别[73-75]、面部表情识别[76-78]和情感检测[79-81], 近几年很多研究人员将深度学习应用到疼痛识别领域[18,82-84].

Zhou 等[82]将UNBC 视频序列裁剪出人脸, 再拉平连接成帧向量序列传入到RCNN 网络中预测帧的疼痛强度.Wang 等[83]使用现有的深度学习网络结构进行微调, 将现有效果最佳的面部对准网络结构[85]去除全连接层而取其卷积层, 然后加入两个新的全连接层.为了防止过拟合, 将原有网络的全连接层的隐藏单元数从512 改为50, 另外加上center loss[85]来正则化网络的回归损失函数.

Kharghanian 等[86]提出使用无监督学习特征的一种方法来实现连续的疼痛检测, 使用卷积深度置信网络(CDBN)提取特征.提取的特征包括疼痛图像的不同属性, 例如头部运动、形状和外观信息.Martinez 等[87]提出了一种层次学习框架, 采用双向长短期记忆递归神经网络(LSTM-RNN)来估计从面部图像中提取的面部标注点的PSPI (一种疼痛评估方式, PSPI=AU4+max (AU6, AU7)+max (AU9, AU10)+AU43).然后, PSPI用作隐藏条件随机场(HCRF)的输入, 以估计受试者的VAS(视觉类比量表).Egede 等[88]结合手工提取的特征和深度学习来进行疼痛自动评估.将时间信息包括到学习过程中, 时间t 处的图像的特征表示包括来自前一帧和后一帧的信息, 将提取出的图像区域和二进制掩码由CNN 学习得到深度学习特征.Rodriguez 等[89]利用CNN-LSTM 模型在数据库提供的面部标记点来裁剪和正面化面部图像, 并作为CNN 的输入来学习特征, 然后对无痛数据进行欠采样来平衡数据的不均匀分布.

深度学习模型将特征提取和分类过程进行联动优化, 并在疼痛自动识别中取得了有竞争力的结果.然而,深度学习也存在一些不足.首先, 网络结构复杂致使调参过程复杂, 且导致结果的可重复性低; 其次, 深度学习很容易造成过拟合现象, 通过数据扩充、预训练模型微调、dropout、批标准化等操作可有效改善但不能完全解决; 最后深度学习的网络需要大量数据才能获得良好的性能, 而目前在疼痛识别方面公开的数据集数量非常有限, 这使得网络模型在学习特征时候无法充分学习到它需要的信息, 阻碍了它在自动疼痛识别中的应用.基于序列的疼痛自动识别方法汇总见表2.

1.1.1.3 基于FACS 的方法

面部表情可以表示疼痛存在和严重程度, 是一个具有敏感性和特异性的行为指标.上一章节我们主要讨论了针对面部整体进行分析的疼痛自动分析, 此外也可以通过FACS 开展疼痛评估.面部动作编码系统通过使用称为AU 的46 个基于解剖学的组件运动来测量面部表情.面部表情自动识别的重大进展推动了其在基于FACS 的情感计算问题中的众多应用[90].

Sikka 等[6]利用计算机表达识别工具箱(CE RT),对阑尾切除术后儿童疼痛的面部表情进行自动分析.实验的对象是在过去24 小时内接受腹腔镜阑尾切除术的50 名年龄在5 至18 岁的青少年, 利用计算机视觉机器学习(CVML)模型进行疼痛二元分析和疼痛评级.CVML 疼痛评估模型在检测临床显著疼痛和评估术后疼痛严重性方面表现良好, CVML 模型与常用的代理性疼痛评估方法一样, 表明在手术后监测儿科疼痛状态的功效.在成人方面, Bartlett 等在[91]中利用CERT 来检查真正疼痛和虚假疼痛, 该研究成果进一步表明面部表情的动态变化是人类情感表达的重要区别特征.

基于FACS 的方法的主要挑战是在每个视频帧中人工标记AU 需要大量时间.据报道, 人类专家需要大约3 小时来编码1 分钟的视频序列.降低标签成本的方法是开发一个可靠的系统来自动检测每个帧中的AU 并将其用作标签.

表2 基于序列的疼痛自动识别方法汇总

1.1.2 基于身体运动的特征

在疼痛发生过程中, 除了面部表情的表达, 身体运动也是一个重要的参照指标, 尤其是对慢性病患者和婴儿来说, 在他们的疼痛发生过程中, 身体运动的变化会尤为明显.另外头部运动和姿势[8]也可以作为衡量疼痛的标准, Haque 等[21]在BioVid 热痛数据库、UNBC肩痛数据库和BP4D 数据库上进行了头部姿势汇总、头部运动汇总、特定头部姿势发生、头部运动聚类的统计分析, 发现疼痛伴随着头部姿势和运动, 其倾向于向下或朝向疼痛部位.

在成人方面, 大部分的疼痛自动识别的研究都是围绕面部表情或与生理特征相结合的多模态来开展的,这是因为在疼痛领域UNBC 肩痛数据库和BioVid 热痛数据库的促进作用.对于身体运动的疼痛评估研究相对较少.Olugbade 等[92]提出在身体运动期间根据特征区分低慢性疼痛患者、高慢性疼痛患者和非慢性疼痛患者.实验通过两层SVM 或随机森林分类器进行分类, 在EmoPain 数据库上进行验证.实验提取了完整躯干屈曲练习的特征集和坐到站练习的特征集, 并加上抑郁分数, 分别来区分这两个动作.在完整躯干屈曲中,最好的实验结果是在SVM 模型下利用身体运动特征的优化, 得到94%的准确率; 在坐到站实验中, 最好的实验结果是80%的准确率.Wang 等[93]首次将诸如LSTM 之类的递归神经网络用于检测保护行为, 在EmoPain 数据库上达到81.5%的准确率.

当婴儿经历疼痛时, 婴儿往往会摇头, 伸展手臂或腿, 并伸展手指.Stahl 等[94]提出了一种基于光流的算法来预测患有脑瘫(CP)疾病风险的婴儿.采用的数据库包括在10-18 周龄范围内为82 名婴儿(15 名被诊断为CP 和67 名健康者)记录的136 个视频.对于每个视频, 应用光流以生成运动轨迹.然后, 将这些轨迹转移到时间相关的信号, 并进一步分析以提取3 种类型的特征: 小波系数, 绝对运动距离和相对频率特征.小波系数测量婴儿运动的种类, 另外两个特征测量运动模式中的活动和发生的频率.对于婴儿分为受损或未受损的分类, 线性SVM 在使用相对频率特征, 绝对运动距离和小波系数训练时分别达到93.7±2.1%,91.7±2.2%和84.7±1.8%平均准确率.

一般来说, 突发刺激、慢性疾病患者和婴儿的疼痛发生过程中更容易引发身体上的运动, 而对其他人来说疼痛发生的过程中身体运动不一定存在, 而且目前对于成人来说只在EmoPain 数据集采集了参与者身体运动的信息, 因此基于身体运动来进行疼痛分析的实验很少.此外, 仅通过身体运动来判别疼痛不够全面,我们应将其他特征和身体运动相结合, 相关内容将在第4 节进行介绍.

1.2 基于语音的特征

在疼痛表达过程中, 除了行为特征外, 语音特征也是一个重要因素, 特别是对于婴儿来说, 啼哭是非常重要的一个信号.对于成人来说, 由于在疼痛过程中可能很少会发出语音信息, 只有少部分的数据集记录与语音相关的信息, 与成人相关的基于语音的疼痛识别的相研究还很少见, EmoPain、SenseEmotion 数据库中有相关语音记录, 但还没被适当运用.Thiam 等[95]使用SenseEmotion 数据库上的音频特征进行二分类任务得到69±15%的准确率, 效果不太理想.因此接下来重点介绍基于语音的婴儿疼痛检测.

婴儿啼哭是不适、饥饿或疼痛的常见信号[96], 它传达的信息可以帮助护理人员评估婴儿的情绪状态并做出适当的反应.我们将基于啼哭分析的特征提取方法分为时域方法、频域方法和倒谱域方法.

1.2.1 时域分析提取的特征

时域分析是关于时间的信号分析(信号的幅度随时间的变化).线性预测编码(LPC)是用于分析声音的最常见的时域方法之一.LPC 主要原理是使用过去时域样本的线性组合来预测当前时域样本.用于婴儿声音分析的其他时域特征是能量、幅度和暂停持续时间.

Vempada 等[30]提出了一种时域方法来检测与不适相关的哭泣.所提出的方法在数据集上评估, 该数据集包括在疼痛(30 个语料库)、饥饿(60 个语料库)和湿尿布(30 个语料库)期间收集的120 个哭泣语料库.文中没有提供有关触发疼痛状态的刺激信息和数据收集程序的信息, 婴儿的年龄范围为12-40 周龄.使用索尼数字记录仪记录所有语料库, 采样率为44.1 kHz.在特征提取阶段, 计算两个特征: 短时能量(STE), 它是在合适的窗户样本值的平方的平均值; 以及在哭泣段内暂停持续时间.部分样本用于构建SVM, 其余样本用于评估其性能.痛苦哭泣、饥饿哭泣和湿尿布哭泣的识别表现分别为83.33%、27.78%和61.11%, 平均识别率为57.41%.

1.2.2 频域分析提取的特征

频域分析显示信号在特定频率范围内的分布.基频(F0)是众所周知的频域特性, 表示周期信号的最低频率.婴儿的哭声可以根据基本频率分类为:

(1)带有平滑和谐波结构的发出嘶嘶声(phonated cries), 基本频率范围为400~500 Hz.

(2)与发声的啼声(phonated cries)相比, 具有较少谐波结构的嗓音.

(3)声音突然向上移动(高达2000 Hz)的超音速哭声(Hyperphonated cries).

Pai 等[31]提出了一种光谱方法, 将婴儿的哭声分类为呜咽或有力.这项工作的数据库来自27 名婴儿, 平均年龄为36 孕周.在急性疼痛程序(即, 足跟穿刺和免疫接种)期间记录音频数据.记录两种类型的疼痛哭泣, 呜咽(14 个样本)和剧烈哭泣(20 个样本).记录样本的正确标签由训练有素的护士使用NIPS 疼痛量表给出.为了获得每个样品的功率谱, Welch 的方法应用于20 毫秒的窗口.获得光谱后, 从每个样本中提取线性预测系数(LPC)以及其他统计数据(例如, 平均值和标准偏差)并用于训练KNN, 使用10 倍交叉验证评估的分类器的平均准确率为76.47%.

1.2.3 倒谱域分析提取的特征

通过采用信号频谱的对数的逆傅立叶变换(IFT)来生成信号的倒谱域.Mel 频率倒谱系数(MFCC)是一种常见的倒谱域方法, 用于从声音信号中提取有用且有代表性的特征集(即系数), 并丢弃噪声和无用的特征.

Abdulaziz 和Ahmad 等[96]引入了一种倒谱域方法,将婴儿哭泣分类为疼痛或无痛(即饥饿和愤怒).对于年龄范围从新生儿到12 个月大的婴儿, 记录了一组150 个疼痛样本和30 个无痛样本.在当地医院的NICU(新生儿重症监护病房)中的常规免疫程序期间记录疼痛样本, 在婴儿家中记录无痛样本.在180 个记录的样本中, 通过创建一个第二段获得881 个样本.然后使用这些样本提取两组特征, 即Mel 频率倒谱系数(12 个MFCC 系数)和线性预测倒谱系数(16 个LPCC 系数),并将提取的特征送到用缩放共轭梯度算法训练的神经网络.该方法分别对LPCC 和MFCC 的准确率分别达到68.5%和76.2%.该结果表明, MFCC 在检测婴儿疼痛哭泣方面的表现优于LPCC 特征.

1.3 基于生理指标的特征

基于生理测量的疼痛分析可以定义为从参与者的生理反应中提取疼痛相关特征的过程, 疼痛的发生同时会伴随生理指标的变化[97].与成人相关[98]的生理反应有心电(ECG)、脑电(EEG)、肌电(EMG)、皮肤电导水平(SCL)等生理信号.与婴儿疼痛相关的生理反应实例包括生命体征的变化和脑血流动力学活性(脑氧合和疼痛的变化), 适合床边检测的脑氧合变化测量方法为近红外光谱(NIRS), 它使用附着在头部的小探针测量氧合血红蛋白(HbO2)和脱氧血红蛋白(HbH)浓度的微小变化.另外, 体温大于0.5 的变化也可能预示疾病或者疼痛[28].

在成人方面, Werner 等[99]和Walter 等[100]在Biovid 数据库上进行实验, 在生理特征方面提取电流皮肤反应(GSR)、EMG、ECG 的幅度和变化特征用于检测疼痛.对单一生理特征来说, GSR 具有显著优势, 在疼痛强度0 和4 二分类上的正确率为73.8%; 将3 种生理特征结合会使0 和4 二分类正确率提高到75.6%.Walter 等从生理信号的幅度、频率、平稳性、熵、线性和可变性的数学分组中提取135 个特征并使用前向传播进行特征选择, 采用SVM 进行二分类, 达到77.05%正确率.Kächele 等在文献[101]中提取的基于生理信号的特征有EMG、ECG、SCL, 实验结果表明最具有识别性的生理特征为SCL, 在Biovid 数据库上识别正确率为81.9%.Panavaranan 等[102]通过考虑单个通道的功率谱密度的α 和β 谱对EEG 带来的影响进行疼痛分类.

在婴儿方面, Faye 等[103]提出了一种分析28 名患有慢性疼痛的婴儿(年龄>34 孕周)的心率变异性(HRV)的方法.为了研究慢性疼痛和心血管数据之间的关联, 使用心率(HR), 呼吸率(RR), 血氧饱和度(SpO2)和高频变异指数(HFV I)的平均值进行线性回归分析, 两组之间的HRV 显著下降, 而未发现RR 和SpO2的显著变化.结果显示HFVI(<0.9 阈值)能够评估疼痛, 实验结果为在ROC 曲线下面积(AUC)为0.81, 说明与婴儿疼痛发生最相关的生命体征为心率.Ranger 等[104]提出了一种基于NIRS 的方法, 通过分析大脑区域的血液动力学活动来评估婴儿的慢性疼痛.NIRS 数据来源于40 名婴儿(<12 个月)心脏手术后的胸腔排出移除过程(T2)、脱掉衣服(T1)和基线(T0)3 个阶段的记录.为了验证NIRS 数据和疼痛刺激之间的关联, 对提取的测量进行单变量线性回归, 结果显示疼痛期间HbH 显著增加.

基于生理特征分析的疼痛检测在机理解释方面存在一些挑战[28], 例如药物、病理状况、治疗、压力和对疼痛的恐惧可能直接影响这些特征并降低疼痛测量的可靠性.它还受婴幼儿的一般健康状况和年龄的影响, 所以仅通过生理信号来确定疼痛的发作是不合适的, 应该与其他指标结合使用可获得更好的结果.

1.4 基于多模态的特征

以上介绍的方法都是基于单个模态特征的, 但是在疼痛发生的过程中, 这些模态是同时存在的, 多模态评估疼痛具有挑战性但是非常合理的[105].因此接下来介绍的方法是将面部表情、身体运动、语音以及生理等特征融合的多模态方法, 并根据特征融合的时期将方法分为特征层级的融合和决策层级的融合.

1.4.1 特征层级融合得到的特征

特征级融合将所有模态的特征连接成单个高维特征向量, 然后使用级联特征向量来训练单个分类器以进行分类.据我们所知, 目前没有工作在特征层面结合不同的疼痛指标, 以评估婴儿的疼痛.

在成人疼痛评估方面, Haque 等[24]利用深度学习方法将提取出来的颜色图像、热图像和深度图3 种模态输入分别进行训练、特征级融合和决策级融合.早期融合为每个视频帧生成一个5 维的矩阵做为CNN 的新输入.晚期融合中, 将各个分类器的输出集成为第二个堆叠分类器的输入特征向量, 第二个分类器生成最终判定结果.在单特征中得到的最好结果是准确率为18.55%, 融合再进行分类后得到的结果都有提升.Werner 等[99]提出了将视频和生物医学信号结合起来用于成人疼痛评估.Thiam 等[95]提取了音频、几何描述符、头部姿势、LBP-TOP 以及ECG、RSP、EMG、EDA 等生理特征, 用RF 分别做特征级融合和决策级融合, 在SenseEmotion 数据库上做了二分类和多分类任务.

从理论上讲, 特征级融合可以比决策级融合具有更高的性能, 因为它包含更丰富的信息.但是, 这种融合程度可能会在实践中引发一些问题, 对这些问题的不当处理可能会降低性能.例如, 将不同疼痛模态的特征连接成单个高维特征向量可能导致维度灾难等.特征级融合的另一个问题是由于未能记录特定模态或在特定时间无法获得数据而导致的数据缺失.

1.4.2 决策层级融合得到的特征

决策级融合旨在将多个分类器的决策或结果合并为一个单独的决策.换句话说, 决策级方法考虑了多个分类的结果, 即每个疼痛指标或模态的分类, 以确定最终的决定或结果.Wagner 等[106]提出了几种不同方法来将结果结合起来用于决策.

多数投票是将不同分类器结果融合起来的最常见方法之一.在多数投票方案中, 每个指标贡献一票(即类别标签), 并且投票得到的多数标签被选择作为最终决定或结果.Kächele 等[107]在BioVid 热痛数据库上利用多模态进行疼痛自动评估的实验, 提取了生理信号和面部表情、头部姿势; Kächele 等[101]利用生理信号EMG、ECG、SCL 特征以及基于面部几何距离和基于外观的LBP-TOP 特征, 此外还介绍了一种自适应置信度学习来修改参数.Zamzmi 等[27]利用多数投票方法将不同的疼痛指标结合起来, 以开发多模式疼痛评估系统.每种模态的特征(即, 面部表情, 身体运动和生理信号)被单独使用以构建分类器.Worley 等[108]结合EEG、EMG、ECG、NIRS 和视频监控到的行为动作特征构建疼痛事件监测系统.

决策级融合的一个主要优点是易于实现, 因为它依赖于组合不同的分类标签.这种融合水平可能导致信息丢失(即不同模态之间相关信息的丢失), 因为它取决于组合指标是独立的假设.

由疼痛评估标准的量表可知, 疼痛是由多种模态信息共同作用的, 如身体运动、语音、生理特征等, 因此, 多模态的特征融合方法会带来更多有效信息, 如何将这些信息进行有效结合利用是研究重点.

基于多模态的疼痛识别方法汇总如表3.

2 相关数据库

目前和疼痛相关的数据库并不是很多, 而且规模一般偏小[4], 有些数据库的疼痛表达过程不够自然, 而且记录的信息有限.下面从成人和婴儿两个方面介绍公开发布的疼痛数据库.

2.1 成人

与成人相关现在被用于研究最多的是Lucey 等在发布的UNBC 肩痛数据库[8]和Walter 等在发布的BioVid 热痛数据库[9].近两年, Min 等提出EmoPain多模态数据库[29], Haque 等提出MIntPAIN多模态数据库, Velana 等提出的SenseEmotion 多模态数据库[109],还有一些未经公开的数据库其具体内容我们难以知晓,如文献[16,110]中提到的自采数据库.与疼痛相关数据库的归纳如表4 所示.

表3 基于多模态的疼痛自动识别方法汇总

表4 疼痛相关数据库汇总

2.1.1 UNBC 肩痛数据库

为了促进自动疼痛检测这项工作, UNBC 的研究人员招募了129 名被自我识别为肩部疼痛问题的参与者(63 名男性, 66 名女性).参与者中1/4 是学生, 其他人来自社区, 包括各种各样的职业.参与者的肩痛的诊断类型各不相同, 超过一半的参与者报告使用药物治疗疼痛.

所有参与者参加了8 项标准运动范围的主动和被动测试.在测试期间, 两台相机记录了参与者的面部表情.每次测试结束后, 参与者利用两个Likert-type 刻度的卡片对疼痛进行口头评级.实验结束后, 接受过大量训练的观察者独立评估视频的疼痛强度(OPI), 范围从0(无疼痛)到5(强烈疼痛), 通过Pearson 相关系数评估了评分的高可靠性.此外, 对视频中每一帧进FACS 编码并计算PSPI 分数, 其中83.6%的帧具有0 的PSPI得分, 并且16.4%具有PSPI 得分≥1 的帧.

2.1.2 BioVId 热痛数据库

共有90 名受试者参加了该实验, 这些受试者是从18-35 岁、36-50 岁、51-65 岁3 个年龄组中招募, 每个年龄组各30 名受试者, 其中男女性各50%.该实验测量了包括SCL、ECG、EMG 和EEG 在内的生物电位, 另外还采集了视频信号.

视频录制过程使用了3 台相机, 一台直接放在参与者面前, 另外两台放在两侧来保证参与者自由地移动头部.相机以2 5 H z 的帧速同步触发, 并以1388×1038的分辨率记录.为了同步视频流和生物反馈数据, 使用Nexus 设备记录了相机触发信号的分频版本以及生物反馈信号.然后自动分析这个已知触发信号的记录, 以补偿生物反馈和相机视频记录之间的偏移和漂移.此外, 在正面相机上方使用了Kinect 传感器来记录深度图( 64 0×480像素, 大约30 Hz), 彩色图像(1 28 0×1024像素, 大约10 Hz)以及Kinect 提供的相关时间戳.

疼痛诱发通过右臂的热电极实现, 主要包括6 步:第1 步进行阈值校准来确定每个人的特定疼痛水平温度; 第2 步疼痛刺激, 用由第1 步确定的4 种个体特定疼痛水平随机刺激参与者.每个水平被刺激20 次, 总共80 次刺激.每个疼痛水平的最高温度保持4 秒, 刺激之间随机暂停在8-12 秒之间; 第3 步参与者提出自己的每一个基本情绪; 第4 步用图片来启发情感; 第5 步通过剪辑的视频来引发基本情绪; 第6 步用面部肌电图来重复第2 步.该数据库的疼痛强度由刺激强度确定, 是在视频序列上标记, 没有帧上的标记.

2.1.3 多模态EmoPain 数据集

该实验招募了50 名参与者, 其中22 名慢性腰背痛患者(7 名男性, 15 名女性, 平均年龄50.5 岁).虽然参与者数量很小, 但该群体是典型的慢性疼痛寻求治疗的人.另外招募了28 名没有慢性腰背痛病史的健康对照参与者(14 名男性, 14 名女性, 平均年龄37.1 岁),用来记录在没有疼痛的情况下自然运动的各种方式.

数据采集过程将3 个感觉系统连接到参与者: 4 个无线表面肌电探针, 1 个由18 个基于微机电(MEMS)的惯性测量单元(IMU)组成的动作捕捉套装和1 个头戴式麦克风.配置了8 个相机让参与者在运动期间进行更多不受约束的指令, 从而捕获自然运动.使用两个麦克风通道捕获音频信号, 以48 kHz 的速率和24 位脉冲编码调制进行记录.

对记录到的数据让评估者进行面部表情标记, 评分为0-1 之间的任意一个值, 将0.02 作为阈值.专家观看视频并进行身体运动的标记, 将身体行为运动分为6 类.数据集中的总帧数为585 487, 其中50 071 (占总数的8.6%)被判断为疼痛表情.

2.1.4 多模式强度疼痛(MIntPAIN)数据库

MIntPAIN 数据库除了面部表情以外, 包含使用Kinect 捕获的正面面部彩色图像和深度数据, 以及由热像仪捕获的热数据.EMG 从受试者左臂记录, EMG信号经过预放大和滤波(10-500 Hz)并存储为1 s 记录.受试者的感知疼痛强度在10 cm 电子VAS 上评定,指定0 作为感知阈值, 5 作为感受疼痛值, 10 作为可想象的最强烈疼痛.每个刺激由受试者评定并储存.

MIntPAIN 数据库通过在20 个健康受试者中给予5 种不同水平(0 级至4 级, 其中0 表示无刺激, 4 表示最高刺激程度)的电刺激而获得多模式疼痛数据.每个受试者在数据捕获期间展示两个试验, 且每个试验具有40 次疼痛刺激扫描, 最终获得9366 个实验视频.

2.1.5 SenseEmotion 多模态数据库

SenseEmotion 数据库通过热刺激前臂来诱发疼痛,热刺激的温度在32-55 ℃(分为T0-T3 等级, T0 32 ℃为无疼痛).在记录数据之前, 确定每个受试者的特定阈值温度(T1)和耐受温度(T3), 通过T1 和T3 的平均值来计算中间温度(T2).每个温度的刺激随机施加30 次并保持4 s, 在连续刺激之间暂停8-12 s.实验分为两个阶段, 包括15 分钟的校准时间、30 分钟的实验时间和6 分钟的评估时间, 每个阶段结束后换另外一个手臂进行实验.此外, 使用情感图片和声音刺激来诱发情感状态.

SenseEmotion 数据库记录了SCL、ECG、EMG和RSP (呼吸)生理信号, 视频信号以及语音信号.

2.2 婴幼儿

目前与婴幼儿相关的疼痛数据库基本尚未公开,下面描述的COPE 和IPAD 的数据集均是在疼痛自动识别相关文献实验数据库介绍部分得到的.

2.2.1 COPE 数据库

该数据集包括26 名白人婴儿, 其中一半为女孩,使用尼康D100 数码相机拍摄的204 张彩色图像.婴儿的年龄从18 小时到3 天不等, 所有婴儿健康状况良好.在经历4 种不同的刺激时拍摄婴儿的面部图像: 脚跟穿刺期间的疼痛刺激, 婴儿从一个婴儿床运送到另一个婴儿床期间的休息/哭泣刺激, 空气刺激鼻子和摩擦刺激, 包括用浸泡在酒精中的棉花接受脚跟外侧表面上的摩擦.尽管在COPE 数据库上的研究已经取得了相对较好的疼痛识别效果, 但COPE 数据库仍然存在不足: 它是一个相对较小的数据库, 并且只有剧痛表情照片, 没有任何有关疼痛程度的信息.此外, 它是一个静态图像数据库, 可提供的疼痛信息有限.

2.2.2 IPAD 数据库[67]

该数据集共记录了31 名婴儿, 一半的婴儿是男性,婴儿的平均孕龄为36.4 周, 范围为30.4 至40.6(标准差=2.7).采集在Tampa 综合医院新生儿重症监护病房住院期间, 接受常规疼痛手术(如足跟穿刺)刺激中婴儿的疼痛数据, 持续时间约为5 s.妊娠37 周前出生的婴儿称为早产, 足月妊娠为37 周至42 周.

婴儿视频录像由GoPro Hero3 +相机获取, 捕捉他们的面部表情, 身体动作和声音.摄像机设置在正常临床环境中, 记录急性疼痛治疗期间婴儿的自发反应.新生儿婴儿疼痛量表(NIPS)是早产儿和足月儿的可靠且有效的基于指标的疼痛量表.涉及行为和生理指标,如面部表情, 哭泣, 呼吸模式, 手臂运动, 腿部运动和唤醒状态.婴儿的疼痛程度分为3 组, 由专业医护人员根据NIPS 的总疼痛评分决定, 即无疼痛(0~2), 中度疼痛(3~4)或严重疼痛(> 4).护士在疼痛过程中每隔1 分钟评估婴儿疼痛指标的严重程度, 并将总疼痛评分作为婴儿疼痛评估的标签信息.

3 分类器

疼痛检测及评估的决策阶段, 需要选择合适的分类器, 对学习到的特征进行分类.在疼痛识别任务中,分类目标包括两大类, 一种是二分类, 即输出结果为疼痛或者无疼痛; 另一种为疼痛强度的估计, 输出结果为疼痛的等级, 为0-4 或1-4 等.下面我们根据分类目标来介绍常用的一些分类器以及它们的原理.

3.1 疼痛检测

早期的研究往往是对受试者进行疼痛检测, 目标是判断疼痛的存在与否, 这是一个典型的二分类问题,最常用的分类器是SVM.

SVM 可以分为线性和非线性两大类.其主要思想是寻找空间中的一个能够将所有数据样本划分开的超平面, 并且使得所有数据到这个超平面的距离最短.给定训练样本集, 在特征空间上找到一个分离超平面, 将样本点分到不同的类.其中存在唯一的分类超平面, 使得几何间距最大.其中, 距离超平面最近的点为该超平面的支持向量.对于待测点, 通过计算该点相对于超平面的位置进行分类.距离分离超平面的距离越大, 表示分类预测的确信程度越高.在文献[8,29,46,47,49,54,59,62,64,67,86,94,111-113]均使用SVM 作为分类器来输出结果, 在二分类任务中, 一般SVM 是我们的首选,因为SVM 非常适用于小样本集而且泛化能力比较好,目前的疼痛数据集数量都很小, SVM 成为疼痛检测任务中首先考虑的分类器.

另一种常见的二分类分类器为KNN, KNN 算法的核心思想是如果一个样本在特征空间中的k 个最相邻的样本中的大多数属于某一个类别, 则该样本也属于这个类别, 并具有这个类别上样本的特性.该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别, 在文献[32,57,62]中应用了KNN 来进行二分类.KNN 算法非常简单有效,重复训练的代价比较低, 但是该算法比较适用于样本容量比较大的类域的自动分类, 而那些样本容量较小的类域采用这种算法比较容易产生误分.

每个分类算法都可用来进行二分类, 但有些算法较复杂或者分类性能不如SVM, 故不常用.在实验过程中可多尝试几种分类算法来找到最好的分类结果,在结果相差不大的情况下应优先选择计算量简单的.

3.2 疼痛强度估计

疼痛强度估计为多分类任务, 我们关心的结果不仅是疼痛的存在与否, 更关心疼痛的强度, 这项任务在现实生活中的应用价值更大, 可根据疼痛强度来进行相关治疗.

在疼痛强度估计任务中, 随机森林是最常用的分类算法.它通过大多数单个树的决策来预测给定测试模式的输出.每个树都是在一个训练集中随机选择的一个例子构建的.文献[65,66,101]使用RF 来进行疼痛强度估计, RF 在训练过程中能够处理很高维度的数据,不用做特征选择, 而且能预测各特征之间的互相影响,利用RF 分类器能判断出各特征的重要性排名, 这在实验中广泛应用.

多分类中另一个常用分类算法是神经网络及其变体, 神经网络是将一组训练集送入模型, 根据网络的实际输出与期望输出间的差别来调整权值.Martinez 等[87]使用HCRF 模型进行多分类, Egede 等[88]应用RVR,Rodriguez 等[89]使用LSTM.神经网络的自学习和自适应能力比较强, 但是它的学习过程是一个黑盒模型, 而且需要足够的数据才能学到相应信息.此外, SVM 也可被应用于多类分类任务, 通过1-1 或者1-all 策略实现多类分类[41,107,114,115].

4 发展的挑战及方向

我们目前获得的实验结果与人为误差水平还有很大的差距, 大部分性能差距不是由识别系统的技术弱点引起的, 而是由于疼痛及其表达的复杂性所带来的挑战.在实验过程中, 我们遇到的挑战主要有数据库问题、评判疼痛的标准问题、表现力差异等.

首先, 公开发布的针对疼痛的数据库极大地推进了疼痛自动识别领域工作的推进, 但每个数据库的参与者人数和数据量完全满足需求.现存的数据库也存在着一些问题, 比如不是自发情况下引起的疼痛等.数据的局限和数量的不足是制约自动识别系统算法开发和泛化应用的关键问题之一.针对此问题, 目前可以采取的办法是根据现有的数据来进行数据增强或扩充,如裁剪、翻转、旋转、加入噪音点等, 这些数据增强方式可以有效的扩充训练样本数量.另外样本量较小时可以通过迁移学习来训练.

其次是疼痛评级的PSPI 标准不足.如人实际上感到疼痛, 但PSPI 评分可能为零.此外, 疼痛可能诱发的不是PSPI 评分中拥有模式(AU4/6/7/9/10/43)的面部反应.Kunz 等[61]最近的研究表明有几个“痛苦的面孔”,包含抬起眉毛(AU1/2)或张开嘴(AU25/ 26/27), 这些都是PSPI 不考虑的.尽管观察到的受试者不感到疼痛,但PSPI 也可能不为零.最明显的是, AU43(闭眼)不是与疼痛特定相关, 例如它也发生在睡眠和放松期间.此外, 情绪的几种面部表情与PSPI 共享AU, 例如, 厌恶(AU9 或10), 恐惧(AU4), 悲伤(AU4)或幸福(AU6).需要更多的研究来找到更好的疼痛测量方法.不同人由于生活经历文化背景等的差异, 对于同一疼痛刺激,表现出不同的面部表情.一些人对于疼痛刺激表现出的面部活动非常少, 另外有研究显示对于相同的刺激,男性和女性表现出不同程度的疼痛表现.因此, 从面部线索自动估计自我报告的疼痛强度的方法还应该考虑个体在疼痛的面部表现力方面的差异.

另外, 深度学习是潜力很大的智能算法, 其在疼痛自动识别中的应用价值亟待开发.然而深度学习模型的巨大计算量使得资源消耗和计算时间增加很多.近两年很多研究提出对网络结构进行轻量化, 通过改变卷积方式, 在不减少性能或稍微损失性能的前提下减少参数量, 从而减小内存和运算量、加快运算速度.目前提出的网络结构有SqueezeNet、MobileNet、ShuffleNet、Xception 等[116-123].一般而言, 我们的计算资源都是非常有限的, 深度网络的轻量化可在节约计算资源的前提下获得有效的任务性能, 将会引起越来越多的关注.

5 结论

本文从疼痛自动识别系统的结构组成, 以及疼痛模态表征多角度方面进行描述, 对疼痛自动识别系统的流程环节和主要技术方法进行了系统性的梳理和总结.疼痛检测包含多样化的评估指标, 例如面部表情、身体运动、生理信号等, 其中面部表情是疼痛最常见且最重要的评价指标, 语音信息也是具有潜在应用价值的表达模态.由于疼痛表现形式复杂多样, 多模态特征融合技术的应用成为趋势, 模态特征信息提取、时空域特征融合以及多模态信息组合方式是重点研究的方向.从众多文献的实验结果可以看出, 即使在可控条件下的疼痛数据库上, 有关疼痛检测任务的实验结果也不乐观, 距离实际应用的精度要求还有很大差距.因此需要提取更合适、更具有特异性的模态特征, 并通过多特征、多模态的多角度综合分析, 促进疼痛自动识别系统的性能.

猜你喜欢
模态婴儿数据库
艺术家婴儿推车
联合仿真在某车型LGF/PP尾门模态仿真上的应用
多模态超声监测DBD移植肾的临床应用
跨模态通信理论及关键技术初探
数据库
数据库
数据库
数据库
婴儿为何会发笑?
婴儿的救赎