基于注意力机制的语音情感识别非线性特征融合方法的研究

2023-02-17 01:54周伟东周后盘夏鹏飞

计算机应用与软件 2023年1期

周伟东周后盘夏鹏飞

(杭州电子科技大学自动化(人工智能)学院浙江杭州 310000)

0 引言

近年来虽然在语音领域的研究取得了很大发展，但还远远不能满足人和机器自然交互的应用需求，因此建立一个理解人情感的自然交互系统非常重要[1-2]。然而人的情感识别非常困难。人的情感可以从肢体动作、语音、面部表情等多种方式获取，但在许多实际生活场景中想要实时地获取除语音之外的情感表达方式非常困难[3-7]。例如，对孤寡老人的情感监控、呼叫中心的情感识别、客服系统的情感识别等。因此使用语音进行情感识别非常有必要。

机器学习方法普遍被用于语音情感识别。以前的研究通常直接从原始语音信号中提取低级特征或者高层次的统计特征，然后直接输入给分类器进行语音情感识别。常用的分类器有隐马尔可夫模型(HMM)[8]、支持向量机(SVM)[9]、决策树[10]等。但近期，研究者们利用深度神经网络从语音信号中学习表征情感的高级特征。

由于不同深度神经网络模型提取语音情感特征的优势不同，组合多个深度神经网络模型提取语音情感相关特征的方法逐渐被采用。常使用长短时记忆网络(LSTM)提取语音信号中的时间特征，卷积神经网络(CNN)提取语音信号中的空间特征，最后将提取的时空特征线性组合在一起进行语音情感识别，但这样线性组合的时空特征无法在细粒度上获取时空特征的动态依赖关系。

卷积神经网络可以有效地提取频域中的局部空间特征，因此一些研究者利用卷积神经网络从语音的频谱图中提取情感相关特征[11-12]。但由于卷积神经网络无法获取语音序列中的长期依赖关系，因此常结合长短时记忆网络来学习局部空间特征中的长期依赖关系。Zhao等[13]将全卷积神经网络(FCN)提取的空间特征与循环神经网络(RNN)提取的时间特征进行线性组合得到语音中情感相关特征的时空表达关系。Meng等[14]将时间卷积网络(TCN)提取的空间局部特征送入到循环神经网络来提取局部特征之间的长期依赖关系并在声谱图中取得了良好的效果。但前者无法捕获时间特征和空间特征之间的非线性依赖关系，后者的模型受前一个模型的分类效果影响往往无法得到很好的识别效果。

本文提出基于注意力机制的非线性时空特征融合方法来解决线性时空特征融合无法在细粒度上获取时空特征动态依赖关系的问题。实验中使用基于注意力机制的时间卷积网络(TCN)学习语音空间域中的高级特征，基于注意机制的长短时记忆网络(LSTM)学习语音中的时间特征，并利用注意力机制进行非线性时空特征融合。该方法使用了三个注意力机制，单个网络中的注意力机制用来关注模型自身的情感相关特征，模型间的注意力机制用来关注时空特征的动态依赖关系。实验结果表明，使用基于注意力机制进行非线性时空特征融合相较于线性融合可以获得更好的分类效果。

1 相关工作

注意力机制在语音情感识别领域中运用广泛。注意力机制由Bahdanau等[15]第一次提出，利用注意力网络来协调机器翻译中的输入输出序列。在此方法提出之后，注意力机制被广泛运用到语音情感识别领域。Mirsamadi等[16]使用局部注意力机制去聚焦语音信号中情感更显著的特定区域，利用logistic回归模型作为注意力模型，将参数向量和循环神经网络(RNN)的输出进行内积，得到每一帧对于最终情感贡献的分数，最后利用Softmax获得帧的权重；Sarma等[17]使用时间限制的注意力层，在时延神经网络(TDNN)和长短时记忆网络(LSTM)中设置时间限制的注意力层，显著提高了分类的准确率，同时减少了各个类别之间的混淆；Xu等[18]利用注意力机制进行多模态语音和文本的帧对齐，利用双向长短时记忆网络(Bi-LSTM)学习语音和语音文本的长期依赖，使用注意力机制将语音和文本的多模态特征进行帧层面上的软对齐，最后组合在一起输入给下一个双向长短时记忆网络进行最后的语音情感识别。受此启发，我们利用注意力机制进行时空特征的非线性融合。

2 算法描述

2.1 长短时记忆网络

使用长短时记忆网络(LSTM)提取语音信号中的时域特征。LSTM是循环神经网络(RNN)的一种变体，通过加入输入门、遗忘门、输出门来学习序列中长期依赖关系，缓解了RNN中出现的梯度消失和梯度爆炸，并广泛用于对时间序列建模[19]。LSTM模块单元如图1所示。

图1 LSTM模块单元

LSTM主要由四个单元构成：输入门、遗忘门、输出门。网络中遗忘门来决定上一个状态哪些数据可以保留。输入门来决定更新哪些信息，输出门用来决定哪些会被作为当前状态的输出。LSTM的前向传播公式如下：

ft=σ(Wf·[ht-1,xt]+bf)

it=σ(Wt·[ht-1,xt]+bi)

ot=σ(Wo·[ht-1,xt]+bo)

ct=ft∘ct-1+it∘ tanh(Wc·[ht-1,xt]+bc)

ht=ot∘ tanh(ct)

(1)

式中：ft表示遗忘门；it表示输入门；ot表示输出门；ct表示当前状态；ht表示当前转台哪些是须要被输出；W、b表示网络的可训练参数；σ表示激活函数；“∘ ”表示哈达玛积(矩阵对应元素相乘)。

2.2 时间卷积网络

多层TCN结构如图2所示，对于给定的输入[x0,x1,…,xT]进行膨胀因果卷积。其中k表示卷积核的大小，d表示膨胀卷积的系数。TCN可以通过堆叠层数，让d指数增长从而增加最终输出的感受野，解决了因果卷积中为了获取较长历史信息所需要大的卷积核和深层网络的弊端。此外这里的因果卷积是利用一维膨胀卷积的输出经过Padding的方法实现，它可以使得语音信号中未来到过去的信息不存在泄露，还可以像RNN一样将任意长度的输入信息映射到具有相同长度的输出序列。

图2 多层TCN结构

图3 一层TCN结构

2.3 基于注意力机制的长短时记忆网络解码

基于注意力机制的非线性特征融合模型框架如图4所示。其中右半部分为基于注意力机制的长短时记忆网络解码，结构如图5所示。

图4 基于注意力机制的非线性特征融合模型

图5 基于注意力机制的长短时记忆网络解码

通过对语料库中的每个音频数据提取情感特征可以得到[x0,x1,…,xT]，其中T表示语音片段经过提取情感特征后的帧数。实验中将提取到的数据输入给LSTM网络，并获取其隐藏层状态，并将隐藏状态输入给注意力层来聚焦情感显著部分。这里的注意力层结构类似Mirsamadi等[16]提出的使用局部注意力机制。利用logistic回归模型作为注意力模型，通过训练参数w，可以得到每帧在语音情感上的权重。基于注意力机制的长短时记忆网络解码定义如下:

Hi=LSTM(Xi)i∈{0,1,…,T}

(2)

f(Hi)=tanh(wTHi+b)

(3)

(4)

ei=viHi

(5)

式中：Hi表示LSTM隐藏层状态；f(Hi)是相关度函数；w和b为模型的训练参数；vi表示对于输入向量Hi计算得到的注意力权重参数；ei是注意力层经过加权之后得到的输出。

2.4 基于注意力机制的时间卷积网络解码

图4的左半部分为基于注意力机制的时间卷积网络，其结构如图6所示。

图6 基于注意力机制的时间卷积网络解码

将提取到的语音情感特征输入给TCN，利用TCN获取局部空间中的情感相关特征，并将学习到的高级空间特征输入给注意力层。这里的注意力层和2.3节中类似，不过此处的注意力层是用来关注与情感相关的空间特征。基于注意力机制的时间卷积网络解码定义如下：

Ci=TCN(Xi)i∈{0,1,…,T}

(6)

f(Ci)=tanh(wTCi+b)

(7)

(8)

(9)

式中：Ci为TCN最终解码的输出；f(Ci)是相关度函数；w和b为模型的训练参数；ai是对每一个输入向量Ci计算得到的注意力权重参数；s是注意力层中经过加权求和后的输出。

2.5 基于注意力机制的非线性特征融合层

为了建立TCN提取到的空间特征和LSTM提取到的时间特征之间的关联，使用注意力机制将时空特征进行非线性特征融合。先将TCN解码得到的空间特征s和LSTM解码得到的时域特征ei分别取出，并将其进行矩阵相乘，并利用softmax进行标准化处理，接着将得到的注意力权重Ai和LSTM的输出相乘，得到非线性融合后的特征m。最后将非线性融合的结果同TCN经注意力层后的输出，以及韵律特征进行线性组合，并将结果O通过softmax函数得到预测结果。基于注意力机制的非线性特征融合层定义如下：

f(Di)=tanh(matmul(ei,s))

(10)

(11)

(12)

O=concat(m,s,P)

(13)

(14)

(15)

3 语音数据集和特征提取

3.1 数据集介绍

实验采用的是交互式情绪二元捕捉(IEMOCAP)语料库中的语音数据[21]。IEMOCAP语料库是由10个演员通过明确的情感剧本和即兴演出的方式进行会话。每个会话由2个表演者(一位男性，一位女性)参与，包含的总的会话时间为12个小时。音频数据中包含10类情感(愤怒、高兴、悲伤、中立、沮丧、兴奋、恐惧、惊讶、厌恶、其他)。为了便于和其他研究者的实验结果进行对比，本实验只保留4类情绪(愤怒、高兴、悲伤、中立)。由此我们将实验数据划分为训练集、验证集、测试集。具体的实验数据划分如表1所示。

表1 实验数据划分

3.2 特征提取

实验所用的语音特征数据是利用Opensmile工具包[22]提取的，一共提取了39维的时序特征，其中包含12个MFCC参数(1～12)，26个梅尔逊频率带宽参数，以及一个对数能量参数。其中每个音频的采样频率为16 kHz，实验中采用25 ms的窗口，10 ms的步长提取语音特征。最后利用裁剪和填充的方法将每个句子提取的时间长度固定为750。此外还提取了35维的韵律特征。

4 实验

4.1 实验细节

实验中LSTM隐藏层的大小设置为200，注意力的尺寸设置为2，解码的时间步长设置为最大步长750，dropout概率为0.8。TCN隐藏层的大小为200，层数为1，dropout概率为0.7，注意力尺寸大小为1。全连接层是一个435×4的权值矩阵，分别对应隐藏层的大小和情感类别数。训练中设置学习率为0.001。

4.2 实验结果及其分析

实验中采用加权精度(WA)和未加权精度(UA)来评价模型。加权精度是指整体的分类精度，未加权精度是情感类别的平均召回率。其中召回率是指正确预测的样本数中占实际样本总数的比例，平均召回率指每个类别计算得到的召回率的平均值。

评估中我们列出了基于注意力机制的长短时记忆网络解码结果(LSTM+Attn)、时间卷积网络解码结果(TCN)、基于注意力机制的时间卷积网络解码结果(TCN+Attn)、时空特征进行线性融合的解码结果(TCN+LSTM+2 Attn)、时空特征进行非线性融合的解码结果(TCN+LSTM+3 Attn)。此外为了更好比较模型的有效性，表2将本文实验结果与Huang等[23]提出的LSTM+Greedy+Attn、Mirsamad等[16]提出的LLD+RNN+Attn、Zhao等[13]提出的FCN+LSTM+Attn网络模型的分类结果进行比较。从表2中可以看出在TCN网络中使用注意力机制较没有使用注意力机制的分类效果中WA提升了18.7%，UA提升了18.9%，说明加入注意力机制后有效地提高了TCN的识别精度。使用注意力机制进行非线性特征融合较使用线性融合时，WA提升了5.2%，UA提升了6.3%，说明使用注意力机制进行时空特征的非线性融合可以做到时空特征动态非线性依赖，并且这种非线性依赖可以有效的提高语音情感的识别率。

表2 模型评估结果(%)

为了更加细致地比较不同模型在4种情感上的分类效果，我们列出了它们的混淆矩阵，如表3-表7所示。从表2可以看出单纯地将得到的特征进行线性组合得到的分类效果不及只使用注意力机制的TCN分类效果好，但由表4和表5可以看出线性组合的结果有效地降低了中性情绪被分为生气的精度。表6和表7中可以看出融合后的网络在四类情绪的分类中更为均衡。

表3 基于Attention机制的LSTM识别效果

表4 TCN识别效果

表5 基于Attention机制的TCN识别效果

表6 基于Attention机制的LSTM和TCN线性组合识别效果

5 结语

本文目的是解决线性时空特征融合无法在细粒度上获取时空特征动态依赖关系的问题。利用注意力机制将TCN提取的空间特征与LSTM提取的时间特征进行非线性时空特征融合。实验在IEMOCAP数据集上进行，得到四种情绪的混淆矩阵。通过对比时空特征线性融合和非线性融合的分类结果，得出基于注意力机制的非线性特征融合有效地提高了语音情感的分类精度。