基于支持向量机的语音情感识别算法研究

2019-10-30 02:14刘明珠李晓琴陈洪恒
哈尔滨理工大学学报 2019年4期
关键词:支持向量机

刘明珠 李晓琴 陈洪恒

摘 要:为了提高语音情感识别系统的识别率,研究分析了一种支持向量机核函数参数的优选方法。首先给出影响支持向量机核参数的因素,其次依据这些因素,结合Fisher准则和最大熵原理对支持向量机的核参数进行优选。最后用优选参数对基于情感语音数据库进行5种情感的识别测试,测试结果表明Fisher准则和最大熵方法相融合能够有效地提高语音情感识别准确率。

关键词:语音情感识别;支持向量机;核参数优化;Fisher准则;最大熵原理

DOI:10.15938/j.jhust.2019.04.020

中图分类号: TN912.34

文献标志码: A

文章编号: 1007-2683(2019)04-0118-09

Abstract:In order to improve the recognition rate of speech emotion recognition system, this paper studies a preferred method of supporting vector machine kernel function parameters. Firstly, according to the principle of support vector machine, the factors influencing the kernel parameters are given. Secondly, according to these factors, the kernel parameters of the support vector machine are optimized according to the Fisher criterion and the maximum entropy principle. Finally, five kinds of emotion recognition tests based on the emotional speech database are selected with the preferred parameters. The test results show that the fusion of the Fisher criterion and the maximum entropy method can effectively improve the accuracy of speech emotion recognition.

Keywords:speech emotion recognition; support vector machines; optimization of nuclear parameters; Fisher criteria; maximum entropy principle

0 引 言

语音是人与人之间沟通的桥梁,同时也是人们表达思想情感的工具。为了能使计算机可以像人一样与人类“交流”,语音情感识别逐渐成为了智能人机交互领域的研究热点[1]。目前,国外学者针对这方面做了大量研究,比如美国麻省理工学院(MIT)实验室研究的情感机器人[2],IBM公司的“蓝眼计划”[2]以及NEC公司研制出的一种能感知人类情感的花等 [3]。這些研究都为语音情感识别的研究奠定了良好的基础。虽然国内在这项研究上起步还比较晚,但在语音情感识别方面的技术正在不断追赶世界技术前沿。

其中识别算法的优良直接决定着语音情感识别的正确率。目前常用的识别算法有如下几种:隐马尔可夫模型(hidden markov models,HMM)、人工神经网络(artificial neural network,ANN)、高斯混合模型 (gaussian mixture models,GMM)、支持向量机 (support vector machines,SVM)以及相关的改进算法[4]。

New et al[5]在缅甸语音库和汉语普通话语音库的基础上利用HMM识别6种语音情感,其识别率达到了78.5%和75.5%,HMM能够很好地模拟人类的语言过程,但是训练HMM需要大量的训练样本,而且时间成本也比较高。目前,ANN也取得了不错的识别效果,例如文[6]采用的是改进蛙跳算法神经网络进行语音情感的识别,其平均识别率达到了84.2% 的较好的识别结果,但ANN算法最大的缺点是结点的选取非常困难[6]。GMM是一种用于密度估计的概率模型,在柏林语音数据库上获得了89.9%的平均识别率[7]。但GMM对数据依赖性强,因此训练数据的选择对识别系统的结果产生很大的影响。SVM在基于柏林语音数据库上进行语音情感识别[8],其识别率达到了86.36%。

与其他语音情感识别的算法相比,SVM算法在解决高维数、小样本和非线性问题上有较大的优势,而且其结构简单,推广力强[9]。但SVM算法的难点在于核函数的参数的选择,针对这一问题,本文提出一种Fisher准则和最大熵原理相结合的方法对SVM核参数进行选择,从而达到改善传统SVM算法的优选度。然后利用SVM优选后的核参数对语音情感信号进行识别。

1 语音情感识别的基本流程与特征参数

本文的语音情感识别模型如图1所示,首先选取柏林数据集作为实验的语音数据库,对该库中高兴、生气、害怕、悲伤、平静5种情感进行识别测试,并从中选定测试集和训练集,然后再对语音进行特征参数的提取。语音信号的情感特征的统计参数的差异并不能完全反应提取特征的差异,因此在特征提取的时候需要加一个分类器,这里选取SVM。然后采用Fisher准则和最大熵原理相结合的方法选取SVM核参数,最后用选出的最佳核参数和训练特征集建立SVM分类模型,通过将测试样本输入到SVM模型中获取最终的识别结果。传统SVM核参数选取方法主要包括交叉验证法和基于Fisher准则选取,交叉验证法计算量过大且计算过程及其复杂[16],基于Fisher准则只考虑了类间间隔,未考虑类内均匀程度[17],与传统方法相比,本文算法既考虑到了类内间隔又考虑到了类间间隔,且计算过程相对简单,能有效提高情感识别的准确性。

在语音情感识别研究中,语音特征参数的提取至关重要,常用的特征提取方法为韵律特征和音质特征。本文选择这两种方法中对情感特征识别度权值最大的3个参数为主特征,即基音频率、振幅能量和共振峰。并需对以上特征参数进行统计学分析。

1.1 基音频率特征

基音频率与语音情感信息紧密相关[10],是一种韵律特征。基音频率与人的声带的厚薄、长短以及发音习惯等都有着密切关系。式(1)是语音信号的短时自相关函数,可用于提取基因频率。图2为同一语音文本在四种情感状态下的基频曲线。

1.2 振幅能量

不同情感的声音信号的振幅能量也不尽相同。振幅能量包括短时能量和平均幅度,是一种重要的韵律特征。短时能量容易受到语音信号电平的影响,因此,这里采用短时平均幅度。公式如(2)所示:

1.3 共振峰

共振峰是指在声音的频谱中能量相对集中的区域,主要反映声道的变化信息。共振峰是一种重要的特征值参与语音情感信号的特征提取。共振峰是一种音质特征,情感的变化主要在第一共振峰、第二共振峰、第三共振峰上变化比较大[11]。因此,这里选取第一共振峰(F1)、第二共振峰(F2)、第三共振峰(F3)以及它们的统计值。图4为采用线性预测编码方法检测的共振峰频率轨迹[12]。

由图4可知高兴和生气的第一、第二和第三共振峰都比悲伤的高,且都处于相对稳定状态。平静、生气和高兴区分不是很大。而悲伤的情感的三个共振峰频率则明显都有下降的趋势。

2 支持向量机分类算法

支持向量机(SVM)是一种基于统计学习理论的机器学习算法。它是由Vapnik[13]等基于线性分类器的原理首先提出的。SVM可以用于解决线性与非线性样本分类,其核心思想是将低维空间线性不可分的样本点通过核函数映射至高维特征空间中,然后在特征空间中构造出最优分类超平面,这时数据在高维空间也可以被超平面分割,从而变得线性可分[8],并且各个样本与超平面的距离应保持最大[14]。

2.1 支持向量机分类算法基本原理

给定非线性样本集(x1,y1),…,(xn,yn),yi∈{-1,1},i=1,2,…,n。y中的-1和+1分别代表两类不同的样本。首先通过映射函数φ(x)将低维空间中的非线性样本映射到高维特征空间,然后在高维特征空间中构造最优分类超平面w·φ(x)+b=0,其中w为法向量,b为偏置,因此需要确定w和b的值。

两类样本之间的间隔为2‖w‖。由SVM原理可知,2‖w‖应最大化。从该原则出发,最优化问题转为对变量w和b凸二次规划问题,如式(3)所示:

2.2 支持向量机分类算法的核参数

由支持向量机分类算法原理分析可知,核函数为SVM解决线性不可分的问题的关键所在。常用的核函数有多项式核函数K(xi,xj)=(xi·xj+1)q,q=1,2…N,高斯径向基函数(Radial basis function kernel, RBF)K(xi,xj)=exp(-‖xi-xj‖2/2κ2),κ为函数的宽度参数以及线性核函数K(xi,xj)=(xi·xj)等。

其中RBF主要针对线性不可分的情况,是性能较好的核函数[15],本文SVM的核函数选取RBF核函数。RBF核函数的关键在于核参数κ的选择,如果κ选得大,则高维特征上的权重衰减的很快,近似于一个低维的子空间;相反,若κ取较小值,则可以将任意的数据都映射为线性可分,这会导致严重的过拟合问题[16]。

传统选择核参数方法是通过训练数据的交叉验证法来寻找,不过这个过程比较耗时且不准确[17]。文[18]提出了一种基于Fisher准则选取核函数参数的方法,但该方法只考虑到了类间间隔,未考虑到类内均匀程度影响。为此,本文提出了一种Fisher准则和最大熵原理相结合的方式选取SVM核参数。

3基于Fisher 准则和最大熵原理SVM核参数选择算法

3.1 Fisher准则选择核参数

4 语音情感识别测试与分析

4.1 数据语音库

本文在柏林语音数据集[20]上对5种情感状态进行识别实验,柏林数据库采样频率为16KHz, 16bit 均匀量化,由柏林技术大学录制,在高兴,生气,害怕,难过,中性、厌烦和厌恶7种感情状态下录制了535条情感语句。测试时,选择其中207个作为训练样本,分别为高兴(36)、生气(64)、恐惧(35)、悲伤(32)和平静(40);剩下的202个构成测试集,分别为高兴(35)、生气(63)恐惧(34)、悲伤(31)和平静(39)。

实验所选取的情感特征相同,即基因频率、振幅能量、共振峰以及它们对应的统计值。为了减少在不同情感状态下因个人差异造成的影响,本文实验时将同一个人的不同情感的语音信号的情感特征放在一起进行[0,1]归一化。首先将样本特征参数输入SVM模型中获取最优核参数,然后构建SVM分类模型,最后将测试样本特征参数输入到已经建立好的SVM模型中输出识别结果。

4.2 核参数的选择与测试

SVM进行语音情感识别时需要确定RBF核参数κ以及惩罚因子γ。其中惩罰因子的作用是调节SVM置信范围的比例和经验风险,使其有更好的推广能力。惩罚因子γ的选取采用“试凑法”,即从指数序列{2-1,20,…,210}中选择,核参数κ由本文提出的方法来确定。

为了使得实验数据更具说服力,本文将柏林数据集的5种情感下的409个样本分为三部分寻求最优核参数。柏林-1和柏林-2样本分别为高兴(23)、生气(42)、恐惧(23)、悲伤(21)和平静(26),柏林-3由高兴(25)、生气(43)、恐惧(23)、悲伤(21)和平静(27)构成。

粒子群算法(PSO)是一种基于群体智能原理的全局并行优化算法,算法操作简便,容易实现[21]。这里的参数寻优算法选择粒子群算法。

4.3 结果及分析

5 总 结

本文研究了一种融合Fisher准则和最大熵原理选取支持向量机核参数的方法,并利用该方法在柏林语音数据库上做语音情感识别实验,且达到了90.1%的平均识别率。对比交叉验证法和Fisher准则选取核参数方法,本文识别正确率分别提高了3.5%和7.5%。由于Fisher准则保证了期望样本在特征空间中最大的类别间隔,而最大熵原理保障了类内均匀分布程度,使得SVM取得了最优核参数。实验结果表明,该方法有利于提高语音情感的识别率。

参 考 文 献:

[1] 余伶俐, 蔡自兴, 陈明义. 语音信号的情感特征分析与识别研究综述[J]. 电路与系统学报, 2007, 12(4):76.

[2] 李书玲, 刘蓉, 张鎏钦,等. 基于改进型SVM算法的语音情感识别[J]. 计算机应用, 2013, 33(7):1938.

[3] 石瑛. 基于分类方法的语音情感识别研究[D]. 合肥:合肥工业大学, 2008.

[4] AYADI M E, KAMEL M S, KARRAY F. Survey on speech emotion recognition: Features, classification schemes, and databases[J]. Pattern Recognition, 2011, 44(3):572.

[5] NWE T L, FOO S W, SILVA L C D. Speech emotion recognition using hidden Markov models[J]. Speech Communication, 2003, 41(4):603.

[6] 余华, 黄程韦, 金赟,等. 基于改进的蛙跳算法的神经网络在语音情感识别中的研究[J]. 信号处理, 2010, 26(9):1294.

[7] VLASENKO B, SCHULLER B, WENDEMUTH A, et al. Combining frame and turn-level information for robust recognition of emotions within speech.[C]// INTERSPEECH 2007, Conference of the International Speech Communication Association,Antwerp, Belgium, August. 2007:2249.

[8] 朱菊霞, 吴小培, 吕钊. 基于SVM的语音情感识别算法[J]. 计算机系统应用, 2011, 20(5):87.

[9] 李书玲, 刘蓉, 张鎏钦,等. 基于改进型SVM算法的语音情感识别[J]. 计算机应用, 2013, 33(7):1938.

[10]赵力.语音信号处理.北京:机械工业出版社,2008.36.

[11]陈晓东. 基于SVM和HMM混合模型的语音情感识别和性别识别[D]. 绵阳市:西南科技大学, 2011.

[12]宋知用.MATLAB在语音信号分析与合成中的应用[M].北京:北京航空航天大学出版社,2013:268.

[13]V. N.VAPNIK, An overview of statistical learning theory, IEEE Trans. Neural Netw. 1999, 10: 988.

[14]高争艳, 张玉双, 王慕坤. 基于核K-均值聚类和支持向量机结合的说话人识别方法[J]. 哈尔滨理工大学学报, 2008, 13(5):40.

[15]张新闻,周春燕,李学生. 优化核参数的SVM在电能质量扰动分类中的应用[J]. 哈尔滨理工大学学报,2011(3):50.

[16]SMOLA A J, SCH&#, LKOPF B. A tutorial on support vector regression[J]. Statisticsand Computing 2004, 14(3):199.

[17]奉国和. SVM分类核函数及参数选择比较[J]. 計算机工程与应用,2011(3):123.

[18]刘飚, 陈春萍, 封化民,等. 基于Fisher准则的SVM参数选择算法[J]. 山东大学学报(理学版), 2012, 47(7):50.

[19]PENALVER B A, ESCOLANO R F, SAEZ J M. Learning Gaussian mixture models with entropy-based criteria[J]. IEEE Transactions on Neural Networks, 2009, 20(11):1756.

[20]BURKHARDT F,KIENAST M;PAESCHKE Berlin database of emotional speech(Technical University,Insitute for Speech and Communication Science, Berlin)[DB/OL].[2012-07-15].http://pascal.kgw.tu-berlin.de/emodb/.

[21]中科院自动化研究所人机语音交互课题组.汉语情感语料库[DB/OL]. [2012-09-22]. http://www.datatang. com//data/39277

[22]李磊, 高雷阜, 赵世杰. 基于神经网络的粒子群算法优化SVM参数问题[J]. 计算机工程与应用, 2015, 51(4):162.

(编辑:王 萍)

猜你喜欢
支持向量机
基于支持向量回归机的电能质量评估
基于智能优化算法选择特征的网络入侵检测
数据挖掘技术在电厂经济性分析系统中的应用Q
基于改进支持向量机的船舶纵摇预报模型
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究
管理类研究生支持向量机预测决策实验教学研究