正则化分段区分性特征变换方法

2016-05-05 03:32张连海李弼程
西安电子科技大学学报 2016年2期
关键词:语音识别

陈 斌,张连海,屈 丹,李弼程

(解放军信息工程大学信息系统工程学院,河南郑州 450001)



正则化分段区分性特征变换方法

陈 斌,张连海,屈 丹,李弼程

(解放军信息工程大学信息系统工程学院,河南郑州 450001)

摘要:针对基于分帧特征变换稳定性不够的问题,提出了一种分段的区分性特征变换方法,并采用正则化方法确定出每一语音段的特征变换矩阵.该方法将特征变换视为数据受限条件下的参数选择问题,在训练阶段,采用状态绑定的方式训练得到区域相关线性变换特征变换矩阵,将所有的变换矩阵构成一个过完备字典;在测试阶段,采用强制对齐的方式对语音进行分段,在似然度目标函数中加入正则项,利用快速迭代收敛阈值算法进行求解,在求解过程中从字典里确定出最佳的特征变换矩阵子集及其组合系数.实验结果表明,结合L1和L2正则化,相比于状态绑定的区域相关线性变换方法,当声学模型采用最大似然准则训练时,识别率可以提高1.30%;模型区分性训练后,识别性能提升了1.66%.

关键词:特征变换;语音识别;域划分;正则化;区分性训练

现有的识别系统中常对语音识别特征进行特征变换[1],以得到具有鲁棒性和区分性的特征.鉴于声学模型区分性训练的优越性能,学者将其应用于特征变换空间中,并同样取得了较好的性能.其中采用高斯混合模型(Gaussian Mixture Model,GMM)进行声学空间划分的最小音素错误率特征变换[2](feature Minimum Phone Error,f MPE)和区域相关线性变换(Region Dependent Linear Transform,RDLT)[3-4]是两种应用较为广泛的方法.在此基础上,又陆续提出了结合高斯混元参数信息的(Mean-Offset)m-f MPE[5]方法和考虑上下文相关性的(Context)RDLT[6]方法.深层神经网络(Deep Neural Network,DNN)[7-8]较为明显地提升了语音识别性能,不同于传统的GMM-HMM识别系统,其对独立的状态进行训练.基于此,文献[9]提出了状态绑定的(Tied-State)RDLT方法.

上述现有的区分性特征变换方法,在训练阶段,均是基于一段信号进行统计量的计算和变换矩阵的求取.但在测试阶段,仅利用一帧信号,根据其后验概率进行特征变换和补偿,这会造成两者出现一定程度的不匹配现象.另外,由于语音信号具有短时平稳性,仅利用1帧信号较难得到稳定的参数信息.为有效解决该不匹配问题,在测试阶段,文中同样基于一段信号进行特征变换,即根据一段信号的统计量信息,在训练得到的变换矩阵集合中,自动选择特征变换矩阵.在这个过程中变换矩阵个数的选取是关键,当选择的变换矩阵较少时,将不能得到精确的变换参数;而当选择的变换矩阵过多时,会造成过训练.由于一次求解过程所拥有的数据量较小,可视为一个数据受限条件下的参数选择问题.

压缩感知和稀疏信号重建技术为解决这类问题提供了理论支持,其中最小绝对收缩和选择算子(Least Absolute Shrinkage and Selection Operator,LASSO)L1和L2等正则化方法,能够较好地进行参数的选择[10].目前,正则化方法已被成功应用于语音识别领域,如文献[11]采用L1约束对带噪语音进行稀疏表示,通过在后端选取可靠分量进行稀疏补偿,提高了语音识别的性能.文献[12]在区分性训练求解模型精度矩阵过程中,引入L1约束,较好地解决了当训练数据不足而出现的过拟合问题.在子空间GMM[13]和基于深层神经网络的声学建模过程[14]中,通过引入L1和L2约束,减少了模型中非零参数,显著降低了模型复杂度.

笔者将正则化方法引入到区分性特征变换中,在对语音信号分段的基础上,基于每一语音信号段求解其特征变换矩阵.该方法采用状态绑定的方式训练得到变换矩阵,将训练得到的特征变换矩阵当成字典项,在特征域进行特征变换相关参数的稀疏表示.由于目标函数连续可微,利用快速迭代收敛阈值算法优化目标函数,自动确定最优的特征变换矩阵及其系数.文中给出了在区分性特征变换中加入正则项的一般框架,并分别讨论了L1、L2及两者相结合的正则化方法,最后,实验验证了文中方法的有效性.

1 基于语音分段的区分性特征变换

1.1 基于状态绑定的RDLT特征变换矩阵

RDLT利用全局的GMM模型将声学空间分成多个域,通过区分性训练得到一个变换矩阵集合,每个变换矩阵对应特征空间中的一个域.用特征向量所属域对应的变换矩阵对其进行变换,最终变换后的特征表示形式为

其中,o(t)为时刻t的输入特征;Ai为第i个域对应的变换矩阵;κ(i)t为o(t)属于第i个域的概率,可用GMM混元后验概率表示.通常,RDLT方法中变换矩阵Ai基于词图信息,根据MPE准则更新,声学模型参数则通过最大似然准则(Maximum Likelihood,ML)更新.这里采用状态绑定的方式求解Ai.

1.2 基于语音分段区分性特征变换的一般形式

不同于传统方法中先经验地设定所需变换矩阵的个数,再根据每一语音帧后验概率值的大小进行选择和加权,这里对每一语音段根据其声学统计量信息,利用最大似然准则,采用一种可变变换矩阵个数的方式,得到区分性特征变换的一般表达式.

设经过域划分后总共有R个域,其每一个域对应的变换矩阵为Ai,语音信号被分成S段,其中,第s个语音段的特征变换可描述为

其中,xsi为所选择的特征变换矩阵Ai对应的权重系数,下文中,均在语音段s内求解相关参数,为叙述的方便,将上标s略去.为提高特征变换后的识别性能,依据最大似然准则,要使得变换后特征的似然度最大,其目标函数为

其中,T表示语音段s中含有的总帧数;声学模型采用隐马尔可夫模型,共含有M个高斯混元;μm和Σm分别为第m个混元的均值矢量及协方差矩阵;γm(t)表示第t帧特征属于第m个高斯混元的后验概率.

由式(4)可知,基于分段的区分性特征变换是一个典型的二次优化问题.其求解方法为:对式(4)关于x求导,并令导数等于0,其中,C是与变量x无关的常数项,可得基于语音分段区分性特征变换求解的一般表达式为

2 基于正则化的区分性特征变换目标函数

在特征变换过程中,变换矩阵个数的选取是难点,需根据数据量的多少进行确定.当数据量较小时,应选取较少的变换矩阵,以减少所需估计的参数量,防止过训练;而当数据量较为充足时,应选取较多的变换矩阵,从而得到更为精确的变换矩阵.但在一次变换过程中,所拥有的数据量有限,得到的方程数常会小于自变量的个数.文中特征变换是一个欠定问题.

近年来,压缩感知技术已被广泛应用于信号处理和机器学习中,其中正则化方法可有效在大字典中选取少量的字典项,再采用线性组合的方式稀疏恢复原始信号.在文中特征变换过程中,所有特征变换矩阵组成了一个大的字典,可刻画较多的特征变换形式.而针对每一段语音,只需要从这个大字典中选取较少的字典项进行特征变换,可视为一个稀疏逼近的问题,因此,可采用正则化方法进行变换矩阵的选取.与常采用逼近误差目标函数不同,这里采用似然度作为目标函数,似然度的变化率作为误差项.

根据上述分析,在式(4)的基础上引入正则项,求解时不考虑常数项C.此时,目标函数转换为

同时引入L1和L2,也称为弹性网正则化,此时,有

3 正则化区分性特征变换的目标函数求解

加入正则项后,可采用多种方法求解目标函数.由于目标函数是二次型,满足Lipschitz连续可微的条件,这里采用具有二次收敛速度的快速迭代收敛阈值算法(Fast Iterative Shrinkage Thresholding Algorithm,FISTA)[15]进行目标函数的求解.进一步将目标函数式(6)转换为

根据快速迭代收敛阈值算法,可得到目标函数的求解流程:

(1)设定初始值:y1=x0∈Rn,t1=1,k=1,η=10-5.

第(3)步判断相邻两次迭代的似然度Q(x)相对变化量是否小于η,如果“是”,则停止迭代;否则,则继续迭代.

4 测试评估

4.1 实验设置

将文中正则化区分性特征变换方法应用到连续语音识别中.实验语料采用中文微软语料库Speech Corpora(Version 1.0),其全部语料在安静办公室环境下录制,采样率为16 000 Hz,16 bit量化.训练集共有19 688句,共454 315个音节,测试集共500句.选择声韵母作为模型基元,零声母(_a、_o、_e、_i、_u、_v),加上静音(sil)以及常规的声韵母,一共有69个模型基元,在此基础上将模型基元扩展为上下文相关的交叉词三音子.基于HTK 3.4建立基线系统,声学模型采用三状态的HMM模型,通过决策树对三音子模型进行状态绑定,绑定后的模型有效状态数为2 843个.采用准确率作为实验结果的评估标准.

4.2 实验结果

这里采用13维的MFCC特征,联合当前帧及其前后各4帧共9帧,并采用MLLT+LDA作为初始的变换矩阵,进行最大似然声学模型的建立.特征变换中全局GMM模型是由声学模型状态中的高斯聚类得到,最终共有800个高斯.在此基础上,分别得到了基于词图信息和基于状态绑定的f MPE、m-f MPE、RDLT特征变换方法的识别性能,并进一步讨论了当声学模型分别采用最大似然和增进的最大互信息(Boosted Maximum Mutual Information,BMMI)准则区分性训练时,各种特征变换方法的识别率,具体识别结果如表1所示.

表1 不同特征变换方法的识别性能

由表1的识别结果可知,区分性特征变换方法的识别性能均较为明显地优于线性判别分析方法.mf MPE和RDLT采用状态绑定的方式得到的识别结果会优于采用词图信息的方式,而f MPE方法采用这两种方式识别的结果相当.为保证f MPE的性能,其所需的高斯混元数为12 000个,这主要是因为其每一个域中所含有的参数和信息量较小,需要增大域的个数以保证信息量.由于它利用前后相关的后验概率信息进行特征变换,采用状态绑定的方式,会在一定程度上影响这种前后相关性的获取.在特征变换的基础上,对声学模型区分性训练后,识别性能得到进一步的提升,且基于状态绑定的特征变换方法其优势更为明显.

由上述的实验结果可知,基于状态绑定的RDLT能得到更好的识别结果,接下来将RDLT得到的变换矩阵构造一个字典,字典中共有800个字典项,采用正则化方法选取字典项,进行分段特征变换.在这个过程中,正则化参数λ1、λ2以及语音信号的分段时长对识别结果具有较大的影响,因此,分别讨论了上述参数在不同设置条件下的识别性能,识别结果如表2所示,括号内为稀疏度,其度量方式为零系数占所有系数的比例.

表2 不同正则化参数、分段时长的识别性能及其稀疏度

由表2的识别结果可知,基于分段的方法在引入正则项之后,识别性能都获得不同程度的提升.当对目标函数仅加入一个正则项时,L1正则化(λ1=5)的识别结果会优于L2正则化(λ2=20)的识别结果.加入L1正则化之后,当数据分段较小时,稀疏度较大;在相同的λ1值下,随着数据量的增大,所选择的特征变换矩阵也会增多;在相同的数据分段长度下,λ1值越大,稀疏度越大,所选择的变换矩阵越少.这也说明了L1约束具有参数选择功能,能够根据数据量的大小自适应地确定参数的数量.在相同的语音分段方式下,λ2值越大,识别性能越高.L2约束会给每一个变换矩阵分配权重,因此,文中没有计算其稀疏度.但所分配的权重系数中绝大部分接近于零,其可根据统计量信息进行权重的分配,有效防止某几个分量出现过大的值,来提高参数估计的稳健性.对目标函数同时加入L1和L2正则项,当λ1=5,λ2=10时,能得到最大的识别性能提升.

同时由表2中的识别结果可知,对语音采用不同的分段方式,其识别结果会有较大的差异.在对语音采用固定长度的分段方法中,将语音分成2 s一段的方式,能得到最优的识别结果.这主要是采用这一长度,能得到相对稳定的统计特性,得到的参数信息较为准确.随着分段长度的增大,识别性能反而会开始下降.这主要是因为当数据分段过大时,段内的声学性质会有较大的差异,即使是数据较为充分,也难以获得最好的参数估计,来同时描述差异性较大的语音信号段.采用强制对齐的分段方法,能得到最高的识别性能,这主要是因为对齐到相同状态的数据具有相类似的声学特性,利用这些数据能估计得到稳健的参数信息.另外,通过利用正则化方法,可根据语音段的声学性质和所拥有的数据量自适应地确定变换矩阵的数量,有效避免基于帧特征变换方法中要经验设定所需变换矩阵的个数.

表3 声学模型区分性训练的识别性能

在设置正则化参数λ1=5,λ2=10的条件下,分别采用固定长度2 s和强制对齐的方式对语音信号分段,并进行特征变换,在此基础上进一步对声学模型区分性训练,识别结果如表3所示.

由表3的识别结果可知,经过声学模型区分性训练后识别性能有较大程度的提升.这说明在语音分段的基础上进行特征变换,可有效克服声学模型对特征变换的影响,在特征变换求解优化过程中侧重于寻找区分性的特征.经过区分性训练后,采用强制对齐的分段方式其识别率提升幅度更大.

5 结束语

提出了一种基于语音分段的特征变换方法,并将压缩感知中的正则化方法引入到区分性特征变换中.通过采用状态绑定的方式训练得到特征变换矩阵,利用变换矩阵构造字典.针对某一语音段,为有效确定其最优的特征变换矩阵及加权系数,在特征变换的似然度目标函数中加入了正则化约束项,采用快速迭代收敛阈值算法对目标函数进行求解.实验结果表明,引入L1、L2正则项以及两者相结合的弹性网正则项,均能够提高语音识别性能.采用强制对齐的方式进行语音信号分段,可得到最好的识别性能,声学模型区分性训练后进一步提升了识别率.后续的研究可在目标函数中引入其他形式的正则化约束项.

参考文献:

[1]NASERSHARIF B,AKBARI A.SNR-dependent Compression of Enhanced Mel Subband Energies for Compensation of Noise Effects on MFCC Features[J].Pattern Recognition Letters,2011,28(11):1320-1326.

[2]POVEY D,KINGSBURY B,MANGU L,et al.f MPE:Discriminatively Trained Features for Speech Recognition[C]// Proceedings of the IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway:IEEE,2005: 961-964.

[3]ZHANG B,MATSOUKAS S,SCHWARTZ R.Recent Progress on the Discriminative Region-dependent Transform for Speech Feature Extraction[C]//Proceedings of the 9th International Conference on Spoken Language Processing.Baixas: ISCA,2006:1495-1498.

[4]FUKUDA T,ICHIKAWA O,NISHIMURA M,et al.Regularized Feature-space Discriminative Adaptation for Robust ASR[C]//Proceedings of the Annual Conference of the International Speech Communication Association.Baixas:ISCA,2014:2185-2188.

[5]POVEY D.Improvements to f MPE for Discriminative Training of Features[C]//Proceedings of the Annual Conference of the International Speech Communication Association.Baixas:ISCA,2005:2977-2980.

[6]KARAFIAT M,JANDA M,CERNOCKY J,et al.Region Dependent Linear Transforms in Multilingual Speech Recognition[C]//Proceedings of the IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway:IEEE,2012:4885-4888.

[7]DENG L,CHEN J S.Sequence Classification Using the High-Level Features Extracted from Deep Neural Networks [C]//Proceedings of the IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway:IEEE,2014:6844-6898.

[8]LIU D Y,WEI S,GUO W,et al.Lattice Based Optimization of Bottleneck Feature Extractor with Linear Transformation [C]//Proceedings of the IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway:IEEE,2014: 5617-5621.

[9]YAN Z J,HUO Q,XU J,et al.Tied-state Based Discriminative Training of Context-expanded Region-dependent Feature Transforms for LVCSR[C]//Proceedings of the IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway:IEEE,2013:6940-6944.

[10]ZIBULEVSKY M.L1-L2Optimization in Signal and Image Processing[J].IEEE Signal Processing Magazine,2010,27(3):76-88.

[11]EMRE Y,JORT F G,HUGO V H.Noise Robust Exemplar Matching Using Sparse Representations of Speech[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2014,22(8):1306-1319.

[12]ZHANG W B,FUNG P.Discriminatively Trained Sparse Inverse Covariance Matrices for Speech Recognition[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2014,22(5):873-882.

[13]LU L,GHOSHAL A,RENALS S.Regularized Subspace Gaussian Mixture Models for Speech Recognition[J].IEEE Signal Processing Letters,2011,18(7):419-422.

[14]YU Z,EKAPOL C,JAMES G.Extracting Deep Neural Network Bottleneck Features Using Low-rank Matrix Factorization [C]//Proceedings of the IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway:IEEE,2014: 185-189.

[15]BECK A,TEBOULLE M.A Fast Iterative Shrinkage-thresholding Algorithm for Linear Inverse Problems[J].SIAM Journal on Imaging Sciences,2009,2(1):183-202.

(编辑:齐淑娟)

Regularized discriminative segmental feature transform method

CHEN Bin,ZHANG Lianhai,QU Dan,LI Bicheng
(Institute of Information System Engineering,PLA Information Engineering Univ.,Zhengzhou 450001,China)

Abstract:In order to improve the stability of the frame based feature transform method,a segment based discriminative feature transform method is proposed,and the feature transform matrix of each speech segment is determined using the regularization technique.In the novel method,the feature transform is viewed as a parameter selection problem with limited data.In the training stage,an over-complete dictionary is constructed by the feature transform matrices of tied-state based region dependent linear transform.During testing,after the speech signal is segmented through force alignment,an appropriate regularization term is added to the likelihood objective function.An optimal subset of the transform matrices is selected from the dictionary and their corresponding coefficients are estimated following the fast iterative shrinkage thresholding optimization algorithm.Experimental results show that compared with the tied-state RDLT method,after combining L1and L2regularization,the recognition rate is increased by 1.30% using the maximum likelihood training criterion.The performance gain is increased to 1.66%after discriminative training.

Key Words:feature transform;speech recognition;region dependent;regularization;discriminative training

作者简介:陈 斌(1987-),男,解放军信息工程大学博士研究生,E-mail:chenbin873335@163.com.

基金项目:国家自然科学基金资助项目(61175017,61403415);国家863计划资助项目(2012AA011603)

收稿日期:2014-12-04 网络出版时间:2015-05-21

doi:10.3969/j.issn.1001-2400.2016.02.018

中图分类号:TN912.3

文献标识码:A

文章编号:1001-2400(2016)02-0102-06

网络出版地址:http://www.cnki.net/kcms/detail/61.1076.TN.20150521.0902.015.html

猜你喜欢
语音识别
空管陆空通话英语发音模板设计与应用
通话中的语音识别技术
面向移动终端的语音签到系统
农业物联网平台手机秘书功能分析与实现
基于LD3320的非特定人识别声控灯系统设计
航天三维可视化系统中语音控制技术的研究与应用
基于语音识别的万能遥控器的设计
基于语音技术的商务英语移动学习平台设计与实现
基于Android手机语音和Arduino控制板的机器人控制系统
支持向量机在语音识别中的应用