基于转换矩阵的GLRAM在MAP结构中说话者自适应的应用

2019-06-10 09:35李泽萌李娜蒋春燕
科技创新导报 2019年4期

李泽萌 李娜 蒋春燕

摘   要:本文描述了这一种新的说话者转换矩阵用基矩阵表示的说话者自适应的方法,利用最大似然线性回归转换矩陣(MLLR)的广义低阶近似(GLRAM)构建了基矩阵,用公式表示了在最大限度的后验(MAP)结构下说话者的自适应。

关键词:GLRAM  MAP  MLLR

中图分类号:G64                                    文献标识码:A                        文章编号:1674-098X(2019)02(a)-0154-02

1  引言

3  实验

实验中使用华尔街日报语料库WSJ0,在训练中使用了101个说话者的12,574种表达方式。作为特征向量,实验中使用了39维向量组成了13维的MFCC,以及它们的导数系数和加速系数。同时使用了20ms的汉明窗并以10ms滑动去提取特征向量。通过建立SI模型,使用MLLR得到了每个测试者的回归矩阵。这101个矩阵通过GLRAM被分解,这些分解矩阵用来建立基矩阵。在自适应和识别的测试中,使用了NOV92  5K非语言表态的自适应测试集合。在监督模式下,测试的8名说话者提取1~5个句子用于自适应测试,330个句子用于识别测试。在识别测试中,使用了WSJ 5K非语言表态的5K封闭词汇集和WSJ标准5K非语言表态的闭合双子字母组。以这个为基准,SI模型给出了91.45%的单词识别准确率。图1给出了实验结果。

4  结语

本文给出了说话者在SI模型下一名新说话者的转换矩阵的自适应系统,同时使用在来自于训练回归矩阵的GLRAM的基矩阵,用公式表示了在MAP框架下的自适应性,同ML配对比较,效果得到了改善。

参考文献

[1] C. J. Leggeter ,P. C. Woodland.Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov model,”[J].Comput Speech Lang, 1995,2(9):171-185.

[2] Y. Jeong ,H. S. Kim.“Speaker adaptation in transform space using generalized low rank approximations of matrices (GLRAM),”[J].in Proc. Spring Conf. KSSS,2012:27-28.

[3] J .Ye.“Generalized low rank approximations of matrices,”[J].Mach. Learn,2005,61(1-3):167-191.