基于多分类器融合的语音识别方法研究

2011-02-26 08:20王国胤
关键词:贝叶斯权值分类器

孔 浩,杨 勇,王国胤

(重庆邮电大学计算机科学与技术研究所,重庆 400065)

0 引言

语音识别是语音信号处理的一个重要研究方向,也是模式识别的一个分支,它涉及生理学、语言学、计算机科学、通信科学等诸多领域,是实现人机交互的重要手段。语音识别的系统实现通常包括预处理、特征提取、建立模板库、以及分类器的设计等几个步骤。计算机通过对音频采集工具获得的语音信息进行分析,求取能够反映语音本质的一系列语音特征,最后使用分类器与训练模板进行比对得出识别结果。显然,在此过程中,分类器的设计是语音识别系统性能好坏的关键。目前用于语音识别的分类方法有:采用判别函数或准则的方法;隐马尔科夫(hidden merkovmodel,HMM)模型的方法;人工神经网络(artificial neural network,ANN)的方法;支持向量机(support vectormachine,SVM)的方法等。

从机器学习的角度看,各种学习器(分类器)由于自身的差异往往会导致不同的分类结果,其分类性能也不尽相同,而没有一种分类算法能对所有的应用都取得很好的结果。将多个分类器得到的分类信息进行综合处理,得出最终的分类结果,称为多分类器融合[1]。由于分类器融合的方法可以综合不同分类器的特点,从而避免了单一分类器可能存在片面性的问题,因此,分类器的组合往往可以比单一分类器得到更好的结果。目前,多分类器融合的方法已经广泛应用于机器学习、模式识别等领域。文献[2]采用数据融合的方法对SVM进行改进,并成功地应用于语音识别系统中,取得了较好的效果;文献[3]将HMM和ANN 2种分类器组合,弥补了各自分类器的不足,从而提高了情感语音识别的分类效果;文献[4]提出将一种基于分类高斯混合模型和神经网络融合用于说话人识别,获得较好的识别性能。

本文提出了一种基于多分类器融合的语音识别方法,利用加权评分的投票策略,对几种分类器进行融合,旨在综合单一分类器的特点,获得更好的识别效果。

1 语音特征提取与选择

语音特征参数的提取是在对语音信息进行分帧处理后,每帧特征参数构成一个矢量序列,矢量序列经过压缩以后成为语音的模板。特征参数的选取对识别效果有很大的影响,它是语音识别系统成功与否的关键,它的好坏直接影响到语音识别的精度。

通过对语音信号的分析可以获得语音识别所需要的语音特征。根据分析方法的不同可以将语音信号分析分为模型分析方法和非模型分析方法。模型分析方法是指根据语音信号产生的数学模型来分析和提取表征这些模型的特征参数,比如,共振峰特征估计、线性预测模型;而非模型分析法又包含了时域分析、频域分析、倒谱域分析等。本文首先提取振幅能量,基音周期,共振峰,MFCC,LPCC这5种不同类别共29个特征参数的组合,如表1所示。

再利用基于Rough理论的属性约简算法——基于条件熵的属性约简算法(CEBARKNC)[5]对提取到的特征进行约简,最终得到一组特征序列。选择到的特征序列即为最终用于语音分类的识别参数,如表2所示。

表2 特征选择后的特征序列Tab.2 Feature array after Feature selection

2 多分类器融合

单分类器的识别往往是从单一的角度来认识待识别样本,如果能够将这些不同特性的分类器进行有效的融合,则能够从更全面的角度认识待识别样本,从而得到更好的识别效果。多分类器融合是目前模式识别领域的一个研究热点。

2.1 成员分类器

成员分类器选择的目的就是使各个分类器能够互补优势,从而构造出最佳分类器。因此,成员分类器之间应该具有理论上的差异性,这样才可能得到较好的融合结果。本文选取 SVM[6]、径向基函数(radial basis function,RBF)神经网络[7]、贝叶斯网络[8]作为成员分类器。

2.1.1 SVM

SVM是针对小样本的机器学习理论。它是统计学习理论的一种实现方式,它将样本学习精度和学习空间复杂度之间采取了一种折中,从而使所得模型对与未知样本具有好的推广泛化能力。与传统基于经验风险最小化原则方法不同,SVM运用结构风险最小化原则来实现分类,将分类问题简化成为一个风险最小化问题。

2.1.2 RBF神经网络

RBF神经网络是一种局部逼近的多层前向神经网络,具有算法简单、收敛快、逼近效果好、泛化能力强的特点。RBF是通过非线性基函数的线性组合实现从输入空间到输出空间的非线性转换。RBF神经网络是一个3层网络,其中,输入输出由线性神经元组成,隐层节点是高斯核函数。该函数能对输入产生局部响应,从而将输入空间划分为若干小的局部区间,已达到分类的目的。

2.1.3 贝叶斯网络

基于概率推理的贝叶斯网络是为了解决不定性和不完整性问题而提出的,它是一种概率网络,而贝叶斯公式是这个概率网络的基础。一个贝叶斯网络是一个有向无环图,由代表变量节点及连接这些节点的有向边构成。通过对节点的抽象便可以应用于各种问题,广泛用于不确定性决策、数据分析以及智能推理等领域。

2.2 多分类器融合方法

分类器的融合就是要把多个不同的分类器结合,从而形成一个集成化的分类器,即将多个分类器的判定结果通过一定规则合并为最终输出结果。目前多分类器融合的方法有很多,如投票法、证据理论方法、神经网络方法、模糊积分方法等。本文提出的分类器系统结构如图1所示。

图1 语音识别系统结构流程图Fig.1 System flowchart for speech recognition

常用的分类器决策融合采用相对多数投票的原则,即少数服从多数,半数以上通过作为规则进行判别,并最终得到结果。然而基本的投票表决法原则并没有考虑到不同的分类器具有不同分类性能,投票过程中自然也无法体现性能高的基本分类器的优势,因此,本文采用一种加权评分的投票策略对SVM,RBF神经网络与贝叶斯网络3种分类器进行融合。

加权投票的思想主要是根据基本分类器的不同性能,使其在投票时拥有的表决权有所不同,往往精度高的分类器,就会有比较大的权值。本文首先将提取到的特征分别通过3种分类器,从而得到初步的识别结果,即各个分类器对待识别样本的分类预测所得到的3个类别。然后用加权投票的思想对这3个类别进行分析:如果3个类别相同,则将待识别样本归为此类;如果其中2个类别相同,那么将类别相同的2个权值之和与不同类别的权值进行比较,以确定两者较大的值为分类结果;如果3个类别都不相同,那么将权值最高的分类器所识别的结果作为融合后的结果。

令SVM,RBF神经网络以及贝叶斯网络分类器为集合 F={x1,x2,x3},其权值分别为 α1,α2,α3,分别代表3种分类器对最终融合的重要程度。识别样本分为n类,即集合G={g1,g2,…,gn}。其中,α1,α2,α3权值的获得对融合效果有非常重要的作用,根据单个分类器本身的识别效果不同,本文从整体训练样本中提取若干样本作为校验集,通过求取校验集的识别率来确定3种分类器的权值参数。设SVM,RBF神经网络,贝叶斯网络对校验集的识别率分别为 P1,P2,P3,则设

3 实验及其分析

本文采用自建语音样本库,其中3男2女,每人发音10次,发音内容为数字0~9,共得到500个短句。通过特征提取,获得500个样本的特征序列,每个样本有29阶语音特征。所提取的样本库的内容合成一个二维表,构成了一个决策表系统。其中,29阶语音特征作为条件属性,语音的类别即0~9作为决策属性。经过基于Rough集方法的特征选择算法,得到用于多分类器融合的12阶特征,分别为振幅能量 +第二共振峰 +8阶的 MFCC+2阶的LPCC。

实验一 将提取到的12阶特征参数分别导入SVM,RBF神经网络,贝叶斯网络3种分类器。其中,导入各个分类器的训练集与测试集完全一致,都是以4:1的训练集与测试集比例分割数据,因此,训练集为375个,测试样本为125个。由于在本文中各个分类器的权值是由校验集来确定的,在整个样本空间中,同样选择125个校验样本。并首先由训练集和校验集确定3种分类器,其权值分别为α1,α2,α3,然后,再将测试样本分别导入分类器得到初步的识别结果,如表3所示。

表3 一组测试样本导入单一分类器的识别结果Tab.3 Recognition results for single classifier

将表3的信息代入本文提出的算法,发现融合后的误识样本仅剩52,90,则得到98.4%的理想识别率。其中,编号为40的样本,虽然有2个分类器都是误识,但是由于误识的结果不一样,RBF神经网络将其误识为第4类,而贝叶斯网络将其误识为第0类,造成3个分类器产生3个不同结果。而根据本文提出算法以及对各个分类器设置的权值,可以得到此测试样本的正确归属类别,进一步证明了本文提出的加权投票的语音识别方法的有效性。

实验二 用四交叉验证对数据集进行测试,结果如表4所示。

表4 各种分类器平均识别率Tab.4 Average recognition rate of differenf classifiers

根据多次的样本测试,发现本文融合算法的识别率对于每个单一分类器的识别率都有着显著的提高,说明本方法能够达到综合各个分类器特点的作用,从而弥补了单一分类器可能存在的片面性问题。

4 结论

SVM,RBF神经网络以及贝叶斯网络作为分类器有着自身不同的特点,通过加权评分的投票决策,3种分类器进行了有效的融合,得到了单一分类器之间的性能互补,从而使识别结果有了显著提升。通过实验表明,本文将提出的基于多分类器加权融合的方法用于语音识别是有效的。

[1]DUIN R,TAX D.Experiments with classifier combining rules.In Proceedings of the 1st International Workshop on Multiple Classifier Systems(MCSC2000)[M].Italy:Cagliari,2000:16-19.

[2]蔡铁,朱杰.一种基于类融合向量的支持向量机及其在语音识别系统中的应用[J].电路与系统学报,2005,6(10):106-110.

CAITie,ZHU Jie.An improved support vectormachine based on class-fusion vectors and application in speech recognition system[J].Journal of Circuits And Systems,2005,6(10):106-110.

[3]罗毅.一种基于HMM和ANN的语音情感识别分类器[J].微计算机信息,2007,12-1(23):218-219.

LUO Yi.A Human Speech Emotion Recognition Classifier based on Hidden Markov Model and Artificial Neural Network[J].Control& Automation,2007,12-1(23):218-219.

[4]黄伟,戴蓓蒨,李辉.基于分类高斯混合模型和神经网络融合的与文本无关的说话人识别[J].模式识别与人工智能,2003,16(4):423-428.

HUANGWei,DAIBei-qian,LIHui.Text-independent Speaker Recognition Based On Classify Gaussian Mixture Model And Neural Net Fusion[J].Pattern Recognition And Artificial Intelligence,2003,16(4):423-428.

[5]王国胤,于洪,杨大春.基于条件信息熵的决策表约简[J]. 计算机学报,2002,27(12):89-94.

WANG Guo-yin,YU Hong,YANG Da-chun.Decision Table Reduction based on Conditional Information Entropy[J].Chinese Journal of Computers,2002,27(12):89-94.

[6]CHRISTOPHER JC.Burges.A tutorial on support vector machines for pattern recognition[J].Data Mining and Knowledge,1998,2(2):121-167.

[7]林嘉宇,刘荧.用于语音信号非线性建模的RBF神经网络的训练方法及其性能[J].信号处理,2001,17(4):322-328.

LIN Jia-yu,LIU Ying.Training Methods and the Performances of RBFNeural Networks for Non-linear Modeling of Speech Signals[J].SignalIGNAL Processing,2001,17(4):322-328.

[8]陈英武,高妍方.贝叶斯网络扩展研究综述[J].控制与决策,2008,23(10):1081-1086.

CHEN Ying-wu,GAO Yan-fang.Survey of extended Bayesian networks[J].Control And Decision,2008,23(10):1081-1086.

(编辑:刘 勇)

猜你喜欢
贝叶斯权值分类器
一种融合时间权值和用户行为序列的电影推荐模型
CONTENTS
基于实例的强分类器快速集成方法
基于权值动量的RBM加速学习算法研究
基于多维度特征权值动态更新的用户推荐模型研究
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
基于贝叶斯估计的轨道占用识别方法
基于互信息的贝叶斯网络结构学习
一种基于贝叶斯压缩感知的说话人识别方法