基于MFCC特征聚类变换的歌曲中歌声的识别

2017-02-27 15:33吕兰兰
电脑知识与技术 2016年31期

吕兰兰

摘要:针对直接采用MFCC作为歌曲中歌声识别的特征参数存在数据量大、且所包含的歌手歌唱特征较少的问题,提出一种基于MFCC特征聚类变换的歌曲中歌声的识别方法。通过对MFCC特征进行GMM聚类变换,以各个高斯分布的均值作为SVM分类器的特征参数,利用GMM数据描述能力强的特点,突出歌手的歌唱特征,降低特征参数的数据量。实验结果表明,该方法在歌曲中歌声识别上的平均识别率较标准GMM方法略有提高,且数据处理量减少了65.8%。

关键词:歌曲中歌声的识别;MFCC;特征聚类变换;高斯混合模型

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)31-0170-02

Abstract: Using MFCC directly as feature parameters for singing voice detection in songs leads to large amount of feature parameters and insufficient singers singing characteristics. Aim to this, an approach based on clustering and transform of MFCC is proposed in this paper. After GMM clustering of MFCC, the mean of each individual Gaussian distribution is adopt as the new feature for the SVM classifier. The new feature utilizes GMMs great ability of data description, so as to highlight singers singing characteristics and reduce the amount of feature parameters. The experimental results show that the approach proposed in this paper performs a little well than the combination of MFCC and standard GMM, along with the decreasing amount of processing data .

Key words:singing voice detection;MFCC;feature clustering and transform

1 引言

歌曲中歌声识别的任务是,在歌曲中定位歌手开始歌唱以及持续的片段[1]。歌曲从结构上通常可以划分为歌手演唱部分和纯伴奏部分,其中歌手演唱部分通常是人声与伴奏音乐的叠加,而纯伴奏部分则不含人声、纯粹由伴奏乐器的声音构成。目前在歌曲中歌声识别方法中,常用的声学特征参数有:线性预测系数(Linear Predict Coefficients,LPC)[1]、感知线性预测系数(Perpetual Linear Predict Coefficients,PLPC)[2]、梅尔频率倒谱系数(Mel - Frequency Cepstral Coefficients,MFCC)[3][4]、对数频率功率系数(Log Frequency Power Coefficients,LFPC)[5]等。而目前在歌曲中歌聲识别方法中,常用的分类器包括:隐马尔科夫模型(HMM)[1]、高斯混合模型(GMM)[3][4]、支持向量机(SVM)[6]、人工神经网络(ANN)[7]等。文献[8]的研究结果表明,在使用同一分类器对各种声学特征进行歌曲中的歌声识别时,MFCC的识别效果最好。同时,研究表明,GMM具有较强的数据描述能力,但分类能力较弱,而SVM的数据描述能力较弱,但分类效果更好[9-10]。因此,本文尝试采用MFCC作为声学特征,提出使用GMM和SVM相结合的方法来对歌曲中的歌唱部分和纯伴奏部分进行区分。

MFCC特征参数不仅可用于话者识别,还用于语音识别、语种识别等,是因为MFCC特征参数中不仅包含说话人信息,还包含丰富的语义信息、语种信息等多种信息。因此,直接采用MFCC作为歌曲中歌声识别的特征参数,将会导致特征参数中含有大量冗余信息、存在数据量大的问题。同时,特征参数中包含歌手的演唱特征较少,需要收集大量歌曲样本,即包含各种歌手演唱的歌曲样本,才能表征出歌手的演唱特征。同时,训练歌唱GMM模型和伴奏GMM模型都需要较多的训练数据。以上这些因素都会导致数据处理量很大。

针对上述问题,本文提出一种对MFCC特征进行聚类变换的歌曲中的歌声识别方法。通过对MFCC特征进行GMM聚类变换,得到各个单高斯分布的均值作为SVM分类器的特征参数。既利用了GMM数据描述能力强的特点,突出歌手歌唱的个性特征,降低特征参数的数据量;同时也利用了SVM分类能力强的优势。

2 对MFCC特征的聚类变换

2.1 MFCC特征的提取

使用经过人工标注的歌曲作为训练数据,经过预加重,加汉明窗分帧处理,本文采用的帧长为20ms。对每一帧提取13维MFCC及其一阶和二阶差分作为特征参数,共计39维。

2.2 基于GMM聚类的特征变换

根据高斯混合模型(Gaussian Mixture Model, GMM)的定义可知,高斯混合模型是用M个单高斯分布的概率密度函数的线性加权组合来对一个特征数据集的统计分布进行描述的。其中,每个单高斯分布的概率密度函数可用均值、协方差及权重来表述(m=1,2,...,M)。因此,可以把GMM中的每个单高斯分布看成一个类别,那么均值描述了该类数据的平均大小,反映了不同特征向量在在特征空间的相对位置,协方差描述了数据分布的密集程度,权重描述了属于该类的数据的多少。所以,对一个特征数据集进行GMM的训练过程,也可以看成是对该特征数据集进行GMM聚类的过程。因此,也可使用GMM聚类对MFCC特征进行特征变换。本文直接采用各个单高斯类的均值作为GMM聚类后的变换特征。本文采用的高斯混合数m为256。

3基于SVM的歌曲歌唱部分检测

3.1 SVM的训练

根据人工标注将提取出的MFCC特征参数分为歌唱MFCC特征和纯伴奏MFCC特征两类,分别融合在一起得到歌唱MFCC特征数据集和纯伴奏MFCC特征数据集。首先,对歌唱MFCC特征数据集进行GMM聚类,将得到的变换特征向量序列记为{, , ...,},其中,s代表singing,即歌唱部分。并且,将该变换特征向量序列对应的类别全部标记为+1。然后,对纯伴奏MFCC特征数据集进行GMM聚类,将得到的变换特征向量序列记为{, , ...,},其中,i代表instrumental,即纯伴奏部分。并且,将该变换特征向量序列对应的类别全部标记为-1。最后,用这些数据对SVM进行训练,得到支持向量和最优分类超平面。本文采用的SVM核函数是径向基内核。

3.2基于SVM的歌声/纯伴奏的识别

对测试歌曲中的歌声片段进行识别时,首先对其分帧,假设共有T帧,每一帧提取MFCC特征向量,这样得到一个初始的MFCC特征向量序列{x1, x2, ..., xT}。对得到的MFCC特征向量序列{x1, x2, ..., xT}进行GMM聚类,将得到的变换特征向量序列记为{, , ...,}。利用前面训练好的SVM进行分类,设分类结果为{w1,w2,...,wM},其中wm={+1, -1},m=1,2,...,M。以w1为例,如果w1=+1,则意味着所代表的类别中的所有初始MFCC对应的帧均识别为歌声帧;如果w1=-1,则意味着所代表的类别中的所有初始MFCC对应的帧均识别为纯伴奏帧。

4 实验结果及分析

实验中使用的音频数据库由60段英文流行歌曲组成,每段长度为15秒。对这60段歌曲的歌声片段和纯伴奏片段分别进行了手工标注,并将标注结果保存在对应的*.lab文件中。具体来说,将歌曲的歌声片段标注为singing,而将纯伴奏片段标注为non-singing。测试方法为留一交叉检验。采用基于帧的识别率来评价识别效果,计算公式如下:

表1给出了使用MFCC特征结合GMM模型和使用MFCC聚类变换特征结合SVM的识别结果。从表1中可以看到,使用MFCC聚类变换特征结合SVM进行识别,平均识别率略有提高。同时,平均处理数据量大大降低,仅为聚类变换之前的34.2%。

5 结论

本文采用对MFCC特征经过GMM聚类后的变换特征,即各个单高斯分布的均值,作为新的特征参数,并采用SVM作为分类器,进行歌曲中歌声的识别研究。相对初始的MFCC特征,变换特征利用GMM数据描述能力强的特点,突出了歌手歌唱的个性特征。且变换特征的数据量相对于初始MFCC特征的数据量减少了65.8%,有利于提升识别速度。同时,采用SVM作为分类器,利用了SVM分类能力强的优势,弥补了GMM区分能力较弱的不足,实验结果表明平均识别率略有提高。

参考文献:

[1] Berenzweig A L, Ellis D P W. Locating singing voice segments within music signals[C]. IEEE Workshop on the Applications of Signal Processing to Audio and Acoustics, 2001:119-122.

[2] Berenzweig A, Ellis D P W. Using Voice Segments to Improve Artist Classification of Music[J]. Proc Aes, 2002:1-8.

[3] Tsai W H, Wang H M. Automatic singer recognition of popular music recordings via estimation and modeling of solo vocal signals[J]. IEEE Transactions on Audio Speech & Language Processing, 2006, 14(1):330-341.

[4] 鄭能恒, 张亚磊, 李霞. 基于模型在线更新和平滑处理的音乐分割算法[J]. 深圳大学学报(理工版), 2011, 28(3):271-275.

[5] T. L. Nwe, A. Shenoy, and Y. Wang, “Singing voice detection in popular music,” in Proc. 12th Annu. ACM Int. Conf. Multimedia, 2004, pp.324-327.

[6] Maddage N C, Wan K, Xu C, et al. Singing voice detection using twice-iterated composite Fourier transform[C]. IEEE International Conference on Multimedia and Expo. 2004:1347-1350 Vol.2.

[7] Tzanetakis G. Song-specific bootstrapping of singing voice structure[C]. IEEE International Conference on Multimedia and Expo. IEEE, 2004:2027-2030 Vol.3

[8] M. Rocamora and P. Herrera. Comparing audio descriptors for singing voice detection in music audio files. in Proc. of Brazil-ian Symposium on Computer Music, 11th. San Pablo, Brazil, volume 26, page 27-30, 2007.

[9] Wu F, Sun S, Zhang J, et al. Singing voice detection of popular music using beat tracking and SVM classification[C]// Ieee/acis, International Conference on Computer and Information Science. IEEE, 2015:525-528.

[10]王天江,陈刚,刘芳. 一种按节拍动态分帧的歌曲有歌唱部分检测新方法[J]. 小型微型计算机系统, 2009, 30(8): 1561-1564.