基于改进的卷积神经网络的贵州方言辨识

2019-09-10 07:22艾虎李菲

现代信息科技 2019年1期

艾虎李菲

摘要：方言的辨别可为案件侦破提供重要线索，本文针对贵州方言辨别提出一种有效的方言辨识模型，从贵州省6个地区采集时长不等的语音样本，提取梅尔频率倒谱系数MFCC，然后利用多级二维离散小波变换提取MFCC中的低频分量同时进行压缩，然后采用滑窗进行信息重叠分块，对每块进行奇异值分解并保留高贡献率的特征向量，把分块合并后转换成一个3维矩阵作为方言辨识模型的输入数据。先对卷积神经网络进行改进，然后构建方言辨识模型，并采用交叉实验对该模型进行训练和验证，从而对二维离散小波变换的级数和滑窗的宽度进行优化。实验结果证明该模型对贵州方言辨识是高效的。

关键词：汉语方言辨识;梅尔频率倒谱系数;二维离散小波变换;奇异值分解;卷积神经网络

中图法分类号：TP391.4 文献标志码：A 文章编号：2096-4706（2019）01-0005-06

Identification of Guizhou Dialect Based on Improved Convolutional Neural Network

AI Hu1，LI Fei2

（1.Department of Criminal Technology，Guizhou Police College，Guiyang 550005，China;

2.The Education University of Hong Kong，Hong Kong 999077，China）

Abstract：Chinese dialect identification may provide an important clue for forensic investigation. This paper has proposed an effective dialect identification model for Guizhou dialect identification. The authors extracted Mel frequency cepstral coefficients （MFCC） from speech samples of different time lengths collected from six regions in Guizhou province，then extracted low-frequency components in MFCC with multi-stage two-dimensional discrete wavelet transform （2-DWT） for compression，and then used the sliding window to conduct information overlapping blocking. The singular value of each block was decomposed and high contribution rate feature vectors were retained，and the blocks were combined and converted into a 3-dimensional matrix as the input data of the dialect identification model. Firstly，the convolutional neural network （CNN） is improved，then a dialect identification model is constructed，and the model is trained and verified by adopting a cross experiment，so that the stages of the two-dimensional discrete wavelet transform and the width of the sliding window are optimized. The experimental results show that the model is efficient for Guizhou dialect identification.

Keywords：Chinese dialect identification;mel frequency cepstrum coefficients;two-dimensional discrete wavelet transform;singular value decomposition;convolutional neural network

0 引言

現代通讯工具在案件侦破中扮演着重要角色，对所产生的语音信息进行方言辨别可以判断犯罪嫌疑人的原籍地或长期居留地，从而为案件侦破提供重要的线索。由于方言的发音差异主要体现在频谱结构的时间变化上[1]，所以梅尔频率倒谱系数（Mel-Frequency Cepstral Coefficients，MFCC）[2]作为从语音样本中所提取的特征参数广泛应用于语音识别模型中。

目前，国内外语音识别的模型多不胜举，为了提高语音识别的鲁棒性，用于语音识别模型的方法包括区分性训练（Discriminative Training，DT）[3，4]、因子分析（Factor Analysis，FA）[5，6]和全差异空间（Total Variability，TV）[7，8]等，用于声学分类的模型包括隐马尔可夫模型（HMM）[9]、深度神经网络（DNN）[10]、卷积神经网络（CNN）和多层反馈网络（RNN）[11]等。由于目前汉语方言的辨别离实际的应用还有差距，所以采用新的方法构建汉语方言辨识模型很有必要。

为了提高卷积神经网络的鲁棒性，需要大量的语音训练样本，但大量的语音样本会导致所提取的MFCC的数据量巨大，所以需要先对MFCC进行压缩处理和提取更能反应方言差异的信息，然后构建方言辨识模型。本文从语音样本中提取MFCC，然后采用多级二维离散小波分解压缩和奇异分解处理数据，并对卷积神经网络进行改进，最后建立高效的方言辨识模型。

1 方言辨识模型描述

本文提出的方言辨识模型由两部分组成，即样本数据前处理和声学分类模型。样本数据前处理包括3级二维离散小波分解压缩和奇异值分解，奇异值分解包括采用滑窗（宽度为100）进行有重叠的分块操作、对每一分块分别进行奇异值分解并保留10个奇异值和按顺序合并分块并转换成1个16×16×N的3维矩阵作为声学分类模型的输入数据。声学分类模型采用改进的卷积神经网络，方言辨识模型结构如图1所示。

2 语音样本的收集与MFCC的提取

本研究基于贵州省内，收集和整理了贵阳市、安顺市、兴义市、凯里市、都匀市和六盘水市6个地区的不同性别不同年龄的1000份方言语音样本（年龄区间为15-60岁），收集的语音样本时长20-300秒不等，其中800份方言语音样本用來训练CNN，200份方言语音样本用来验证CNN。语音采样率为8000Hz，采样点数256，帧长设为32ms，帧移10ms，所提取的特征参数据矩阵为24维，其全部组成为：12维MFCC系数和12维一阶差分系数。所以一个语音样本提取得到的MFCC是一个N×24的矩阵。

3 样本数据前处理

3.1 二维离散小波变换与压缩

小波变换（wavelet transform，WT）[12]是一种功能强大的时频分析与处理方法，解决了Fourier变换的缺点，并广泛应用于图像处理、信号处理与模式辨识中。

首先对MFCC的转置矩阵（24×N）进二维离散小波变换（2-DWT），分解成高频分量与低频分量[13]，高频分量表示的是图片的细节，而低频分量表示的是近似值，2-DWT如公式（1）所示，提取低频分量，如公式（2）所示，公式（1）、（2）中i为假定值H、V和D的上标，M×N为图像大小，j0为任意的开始尺度。

本文采用Matlab的双正交小波bior3.7，其尺度函数与小波函数如图2所示，对语音样本“1-贵阳”的MFCC进行伪彩色编码得到数字灰度图像，对该数字灰度图像进行4次2-DWT分解压缩，每次只对前次的低频分量进行2-DWT分解压缩，对低频分量的列数进行1/2降采样，由于图像的像素矩阵的列数远远大于行数，所以对于行数每次降采样只减少1行，过程如图1中的二维离散小波变换所示，从而利用2-DWT分解去除高频分量而保留低频分量同时也进行了压缩，结果如图3所示。

3.2 奇异值分解SVD

奇异值分解[14]（Singular Value Decomposition，SVD）在计算上直接、快速而且健壮。其用于从大量数据中寻找所隐含的相关性，主要应用于模式辨识和数据压缩等方面。先把奇异值即特征向量按照重要性排列，然后去除不重要的特征向量保留重要的特征向量以此达到降维目的。

对语音样本的MFCC进行2-DWT分解得到低频分量的数据矩阵，由于该矩阵的列数依然很大，所以对低频分量数据矩阵采用滑动窗口进行有重叠的分块操作，滑动窗口的高度为低频分量矩阵的行数，从而得到分块矩阵A，N为被分块矩阵的列数，M为滑动窗口的宽度（列数），t为横向滑动的步长，如公式3所示：

对语音样本“1-贵阳”中的MFCC转置矩阵进行3级2-DWT分解提取低频分量，对低频分量进行滑动窗口分块操作，滑动窗口的宽度设为M=100，横向滑动的步长设为t=M/2，然后对每一分块数据进行SVD分解，如图1中奇异值分解所示。把得到的特征向量按贡献率从大到小进行排序，并绘制贡献率曲线图，然后把所有分块的贡献率曲线图合并在一起，如图4所示。我们可以观察到排列顺序为11-15的特征向量的贡献率几乎为0，所以每个分块只保留前10个特征向量，因此每个分块由19×100的矩阵压缩为19×10的矩阵，然后把压缩后的每个分块按顺序横向拼接成一个2维矩阵，映射成灰度图像，结果如图3所示。

3.3 数据标准化

由于语音样本录制的时间长度参差不齐，每个语音样本的MFCC矩阵经过转置后通过2-DWT分解和SVD分解压缩得到的数据矩阵的列数也不尽相同，所以必须对该数据矩阵按统一的长度（列数）进行无重叠分块操作，变换成一个16×16×N的3维矩阵Pi，不同语音样本的3维矩阵的N不尽相同。按语音样本的输入顺序把Pi沿着第3维方向拼接成1个3维矩阵P=（P1，P2，P3，…，Pk），k为输入的语音样本数，P作为卷积神经网络的输入矩阵。语音样本采集地共有6个，接采集地对语音样本的进行编号，同一个地区采集的语音样本用同一个编号，每一个输入语音样本的每一个16×16的2维矩阵对应一个6维输出列向量ti，把编号的值赋给ti中与编号顺序相对应的位置的元素，其它元素设为0，然后拼接成2维输出矩阵Ti，然后再按语音样本的输入顺序拼接成T=（T1，T2，T3，…，Tk），k为输入的语音样本数，T作为卷积神经网络的输出矩阵。

按上述的方法，把800份语音样本转换成训练卷积神经网络的输入矩阵Px和输出矩阵Tx，把200份样本转换成验证卷积神经网络的输入矩阵Pt和输出矩阵Tt。对于改进的卷积神经网络，用于验证的输出矩阵Tt有所不同，每一个语音样本的输入矩阵Pi（3维）只对应一个输出值，所以其用于验证的输出数据为k维行向量，k为输入的语音样本数。

为了使数据无量刚化并消除奇异样本和后面数据处理的方便并加快收敛，对输入矩阵进行归一化处理。

4 卷积神经网络方言辨识模型

卷积神经网络（Convolutional Neural Network，CNN）[15]最早由Yann LeCun提出并应用在手写字体识别（MINST）上。卷积神经网络仍然是层级网络，是由传統神经网络改进而来。其优点是共享卷积核，对多维数据的处理能力，能对特征进行自动选取，通过训练完成权重的设置，特征分类效果明显，因此卷积神经网络被广泛应用于图像识别中[16，18]。

4.1 改进的卷积神经网络

CNN一般由输入层、特征提取层与分类器组成，本文所构建的CNN的特征提取层由2个卷积层与2个池化层组成，分类器采用BP神经网络。一个2维矩阵输入就会有一个分类输出，考虑到一个语音样本得到的输入数据是一个3维矩阵，所以会有N个输出，而且这N个输出也不会完全相同，所以本研究在原有的CNN的基础上加上分类储存层F8与竞争输出层O9，目的是在这N个输出中选一个最合适的输出作为该语音样本的所属类别，分类储存层F8与竞争输出层O9只用于CNN的仿真而不用于训练。

由于语音样本有6个采样地区从而有6个类别，所以分类储存层F8设6个结点，即分类储存层F8中结点数等于语音样本的采样地区数，每一个节点分别对应一个采样地区也就是说对应一个类别，并且与输出层O7的6个结点中对应的结点相连接。一个语音样本的3维矩阵中的每一个2维矩阵的输入就会在输出层O7有一个相应的6维列向量的输出，然后把6维列向量中的数值最大的元素储存在分类储存层F8与之对应的节点中。

当一个语音样本的输入矩阵输入完毕并把分类结果分别储存于分类储存层F8的结点中后，分类储存层F8对各个节点中储存的数据的个数进行分别求合，如公式6所示，然后输入竞争输出层O9中，在竞争输出层O9中对求合的值进行比较，选出最大的求合值，如公式7所示，其对应的分类储存层F8节点所对应的分类作为竞争输出层的输出，输出的分类结果就是语音样本的辨识结果。改进的卷积神经网络如图5所示，参数设置如表1所示。

Ss为分类储存层F8第s个结点所储存的值的数量，m为分类储存层F8的结点总数，output为改进的CNN的输出，如公式（6）、（7）所示：

4.2 概率神经网络的训练

一个语音样本的MFCC经过PCA和压缩处理后得到一个数据矩阵，然后对该矩阵进行转置，按语音样本的输入顺序把不同样本的数据矩阵横向拼接，从而得到该概率神经网络模型的输入矩阵Pn。对上述位于贵州省的6个采样地区进行1～6编号，同一个地区的语音样本用相同的编号，每一个语音样本中的每一个列向量对应该语音样本的编号，从而一个语音样本对应一个N维行向量ti，按语音样本的输入顺序把不同样本的ti进行横向拼接，最后得到该模型的训练数据集的输出矩阵Tn。把输入向量矩阵Pn和输出向量Tn输入到概率神经网络PNN中，向量矩阵Pn构成样本层，每一列向量对映一结点，样本层结点的数目等于矩阵Pn列数。在求合层中，输出向量Tn中值相同的元素构成同一结点，即求合层中结点数等于地区数，样本层中的结点连接与其所属地区相同的求合层结点。完成概率神经网络模型的输入矩阵Pn和输出矩阵Tn的输入，即完成概率神经网络方言辨识模型的训练。

平滑因子σ在概率神经网络模型中很重要，太大会导致每个神经元响应区域交叉过多，会带来精度问题，过小会导致过拟合[11]。为了方便确定平滑因子σ，采用Matlab的newpnn（）函数构建另一个概率神经网络，把上述的训练数据分成数量相等的两部分，一部分用于训练，另一部分用于仿真，通过反复训练与仿真确定平滑因子σ为0.1。该平滑因子σ=0.1同样适用于本研究所构建的概率神经网络方言辨识模型。

5 实验及结果与分析

电脑的配置：CPU为英特尔酷睿i7-4790@3.60GHz四核;显卡为AMD Radeon R5 240（1GB/戴尔）;内存为8GB（三星 DDR3 1600MHz）。

5.1 交叉优化实验

本文设计交叉试验的目的是考察不同级数的2-DWT分解压缩和SVD前的滑窗宽度的不同对CNN的辨识结果的影响，寻找最优的数据前处理的方法。2-DWT分解压缩分别选择（1，2，3，4）级，滑窗的宽度分别选择（50，80，100，120）进行交叉试验，以800份语音样本作为训练数据，以200份语音样本作为验证数据，然后分别对CNN和改进的CNN进行训练和验证。CNN的辨识结果是针对200份语音样本的所有2维矩阵（16×16）的辨识结果的统计，如表2所示。

可以观察到2-DWT分解压缩选择3级和滑窗宽度选择100时模型辨识的正确率最高77.2727%，2-DWT分解压缩级数与滑窗宽度过高或过低都会导致正确率的下降，如图6所示。

而改进的CNN辨识结果是针对200份语音样本的辨识结果的统计，如表3所示。

改进的CNN相对于CNN的辨识结果有一定的提升，正确辨识率最高为90.5%，2-DWT分解压缩级数与滑窗宽度过高或过低都会导致正确率的下降，如图7所示。

对于改进的CNN输入一个语音样本的3维矩阵（16×16×N），在输出层O7得到N个辨识结果，然后把结果储存在分类储存层F8中。在分类储存层F8中，如果正确辨识结果的数量>50%，或虽然正确辨识结果的数量≤50%，但是正确辨识的数量依然大于辨识为其它任何一个分类的数量时，语音样本在竞争输出层O9都能被正确辨识。改进的CNN的辨识时间随着2-DWT分解级数与滑窗的宽度的增加而降底如图8所示，而正确辨识率为90.5%的200份语音样本的所用的辨识时间（不包括数据前处理）为10.1653秒，在实际事务的应用中属于可接受的范围，如果增强计算机的性能时间会缩短。

5.2 時长不同的语音样本试验

把用于验证的200份语音样本按时长区间分成3组（时长20-100/秒50份，时长101-200秒70份，时长201-300/秒80份），每组分别用训练好的改进的CNN辨识模型进行验证，结果如图9所示。可以看到语音样本的时长越长，模型的正确辨识率越高。

6 结论

本文针对贵州方言提出基于小波变换和奇异值分解的卷积神经网络方言辨识模型，首先提取语音样本中的MFCC，然后采用3级二维离散小波变换（2-DWT）和奇异值分解（SVD）提取MFCC中的低频分量并进行压缩和降维处理。根据输入数据的特征对CNN辨识模型进行了改进，提高了方言辨识的正确率。通过交叉实验对模型进行优化的同时也证明了方言辨识模型的有效性和实用性，而且用于辨识的语音样本的时长越长，模型辨识的正确率越高。

参考文献：

[1] BAKER W，EDDINGTON D，NAY L. DIALECT IDENTIFICATION：THE EFFECTS OF REGION OF ORIGION AND AMOUNT OF EXPERIENCE [J].American Speech，2009，84（1）：48-71.

[2] ALAM MJ，KINNUNEN T，KENNY P，et al. Multitaper MFCC and PLP features for speaker verification using i-vectors [J]. Speech Communication，2013，55（2）：237-251.

[3] BURGET L，MATEJKA P，CERNOCKY J. Discriminative Training Techniques for Acoustic Language Identification [C]//Acoustics，Speech and Signal Processing，2006. ICASSP 2006 Proceedings. 2006 IEEE International Conference on. S.l.：s.n.，2006，I：209-212.

[4] TSAI W H，CHANG W W. Discriminative training of Gaussian mixture bigram models with application to Chinese dialect identification [J]. Speech Communication，2002，36（3-4）：317-326.

[5] BAHARI MH.Non-Negative Factor Analysis of Gaussian Mixture Model Weight Adaptation for Language and Dialect Recognition [J]. Audio，Speech，and Language Processing，IEEE/ACM Transactions on，2014，22（7）：1117-1129.

[6] Yun Lei，HANSEN JHL. Factor analysis-based information integration for Arabic dialect identification [C]// Acoustics，Speech and Signal Processing，2009.ICASSP 2009. IEEE International Conference on Acoustics，2009：4337-4340.

[7] DEHAK N，KENNY P J，DEHAK R，et al. Front-end factor analysis for speaker verification [J]. IEEE Transactions on Audio，Speech and Language Processing，2011，19（4）：788-798.

[8] Dehak N，Torres-Carrasquillo P A，Reynolds D A，et al. Language Recognition via Ivectors and Dimensionality Reduction [C]// Proceedings of Conference of the International Speech Communication Association，Florence，Italy，August，2011：857-860.

[9] PUCHER M，SCHABUS D，YAMAGISHI J ，et al. Modeling and interpolation of Austrian German and Viennese dialect in HMM-based speech synthesis [J]. Speech Communication，2010，52（2）：164-179.

[10] Omar F.Zaidan，Chris Callison-Burch. Arabic Dialect Identification [J]. Computational Linguistics，2013，40（1）：171-202.

[11] Andrew Hunt. Recurrent neural networks for syllabification [J]. Speech Communication，1993，13（3-4）：323-332.

[12] Priyanka Singh，Priti Singh，Rakesh Kumar Sharma. JPEG Image Compression based on Biorthogonal，Coiflets and Daubechies Wavelet Families [J]. International Journal of Computer Applications，2011，13（1）：1-7.

[13] Rafael C. Gonzalez Richard E，Woods. Digital Image Processing（3rd Edition） [M]. Beijing：Publishing House of Electronics Industry，2007：306-312.

[14] Press W H，Flannery B P，Teukolsky S A，et al. Numerical recipes in C：the art of scientific computing [M]. Cambridge：Cambridge University Press，1988.

[15] LECUN Y，BOTTOU L，BENGIO Y，et al. Gradient-based learning applied to document recognition [J]. Proceedings of the IEEE，1998，8（11）：2278-2324.

[16] TURAGA C S，MURRAY F J，JAIN V，et al. Convolutional Networks Can Learn to Generate Affinity Graphs for Image Segmentation [J]. Neural Computation，2010，22（2）：511-538.

[17] Yangyan Li，Hao Su，Charles Ruizhongtai Qi，et al. Joint embeddings of shapes and images via CNN image purification [J]. ACM Transactions on Graphics （TOG），2015，34（6）：1-12.

[18] Li G，Yu Y. Visual Saliency Detection Based on Multiscale Deep CNN Features [J]. IEEE Transactions on Image Processing，2016，25（11）：5012-5024.