基于神经网络的汉语声韵母可视化方法

2017-03-23 10:21韩志艳
电子设计工程 2017年5期
关键词:韵母可视化语音

韩志艳,王 健

(渤海大学 辽宁 锦州 121000)

基于神经网络的汉语声韵母可视化方法

韩志艳,王 健

(渤海大学 辽宁 锦州 121000)

为了克服现有语音可视化方法的局限性,该文提出了一种基于神经网络的汉语声韵母可视化方法,通过集成不同的语音特征进入一幅图像中为聋哑人创造了语音信号的可读模式。采用小波神经网络来进行位置信息映射和颜色信息获取,由于小波神经网络具有结构可设计性、收敛精度可控性和收敛速度快的优点,有效地提高了汉语声韵母的正确编码率。而且将图像分为12个不同颜色的显示区域,每个显示区域内的音具有相似的发音特点和相同的发音部位,这就更好地利用了聋哑人对色彩刺激的视觉记忆能力较强的优点。与现有方法相比,具有很好的鲁棒性和易懂性。

语音可视化;神经网络;语音信号;汉语声韵母;特征提取;主成分分析

语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段。而对聋哑人来说,语言交流变成一件很难实现的事情,一部分聋哑人不能说话是因为他们的听觉器官遭到破坏,不能将语音信息采集到大脑[1-2]。研究表明,人类听觉系统和视觉系统是两个性质不同的并具有互补性的信息系统,视觉系统是一个高度并行的信息接收和处理系统,人类眼球中视网膜上的数百万个锥状细胞通过纤维状神经组织与大脑相连,形成一个高度并行的信道,视觉信道接受信息的速率是很高的,据测量和估算,看电视时的信息接收速率大致可达到2×104 b/s,这比听觉系统听语音时的信息接收速度高出上千倍,因此人们相信人类所获得的信息有70%是通过视觉获得的说法。所以对于聋哑人来说,这无疑就是一个很大的助手,听觉的缺陷由视觉来补偿,语音不仅能听见,还可以通过多种其他形式使聋哑人“看”见[3-5]。

1947年R.K.Potter和G.A.Kopp等人就提出了一种可视化方法—语谱图,随后有不同的语音研究专家开始研究改进这种语音可视化方法,比如在1976年L.C.Stewart等人提出了有色谱图和1984年G.M.Kuhn等人提出了对聋人进行训练的实时的语谱图系统,以及1986年P.E.Stern、1998年F.Plante和2008年R.Steinberg等人也提出了许多语谱图的改进方法,但是显示的语谱图的专业性很强,而且很难辨别记忆。尤其是对于同一个语音不同的人来说,甚至是同一个语音同一个人来说都有可能造成语谱图的变化,对于不同环境下录制的语音信号其鲁棒性能更为不好。

此外,还有一些学者对人的发音器官的运动变化以及面部表情的变化来实现语音可视化,有效地剖析了人的发音过程,但就其语音可懂度而言,还难以达到理想效果,除极少数专家以外,人们很难直接通过观察发音器官的运动和面部表情的变化而准确地感知语音。因此,该文提出了一种基于神经网络的汉语声韵母可视化方法,与现有方法相比,具有很好的鲁棒性和易懂性。弥补了用语谱图来进行可视化很难辨别和记忆的缺点。无论是听力受损人群还是普通人,经过一段时间的专门训练,都可以直观地辨识出该可视化图像所对应的发音,并和健全人进行交流。

1 可视化系统总体结构

如图1所示为本可视化系统的总体结构框图,其包括语音信号获取、语音信号预处理、语音特征提取、PCA降维、神经网络设计、位置信息映射、颜色信息获取及图像合成。首先对获取的语音信号进行预处理及特征提取,然后用主成分分析法PCA对获取的语音特征参数进行降维处理,再通过神经网络获得相应的位置信息和颜色信息,最后通过图像合成模块生成可视化图像,实现对23个声母和24个韵母的可视化。

图1 系统总体结构图

2 可视化方法具体实施

2.1 语音信号获取及预处理

利用麦克风输入语音数据,然后以11.025 kHz的采样频率、16 bit的量化精度进行采样量化,获得相应的语音信号。然后利用一阶数字预加重滤波器对获取的语音信号进行预加重处理,其中利用的预加重滤波器的系数取值范围为0.93~0.97之间。接下来以帧长256点的标准进行分帧处理,并对分帧后的语音信号加汉明窗处理,再利用短时能零积法进行端点检测。

2.2 语音特征提取及PCA降维

步骤1:计算共振峰特征

采用基于Hilbert-Huang变换的方法来估算预处理后的语音信号共振峰频率特征,得到每帧信号的共振峰特征值F1,F2,F3,F4。具体由快速傅里叶变换(FFT)初步估计出的语音信号的各阶共振峰频率确定相应带通滤波器的参数,并用该参数对语音信号作滤波处理,对滤波后的信号进行经验模态分解(EMD)得到一族固有模态函数(IMF),按能量最大原则确定出含有共振峰频率IMF,计算出该IMF的瞬时频率和Hilbert谱即得到语音信号的共振峰频率参数[6]。

步骤2:计算WPTC特征参数

根据小波包变换在各分析频段的恒Q(品质因数)特性与人耳听觉对信号的加工特点相一致的特点,结合小波包对频带的多层次划分,并根据人耳感知频带的特点,自适应地选择相应频带,计算出基于小波包变换的语音信号鲁棒特征参数(WPTC):WPTC1~WPTC20[7]。

步骤3:计算PMUSIC-MFCC特征参数

为改善语音可视化的鲁棒性,采用多信号分类法(Multiple Signal Classification,MUSIC)的谱估计技术并在其中引入感知特性,计算出基于MUSIC和感知特性的鲁棒特征参数(PMUSIC-MFCC):PMUSIC-MFCC1~PMUSIC-MFCC 12[8]。

步骤4:计算Mel频率倒谱系数

根据人耳对不同频率语音的感知特性,提出了Mel频率的概念,从而计算出Mel频率倒谱系数(MFCC):MFCC1~MFCC 12。具体将经过预处理后的每帧语音信号进行离散傅里叶变换得到线性频谱,并通过Mel频率滤波器组得到Mel频率,然后取对数并进行离散余弦变换得到Mel频率倒谱系数。

用主成分分析法PCA对上述语音特征参数进行降维处理[9-11],将初始的48维特征向量降为12维特征向量。

2.3 神经网络设计

小波神经网络是以小波基函数为神经元激励函数的前馈网络模型,它作为一种前向神经网络,与基于Sigmoid函数的BP网络和径向基 (RBF)网络相比,具有结构可设计性、收敛精度可控性和收敛速度快等优点[12-14]。该文中小波神经网络采用3层结构,如图2所示,其具体的设计步骤和学习算法参照文献[15]。

图2 小波神经网络结构

2.4 位置信息映射

将PCA降维后的语音特征参数作为神经网络的输入,神经网络的输出即为相应的位置信息,神经网络的输出层有6个神经元,均采用二进制编码,共有64个不同的码,按着由左到右、由上到下的顺序依次对应着图像中的一个位置并用“0”、“1”组合进行编码,如图3所示,只用前47个码,依次对应着a o e i u ü y w an en in un ün j q x b p m f d t n l ang eng ing ong zh ch sh r g k h z c s ai ei ui ao ou iu ie üe er。如000000代表第一行第一列的那个位置,对应着韵母a,000001代表第一行第二列的那个位置,对应着韵母o,以此类推。

图3 位置信息映射示意图

2.5 颜色信息获取

神经网络的输出将特征编成64个不同的码,其中只用前47个码,按着由左到右、由上到下的顺序,每个码对应一个位置,通过给屏幕相应位置的RGB赋值,来获取颜色信息。该文将图像分成12个不同颜色的显示区域,每个显示区域内的音具有相似的发音特点或相同的发音部位。如码000000,000001,000010,000011,000100,000101为1区,即单韵母区,设定R=0.95,G=0.75,B=0.68,颜色为桃红色;码000110,000111为2区,即y w区,设定R=0,G=0.95,B=0,颜色为绿色;码 001000,001001,001010,001011,001100为3区,即前鼻韵母区,设定 R=0.52,G=0.38,B=0.76,颜色为蓝紫色;码001101,001110,001111为4区,即舌面前音区,设定 R=0.25,G=0.52,B=0.18,颜色为深绿色;码010000,010001,010010为5区,即双唇音区,设定R=0.12,G=0.98,B=0.76,颜色为蓝绿色;码010011为6区,即唇齿音区,设定R=0,G=0,B=0.55,颜色为蓝色;码010100,010101,010110,010111为7区,即舌尖中音区,设定R=0.75,G=0,B=0.55,颜色为紫色;码011000,011001,011010,011011为8区,即后鼻韵母区,设定R=0.75,G=0,B=0,颜色为红色;码011100,011101,011110,011111为9区,即舌尖后音区,设定R=0.98,G=0.96,B=0,颜色为黄色;码100000,100001,100010为10区,即舌根音区,设定R=0.87,G=0.87,B=0.79,颜色为灰白色;码100011,100100,100101为11区,即舌尖前音区,设定 R=0.74,G=0.42,B=0,颜色为褐色;码100110,100111,101000,101001,101010,101011,101100,101101,101110为12区,即复韵母区,设定R=1,G=1,B=1,颜色为白色。

2.6 图像合成

图像合成时,把位置信息与颜色信息融合在一幅图像中在显示屏上显示。具体为先获得位置信息,然后在相应的位置上添加颜色信息,获得相应的语音图像。

3 仿真实验及结果分析

如图4(a)所示,声母p的图像位置在第三行第二列的位置,编码为010001,颜色为蓝绿色。如图4(b)所示,韵母o的图像位置在第一行第二列的位置,编码为000001,颜色为桃红色。如图4(c)所示,y与I,w与u两者发音很相似,语谱图也十分类似,很难辨识,而该文提出的方法却很容易区分开。

用来训练神经网络的实验数据取自3岁到60岁的人群中,录音环境很随机,随着人所在的位置随时录音,这样就可以使系统更加具有实用性。实验数据是由10个人发的1 000个音组成,其中400个用来作为测试数据,其余用来作训练数据。数据采样频率为11.025 kHz,量化精度为16 bit,语音的帧长取为256个采样点,帧移为80个采样点。为了验证该文方法的鲁棒性和可行性,在测试集的每个语音中手工加入了噪声,构成信噪比为10dB,5dB,0dB,-5 dB的含噪语音信号。并把该文方法同语谱图方法进行了比较研究,系统初步测试结果如表1所示。

图4 语音可视化图像

表1 两种可视化方法的性能比较

由表1可以看出,用语谱图方法进行可视化的平均正确识别率为23.68%,而该文方法的平均正确识别率却达到了89.85%,这就更充分地证明了该文方法的有效性和可行性。

4 结 论

该文结合声韵母的发音特点提出了一种新的语音可视化方法,原理浅显易懂,计算量少,做出的图形也易于识别,可以让使用这种方法的听力障碍者接受很少时间的简单训练,根据训练者大脑自身反馈和极强的视觉识别功能,就可以进行语音的辨识。而且该文采用小波神经网络来进行位置信息映射和颜色信息获取,小波神经网络具有结构可设计性、收敛精度可控性和收敛速度快的优点,有效地提高了汉语声韵母的正确编码率。

[1]刘妍秀,孙一鸣,杨华民.基于归一化算法的噪音鲁棒性连续语音识别[J].吉林大学学报:理学版,2015,53(3):519-524.

[2]Smith A.The present status of hearing impairment in the world and protective strategies[J].Chinese Scientific Journal of Hearing and Speech Rehabilitation,2004(6):8-9.

[3]王枫,胡旭君.听力障碍儿童与正常儿童视觉记忆能力比较研究[J].中国特殊教育,2001(4):32-34.

[4]陈琦.听力障碍儿童声母发音训练分析 [J].当代教育实践与教学研究,2015(3):98.

[5]陈汝琛,姚佳,高忠华.基于语音识别技术的聋哑人视觉辅助语音训练系统[J].中国生物医学工程学报,1996,15(4):360-364.

[6]黄海,陈祥献.基于Hilbert-Huang变换的语音信号共振峰频率估计 [J].浙江大学学报,2006,40(11):1926-1930.

[7]韩志艳,王健,伦淑娴,等.基于小波包变换的语音信号鲁棒特征提取 [C]//第29届中国控制会议论文集,USA:IEEE,2010:2832-2837.

[8]Han Z Y,Wang J,Wang Xu et al.Robust feature extraction for speech recognition based on perceptually motivated MUSIC and CCBC[J].ChineseJournalofElectronics,2011,20(1):105-110.

[9]Hoang T,Tran H L,Huynh B H N.Proposed combination of PCA and MFCC feature extraction in speech recognition system:The International Conference on Advanced Technologies for Communications,2014[C]//USA:IEEE,2014:697-702.

[10]Wu Q,Zhang L Q,Shi G C et al.Robustmultifactor speech feature extraction based on Gabor Analysis[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19(4):927-936.

[11]Bavkar S,Sahare S.PCA based signal channel speechenhancementmethodforhighlynoisyenvironment:The International Conference on Advances in Computing,Communications and Informatics,2013 [C]//Mysore:IEEE,2013:1103-1107.

[12]Mcloughlin I,Zhang H M,Xie Z P et al.Robust sound eventclassification using deep neural networks[J].IEEE Transactions on Audio,Speech, and Language Processing,2015,23(3):540-552.

[13]Malfait N,Fonlupt P,Centelles L et al.Different neural network are involved in audiovisual speech perception depending on the context[J].Journal of Cognitive Neuroscience,2014,26(7):1572-1586.

[14]韩志艳,伦淑娴,王健.基于遗传小波神经网络的语音情感识别 [J].计算机技术与发展,2013,23(1):75-78.

[15]韩志艳,伦淑娴,王健.语音信号鲁棒特征提取及可视化技术研究[M].沈阳:东北大学出版社,2012.

Visualization method for Chinese vowel sound based on neural network

HAN Zhi-yan,WANG Jian
(Bohai University,Jinzhou 121000,China)

In order to overcome the limitation of speech visualization.This paper proposed a novel speech visualization method for Chinese vowel sound based on neural network.It created readable patterns by integrating different speech features into a single picture.It used wavelet neural network to map location information and color information.Because the wavelet neural network has the advantages of structure designability,convergence precision controllability and rapid convergence,that effectively improve the correct rate of Chinese vowel sound encoding.The image was divided into 12 different color display areas,the speech for each display area have similar pronunciation characteristics and the same pronunciation articulation.That make full use of the advantages of deaf people of visual identification ability and visual memory ability for color.Compared with the existing method,this method has good robustness and understandability.

speech visualization;neural network;speech signal;Chinese vowel sound;feature extraction;principal component analysis(PCA)

TN101

:A

:1674-6236(2017)05-0005-04

2016-05-19稿件编号:201605192

国家自然科学基金资助(61503038;61403042)

韩志艳(1982—),女,内蒙古赤峰人,博士,副教授。研究方向:情感识别、情感可视化。

猜你喜欢
韵母可视化语音
声母韵母
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
基于CGAL和OpenGL的海底地形三维可视化
魔力语音
单韵母扛声调
基于MATLAB的语音信号处理
“融评”:党媒评论的可视化创新
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……