基于卷积神经网络的翻录语音检测算法

2018-03-20 00:43王让定严迪群
计算机应用 2018年1期
关键词:个数信道录音

李 璨,王让定,严迪群

(宁波大学 信息科学与工程学院,浙江 宁波 315211)(*通信作者电子邮箱wangrangding@nbu.edu.cn)

0 引言

随着互联网的不断发展和便携式智能终端的快速普及,人们能够更加方便、快捷地借助各种数字媒体(图像、音频、视频)传递信息。与此同时,随着回放设备、高保真录音设备的普及,合法用户的密语在请求进入识别系统时极易被攻击者偷录成功。翻录语音经高保真录音设备偷录、回放设备回放,与原始语音具有较高的相似度,一些说话人认证系统也无法辨别,危害了合法用户的权益。而且翻录语音因偷录设备体积小、易偷录、成功率高等优势,已成为攻击语音认证系统中最易实施的方法,因此,对翻录语音检测受到业内的广泛重视。

近年来,对翻录语音检测研究取得了一定的成果。Shang等[1-2]根据语音产生的随机性,对比了原始语音与翻录语音Peak map的不同,提出了一种基于Peak map相似度的录音回放检测算法。若相似度大于设定的阈值,判定为翻录语音;反之,判定为原始语音。在此基础上,Jakub等[3]对该算法进行了改进,在Peak map特性中加入了各频率点的位置关系;Wu等[4]将音频检索中的谱位图峰值特征应用于翻录语音检测,依据待认证语音与系统保存的语音在该特征上的相似度来判断当前语音是否为合法语音。以上方法只能针对文本相关的识别系统,无法适用于文本无关的翻录语音检测,具有较大的局限性。张利鹏等[5]根据信道模式特征,利用翻录语音信道与原始语音信道之间的差异,提出了一种基于静音段的梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient, MFCC)的翻录语音检测的方法,该算法用语音数据的静音段对信道建模,检测待测语音与训练语音的信道是否相同,从而判断是否为回放攻击。王志锋等[6-7]根据原始语音与翻录语音产生的信道不同,提取信道模式噪声,并利用支持向量机(Support Vector Machine, SVM)得到了很好的分类结果。Villalba等[8-9]依据远距离的录音会受到噪声和混响的影响,提出了针对远距离偷录语音的检测方法。Chen等[10]根据设备信道对语音编码过程的影响,提出了一种基于长窗比例因子的翻录语音检测算法,但该类方法提取的信道模式噪声并非准确,且录制语音的设备过于单一,且未对多种不同的偷录设备及回放设备进行分析与研究。

目前针对翻录语音检测方面大部分工作都是针对一种偷录设备及回放设备的翻录语音,对多种录音设备的翻录语音检测研究的关注较少。而在现实生活中,各种高保真录音设备随处可见,如录音笔及各种智能手机。这类偷录设备携带便利且不易察觉,且获得的翻录语音与原始语音相似性较高,因此这类录音设备是目前较为主流的偷录设备。深度学习本质上是构建含有多隐层的机器学习架构模型,通过大规模数据进行训练,得到大量更具有代表性的特征信息,从而对样本进行分类和预测,提高分类和预测的精度[11]。与人工设计的特征提取方法相比,利用深度学习模型得到的数据特征,揭示了大数据的丰富内在信息。卷积神经网络(Convolutional Neural Network, CNN)能够提取出大量数据样本潜藏的特征信息,这使得卷积神经网络在模式识别的各个领域得到了广泛的应用。

本文通过对比原始语音与翻录语音的语谱图,并将其输入到卷积神经网络中,从而进行特征提取及分类。本文分析讨论了不同的网络参数与输入特征对检测结果的影响,搭建了适用于检测翻录语音的网络框架,并对不同偷录及回放设备的翻录语音进行了交叉实验。实验结果表明,该方法可以很好地判断待测语音是否为翻录语音。

1 语音信号语谱图

语谱图中包含了大量的与语音的语句特性有关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况。由于它通过二维图像来反映所包含的语音中丰富的信息,被称为“可视的语言”。相比原始语音,翻录语音大多经历了一次录制和回放过程;而这些设备将不可避免地对语音信号进行再一次的采集及编解码,这就造成翻录语音将携带固有的属性,这种属性将不同于原始语音。为了更全面分析语音信号的时间、频率的变化,本文将语谱图作为CNN的输入对象。

如图1所示,其中图1(a)是一段经Aigo R6620录音笔原始录制的语音信号的语谱图,该语音信号的具体内容为普通话朗读的“芝麻开门-我是土豪-千里共婵娟”。图1(b)~(d)是对应的翻录语音信号的语谱图,翻录过程中的偷录设备分别为Aigo R6620、iPhone6和SONY PX440,回放设备则选择的是Huawei AM08。

图2中的语谱图分别与图1一一对应,其回放设备为Philips DTM3115。由图1和图2可以看出,与图1(a)的原始录制语音相比,3个二次翻录语音在某些固定的频率带上均出现了“截断”现象,如在1 800~2 200 Hz、3 800~4 200 Hz的频带上,整个时间轴方向上信号的频率幅度均出现了明显的下降;另外,翻录语音的频率分量略大于原始语音。在回放设备为Philips DTM3115,偷录设备为iPhone6和SONY PX440时的翻录语音表现的最为明显。经Aigo R6620二次采集得到的翻录语音与原始语音相似度最高。

图1 原始语音与翻录语音语谱图(Huawei AM08)

图2 原始语音与翻录语音语谱图(Philips DTM3115)

总体来看,经过偷录与回放的翻录语音,其频率值均略大于原始语音。这是因为翻录语音在偷录过程中经过电平调整、A/D转换、编解码等一系列的操作,引入了一定的设备噪声及其他噪声,回放让这种噪声更加明显地显现出来。

2 CNN网络框架

CNN是一种特殊的深层的神经网络模型,具有自动提取特征、执行分类的功能。卷积神经网络已在音乐信息检索、中值滤波检测等方面有了很好的应用。CNN一般由一组或多组卷积层+池化层构成。基于此,本文将构建一个网络框架使之更有效地区分原始语音与翻录语音之间的细微差异。首先提取原始语音与翻录语音的语谱图;然后将其输入到CNN网络框架中,使其自动进行特征提取;最后得到分类结果。文中采样两层卷积、一层池化的方式构成。图3所示为CNN网络框架。表1为网络框架的参数设置。

图3 CNN网络框架

Tab. 1 Parameters setting of network architecture

2.1 卷积层

卷积神经网络通过卷积核对局部特征进行分析。在一个卷积层上,上一层的特征图被可学习的卷积核进行卷积,然后通过激活函数,输出得到特征图。一般来说,卷积层和激活函数的关系可表示为:

(1)

2.2 池化层

池化层的作用是对输入层进行下采样处理。如果有N个输入图,那么则会产生N个输出层。池化层的每个特征图唯一对应前一层的一个特征图,各特征图组合前一层对应特征图大小相同但互不重叠的所有子区域,使得卷积神经网络具有一定的空间不变性,从而实现一定程度的转换和畸变不变。下采样过程利用图像局部相关性的原理,对图像进行子抽样,以减少数据处理量同时保留有用的信息。文中采用最大池化算法,即对固定窗长内的节点选取最大值进行输出。对应的关系式为:

(2)

2.3 全连接层

经过池化层得到的特征图作为输入进入全连接层,全连接层将池化层的各个输出综合起来,最后通过输出层得到各个状态的分类后验概率。卷积神经网络通过损失函数的计算推动分类。本文中使用的损失函数是SoftMax回归函数。本文可以将其理解为一个多类分类器。

3 语音库

为了验证本文方法的有效性,文中构建了一个语音数据库。数据库的具体设置如下:其语料来源于863语料库[12];人员分布为:18男14女;设备选取主要涉及到:语音采集设备、偷录设备、回放设备。设备的详细信息如表2所示。

表2 设备信息

语音数据库在安静环境下录制,录音人员根据自身说话习惯阅读语料库内容,并使用采集设备进行语音采集,参与者距采集设备距离约为20 cm,本文将这个过程采集设备采集到的语音称为原始语音。按照实际过程模拟偷录过程,偷录设备放置距录音者70 cm处,在参与者阅读以上语料的同时,将偷录设备同时打开到正常录制功能下,录制参与者的语音内容。将偷录设备采集到的语音经音响回放,并使用采集设备录制该回放语音。回放音响距离采集设备20 cm左右。文中将此次采集设备采集到的语音称为翻录语音。实验样本为44 100个(原始语音6 300个,翻录语音37 800个),每段语音为2 s。样本详情如表3所示。

表3 原始语音和翻录语音样本详情

4 实验设置及结果分析

4.1 卷积核个数和大小的选择

网络通过卷积核对局部特征进行分析,通过池化层加强抽取出来的特征鲁棒性,最后通过全连接层建立模型得到最终的分类结果。在这个过程中,卷积核对输入特征进行分析并提取,对分类结果起着较大的影响。卷积核的参数设置共有两个:核大小和核个数。

原则上,卷积核(滤波器)的个数为输出特征图的个数,即若卷积核个数为N,则输出为N张特征图。随着卷积核个数的增加,输出的特征图也就越多,网络表示特征空间就越大,学习能力也就越强,识别率也就越高。表4和表5分别给出了卷积核个数和核大小对检测性能的影响。表中的ACC为检测识别率(Accuracy),Loss为损失率,时间为每一次迭代所产生的大约时间。表4的实验约束条件是保证网络层数结构和其他因素不变的情况下,调整其两层卷积核个数;表5的实验约束条件是在卷积核个数为32- 64、池化层为1×4、全连接层为256的情况下,调整改变其两层卷积核的大小。实验样本为原始语音6 300个,翻录语音6 300个。16- 32、32- 32、32- 64、64- 64分别表示第一层和第二层卷积核的个数的设置。

表4 卷积核数对检测性能的影响

表5 卷积核大小对检测性能的影响

实验结果表明,随着卷积核个数的增加,检测性能越好。不同的卷积核从不同的角度提取不同的特征。若卷积核的个数较少,则不能充分提取到有用的信息;若卷积核个数较多,则运算时间会增加,但其识别率提高并不明显。另外,随着卷积核大小的逐渐细化,识别率有所提高,但上升幅度较弱,这也说明了卷积核的大小对检测性能的影响较弱。综合考虑,本文最终选择的卷积核个数为32- 64、即第一层卷积核个数为32个,第二层卷积核个数为64个。卷积核大小为1×11- 2×6。

4.2 输入不同窗移下的语谱图的影响

语音信号经过分帧、加窗、傅里叶变换,计算其能量谱密度得到语谱图。不同的窗移将会产生不同的语音信号语谱图,包含的语音信息也就不同。图4为窗长设置为512点,傅里叶采样点数为1 024,窗移为128与256点下的翻录语音检测。其中图4(a)为检测识别率曲线,图4(b)为检测的损失率。实验样本为原始语音6 300个,翻录语音6 300个,70%用于训练,其余用于测试。

4.3 交叉实验

在翻录过程中,偷录及回放设备种类繁多,不同的偷录和回放设备将对检测结果产生不同的影响,交叉实验的目的就是为了更好地检验算法的适用性。在实验中,本文以一种偷录及回放设备得到的翻录语音作为训练语音,其余任意一种偷录及回放设备得到的翻录语音作为测试语音。原始语音6 300个,翻录语音37 800个。其中,检测结果用ACC(%)表示。实验结果如表6所示。

由表6可以看出,当回放设备相同时,不同偷录设备下的交叉可以得到较好的检测率,其检测率均能达到93%以上,其中,回放设备为Huawei AM08,偷录设备为Aigo R6620时翻录语音检测率达到了99.28%。当不同回放设备,不同偷录设备下交叉时,本文方法具有一定的检测效果,但结果不及相同回放设备下不同偷录设备的翻录语音检测。由此得出,相较于偷录设备,回放设备对翻录语音的产生影响较大。

图4 不同窗移下的检测结果

%

4.4 对比实验

在相同的数据库下,将本文算法与较为典型的3种算法——文献[5,7,10]中算法进行对比。图5所示为原始语音与翻录语音产生的过程图。文献[5]算法采用短时能量法提取静音,谱减法进行滤波,提取MFCC特征参数;文献[7]方法采用高通滤波器进行去噪,提取信道模式噪声,并提取6个统计特征及6阶Legendre多项式系数;文献[10]算法将语音信号进行MP3编码后,提取比例因子统计特征作为检测特征。实验中,原始语音6 300个,不同偷录及回放设备的翻录语音6 300个。其中,70%用于训练,其余用于测试。实验结果如表7所示。

由表7可以看出,相较于传统的人工提取特征检测方法,对于多种偷录及回放设备的翻录语音,本文算法优于文献[5,7,10]算法,识别率分别提高了约26个百分点、21个百分点和0.35个百分点。从图5可以看出,翻录语音在产生的过程中,经历了压缩、编码解码的过程,会在一定程度上使得翻录语音产生失真。而不同的偷录及回放设备,将对翻录语音产生不同的影响。文献[5,7]中的方法通过提取信道特征建立模型,但不同的录音设备其信道特征不同,所用的语音库录音设备单一,其方法并不能解决多种偷录及回放设备的翻录语音。本文所提方法解决了文献[5,7]中设备过于单一的问题,更具实用性。

图5 原始语音与翻录语音产生的过程

表7 4种算法的识别率对比 %

5 结语

本文针对多种偷录设备与回放设备的翻录语音攻击,提出了一种基于CNN的翻录语音检测算法,并通过模拟实际翻录语音攻击的整个物理过程,建立了实验语音数据库。本文搭建了适用于检测翻录语音的网络框架,分析了不同卷积核大小及卷积核个数对识别率的影响,确定了最佳检测效果时的窗移长度,对不同偷录及回放设备的翻录语音进行了交叉实验检测,并与现有的经典文献算法进行了对比,且性能优于现有算法。在今后的研究中,将需进一步探究各种录音设备及回放设备对语音的影响,并且在检测方法上进行创新和改进。

References)

[1] SHANG W, STEVENSON M. A playback attack detector for speaker verification systems [C]// Proceedings of the 2008 International Symposium on Communications, Control and Signal Processing. Piscataway, NJ: IEEE, 2008: 1144-1149.

[2] SHANG W, STEVENSON M. Score normalization in playback attack detection [C]// Proceedings of the 2010 IEEE International Conference on Acoustics Speech and Signal Processing 2010. Piscataway, NJ: IEEE, 2010: 1678-1681.

[3] JAKUB G, MARCIN G, RAFAL S. Playback attack detection for text-dependent speaker verification over telephone channels [J]. Speech Communication, 2015, 67: 143-153.

[4] WU Z, GAO S, CLING E S, et al. A study on replay attack and anti-spoofing for text-dependent speaker verification [C]// Proceedings of the 2014 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference. Piscataway, NJ: IEEE, 2015: 35-45.

[5] 张利鹏,曹犟,徐明星.防止假冒者闯入说话人识别系统[J].清华大学学报(自然科学版),2008,48(S1):699-703.(ZHANG L P, CAO J, XU M X. Prevention of impostors entering speaker recognition systems [J]. Journal of Tsinghua University (Science and Technology), 2008, 48(S1): 699-703.)

[6] 王志锋,贺前华,张雪源,等.基于信道模式噪声的录音回放攻击检测[J].华南理工大学学报(自然科学版),2011,39(10):7-12.(WANG Z F, HE Q H, ZHANG X Y, et al. Channel pattern noise based playback detection algorithm speaker recognition [J]. Journal of South China University of Technology (Natural Science Edition), 2011, 39(10): 7-12.)

[7] WANG Z F, WEI G, HE Q H. Channel pattern noise based playback attack detection algorithm for speaker recognition [C]// Processing of the 2011 International Conference on Machine Learning and Cybernetics. Piscataway, NJ: IEEE, 2011: 1708-1713.

[8] VILLABA J, LLEIDA E. Detecting replay attacks from far-field recordings on speaker verification systems [C]// BioID 2011: Proceedings of the 2011 European Workshop on Biometrics and Identity Management. Berlin: Springer, 2011: 274-285.

[9] VILLABA J, LLEIDA E. Preventing replay attacks on speaker verification systems [C]// Processing of the 2011 IEEE International Carnahan Conference on Security Technology. Piscataway, NJ: IEEE, 2011: 1-8.

[10] CHEN Y N, WANG R D, YAN D Q, et al. Voice playback detection based on long-window scale-factors [J]. International Journal of Security and Its Application, 2016, 10(12): 299-310.

[11] LIN X, LIU J, KANG X. Audio recapture detection with convolutional neural networks [J]. IEEE Transactions on Multimedia, 2016, 18(8): 1480-1487.

[12] 王天庆,李爱军.连续汉语语音识别语料库的设计[C]//第六届全国现代语音学学术会议.天津:天津大学出版社2004:544-547.(WANG T Q, LI A J. The design of the continuous Chinese speech recognition corpus [C]// Proceedings of the Sixth National Conference on Modern Phonetics Learning. Tianjin: Tianjin University Press, 2004: 544-547.)

This work is partially supported by the National Natural Science Foundation of China (61672302, 61300055), the Natural Science Foundation of Zhejiang Province (LZ15F020002, LY17F020010), the Natural Science Foundation of Ningbo (2017A610123),the Scientific Research Foundation of Ningbo University (XKXL1509, XKXL1503),the K.C. Wong Magna Fund in Ningbo University.

LICan, born in 1992, M. S. candidate. Her research interests include multi-media information security.

WANGRangding, born in 1962, Ph. D., professor. His research interests include multi-media information security, digital forensics.

YANDiqun, born in 1979,Ph. D., associate professor. His research interests include multi-media information security, digital forensics.

猜你喜欢
个数信道录音
怎样数出小正方体的个数
信号/数据处理数字信道接收机中同时双信道选择与处理方法
Funny Phonics
funny phonics
Listen and Choose
怎样数出小木块的个数
Listen and Color
最强大脑
一种高效多级信道化数字接收机的设计与实现
怎样数出小正方体的个数