听觉的声学现象和原理(2)

2018-05-25 01:17莫福源
听力学及言语疾病杂志 2018年3期
关键词:基底膜信号处理语音

莫福源

4 听觉感知的重要声学现象

4.1掩蔽效应 在嘈杂的环境里听不清对方的话是很普遍的现象,例如:在课堂里,学生吵嚷的噪声将老师的讲课声完全掩蔽,一辆轰鸣的车辆经过时,行人无法交谈,就是典型的掩蔽现象;该现象用学术语言描述为一个小的声信号可以被另一个大的声信号掩蔽。这样的现象可谓司空见惯,然而科学家仔细研究了掩蔽效应,并成功地应用到语音信号处理和音频信号处理中,使信号传输和存储码率降低了40倍,甚至更多,而人们几乎听不出有什么畸变。语音信号可以压缩更大,仍能听得很清楚,所以现在进行全球通信成本很低,费用很低廉。在音频信号处理中,由于压缩率很大,人们可以用很低的价格、很小的体积,随时随地享受高品质的音乐,大家津津乐道的MP3、MP4中,语音和音频信号处理就是利用了掩蔽效应,才能有压缩极大、听觉畸变极小的效果。

为了说明上述现象,以语音信号处理为例,众所周知,经过压缩处理的语音信号和原始未经处理的语音一定有差别,将这两个信号相减,其差值就是处理带来的噪声,这种噪声不可避免,问题的关键是如何将此噪声在人们听觉感知上降到最低。图8是语音信号处理的频谱示意图,可以看出信号和噪声的比例(信噪比)有的很大,如:在1 kHz以下的频段;在1~2 kHz的频段信噪比很小,甚至噪声能量大于信号能量,此时,灵敏的耳能听出处理后的语音噪声很大,听起来很不舒服;但是可以用一个噪声成形滤波器,将噪声频谱变成如图所示的虚曲线,此时,尽管噪声的总功率没有变化,但是,全部频段的噪声能量都小于语音信号的能量,它们完全被信号掩蔽,大大改善了合成语音信号的听觉效果,可以听不到任何噪声,听不出和原始语音信号有什么差别。

4.1.1掩蔽效应的理论和实验解释 听觉是一个很复杂的过程,历史上一些科学家试图用一些模型和假设来解释它,但都不成功。最著名的是德国科学家H.亥姆霍兹提出:耳蜗上的神经纤维象钢琴的琴弦一样绷得很紧,镫骨底板运动使耳蜗的液体发生振动,只有刺激中能和频率发生共振的神经纤维才会跟着振动起来,称为“共振理论”。20世纪初,又提出了“电话理论”,该理论认为耳仅仅象传声器一样,把声信号转化为电信号,神经只是一根电话线,把电信号传入大脑,所有处理均由大脑完成。随着科学研究的深入,证明上面两种理论都不正确。

关于听觉的最新观点认为内耳对声信号进行频率分析,不同频率在基底膜上相应位置产生最大振动,称为“位置理论”,也称“部位理论”,实验证明了这个理论的正确性。因为基底膜是一个从宽而绷紧到窄而松弛的膜,不可能在膜上某一位置产生一个大的位移、而其他位置没有位移或位移很小的振动模式,因为没有一种材料做成的膜片能有极为尖锐峰值的振动模式。实验证明不同频率的正弦刺激(纯音)在基底膜上不同位置生成不同形状的位移包络,图9是不同频率正弦刺激在基底膜上产生的位移包络,频率越高,位移包络越窄且离镫骨越近;频率越低,位移包络越宽且离镫骨越远。匈牙利-美国物理学家贝克西(Békésy,Georg von)用实验验证了这个理论,写了“听觉原理”巨著,获得了1961年诺贝尔医学及生理学奖[1,2]。

在一个纯音(掩蔽音)掩蔽另一个纯音(被掩蔽音)的实验中,两个效应值得注意:一个是被掩蔽音频率越接近掩蔽音频率,掩蔽效果越好;另一个是低频音对高频音掩蔽效果强,而高频音对低频音掩蔽效果要差得多。图9的位置理论(或称部位理论)就可以定性地解释这两个效应。掩蔽音可以在基底膜上生成某一形状的位移包络,而在某个位置位移最大。如果掩蔽音很弱,只能勉强引起神经响应,这种响应的部位很小,只局限在最大振动的附近,离它远一些的部位的振动都不足以使神经纤维产生电脉冲。

如果掩蔽音强度很强,基底膜上相对宽的一些部位都会有神经响应,这种响应出现在振幅大于神经末梢刺激域值的地方。从图9可以看出,接近掩蔽音而高于掩蔽音的部位(相对接近镫骨处),掩蔽音会引起基底膜的明显振动,反之,则无明显的神经活动。如果在掩蔽音中加入一个另一频率的弱纯音,让听者去听时,在基底膜没有明显振动的地方(被掩蔽音频率低于掩蔽音频率),掩蔽音好像不存在一样,所以低频音不能被高频音有效掩蔽。相反,在掩蔽音使基底膜强烈振动的那些部位(被掩蔽音频率接近和高于掩蔽音频率),只有被掩蔽音强度足够强而改变振动模式时才能被听到。因此部位理论可以很好的定性解释掩蔽效应,它和观察到掩蔽效应的两个重要现象很一致[2]。

4.1.2掩蔽效应的方式 掩蔽现象很复杂,对不同的声音要精确地利用掩蔽现象,就必须对各种掩蔽现象作详细研究,并针对不同的对象(不同的声音)作相应处理。在掩蔽音和被掩蔽音同时存在时,有掩蔽现象发生,这称为同时掩蔽(simultaneous masking)或频率掩蔽(frequency masking),通常稳态音存在时,频率掩蔽起支配作用。不同时存在的声音也会发生掩蔽现象,强掩蔽音会掩蔽前面或后面的弱音,称为时间掩蔽(temporal masking),例如:在语音处理中一个很强的元音会把前面弱化的爆破音掩蔽掉;在编码一些时间很短的打击乐声(如击打一下响板)时时间掩蔽起主导作用,但该作用很有限。

4.1.2.1频率掩蔽(frequency masking) 图10解释了频率掩蔽现象,从图中可以看到一个强的信号掩蔽了两个频率和它接近的弱信号,掩蔽域值以下的弱信号都听不到,即听觉的安静域值由于掩蔽作用而提高;这在音频编码里有很大利用价值,为压缩码率,音频编码都在频域进行,由于掩蔽现象,在掩蔽域值以下的频率分量因为听不到,完全可以不用编码传输,即使略高于掩蔽域值的分量因为响度大为降低,对听觉感知的贡献不大,可以粗略量化,从而节省了大量的传输码率,而不影响听到声音的音质[3,6]。

4.1.2.2时间掩蔽(temporal masking) 除了同时发生的频率掩蔽以外,一个强掩蔽音,在一定时间范围内,可以对此强音前面或后面的弱音有掩蔽作用,这种掩蔽作用的时间范围和作用很有限。图11说明了这种掩蔽现象,一个强掩蔽音对它前面的音起掩蔽作用,称前掩蔽(pre-masking),对它后面的音起掩蔽作用,称后掩蔽(post-masking)。

后掩蔽较好理解,听觉器官受强音作用有一定的惯性,在其后面短时间内发生的弱音不足以改变感知的模式,因而听不到;前掩蔽直观上不太好理解,科学解释认为:任何可被听到的声音都要有一个时间间隔来累积能量,响度大的声音需要的累积时间比响度小的音要长,而且前掩蔽现象仅在掩蔽音产生的前几毫秒才有一点作用,不可能像频率掩蔽和后掩蔽那样可利用;例如:在处理一个敲击响板的打击音时,如果选择处理块大小不当,在打击音前会产生能量扩展的畸变,它不能被后面的打击音掩蔽;人耳十分灵敏,能听出这个畸变,这个畸变被称之“预回声(pre-echo)”或“双打击音(double-attack)”。图12 说明了这个现象,图12a是原始信号,图12b是固定512点块大小来处理响板打击音时产生的预回声,图12c是对响板打击音采用了自适应点块大小后得到的结果。说明人耳是如此的灵敏,想要降低码率又能为人耳不被觉察,必须在仔细设计处理系统的同时结合人耳的心理声学模型,才能达到最佳的效果[3]。

猜你喜欢
基底膜信号处理语音
专题征稿启事
——信号处理
新生小鼠耳蜗基底膜的取材培养技术*
MATLAB在数字信号处理中的应用
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
一种激光/无线电复合引信信号处理技术
基于螺旋型耳蜗的数值分析
皮肤中基底膜的结构与功能