人工耳蜗植入儿童在噪声环境与耳语条件下的汉语声调感知

2021-10-09 04:21顾文涛
南京师范大学文学院学报 2021年3期
关键词:耳语基频声调

胡 涵 顾文涛 丁 馨 朱 瑶

(南京师范大学 文学院,江苏 南京 210097)

一、引言

汉语是声调语言的典型代表。声调作为汉语的重要特征,具有区别字义的功能,因此声调感知能力直接影响到个体对汉语的理解。声调实质上是在音节时程内基频(f0)的变化模式,声调感知的主要线索是基频,在时域上主要依赖周期性信息,在频域上则主要依赖精细结构(基频和谐波)。人工耳蜗(Cochlear implants, CI)作为目前最成功的植入式人工听觉装置,通过将声音转换为电刺激信号,绕过内耳机能损伤的毛细胞,直接刺激听觉神经,在听觉中枢产生声音的知觉。但是,目前人工耳蜗提取的主要还是时域包络(振幅包络)与频域包络(共振峰)信息,对时域精细结构(瞬时相位变化)与频域精细结构(基频和谐波)的编码仍有很大局限,而且人工耳蜗的信号编码策略原本是基于非声调语言的印欧语制订的,未充分考虑基频的编码,从而给CI儿童的声调感知带来困难。因此,探究CI儿童对汉语声调的感知能力,对优化CI的言语编码策略、改进CI儿童的听觉康复方案有直接的推动作用。

汉语有4个声调:阴平(T1)、阳平(T2)、上声(T3)和去声(T4)。近年来,已有多位学者考察了CI儿童在安静环境下对汉语四声的感知。刘勇智等发现开机年龄为3.0~4.5岁和5.0~6.5岁的CI儿童对单音节与双音节词的声调识别率为49.96%~75.60%[1];王抗震等发现,单侧CI植入与双耳双模(一侧植入CI、一侧佩戴助听器)儿童的声调识别率分别为69.68%和75.62%[2];杨丽萍等考察CI儿童在单模和双模条件下的声调感知,得到了类似的结果,识别率分别为70.9%和73.1%[3]。以上文献得到的识别率,都显著高于机会水平,可见CI儿童在安静环境下具有较好的声调感知能力。但是,CI儿童对各调类识别的难易顺序及混淆模式不尽相同。Peng等将四声组成6个声调对,考察平均年龄为9.25岁的CI儿童的声调感知能力,发现含有T4声调对的识别率显著高于其它声调对,其中T1-T4的辨识率最高,而T2-T3的辨识率最低[4];Chen等也发现CI儿童最难识别T2-T3,但是并未发现识别T1-T4有显著优势[5];陈雪清、刘海红则发现6岁前开机的CI儿童T3-T4的识别率最高、T1-T2的识别率最低,6岁之后开机的CI儿童T3-T4没有显著的识别优势、而T1-T2的识别率仍然最低[6];毛弈韬发现,NH儿童识别T1和T4的能力显著优于T2和T3,CI儿童最易识别T1,而其它三个调类的识别率无显著差异,并且在声调对的识别上,NH和CI儿童都是T2-T3识别率最低[7]。

虽然CI可基本满足植入者在安静环境下的声调识别需求,但是真实的声学环境远比安静环境复杂,日常言语交际的环境不仅包含目标语音,还包含环境噪声,如何使CI儿童在噪声环境中获得与NH儿童相近的声调识别能力,成为研究的热点议题。Caldwell和Nittrouer考察了平均年龄为6.75岁的NH和CI儿童在无噪声、3dB、0dB和-3dB信噪比(SNR)水平下的言语识别能力,发现噪声环境下的识别率显著低于安静环境,而且随着信噪比降低,NH和CI儿童的识别率均下降[8]。毛弈韬通过比较NH和CI儿童在12dB、6dB和0dB SNR水平下的声调识别,发现NH儿童在0dB SNR条件的识别率显著低于其它SNR条件,CI儿童的识别率随着信噪比的降低而逐渐下降,而且NH和CI儿童的声调混淆模式也受到信噪比的调节,其中CI儿童受到的影响比NH儿童更大[7],这与崔丽丽的结论一致[9]。

耳语是一种特殊的发声态,它与正常语音的区别在于:(1)发元音与响辅音时,声带保持半开状态不振动,从肺部呼出的气流摩擦声带形成噪声激励源,因此不携带基频信息,而且由于耳语是气嗓音,其能量和信噪比均低于正常语音;(2)耳语时假声带区域变窄,且声腔增加了气管和肺,改变了声道传输函数,使得元音共振峰的位置和带宽发生了变化[10]。以往考察耳语声调感知的文献较少。梁之安较早考察了健听人群对耳语的声调感知,发现四声的识别率分别为53.3%、48.3%、79.1%和73.3%,说明在声调感知的主要线索如基频、谐波等缺失的情况下,健听者仍能借助时域和频域的包络等次要线索识别耳语声调[11];Fu和Zeng比较了时域线索对声调识别的贡献,发现时长的贡献主要体现在T3的识别,振幅包络的贡献主要体现在T3和T4的识别,而周期性信息对所有调类的识别均有贡献[12];沙丹青等也发现了类似的结果,四声的识别率分别为48.9%、44.9%、86.7%和68.0%,振幅包络和时长对声调识别有重要作用[10];不过,Kong和Zeng认为包络信息对声调识别的作用不大,尽管他们发现耳语的声调识别率达到60%~70%[13]。但是,目前还没有研究涉及CI儿童的耳语声调识别。由于CI缺乏对基频信息的充分编码,而耳语恰恰不含基频信息,因此,考察CI儿童在耳语条件下的声调感知,有特别的意义,有助于更深入理解CI儿童的声调感知策略。

综上所述,复杂的声学环境与多样的发声态更符合我们日常言语交际的实际,考察CI儿童在噪声环境与耳语条件下的声调感知有重要的理论和应用价值。为此,本研究通过两个听觉感知实验,系统地比较CI和NH儿童在噪声环境和耳语条件下的汉语声调识别能力。

二、噪声环境下的声调感知

(一)实验方法

1.语料设计

为了符合5~6岁CI儿童的认知水平,我们在制订感知实验的语料时,首先参考了江苏省听力语言康复中心使用的儿童听力测评工具,从中初步筛选了部分单字,并搜集对应图片。然后,请有多年康复训练经验的老师从中精选出最符合5~6岁儿童认知水平的单字。最终,为了覆盖不同频段的辅音,我们选用/p/(低频)、/kh/(中频)、/th/(高频)作为声母,与中频的元音搭配,分别形成/pa/、/kh/、/thɑŋ/,与四声组合形成12个音节,配以相应的汉字和图片。实验字表详见表1。

表1.实验一的字表

2.语音采集

我们选取一名南京师范大学播音主持专业的女性发音人(22岁;普通话一级乙等)录制感知实验的语料。发音人在充分熟悉字表后开始录音,录音过程中被试与话筒保持20cm左右距离,逐个朗读单字,每个字重复5遍,每遍之间保持一定间隔。若发生错读或漏读,则要求发音人补录。

为了考察噪声环境下CI儿童的声调感知能力,我们参考Spahr的建议,采用与日常生活背景噪声相似的4人嘈杂语作为背景噪声[14]。嘈杂语的录制,选取4名来自南京师范大学语言学专业的发音人(2男2女;年龄:M= 24.75,SD= 0.50),每位发音人的朗读材料均选自湖南少年儿童出版社的《中国少儿百科全书》,内容各异但篇幅相似,以保证发音人大致同时朗读完。在充分熟悉朗读材料后,4位发音人围绕话筒面对面站立,按日常说话风格朗读材料。

录音在专业录音棚内,采用录音软件Adobe Audition 3.0完成,保存为一个WAV文件(采样率44.1kHz,采样精度16 bit)。我们使用Praat 6.1.16[15]将噪声与目标语音合并,即在噪声文件的1s以后混入目标语音,分别设置5dB、0dB、-5dB三个水平的SNR。于是,包括原始语音在内,共形成4种语音刺激(无噪声、5dB SNR、0dB SNR、-5dB SNR),在Praat中将所有刺激统一调整为平均音强65dB。最终,共得到3音节×4调类×5重复×4环境类型 = 240个语音刺激。

3.实验被试

我们选取24名被试参加感知实验,12名NH儿童(9男3女;年龄:M= 5.06,SD= 0.15, range = 4.83~5.25),12名双耳双模的CI儿童(8男4女;年龄:M= 4.99,SD= 0.41, range = 4.33~5.75)。其中,NH儿童均来自南京春晖幼儿园,CI儿童均来自江苏省听力语言康复中心。所有被试均为普通话背景,无认知障碍及神经疾病史。CI儿童开机年龄在1.00岁~3.83岁之间(M=2.24,SD=0.92),CI使用时长在1.42年~4.17年之间(M= 2.74,SD= 0.95)。CI儿童的背景信息详见表2。分别采用Mann Whitney U检验和卡方检验,分析发现NH和CI儿童在年龄和男女比例上都没有显著差异(W= 64.50,p= 0.68;χ2(1) =0.20,p= 0.65)。

表2. 实验一的CI儿童背景信息

4.实验过程

实验采用图片选择范式,使用E-Prime 2.0 Professional软件[16]呈现图片和语音刺激。实验分为训练和测试两个阶段。在训练阶段,要求被试对呈现的图片用单字命名,若被试无法准确命名,则由主试示范、让被试跟读,以确保被试掌握图片与单字的对应关系。在测试阶段,语音刺激按环境类型分为4组,每组60个刺激,为了避免学习效应,随机呈现各组之间和组内刺激;要求被试听到播放的每个语音刺激后,在四幅图片中做4选1强迫式选择;每完成20个语音刺激,被试可以休息3~5分钟。

为了纳入更多被试,实验同时采用线下和线上的模式,其中13名被试(8名NH儿童、5名CI儿童)是线下实验,11名被试(4名NH儿童、7名CI儿童)是线上实验。线下实验分别在南京春晖幼儿园(NH儿童)和江苏省听力语言康复中心(CI儿童)的安静房间内开展,在电脑屏幕上呈现图片,由Edifier R26T外置音箱播放语音刺激,被试与电脑屏幕距离60cm。线上实验要求被试在安静的房间内进行,采用问卷的方式搜集被试的结果,由家长引导被试完成训练和测试任务。主试事先培训家长使其熟悉实验流程,但是不向家长透露实验目的,主试对整个实验流程远程监控,若发现家长操作不当或有主观偏向,则予以纠正。线上实验有2名NH儿童在平板上呈现刺激,其余儿童都在电脑屏幕上呈现刺激。Exact Mann Whitney U检验结果表明,线下和线上模式的识别率在NH和CI儿童中均无显著差异(ps> 0.1),说明线上或线下实验模式并不影响实验结果,后续分析可排除该因素的影响。

(二)实验结果

NH和CI儿童的声调识别率分别为0.97(SD= 0.07)和0.87(SD= 0.17),均显著高于25%的机会水平(Binomial Test:ps< 0.001)。为了深入分析NH和CI儿童的声调感知能力,我们采用2组别(NH、CI)×4环境类型(无噪声、5dB SNR、0dB SNR、-5dB SNR)×4声调类型(阴平T1、阳平T2、上声T3、去声T4)的混合实验设计,使用开源软件R 3.6.3[17]的afex程序包[18]构建线性混合模型(Linear Mixed Model, LMM)。将识别率经合理化反正弦变换(Rationalized Arcsine Transform)[19]后得到的RAU(Rational Arcsine Units)值作为因变量(从而更符合正态分布),以儿童组别、环境类型和声调类型为固定效应,以被试为随机效应(仅含截距)。LMM采用约束极大似然值法估算系数,并运用Kenward-Roger法检验各变量的主效应及交互效应。在显著的交互效应中,仅详细分析最高阶的交互效应。使用emmeans包[20]做简单效应检验和事后检验,采用Tukey法修正p值。显著性检验均为双尾检验,显著水平设为0.05。此外,使用simr包[21]对LMM模型进行1000次仿真模拟后计算后验功效值,发现儿童组别、环境类型、声调类型的统计功效均高于95%。

LMM的结果如表3所示。首先,儿童组别、环境类型和声调类型的主效应均显著(F(1, 22) = 19.83,p< 0.001;F(3, 330) = 19.83,p< 0.001;F(3, 330) = 52.80,p< 0.001)。其次,儿童组别和环境类型的交互效应显著(F(3, 330) = 7.33,p< 0.001);简单效应分析发现,一方面无论是NH还是CI儿童,环境类型的效应均显著(ps< 0.01),另一方面无论何种环境下,NH儿童的识别率均显著高于CI儿童(ps< 0.05);事后检验进一步表明,NH儿童在-5dB SNR环境下的识别率显著低于无噪声环境(p= 0.042),而CI儿童在-5dB SNR环境下的识别率显著低于其余三种环境(ps< 0.001)。而且,儿童组别和声调类型的交互效应也显著(F(3, 330) = 11.53,p< 0.001);简单效应分析发现,无论是NH还是CI儿童,声调类型的效应均显著(ps< 0.001);事后检验进一步表明,CI和NH儿童T1和T4的识别率均显著高于T2和T3(ps< 0.05),且仅在T4的识别上两者不存在显著差异(p= 0.320)。以上交互效应详见图1。其它交互效应均不显著。

表3. 实验一各因素的主效应及交互效应

图1 实验一的儿童组别与声调类型、儿童组别与环境类型的交互效应;图中数值表示各水平的均值(标准差),误差线为95%的置信区间。下同。

三、耳语条件下的声调感知

(一)实验方法

1.语料设计

本研究考察声调的配对识别率,为此将四声组成6个声调对(T1-T2、T1-T3、T1-T4、T2-T3、T2-T4、T3-T4),每个声调对设计3对单字,每对单字声韵母相同而调类不同。设计时首先参考了儿童语料库CHILDES(Child Language Data Exchange System)[22],初步选取符合4~6岁儿童认知水平的单字,配以相应图片,再由6名语言学专业的研究生评估加以精选,并让4~5名儿童进行实际测试以验证语料的合理性。最终,选出18对(36个)单字,配以相应图片。实验字表详见表4。

表4. 实验二的字表

2.语音采集

我们选取南京师范大学一名女性研究生作为发音人(25岁;普通话一级乙等),录音地点和设备同实验一。发音人在充分熟悉语料后录两组音,先录正常语音(按日常说话风格),再录耳语(说悄悄话的风格),录音过程中发音人距离话筒约20cm。在每组录音中,按阴平、阳平、上声和去声的顺序,每个单字重复朗读3遍,语速适中,词与词之间适当停顿,如有漏读、错读或耳语不合要求,则予以纠正并重新录制。最终产生了6声调对×6单字×3重复×2发声类型 = 216个语音刺激。

3.被试选取

我们选取12名4.58~5.58岁的CI儿童(9男3女;年龄:M= 5.05,SD= 0.37)和13名4.17~5.75岁的NH儿童(6男7女;年龄:M= 4.87,SD= 0.38),CI儿童来自江苏省听力语言康复中心,NH儿童来自南京保利紫晶山幼儿园,所有被试均无认知障碍和神经疾病史。CI儿童的开机年龄为1.58~3.00岁(M= 2.24,SD= 0.37),CI的使用时长为2.25~3.75年(M= 2.81,SD= 0.42),双耳听损均大于91dB(极重度听损)。CI儿童的背景信息详见表5。Mann Whitney U检验和卡方检验的结果表明,NH和CI儿童的年龄和男女比例均无显著差异(ps> 0.1)。

表5. 实验二的CI儿童背景信息

4.实验过程

实验在安静房间内进行,实验设备包括联想电脑和Edifier R26T外置音箱,使用E-Prime 2.0 Professional软件[16]呈现图片和语音刺激。实验采用图片选择范式,分为训练和测试两个阶段。训练阶段的流程与实验一相同。在测试阶段,语音刺激按照发声类型分为两组,第一组为正常语音、第二组为耳语语音,每组108个语音刺激按随机顺序呈现。要求被试听到播放的每个语音刺激后,从对应单字对的两幅图片中做2选1的强迫选择;若被试未能在20秒内给出答案,则自动跳至下一个刺激。每完成36个语音刺激,被试可以休息3~5分钟。

(二)实验结果

声调的配对识别率,NH和CI儿童在正常语音条件下分别为0.99(SD= 0.02)和0.76(SD= 0.18),在耳语条件下分别为0.65(SD= 0.17)和0.55(SD= 0.13),均显著高于50%的机会水平(Binomial Test:ps< 0.001)。为深入分析NH和CI儿童的声调感知能力,采用2儿童组别(NH、CI)×2发声类型(正常语音、耳语)×6声调对(T1-T2、T1-T3、T1-T4、T2-T3、T2-T4、T3-T4)的混合实验设计,构建LMM模型,以配对识别率做合理化反正弦变换后得到的RAU值为因变量,以儿童组别、发声类型、声调类型为固定效应,以被试为随机效应(含截距与发声类型的斜率)。经1000次仿真模拟发现,儿童组别、发声类型和声调对的后验功效值均接近于100%。

LMM的结果如表6所示。儿童组别、发声类型、声调对的主效应均显著(F(1, 23) = 110.92,p< 0.001;F(1, 23) = 274.85,p< 0.001;F(5, 230) = 22.56,p< 0.001)。发声类型与儿童组别之间、发声类型与声调对之间的二阶交互效应都显著(F(1, 23) = 28.90,p< 0.001;F(5, 230) = 4.60,p< 0.001)。而且儿童类别、发声类型、声调对之间的三阶交互效应显著(F(5, 230) = 9.81,p< 0.001)。三阶交互效应详见图2。简单效应分析发现,无论是正常语音还是耳语条件下,儿童组别和声调对均有显著的交互效应(ps< 0.001)。事后检验进一步表明:在正常语音条件下,CI儿童在6个声调对上的识别率均显著低于NH儿童(ps< 0.01),但是在耳语条件下,CI儿童仅在T2-T4声调对上的识别率显著低于NH儿童(p< 0.001);在正常语音条件下,NH儿童6个声调对两两之间的识别率均无显著差异(ps> 0.1),而CI儿童T2-T3声调对的识别率显著低于其它声调对(ps< 0.01),T2-T4的识别率显著高于T1-T4(p= 0.013)、T1-T2(p= 0.004)和T2-T3(p< 0.001),但是在耳语条件下,NH儿童T2-T4和T3-T4的识别率显著高于T1-T4、T1-T2和T1-T3(ps< 0.05),而CI儿童仅有T3-T4的识别率显著高于T1-T4(p= 0.012)。此外,NH儿童6个声调对在正常语音条件下的识别率均显著高于耳语条件(ps< 0.001),CI儿童除T2-T3以外的声调对在正常语音条件的识别率均显著高于耳语条件(ps< 0.001)、而T2-T3在两个条件下识别率无显著差异(p= 0.848)。

表6. 实验二各因素的主效应与交互效应

声调对图2. 实验二的儿童组别、声调对、发声类型的三阶交互效应

四、讨论与总结

本文设计了两个听觉感知实验,以年龄匹配的NH儿童为对照组,考察CI儿童在噪声环境和耳语条件下的汉语声调识别能力。结果发现,CI儿童的声调识别率都高于机会水平,说明在噪声环境和耳语条件下CI儿童仍有一定的声调感知能力,但是与NH儿童相比明显不足。

实验一采用四人嘈杂语模拟言语交际的噪声环境,并设置5dB、0dB和-5dB三个SNR水平。与崔丽丽[9]及毛弈韬[7]结论一致的是,我们发现无论在何种信噪比水平下,CI儿童的声调识别率总体上都低于NH儿童(除T4外),而且噪声对CI儿童的影响更大,这是因为CI编码的时域包络比语音的精细结构更容易受噪声影响。与崔丽丽及毛弈韬研究结论不同的是,我们并未发现CI儿童的声调识别率随信噪比降低逐渐下降,而只在-5dB SNR时识别率显著下降,这可能是因为本研究的CI儿童被试都是双耳双模,佩戴的助听器在一定程度上弥补了CI在低频信息(如基频)处理上的缺陷。

研究发现,CI和NH儿童识别各调类的难易顺序基本一致,都是T1与T4较易、T2与T3较难;而且,CI儿童T1~T3的识别率均显著低于NH儿童,但是T4的识别率与NH儿童没有显著差异。比较下来,CI儿童最容易识别T4,这与Peng等结论一致,原因是T4调长最短这一特征可为CI儿童感知;其次,CI儿童T1的识别率较高,这和崔丽丽与毛弈韬结论基本一致,这是由于T1是平调,基频曲线及振幅包络随时间变化很小,较易掌握;最后,CI儿童T2与T3识别率最低,这是因为T2和T3的基频走势有相似性。

实验二考察了耳语条件下的声调感知,发现除了CI儿童的T2-T3以外,NH和CI儿童各声调对的识别率均比正常语音下显著降低;另一方面,在正常语音条件下,NH儿童6个声调对的识别率均显著高于CI儿童,但在耳语条件下,仅有T2-T4的识别率显著高于CI儿童,其它声调对的识别率与CI儿童无显著差异。上述结果说明,在耳语条件下CI和NH儿童的声调感知都因基频和谐波的缺失而变差,但是NH儿童受到的影响更大,进一步表明频域精细结构是NH儿童识别声调的主要线索[23][24],在主要线索缺失时(如耳语条件下)相对于CI儿童的优势将减弱。至于CI儿童在耳语条件下的声调识别率也比正常语音时低,很可能是由于耳语的能量小于正常语音所致[10][11]。

CI和NH儿童耳语条件下的声调识别率都显著高于机会水平,佐证了声调识别在基频以外还有次要线索,但是两组儿童在耳语和正常语音条件下声调的混淆模式大不相同。在正常语音条件下,NH儿童几乎能完美区分每一对声调,而CI儿童T2-T4识别率最高、T2-T3识别率最低,这说明双耳双模的CI儿童仍然依赖基频线索识别声调,因为T2和T4基频走势相反、而T2和T3基频走势相似。在耳语条件下,NH儿童T2-T4、T3-T4、T1-T3的识别率较高,T1-T4、T2-T3、T1-T2的识别率较低,而CI儿童除T3-T4识别率显著高于T1-T4外都没有显著差异,这一结果可从声调感知的次要线索(振幅包络和时长)来解释。由于振幅包络和基频曲线具有相关性[25],降升调T3往往振幅最低,高降调T4振幅最高[12],而T2与T3相似的基频走势和T1和T4相似的基频曲线起点,分别决定了T2与T3和T1与T4振幅包络的相似性;从时长来看,耳语条件下的孤立音节,T3最长,T1、T2次之,T4最短[10]。因此,在缺少基频信息的耳语条件下,NH儿童利用振幅包络和时长线索,可较好区分T2-T4、T3-T4、T1-T3,相反T2-T3、T1-T4、T1-T2则较难区分;CI儿童于各声调对的识别率差异不大,则可能是耳语能量低于正常语音所致。

以上两个感知实验的结果澄清了一些理论问题,从中可见CI技术继续完善的重要性,同时也为康复训练方法提供了启示。一方面,实验验证了无论是噪声环境还是耳语条件下,CI儿童的声调感知能力较NH儿童均显不足,只是效应因调类而异;耳语的感知实验还证实了基频以外的线索也部分承担了声调识别的功能,但是功能有限。这些结果说明了优化CI言语编码策略的重要性,特别是对声调语言的使用者。另一方面,实验结果为CI儿童声调感知的康复训练提供了启示。日常言语交际往往发生在背景噪声水平不一且发声态多样化的环境中,而且在噪声环境及耳语条件下CI儿童的声调识别能力更低,因此康复师应引导CI儿童在不同噪声环境及多样化发声态下的训练,并根据各调类的识别难度,制定循序渐进的康复方案。

猜你喜欢
耳语基频声调
语音同一认定中音段长度对基频分析的影响
西江月·晚归
基于时域的基频感知语音分离方法∗
声调歌
拼音宝宝扛声调
多舱段航天器振动基频分配速算方法
坐着轿车学声调
单韵母扛声调
路灯和萤火虫
45000kHz基频晶体滤波器