对话、念读两种说话状态下声纹特征变化的实验研究

2021-03-04 08:41黄颀涵陈维娜刘贻杰

实验技术与管理 2021年1期

黄颀涵，陈维娜，刘贻杰

（中国人民公安大学，北京 100038）

当前，电信网络诈骗案件持续高发，作案手段通常“只闻其声不见其人”。为了赢得受害者的信任，犯罪分子往往会扮演特定的角色，以对话的形式实施诈骗；而在语音样本录制时，嫌疑人往往配合程度不高，以没有感情的念读形式进行录音。因此在实践中，检验人员通常要面对检材为对话语音，样本为念读语音的情况。

在对话和念读两种不同说话状态下，个人的声纹特征势必会发生一定变化。Brungart[1]曾指出，说话方式的改变会对声纹鉴定产生巨大的影响。但国内针对不同说话状态下语音的变化研究长期以来主要集中在语言学领域，如刘亚斌等[2]通过对ASCCD、CASS和CADCC这 3个语料库的统计分析，归纳出朗读语料与自然口语在音节、声韵、副语言学和非语言学现象、语篇话题、话轮转换、基频变化以及音段音变现象等方面的不同之处。王茂林等[3]对汉语口语与朗读话语陈述句音高进行了比较，结果显示对话与朗读话语多数语句的音高呈前高后低的走势，不过口语对话较长语句最后一个韵律词的音域相对较大，而朗读话语内部韵律词的音域大多没有差异。而在法庭科学领域中，不同说话状态下个人的发音会有怎样的变化，是否会对声纹鉴定产生影响，目前还缺少相应的研究。

为应对当前电信网络诈骗案件的高发态势，利用语音证据打击违法犯罪，亟需确定对话、念读两种不同情境下个人声纹特征的变化情况，评估这些变化对声纹鉴定的影响。本文采用声学-语音学研究方法，对普通话语流中代表发元音时舌头活动外围极限的3个主要单元音[a]、[i]、[u][4-6]进行研究，系统分析其听觉特征和频谱特征这两大类声纹特征的变化情况，总结其变化规律，拟为检验人员在司法实践中提供有价值的参考意见。

1 实验设计

1.1 录音对象

考虑到涉案嫌疑人大多为青年男性，故实验邀请了20位年龄在25~35岁、普通话较为标准的男性作为录音对象，编号Y1—Y20。录音时，发音人身体健康，未做过咽喉部手术，无嗓音疾病、感冒、醉酒等异常症状。

1.2 录制过程

1.2.1 对话语音的录制

使用带有指向性的麦克风，FocusriteScarlett 2i4型声卡，AdobeAudition录音软件（参数设置：采样频率16 kHz，精度16 bit，单声道）以对话的形式，围绕“谈谈你对校园内部管理的看法”“你寒假会和谁一起去哪里旅游”这两个话题与录音对象进行面对面交谈，其中录音对象的有效语音时长不少于120 s，且两个话题中有较多相同音段。将录音按编号和说话状态进行命名，保存为WAV格式。

1.2.2 念读语音的录制

使用“讯飞听见”语音软件将对话录音转写成文本，校对文本后让录音对象念读3遍，以保证念读语音与对话语音中有大量可供比对的相同音段。将录音按编号和说话状态进行命名，保存为WAV格式。

1.2.3 被检音段的选择

使用“国音智能声纹鉴定系统”打开同一人的对话录音和念读录音，检索含央低元音[a]、前高元音[i]、后高元音[u]的单元音音段；经初步听辨及语图分析后，选择个人在不同状态下对应调音音质相同的音段，如寒[xan]、提[thi]、宿[su]等；确定每个人、每种状态下包含3个单元音的6个特征音段为被检音段，即每种状态下检测120个音段，共计检测240个音段。

1.2.4 声纹特征分析

首先，从听觉上解析并判断同一人在不同说话状态下的发音差异；然后，通过声纹鉴定系统制作语音的宽带语图，观察并记录 F1—F5共振峰走向、强度等频谱特征的变化情况；最后，提取 F1—F5共振峰频率值，进行声学参数的测量和分析。

2 实验结果

2.1 听觉特征的定性分析

除了存在失真、升沉和掩蔽外，人耳是最好的辨音“仪器”[7-8]。运用人耳进行听觉分析发现，说话状态由对话转为念读时，发音人的共鸣方式并未发生明显变化，但平均音高和音强等听觉特征均有不同程度的变化。

从图1可以看出，说话状态改变后，20位录音对象的待检音段听觉特征均发生了变化。其中，上述 6个音段中有 2~4个音段发生变化的共 17人，占总人数的85%。这说明在声纹鉴定中，多数人的多数音段听觉分析结果可能会受到说话状态改变的影响。

图1 说话状态改变后听觉分析的人数统计

由于个体发音具有一定的动态变化，故分别对两种状态下听觉特征的稳定性和变异性进行统计，结果表明：在同一状态下的120个待检音段中，听感无明显差异的有107个，占89.2%，有差异的仅有13个，占10.8%；当说话状态改变时，听感无差异的降至59个，占49.2%，有差异的则有61个，占50.8%，详见表 1。根据卡方检验，假设说话状态的改变不会影响听觉分析的判断，计算得到渐进显著性（P值）= 0，即P<0.05，拒绝原假设。由此可知说话状态改变会影响听觉分析的结果。详见表2。

表1 二分类变量相关性分析个

表2 听觉分析的卡方检验

2.2 频谱特征的定性分析

2.2.1 共振峰走向

共振峰走向是指共振峰中心线在频率—时间平面上的曲线形态[4]。图2和3是同一人在两种不同状态下发同一音段时共振峰走向的类型图，可以看出共振峰走向特征有些保持稳定（图2），有些发生了变化（图 3）。

图2 录音对象Y2在不同状态发[a]音的共振峰走向相同

图3 Y5在不同状态发[u]音的F3共振峰走向存在差异

对对话、念读两种状态下3个单元音[a]、[i]、[u]的F1—F5走向特征进行统计分析发现，在20位录音对象发音所产生的300对共振峰中，走向特征发生变化的共振峰数在1~3对的有17人，占人数的85%，如图4所示。实验发现，不同单元音的共振峰走向变化情况不尽相同，其中元音[a]走向有差异的占比最高，为15.8%，元音[u]次之，为12.3%，元音[i]最低，为 12.0%，但彼此间数值很接近，没有显著差异，详见表 3。但对所有走向特征发生变化的共振峰数量进行测算后，对比走向特征保持稳定的共振峰数量发现，走向无差异的共振峰数量占了绝大多数，而走向有差异的共振峰数加起来仅有40对，详见表4。

图4 说话状态改变后共振峰走向变化的人数统计

表3 不同元音的共振峰走向变化数量统计表对

表4 不同共振峰走向变化的数量统计表对

2.2.2 共振峰强度

共振峰强度是各条共振峰的音强在频谱图上的分布特征。图5和6是同一人在两种状态下发同一音段时共振峰强度的类型图，当说话状态改变时，共振峰强度特征既有保持稳定的（图 5），也有发生变化的（图 6）。

对对话、念读两种状态下 3个单元音[a]、[i]、[u]的F1—F5共振峰强度特征进行统计分析发现，在 20位录音对象发音产生的所有待检音段中，共振峰强度特征发生了不同程度的变化。表5是不同状态下共振峰强度变化的统计表，可以看出，在300对待检共振峰中有 45.3%的共振峰强度特征发生了变化，且在其相应的待检音段中，大部分音段表现为1~2对共振峰强度发生变化，占58.3%；而F1—F5共振峰强度均有差异的音段有12个，占20%，如图7所示。

图5 Y7在不同状态下发[a]音的共振峰强度特征稳定

图6 Y12在不同状态下发[i]音的共振峰强度特征变化

表5 不同状态下共振峰强度变化情况统计表对

图7 共振峰强度发生变化的音段数统计

2.3 频谱特征的定量分析

2.3.1 第一共振峰F1

选取包含[a]、[i]、[u]3个元音的稳定音段，各自测量其在两种说话状态下的 F1频率值，发现不同状态下3个元音的F1均有升有降，升降比例分别为1∶2、1∶1、1∶1。其他数值详见表6。

表6 两种说话状态下单元音F1频率变化统计表

由对话转为念读状态后，[a]和[u]的 F1变异系数均有所减小，表示其F1特征参数的区分度略有降低，而[i]的 F1变异系数基本稳定；同时，两种状态下[a]和[i]的变异系数均超过 10%，说明两个元音的 F1在待检音段中具有较好的差异性。此外，在两种状态下，3个元音在不同状态下 F1变异系数的差值最大只有1.1%，表明说话状态的改变对F1的影响较小。

2.3.2 第二共振峰F2

在两种状态下分别测量稳定音段中[a]、[i]、[u]的F2频率值，发现其升降比例分别为4∶1、3∶2、3∶4。其他数值详见表7。

由对话状态转为念读状态后，[i]和[u]的 F2差异性都有一定增大，而[a]的 F2差异性有所减小；同时两种状态下3个元音的变异系数均超过10%，说明F2具有较好的区分性。此外，在两种状态下，3个元音F2变异系数的差值最大为 2.7%，表明说话状态的改变对F2的影响不大。

表7 两种说话状态下单元音F2频率变化统计表

2.3.3 第三共振峰F3

测量对话和念读状态下待检音段中[a]、[i]、[u]的F3频率值，发现其升降比例分别为3∶2、3∶1、5∶2。其他数值详见表8。

由对话转为念读状态后，[a]和[i]的 F3基本保持稳定，变异系数略有增大，而[u]的F3差异性变小了，与 F1、F2相比没有明显的规律性。此外，在两种状态下，3个元音F3变异系数的差值最大为 1.7%，表明说话状态的改变对F3的影响较小。

表8 两种说话状态下单元音F3频率变化统计表

2.3.4 第四共振峰F4

在两种状态下分别测量待检音段中[a]、[i]、[u]的F4频率值，发现3个元音F4的升降比例分别为1∶1、3∶2、2∶1。其他数值详见表9。

由对话转为念读状态后，[i]和[u]的 F4差异性都有一定增大，而[a]的F4差异性变小了，这与F2的变化情况相似。此外，在两种说话状态下，3个元音的F4变异系数的差值最大只有 1.1%，表明说话状态的改变对F4的频率值测量基本没有影响。

表9 两种说话状态下单元音F4频率变化统计表

2.3.5 第五共振峰F5

测量对话和念读状态下待检音段中[a]、[i]、[u]的F5，发现3个元音F5的升降比例分别为3∶1、1∶1、3∶2。其他数值详见表10。

由对话转为念读状态后，[a]和[i]的 F5差异性都有一定增大，而[u]的F5差异性变小了，这与F3的变化情况有些相似。此外，在两种状态下，3个元音F5变异系数的差值最大为2.5%，表明说话状态的改变对F5的影响不大。

表10 两种说话状态下单元音F5频率变化统计表

3 讨论与分析

3.1 听觉特征变化

由表2卡方检验可知，听觉特征与说话状态的改变具有相关性。在实验中，当发音人的说话状态改变后，听感上无明显差异的音段由89.2%降到了49.2%，即有 40.0%的音段解析听感发生了变化；且大多数人听觉特征存在差异的音段数占一半左右，这意味着此时听觉分析的结果具有很大的主观性和错误率。

产生这种情况可能是因为对话时包含的口语现象较多且语速较快，口语中含有大量的音变现象，如音素音变、增音、减音、央化、鼻化等[2]，导致听觉分析出现了偏差；也可能是不同说话状态导致舌体与下颌开度相互作用共同影响了发音[9]。此外，共鸣方式属于生理特征，不会随着说话状态的变化而变化，而音高和音强的变化可能与情绪波动有关，如王英利[7,10]指出，情绪高涨时与情绪低落时可能会出现基频相差一倍以上的现象。

3.2 频谱特征变化

3.2.1 共振峰走向特征变化

由于声纹图谱具有动态性，共振峰“走向差异小且未相反”在实际分析中是一种正常情况，因此可以把共振峰“走向相同”和“走向差异小且未相反”视为同一类型。由表4可知这一类型的共振峰共有290对，占总数的 96.7%，同时“走向差异小且未相反”的共振峰占“走向有差异”共振峰数的75%。图4显示“走向有差异”的共振峰数在每个人中的比例均不超过33.3%，且一半的人仅有1对共振峰“走向有差异”，更不必说“走向有差异”中还包含了占 75%的“走向差异小且未相反”这种正常情况了。

通过上述分析，足以证明同一人在不同说话状态下共振峰的走向具有很强的稳定性。表4还显示低次共振峰（F1、F2）不存在“走向差异大”或“走向相反”的情况，其原因可能在于低次共振峰决定语音的调音音质[5]，同一调音音质的低次共振峰走向几乎相同。此外，实验还发现共振峰的走向变化情况与元音的种类无关。

3.2.2 共振峰强度分布特征变化

综合分析表 5和图7可以看出，88.3%的特征音段存在一对及以上强度对比有差异的共振峰，且各次共振峰中强度有差异和无差异的数量十分接近，无明显规律，这意味着在实践中 F1—F5均有可能出现共振峰强度不同的情况。而在实验中单个音段存在5对共振峰强度均有差异的情况大多是因为共振峰总体强度不同，这可能是发音人在说话状态改变时出现音量变化、情绪波动等原因导致的。

3.2.3 共振峰频率特征变化

通过测量分析对话和念读两种不同状态下3个元音[a]、[i]、[u]的 F1—F5共振峰频率值，发现说话状态改变后，3个元音的F1—F5均表现出有升有降的变化，且从升降比例和均值变化中均看不出明显的规律性，这意味着各共振峰的频率值变化之间无相关性[11]。实验还发现在说话状态改变后，3个元音的F3、F4、F5变化范围较 F1、F2要大。究其原因，曹洪林[5]表示，高次共振峰的变化与声道共鸣腔的整体性以及语音发声类型的改变有密切关系，但具体细节尚不清楚；而王英利[7]认为低次共振峰的个人稳定性很强且频率变化范围较小，即 F1、F2受说话方式改变的影响较小；Suthar[12]则认为F1、F2（特别是F2）在声纹鉴定中起到了重要作用。

就变异系数而言，说话状态由对话转为念读后，3个元音的各次共振峰变异系数的变化情况不尽相同。其中，元音[i]的各次共振峰变异系数均表现出增长的趋势，表明此时元音[i]各次共振峰的区分度都有所增加；[a]和[u]的低次共振峰变化情况相似，高次共振峰则表现出相反的趋势。3个元音的F1—F5共振峰变异系数的变化情况详见表 11，最大数值为 2.7%，表明说话状态的改变对3个元音各次共振峰的频率值虽有一定程度的影响，但这种影响并不大。

表11 对话状态转为念读状态后各共振峰变异系数的变化情况 %

对两种不同说话状态下3个元音的共振峰频率值进行配对样本T检验后，得到各自的P值，详见表12。很显然，除了[i]的 F3外，其余各条共振峰的P值均大于0.05，意味着在所有待检样本音段中，同一条共振峰的频率在对话和念读状态下是没有明显差异的。综合分析[i]的F3各项参数后，本实验倾向于认为其P值<0.05可能是部分音段频率的测量误差导致的；也就是说，说话状态的改变对3个元音各次共振峰的频率变化影响不大。

表12 配对样本T检验的P值统计表

4 结论

实验发现，针对对话和念读两种说话状态下普通话语流中的3个元音[a]、[i]、[u]，听觉分析主要用于选取特征音段，不可作为同一认定的依据，更不应该由此产生先入为主的结论。频谱特征中，共振峰强度分布变化的不确定性很大，未发现明显规律，不应作为判定语音同一性的主要依据；而共振峰走向特征、共振峰频率特征这两项频谱特征的个人稳定性较强，不易受到说话状态改变的影响，可作为语音同一性鉴定的主要依据。综上所述，在司法鉴定实践中，涉及对话、念读两种不同状态下的语音同一认定时，应重点分析语音的频谱特征，关注共振峰走向和频率的变化。