病理语音规模主观评测系统研制及效果检测

2021-02-16 00:40黄金峰陈彦婷
天津理工大学学报 2021年6期
关键词:元音评测主观

陈 彧,黄金峰,陈彦婷

(1.天津理工大学a.聋人工学院,b.马克思主义学院,天津 300384;2.筑波大学 人类综合科学学术院,日本茨城县 305-8577)

病理语音是指罹患各类听力言语等相关疾病的 人群因自身发音障碍而产出的异常语音[1]。其中,耳聋特别是学语前耳聋(语前聋)是造成病理语音现象的主要疾病之一。由于耳聋发生在语言能力形成之前,语前聋人的听皮质无法获取听觉刺激并形成刺激与意义之间的联系,致使这一群体极易在实现听力通道重构、接受言语康复后仍然面临严重的病理语音问题,从而对其人际交往、接受教育、融入社会等带来严峻地挑战。

病理语音评测是评估人工助听、辅听工具使用和言语康复训练工作效果的重要方法。目前,病理语音评测主要有两条路径,即基于言语治疗师听辩的主观评估[2-3]和基于语音声学测量的客观评估[4-5]。当前,主观评估主要依靠言语治疗师个体性的主观评测,缺乏多人评测结果的综合比对,具有较强的主观性。而客观评估虽已在参数选取和测评方面取得了一定进展,但仍缺乏可靠的及将主、客观评估结合起来的病理语音评测工具。

鉴于目前国内外尚未有针对汉语的病理语音的评估工具,本项目组开发了一套病理语音规模主观评测系统,分别邀请多人使用该系统对一组包括语前聋儿病理语音和健听儿童正常语音等语音数据开展主观评测,将主观评测结果与病理语音的声学测量数据进行比对,以检验使用该系统的规模主观评测结果的评测效果,为改进该系统、并进一步设计将主、客观评估结合起来的评测工具提供思路。

1 病理语音规模主观评测系统

在特定语言社团中,作为非专家的母语者具有天然的语音质量评判能力。因此,在邀请非专家评测者开展发音质量评判时,当评判者达到一定数量,所做判断将更为收敛、且评判结果存在较好的客观性。

基于这一理念,课题组利用Matlab(版本号:2019a)[6]开发了病理语音规模主观评测系统(speech subjective evaluation system traintng model,SSEST)。其中,该系统使用了Voicebox工具箱进行语音信号处理,采用了Guide工具模块进行用于交互的图形界面设计,目前系统版本为2.6,语音主观评测系统主界面如图1所示。

图1 语音主观评测系统主界面Fig.1 The main interface of subjective assessment system of speech sound

目前,该系统有“评测人信息录入”、“设置评测参数”和“导入训练材料”3个主菜单组成。其中,“评测人信息录入”菜单用以录入评测人姓名、年龄和有无病理评测经验等背景信息;“设置评测参数”用以设置空白界面显示时长、评测音播放次数和提示音等;“导入训练材料”用以导入训练和评测材料的位置索引信息文件,导入该文件后,系统自动对评测语音数据进行随机乱序。依次完成3个菜单的设置后,系统会自动生成一个评测人数据集以记录评测人的数据。评测过程中所有设置菜单被锁定,均将无法再行修改并自动进入语音主观评测环节。

评测开始后,软件界面右侧会出现评测开始时间、当前评测项目等信息,并提供播放和提交等操作选项;界面左侧上半部分出现待评测项目宽带语谱图,用以展示语音的声学特征;下半部分则出现评测者在听辩后所需回答的问题。其中,主要问题包括输入所听到的音节读音拼写、给所听到音节的声韵调分别打分等。声、韵和调打分取值范围从最差至最好依次为1-5分,如“无法分辨”则赋值为0分。在每次评测任务过程中,评测人都可以通过点击“再次播放”按钮来反复听辩评测语音,以得到最准确的评测结果,提高评测数据的准确性和可靠性。

在评测过程中,评测者可以随时关闭系统退出评测,已完成的评测结果会自动保存在评测人数据集中以便再次展开评测。下次评测开始时,评测会自动读取评测人数据集,并从有记录的最后一条完成评测项目的下一条项目开始。当评测完成全部评测项目后,系统会出现评测完成的提示信息。

2 病理语音数据的主、客观评测

2.1 评测材料

评测材料为项目组所构建的语前聋儿病理语音数据库中的语音数据。该库收集了天津市残疾人康复中心、中国听力语言康复研究中心(原中国聋儿康复研究中心)的28名语前聋儿、语前聋儿年龄为5岁6个月至6岁6个月,接受人工耳蜗植入3年左右、参与言语康复2年左右,除耳聋外无其他残疾及认知功能缺陷。健听儿童与语前聋儿匹配,信阳市一所无听力私立幼儿园的24名健听儿童的发音数据(无言语疾病及其他认知功能缺陷)。在语前聋儿病理语音数据库中,每名儿童各有7 044条发音数据,内容为包含汉语普通话全部21个声母、39个韵母和4个声调并兼顾声韵调平衡分布的双音节词语。各条发音数据的探测目标为前字或后字,探测目标之外的另一音节,则是为照顾儿童语言特点而添加的前后缀成分如“小”、“子”等以增加发音词表的自然度。

针对52名儿童的366 288条待评测发音数据,项目组分别开展了主、客观评测。其中,主观评测通过将数据导入病理语音规模主观评测系统开展,客观评测则通过提取发音人顶点元音的共振峰参数进行评测。

2.2 主观评测

主观评测共招募20名评测人,9男11女,年龄18岁至21岁(Mean=19.42,Std=0.99),均为具有一定评测经验的病理语言康复专业大学生,无听觉和言语障碍史。评测工作在沧州师范学院沧州市儿童研究所的实验室中开展,评测人使用相同型号的实验主机、耳机等硬件设备,使用相同的操作系统环境和病理语音规模主观评测系统版本。评测工作不设时间限制,评测人根据各自的节奏开展评测工作。最终,评测人完成全部评测工作的时间大致在2周至6周之间。

完成主观评测后,将打分结果导出评测系统。考虑到主观评分中的人际差异,首先将每位评测人的全部评分结果利用公式(1)将原始评分转换为Z-Score数据[7],其计算公式为:

式中,x为某评测人就某条发音数据的原始评分,μ为该评测人总体样本空间的评分均值,σ则为其总体样本空间的标准差,z为该条发音数据经过转换的Z-Score值。

完成数据转换后,就各条发音数据求取20名评测人的评测结果的平均值,得到54名发音人各7 044条发音数据评分。进而就每名发音人求取全部元音发音数据评分均值All,以及各发音人以顶点元音[a]、[i]、[u]单独为韵母音节的数据评分均值Corner,共得到52名发音人两组数据评分均值的数据,主观评测Z-Score数据的描述性统计结果,如表1所示。

表1 主观评测Z-Score数据的描述性统计结果Tab.1 The descriptive statistical results of Z-Score data of subjective assessment

2.3 客观评测

元音空间的计算分析是病理语音客观评测的常用方法。在某特定语言中,通过测量其元音系统中的顶点元音的前两个共振峰数据,计算相关声学指标,从而达到客观评测元音发音情况的目的。目前,元音空间计算的声学指标主要有3个评测参数,元音空间面积(vowel space area,VSA)、共振峰中心化比率(formant centralization ratio,FCR)和元音发音指数(vowel articulation index,VAI)[8]。

利用Praat(版本号:6.1.52)[9]提取语音数据中单独以顶点元音为[a]、[i]、[u]韵母的元音共振峰数据,分别计算52名发音人[i]、[a]、[u]的前两个共振峰均值数据F1i、F2i、F1a、F2a、F1u、F2u。进而,运用公式(2)-(4)分别求取了各发音人的VSA、FCR和VAI数据,所得到的客观评测参数的描述性统计结果,如表2所示。

表2 客观评测参数的描述性统计结果Tab.2 The descriptive statistical results of objective evaluation parameters

3 效果验证

为验证评测的客观性,可以将前文得到的主、客观评测数据结合起来开展相关分析。一方面,可以检测主、客观评测内部各参数的相关性;另一方面,可以通过考察主、客观评测数据间的关联,验证规模主观评测结果的客观性。

将All、Corner、VSA、FCR、VAI数据代入R(版本号:4.0.5)环境[10],采用Hmisc包[11]计算各参数之间的相关性和显著水平,得到主、客观参数量之间相关性系数及显著性结果,如表3所示。主、客观参数的相关分析结果,如图2所示,则藉由corrplot包[12]实现。

图2 主、客观参数的相关分析结果Fig.2 The correlation analysis results of subjective and objective parameters

由表3和图2可见,在客观评测数据方面,FCR分别与VSI、VAI存在强负相关,VSI与VAI之间存在强正相关关系;在主观评测数据方面,All与Corner存在强正相关关系;在主、客观评测数据方面,除All与VSA处于边缘显著水平(p=0.069)的弱相关外,其余参数之间均呈现显著的中等相关关系[13]。对比两组主观评测参数可以发现,Corner与VSA、VAI、FCR的相关系数r的绝对值分别为0.304、0.356、0.383,均大于All与3个客观参数间相关系数的绝对值,表明Corner与3个客观参数间表现出了更强的相关关系。

对于上述相关分析的结果,可以有以下3点考虑:

1)All与Corner存在强正相关关系,说明即使在数据规模较小的情况,顶点元音韵母数据评分均值仍然具有良好的代表性和稳定性,可以有效地反映全体韵母的主观评测结果的全貌。因此,在更大规模数据的情况下,Corner参数将具有更好的鲁棒性,从而替代All参数,以实现病理语音快速、准确的主观评测的目标。

2)3个客观参数不仅彼此间存在强相关性,而且与All相比,三者与Corner参数也显示出了更强的相关性。考虑到这些元音空间的客观参数可以通过映射发音生理空间边界来反映语音发音质量[14],而Corner参数又可以代表全部元音韵母发音质量的主观评测结果,主观评测结果和客观评测结果之间所存在的一致关系,一方面显示出基于非专家评测者的规模化主观评测存在较好的客观性,另一方面也展现出将主、客观评测参数结合起来,开展病理语音自动评测的可能性。

3)All参数与3个客观参数具有一定的相关性但相关程度不如Corner参数的原因可能在于:Corner与客观参数都是与顶点元音直接相关的,而All参数则反映了全部元音韵母发音质量的主观评测结果。一般而言,顶点元音是各种语言元音系统中最先和最易于掌握的元音[15]。因此,在现有的主观评测结果数据中,以顶点元音单独做韵母的主观评测得分应该明显高于某些韵母特别是复杂韵母的得分。可能正是那些主观评测得分较低的韵母的存在,造成All与基于顶点元音的客观参数的相关关系不如Corner的结果。

4 结论

随着经济社会和科学技术的快速发展,病理语音检测工作日益繁重,开发和完善针对汉语普通话的病理语音自动评估工具成为当前相关领域的重点工作之一。本文简要介绍了项目组开发的一套病理语音规模主观评测系统,利用该系统对语前聋儿、健听儿童等语音数据开展主观评测,根据评测结果提取的All和Corner参数,将其与语音数据的客观评测参数VSA、VAI、FCR开展了相关分析,并对相关分析的结果进行了比对分析。结果表明,基于非专家评测者的规模主观评测具有良好的客观性,主观评测参数特别是Corner参数具备作为病理语音规模主观评测系统参数的潜力,并有可能与客观参数一起,成为病理语音自动评测的指标之一。这一结果,为进一步改进病理语音规模主观评测系统、并进而设计将主、客观评估结合起来的评测工具提供了研究思路。

猜你喜欢
元音评测主观
元音字母和元音字母组合的拼读规则
次时代主机微软XSX全方位评测(下)
次时代主机微软XSX全方位评测(上)
元音字母和元音字母组合的拼读规则
加一点儿主观感受的调料
后印象
挣多少钱,才可以买到快乐
对立与存在
Playing with “ar”
MI评测产品排行榜