基于体感控制的语音障碍人群发音训练系统设计及可用性探讨

2023-06-15 05:26毛艳梅

无线互联科技 2023年2期

毛艳梅

摘要：基于Kinect的体感控制技术，文章研究了一种语音障碍人群发音训练系统，并通过临床运用测试了系统的可用性。该系统由障碍数据采集、发音康复训练及发音康复评估三大模块构成。每一模块又由文字、图像、声音、视频等多模态内容组建。共有10名语言治疗师、30例语音障碍人群参加了本项研究。研究结果发现基于人工智能深度学习融合技术开发的这套语音康复训练系统可显著提升语音障碍人群的发音质量，具有较好的应用前景。

关键词：体感控制；发音训练系统；语音障碍；可用性

中图分类号：R494 文献标志码：A

0 引言

语音障碍是指因构音器官结构缺陷、神经、听力障碍和肌肉运动异常等原因造成语音清晰度低于正常水平而无法正确发音和建立有效沟通的言语障碍［1］。研究证明，通过发音训练，可以有效地发掘和激活语音障碍人群的听说器官的功能代偿，开发其语言能力和显著提高其语音康复水平［2］。当前语音障碍人群的发音训练以人工训练或计算机辅助训练模式为主，人工训练模式不仅易受时间、地点、人员等诸多因素的限制，其训练过程也费时费力，训练效率低、达不到预期训练效果；市场上所使用的发音训练系统的训练内容虽然多种多样，但是智能化程度不高，训练内容往往固定且无法更改，单一重复的训练很容易使训练者产生倦怠乃至抵触心理。因此，寻找有效、规范的新技术、新方法促进语音障碍人群积极主动进行发音训练具有极其重要的现实意义。

体感控制技术是利用肢体动作与周边装置或环境互动，再由机器对用户的动作进行识别、解析，并做出相应反馈的计算机人机交互技术［3］。基于体感控制技术的Kinect是一款主要用于运动感知的体感设备，可以捕获音频信息流、彩色视频流和深度信息流等三种不同表现形式的数据流。其自带的SDK能很好地跟踪到人脸，并使用121个3D坐标点定义脸部，同时能提供一体化的音视频信息输入与处理，以此来提高语音识别和人机交互能力［3］。

在参考诸多相关研究的基础上［4］，本研究基于运用Kinect的体感交互技术，设计了一个针对语音障碍人群的人工智能发音训练系统，并将其命名为体感交互语音康复训练系统（KAPTS 1.0）。在分析了该套系统的设计框架的基础上，通过实证研究，探讨了KAPTS 1.0用于进行语音障碍患者发音训练的可用性。

1 研究方法

1.1 国内外计算机辅助发音训练系统研究现状

20世纪70—80年代计算机辅助发音训练系统开始出现在以美国、日本为主要代表的发达国家。这些辅助发音系统大多比较简单。近年来随着多模态交互技术的飞速发展，语音障碍人群的康复训练需求大幅提升，因此，通过人机交互技术辅助语音障碍人群进行康复训练的研究显著增加。这些研究在早期主要针对语音障碍人群的面部表情识别等单项交际技能［5］，近10 年的相关研究逐步转向综合训练，如基于Kinect人机交互技术的ECHOES项目［6］。此外，融合了人工智能的虚拟现实技术也逐渐应用到语音障碍人群的发音技能康复训练中，如BPS数字行为辅助系统和3D虚拟发音导师系统［7］；尝试应用机器人干预进行语音障碍人群的康复训练，如使用机器人Nao来训练语音障碍人群的发音，结合LEGO治疗法和人形机器人的康复训练模式以及研发的能根据不同个体需求自动适应并做出反馈的机器人协同技术［8-9］。

在计算机辅助发音训练方面，我国的研究起步较晚，直到2004年才有学者基于语音特征视觉反馈的训练方式，提出根据目标训练法和对比训练法设计的计算机辅助训练方法能够有效地解决发音异常和构音异常［2］。

国内发音训练康复系统的研究和开发还不完善，缺乏对训练者发音成效进行测评、量化。Kinect体感控制技术在该领域的研究多为语音识别领域［10］，对应用体感控制技术进行语音障碍人群的发音训练研究鲜有报道［11］。课题组近期研究发现：将体感控制技术应用在语音康复领域，可有效突破目前训练的局限，为人机交互技术提供全新的研究视角和应用模式。

1.2 系统设计框架

体感交互语音康复训练系统（KAPTS 1.0）于2021年完成。该系统包含3个模块：（1）障碍数据采集。该模块通过应用Kinect体感控制工具采集语音障碍人群的音频信息、视频彩色图像序列、深度图像序列及深度数据点序列、三维人脸模型序列，构建多模态数据集。（2）发音康复训练。该模块在对照患者和参照正常人群多模态发音数据库的基础上，按患者发音特点对错误方式进行归类，根据构音错误产生的机制制订体感交互个性化发音训练方案，为患者个性化的发音康复训练方案和任务。（3）发音康复评估。该模块通过应用人工智能深度学习算法从训练者的语音流利度、清晰度、准确度、音位构音能力等方面进行智能评估，验证发音训练的有效性。

1.3 基于体感互动的训练设计实现

在借鉴已有研究所构建的发音语料库的基础上［12］，研究者通过公开社区招募的方式招募了30名正常发音人群和30名发音障碍患者。按照精准预测-精准干预训练-智能评估的原理和方法，课题研究者着手设计并开发KAPTS 1.0。首先，研究者建立了面向语音障碍人群的多模态数据集。（1）发音测试语料库设计。根据语音障碍人群的发音特性设计语料库。按照从简单到复杂的发音原则，该语料库包含了韵母、声母、音节和句子。其中韵母有6个，声母有3个；音节有固定音节和随机音节；句子有8句，取自人教版一年级的一个朗读段落。（2）多模态数据采集。选择成人语音障碍30人（男性、女性各15人）和正常人30人（男性、女性各15人），應用kinect体感控制器，通过面部定位、特征提取、多流信息融合等技术同时获取语音障碍人群的音频信息数据、视频信息数据和深度信息数据。通过音频和深度数据融合，音频和视频信息融合以及深度数据和音视频融合，将时间同步的各个流的特征拼接，然后通过隐马尔可夫模型（HMM）进行分类识别。（3）多模态数据特征比较：比较语音障碍人群与正常人群的多模态数据特征，为训练者个体生成数字化构音错误方式提供数据源。

其次，设计基于体感控制技术的个性化发音训练方案。（1）训练模块设计：根据语音障碍人群的构音错误方式，设计舌前音化、非送气化、侧化构音、舌后音化、辅音脱落、唇齿音化、舌面音化及混合型等训练模块。（2）个性化发音训练路径规划：在个体语音障碍数据集基础上，结合构音错误方式，系统地生成训练者个性化发音训练路径，并设定有效的训练频率与训练时间周期。

最后，开发体感交互个性化发音训练系统并进行训练效果评估。（1）三维人物面部头像与场景建模。通过3DS Max三维图形绘制软件、Direct 3D图形绘制技术建立训练者三维人物面部头像模型、面部动作模型建模和纹理渲染、三维模型加载，并创建和渲染相关场景和人机交互界面。（2）训练者三维人物面部头像原始模型：基于Kinect采集的多模态数据集，利用视频驱动方式与面部三维模型相融合生成面部三维模型动画，实现能够实时显示训练者面部动画的面部表情、唇部动作、舌头运动状态的面部三维动画效果。（3）训练者三维人物面部头像目标模型：根据个性化训练方案，按照训练者三维人物面部头像原始模型生成基于训练者个体的目标训练模型。（4）发音智能评估和矫正。通过Kinect实时捕捉训练者面部运动数据，结合语音识别数据反馈，通过人工智能深度学习算法，将训练者发音与标准发音进行匹配，实现发音效果评估和矫正。

1.4 系统操作流程

KAPTS 1.0包括训练者（患者）和诊疗师（医生）两个角色界面。在系统操作流程上，诊疗师（医生）首先为训练者（患者）创建一个账户。根据训练者（患者）的病理资料，创建训练者基本资料，评估发音障碍类型和严重程度，设定康复初步目标。然后，训练者注册并登录创建的账户（训练者也可自己创建账务并录入基本资料），录入发音障碍数据。接下来，一方面，系统通过比照先前导入的正常人群的发音数据库和患者录入的障碍数据，分析患者的发音障碍特性和类型，给出自适应性地个性化康复训练方案和任务。另一方面，医生根据患者录入的发音障碍数据，再次分析患者发音障碍特性和类型，结合系统给出的自适应康复训练方案和任务，设置并生成患者的康复训练方案和任务，下传给患者。患者下载康复训练方案和任务后，开始执行康复训练。在训练期间，训练者的训练数据会同时发送到在线数据库中。训练期间，医生和系统均可以实时评估患者的康复训练效果，给出实时的修改建议。训练结束后，医生和系统均会给出训练报告，报告包含了每次训练的评价意见和建议。在所有训练完成后，系统和医生会给予训练者总体发音康复训练结果评价以及后续的训练建议。

1.5 系统评价

为了评价KAPTS 1.0的临床可用性，研究组于 2021 年 7 月—2021年 9 月以方便抽样和公开招募的方式邀请了10名语言治疗师、30名发音障碍者对本套系统进行了测试体验。在正式开始系统测试前，研究者向30名发音障碍者详细解释了本次研究的目的和所要进行的程序，并取得了参与的30位发音障碍患者的书面知情同意书。参与此次实验的患者年龄均大于18周岁，有医院出具的发音障碍诊断证明。然后，研究者通过一对一教授的方式，确保参与的治疗师和患者都能准确使用该系统。对于治疗师，设定的标准是必须是正规医院的在职医生。

训练结束后，课题研究者对治疗师和患者均进行了问卷调查。考虑到问卷的信效度，问卷通过问卷星App发放。问卷内容包括对KAPTS 1.0系统的界面设计的友好性、Kinect数据采集的准确性、训练方案的可行性和趣味性、训练效果的有用性、用户使用黏度5个维度共计10个项目的评分。评分采用了5分量表制，即5分表示非常同意、4分表示同意、3分表示中立、2分表示不同意、1分表示非常不同意。

1.6 统计学分析

采用问卷星自带的SPSS软件对问卷调查数据资料进行统计分析和人工核查后，研究者发现参与测试的10名治疗师和30名发音障碍患者对KAPTS 1.0系统的评判比较一致，均为良好，为了确定问卷统计结果的信效度，采用Wilcoxon检验对其进行了非参数检验，发现P＜0.05，即统计结果具有显著性意义。

2 结果

2.1 一般资料

在本研究中，30例语音障碍患者在10名语音治疗师的指导下，使用研究者研发的KAPTS 1.0系统进行了语音康复训练。10名语音治疗师中，男性 6例，女性 4例，平均年龄30岁左右，工作年限均大于3年，且经过了4个学时的KAPTS 1.0系统的使用培训。30例语音患者中，男性 19例，女性 11例，平均年龄53岁左右，病程5个月左右，病因不尽相同，其中腦梗死 11 例，运动性失语 9 例，脑出血 10 例，均有正规医院的诊断证明。每名患者在下载KAPTS 1.0后，均在家人的陪伴下，在其主管语音治疗师的远程指导下，顺利完成了为期4周的个性化语音康复训练。在这4周中，每位患者的语音康复训练每天不少于 20分钟，每周为期5天。此外，每位患者在通过研究者研发的KAPTS 1.0应用程序进行语音康复训练时，需要配合使用研究者分发的Kinect传感器。康复训练的全过程中需要使用速度稳定的互联网，否则训练的流畅性和精准性会受影响。

2.2 调查结果

整体来看，参与本次研究的语音治疗师和语音障碍患者对于研究者研发的 KAPTS 1.0应用程序在可用性维度方面的评分均比较高，其中来自治疗师的平均分为81.6分，来自患者的平均分为78.2分。来自治疗师的问卷结果显示，在系统界面设计的友好性、Kinect数据采集的准确性以及训练效果的有用性这三个维度的正向得分也很高；但是用户使用黏度这一维度的得分明显偏低，导致这一问题的主要原因可能是大部分发音障碍患者为老年群体，治疗师对于其能否承担购买Kinect成本的考量。来自患者的问卷调查结果显示，其在系统界面设计的友好性、训练方案的可行性和有用性维度的得分较高，训练方案的趣味性维度的得分偏低。导致这一现象的原因可能是大部分患者在执行康复训练时压力较大，自我要求较高，因此对于康复训练任务有超预期的期望。在后续的系统优化中，研究者会进一步进行相关优化。

3 討论

2017年10月18日，习近平同志在十九大报告中提出了“健康中国”的发展战略。他指出，人民健康是一个国家富强、民族昌盛的重要标志。我国要不断完善国民健康政策，为亿万人民群众提供全方位全生命周期的健康服务。然而目前我国语音障碍、构音异常的总人数超过700万，语音障碍的存在不仅影响人们正常的语言能力，同时也会引起心理、行为上的障碍，降低言语清晰度和社会交流能力，严重影响生活和工作。因此，寻找有效、规范的新技术、新方法促进语音障碍人群积极主动进行发音训练具有重要的现实意义。

本课题组基于Kinect的体感控制技术设计研发的 KAPTS 1.0的功能特征主要体现在以下几方面：（1）精准化。KAPTS 1.0系统在采集了正常人群的多模态发音数据的基础上，建立多模态常模发音数据库，然后根据Kinect的体感控制技术采集的个性化的语音障碍患者发音数据，研究其发音特性，分析其错误特征，为每位语音障碍患者提供个性化的发音训练方案和任务，然后根据发音训练数据，智能评估发音康复效果，做到精准预测-精准干预训练-智能评估。（2）交互化。Kinect是一款主要用于运动感知的体感设备，可以捕获音频信息流、彩色视频流和深度信息流等三种不同表现形式的数据流。其自带的SDK能很好地跟踪到人脸，并使用121个3D坐标点定义脸部，提供一体化的音视频信息输入与处理服务，从而显著提高人体语音识别能力和人机交互能力。因此，在训练中，该系统可以实时捕捉训练者的发音数据，评估其发音效果，提出实时发音训练指令，提升发音训练效果。（3）远程化。发音障碍患者一般处于居家休养状态，相当一部分人为行动不便者，因此，对于居家进行康复训练有着非常大的需求。KAPTS 1.0系统的远程在线康复治疗极大地满足了患者此方面的需求。此外，也为异地就医的患者提供了远程诊疗的便利，大大节省了患者家庭的就医开支，提升了患者居家进行康复训练的幸福指数。

为了验证KAPTS 1.0系统的可用性，研究者邀请了10名语言治疗师、30例语音障碍人群参加了本项研究。患者在可用性（等级0—100）方面将应用程序评为良好（评分＞80；P=0.03），治疗师将应用程序评为良好（评分＞80；P=0.04）。

综上所述，基于Kinect的体感控制技术设计研发的语音障碍人群发音训练系统KAPTS 1.0是一种人工智能深度学习融合的康复系统，可显著提升语音障碍人群的发音质量。该系统的完成，不仅将改善语音障碍人群的发音训练效果，为体感交互发音训练提供崭新思路；打破传统发音训练的空间和时间限制，缓解语音康复服务资源匮乏的局面，实现社会资源配置的优化。该系统还可运用到正常人群的语言学习中，具有广阔的市场前景。

参考文献

［1］李思奇，张玉梅.构音障碍的评定与康复治疗进展［J］.中国医师进修杂志，2021（1）：88-92.

［2］薛珮芸.构音障碍患者病理语音特性分析与识别研究［D］.太原：太原理工大学，2019.

［3］车娜，赵剑，史丽娟，等.基于Kinect和Faceshift的语言康复训练方法［J］.无线互联科技，2018（21）：108-110.

［4］史艳莉，明钰，孙莉，等.基于平板电脑的汉语失语症治疗辅助系统的设计及可用性探讨［J］.中国康复医学杂志，2021（7）：822-826.

［5］朱虹.基于Kinect的特定说话人跟踪系统的研究与实现［D］.延边：延边大学，2017.

［6］MENG FANBO， WU ZHIYONG， JIA JIA， etal. Synthesizing English emphatic speech for multimodal corrective feedback in computer-aided pronunciation training［J］. Multimedia Tools and Applications，2013（1）： 463-489.

［7］SU PEIHAO， WU CHUANHSUN， LEE LINSHAN. A recursive dialogue game for personalized computer-aided pronunciation training［J］. IEEE/ACM Transactions on Audio， Speech and Language Processing （TASLP），2015（1）： 127-141.

［8］CHEN FEI， WANG LAN， PENG GANG，etal. Development and evaluation of a 3-D virtual pronunciation tutor for children with autism spectrum disorders.［J］. PloS One，2019（1）： e0210858.

［9］ARORA VIPUL， LAHIRI ADITI， REETZ HENNING. Phonological feature-based speech recognition system for pronunciation training in non-native language learning［J］. The Journal of the Acoustical Society of America，2018（1）：98-108.

［10］QIAN XIAOJUN， MENG HELEN， FRANK SOONG. A two-pass framework of mispronunciation detection and diagnosis for computer-aided pronunciation training［J］. IEEE/ACM Transactions on Audio， Speech and Language Processing （TASLP），2016（6）： 1020-1028.

［11］欧熊，陈兵.计算机辅助听觉言语评估及康复系统的研究与进展［J］.听力学及言语疾病杂志，2015（6）：665-668.

［12］王涛，徐丽娜，李峰.功能性构音障碍患者侧化构音特点分析及语音训练疗效观察［J］.中华物理医学与康复杂志，2020（1）：40-43.

（編辑傅金睿）

Design and usability of voice training system for people with speech impairment based on somatosensory control

Mao Yanmei1，2

（1.Zhejiang University， Hangzhou 310058， China; 2.Zhejiang Business College， Hangzhou 310053， China）

Abstract： Based on Kinects somatosensory control technology， this paper studies a voice training system for people with speech disorders， and tests its usability through clinical application. The system consists of three modules： obstacle data acquisition， pronunciation rehabilitation training and pronunciation rehabilitation evaluation. Each module is composed of text， image， sound， video and other multimodal content. A total of 10 language therapists and 30 people with speech disorders participated in this study. The research results show that the speech rehabilitation training system developed based on AI deep learning fusion technology can significantly improve the voice quality of people with speech disorders， and has a good application prospect.

Key words： somatosensory control; pronunciation training system; speech disorders; usability