智慧养老系统中针对海南方言识别技术的设计*

2023-11-12 15:17耿强黄雪琴
数字技术与应用 2023年10期
关键词:海南省方言海南

耿强 黄雪琴

1.海口经济学院;2.海南经贸职业技术学院

随着信息技术的发展,生活设备及设施越来越智能化,也为老年人带来了更加便利、舒适和安全的生活方式。其中语音交互是智慧产品较为普遍的人机交互方式,而方言识别在智慧养老产品中不够普及,这就给只擅长说方言的老年人设置了一个门槛。本文通过对海南方言和语音交互模型进行简要分析,探讨方言识别在智慧养老产品中出现的困境,并提出解决思路。旨在为老年人提供更加个性化和便捷的养老服务,提高老年人的获得感和幸福感。

2021 年5 月,国家统计局发表了第七次全国人口普查公报:“60 岁及以上人口为264018766 人,占18.70%,其中65 岁及以上人口为190635280 人,占13.50%。与2010年第六次全国人口普查相比,60 岁及以上人口的比重上升5.44 个百分点,65 岁及以上人口的比重上升4.63 个百分点。”因而随着人口老龄化程度的不断提高,老年人的养老服务及各类保障也将面临着巨大的压力。如何有序有效的建设和完善养老服务体系,提高我国老年人的养老质量,提升老年人的幸福感,是我国“十四五”建设的一个重要方向。

目前,我国在智慧养老服务方面持续不断的探索与更新,越来越多的养老服务产品贴合了老年人的需求。智能产品在养老服务中的广泛应用,通过语音交互、人脸识别等智能操作,已大大解决老年人操作难、按键繁杂、步骤繁琐等问题。

其中语音交互是目前大部分智能产品应用较多的、同时也是最重要的一种人机交互方式。但同时也存在着一定的难题。我国是一个多民族国家,各民族、各地区都有自己的语言特征,特别是对于老年人,普通话还未成为他们的常用语言。而目前国内大部分的智能产品语音交互是基于普通话的交互,从而导致部分不擅长使用普通话交流的老人无法使用相关智能产品。

当前智能产品的语音交互采用的语言,除了比较普及的普通话,还有应用人群相对较多的闽南语和粤语。而使用人数比较少的语言,例如,针对海南省的各个地方方言,几乎没有智慧产品能够提供语音服务。

1 海南省方言简介

海南省本地有30 多个民族,主要使用的是12 种不同汉语方言。方言包括了海南话、军话、客家话、黎语、儋州话、村话、临高话、回辉话、迈话、海南苗语、蛋家话等[1]。海南话是属汉藏语系汉语闽南方言,是海南省最主要的语言之一,使用人口约占全省人口的80%,主要集中在海口市、文昌县、琼海县、万宁县、定安县、澄迈县和屯昌县等地[2]。剩下的其他方言为海南省使用人数较少的语系,而各方言之间几乎无任何关联,不是生活在该地区的本地人基本是听不懂的。

(1)讲临高话的居民主要居住在海南省北部偏西。而研究表明,临高话是“属于汉藏语系侗傣语族壮傣语支的一种语言”[3]。临高话的很多词语的语序和普通话的语序是相反的,例如,牛肉、猪肉、鸡肉等,临高话说出来是“肉牛,肉猪,肉鸡”;大哥、二哥、三哥等,临高话的语序是“哥大、哥二、哥三”[4]。并且大部分的句子语序按照普通话的标准来看都是乱序的。

(2)海南军话有“移民文化的活化石”的美称,广泛分布在海南的崖城、东方、儋州、昌江等地[5]。之所以称为“军话”,大体与将军士兵的习惯用语分不开。根据文史资料记载,古代的仕宦、将军、士兵及家人从大陆进入岛内后,长期生活在岛内而留下来的语言,属汉藏语系汉语北方方言西南官话系统。

(3)儋州话属汉藏语系汉语粤语方言系统,主要分布在儋州、昌江、东方等市县的沿海一带地区。有研究表明,儋州话比较接近于古汉语,比较多的生活用语接近古汉语的使用。例如,儋州话的生活用语“几多”表示“多少”、用“几时”表示“什么时候”,这用语在古代诗词中也是常见的用语。

海南省存有众多方言与各自的民族分布,与历代的移民开发关系密切。移民大都以语言与迁徙来源为依据各自择地而居,这就形成了既有共性又有个性的语言和方言的群落[6]。海南省大部分的方言使用人群都不多,在语音交互研究和开发上成本较高,从而导致现有的语音交互产品中,无法使用海南方言进行交流互动。而海南本地有较大一部分老年人是不会讲普通话的,使得这些老年人在使用智慧养老产品时,存在一定的障碍与困难。

2 语音交互模式

语音、体态、人脸等方式是目前智慧产品常用的交互手段,是智慧养老产品的主要交互方式。语音交互是一种通过语音输入和语音输出进行人机交互的模式,基于语音识别技术将人的语音信息转换成文本,然后使用自然语言处理技术进行理解和分析,最终生成合适的回应。通过语音合成技术将机器生成的文本转换为可听的语音输出或相应的指令。具体的技术模型如图1 所示。

图1 语音交互模式Fig.1 Voice interaction mode

2.1 语音识别

语音识别技术(Automatic Speech Recognition)是一种将人类的语音输入转换为文本或命令的技术,它是语音信号到文字内容的过程[7],是人机实现语音交互的重要基础部分,是确保计算机“听得见”的步骤。

语音识别流程如图2 所示,主要是计算机对语音信号进行处理。通过录音设备进行语音输入,将声音的模拟信号转换为数字信号并进行预处理,识别声音的开始和结束。去噪、降噪、过滤等处理以提高音频信号的质量;然后将初步处理后的音频信号进行识别表征,提取有用的特征;根据音频信号的特征识别,从声学模型和字典中搜索最优的音素、单词和句子;再使用语言模型对识别结果进行校正和优化,根据语言的统计规律和句子结构推测最可能的文本序列,找到最佳匹配的文本序列;最后将最优的文本序列进行错误修正、语法纠正,语句分段等操作处理,提高输出文本的质量。

图2 ASR 过程Fig.2 ASR Process

2.2 自然语言理解

自然语言理解(Natural Language Understanding)是将人类的自然语言输入转换为计算机可以理解和处理的技术。它的目标是使计算机能够准确地理解人类的意图、情感和语义,并将其转化为可操作的信息,是确保计算机“听得懂”的步骤。

自然语言理解是自然语言处理的第一个阶段,旨在使计算机能够理解人类语言并从中获取有意义的信息。这个阶段首先要对ASR 传送过来的文本进行分词和词性标注;再进行语法分析,根据语法规则,分析语句的语法结构;然后进行语义分析,理解句子的领域、意图;最后识别逻辑关系、上下文信息等,初步确定用户的意图或目的。

2.3 DM 对话管理

对话管理(Dialogue Management)是指在人机对话系统中负责管理和控制对话流程的组件或算法。它的任务是对对话状态跟踪、管理对话流程,以使机器能够以自然、连贯和目标导向的方式与用户进行对话。这个步骤主要的工作内容是解决“在听得懂之后如何做”的问题。

对话管理接收NLU 传输过来的信息(语义表征),在对应的领域中,根据用户习惯和系统默认的填充词,追踪对话数据,确定对话意图,输出对话交互的系统行为与决策。

2.4 自然语言生成

自然语言生成(Natural Language Generation)是指通过计算机系统自动生成符合自然语言规则和语法的文本或对话。这项技术可以将结构化数据、知识、意图等转化为人类可理解的自然语言表达。自然语言生成根据DM 传递的决策等语义表征信息作为参数,利用模板填充、规则引擎、语言模型和文本规划等技术,生成自然流畅、有可读性和理解性的文本。

2.5 语音合成

语音合成(Text to Speech)将文字信息转换为自然流畅的语音输出,让机器能够以声音的形式与人进行交互。

语音合成技术先对文本进行分词、断句、词性标注等处理;再将词或词组转为对应的音素;然后根据音素和声学模型生成语音参数序列;最后根据语音参数序列找到匹配的音库,合成语音并生成波形。

3 技术难点分析

语音交互在智慧养老产品中应用较广,例如,生活辅助类的智能音箱、智能灯具、智能窗帘等工具,对老年人进行生活辅助。老年人同样可通过语音来控制照明开关、空调温度、各类智能家电等,提高生活的质量和便利。在健康检测方面,老年人可通过语音提示查询自己的身体健康指数,如血压、心率等,可通过智能手环远程联系医护人员或子女,获取健康咨询或帮助;在健康辅导方面,语音交互与VR(虚拟现实)结合,为老年人提供身体锻炼、平衡训练等活动,帮助老年人提高或保持身体的活力与张力;在社交或娱乐方面,语音交互可帮助老年人进行简单的语音通话、语音信息和智能音箱互动等娱乐行为,缓解老年人的孤独感。

对于我国多民族、多语言的特点,再加上海南的方言与普通话在发音上有着差别巨大,语言交互方式会经常遇到“唤不醒”或“听不懂人话”的场景。所以老年人在使用智慧养老产品时面临着一定的困境。

3.1 语音识别的准确性不高

海南省各地方言与普通话的发音存在很大的差别,部分老人虽然可以使用普通话进行简单的对话,但语音,带着较重的方言口音,例如,将地方方言中的变音、重音和语调等都在普通话的表达中展现出来,这些语音特征对语音识别系统造成困扰,从而影响智慧养老产品在语音识别时的准确率。并且老年人这一群体也存在着听力下降、言语模糊的特点,这些都会降低语音交互的准确性与流畅性。

这一困境的解决途径可通过收集用户的语音数据、纠错信息和语音系统的自我学习技术,积累和更新更多的语音数据集,包括各种口音、方言和语速等变化。针对老年人口齿不清等特点,加强滤除环境噪声对语音信号的干扰,并增强语音信号[8],不断优化和更新语音识别系统,提高语音识别系统对各种语音特征的准确识别能力。

3.2 数据收集与处理难度大

海南省各地方言有着多而杂的特点,且大多数无文字和发音记录,需要进行方言的转写和标注工作,以便将方言语音转化为可处理的文本数据。然而海南省各地方言在语音语料数据的收集和处理上都存在着较大的难度。

海南省各地方言在发音、词语、语序和语法等方面都存在着差别,缺乏一定的标准化。这使得在语音数据标注时,需要根据海南省各地方言制定相应的标注规则以确保数据的一致性和准确度。这不但加大了前期的工作量,还给标注工作带来了较大的复杂度;在语音语料数据采集方面,由于海南省讲各类方言的人口相对少且地理分布分散,并且有些讲海南省地方方言的年轻人现已常用普通话,慢慢地淡化了方言的特点和属性,一些地道的词语反而无法口语表达出来,从而导致能够收集到有效的语音语料数据的深度和广度都不够。这些都限制了海南省地方方言语音语料库的完整性和语音模型的训练,无法完成语音引擎的优化,降低语音识别的准确率和可靠性。

针对该问题的解决思路是聘请当地地方方言的研究专家,全过程参与语音识别系统的设计与开发。积极开展海南省地方方言数据收集工作,尽可能收集更多语音数据,在标注过程中利用方言研究专家的专业知识和经验,提供准确的发音规则和语法语序的特点,确保数据的准确性和一致性,改进系统的性能。同时通过自适应学习技术,让方言识别系统能够根据用户的输入和反馈,进行调整和优化,提高对方言习惯和发音差异的适应能力。

3.3 对智慧产品的适应能力低

老年人习惯了传统的按键操作方式,对于语音交互的使用存在不适应和抵触情况。语音交互需要理解唤醒并理解用户的指令再执行相应的功能。老年人缺乏对语音交互技术的理解和经验,再加上发音模糊或口齿不清,在语音技术和操作上有一定的困难。导致老年人需要多次重复发出指令才可以进行简单的交互,或多次尝试后仍无法正确执行,给老年人带来挫败感,从而出现抵触的情绪。再者老年人听力能力下降,语音交互是一种线性交流,只能单向获取信息[9],无按钮点击重复播放。当语音设备的语速或环境的原因而导致老年人无法接收完整的信息,老年人只能重新发起语音指令,这增加了老年人的操作负担而产生不适应性。

这一问题的解决思路首先可通过为老年人提供简洁、清晰、易于理解的语音关键词,同时可以在产品界面上突出显示这些关键词,以便老年人记忆和发出正确的语音指令。然后再根据老年人的听力特点和习惯,对语音交互产品的声音进行优化,提供清晰、明亮的声音,避免噪音和干扰,以帮助老年人更好地听到和理解语音交互的内容。最后可提供多种语音交互学习的方式,帮助老年人学习语音交互的技术。通过多种途径提高老年人在语音交互操作上的获得感和满足感。

4 总结

随着信息技术的不断发展,生活设备及设施越来越智能化,针对老年人个性化需求的智慧产品也在不断的更新与完善。目前,方言在智慧养老产品中出现的语音交互方式的困境是一个普遍性问题。而方言作为地域文化的一个重要组成部分,也是人们日常交流中最重要的语言形式。

智慧养老产品为了拓展市场,提升用户体验感,满足不同区域的用户需求,能够较好支持地域方言的语音交互也是企业面临的一个课题。虽然要实现方言在语音交互中的广泛应用有一定的难度和挑战性,但随着语音识别和自然语音处理技术的不断发展和创新,将为方言在语音交互中的应用提供技术支持和基础。同时,还需要政府、企业和各界共同努力,提供政策保障,以促进方言文化的保护和智慧养老产业的融合发展。

引用

[1] 余旭文.基于深度学习的海南方言语音识别[D].海口:海南大学,2020.

[2] 叶芸,吕志勇.海南话研究的现状与展望[J].湖北科技学院学报,2021,41(1):51-57.

[3] 张星,马英.海南临高话[J].中央民族学院学报,1983(1):44-66+85.

[4] 李佳飞,王勇.海南“临高人”的族源及迁徙路径[N].海南日报,2011-12-12(B10).

[5] 辛慧.海南军话研究概况[J].宁夏大学学报(人文社会科学版),2018,40(3):28-31.

[6] 刘新中.海南岛的语言与方言[J].方言,2001(1):45-52.

[7] 王斌,王育军,崔建伟,等.智能语音交互技术进展[J].人工智能,2020(5):14-28.

[8] 李婉玲.老人陪护机器人的语音交互技术研究[D].无锡:江南大学,2018.

[9] 贾国忠.面向老年人的智能音箱语音交互设计研究[D].广州:华南理工大学,2018.

猜你喜欢
海南省方言海南
方严的方言
方言
说说方言
留住方言
SINO-EUROPE SYMPOSIUM ON TRADITIONAL CHINESE MEDICINE & HERBAL MEDICINE-MARKET OVERVIEW ®ULATION POLICY
海南的云
59国免签游海南
为海南停留
海南省肿瘤医院
是海南省还是海南岛?