手语数字人技术及智能应用研究

2024-01-26 11:21刘鸿宇LIUHongyu付继林FUJilin王珍珍WANGZhenzhen

价值工程 2024年2期

刘鸿宇 LIU Hong-yu；付继林FU Ji-lin；王珍珍 WANG Zhen-zhen

（燕山大学外国语学院，秦皇岛 066004）

0 引言

近年全球顶尖科技公司纷纷布局元宇宙。“数字人”作为联结元宇宙和物理世界的关键要素，已成为家喻户晓的技术热词。2021年英伟达CEO 黄仁勋在GTC 大会演讲中使用了14 秒自己的数字替身，竟然无人察觉。国外头部科技公司的数字人技术已经到了“数”“实”难辨的高度。其实，多样化的数字人产品在我国电视台、电商平台、企业门户等也已纷纷出炉。例如，央视主持人撒贝宁的数字替身小小撒、抖音平台的数字人美妆博主柳夜熙、B 站的虚拟歌手洛天依，百信银行的数字人员工AIYA。2022年北京和张家口冬奥会前后，更是涌现出多位手语AI 主播，手语数字人盛况空前。据量子位白皮书预测，我国数字人整体市场规模到2030年将高达2703 亿人民币。[1]本文关注我国头部科技公司的手语数字人产品，研究其领先的手语数字人技术及智能应用，探究手语数字人技术的未来。

1 头部企业的手语数字人产品

数字人是一个概括性说法，它有动画替身、数字虚拟分身、阿凡达、虚拟人、虚拟数字人、动画虚拟人，与碳基生命（地球生物）相对应的硅基生命（人工智能产品）等不同称呼。数字人，从技术层面定义，是指借助不同科技的聚合，例如，采用计算机图形学、语音合成技术、深度学习、计算科学、机器翻译、类脑科学等一系列数字化和智能化技术，打造而成的具备人类外观、行为，甚至思维的虚拟形象。[2]手语数字人是指除了具备以上数字人特征外，这一虚拟形象还能够驾驭手语生成和（或）手语识别功能，具备手语数字脑，像手语使用者聋人一样，通过手势动作、面部表情、身体姿态进行信息传递与交互。图1 是我国当前最有代表性的手语数字人产品和他们的制造团队情况。

图1 头部企业的手语数字人产品、科技团队、智能平台

从图1 可见，手语数字人产品是资金、AI 技术、手语知识和手语广播资源投入的结晶。在我国高科技企业（如百度、华为、腾讯、搜狗）、高校研究院所（如清华大学、中国科学院）、媒体公司（如中央电视台、北京卫视）、聋人团体、手语专家多方协作下，我国手语数字人制作呈良好的协作发展态势，手语数字人技术成果斐然。

2 手语数字人技术探微

①手语数字人的制作流程。打造手语数字人要有形象设计、面部人体建模、动作捕捉、形象驱动、成品渲染等环环相扣的五步。我国手语数字人设计和建模技术已颇为成熟。从效果看，百度4D 扫描技术下的AI 手语主播（图1）形象近乎完美，五官逼真，表情、手背细节令人震撼。从效率上看，华为的全属性特征识别AI 算法技术，扫描一张照片之后仅一秒就能生成灵动的卡通数字人。我国手语数字人主要采用惯性动作捕捉、光学动作捕捉、计算机视觉动作捕捉，以及综合运用以上方法，来实现对面部、手部、肢体等动作的捕捉。惯性动作捕捉是借助惯性传感器来采集人体特定骨骼点的数据。光学动作捕捉是在手语模特身上粘贴能反射红外光的马克点，通过摄像机追踪马克点的反光来捕捉肢体动作信息。运用计算机视觉技术进行动作捕捉时，手语模特无需穿戴设备，计算机借助高速相机的多角度拍摄来捕捉、跟踪、定位手语模特的多场景骨骼动作变化情况。下一步是将动作捕捉后的空间信息数据与构建好的模型绑定，进入驱动流程。我国手语数字人的驱动以AI 算法驱动为主。驱动是模型、算法、参数、训练、微调的聚集地，它需要大量核心技术的支撑，包括云计算模型训练，语音语义匹配算法模型、行为算法模型、表情算法模型、神经网络学习、神经机器翻译等。模型之间的映射关系建成后将实现AI 驱动。最后成品渲染步骤是把计算机制作的手语数字人模型投射到现实屏幕，对数字人外观做精度调整。它对计算机硬件、渲染引擎、计算机图形学技术、算力供给、云技术等均有很高要求。[3]我国手语数字人正努力实现实时、低延迟的渲染。

②手语数字人的技术实现。以智谱AI、凌云光、清华大学、北京卫视手语数字人“华同学”（图2）为例，它借助多种模型和算法，是AI 技术集大成者。据智谱AI 技术说明[4]，华同学是以1.75 万亿参数的悟道2.0 为底座，悟道2.0 是一个超大规模智能语言模型，它的核心技术创新是调用多个预训练模型，将多个专家网络引入神经网络。手语数字人团队首先借助通用语言模型（General language model，GLM）预训练模型，对输入的中文语音文本进行语义蒸馏，再利用神经机器翻译mBART（multilingual Bidirectional and auto-regressive transformer, 多语言双向自回归预训练生成模型）模型、序列到序列（seq2seq）模型对获得的语义进行AI 手语分词快编，将中文信息翻译为手势词序列。在mBART 模型中，华同学团队还创造性地引入对比学习，通过预训练和微调，使手语这种低资源语言机器翻译的性能得到提升。将所获的手势词序列与中国手语手势动作库的元素相映射，得到手势词ID 序列，ID序列激活对应的表情-动作-手势，借助跨模态拟人生成技术，使华同学的手势词序列做到表情、动作、手势同步，最后采用能够使语音流、字幕流、影像流同时输出的音字人实时同步对齐技术，实现华同学在电视、网络等应用终端的实时手语主播功能。

图2 手语数字人“华同学”的技术实现

③手语数字人的核心技术和技术创新。手语数字人发挥性能主要依靠AI 手语翻译引擎。图3 是华同学在AI 分词快编及机器翻译中应用序列到序列（sequenceto-sequence，seq2seq）的技术原理。编码器从输入的中文句子中提取特征向量，每输入一个中文字符，编码器都会更新状态，编码器（长短时记忆，LSTM；或其他循环神经网络，RNN）将最后一个状态hm作为输入信息输入到解码器，解码器将hm作为它的初始状态，并更新状态到S1，解码器对下一个字符进行预测，得到概率P1，通过概率抽样生成字符Z1，将Z1作为初始状态输入到解码器，得到更新状态S2，解码器给出概率P2，预测生成下一个字符Z2，模型不断重复此过程，不断更新状态，当解码器最终抽选到终止符＜EOS＞时，它知道＜EOS＞是该句结尾，解码器将返回与输入序列相对应的整个字符串，得出该输入序列的机器翻译结果，完成该句的翻译。在预训练阶段，模型通过标签向量y 和概率P 来计算交叉熵损失函数，损失函数将梯度反向传播给解码器、编码器，进而更新模型参数，尽量使损失函数和梯度不断变小，以此不断提高模型性能。[5]图4 是华同学团队向mBART 模型引入对比学习的技术原理。以华同学翻译智谱AI 张鹏CEO 的新闻采访话语“能力可能接近中学水平”这句汉语为例，为提高模型的泛化能力，向输入序列添加大扰动使模型生成近似正样本【能力中学差不多】，添加小扰动使模型生成负样本【力量一般中学接近不是】，使数据增强后的近似正样本与真实样本尽可能相似，使负样本与真实样本的相似度最小，最终模型输出目标语言【能力水平中学接近】。引入对比学习的mBART 模型BLEU（翻译结果和标准文本的匹配度[6]）分值可达0.35 以上，翻译质量得到明显提升。华同学的跨模态拟人生成技术主要用到基于博弈论的生成对抗网络（Generative Adversarial Network，GAN）。

图3 AI 分词快编中运用Seq2Seq 模型

图4 在mBart 模型中引入对比学习

3 手语数字人的智能应用场景

当下我国手语数字人的智能应用主要落地于新闻媒体、教育、大型赛事及大型会议等三个主要场景。冬奥会后，曾担任冬奥主播的智谱AI 手语数字人华同学，作为冬奥遗产继续服务社会。当前华同学已开设专门的视频号和公众号，前者对国内外新闻时事进行播报，后者分享手语数字人进展要闻，教公众手语，在新闻宣传和教育领域继续发挥作用。卡塔尔世界杯赛期间，华同学升级迭代，用手语为足球爱好者播报足球赛事。华同学还在小程序“手语AI 词典”中充当手语模特，帮助学习者学习手语词汇和句子。其他手语数字人也发挥重要作用。华为的手语数字人小语在华为开发者大会上，对会议内容进行全程实时手语传译。腾讯的3D 手语数智人聆语与知名主持人杨澜搭档，共同主持2022 中国互联网公益峰会。千博信息开发的手语教考一体机已走进很多特殊教育学校，该系统可完成手语识别，对学习者的手语进行测评，可用于教学目的，辅助学生学习与练习手语。

与以上较为成熟的应用场景相比，我国手语数字人还在以下两个方面展露身手。在艺术传媒领域，搜狗的手语数字人小聪与中国聋人协会合作推出手语AI 歌曲《万疆》，一展手语数字人的艺术才能。在市政服务方面，中国科学技术大学信息学院教授周文罡团队正与安徽合肥市政服务热线12345 合作，筹建手语数字人智能问答系统，将用于合肥政务咨询视频手语热线。

其他民生领域也是手语数字人的新蓝海。全球中度及以上听力障碍人口有4.3 亿，[7]人数预示市场规模。在教育、医疗、就业、社会保障、住房、食品安全、环境保护和交通等民生领域，我国手语数字人服务的落地可以填补真人手语译员匮乏和手语服务的空缺。交通领域，在百度搜索引擎输入“聋人驾驶员”，截满76 页后仍不乏讯息。可见随着我国经济发展，网约车队伍已涌入大批聋人司机，各地驾驶员培训学校涌现大量聋人学员，私家车聋人驾驶者逐年增多。交通工具智能端将有巨大的手语数字人应用潜力。医疗、养老方面，手语数字人对适聋适老需求的呼应也将为其赢得应用空间。以CT 和X 光等大型医疗检测设备为例，在做CT 或X 光检测时，听人体检者能得到“何时呼气，何时吸气”的声音指令，而聋人听不到声音。如果这些医疗设备配有可视化的手语数字人技术，或者在检测前有手语数字人全息影像提示“红灯亮呼气，绿灯亮吸气”，那么医疗检测中的沟通难题将迎刃而解。手语数字人技术绑定不同工业产品和消费产品，将极大拓展其智能应用场景，提升生产生活的数智化水平。

4 手语数字人未来展望

从技术方面，随着AI 技术不断发展，算法、算力不断提升，投入手语数字人技术的资金、资源不断增多，我们对手语数字人技术的发展充满信心。可以通过在编码器中引入双向长短时记忆（Bi-LSTM），借助多任务学习，更好地运用注意力机制，引入专家系统，运用生成对抗网络的改进模型（如W-GAN）[8]等来尝试提升手语数字人的性能。手语数字人技术的挑战是现实的。所幸当前已有非常优秀的手语翻译研究团队[9]、手语计算研究团队[10]、手语自然语言理解研究团队[11]对手语翻译、手语机器翻译技术落地、手语计算研究中的重难点做了缜密的研究和汇报，指出手语多信道语法、分类词空间特征、手势词和非手控语法标记对齐等技术突破口。手语研究者团队也对手语本体研究作出丰厚的知识贡献，[12，13]帮助开发者和学习者更好地了解聋人手语。相信在多方协作下，我国手语数字人技术将有更大的飞跃。

从智能应用方面，手语数字人将伴随我们走入“数”“实”融合的新世界。新闻媒体领域，教育教学领域，国际国内盛会等讯息沟通领域，交通、医疗等基本民生领域将看到更多手语数字人的身影。未来，手语数字人技术可以绑定更多智能产品，如手机、平板、电脑等电子通讯产品，可绑定私家车、公共汽车、高铁等交通工具的智能终端，帮助聋人实现无障碍沟通，智慧出行。可绑定大型医疗设备，推动产品产业的数字化变革和无障碍进阶。可部署到市政部门和小区服务台、社区和物业功能房，实现全方位的语言、信息、环境无障碍，打造聋人和听人共享科技进步成果的数智新时代。