虚拟主播在各领域的应用与相关技术

2021-06-16 06:31龚子洋沈文君李富豪

电子技术与软件工程 2021年8期

龚子洋沈文君李富豪

（武汉学院湖北省武汉市 430000）

2015年6月27日、28日，日本知名虚拟歌姬初音未来首次在中国上海举办演唱会，作为首次在中国亮相的虚拟歌姬，演唱会直接爆满，一票难求。即使如此，虚拟歌姬的形象终究和非爱好者相距甚远，因此并无很大反响。但是在2016年3月，人工智能alpha go 与围棋世界冠军棋手李世石进行围棋大战，以4 比1 的总比分获胜，之后无一败绩。于是人们开始注意到人工智能这个新兴产业并且将AI 与其他技术结合，开始纷纷投身于这些行业的红利之中。

1 虚拟主播的几种类型

目前主流的虚拟主播有两种类型:

1.1 Avatar式虚拟主播

通常使用live2D 或3D 模型，加上虚拟背景，对真人进行面部或者全身动作捕捉，但虚拟主播的语音与动作都来自于背后操作人员，即“中之人”，虚拟形象通常被称为皮套。目前市面非常火爆的Vtuber，Vup，都属于这类虚拟主播，也是最常见的一类。

1.2 AI虚拟主播

这类主播的表现形式并不由真人操作，主要运用人工智能以及智能语音技术，提前对AI 主播的真人原型进行录音和动作采集，再由人工智能进行深度学习，根据真人的动作习惯和音色自动生成一个独一无二的AI 虚拟主播，并且对原型的还原成度相当高。央视的纪小萌就是此类型虚拟主播。

2 虚拟主播在教育行业的应用

（1）虚拟主播可以运用到动画类的教育软件，比如可互动的电子图画书。电子图画书可以使儿童对绘本中的图片文字有更加立体化的认知再加上讨喜的虚拟主播的形象和声音甚至可以实现让书中的角色来讲述自己的故事，这样一来，儿童原本对读书较为单一固化的思想就会被电子书所改变，再加上老师的教导，可以多方面地对儿童的思维进行拓展[1]。

（2）虚拟主播还可以用在贫困地区支教，很多贫困山区，条件艰苦，生活环境较差，而且志愿者对于环境接受度不一样，往往容易引起不必要的麻烦，采用AI 虚拟主播给山区孩子们授课，不仅可以避免人力方面的问题，还能让山区孩子们真真切切地感受到科技带来的生活上的改变，用一些特殊的虚拟主播形象，比如孙悟空、玩偶等新颖角色可以让山区的孩子们兴趣更浓，教学质量也能大大提升。

（3）虚拟主播技术可以用在课堂上，将一些名人甚至历史上的伟人“复活”，比如牛顿、爱因斯坦等，用智能语音技术和人工智能技术来实现，对学生们讲解公式的来源和当时的时代背景甚至一些对话场景，使学生能对一些枯燥的定理和公式有更深的理解，甚至喜欢上曾经讨厌的科目。

3 实现虚拟主播所需要的技术

3.1 建设虚拟主播的模型

一般的虚拟主播可以分成2D 或者3D 两类，制作者可以通过Photoshop、3ds Max、Maya 等绘图软件来制作。

3.2 面部或全身动作捕捉

图1：相机阵列方法

图2：标点式系统

图3：无标记点方法

通过动态捕捉设备捕捉真人动作和表情，并映射到虚拟模型上。而这些形象通常以3D 模型，和Live2D 的形式来呈现，各种等级的的动捕设备都办得到。可以使用iPhone 或Kinect 等设备来采集脸部表情[2]。

3.2.1 面部捕捉

目前市面主流的就是直接用手机或者电脑摄像头自动捕捉，IphoneX 的前置摄像头就安装了红外线相机来支持animoji 的面部捕捉。以及专业的面捕设备Mocap Cameras 等。

而获取面部数据通常有两种方法：

图4：动作捕捉

（1）结构光方法，此方法也是使用最多最广泛的方法，在光学镜头之外会配合红外镜头，有时也需要泛光照明灯、泛光感应元件、点阵投影器等辅助设备，来获取人脸的深度信息。点阵投影器可以向人脸投射肉眼不可见的光点组成的点阵，脸部的凹凸不平会使点阵形状发生变化，红外镜头可以读取点阵图案，再与前置摄像头拍摄到的人脸通过算法相结合，以获得带有深度信息的面部信息。

（2）相机阵列方法，阵列即以一定间距和规则摆放相机，为面部动作捕捉设计的相机阵列通常呈环形，如图1 所示。演员需要居于中心点进行拍摄，目的是通过不同视角所获的不同人像，来获取人面部表情及运动的三维数据。此方法精度高，但设备价格较昂贵[3]。

在人脸的拍摄上，又能细分为两类：

（3）标点式系统，需要在演员面部粘贴反光式标记点，用摄像机追踪演员面部运动的标记点，记录成坐标形式的数据，在计算机上绑定虚拟人物的相应部位，虚拟人物就会实时的跟随演员做相同的表情和动作，用在三维虚拟形象上实现，如图2。几年前非常火热的科幻电影《猩球崛起》正是采用了该技术。

（4）无标记点方法，通常依靠鼻孔、眼角、唇部、酒窝等标志性位置，确定脸部的表情和运动状况，这种方法最早由 CMU、IBM、曼彻斯特大学等机构通过使用主观表现模型（AAM）、主成分分析（PCA）等模型及技术实现，如图3。无标记点面部动作捕捉系统也能追踪人的瞳孔、眼皮、牙齿咬合等细节，帮助完成动画合成。有时需要对拍摄到的图像进行人工处理，如对极限表情进行面部勾线等等[4]。主要应用有国产电影《爵迹》、日本CG 电影《杀戮都市》等，而本文探究的虚拟主播也主要应用该类型捕捉方法。

3.2.2 全身的动作捕捉

而全身的动作捕捉则需要专业的设备才能达到令人满意的效果。通常是通过外接设备在真人身体上，通过采集真人动作数据，一般是利用光学动作捕捉系统，光学动作捕捉系统由红外动作捕捉镜头、反光标识点、POE 连接器、动作捕捉软件和若干配件（如标定工具和镜头云台等）来实现，通过高速摄像机拍摄反光点的运动轨迹，不同位置的镜头采集到标识点的位置后，就可以计算出这个点在空间中的三维坐标，在三维空间上还原人体在空间的运动。

采集到数据后，还需要进行识别：无论动作捕捉的目标如何，都需要分析出各个标识点之间的相互位置关系。因此，在动作捕捉系统第一次工作时，系统需要为每个标识点编码，从而建立目标整体的参考模板，之后，动作捕捉系统就会根据这个模板完成识别工作。

4 智能语音合成技术（TTS技术）

语音合成是通过机械的、电子的方法产生人造语音的技术。它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。TTS 技术又可以分为两个步骤实现：

4.1 收集足够多的数据生成语音原料数据库

语音库是大量文本和其对应音频的 pairs。为了实现更精细的语音合成，一般会用语音学标注系统自动标一遍文本[5]。再用类似语音识别的工具得到音素和音频时间上的切分。这样你就会得到，语音库里的每一个音素，它在音频中的起止时间（即音素本身的 waveform），以及其对应的语言学标注。该步骤涉及到很多值得研究的问题，比如拼写相同但读音不同的词的区分、缩写的处理、停顿位置的确定，等等。

4.2 语音合成

语音合成的方法有几种:

（1）参数法，即根据统计模型来产生每时每刻的语音参数（包括基频、共振峰频率等），然后把这些参数转化为波形。参数法也需要事先录制语音进行训练，但它并不需要100%的覆盖率。参数法合成出的语音质量比拼接法差一些[6]。

（2）声道模拟法，参数法利用的参数是语音信号的性质，它并不关注语音的产生过程。与此相反，声道模拟法则是建立声道的物理模型，通过这个物理模型产生波形。这种方法的理论看起来很优美，但由于语音的产生过程实在是太复杂，所以实用价值并不高。

（3）拼接法，即从事先录制的大量语音中，选择所需的基本单位拼接而成。这样的单位可以是音节、音素等等；为了追求合成语音的连贯性，也常常用使用双音子（从一个音素的中央到下一个音素的中央）作为单位。拼接法合成的语音质量较高，但它需要录制大量语音以保证覆盖率。

5 结束语

5G 时代，实现无延迟直播是必然的事实，不管是购物，娱乐，教育乃至国家大事，都会完全适应直播这种方式，而虚拟主播，能从各个方面为直播带来更好的观赏体验，不论是播出的成本，还是直播的效果，都能得到优化。相比于日本虚拟主播的普及和饱和，当前的中国，虚拟主播才刚开始慢慢走入人们的生活，市面上的相关技术也在慢慢趋于成熟。因此，再告诉发展的时代，我们应当积极地将虚拟主播等高新技术用于教育行业，培养出更加优秀的下一代人才。