新华社手机客户端AI合成主播的语音考察

2022-07-22 13:17杨鑫悦

新闻传播 2022年12期

杨鑫悦

（北京师范大学文学院北京 100875）

近年来，随着人工智能技术的进一步开发，语音识别、语音合成、大数据评测等方面都取得了显著进展，机器人AI 合成主播也应运而生。2018年11月7日，在第五届世界互联网大会上，新华社客户端与搜狗共同发布了全球首个合成新闻主播—AI合成主播“新小浩”。AI合成主播提取了新闻广播中真人主播的语音、唇形、面部表情和动作特征，集合语音合成、算法模型、深度学习等技术而成。

2018年，全球首个仿真智能AI 主持人诞生；2019年，全球首个阿拉伯语和俄语合成主播诞生；2020年，全球首个3D版AI合成主播诞生。人工智能的迅速发展吸引了诸多学者的注意，对AI 合成主播的研究不再拘泥于计算机技术，新闻传播、播音主持等领域都出现了相应的研究成果。

冯梅（2021）在《人工智能背景下AI 合成主播的发展之路》一文中分析了AI 合成主播的优势和短板，对其未来发展持积极态度。郁江兰（2020）分析了新华社AI合成主播2020年疫情新闻报道中内容、技术和形式的特点，探讨了媒体整合背景下人工智能合成主播的发展前景。宋国澳、麦梦佳（2020）将新小萌、新小浩、Lisa等新华社AI 合成主播作为家族，整体研究并归纳了智媒时代新闻播报的新特征及发展困境。

笔者在中国知网上搜索“AI主播”时，共出现141篇文章，但附加关键词“语音”之后，仅出现4篇文章，而这4 篇文章均与行业的发展前景、人工智能的利弊相关，而与语音本体关系不大。唯一一篇与语音相关的文章《AI播音与人工播音的语音差异性考察》，从速度、发音、停顿和重音等角度分析了AI 播音与人工广播的差异，但文章数据多与语料统计相关，涉及到语音本体的考察较少，且关于AI 语音准确与否的界定并不明晰。因此，本文从语音相关要素入手，收集样本语料，用Praat 软件进行声学分析，比较新华社手机客户端AI 主播与新闻联播主持人在语速、发音、停顿等方面的区别，讨论AI 播音的语音特点。

一、新华社手机客户端AI合成主播的语音特点

（一）AI合成主播的播音语速

语速是指单位时间内人们在传递信息和沟通交流时呈现的词汇数量，通常讲话速度是相对的。正常情况下，使用现代汉语表达意思和传播信息时，人们的语速约为240个音节/分钟，经过数据统计，广播电视新闻播音的语速为300个音节/分钟。

播音语速是指播音员播报稿件的速度，在数学上的计算方式为，播音语速=播报稿件总字数÷播报时间，播音语速的单位一般为音节/分钟。听众对播音语速快慢的感受受到很多方面影响，比如播音员个人的播音风格和特点、播音技巧、说话节奏和语气等。

本文随机选取新华社app内从2021年7月20日到8月18日30天内每日一篇AI主播播报的时政新闻作为样本语料，统计稿件字数（含非中文单词，不计空格）与播报时间，计算AI 播音语速。同时，在相同时间段内，每日选取一篇央视频app内《新闻联播》节目的国内联播快讯为对照语料，按照相同方式计算播音员的播音语速。鉴于新华社app中AI主播播报的新闻和《新闻联播》联播快讯的时间基本都为20-30秒，所以在统计播音语速时，单位统一为字符/秒。

通过对比30 天内的两组数据，发现AI 播音的平均语速4.98 字符/秒，播音员播音的平均语速为5.02 字符/秒，AI 播音的平均语速比播音员慢，但两者差距不大，每秒相差0.04个字符，即每分钟相差2.4个字符。

通过计算，AI播音语速的标准差为0.37，播音员播音语速的标准差为0.40，可见AI 播音语速的标准差较小，数值较为平均，波动较少，而播音员的播音语速存在一定波动。因此，听众在收听AI 合成主播播报的新闻时，由于不同新闻的播报语速和播音风格相差较小，收听新闻的新鲜感可能维持在较低水平。而播音员对不同新闻的播报风格有所不同，或庄重大方、或简洁明快，播报节奏影响播音语速，使听众的听觉和心理在接受信息时产生波动。

此外，在声音传播中，汉语语句内部的词与词之间也会产生聚合现象，呈现“词团”的状态，词与词的聚合速度也会对播音语速产生一定影响。经过对比考察，发现在人工播音中，“自由贸易试验区临港新片区”“氢能产业发展实施方案”“同江中俄跨江铁路大桥”等词语聚合词团的播音语速较快，而新闻中表示并列、递进等关系的“完善法制”“推动发行交易管理分类趋同”“提升信息披露”等词团的播报语速较慢。而对于AI 播音而言，不同词团的播音语速差别不大。

（二）AI合成主播的发音特点

本文选取8月20日新华社app 中AI 合成主播“新小浩”播报的《〈中阿经贸关系发展进程2020年度报告〉在宁夏发布》和8月19日《新闻联播》中严於信播报的《习近平向第五届中国—阿拉伯国家博览会致贺信》两篇新闻中“第五届中国—阿拉伯国家博览会”这几个字的读音作为研究对象。AI 主播“新小浩”原型为新华社主播邱浩，与新闻联播主持人严於信均为35岁左右男性。

提取以上两篇新闻的语音信息后，本文利用计算机语音图像分析软件Praat，对音频和数据进行处理，同时生成单元音[a][i][u]、辅音[k][t?]的语谱图，并计算元音的共振峰数据、辅音的VOT 时间，绘制四声声调调型图，对比分析AI主播和播音员在读音方面的异同。

1.元音

1）对元音[a]的分析

图1：AI主播[a]语谱图

图2：播音员[a]语谱图

通过对AI 主播和播音员的“阿”样本分析，得到两幅语谱图。计算共振峰得知，新华社AI 主播[a]的F1=971.14，F2=1056.58；新闻联播播音员[a]的F1=838.47，F2=1509.76。

总体来说，[a]是前低不圆唇元音，第一共振峰频率比较高，第一共振峰频率和第二共振峰频率差别不大。相比播音员[a]音，AI主播[a]音的F1较高，F2较低，即开口度相对较大，舌位相对靠后。

2）对元音[i]的分析

通过对AI 主播和播音员的“第”样本韵母的分析，得到两幅语谱图。计算共振峰得知，新华社AI主播[i]音的F1=1015.59，F2=2452.78；新闻联播播音员[i]音的F1=999.03，F2=2398.99。

总体来说，[i]是前高不圆唇元音，第一共振峰频率比较低，第一共振峰频率和第二共振峰频率差别较大。相比播音员[i]音，AI 主播[i]音的F1 和F2 都偏高，即开口度相对较大，舌位相对靠前。

3）对元音[u]的分析

通过对AI 主播和播音员的“五”样本韵母的分析，得到两幅语谱图。计算共振峰得知，新华社AI 主播[u]音的F1=742.85，F2=2180.42；新闻联播播音员[u]音的F1=623.77，F2=2037.03。

总体来说，[u]是后高圆唇元音，第一共振峰频率比较低，第一共振峰频率和第二共振峰频率差别较大。相比播音员[u]音，AI主播[u]音的F1和F2都偏高，即开口度相对较大，舌位相对靠前。

2.辅音

1）对辅音[k]的分析

图7：AI主播[k]语谱图

图8：播音员[k]语谱图

VOT表示嗓音的起始时间，即从辅音除阻到声带振动之间经过的时间。新闻报道“第五届中国—阿拉伯国家博览会”中“国”的辅音[k]是不送气清塞音，本文通过对AI 主播和播音员的“国”样本分析，发现两篇新闻中辅音[k]的VOT均约0-5毫秒。

2）对辅音[t]的分析

图9：AI主播[t]语谱图

图10：播音员[t]语谱图

本文又对AI 合成主播播报的《〈中阿经贸关系发展进程2020年度报告〉在宁夏发布》中“投资”的“投”，以及《新闻联播》中《习近平向第五届中国—阿拉伯国家博览会致贺信》中“推动”的“推”进行样本语谱图分析，“投”和“推”的辅音均为送气清塞音[t]。本文通过对AI 主播和播音员的“投”和“推”样本分析，发现两篇新闻中辅音[t?]的VOT 均约超过50 毫秒，AI 播音[t?]的VOT为68毫秒，播音员播音[t?]的VOT为55毫秒。

3.声调

本文选取AI 合成主播播报的《〈中阿经贸关系发展进程2020年度报告〉在宁夏发布》和《新闻联播》中《习近平向第五届中国—阿拉伯国家博览会致贺信》两篇新闻中“第五届中国—阿拉伯国家博览会”中“阿”“伯”“览”“会”四个字作为声调的研究对象，利用15点声调脚本，绘制了AI主播和播音员的四声调型图。

在赵元任提出的五度标度法中，现代汉语普通话四个声调的五度值分别为：阴平55、阳平35、上声214、去声51，同时，一个声调可以有各种调位变体。通过观察AI主播和播音员的四声调型图，可以发现两者对阴平例字“阿”的读音都属于平调，读起来高而平；阳平例字“伯”的读音，读起来由中逐渐升高，AI主播读音比播音员读音的音调更高；上声例字“览”的读音，读起来由半高降低到低再升至次高，AI 主播和播音员读音音调相似，但AI 主播音节中间的调值没有降至适当位置，存在调值不准确的问题；去声例字“会”的读音，读起来由高降到低，AI 主播读音的音调过低，且音节中音高走势变化不明显。

总体来说，相对于播音员读音，AI 主播读音阴平和去声的音调较低，上声和去声存在调值不准确的问题，音节中音高曲折起落的变化不显著，上声音节中间调值音调偏高，去声从高音到低音的音高走势过于平缓。

二、AI合成主播的播音停顿

通过观察AI 主播和播音员分别播报的30 篇新闻样本，可以发现两者的播音停顿主要以标点符号作为依据。标点符号不仅是书面语的组成部分，也是辅助书面语记录的符号，它用来表达停顿、语气以及词语的性质和功能，其在口头语言中的表现就是时间间隔。

新闻开头部分的导语，比如介绍新闻时间、地点、背景、人物等的“硬式导语”一般不含有标点符号。播音员在播报新闻时，会在口语中自然加入句中停顿，方便听众区分理解，而AI 主播无法自主识别句中的词语关系，一般不会做出停顿。比如，《〈中阿经贸关系发展进程2020年度报告〉在宁夏发布》这篇新闻的导语“在19日于宁夏举行的第五届中国—阿拉伯国家博览会工商峰会上，中英文版《中阿经贸关系发展进程2020年度报告》正式发布。”AI 主播只在破折号、逗号、句号三个地方有所停顿，而对时间、地点、事件等名词的连用不做停顿处理，这不符合听众接受信息的规律和习惯，易使听众觉得单一、混淆。

反观播音员播报的《习近平向第五届中国—阿拉伯国家博览会致贺信》这篇新闻的导语“8月19日，国家主席习近平向第五届中国—阿拉伯国家博览会致贺信。”句中人物“国家主席习近平”和事件“向第五届中国—阿拉伯国家博览会致贺信”之间虽然没有标点符号，但播音员会根据听众听音习惯，自觉加入句中停顿。

总体来说，AI 主播播报新闻的停顿绝大多数依赖标点符号，且每次停顿的时间间隔基本相同；而播音员播报新闻时的句中停顿较为灵活，主要包括根据自身气息需要的生理停顿、反映语法关系的语法停顿、加强节奏感的音节停顿，以及突出语义的强调停顿。此外，播音员还会根据停顿的重要与否，调整每次停顿时间，使听众的听觉感受更加丰富。

三、AI合成主播在新闻播报中的优势和不足

AI 主播自从在新华社移动客户端上线以来，已经播报了一万多条新闻。在媒体融合时代，它实现了新闻播报主体、播报内容、播报过程的智能化。新华社AI 合成主播的研究团队采用人脸识别、语音识别等技术，提取社内真人主播的发音特点及说话的动作习惯，使AI 主播在语音和外形上更接近真实主播。

实际操作中，将新闻文字内容输入机器后，AI 主播就可以进行实时播报，不受时间、空间的限制，能够全天候参与新闻播音，因此，相比真人主播，AI 播音具有更强的时效性。此外，通过机器合成的语音虽然在发音上存在小问题，但总体来说，AI 算法也有助于提升新闻播报的准确度和可信度。

2016年开始，短视频流行于网络平台，逐渐成为信息传播的重要载体。笔者统计新华社手机客户端“AI 主播”栏目的新闻后，发现栏目主要播报几十秒的短新闻，大多数新闻的播报时间为20-30秒，AI播报在有限时间内整合零散信息，将核心内容迅速传达给听众，增强了用户体验。

但AI 新闻播报也面临一些发展困境。AI 主播的播报形式局限于播报式，基本不会涉及新闻的另两种播报方式—宣读式和谈话式。由于目前人工智能技术在人机交互方面还有待继续研究，所以AI 合成主播还无法参与涉及到交流对话、谈话技巧的新闻采访、直播、访谈等工作。

视觉呈现方面，AI 主播虽然在外形上接近真人主播，但播报过程中面部肌肉、嘴型、表情的变化，还不能与文字内容标准契合。听觉感受方面，AI 主播的语速较真人主播偏慢，发音上存在单元音开口度偏大，声调曲折变化程度不够明显等问题，句中停顿调整也不灵活。因此，听众在观察主播和收听新闻时，可能会有一定的违和感和不适应。

此外，AI 主播在播音时缺少情感，语音播报中缺乏重音的强调和句子之间的语气变化，播报不同新闻的语速、停顿基本相同，很难引起听众收听新闻的情感共鸣。

结语

本文从语速、发音、停顿三方面，分别考察了AI 播音和人工播音的语音特点，通过比较音频、分析语谱图和调型图数据，发现目前AI 合成播音已经取得了显著发展，在新闻播音界占据一席之地。但AI 播音与人工播音仍存在一些差异，语速方面，AI 播音语速较慢，波动较小；人工播音语速较快，波动稍大。发音发面，AI 播音的单元音[i][u]的开口度相对较大，舌位相对靠前；人工播音的单元音[i][u]的开口度相对较小，舌位相对靠后。AI播音和人工播音中不送气清塞音[k]的VOT均约0-5毫秒，送气清塞音[t?]的VOT均超过50毫秒。停顿方面，AI播音基本依靠标点符号判断停顿；人工播音的停顿除了依靠标点符号，还有生理停顿、音节停顿、强调停顿等。

AI 播音实现了新闻播报的智能化，提高了新闻的时效性和可信度，播报内容简练，聚合能力强。但其在播报形式、视觉呈现、听觉感受、情感互动上的功能比较有限，这也是未来智能语音技术在AI研究中的重点。

AI 合成主播的出现印证了科学技术的发展，也预示着新闻传播在方式上的转变趋势，但它不会取代传统主播而独立存在，随着人工智能在媒介融合领域的尝试，人机将加强协同创新，走向合作共赢的局面。对此，我们应该秉持积极态度，期待计算机和语言学领域的学者不断探索、研发、应用，提升智能语音技术，促进新闻主持行业的繁荣振兴。■