新华社手机客户端AI合成主播的语音考察

2022-07-22 13:17杨鑫悦
新闻传播 2022年12期
关键词:语速播音员读音

杨鑫悦

(北京师范大学文学院 北京 100875)

近年来,随着人工智能技术的进一步开发,语音识别、语音合成、大数据评测等方面都取得了显著进展,机器人AI 合成主播也应运而生。2018年11月7日,在第五届世界互联网大会上,新华社客户端与搜狗共同发布了全球首个合成新闻主播—AI合成主播“新小浩”。AI合成主播提取了新闻广播中真人主播的语音、唇形、面部表情和动作特征,集合语音合成、算法模型、深度学习等技术而成。

2018年,全球首个仿真智能AI 主持人诞生;2019年,全球首个阿拉伯语和俄语合成主播诞生;2020年,全球首个3D版AI合成主播诞生。人工智能的迅速发展吸引了诸多学者的注意,对AI 合成主播的研究不再拘泥于计算机技术,新闻传播、播音主持等领域都出现了相应的研究成果。

冯梅(2021)在《人工智能背景下AI 合成主播的发展之路》一文中分析了AI 合成主播的优势和短板,对其未来发展持积极态度。郁江兰(2020)分析了新华社AI合成主播2020年疫情新闻报道中内容、技术和形式的特点,探讨了媒体整合背景下人工智能合成主播的发展前景。宋国澳、麦梦佳(2020)将新小萌、新小浩、Lisa等新华社AI 合成主播作为家族,整体研究并归纳了智媒时代新闻播报的新特征及发展困境。

笔者在中国知网上搜索“AI主播”时,共出现141篇文章,但附加关键词“语音”之后,仅出现4篇文章,而这4 篇文章均与行业的发展前景、人工智能的利弊相关,而与语音本体关系不大。唯一一篇与语音相关的文章《AI播音与人工播音的语音差异性考察》,从速度、发音、停顿和重音等角度分析了AI 播音与人工广播的差异,但文章数据多与语料统计相关,涉及到语音本体的考察较少,且关于AI 语音准确与否的界定并不明晰。因此,本文从语音相关要素入手,收集样本语料,用Praat 软件进行声学分析,比较新华社手机客户端AI 主播与新闻联播主持人在语速、发音、停顿等方面的区别,讨论AI 播音的语音特点。

一、新华社手机客户端AI合成主播的语音特点

(一)AI合成主播的播音语速

语速是指单位时间内人们在传递信息和沟通交流时呈现的词汇数量,通常讲话速度是相对的。正常情况下,使用现代汉语表达意思和传播信息时,人们的语速约为240个音节/分钟,经过数据统计,广播电视新闻播音的语速为300个音节/分钟。

播音语速是指播音员播报稿件的速度,在数学上的计算方式为,播音语速=播报稿件总字数÷播报时间,播音语速的单位一般为音节/分钟。听众对播音语速快慢的感受受到很多方面影响,比如播音员个人的播音风格和特点、播音技巧、说话节奏和语气等。

本文随机选取新华社app内从2021年7月20日到8月18日30天内每日一篇AI主播播报的时政新闻作为样本语料,统计稿件字数(含非中文单词,不计空格)与播报时间,计算AI 播音语速。同时,在相同时间段内,每日选取一篇央视频app内《新闻联播》节目的国内联播快讯为对照语料,按照相同方式计算播音员的播音语速。鉴于新华社app中AI主播播报的新闻和《新闻联播》联播快讯的时间基本都为20-30秒,所以在统计播音语速时,单位统一为字符/秒。

通过对比30 天内的两组数据,发现AI 播音的平均语速4.98 字符/秒,播音员播音的平均语速为5.02 字符/秒,AI 播音的平均语速比播音员慢,但两者差距不大,每秒相差0.04个字符,即每分钟相差2.4个字符。

通过计算,AI播音语速的标准差为0.37,播音员播音语速的标准差为0.40,可见AI 播音语速的标准差较小,数值较为平均,波动较少,而播音员的播音语速存在一定波动。因此,听众在收听AI 合成主播播报的新闻时,由于不同新闻的播报语速和播音风格相差较小,收听新闻的新鲜感可能维持在较低水平。而播音员对不同新闻的播报风格有所不同,或庄重大方、或简洁明快,播报节奏影响播音语速,使听众的听觉和心理在接受信息时产生波动。

此外,在声音传播中,汉语语句内部的词与词之间也会产生聚合现象,呈现“词团”的状态,词与词的聚合速度也会对播音语速产生一定影响。经过对比考察,发现在人工播音中,“自由贸易试验区临港新片区”“氢能产业发展实施方案”“同江中俄跨江铁路大桥”等词语聚合词团的播音语速较快,而新闻中表示并列、递进等关系的“完善法制”“推动发行交易管理分类趋同”“提升信息披露”等词团的播报语速较慢。而对于AI 播音而言,不同词团的播音语速差别不大。

(二)AI合成主播的发音特点

本文选取8月20日新华社app 中AI 合成主播“新小浩”播报的《〈中阿经贸关系发展进程2020年度报告〉在宁夏发布》和8月19日《新闻联播》中严於信播报的《习近平向第五届中国—阿拉伯国家博览会致贺信》两篇新闻中“第五届中国—阿拉伯国家博览会”这几个字的读音作为研究对象。AI 主播“新小浩”原型为新华社主播邱浩,与新闻联播主持人严於信均为35岁左右男性。

提取以上两篇新闻的语音信息后,本文利用计算机语音图像分析软件Praat,对音频和数据进行处理,同时生成单元音[a][i][u]、辅音[k][t?]的语谱图,并计算元音的共振峰数据、辅音的VOT 时间,绘制四声声调调型图,对比分析AI主播和播音员在读音方面的异同。

1.元音

1)对元音[a]的分析

图1:AI主播[a]语谱图

图2:播音员[a]语谱图

通过对AI 主播和播音员的“阿”样本分析,得到两幅语谱图。计算共振峰得知,新华社AI 主播[a]的F1=971.14,F2=1056.58;新闻联播播音员[a]的F1=838.47,F2=1509.76。

总体来说,[a]是前低不圆唇元音,第一共振峰频率比较高,第一共振峰频率和第二共振峰频率差别不大。相比播音员[a]音,AI主播[a]音的F1较高,F2较低,即开口度相对较大,舌位相对靠后。

2)对元音[i]的分析

通过对AI 主播和播音员的“第”样本韵母的分析,得到两幅语谱图。计算共振峰得知,新华社AI主播[i]音的F1=1015.59,F2=2452.78;新闻联播播音员[i]音的F1=999.03,F2=2398.99。

总体来说,[i]是前高不圆唇元音,第一共振峰频率比较低,第一共振峰频率和第二共振峰频率差别较大。相比播音员[i]音,AI 主播[i]音的F1 和F2 都偏高,即开口度相对较大,舌位相对靠前。

3)对元音[u]的分析

通过对AI 主播和播音员的“五”样本韵母的分析,得到两幅语谱图。计算共振峰得知,新华社AI 主播[u]音的F1=742.85,F2=2180.42;新闻联播播音员[u]音的F1=623.77,F2=2037.03。

总体来说,[u]是后高圆唇元音,第一共振峰频率比较低,第一共振峰频率和第二共振峰频率差别较大。相比播音员[u]音,AI主播[u]音的F1和F2都偏高,即开口度相对较大,舌位相对靠前。

2.辅音

1)对辅音[k]的分析

图7:AI主播[k]语谱图

图8:播音员[k]语谱图

VOT表示嗓音的起始时间,即从辅音除阻到声带振动之间经过的时间。新闻报道“第五届中国—阿拉伯国家博览会”中“国”的辅音[k]是不送气清塞音,本文通过对AI 主播和播音员的“国”样本分析,发现两篇新闻中辅音[k]的VOT均约0-5毫秒。

2)对辅音[t]的分析

图9:AI主播[t]语谱图

图10:播音员[t]语谱图

本文又对AI 合成主播播报的《〈中阿经贸关系发展进程2020年度报告〉在宁夏发布》中“投资”的“投”,以及《新闻联播》中《习近平向第五届中国—阿拉伯国家博览会致贺信》中“推动”的“推”进行样本语谱图分析,“投”和“推”的辅音均为送气清塞音[t]。本文通过对AI 主播和播音员的“投”和“推”样本分析,发现两篇新闻中辅音[t?]的VOT 均约超过50 毫秒,AI 播音[t?]的VOT为68毫秒,播音员播音[t?]的VOT为55毫秒。

3.声调

本文选取AI 合成主播播报的《〈中阿经贸关系发展进程2020年度报告〉在宁夏发布》和《新闻联播》中《习近平向第五届中国—阿拉伯国家博览会致贺信》两篇新闻中“第五届中国—阿拉伯国家博览会”中“阿”“伯”“览”“会”四个字作为声调的研究对象,利用15点声调脚本,绘制了AI主播和播音员的四声调型图。

在赵元任提出的五度标度法中,现代汉语普通话四个声调的五度值分别为:阴平55、阳平35、上声214、去声51,同时,一个声调可以有各种调位变体。通过观察AI主播和播音员的四声调型图,可以发现两者对阴平例字“阿”的读音都属于平调,读起来高而平;阳平例字“伯”的读音,读起来由中逐渐升高,AI主播读音比播音员读音的音调更高;上声例字“览”的读音,读起来由半高降低到低再升至次高,AI 主播和播音员读音音调相似,但AI 主播音节中间的调值没有降至适当位置,存在调值不准确的问题;去声例字“会”的读音,读起来由高降到低,AI 主播读音的音调过低,且音节中音高走势变化不明显。

总体来说,相对于播音员读音,AI 主播读音阴平和去声的音调较低,上声和去声存在调值不准确的问题,音节中音高曲折起落的变化不显著,上声音节中间调值音调偏高,去声从高音到低音的音高走势过于平缓。

二、AI合成主播的播音停顿

通过观察AI 主播和播音员分别播报的30 篇新闻样本,可以发现两者的播音停顿主要以标点符号作为依据。标点符号不仅是书面语的组成部分,也是辅助书面语记录的符号,它用来表达停顿、语气以及词语的性质和功能,其在口头语言中的表现就是时间间隔。

新闻开头部分的导语,比如介绍新闻时间、地点、背景、人物等的“硬式导语”一般不含有标点符号。播音员在播报新闻时,会在口语中自然加入句中停顿,方便听众区分理解,而AI 主播无法自主识别句中的词语关系,一般不会做出停顿。比如,《〈中阿经贸关系发展进程2020年度报告〉在宁夏发布》这篇新闻的导语“在19日于宁夏举行的第五届中国—阿拉伯国家博览会工商峰会上,中英文版《中阿经贸关系发展进程2020年度报告》正式发布。”AI 主播只在破折号、逗号、句号三个地方有所停顿,而对时间、地点、事件等名词的连用不做停顿处理,这不符合听众接受信息的规律和习惯,易使听众觉得单一、混淆。

反观播音员播报的《习近平向第五届中国—阿拉伯国家博览会致贺信》这篇新闻的导语“8月19日,国家主席习近平向第五届中国—阿拉伯国家博览会致贺信。”句中人物“国家主席习近平”和事件“向第五届中国—阿拉伯国家博览会致贺信”之间虽然没有标点符号,但播音员会根据听众听音习惯,自觉加入句中停顿。

总体来说,AI 主播播报新闻的停顿绝大多数依赖标点符号,且每次停顿的时间间隔基本相同;而播音员播报新闻时的句中停顿较为灵活,主要包括根据自身气息需要的生理停顿、反映语法关系的语法停顿、加强节奏感的音节停顿,以及突出语义的强调停顿。此外,播音员还会根据停顿的重要与否,调整每次停顿时间,使听众的听觉感受更加丰富。

三、AI合成主播在新闻播报中的优势和不足

AI 主播自从在新华社移动客户端上线以来,已经播报了一万多条新闻。在媒体融合时代,它实现了新闻播报主体、播报内容、播报过程的智能化。新华社AI 合成主播的研究团队采用人脸识别、语音识别等技术,提取社内真人主播的发音特点及说话的动作习惯,使AI 主播在语音和外形上更接近真实主播。

实际操作中,将新闻文字内容输入机器后,AI 主播就可以进行实时播报,不受时间、空间的限制,能够全天候参与新闻播音,因此,相比真人主播,AI 播音具有更强的时效性。此外,通过机器合成的语音虽然在发音上存在小问题,但总体来说,AI 算法也有助于提升新闻播报的准确度和可信度。

2016年开始,短视频流行于网络平台,逐渐成为信息传播的重要载体。笔者统计新华社手机客户端“AI 主播”栏目的新闻后,发现栏目主要播报几十秒的短新闻,大多数新闻的播报时间为20-30秒,AI播报在有限时间内整合零散信息,将核心内容迅速传达给听众,增强了用户体验。

但AI 新闻播报也面临一些发展困境。AI 主播的播报形式局限于播报式,基本不会涉及新闻的另两种播报方式—宣读式和谈话式。由于目前人工智能技术在人机交互方面还有待继续研究,所以AI 合成主播还无法参与涉及到交流对话、谈话技巧的新闻采访、直播、访谈等工作。

视觉呈现方面,AI 主播虽然在外形上接近真人主播,但播报过程中面部肌肉、嘴型、表情的变化,还不能与文字内容标准契合。听觉感受方面,AI 主播的语速较真人主播偏慢,发音上存在单元音开口度偏大,声调曲折变化程度不够明显等问题,句中停顿调整也不灵活。因此,听众在观察主播和收听新闻时,可能会有一定的违和感和不适应。

此外,AI 主播在播音时缺少情感,语音播报中缺乏重音的强调和句子之间的语气变化,播报不同新闻的语速、停顿基本相同,很难引起听众收听新闻的情感共鸣。

结语

本文从语速、发音、停顿三方面,分别考察了AI 播音和人工播音的语音特点,通过比较音频、分析语谱图和调型图数据,发现目前AI 合成播音已经取得了显著发展,在新闻播音界占据一席之地。但AI 播音与人工播音仍存在一些差异,语速方面,AI 播音语速较慢,波动较小;人工播音语速较快,波动稍大。发音发面,AI 播音的单元音[i][u]的开口度相对较大,舌位相对靠前;人工播音的单元音[i][u]的开口度相对较小,舌位相对靠后。AI播音和人工播音中不送气清塞音[k]的VOT均约0-5毫秒,送气清塞音[t?]的VOT均超过50毫秒。停顿方面,AI播音基本依靠标点符号判断停顿;人工播音的停顿除了依靠标点符号,还有生理停顿、音节停顿、强调停顿等。

AI 播音实现了新闻播报的智能化,提高了新闻的时效性和可信度,播报内容简练,聚合能力强。但其在播报形式、视觉呈现、听觉感受、情感互动上的功能比较有限,这也是未来智能语音技术在AI研究中的重点。

AI 合成主播的出现印证了科学技术的发展,也预示着新闻传播在方式上的转变趋势,但它不会取代传统主播而独立存在,随着人工智能在媒介融合领域的尝试,人机将加强协同创新,走向合作共赢的局面。对此,我们应该秉持积极态度,期待计算机和语言学领域的学者不断探索、研发、应用,提升智能语音技术,促进新闻主持行业的繁荣振兴。■

猜你喜欢
语速播音员读音
辩论赛之语速
“那”与“哪”的读音
字词篇
从《泊船瓜洲》中“间”字的读音说开去
说话时语速慢点有益身心
论播音员主持人的新闻敏感性
语速里的微妙心理
做人民欢迎的中用的播音员
播音员主持人的语言创造
我是小字典