虚拟数字人技术在新闻采编播中的应用

2023-12-18 20:41
电视技术 2023年9期
关键词:语音数字

张 文

(兰州现代职业学院,甘肃 兰州 730020)

0 引 言

虚拟数字人技术的崛起正在改变新闻行业的面貌。本文旨在深入探讨虚拟数字人技术的概念、关键技术组成、发展现状以及多个应用领域,特别关注其在新闻领域的应用,揭示虚拟数字人技术如何重塑新闻生产方式,影响新闻质量和传播效果,并探讨其对未来新闻业的深远影响。

1 虚拟数字人技术概述

1.1 虚拟数字人的概念

虚拟数字人是指存在于非物理世界中,由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用,具有多重人类特征的综合产物[1]。这些虚拟数字人不仅能够模拟人类的外貌和语音,还具备自主决策、自然语言理解和情感表达的能力。虚拟数字人应用范围广泛,包括虚拟偶像、虚拟主播、虚拟助手、游戏角色及在线教育导师等,具有拟人化、互动性、智能化3 个特点。

1.2 虚拟数字人的关键技术

虚拟数字人包括多种关键技术。这些技术协同工作,创造逼真的虚拟个体。计算机图形学技术用来创建虚拟数字人的外貌和环境,包括建模人物的三维外观、纹理映射、骨骼动画等,确保虚拟数字人的外观和动作逼真。图形渲染技术用于将虚拟场景呈现在屏幕上,制造光照、阴影、反射和抗锯齿等效果,以提高视觉真实感。动作捕捉技术用来捕捉现实世界中的运动和动作,并将其应用于虚拟数字人,有助于实现自然的动作和表情。深度学习算法用于面部表情生成、姿势识别和语义理解等方面。深度学习模型从大量数据中进行学习,提高虚拟数字人的智能水平。语音合成技术用于创建虚拟数字人的声音,生成自然流畅的语音,使虚拟数字人能够与用户进行实时语音互动[2]。

1.3 虚拟数字人产业发展现状

艾媒咨询调查报告显示,2022 年,我国虚拟人带动产业市场规模和核心市场规模分别为1 866.1 亿元和120.8 亿元,预计2025 年将分别达到6 402.7 亿元和480.6 亿元,呈现强劲增长态势[3]。

虚拟数字人产业的发展离不开企业的支持。早期企业包括科大讯飞、腾讯、阿里、百度等企业,此类互联网早期企业技术力量扎实,较早布局虚拟数字人产业。此后,商汤智能科技、火山引擎、中科深智、小冰等企业纷纷入局虚拟数字人产业[4]。如2018 年腾讯旗下的NExT Studios 发布Siren 虚拟数字人,2021 年发布全球首位数字航天员小诤。又如,2021 年,百度发布数字人直播平台“曦灵”,提供虚拟主持人、虚拟员工、虚拟偶像及品牌代言人等虚拟数字人创建与运营服务。字节跳动旗下北京火山引擎推出虚拟数字人应用平台,为各行业提供客服、智慧导览、智能助理、虚拟直播等场景的虚拟数字人应用解决方案。2022 年8 月,芒果TV 创新研究院与腾讯云联合发布虚拟人直播互动平台,为企业提供轻量化、异地化、专业化的虚拟内容生产服务[5]。

1.4 虚拟数字人技术的应用领域

虚拟数字人技术在各个领域都有广泛的应用。第一,娱乐领域。虚拟数字人技术在电子游戏、虚拟现实、增强现实等娱乐领域得到广泛应用,创建逼真的游戏角色,增强游戏体验,并为虚拟世界赋予生命。第二,教育领域。教育界利用虚拟数字人来提供个性化的在线教育体验。虚拟教育导师与学生互动,解答问题,甚至提供情感支持,提高教育质量。第三,新闻领域。在新闻领域,虚拟数字人用于新闻报道、播报和主持,提供即时新闻更新,解释复杂的话题,增强新闻体验,甚至在危机时刻提供信息。第四,客户服务。虚拟数字人在客户服务中充当虚拟助手,可以回答常见问题,提供产品信息,提高客户满意度,并减轻人工客服的压力。第五,艺术和文化。虚拟数字人技术为艺术家和文化创意工作者提供了无限可能性,可用于创作虚拟角色、数字艺术和互动演出。

2 虚拟数字人技术在新闻采编播中的应用

2.1 虚拟数字人在新闻采访中的角色和功能

将虚拟数字人应用在新闻采访中,是新闻领域的一项创新。虚拟数字人可以充当新闻采访者的角色。比如虚拟记者,能够提出问题、追问信息,甚至模拟各种采访风格和语气,与被采访者进行互动。新闻采访中的虚拟数字人角色一般具有以下功能。

(1)实时信息获取。虚拟数字人可以接入实时新闻源和数据库,迅速获取和整理大量信息,以支持采访过程。这有助于提供准确和及时的新闻报道。

(2)语言翻译。虚拟数字人能够在多语言采访中发挥关键作用,可快速翻译和转述采访对象的话语,使跨文化和多语言报道更容易实现。

(3)自然语言理解。虚拟数字人能够理解和分析采访对象的回答,从中提取重要信息,有助于报道的深度分析。

(4)互动性。虚拟数字人具有互动性,允许观众通过虚拟平台参与采访,提出问题,与虚拟采访者互动,从而增强新闻体验。

以百度虚拟数字人度晓晓为例,其在新闻采访过程中发挥着关键作用。度晓晓基于百度大脑7.0核心技术驱动,整合了多模态交互技术、3D 数字人建模、机器翻译、语音识别、自然语言理解等多项技术,展现出强大的人工智能(Artificial Intelligence,AI)交互能力及生成式人工智能(Artificial Intelligence Generated Content,AIGC)能力,为用户提供更加亲切、更具科技感、沉浸感的体验。2022年5 月,虚拟数字人度晓晓担任工人日报特派“AI记者”,参加全国五一劳动奖获得者新闻采访活动。度晓晓还以“AI 记者”身份参与了首届大国工匠创新交流大会新闻采访活动。大会以线上3D VR展厅、全景“云巡馆”、直播“云观展”等多种形式呈现,“AI 记者”度晓晓带领观众云端游览展会,向观众解读我国工业与制造业发展成果[6]。

2.2 虚拟数字人在新闻编辑中的应用

虚拟数字人在新闻编辑中的应用,给新闻产业带来了革命性的改变,主要表现在以下方面。

(1)自动化新闻生成。虚拟数字人自动分析数据、事件和信息源,然后生成新闻文章,能够迅速提供大量的新闻内容,节省新闻编辑的时间和劳动力。

(2)新闻稿件的多语言转化。虚拟数字人技术能够将新闻稿件快速翻译成多种语言,扩大了新闻报道的受众范围。

(3)自然语言处理。虚拟数字人在新闻编辑中具备自然语言处理能力,帮助编辑分析和提取新闻材料中的关键信息,辅助编写和编辑过程。

(4)内容个性化。虚拟数字人能够根据用户的兴趣和偏好,自动生成个性化的新闻内容,提高用户体验和新闻观众的忠诚度。

(5)数据可视化。虚拟数字人将数据转化为可视化图表和图形,使复杂的数据更容易理解,丰富了新闻报道的形式。

(6)人机协作。虚拟数字人与人类编辑协同工作,提供新闻稿件的初稿,由编辑进行进一步的审查和修改。

以天津津云新媒体集团股份有限公司的虚拟数字人2.0 内容生产系统为例,其在新闻编辑中发挥了关键性作用,主要用于生成高质量的虚拟数字人视频内容。该系统采用AI 技术和3D 建模技术,快速、准确地生成虚拟数字人视音频内容,大大提高了新闻内容的生产效率和质量。基于深度学习的面部捕捉和身体姿态捕捉系统,实时捕捉演员的表情和动作,并将其转化为虚拟数字人的表情和动作,拥有强大的语音合成和语音识别功能,实现语音交互和自动字幕生成等功能。以北京美摄网络科技有限公司的AIGC+Avata 数字人解决方案为例,使用先进的计算机视觉和人工智能技术,实现更加逼真、交互性更强的AIGC 内容生产创作新体验。对新闻编辑工作而言,使用AIGC+Avata 数字人解决方案,能够实现新闻内容的自动生成,包括文字、图片、音频、视频形式。

2.3 虚拟数字人在新闻播报和主持中的应用

虚拟数字人在新闻播报和主持中的应用是新闻行业的一项创新,担任主持人和播音员的角色,具有以下关键功能和应用。第一,新闻播报。虚拟数字人用逼真的外貌和语音合成技术来播报新闻,使得新闻机构能够实现7×24 h 的新闻播报,减少对人力资源的依赖,并确保新闻不受时间限制。第二,多语言播报。虚拟数字人技术使得播音员轻松切换多种语言,满足不同观众的需求,扩大了新闻报道的受众范围。第三,即时新闻更新。虚拟数字人可以迅速更新新闻,特别是在紧急情况下,以提供即时的新闻报道,有助于观众获得最新的信息。第四,节目主持。虚拟数字人用于主持新闻节目,引导讨论、采访嘉宾,甚至提供评论和分析。第六,可定制性。虚拟数字人可根据需要进行定制,包括外貌、声音、语言、风格和主题,以满足不同的新闻节目需求。

以2020 年上海广播电视台虚拟新闻主播申䒕雅为例,其是虚拟数字人在新闻播报和主持领域的典型应用,通过4D 扫描、智能绑定、实时渲染引擎,不断提升角色表现力,应用动作捕捉采集技术、影视级面捕技术、计算机动画(Computer Graphics,CG)技术合成等全新的技术流程,使得虚拟数字人从表情到动作更加生动自然。在新闻播报中,申䒕雅可以自动生成新闻报道,语言流畅自然,与真实人类主播无异。她能够准确地播报新闻,包括国内外的政治、经济、文化、体育等各个领域的新闻。申䒕雅通过模拟人类情感和语气,使得新闻播报更加生动、有趣。申䒕雅多次参与重大新闻播报,如“迎接党的二十大”主题宣传报道、第五届进博会全媒体直播特别报道、“庆祝香港回归祖国25 周年”全媒体特别报道、2022 全国两会系列报道、2022 世界人工智能大会、2022 北京冬奥会等。此外,还有虚拟主持人言东方、新华社的新小浩和新小萌、虚拟主持人小冰、3D 超写实虚拟数字人小C 等虚拟数字人被广泛应用于新闻播报,为新闻媒体的发展提供了新的可能性。

3 结 语

本文深入研究了虚拟数字人技术在新闻采编播中的创新应用,重点关注虚拟数字人在新闻采访、编辑和播报中的角色、功能和效益。虚拟数字人已经成为新闻领域的重要工具,提高了新闻生产效率,拓展了报道的多样性。

猜你喜欢
语音数字
第二语言语音习得中的误读
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
数字
答数字
数字看G20
成双成对
科大讯飞:押注语音生态圈