MPEG-H电视音频系统及国际标准化发展(I)

2017-11-06 08:33StefanMeltzerMaxNeuendorfJanPlogstiesRobertBleidt
数字通信世界 2017年7期
关键词:音频系统环绕声响度

Stefan Meltzer, Max Neuendorf, Jan Plogsties, Robert Bleidt

( Fraunhofer Institute for Integrated Circuits (IIS) )

MPEG-H电视音频系统及国际标准化发展(I)

Stefan Meltzer, Max Neuendorf, Jan Plogsties, Robert Bleidt

( Fraunhofer Institute for Integrated Circuits (IIS) )

目前,下一代广播电视标准成为了全球广播电视领域热议的话题。而沉浸式、互动式等技术特点成为了未来广播电视标准中能够为用户带来更高价值的核心竞争力。本文重点介绍了被ATSC 3.0成功采纳,并成为其最终标准的下一代广播电视音频标准:MPEG-H电视音频系统,并主要介绍了其技术特征以及其在下一代广播电视标准应用中的核心性能。同时,还详细地阐述了MPEG-H在ATSC 3.0标准展过程中的大事记,以及对下一代电视音频标准商业推广的相关思考。

MPEG-H电视音频;3D音频;沉浸式声音;互动式声音

1 引言

MPEG-H电视音频系统基于音频编码标准化组织MPEG最新开发的MPEG-H 3D音频标准,能够为家庭端带来沉浸式声音体验,增强电视节目的真实感和沉浸感,并通过音频对象为观众呈现个性化的音频内容。为了方便用户使用交互性功能,广播电视公司可以提供“预设”服务,即预定义对象增益和位置的混音效果。而沉浸式声音的制作播出则可通过将基于声道的信号或基于场景的声音元素与静态或动态音频对象相结合的方式来实现。改良后的响度和动态范围控制,能够根据不同类型的用户设备和收听环境来定制声音效果,从而实现最佳的声音还放。

目前,MPEG-H电视音频系统已经被DVB标准采纳,并已成为ATSC 3.0数字电视标准中的正式音频标准。此外,韩国于2017年5月31日推出基于ATSC 3.0标准的超高清电视服务,这也是首个采用MPEG-H电视音频系统(下一代音频编解码器)的常规广播电视服务。

2014年,为了支持包括沉浸式声音和交互性能等在内的全新音频功能并提升用户体验,美国高级电视系统委员会(ATSC)发布公告征集下一代广播电视音频系统标准方案,并将其作为ATSC 3.0标准的一部分。与此同时,ATSC还要求解决方案能够实现部分高级功能,例如:将通过互联网发送的音频元素与通过地面广播路径传输的音频元素相结合;支持观众调整节目中的某些声音元素;使音频可以适用于各种终端用户设备,从而通过同一音频码流就可以服务于所有类型的终端用户设备;通过binaural(双耳还放)技术实现耳机端的沉浸式声音还放等。而MPEG-H 3D音频标准可以满足以上所有需求,MPEG-H电视音频系统是MPEG-H 3D音频标准的子集,专为满足ATSC 3.0和DVB所规定的广播电视需求而定制。

2 MPEG-H电视音频系统的特征

2.1 沉浸式声音

MPEG-H电视音频系统能够通过在垂直维度上扩展声像实现“3D”声音还放,进而实现沉浸式声音并区分于传统环绕声。该功能能够使声音听起来更加真实,使用户不再是一名旁观者,而是体验身临其境般的感受。研究表明,与环绕声相比,在沉浸式声音环境下,人们感知到的整体音质明显改善,两者之间的差异就像立体声与环绕声之间的差异一样大。图1为与22.2声道参考信号相比,环绕声、沉浸式/3D声音格式的声音还放系统扩展后的整体音质改善。

图1 声音还放系统扩展后的整体音质改善

2.2 交互功能/个性化定制

MPEG-H电视音频系统中包含“预设”功能。内容创作者可以定义“预设”内容,以及涵盖不同声音元素的组合或者调整不同元素在位置和音量上的关系。如此一来,广播电视公司可以让用户轻而易举地选择不同的声音体验。另外,通过MPEG-H电视音频系统,用户能够与其他混音元素的比较,直接选择和调整不同混音元素在位置和音量上的关系,从而对声音体验进行微调。其中一个典型的例子是调高或调低解说员的声音(也称为“对白增强”)或者选择不同的解说评论的语言,如图2所示。而实现传输交互内容其实也并不复杂,只需对现有制作流程稍作调整便能够为内容创作者提供全新选择,也能够为观众带来更好的体验。而广播电视公司对于用户所能实现的个性化功能调整享有完全的控制权。

图2 MPEG-H的交互功能

2.3 通用传输

在多平台环境下,相同的MPEG-H内容通过不同的分发网络进行传输(例如:广播电视网络、移动网络和宽带网络),并且在不同的环境(如嘈杂的公交车和安静的客厅)和设备上(如电视机、移动设备和AVR)进行播放。为了满足以上需求,MPEG-H电视音频系统针对每个完整混音甚至是单一音频元素提供响度和动态范围控制,以及对输出的峰值和削波预防进行控制。此外,全新的主动下混算法能够带来更高质量的下混音频信号。为了能通过耳机聆听沉浸声和环绕声音频内容,MPEG-H电视音频系统还包含binaural渲染器。

3 MPEG-H电视音频系统的核心性能

3.1 码流效率

下一代广播电视节目需要能够通过各种方式向用户提供内容,其中包括最高质量的有线电视和卫星电视传输方式以及移动设备上的流媒体传输方式等。为此,电视音频系统需要传输各种音频内容,从立体声道到5.1声道、7.1声道和用于沉浸式音频内容的更多声道。MPEG-H音频规范的目标码流范围旨在满足质量和效率的双重目标。对于当今的5.1环绕声,96~256kb/s的码流便能够提供良好甚至优异的音频质量。对于未来具有更多声道(5.1+4H或者7.1+4H)的音频内容,256kb/s~1.2Mb/s的码流即可实现相同的音频质量。

MPEG-H音频编解码器能够利用相同的码流承载更高质量和/或更多声道的音频内容。例如,在常用的广播音频数据传输码率(384kb/s)下,MPEG-H能够传输最多包括四个附加对象的7.1+4H音频声道的信号,从而实现高度扬声器播放效果。

3.2 动态范围控制

动态范围控制(DRC)技术能够使产生的音频信号适应于不同的还放设备和聆听环境。在MPEG-H电视音频系统的DRC框架内,通过信号传输的不同DRC增益序列能够在播放设备中实现由编码器控制的动态范围处理。多个单独的DRC增益序列可以通过高分辨率信号传输,以适用于各种播放设备和收听环境,如:移动环境和家庭环境。通过MPEG-H DRC技术,还可以实现更好的削波预防和峰值限制效果。

3.3 响度标准化

为了符合不同的响度规范并带来一致的用户体验,响度信号传送和标准化对于任何下一代音频系统都扮演着至关重要的角色。在MPEG-H电视音频系统中,基于EBU R128或ITU-R BS.1770-3所有响度相关测量数据都被嵌入到用于响度标准化的数据流之中,并通过解码器对音频信号进行标准化,从而将节目响度映射至还放所需的目标响度。例如,在移动设备上,目标响度范围为-12至-15dB LKFS,而在家庭AVR(音视频接收机)上,目标响度通常设置为-31dB LKFS。然而,通过下混和动态范围控制,可能会改变信号的响度。因此,可以将专用的节目响度元数据植入到MPEG-H比特流中,以确保在还放端实现正确的响度标准化。

3.4 音频对象

将音频对象作为附加音轨嵌入到音频节目内容中,可以实现一系列的全新应用。其中,最为突出的应用就是允许用户通过改变混音效果实现交互性功能。用户可以选择不同的语言音轨、附加音轨,例如导演对电影的评论或针对视障者的场景叙述等。同时,用户能够调节特定音轨声音,以便获取个性化收听体验,例如调高解说评论的声音使其高于背景音。

诸如对白的音频对象可以根据其动态范围进行单独控制,这样可确保在任何压缩模式下都能清晰地听到对白内容。利用音频对象的概念,还可以在不同播放场景下,实现准确的空间声音还放。为实现以上需求,可将描述几何位置的对象元数据嵌入到比特流中。MPEG-H电视音频系统的解码器包含一个对象渲染器,它能够根据元数据和用户家中扬声器的位置将对象信号映射并分配至扬声器中。

3.5 Ambisonics

Ambisonics能够通过特定的数学方程式呈现声场压力,随着Ambisonics阶数的提升,其还放准确度也随之升高。此外,Ambisonics的呈现不受终端扬声器配置的影响,因此,在声音还放之前可以轻而易举地对其进行调整。得益于以上特性,Ambisonics还放技术非常适用于当今的虚拟现实应用。目前,结合音频对象的FOA(一阶高保真)技术和HOA(高阶高保真)技术在虚拟现实制作中的应用越来越广泛。(未完待续)

The MPEG-H TV Audio System and its Developments in International Standardizations (I)

Stefan Meltzer, Max Neuendorf, Jan Plogsties, Robert Bleidt
( Fraunhofer Institute for Integrated Circuits (IIS) )

The article introduces the major features of the MPEG-H TV Audio System and its core elements. The MPEG-H TV Audio system has been adopted and fully specified in the ATSC 3.0 Digital Television standard. Its features include immersive and interactive sound, which have been key requirements of a future TV broadcast standard in order to bring added value to the viewers. The article also describes the major steps in the process of the standardization and, necessary considerations regarding the commercial roll out of the next generation TV standard.

MPEG-H TV Audio; 3D Audio; Immersive Sound; Interactive Sound

10.3969/J.ISSN.1672-7274.2017.07.015

TN948,TN941文献标示码:A

1672-7274(2017)07-0040-03

猜你喜欢
音频系统环绕声响度
Dirac Live加持!让好效果来得更容易 ROTEL Rotel RAP-1580MKⅡ AV功放/RSP-1576MKⅡ环绕声处理器/RMB-1585五声道功放
浅谈号角与带式扬声器 在家用或专业音频系统中的应用
打造最具性价比的7.4.1沉浸式音频系统 昆明艺术家园
Elektrobit提供的EB GUIDE工具链加速Pioneer最新显示音频系统的开发
简洁又轻松的Soundbar环绕声解决方案
从房间与音频系统再谈定制安装的核心要素 畅谈家庭影院系统中的隐藏设计
更简单直接的环绕声音效体验 环绕声技术的几个应用
响度在节目制作和播出中的应用
探寻家用环绕声发展的未来究竟是简单还是繁琐
数字时代中节目响度平衡浅析