浅谈空间音频技术的发展与应用

2021-04-02 02:52

现代电影技术 2021年3期

(中国传媒大学音乐与录音艺术学院，北京 100024)

1 引言

随着视听媒介的快速发展，人们在图像和声音的三维化道路上已经进行了多年的探索和实践。对于声音的空间感究竟是如何产生，抑或到目前为止空间音频技术又发展到什么程度，这不仅是音频领域专业人士关注的热点，更是众多音频发烧友所感兴趣的话题。本文将以声音和空间为主题，浅析与此相关的理论和技术。

2 声音的空间感

听觉是人类最重要的感观之一，甚至从胎儿时期起就对人的感知产生重要影响。研究表明，在人的所有感觉中，视听感知占据了绝大部分的比例。但不同于视觉的是，我们可以通过闭上眼睛来关闭视觉的作用，而无法关闭我们的耳朵。基于听觉的特殊性，我们无时无刻不沉浸在一个连续变化的声音世界之中。这些自幼积累的听音经验，也逐渐成为我们认知事物的重要手段，让我们可以通过声音来判断声源的方位、通过混响来辨别房间的声学特点等。

声音是通过发声源振动产生的。振动的能量通过介质传递，如最常见的空气，并且在传递过程中可能会遇到介质的变化、界面的反射等因素，导致声音性质发生改变，最终到达人耳。在这个过程中声音的构成主要可以概括为两个部分：第一是声源信号；第二是环境的空间信息。进一步来说，我们从后者中能获取的信息又可以分为直达声的位置信息和反射波的环境信息，正是这些信息为我们带来了声音的空间感。

根据心理声学的研究，听觉对声源的水平定位主要源于双耳效应：第一，声波到达双耳的时间不同而产生的双耳时间差(interaural time difference，缩写为ITD)；第二，声波到达双耳的强度不同而产生的双耳强度差(interaural intensity difference，缩写为IID)。通常来说，对于来自不同方向的低频信号，到达两边耳朵的时间不同，故具有一定的声程差，进而引入了左右耳信号的相位差异，通过该差异我们能辨别低频信号的方位。而对于波长相对较短的高频信号来说，人的头部以及耳廓形成了一定的遮蔽作用，使得到达左右耳的信号强度有所改变，产生了强度差和音色差，进而帮助我们判断高频信号的方位。而双耳信号的相位差对于高于一定频率的信号来说会超过180°，从而产生混淆，因此不易通过相位差来判断高频方位。而人耳对于高度信息的判断通常也是通过谱因素带来的音色差异来判断，包括幅度差和相位差。

反射波的环境信息主要包括声源在空间中所激发的早期反射声和混响声。其中前者带有明确的声波方向性和声场能量分布的不均匀性，后者则呈现出声波的方向随机性和声场能量分布的均匀性。通常来说，早期反射声对声源的定位、空间几何形状的感知和空间声场的亲切感、包围感等属性有着重要影响。混响则是空间中声音均匀扩散的结果，它会影响声学空间感知上的丰满度和活跃度等属性——当中高频的混响不足时，将会感知到缺乏共鸣或活跃度差；当高频不足时，则感知到声音不明亮；当低频不足时，则感知到缺乏低频冲击感及声音不温暖的现象。

3 立体声技术

不同于以二维平面形式存在的图像，声音在现实世界中向来都是以三维的形式存在。但自1877年爱迪生发明了留声机以后，声音也可以以二维的数据形式存储下来——唱片表面描述声波振动的刻痕。人们通过读取二维的声音数据，再经过重放设备放大就可以还原声音的三维形态。

最初的留声机只能记录一条声音通道，也就是单声道信号。在听音重放的时候，人们可以通过声音信息中乐器的电平、音色差异感受声源距离的远近，但却感受不到声源的方向，而现实中的乐器演奏显然不可能只在某个方向的一条直线上进行。这种情况因后来的双声道技术的出现得到了极大的改善。双声道录音和重放使得声音信号带有了声源的空间分布感，声音有了分布和方向，这才真正变得立体起来，并且成为了声音制作领域的主流制式之一。为了追求声音重放以实现更为真实的空间感，随后出现的四方声、X.1环绕声，提供了具有一定空间信息的环绕声道，使听众能够得到来自身侧和身后的声音。三维环绕声则进一步引入了不同高度层的声音信息，使得立体声技术更加地“立体”。

通常人们提到的立体声其实指的是狭义的双声道立体声(Stereo)。从声源的录音、制作、重放三个流程来看，基于双声道的音频技术已经相当成熟和稳定。

3.1 声源

立体声拾音技术按照层级关系，从高到低为“立体声方法”“立体声拾音方法”“传声器方法(拾音制式)”三种。立体声方法主要分为“房间立体声”和“人头立体声”两种原则，它决定了立体声信号的拾取和重放原则。立体声拾音方法可以分为“时间差拾音方法”“强度差拾音方法”“混合拾音方法”。传声器方法则指的是“拾音制式”，代表了各种具体的传声器使用设置方案。以上“立体声”方案都是基于上文所提到的双耳效应来设计的，目的就是模拟到达双耳信号存在时间差、强度差、相位差和音色差的信息。值得一提的是，人头立体声中所使用的人工头拾音方案其实已经体现了三维声的空间感，但由于人工头模型与实际听音者的头部并不能够完全吻合，有时候也会带来声源定位的畸变。

3.2 制作

双声道立体声的制作则主要通过硬件或者软件调音台实现。制作者可以在调音台上对声音信号进行音色处理、添加效果，并进行最重要的声像电位器(Pan Pot)和电平推子的控制。但传统的声像电位器往往只是对分配到左右母线的电平进行调整，使得左右声道产生强度差。虽然在使用立体声录音制式的情况下，该方案能还原相应录音制式的声音原貌，但对于单声道音轨来说，仅仅对其分配电平差难免会导致声源定位不符合真实情况的现象——如低频有相位差、高频有音色差。这种弊端在双声道制作中并不显著，因为不论是制作端还是接收端，人们都已经习惯了该制作模式带来的听感。但进入三维声的领域后，传统的Panning方案会带来明显的声像定位误差，从而导致空间感不真实，重放质量较差。因此，更适宜的声像分配方案应该是引入双耳相位差的双耳Panning，比如Logic Pro 10 软件中就可以选择Binaural(双耳)Pan的模式。

3.3 重放

从重放的角度来看，基于声场立体声原理制作的节目比较适合立体声音箱重放，而基于人头立体声原理制作的节目则更适合耳机重放。其原因在于人头录音采集到的信号是人耳耳道入口的声音，这个声音已经带有了经过人头和上身的反射、衍射引入的声染色信息，直接通过耳机重放能更加接近地还原录音时的听音状态，但通过音箱重放则会引入听音者头部的二次声染色，从而带来声音偏差。而音箱制作节目则类似，由于缺少自然状态下头部带来的声染色，听上去声音状态并不真实，“头中定位”效应严重。当然，我们可以通过相应的DSP滤波器进行信号转换，以适应不同立体声重放之间的相互兼容。

立体声技术的发展，催生了各式各样的环绕声音频技术。为了还原真实听音环境中的状态，水平环绕声的后置声道通常会加入以空间信息为主的反射声、混响等信息。实现的方法可以是录制的时候就采取环绕声录音制式，使用环境声话筒拾取环境声，并且尽量避开直达声的辐射区域，这样在制作阶段将环境声分配到环绕声道来提高重放声音的临场感和包围感；亦或在制作阶段通过信号处理方式为直达声生成空间信号送入环绕声道。以这种方式制作的节目要格外注意环绕声道和主声道之间的关系，尽量降低二者之间的相关性，否则很容易引入主声道和环绕声道之间的不良声源定位，带来声像的漂移。另外，由于扬声器的布置需要遵循严格的数量和方位，因此会出现听音甜点区较小的问题。

4 空间音频(Spatial Audio)

空间音频是近年来的热门话题。其实在水平环绕声发展阶段，三维声就已经有了雏形。延续了水平环绕声的制作理念，人们在录音阶段添置上层的拾音器矩阵，制作阶段将其分配到上层扬声器，形成了最基础的三维环绕声。而后的发展中，人们所说的3D 音频、沉浸式音频、空间音频等概念从本质上来说描述的都是一件事情：即进一步还原真实的三维声场。但空间音频的制作在发展的过程中出现了与传统立体声制作完全不同的思路。

4.1 实现原理

从基本实现原理来说，人们可以通过两种方式来构建声场。

第一种是物理建模的方式，例如通过波动方程来仿真声场，对所有声音元素建立声压标量和振速矢量模型，其中最具代表性的是波场合成技术(WFS)。惠更斯原理认为，每个声源发出的球形波面上的一点都是新的次级球面波的子波源。于是我们可以通过对各扬声器处的声音波动进行模拟，将其当作子波源，最终合成声波在空间中的分布状态——波场。如徐真德等人就对上海大剧院中的长廊进行了建模，并采用了声音渲染引擎CORE 对声音对象实时渲染，在60米长、7米宽的长廊里进行了现场演出以及音乐节目的制作和展出，为听众带来了沉浸式的听音体验。吕小诗则是采用了DMS边界采样录音原理，通过传声器阵列对交响音乐会进行拾音，直接记录了演出现场的波场信息。但WFS方法实现成本很高，庞大的音轨数目需要对应数量的扬声器阵列以及复杂的算法来支持运算和重放。且真实的声源辐射特性和扬声器指向性并不一致，因此还需要在数学计算上的近似和简化，故容易引入误差，实际效果可能与理想状态有所出入。

第二种方法则是根据心理声学的原理，以近似地模拟听音情况为目标，而不是重建完整的真实声场，实现运算量减小，进而优化实现成本。也就是说我们只需要根据人耳听音的习惯，塑造符合听音期望的声音效果就能很大程度地提升空间音频体验。大多数已经使用的空间音频技术也都是基于该方法来实现的，以下讨论的内容也主要以第二种为主。

4.2 技术手段

从制作技术的角度来说，其可以分为三种方案：基于声道的方案、基于对象的方案、基于场景的方案，以下对三种方式进行简要的介绍。

4.2.1 基于声道的方案

基于声道的方案在理念上与上述传统环绕声类似，制作时根据心理声学中双耳的时间差、强度差等原理对声音进行渲染并分配至各个重放声道，从而模拟不同方位的声音听感。其中具有代表性的技术如Auro-3D，在录制和重放时采取了上、中、下三层传声器和扬声器阵列。另外日本NHK 所推行的22.2声道更是将基于声道的节目制作推向了更复杂的阶段。由于声道数目进一步提高，扬声器的布局范围也更大，观众能够更准确地感受三维空间各个方向的声源，有效听音范围也有所扩大。但该种方案的劣势在于，随着声道数目的上升，制作复杂度也大大提高，如NHK 在2006年红白歌会所进行的22.2节目制作，录音棚预混输出信号和现场信号总计152通路，如此庞大的通道数对制作人员提出了极大的挑战。另外声道制作完成后就固定下来，如果要实现更多或更少声道重放的上、下变换则需要额外的渲染算法，声音质量和效果必然会折损。

4.2.2 基于对象的方案

基于对象的沉浸式音频打破了传统的声道概念，构建了一个虚拟的声音空间。声源是每一个声音对象或者事件，例如在现实生活中的一辆车、一只鸟、一群交谈的人等。每个对象保存着各自的元数据，其中记录了声音对象的类型、空间位置、声压级、运动轨迹、起始和释放等信息。在制作软件的三维空间图示中可以直观地改变声源对象和听音者所在的空间位置，渲染时再根据实际重放设备的设置情况，将每个声音对象渲染至各声道。从而得到更为灵活的声音控制、更为明确的空间信息以及更为自由的听音条件。其中最具代表性的是杜比全景声(Dolby Atmos)技术，其音频内容的主要构成包括音床和声音对象两个部分。音床采用声道的方式构建，形成虚拟声场的整体铺垫，而各种声音对象则脱离声道的束缚单独封装。不论是专业影院、家庭影院、个人工作室还是移动设备，都能通过杜比专用的渲染器和算法进行重放。但对基于对象的数据进行实时解码需要消耗不菲的运算资源，这对于大多数场合来说并不是件容易的事。

4.2.3 基于场景的方案

基于场景的沉浸式音频是直接构建一个完整的三维声场空间。其中最具代表性的是Ambisonics 技术。Ambisonics 编解码本质上是对球形声场求解球谐函数——随角度变化的函数，并根据扬声器布置情况求解馈送信号的过程。以最简单的一阶Ambisonics 为例，采用四个相互独立的指向性麦克风构成球形阵列，采集球形声场信息得到A 格式数据，经过编码后得到B 格式数据(Ambisonics 信号)W、X、Y、Z。其中W 表示声场整体强度，X、Y、Z则为三维空间的三个正交方向。重放时则根据重放设备的设置，将四个音轨渲染为对应声道的信号。代表性产品如森海塞尔的AMBEO 系列，为录音、制作到重放提供了配套的完整解决方案。但低阶信号分量较少，空间分辨率有限，会出现还原声场精细度不足的问题，导致出现定位模糊的现象。而高阶Ambisonics 编码能提供更好的音质、更精准的空间分辨率、更高的频率上限，但需要采集更多的信号，消耗更多传输和运算成本。Ambisonics 作为三维声场一体成型的方案在空间音频领域有着得天独厚的优势，但与基于对象的方法相比，难以对声音元素进行灵活地再创造。另外，饶丹也指出Ambisonics 对于近场点声源的编码和重放，由于扬声器特性不匹配而容易在低频产生很大的误差。

4.3 应用实例

虚拟现实可谓是空间音频技术最具代表性的应用领域。虽然虚拟现实的起源可以追溯到1968年，但直到2014 年Facebook 收购虚拟现实技术厂商Oculus VR，虚拟现实技术的发展才呈现迅猛发展起来。目前VR 领域比较有代表性的产品有HTC VIVE、Oculus Rift、Play Station VR 等。在VR声音制作中，音乐和对白等元素往往基于声道制作，氛围、背景声等稳定声源会进行基于场景的制作，而对于音效等变化丰富的元素则基于对象来处理。通常来说VR 系统以耳机作为声音的重放设备，要实现三维音频到双耳听音的转换往往需要使用头部相关传递函数(HRTF)或者双耳房间脉冲响应(BRIR)来对声音信号进行双耳渲染，以模拟声源传输到达听音者双耳的过程。Google Resonance SDK 就是比较有代表性的VR 声音开发工具包之一，它可以与3D 游戏引擎如Unity、音频引擎如Wwise、数字音频工作站结合在一起，帮助开发者创作三维声内容。

在电影领域，以Dolby、DTS 为代表的厂商们，也已经在专业影院、家庭影院、笔记本电脑外置扬声器、耳机等终端提供了相应的空间音频解决方案，使得在有限的设备上也能获取较好的三维声效果。2020年苹果公司也为Airpods pro 耳机推出了适配杜比全景声的更新，用户的头部运动可以通过耳机陀螺仪进行跟踪，从而产生声音信号的听音视角变化。

SoundBar 是另一种实现家庭环绕声的解决方案，索尼、雅马哈、JBL、森海塞尔等多个知名厂商都有推出相应的产品。SoundBar 需要利用天花板、墙面的声反射实现声音的包围感，这相比于传统的环绕声系统大大降低了硬件成本，也更方便布置。但对于反射声的依赖也对听音环境的反射特性有较高要求，且甜点区较小。

虚拟环绕声方面，以Ambidio 公司为代表，则致力于实现在任何立体声设备上创造连续的声场，为听众带来沉浸式声音体验。虚拟环绕声与上述技术的不同点在于，该技术的节目源并不存在多个声道，而是通过算法渲染的手段将立体声节目在听感上进行拓展，以实现近似的三维声效果。

由ISO/IEC提出的MPEG-H 3D Audio为空间音频的制作、传输、重放提供了包括基于声道、基于对象、基于场景的完整音频标准。而基于对象进行制作的Sony 360 Reality Audio技术正是顺应了以音频流为核心的MPEG-H 标准，与多个音乐流媒体平台达成了合作，让听众通过耳机就能享受沉浸式的音乐体验，这也为艺术家的创作提供了更多的可能性。值得一提的是，索尼耳机的用户可以对耳部照片进行上传，通过算法分析为用户提供个性化的HRTF，以解决HRTF 不匹配导致的定位失效等问题。

目前开源的空间音频制作工具数量不少。如向海燕等人在面向多平台的节目制作中，使用了阿尔托大学声学实验室(the Acoustics Lab at Aalto University)开发并开源的Spatial Audio Real-time Applications(SPARTA)套件，对现场节目录制中的LDK-Cube 话筒编组、点话筒编组的Ambisonics 混响、观效话筒编组的信号编码至高阶的Ambisonics，再根据需求在重放端解码，以适应多平台分发三维声录制节目的需求。类似的插件还有电子音乐与声学学院(Institute of Electronic Music and Acoustics)研究人员开发的IEM Plug-in Suite，同样能实现基于Ambisonics 的各种效果处理，并根据需求渲染至扬声器或者耳机。另外，Franck等人提出的BST(双耳合成工具包)同时提供基于对象的动态HRIR 合成、基于HOA(高阶Ambisonics)的合成、虚拟声学环境的扬声器合成三种模式，并且可以实现声音对象到Ambisonics 的数据转换。以上提到的工具中，都可以配合头显设备进行视角跟踪，且SPARTA 和BST 可以输入个性化的HRIR或BRIR 文件进行双耳渲染。

Flux公司的SpatRevolution 是商业领域具有代表性的空间音频制作软件，输入源可以兼容声道、Ambisonics、MS、Binaural(双耳)、Transaural(双耳转扬声器)、UHJ格式。该软件最大的特点在于可以创建多个“Room”同时进行多节目的制作，为每个Room 设置不同的声源摆位、空间效果处理、输出渲染方式等，从而同时输出多种节目流。另外，Spat Revolution 现在也正准备引入波场合成技术来为现场演出带来沉浸式的体验，通过控制电平、相位、延时和滤波等手段，在较小的扩声扬声器阵列上得到更为宽阔的有效听音范围。

此外，很多音乐制作插件也引入了空间音频的理念，如Waves的Abbey Road Studio 3对录音棚进行了HRTF 建模并加入头部跟踪，以佩戴耳机的方式模拟混录棚的听觉体验。Inspired Acoustics发布的沉浸式混响工作站软件Inspirata，基于广泛的真实空间声学测量结果，让用户可以将声源和听音点作为对象布置在空间中的任意位置，通过脉冲响应进行渲染，且支持实时的位置移动和声学空间改变。

5 总结和展望

本文从听觉感知出发，讨论了声音的空间属性以及人对声音空间感与生俱来的感知特点，并根据立体声到空间音频技术的演变过程，对声音制作的技术手段进行了论述，分析了各种技术的优缺点。

总的来说，空间音频技术正在走向成熟，并且从专业领域下探至民用领域，但从实践的角度来说依然存在不少的问题。例如听音环境的不同、听者的HRTF 相异、重放设备的限制等因素，都将明显影响声音空间的重现质量。而Reardon 等人也通过实验表明，渲染算法在处理不同节目类型时的效果优劣并不相同，这也对空间音频技术的普适性提出了极大挑战。除此之外，根据笔者的体验来看，双耳渲染的效果对比扬声器重放来说差异还是十分明显，这可能是今后空间音频技术需要突破的重点之一。

另外，人的视觉对空间的感知同样重要。正如Salmon等人所说，众多对三维声视听交互的研究表明，在声源定位、距离感知、声音外化感等方面，视觉因素都起到了很明显的引导作用，并且对声环境空间感的感知也有一定的影响。所以在实践中，对空间声场近似还原的目标很多时候也是通过视觉因素配合来实现的，例如在声画同步、内容对应的时候，声音的沉浸感就进一步加强了。因此我们可以借助如头显设备、头部跟踪、人机交互等手段来进一步提高空间音频的感知质量。

而在未来的发展中，借由微软交互3D 技术团队开发的Holoportation 技术带来的灵感，笔者认为空间音频技术在全息视频领域也可以有所应用。Holoportation 通过房间中布置的多组传感器扫描使用者人体影像，而对方则可以通过增强现实眼镜看到房间里的使用者虚拟人影像。若将该技术中的环境信息和声源空间定位信息传输到空间音频软件之中，也许能为全息视频音乐会的实现带来新的契机和理念。

随着空间音频的研究和实践不断深入，以及通信技术、计算机技术的进一步发展，在未来各类媒介中声音元素的存在价值会越来越大，并且越来越接近真实的声场状况。同时也可以看到未来空间音频实现的成本将越来越低，设备更加趋于便携化和大众化，现在的三维声双耳渲染算法就是一个很好的例子。