什么是双声道立体声环绕声全景声 | 一文讲清楚沉浸式声音基本设定

一、沉浸式声音基本概念
- 1. 声学上的沉浸式
- 2. 空间音频技术
- 3. 声源位置
- 4. 人耳声音定位（水平&垂直方向）
- 5. 人耳对声源距离定位的影响因素
- 6. 头部相关传递函数
- 7. 三维声技术
- 8. “双耳”与“立体声”
- 9. 耳机重放与扬声器重放
- 10. 环绕声
- 11. 高度声道
- 12. 基于对象的音频
二、多声道方式和声场方式
- 1. 来源和定义
- 2. 典型代表
- 3. 区别与联系
三、单声道、双声道立体声、常见的多声道系统
- 1. 单声道
- 2. 双声道立体声
- 3. 多声道系统
四、Ambisonics与HOA全景声
- 1. Ambisonics分量与声场属性的对应关系
- 2. HOA的优势
五、参考

开场碎碎念：本文启发自被我导问得头晕脑胀遂两天读了三百页的砖头书以求能以小白视角理解沉浸式声音的基本设定。

一、沉浸式声音基本概念

1. 声学上的沉浸式

声音来自于听音者周围各个方向（将听音者包裹起来）。为了达到这种沉浸感，目标是传播真实的（对应声音三类空间特征之一的“非真实的，Unrealistic”）、动态变化的（对应“静态的，Static”）和不受限的（对应“受限的，Constrained”）声音。

2. 空间音频技术

提供一种能够让听音者感觉到来自其周围空间的任何位置的虚拟声源和声反射的沉浸式体验，典型代表三维音频技术。

3. 声源位置

声源位置通常以水平方向角、垂直高度角以及距离构成的坐标系来进行定义。
声源水平位置对噪声烦恼度影响的实验研究.2024, 49(6): 1264-1273

4. 人耳声音定位（水平&垂直方向）

水平维度上的声音定位通过双耳间时间差（ITD）、双耳间强度差（IID）两个主要的听觉提示来估算。
垂直维度上的声音定位主要依赖于耳郭滤波这种听觉提示，耳郭精细的几何形状能够使声波发生衍射或与入射方向相关的反射。

人耳对声音的定位会存在若干误差，例如定位模糊、方向混淆等等。同时，声学环境中声学物体的数量、房间混响也会导致空间提示出现失真，但由于听觉系统具有神经可塑性，能够逐渐适应感知体验和感官环境的变化，得以快速更新神经处理状态。

5. 人耳对声源距离定位的影响因素

感知声音的距离主要由声级（响度）和混响的声学属性作为提示，另外音色（主要受到频率内容影响）、振幅包络（建立和连续）、认知熟悉程度等感知提示也对这个综合复杂性的过程起到了重要的作用。

6. 头部相关传递函数

将声音从外耳到达鼓膜过程中，所有的听觉效果通过单独的滤波处理来表达，根据这些人耳相关特征构建的滤波器就是一种有限脉冲响应滤波器，被称为时域的头部相关脉冲响应（HRIRs）或频域的头部相关传递函数（HRTFs）。
基于头部相关传递函数设计的滤波器能够对任意声音进行了滤波处理，将空间特性叠加到某个信号上，使其听起来好像来自被测信号所发出的位置。这种技术能够对特定声源位置、特定听音者和特定房间/环境中所有与空间相关的提示作出测量。

7. 三维声技术

声音具有空间特征，非空间听觉并不存在。
零维声音-单声道；一维声音-立体声；二维声音-四方声和其他环绕声格式；三维声音-全景声。
用于构建VR/AR的虚拟听觉空间（Virtual Auditory Space， VAS）技术是将三维声植入现有的听音环境中，以实现有说服力的空间沉浸感。

8. “双耳”与“立体声”

“双耳”最基础的理解是通过两只耳朵进行听音，后续解读则还包含了来自听音者耳朵、头部和身体的所有空间提示，综合了时间、强度和频率听觉提示。可以说，双耳音频也许是最容易捕捉的空间效果，但也是后期制作中最难实现的。
20世纪30年代开始，“双耳”和“立体声”在概念上有所区分。“双耳”更严格的定义上应为“双耳”录音方式（包括真人头或人工头），而“立体声”更侧重于不同布局的传声器（非人工头）录音方式。Alan Blumlein的专利双声道立体声录音和重放系统被认为是立体声诞生的标志，其阐述了传统立体声原理：通过2个指向性传声器捕捉到的声学相位和振幅信息，仅需要2只扬声器就可以进行再现（换言之，N个传声器记录的内容通过N个扬声器按照一定的布局设计就能够再现）。

9. 耳机重放与扬声器重放

双耳信号重放的终极目标就是在听音者鼓膜处再现与实际听音环境相同的声学信号。

耳机重放优势：
① 提供一个受控的听音环境，不会受到听音者位置或者头部朝向等因素影响（除非使用了头动追踪等技术对听音者位置进行补偿）；
② 避免对侧耳朵接受串扰信号（扬声器重放常见问题）；
③ 隔离环境声，减轻环境声的串扰。
耳机重放缺点：
① 以听音者为中心的重放方式，从另一个角度，会导致听音者和环境之间的互动性缺失。听音者位置无法对信号产生影响，导致不自然的听音环境；
② 所有声音来自于人头内部，长期耳机听音会导致听觉疲劳；
③ 极端的声学隔离会导致不良影响。

扬声器重放优势：
① 扬声器重放过程中涉及骨传导声，听音这自身头部、躯干和耳郭所参与的声音的衍射和反射会增强声音重放的感知真实度；
② 在很大程度上对头中效应免疫，让人感知到的声音来自头部之外；
扬声器重放需要解决双耳听觉提示失效的问题来实现高保真和高可靠性。
可行方式包括：
① 采用消声室（或半消声室）环境；
② 为听音者准备个性化串扰抵消系统和重放设置；
③ 在录音中使用与听音者匹配的HRTFs，同时约束头部位置或增加头动追踪装置。
其中，任何程度的串扰抵消都能够缓解问题，在声像定位、声场感知宽度和深度上发挥着增强作用。

10. 环绕声

通常用来描述各种形式的扬声器声音重放，重放系统包含2只以上的扬声器，并且围绕着听音者摆放以便从各个方向发出声音。环绕声相较于双声道立体声能够提供更丰富的空间体验。环绕声在后续的发展中，定义延伸到更普适的“空间音频”、三维声、沉浸式系统等角度。这里提到的环绕声暂且基于传统立体声原理展开，认为是仅在水平面上进行精巧的布局。

11. 高度声道

在真实空间中，听音者沉浸在各个方向的声学信息中。相较于水平面的环绕声，高度声道的引入，为听音者提供了垂直方向上得以扩展的声场。命名方式一般为“U+M+B”，U表示上层扬声器数量，M表示中层扬声器数量，B表示底层扬声器数量。以NHK 22.2环绕声为例，U=9，M=10，B=3。

12. 基于对象的音频

声音对象被定义为音频波形（音频元素）和体现艺术动机的相关参数（元数据）。声音对象一般使用单声道音轨获得，结合录制或合成的效果素材。基于对象的音频，简单来说，就是把声音对象视为单独的流，并且每个流里面还有源数据用来描述该声音对象是在三维空间中的何处以何种效果播放。这类元数据与扬声器设置无关。基于对象的音频，相较于传统立体声或环绕声技术，其制作和交付能够带来更强的沉浸感、更改前的个性化设置、更强的适应性、更强的可访问性以及制作流程高效、内容面向未来等。
在基于声道的音频重放时，高度声道扬声器的安装位置对空间属性的感知有显著影响，为了在任意扬声器下进行高度信息的重构，设计了基于对象音频。这里的基于对象音频需要与声场方式区分开来，基于对象音频主要的应用领域在游戏，通过渲染将声音对象投放到5.1环绕声系统或者7.1环绕声系统，最终它的播放会受到特定扬声器布局的限制。

二、多声道方式和声场方式

1. 来源和定义

由于空间音频的三维特性，如何对各个扬声器进行信号分配以获得符合感知的空间形象，分化了两种解决思路：

其一认为依照基本立体声原理增加扬声器，通常命名为“n-m立体声（或环绕声）”（n为前方声道数量，m为环绕声道数量）或者“A.B声道立体声（或环绕声）”（A为主声道数量，B为低频效果声道数量），我们称之为 “多声道方式” ；
其二认为需要以某种声场（私以为是几何体，比如球体、立方体）的基本数学模型为基础，以声场合成和波场合成等声场重构技术为代表，我们称之为 “声场方式” 。

2. 典型代表

多声道方式：单声道、双声道立体声、多声道系统（常见的如LCR环绕声、3-1立体声、5.1声道环绕声、10.2声道环绕声、22.2声道环绕声）
声场方式：Ambisonics（1阶Ambisonics）、HOA（高阶Ambisonics）

3. 区别与联系

从命名可知，多声道方式是以扬声器和听音者为中心，这种格式下的声音重放是基于特定的、与某种扬声器布局相关联的，可以简单理解为从哪个声道收录，从哪个声道播放。
声场方式并非以扬声器为中心，所记录的是声波从发出到接收过程中所产生的所有的声学现象，目标是控制和还原声波的物理属性。一个声场的获取依赖于传声器阵列进行空间采样。这种格式下的声音重放不会受到某种特定的标准化扬声器布局的限制，也就是说，声场方式记录的声音可以自由地转换为多声道方式（包括单声道），不同布局和数量的扬声器系统均可以使用。

三、单声道、双声道立体声、常见的多声道系统

1. 单声道

在自由场听音环境下，1个单声道信号指通过单点传输的声音。当听音这面对单只扬声器时，它向左耳和右耳传递的信号是相同且完全相关的。在耳机重放时，这一过程表现为送往左耳和右耳的信号相同。单声道是以扬声器为中心的系统，听音者所感知到的声像始终位于扬声器所在的位置，因此相较于立体声和双耳声音系统，会出现极端的空间错误。

2. 双声道立体声

以相同的距离将扬声器面向听音者，偏离中轴线30°放置，以实现双声道立体声重放（监听）。扬声器摆放的位置、听音者所处的位置、听音房间的布局设计都会影响对立体声声像的感知。耳机重放时，相对较大空间中使用扬声器重放，能对实际捕捉的声音做出更好的还原。为了改善中心声像的稳定性，为双声道立体声系统增加单独的中置声道，即可构成LCR系统。
双声道立体声节目一般以一对左右信号形式（X/Y信号，图1）或者一对M/S信号形式（图2）进行存储和播出。M/S信号中，M信号强调立体声声像中的中心部分，可以通过正对声场中心的心形传声器获得，S信号强调立体声声像左右边缘部分，可以通过8字双指向传声器获得。
X/Y立体声拾音方式
M/S立体声拾音方式
这两种信号可以互相转换，转换关系：
M=左+右；S=左-右；左=M+S；右=M-S。

3. 多声道系统

这里补充解释一下低频效果（LTE）声道，也就是尾缀“点几”，通常指影院系统中用于还原大地震动和爆炸等效果的声道。
多声道系统示例：

名称	重放
5.1声道环绕声（家庭影院）（3-2立体声）
7.1声道环绕声	在5.1基础上在左中CL和右中CR位置增加了两只扬声器，适应于宽屏影院模式。
THX10.2	增加了2只高度声道，中层采用5只、7只或8只扬声器配合使用。
Auro-3D	在高度声道上使用更多的扬声器。其中位于头顶的扬声器被称之为“上帝之声（VOG） ”。
NHK 22.2

多声道拾音技术，在环绕声的拾音上，主要分为集中在一个阵列上相互距离较近的传声器和分别设置在前后方升到的传声器；为了重塑全方位的声场，推出了包含高度声道的传声器阵列。高度传声器阵列主要基于两种方式：强度差方式和垂直方向间隔方式。

四、Ambisonics与HOA全景声

Ambisonics（即一阶Ambisonics）、高阶Ambisonics（即HOA）是基于声场的音频编码格式。进一步地，Ambisonics是通过球谐函数来描述声音在三维空间中的分布的0阶与1阶参数组合。HOA在Ambisonics基础上使用了更高阶的球谐函数进行扩展，能够对声音拥有更高的空间准确性和解析度。
不同阶数的球谐函数图像

1. Ambisonics分量与声场属性的对应关系

在这里插入图片描述
球谐函数的0阶分量即W分量，代表声场的全指向录音，是一种对空间信息的“0阶”分析，等同于对声场进行单声道录音，可以直接用于单声道重放。球谐函数的1阶分量包括X、Y、Z分量，则提供了前/后、左/右、上/下的分离。从波动方程的角度，对于任何声源发出的声波，在时空域中有两个关键参数，声压以及粒子速度，声压即对应了W分量，而粒子速度在三维空间坐标轴上的各个分量即对应了（X，Y，Z）。因此Ambisonics分量携带了声波的空间信息，组成了对声波的完整表达。

Ambisonics的拾音方式一般至少使用4只传声器组成的阵列，利用之间的强度差进行编码。下图为四面体传声器和球形传声器，通常前者能够采集转换1阶Ambisonics，后者能够采集转换4阶Ambisonics。同时注意，HOA的拾音还需要搭配使用适宜的矩阵运算。
在这里插入图片描述
Ambisonics术语中的ABCD格式：

A：四面体传声器输出格式（LF\RF\LB\RB信号）
B：(W,X,Y,Z)格式
C：UHJ格式，用于广电系统和传播，C代表消费者，目标是提供与传统单声道、立体声系统直接匹配的信号，至少由左右立体声信号组成。也可引入T信号（增强水平方向空间准确性）与Q信号（高度信息）。
D：也称为G格式，初始对应5.1扬声器布局，后对任意扬声器通用。