什么是双声道立体声环绕声全景声 | 一文讲清楚沉浸式声音基本设定

news2025/1/24 22:53:47

目录

  • 一、 沉浸式声音基本概念
    • 1. 声学上的沉浸式
    • 2. 空间音频技术
    • 3. 声源位置
    • 4. 人耳声音定位(水平&垂直方向)
    • 5. 人耳对声源距离定位的影响因素
    • 6. 头部相关传递函数
    • 7. 三维声技术
    • 8. “双耳”与“立体声”
    • 9. 耳机重放与扬声器重放
    • 10. 环绕声
    • 11. 高度声道
    • 12. 基于对象的音频
  • 二、多声道方式和声场方式
    • 1. 来源和定义
    • 2. 典型代表
    • 3. 区别与联系
  • 三、单声道、双声道立体声、常见的多声道系统
    • 1. 单声道
    • 2. 双声道立体声
    • 3. 多声道系统
  • 四、Ambisonics与HOA全景声
    • 1. Ambisonics分量与声场属性的对应关系
    • 2. HOA的优势
  • 五、参考

开场碎碎念:本文启发自被我导问得头晕脑胀遂两天读了三百页的砖头书以求能以小白视角理解沉浸式声音的基本设定。

一、 沉浸式声音基本概念

1. 声学上的沉浸式

声音来自于听音者周围各个方向(将听音者包裹起来)。为了达到这种沉浸感,目标是传播真实的(对应声音三类空间特征之一的“非真实的,Unrealistic”)、动态变化的(对应“静态的,Static”)和不受限的(对应“受限的,Constrained”)声音。

2. 空间音频技术

提供一种能够让听音者感觉到来自其周围空间的任何位置的虚拟声源和声反射的沉浸式体验,典型代表三维音频技术。

3. 声源位置

声源位置通常以水平方向角、垂直高度角以及距离构成的坐标系来进行定义。
声源水平位置对噪声烦恼度影响的实验研究.2024, 49(6): 1264-1273

4. 人耳声音定位(水平&垂直方向)

  • 水平维度上的声音定位通过双耳间时间差(ITD)、双耳间强度差(IID)两个主要的听觉提示来估算。
  • 垂直维度上的声音定位主要依赖于耳郭滤波这种听觉提示,耳郭精细的几何形状能够使声波发生衍射或与入射方向相关的反射。

人耳对声音的定位会存在若干误差,例如定位模糊、方向混淆等等。同时,声学环境中声学物体的数量、房间混响也会导致空间提示出现失真,但由于听觉系统具有神经可塑性,能够逐渐适应感知体验和感官环境的变化,得以快速更新神经处理状态。

5. 人耳对声源距离定位的影响因素

  • 感知声音的距离主要由声级(响度)和混响的声学属性作为提示,另外音色(主要受到频率内容影响)、振幅包络(建立和连续)、认知熟悉程度等感知提示也对这个综合复杂性的过程起到了重要的作用。

6. 头部相关传递函数

将声音从外耳到达鼓膜过程中,所有的听觉效果通过单独的滤波处理来表达,根据这些人耳相关特征构建的滤波器就是一种有限脉冲响应滤波器,被称为时域的头部相关脉冲响应(HRIRs)或频域的头部相关传递函数(HRTFs)。
基于头部相关传递函数设计的滤波器能够对任意声音进行了滤波处理,将空间特性叠加到某个信号上,使其听起来好像来自被测信号所发出的位置。这种技术能够对特定声源位置、特定听音者和特定房间/环境中所有与空间相关的提示作出测量。

7. 三维声技术

声音具有空间特征,非空间听觉并不存在。
零维声音-单声道;一维声音-立体声;二维声音-四方声和其他环绕声格式;三维声音-全景声。
用于构建VR/AR的虚拟听觉空间(Virtual Auditory Space, VAS)技术是将三维声植入现有的听音环境中,以实现有说服力的空间沉浸感。

8. “双耳”与“立体声”

“双耳”最基础的理解是通过两只耳朵进行听音,后续解读则还包含了来自听音者耳朵、头部和身体的所有空间提示,综合了时间、强度和频率听觉提示。可以说,双耳音频也许是最容易捕捉的空间效果,但也是后期制作中最难实现的。
20世纪30年代开始,“双耳”和“立体声”在概念上有所区分。“双耳”更严格的定义上应为“双耳”录音方式(包括真人头或人工头),而“立体声”更侧重于不同布局的传声器(非人工头)录音方式。Alan Blumlein的专利双声道立体声录音和重放系统被认为是立体声诞生的标志,其阐述了传统立体声原理:通过2个指向性传声器捕捉到的声学相位和振幅信息,仅需要2只扬声器就可以进行再现(换言之,N个传声器记录的内容通过N个扬声器按照一定的布局设计就能够再现)。

9. 耳机重放与扬声器重放

双耳信号重放的终极目标就是在听音者鼓膜处再现与实际听音环境相同的声学信号。

耳机重放优势:
① 提供一个受控的听音环境,不会受到听音者位置或者头部朝向等因素影响(除非使用了头动追踪等技术对听音者位置进行补偿);
② 避免对侧耳朵接受串扰信号(扬声器重放常见问题);
③ 隔离环境声,减轻环境声的串扰。
耳机重放缺点:
① 以听音者为中心的重放方式,从另一个角度,会导致听音者和环境之间的互动性缺失。听音者位置无法对信号产生影响,导致不自然的听音环境;
② 所有声音来自于人头内部,长期耳机听音会导致听觉疲劳;
③ 极端的声学隔离会导致不良影响。

扬声器重放优势:
① 扬声器重放过程中涉及骨传导声,听音这自身头部、躯干和耳郭所参与的声音的衍射和反射会增强声音重放的感知真实度;
② 在很大程度上对头中效应免疫,让人感知到的声音来自头部之外;
扬声器重放需要解决双耳听觉提示失效的问题来实现高保真和高可靠性。
可行方式包括:
① 采用消声室(或半消声室)环境;
② 为听音者准备个性化串扰抵消系统和重放设置;
③ 在录音中使用与听音者匹配的HRTFs,同时约束头部位置或增加头动追踪装置。
其中,任何程度的串扰抵消都能够缓解问题,在声像定位、声场感知宽度和深度上发挥着增强作用。

10. 环绕声

通常用来描述各种形式的扬声器声音重放,重放系统包含2只以上的扬声器,并且围绕着听音者摆放以便从各个方向发出声音。环绕声相较于双声道立体声能够提供更丰富的空间体验。环绕声在后续的发展中,定义延伸到更普适的“空间音频”、三维声、沉浸式系统等角度。这里提到的环绕声暂且基于传统立体声原理展开,认为是仅在水平面上进行精巧的布局。

11. 高度声道

在真实空间中,听音者沉浸在各个方向的声学信息中。相较于水平面的环绕声,高度声道的引入,为听音者提供了垂直方向上得以扩展的声场。命名方式一般为“U+M+B”,U表示上层扬声器数量,M表示中层扬声器数量,B表示底层扬声器数量。以NHK 22.2环绕声为例,U=9,M=10,B=3。
https://www.nhk.or.jp/strl/publica/rd/126/2.html

12. 基于对象的音频

声音对象被定义为音频波形(音频元素)和体现艺术动机的相关参数(元数据)。声音对象一般使用单声道音轨获得,结合录制或合成的效果素材。基于对象的音频,简单来说,就是把声音对象视为单独的流,并且每个流里面还有源数据用来描述该声音对象是在三维空间中的何处以何种效果播放。这类元数据与扬声器设置无关。基于对象的音频,相较于传统立体声或环绕声技术,其制作和交付能够带来更强的沉浸感、更改前的个性化设置、更强的适应性、更强的可访问性以及制作流程高效、内容面向未来等。
在基于声道的音频重放时,高度声道扬声器的安装位置对空间属性的感知有显著影响,为了在任意扬声器下进行高度信息的重构,设计了基于对象音频。这里的基于对象音频需要与声场方式区分开来,基于对象音频主要的应用领域在游戏,通过渲染将声音对象投放到5.1环绕声系统或者7.1环绕声系统,最终它的播放会受到特定扬声器布局的限制。

二、多声道方式和声场方式

1. 来源和定义

由于空间音频的三维特性,如何对各个扬声器进行信号分配以获得符合感知的空间形象,分化了两种解决思路:

  • 其一认为依照基本立体声原理增加扬声器,通常命名为“n-m立体声(或环绕声)”(n为前方声道数量,m为环绕声道数量)或者“A.B声道立体声(或环绕声)”(A为主声道数量,B为低频效果声道数量),我们称之为 “多声道方式”
  • 其二认为需要以某种声场(私以为是几何体,比如球体、立方体)的基本数学模型为基础,以声场合成和波场合成等声场重构技术为代表,我们称之为 “声场方式”

2. 典型代表

多声道方式:单声道、双声道立体声、多声道系统(常见的如LCR环绕声、3-1立体声、5.1声道环绕声、10.2声道环绕声、22.2声道环绕声)
声场方式:Ambisonics(1阶Ambisonics)、HOA(高阶Ambisonics)

3. 区别与联系

  • 从命名可知,多声道方式是以扬声器和听音者为中心,这种格式下的声音重放是基于特定的、与某种扬声器布局相关联的,可以简单理解为从哪个声道收录,从哪个声道播放。
  • 声场方式并非以扬声器为中心,所记录的是声波从发出到接收过程中所产生的所有的声学现象,目标是控制和还原声波的物理属性。一个声场的获取依赖于传声器阵列进行空间采样。这种格式下的声音重放不会受到某种特定的标准化扬声器布局的限制,也就是说,声场方式记录的声音可以自由地转换为多声道方式(包括单声道),不同布局和数量的扬声器系统均可以使用。

三、单声道、双声道立体声、常见的多声道系统

1. 单声道

在自由场听音环境下,1个单声道信号指通过单点传输的声音。当听音这面对单只扬声器时,它向左耳和右耳传递的信号是相同且完全相关的。在耳机重放时,这一过程表现为送往左耳和右耳的信号相同。单声道是以扬声器为中心的系统,听音者所感知到的声像始终位于扬声器所在的位置,因此相较于立体声和双耳声音系统,会出现极端的空间错误。

2. 双声道立体声

以相同的距离将扬声器面向听音者,偏离中轴线30°放置,以实现双声道立体声重放(监听)。扬声器摆放的位置、听音者所处的位置、听音房间的布局设计都会影响对立体声声像的感知。耳机重放时,相对较大空间中使用扬声器重放,能对实际捕捉的声音做出更好的还原。为了改善中心声像的稳定性,为双声道立体声系统增加单独的中置声道,即可构成LCR系统。
双声道立体声节目一般以一对左右信号形式(X/Y信号,图1)或者一对M/S信号形式(图2)进行存储和播出。M/S信号中,M信号强调立体声声像中的中心部分,可以通过正对声场中心的心形传声器获得,S信号强调立体声声像左右边缘部分,可以通过8字双指向传声器获得。
X/Y立体声拾音方式
M/S立体声拾音方式
这两种信号可以互相转换,转换关系:
M=左+右;S=左-右;左=M+S;右=M-S。

3. 多声道系统

这里补充解释一下低频效果(LTE)声道,也就是尾缀“点几”,通常指影院系统中用于还原大地震动和爆炸等效果的声道。
多声道系统示例:

名称重放
5.1声道环绕声(家庭影院)(3-2立体声)在这里插入图片描述
7.1声道环绕声在5.1基础上在左中CL和右中CR位置增加了两只扬声器,适应于宽屏影院模式。
THX10.2增加了2只高度声道,中层采用5只、7只或8只扬声器配合使用。在这里插入图片描述
Auro-3D在高度声道上使用更多的扬声器。其中位于头顶的扬声器被称之为“上帝之声(VOG) ”。在这里插入图片描述
NHK 22.2在这里插入图片描述

多声道拾音技术,在环绕声的拾音上,主要分为集中在一个阵列上相互距离较近的传声器和分别设置在前后方升到的传声器;为了重塑全方位的声场,推出了包含高度声道的传声器阵列。高度传声器阵列主要基于两种方式:强度差方式和垂直方向间隔方式。

四、Ambisonics与HOA全景声

Ambisonics(即一阶Ambisonics)、高阶Ambisonics(即HOA)是基于声场的音频编码格式。进一步地,Ambisonics是通过球谐函数来描述声音在三维空间中的分布的0阶与1阶参数组合。HOA在Ambisonics基础上使用了更高阶的球谐函数进行扩展,能够对声音拥有更高的空间准确性和解析度。
不同阶数的球谐函数图像

1. Ambisonics分量与声场属性的对应关系

在这里插入图片描述
球谐函数的0阶分量即W分量,代表声场的全指向录音,是一种对空间信息的“0阶”分析,等同于对声场进行单声道录音,可以直接用于单声道重放。球谐函数的1阶分量包括X、Y、Z分量,则提供了前/后、左/右、上/下的分离。从波动方程的角度,对于任何声源发出的声波,在时空域中有两个关键参数,声压以及粒子速度,声压即对应了W分量,而粒子速度在三维空间坐标轴上的各个分量即对应了(X,Y,Z)。因此Ambisonics分量携带了声波的空间信息,组成了对声波的完整表达。

Ambisonics的拾音方式一般至少使用4只传声器组成的阵列,利用之间的强度差进行编码。下图为四面体传声器和球形传声器,通常前者能够采集转换1阶Ambisonics,后者能够采集转换4阶Ambisonics。同时注意,HOA的拾音还需要搭配使用适宜的矩阵运算。
在这里插入图片描述
Ambisonics术语中的ABCD格式:

  • A:四面体传声器输出格式(LF\RF\LB\RB信号)
  • B:(W,X,Y,Z)格式
  • C:UHJ格式,用于广电系统和传播,C代表消费者,目标是提供与传统单声道、立体声系统直接匹配的信号,至少由左右立体声信号组成。也可引入T信号(增强水平方向空间准确性)与Q信号(高度信息)。
  • D:也称为G格式,初始对应5.1扬声器布局,后对任意扬声器通用。

2. HOA的优势

  • 通用性:与录音格式、重放格式均不相关
  • 普遍性:对具有任何空间和传输属性的声波都有效,误差仅来自于球谐函数最高阶数的限制以及对传声器信号的预估误差
  • 可扩展性:任何时候都可以放弃最高阶分量,来获得适合输出和存储的码流,或与听音区的扬声器设置进行匹配。

五、参考

  • 《沉浸式声音:双耳声和多声道音频的艺术与科学》,作者:Agnieska Roginska,译者:冀翔
  • https://support.apple.com/zh-cn/guide/logicpro/lgcp31f97343/mac
  • https://blog.csdn.net/yaoyutian/article/details/93326438
  • https://www.spill.hk/glossary/auro-3d/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2262133.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用C语言库函数格式化输入时格式类型与数据类型不匹配导致程序异常

问题 使用两次sscanf()库函数从两个字符串中按照指定的格式读取数据,执行完毕后发现第一个正常读取的数据被篡改。项目在Ubuntu上使用CMake和Ninja构建项目,编译时没有错误和警告。 复现 为方便调试,在keil中编译stm32工程代替&#xff0c…

车牌识别之三:检测+识别的onnx部署(免费下载高精度onnx模型)

依赖 paddle2onnx1.3.1 onnxruntime-gpu1.14.0 ultralytics8.3.38背景 在车牌识别之一:车牌检测(包含全部免费的数据集、源码和模型下载)我们得到了车牌检测模型; 在车牌识别之二:车牌OCR识别(包含全部免费的数据集、源码和模型…

WPF ControlTemplate 控件模板

区别于 DataTemplate 数据模板,ControlTemplate 是控件模板,是为自定义控件的 Template 属性服务的,Template 属性类型就是 ControlTemplate。 演示, 自定义一个控件 MyControl,包含一个字符串类型的依赖属性。 pub…

在IDE中使用Git

我们在开发的时候肯定是经常使用IDE进行开发的,所以在IDE中使用Git也是非常常用的,接下来以IDEA为例,其他的VS code ,Pycharm等IDE都是一样的。 在IDEA中配置Git 1.打开IDEA 2.点击setting 3.直接搜索git 如果已经安装了会自…

Excel中如何消除“长短款”

函数微调可以可以实施,简单且易于操作的气球🎈涨缩更妙。 (笔记模板由python脚本于2024年12月17日 06:19:13创建,本篇笔记适合用Excel操作数据的coder翻阅) 【学习的细节是欢悦的历程】 Python 官网:https://www.python.org/ Fre…

微命令 微指令 微程序 微操作

微命令是计算机控制部件通过控制线向执行部件发出的各种控制命令,它是构成控制序列的最小单位 微命令与微操作是一一对应的关系,微命令是微操作的控制信号,而微操作是微命令的执行过程。在机器的一个CPU周期中,一组实现一定操作功…

Spring 不推荐使用@Autowired

Spring 不推荐使用Autowired 原因:为什么 Spring和IDEA 都不推荐使用 Autowired 注解_autowired为什么不推荐-CSDN博客 解决方法: 使用Resource注解。 使用构造函数注入。缺点显而易见,当成员变量很多时,构造函数代码冗长&#…

6、AI测试辅助-测试报告编写(生成Bug分析柱状图)

AI测试辅助-测试报告编写(生成Bug分析柱状图) 一、测试报告1. 创建测试报告2. 报告补充优化2.1 Bug图表分析 3. 风险评估 总结 一、测试报告 测试报告内容应该包含: 1、测试结论 2、测试执行情况 3、测试bug结果分析 4、风险评估 5、改进措施…

使用re模块

一、常量 常量说明 re.M re.MULTLINE 多行模式 re.S re.DOTALL 单行模式 re.I re.IGNORECASE 忽略大小写 re.X re.VERBOSE 忽略表达式的空白字符 可以使用|开启多个选项 二、方法 2.1 编译 compile re.compile(pattern,[,falgs]) pattern是正则表达式的字符串 设定falgs&…

自动驾驶控制与规划——Project 2: 车辆横向控制

目录 零、任务介绍一、环境配置二、算法三、代码实现四、效果展示 零、任务介绍 补全src/ros-bridge/carla_shenlan_projects/carla_shenlan_stanley_pid_controller/src/stanley_controller.cpp中的TODO部分。 一、环境配置 上一次作业中没有配置docker使用gpu,…

FFmpeg库之ffmpeg

文章目录 ffmpeg命令行使用基本命令选择流 -map选项 主要命令视频选项音频选项多媒体格式转换滤镜裁剪加水印画中画 录制查看可用的录制设备查看录制设备选项参数录制桌面录制窗口录制摄像头录制麦克风录制系统声音同时录制桌面和麦克风 直播推流拉流 ffmpeg命令行使用 ffmpeg…

模型 信任公式(麦肯锡)

系列文章 分享 模型,了解更多👉 模型_思维模型目录。信任的量化:可信度、可靠性、亲密度、自私度。 1 信任公式(麦肯锡)的应用 1.1 私域用户信任建立(麦肯锡信任公式的应用) 在私域营销领域,与用户建立牢固的信任关系对于提升用…

低延迟!实时处理!中软高科AI边缘服务器,解决边缘计算多样化需求!

根据相关统计,随着物联网的发展和5G技术的普及,到2025年,全球物联网设备连接数将达到1000亿,海量的计算数据使得传输到云端再处理的云计算方式显得更捉襟见肘。拥有低延迟、实时处理、可扩展性和更高安全性的边缘计算应运而生&…

【计算机网络2】计算机网络的性能能指标

目录 一 、计算机网络的性能指标 二、具体介绍 1、速 率 2、带 宽 3、吞 吐 量 4、时 延 5、时延带宽积 6、往 返 时 延 7、信道利用率 一 、计算机网络的性能指标 计算机网络的性能指标就是从不同方面度量计算机网络的性能,有如下7个指标: 速…

密码学——密码学概述、分类、加密技术(山东省大数据职称考试)

大数据分析应用-初级 第一部分 基础知识 一、大数据法律法规、政策文件、相关标准 二、计算机基础知识 三、信息化基础知识 四、密码学 五、大数据安全 六、数据库系统 七、数据仓库. 第二部分 专业知识 一、大数据技术与应用 二、大数据分析模型 三、数据科学 密码学 大数据…

网络攻击与防范

目录 选填 第一章 1、三种网络模式 2、几种创建网络拓扑结构 NAT模式 VPN模式 软路由模式1 软路由模式2 3、Linux网络配置常用指令 4、常见网络服务配置 DHCP DNS Web服务与FTP服务 FTP用户隔离 第二章 DNS信息收集(dnsenum、dnsmap) 路…

网络攻与防

1、两个专网连接 (1)、两个网卡VMNET2/3---配置IP子网、仅主机模式--除去DHCP设置 路由和两台主机分别ping通 (2)、路由配置:两个专网之间连接--否拨号连接 两台主机可相互ping通---成功 如果ping不通,…

react Ant Design

一、通过项目模版创建一个react项目 set NPM_CONFIG_REGISTRYhttps://registry.npmmirror.com pnpm create vite antd-demo cd antd-demo pnpm install pnpm install antd --save 打开项目: 修改:welcome.tsx import React from react; import { Butto…

【排序算法】——选择排序

前言 排序(Sorting) 是计算机程序设计中的一种重要操作,它的功能是将一个数据元素(或记录)的任意序列,重新排列成一个关键字有序的序列。所谓排序,就是使一串记录,按照其中的某个或某些关键字的大小&#x…

【排序算法】——交换排序

前言 排序(Sorting) 是计算机程序设计中的一种重要操作,它的功能是将一个数据元素(或记录)的任意序列,重新排列成一个关键字有序的序列。所谓排序,就是使一串记录,按照其中的某个或某些关键字的大小&#x…