音频几个相关概念及心理声学模型

news2024/11/13 10:29:38

系列文章目录

音频格式的介绍文章系列:
音频编解码格式介绍:音频几个相关概念及心理声学模型
https://blog.csdn.net/littlezls/article/details/135499627
音频编解码格式介绍:音频编码格式介绍
https://blog.csdn.net/littlezls/article/details/135862140
音频编解码格式介绍(1) ADPCM:adpcm编解码原理及其代码实现
https://blog.csdn.net/littlezls/article/details/83501580
音频编解码格式介绍(2) MP3 :音频格式之MP3:(1)MP3封装格式简介
https://blog.csdn.net/littlezls/article/details/135705670
音频编解码格式介绍(2) MP3 :音频格式之MP3:(2)MP3编解码原理详解
https://blog.csdn.net/littlezls/article/details/135458169
音频编解码格式介绍(3) AAC :音频格式之AAC:(1)AAC简介
https://blog.csdn.net/littlezls/article/details/135692305
音频编解码格式介绍(3) AAC :音频格式之AAC:(2)AAC封装格式ADIF,ADTS,LATM,extradata及AAC ES存储格式
https://blog.csdn.net/littlezls/article/details/135705383
音频编解码格式介绍(3) AAC :音频格式之AAC:(3)AAC编解码原理详解
https://blog.csdn.net/littlezls/article/details/135777833


文章目录

  • 系列文章目录
  • 前言
  • 1、几个重要的概念
    • (1)SPL(Sound Pressure Level),
    • (2)静音门槛曲线
    • (3)临界频带(Critical Bands)
    • (4)频域上的遮蔽效应
    • (5)时域上的遮噪曲线
  • 2、心理声学
  • 参考资料


前言

本文主要介绍音频几个相关概念及心理声学模型,常见的有损压缩都要用到心理声学模型。
本文网址:https://blog.csdn.net/littlezls/article/details/135499627


1、几个重要的概念

(1)SPL(Sound Pressure Level),

表示声音强度的名词,SPL是评价听觉刺激强度的标准,也就是说,我们对外界声音的感觉强度完全由它决定,其单位为dB。

(2)静音门槛曲线

横轴为f(HZ),纵轴为SPL(dB),若声音强度(SPL)低于该曲线的值表示人听不到声音,如下图所示。从图中可以得出几条结论:

第一,人的听觉频率范围大约在10Hz~20KHz之间

第二,大约在3KHz到4KHz时SPL有最小值,也就是所人在该频率范围内的听觉最敏锐
在这里插入图片描述

(3)临界频带(Critical Bands)

因为人耳对不同频率的敏感程度不同,MPEG1/Audio将22KHz范围内可感知的频率范围划分为23~26个临界频带,如下图。
在这里插入图片描述
从表中能得出几条结论:

第一,当当中心频率值在500Hz以内时,不同临界频带的带宽()几乎相同,约100Hz

当中心频率值大于500Hz后,随着f值得上升,临界频带的带宽剧增

第二,从表中也可以看出,人耳对低频的解析度要比高频更好

(4)频域上的遮蔽效应

SPL较大的信号容易掩盖频率相近的SPL较小的信号,叫声音的遮蔽效应。就比如在机场很难听到打电话的声音。
在这里插入图片描述
如上图所示,Masking Threshold将大约在0.7kHz,1.6kHz和2.3kHz的信号遮蔽了,当然0.7kHz信号的SPL在静音门槛曲线之下,不被遮蔽也是听不到的。

在这里,涉及3个重要的量——SMR、SNR和MNR。

SMR(signal-to-maskratio):指在一个临界频带内,从masker到遮噪门槛值的距离。

SNR(signal-to-noiseratio):指信号经过m位元量化后的信噪比,等于量化前信号方差和量化噪声的方差之比,。

MNR(mask-to-noise):用来测量人耳可以感知的失真参数,

如下图所示,展示了3者之间的关系,其中的灰色区域Critial Band指临界频带,Masking Threshold就是遮噪门槛曲线,图中的SMR指在临界频带内最大的SMR值。
在这里插入图片描述
值得注意的是,(1)我们上面讨论的SMR、SNR和NMR三者都是基于临界频带的,但遮蔽效应不仅对临界频带有影响,对临近的临界频带也有影响,称为遮噪延展性(2)上图所显示的是一个临界频带内的一条遮噪曲线,实际情况存在多条遮噪曲线,结果是这些曲线的叠加。

(5)时域上的遮噪曲线

在这里插入图片描述从上图可以看出,在一段很短的时间内(200ms左右),若出现了两个声音,不管出现的先后顺序,SPL大的声音(masker)会遮蔽SPL小的声音(maskee)。

若maskee出现在前,则遮噪曲线如上图的Pre-Masking;若maskee出现在后,则遮噪曲线如上图中的Post-Masking。由图中很容易看出,Post-Masking要比Pre-Masking在时间轴上要长很多。Pre-Masking能遮蔽前回音,这是选择MDCT窗口的一个依据。

2、心理声学

感知音频编码器是利用人类听觉系统的掩蔽效应,在不降低主观感知音频质量的情况下,删除冗余的信息进行存储和传输。也就是说感知音频编码器是“主动积极地”压缩数字音频,从而使高质量、低比特率的音频信号可以在网络及通信系统中传输。
输入的原音频信号在时间域上被划分为帧,并在每一帧内分解为多个频带,称为“子带”,从而将输入的音频信号其划分为“时频段”。当在每个时频段中对信号进行量化以降低比特率时,会引入量化噪声(quantization noise)。当量化噪声被原音频信号掩盖或低于绝对听力阈值(absolute threshold)时,则无法被听见。因此,如果量化噪声由下沿抵达掩蔽阈值,则可以实现最有效的编码。
心理声学模型(Psychoacoustic model)的功能就是分析原音频信号来计算每个时频段的量化噪声的掩蔽阈值。因此,它可以在音频信号无失真的情况下,最有效地为音频信号的数字表达分配比特。由于提高量化步长会增加量化噪声的强度,所以掩蔽阈值较低的时频段需要被精细地量化。掩蔽阈值较高的时频段则可以被粗糙地量化,以降低比特率。

研究声音心理学模型用途有:

(1)研究模型的感知熵Perceptual EntropyPE值决定做MDCT变换时使用长窗框还是短窗框

PE能显示特定信号在理论上的压缩极限。PE的单位是bits/sample,代表每个取样在维持CD音质的情况下,能够压缩到的最低位元数。MP3中定义,当PE>1800时,使用短窗框的MDCT来处理该grannul(MP3每个数据帧包含2个grannul,每个grannul包含18*32个subband采样)的子频带信号。因为当PE>1800表示这段音讯变化比较大,可能产生回音,不适合使用长框。

(2)研究模型的SMR值决定量化编码时的比特数分配

对于第二条,下面的位元分配将给出解释。

(1)位元分配

位元分配目的是使每个频带的MNR达到最大,使音质最佳。过程为:寻找最小的MNR频带,分配位元给该频带以提高MNR,接着重新计算各频带的MNR。重复上述过程,直到位元分配结束。

(2)非均匀量化
其中SMR由声音心理学模型提供,SNR信噪比则是由量化确定的。

下图为量化器的输入输出曲线,量化器的输入为浮点值频率,输出为整形值的频率。

由图知,量化器将输入的浮点值量化后变为整型值,且量化过程为非线性非均匀的。
在这里插入图片描述

参考资料

[1]:MP3编码分析:https://blog.csdn.net/xiahouzuoxin/article/details/7849249
[2]:心理声学模型在感知音频编码中的应用:https://blog.csdn.net/Jianing_Wang/article/details/105779558

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1431763.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

nohost本地部署

1、安装node Node.js 官方网站下载:https://nodejs.org/en/download/ 2、安装whistle 安装命令为 npm install -g whistle 或 npm install -g cnpm --registryhttps://registry.npm.taobao.org 后,使用 cnpm install -g whistle 来安装 3、插件修改 官方…

【漏洞库】O2OA系统

O2OA invoke 后台远程命令执行漏洞 CNVD-2020-18740 漏洞描述 O2OA是一款开源免费的企业及团队办公平台,提供门户管理、流程管理、信息管理、数据管理四大平台,集工作汇报、项目协作、移动OA、文档分享、流程审批、数据协作等众多功能,满足企业各类管理…

JavaSE-项目小结-IP归属地查询(本地IP地址库)

一、项目介绍 1. 背景 IP地址是网络通信中的重要标识,通过分析IP地址的归属地信息,可以帮助我们了解访问来源、用户行为和网络安全等关键信息。例如应用于网站访问日志分析:通过分析访问日志中的IP地址,了解网站访问者的地理位置分…

【Docker】Docker Registry(镜像仓库)

文章目录 一、什么是 Docker Registry二、镜像仓库分类三、镜像仓库工作机制四、常用的镜像仓库五、常用命令镜像仓库命令镜像命令(部分)容器命令(部分) 六、docker镜像仓库实战综合实战一:搭建一个 nginx 服务综合实战二:Docker hub上创建自己私有仓库综…

使用maven对springboot项目进行瘦身

目录 一、什么是Maven 二、springboot 项目 三、springboot 项目瘦身 一、什么是Maven Maven是一个基于Java的项目管理和构建工具。它通过提供一个一致的项目结构、自动化构建脚本和依赖管理系统,简化了Java项目的构建过程。 Maven使用一种称为POM(…

CentOS7局域网内搭建本地yum源

CentOS7.6 局域网内搭建本地yum源 一、背景 客户机房服务器无法直连公网,远程通过堡垒机部署环境,因为机器比较多,最终选择通过安装自定义yum源进行部署。以下为自己部署yum源过程,以备后续使用。 二、准备yum源Packages 网上…

如何以管理员身份删除node_modules文件

今天拉项目,然后需要安装依赖,但是一直报错,如下: 去搜这个问题会让把node_modules文件先删掉 再去安装依赖。我在删除的过程中会说请以管理员身份来删除。 那么windows如何以管理员身份删除node_modules文件呢? wi…

impala与kudu进行集成

文章目录 概要Kudu与Impala整合配置Impala内部表Impala外部表Impala sql操作kuduImpala jdbc操作表如果使用了Hadoop 使用了Kerberos认证,可使用如下方式进行连接。 概要 Impala是一个开源的高效率的SQL查询引擎,用于查询存储在Hadoop分布式文件系统&am…

性能篇:如何解决高并发下 I/O瓶颈?

大家好,我是小米!今天我们来聊一个在高并发场景下经常遇到的挑战,那就是I/O瓶颈。随着互联网的快速发展,我们的应用在处理海量数据时,I/O操作成为了一个极为关键的环节。那么,问题来了,什么是I/O呢? 什么是I/O I/O(Input/Output)是计算机系统中一个至关重要的概念,…

python+pytest接口自动化 —— 参数关联

整理了一些软件测试方面的资料、面试资料(接口自动化、web自动化、app自动化、性能安全、测试开发等),有需要的小伙伴可以文末关注我的文末公众号或者进软件交流群,无套路自行领取~ 什么是参数关联? 参数关联&#…

Java语法学习坐标体系/绘图

Java语法学习坐标体系/绘图 大纲 基本介绍绘图 具体案例 1. 基本介绍 2.绘图 基本介绍: 注意每次自动调用,就会重新执行一次paint方法里的所有程序 先自定义面板 创建一个类继承JPanel,然后重写构造器,paint方法 class M…

机器学习5-线性回归之损失函数

在线性回归中,我们通常使用最小二乘法(Ordinary Least Squares, OLS)来求解损失函数。线性回归的目标是找到一条直线,使得预测值与实际值的平方差最小化。 假设有数据集 其中 是输入特征, 是对应的输出。 线性回归的…

css1基础选择器

大纲 一.标签选择器 比较简单,前面直接写目标标签 二.类选择器 应用 例子 三.多类名选择器(调用时中间用空格隔开) 四.id选择器 应用 五.通配符选择器 应用 六.总结

淘宝镜像到期如何切换镜像及如何安装淘宝镜像

淘宝镜像到期如何切换镜像及如何安装淘宝镜像 一、淘宝镜像到期如何切换新镜像二、第一次使用淘宝镜像如何配置镜像 一、淘宝镜像到期如何切换新镜像 清空缓存:npm cache clean --force切换镜像源:npm config set registry https://registry.npmmirror.…

用友NC getFileLocal 任意文件下载

【产品介绍】 用友NC以“全球化集团管控、行业化解决方案、全程化电子商务、平台化应用集成”的管理业务理念而设计,采用J2EE架构和先进开放的集团级开发平台UAP,形成了集团管控8大领域15大行业68个细分行业的解决方案。 【漏洞介绍】 用友NC getFile…

debian12 解决 github 访问难的问题

可以在 /etc/hosts 文件中添加几个域名与IP对应关系,从而提高 github.com 的访问速度。 据搜索了解(不太确定),可以添加这几个域名:github.com,github.global.ssl.fastly.net,github.global.fa…

【实战】阿里智能编码助手通义灵码

文章目录 前言技术积累通义灵码是什么?Copilot是什么?通义灵码主要功能通义灵码有哪些优势?通义灵码支持语言/工具通义灵码接入方式通义灵码帮助中心 实战演示安装插件行/函数级实时续写自然语言生成代码代码优化单元测试生成代码注释生成解释…

Unity根据落点和抛物线运行时间,求初始力

抛物线运行时长为2秒: 抛物线运行时长为4秒: 原理就是: 在竖直方向只受重力,做匀加速直线运动,水平不受力,做匀速直线运动。 代码: public void Update(){if (Input.GetKeyDown(KeyCode.Space)…

生物素 PEG4 甲基四嗪,Biotin-PEG4-methyltetrazine,用于标记、追踪和分离特定的分子或细胞

生物素四聚乙二醇甲基四嗪,生物素 PEG4 甲基四嗪,Biotin-PEG4-methyltetrazine,用于标记、追踪和分离特定的分子或细胞 您好,欢迎来到新研之家 文章关键词:生物素四聚乙二醇甲基四嗪,生物素 PEG4 甲基四嗪…

前端vue/react项目压缩图片工具@yireen/squoosh-browser

想要在前端项目中压缩图片,然后再上传到后端保存,就需要一个压缩工具的帮助,暂时有两个依赖库可以选择:image-conversion和yireen/squoosh-browser,看了官方仓库地址和更新时间等详情,发现还是yireen/squoo…