音视频学习—音视频理论基础(2)

news2024/11/20 6:34:49

音视频学习—音视频理论基础(2)

  • 1、音频的基本概念
  • 2、声音的三要素
  • 3、声音的本质
  • 4、奈奎斯特采样定律
  • 5、采样和采样率
  • 6、采样数和采样位数
  • 7、量化
  • 8、比特率(码率)
  • 9、响度和强度
  • 10、编码
  • 11、音频帧
  • 12、音频文件大小的计算
  • 总结


1、音频的基本概念

  音频是一种模拟信号,它是由声波转化而来的电信号。声波是通过气体、液体或固体传播的机械波,代表了声音的震动。在录制过程中,声音被转换成电信号,然后被储存在数字格式中。

2、声音的三要素

  声音的三要素是频率、振幅和波形

  频率是指声波的振动次数,通常使用赫兹(Hz)来表示。人类能够听到的声音的频率范围是20Hz20kHz。频率越高,声音越尖锐;频率越低,声音越低沉。

  振幅是指声波的振动幅度,也就是声音的响度或音量。振幅越大,声音越响亮;振幅越小,声音越微弱。

  波形是指声波的形状。不同的声波形状会对声音的音色产生影响。例如,正弦波是一种最简单的波形,它产生的声音音色清晰、纯正;而复杂波形则产生的声音音色更具有丰富性和复杂性。

  在数字音频领域,频率、振幅和波形被转化为数字信号,然后存储和传输。对于数字音频,频率通常表示采样率,振幅表示采样精度,波形则是由采样数据重建出来的。

3、声音的本质

  声音的本质包括音调、音量和音色。

  音调是指声音的高低、频率。较高的频率产生的声音音调更高,较低的频率产生的声音音调更低。例如,钢琴和小提琴演奏同样的音符,由于它们频率不同,所以发出的声音音调也不同。

  音量是指声音的响度、强弱。通常使用分贝(dB)衡量声音的音量大小。人类能够听到的声音范围是0dB140dB,其中0dB表示最小听力阈值,而140dB表示极度嘈杂的声音。音量的大小与振幅相关,振幅越大,声音就越响亮。

  音色是指声音的特征,它决定了声音的品质和风格。每个乐器的音色都是独特的,这也是为何我们可以轻松地区分小提琴和钢琴的声音。音色的不同源于声波的波形特征,这种特征被称为谐波。不同的谐波组合形成了不同的音色。

4、奈奎斯特采样定律

  奈奎斯特采样定律,也称为奈氏定理,指在进行模拟/数字信号的转换过程中,当采样频率fs.max大于信号中最高频率fmax的2倍时(fs.max>2fmax),采样之后的数字信号完整地保留了原始信号中的信息,一般实际应用中保证采样频率为信号最高频率的2.56~4倍;采样定理又称奈奎斯特定理。

  奈奎斯特采样定律的表达式为:Fs > 2 × Fm

  其中,Fs为采样频率,Fm为信号中最高能达到的频率。比如,一个信号最高频率为10kHz,那么采样频率需要大于20kHz,才能保证信号能够被准确地重建。如果采样率低于奈奎斯特采样定律所要求的最小值,信号就会发生混叠失真现象,即信号的高频部分被混淆到了低频部分,导致信号质量下降。

5、采样和采样率

  在数字音频中,采样是将模拟音频信号转换为数字信号的过程。模拟音频信号是连续时间变化的信号,而数字信号则是离散时间的抽样信号。具体来说,采样将连续的音频波形在一定时间间隔内进行离散化,将其转化为一系列数字值。

  采样率是指数字音频信号中的采样数量,通常以每秒采样次数(Hz或kHz)来表示。它表示将连续时间的音频信号离散化成数字信号的速率。采样率越高,数字音频数据就越精确,音质也越好,但同时文件也越大。常见的采样率包括44.1kHz48kHz96kHz等。

  例如,CD音质的采样率为44.1kHz,表示每秒钟录制了44100个采样点来描述声波。在数字音频中,采样的精度也会影响到音频的质量,通常使用位深度(比特数)来描述。CD音质的采样精度为16 bits,表示每个采样点使用16比特来表示。

6、采样数和采样位数

  采样数指的是每秒钟对模拟信号进行采样的次数,它决定了数字音频信号的频率范围,常见的采样数有44.1kHz、48kHz、96kHz等。
采样位数指的是每个采样点对应的二进制数的位数,它决定了数字音频信号的动态范围和信噪比。通常,采样位数越高,数字音频信号的信噪比就会越高,可以表达更广泛的音频强度范围。常见的采样位数有8位、16位、24位、32位等。

  通道数指的是数字音频信号中的声道数。常见的通道数有单声道(mono)和双声道(stereo),还有多声道,如5.1声道、7.1声道等。多声道可以通过在不同的声道中播放不同的音频信号来实现更加立体的音效。

  需要注意的是,采样数、采样位数和通道数三者共同决定了数字音频信号的质量和大小。采样率和采样位数越高、通道数越多,音频文件的体积就越大,音质也会越好。因此,在实际应用中需要根据需求来选择采样率、采样位数和通道数。

7、量化

  量化是指将连续的模拟信号转换成离散的数字信号的过程。在数字信号处理中,量化是将采样后的连续信号按照一定的准则映射到离散标准值集合中的过程,其中,这些标准值形成一个有限制的数字集合。这些数字集合就是存储数字信号所用的码字,它们代表了信号的离散取值。

  量化的过程是通过量化器来实现的,量化器将采样信号中的每个样本映射为最接近的数字信号的取值。数字信号的每个码字都是用二进制编码表示的。一般来说,采样精度越高,量化器刻度越小,数字信号的准确度就越高,质量也越好。

  量化过程中,由于原始的模拟信号的取值范围很大,而二进制编码能表示的数字范围相对较小,因此,在量化过程中难免会出现误差。这种误差叫做量化误差,它是原始模拟信号与离散化数字信号之间的差值。在数字音频中,这种误差会对音质造成一定的影响。

8、比特率(码率)

  比特率是指数字音频数据的传输速率,通常使用比特每秒(bps)来衡量。它表示单位时间内传输的数据量,也叫作数据传输速率。比特率越高,音频质量越好,但文件大小也越大。

  在数字音频领域中,比特率通常表示为kbps(千比特每秒)或者Mbps(兆比特每秒)。例如,128kbpsMP3音频表示每秒传输128千比特的音频数据。高清音频通常需要更高的比特率,否则会因压缩损失而影响音质。

  不同的数字音频格式使用不同的比特率。例如,MP3音频的标准比特率通常为128kbps或者192kbps,而Apple LosslessFLAC等无损音频格式则需要更高的比特率以保证音频质量。总之,比特率是数字音频的一个重要指标,它直接影响到音频的质量和存储空间。

9、响度和强度

  响度和强度都是声音的感知特性,但它们描述的是不同的方面:

  响度是人类主观感受到的声音强度,用分贝(dB)表示。通常,人们对于听觉上的相同强度,低频和高频声音的响度是不同的。响度与声音的物理特性、频率、振幅等都有关系。相同的振幅,低频声音的响度要高于高频声音的响度。相同的频率,振幅更大的声音响度更高,但人类对于高强度声音的响度感受不如低强度声音强烈。

  强度是声波能量传递的测量值,表示单位时间内通过单位面积的能量。强度与声音源的振幅成正比,与声音的传播距离的平方成反比。强度同样也可用分贝表示。它是声波在空气中传播带来的物理现象,与人类听觉感知不同。

10、编码

  每个量化值都是一个样本,将所有这些样本进行存储的过程称为编码。

  在音视频领域中,编码是指将音频信号或视频信号转换为数字信号,以便于在数字系统中储存、传输、处理和回放。音频编码主要包括有损编码和无损编码两种方式。有损音频编码可以压缩数据的大小,但会丢失一些信息,比如MP3、AAC、WMA等。无损音频编码则可以达到无失真的压缩,数据大小相对较大,比如FLAC、ALAC等。视频编码也存在有损和无损两种编码方式,但更多是有损编码。常用的有损视频编码标准有MPEG-1、MPEG-2、MPEG-4、H.264/AVC、H.265/HEVC等,其中H.264/AVCH.265/HEVC是目前应用最广泛的两种视频编码标准。视频编码主要使用了运动估计、变换编码、量化和熵编码等技术来对视频进行压缩编码。

通常所说的音频裸数据格式就是脉冲编码调制(PCM)数据。PCM是一种用于数字音频编码的标准方法,它将模拟音频信号进行采样,并将每个采样值量化为离散的数字值。这些数字值表示音频信号在每个采样点上的振幅,然后以二进制形式存储。PCM数据是一种常见的音频数据格式,它可以通过将数字值转换为模拟信号来恢复原始的音频信号。

11、音频帧

  音频帧是指一段连续的音频数据,包含多个采样点。通常音频帧的长度与采样率和采样位数有关。

12、音频文件大小的计算

  文件大小 = 采样率 * 录音时间 * 采样位数 / 8 * 通道数


总结

  本文概述了音频的基本概念,如频率、振幅、采样等。并详细介绍了数字音频处理中的一些重要概念,如采样率、采样位数、量化、编码等。后续我会继续跟进的。

  为了方便交流,我创建了一个后端和音视频技术的qq群,群号:333138957(可以扫下面的码加群)。

  如果你对音视频和后端开发感兴趣,欢迎加入我们进行深入交流。共同学习,携手推进行业发展!

qq群:
在这里插入图片描述

微信群:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1593948.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

华为OD机试 - 小朋友至少有几个(Java 2024 C卷 100分)

华为OD机试 2024C卷题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于《华为OD机试(JAVA)真题(A卷B卷C卷)》。 刷的越多,抽中的概率越大,每一题都有详细的答题思路、详细的代码注释、样例测试…

Springboot+Vue项目-基于Java+Mysql的网上订餐系统(附源码+LW+演示录像)

大家好!我是程序猿老A,感谢您阅读本文,欢迎一键三连哦。 💞当前专栏:Java毕业设计 精彩专栏推荐👇🏻👇🏻👇🏻 🎀 Python毕业设计 &…

从0到1实现RPC | 11 丰富测试案例

测试案例主要针对服务消费者consumer,复杂逻辑都在consumer端。 常规int类型,返回User对象 参数类型转换,主要实现逻辑都在TypeUtils工具类中。 测试方法重载,同名方法,参数不同 方法签名的实现,主要逻辑…

蓝桥杯-可获得最小值

前缀和思想: #include<bits/stdc.h>using namespace std;long long n,k;const int N200010;long long a[N],sum[N];int main() {cin>>n>>k;for(int i1;i<n;i)cin>>a[i];sort(a1,a1n);for(int i1;i<n;i){sum[i]sum[i-1]a[i];}long long ans1e18;…

朴素模式匹配算法

什么是字符串的模式匹配&#xff1f; 字符串模式匹配:在主串中找到与模式串相同的字串&#xff0c;并返回其所在位置 算法思想&#xff1a; 算法思想为:从主串S的第一个字符起&#xff0c;与模式串T的第一个字符比较,若相等&#xff0c;则继续逐个比较后续字符;否则从主串的下一…

【JSON2WEB】14 基于Amis的CRUD开发30分钟速成

【JSON2WEB】系列目录 【JSON2WEB】01 WEB管理信息系统架构设计 【JSON2WEB】02 JSON2WEB初步UI设计 【JSON2WEB】03 go的模板包html/template的使用 【JSON2WEB】04 amis低代码前端框架介绍 【JSON2WEB】05 前端开发三件套 HTML CSS JavaScript 速成 【JSON2WEB】06 JSO…

深入剖析MongoDB集群架构设计

目录 一、MongoDB集群架构介绍 1.1 主从复制 1.2 副本集 1.3 分片集群 二、副本集 3.1 主节点选举 3.2 oplog 3.2 主从同步 三、分片集群 3.1 分片策略 3.2 分片键的选择 3.3 何时选择分片集群 四、总结 一、MongoDB集群架构介绍 MongoDB 有三种集群架构模式&#xff0c;分…

【AI微】将AI对接进微信中,为你赋能一个小助理

程序猿日常 让微信拥有AI聊天功能&#xff1a;自然语言处理、知识储备、个性化服务效果演示 AI微 部分代码讲解 项目采用AndroidAutojs技术&#xff0c;编程语言涉及kotlinjavajs 检测是否停留在指定聊天页面 var ltxxLayoutdesc("聊天信息").findOne(100); if(lt…

LeetCode 热题 HOT 100(P31~P40)

系列文章&#xff1a; LeetCode 热题 HOT 100(P1~P10)-CSDN博客 LeetCode 热题 HOT 100(P11~P20)-CSDN博客 LeetCode 热题 HOT 100(P21~P30)-CSDN博客 LeetCode 热题 HOT 100(P31~P40)-CSDN博客 LC76minimum_window . - 力扣&#xff08;LeetCode&#xff09; 题目&…

一些Github上开源的RAG 应用

我也是做RAG相关工作的。周末抽了一些时间&#xff0c;来看看开源的RAG技术能够做到什么程度。 其实我重点关注的是以下几点&#xff08;以下几个点是RAG提升的关键点&#xff09;&#xff1a; 这些开源技术他们是怎么做文档解析的&#xff08;有哪些我们可以借鉴的&#xff0c…

2024 年江苏省职业院校技能大赛“区块链技术应用” 赛项赛卷(样卷)运维题解析一

运维题 环境: ubuntu20 fisco 2.8.0 前言 准备两台机子,并且可以能相互pin通 192.168.19.133 [M1-A] 192.168.19.137 [M2-B] 子任务 1-2-1: 搭建区块链系统并验证 基于给定服务器环境以及软件,搭建一条双机 1 机构 8 节点 1 群组的区块 链系统(默认端口开始[30300,2020…

Nevercenter CameraBag Pro--专业级摄影后期处理利器

Nevercenter CameraBag Pro是一款功能强大的照片滤镜软件&#xff0c;专为摄影爱好者和专业摄影师设计。它拥有超过200种预设滤镜和效果&#xff0c;包括黑白、复古、胶片等多种风格&#xff0c;能够轻松改变照片的外观&#xff0c;并赋予作品独特的艺术感。此外&#xff0c;Ca…

超越常规:用PHP抓取招聘信息

在人力资源管理方面&#xff0c;有效的数据采集可以为公司提供宝贵的人才洞察。通过分析招聘网站上的职位信息&#xff0c;人力资源专员可以了解市场上的人才供给情况&#xff0c;以及不同行业和职位的竞争状况。这样的数据分析有助于企业制定更加精准的招聘策略&#xff0c;从…

webpack-(plugin,本地服务器,路径别名,安装vue)

安装vue npm i vue-loader -D npm i vue 编写一个vue文件&#xff1a; 在index.html中设置 一个id为app的div 将vue文件挂载到app中 vue比较特殊&#xff0c;除了使用loader外&#xff0c;还使用了plugin const path require("path"); const { VueLoaderPlugin …

自动化测试-web(PO:Page Object 模式)

一、PO模式 PO&#xff1a;Page Object&#xff08;页面对象&#xff09;&#xff0c;将自动化涉及的页面或模块封装成对象。 PO能解决什么问题&#xff1f; 代码复用性便于维护&#xff08;脚本层与业务分离&#xff09;--如果元素信息发生变化了&#xff0c;也不用去修改脚…

卷积学习笔记——一文直观形象弄懂

在神经网络的世界中,卷积操作犹如一个神秘的魔术师,它以一种精巧的方式提取出图像、声音等数据中的关键特征,为神经网络模型赋能。但究竟什么是卷积?我们一探究竟。 卷积(Convolution)本质上是一种数学运算操作,它可以用极简的数学形式漂亮地描述一个动态过程。我们可以用形象…

【C语言】——字符串函数的使用与模拟实现(上)

【C语言】——字符串函数 前言一、 s t r l e n strlen strlen 函数1.1、函数功能1.2、函数的使用1.3、函数的模拟实现&#xff08;1&#xff09;计数法&#xff08;2&#xff09;递归法&#xff08;3&#xff09;指针 - 指针 二、 s t r c p y strcpy strcpy 函数2.1、函数功能…

复习Javase 方法

Q 1: long double float blooean 这四个都不能作为switch参数类型 Q2: 数字9出现的次数 9 19 29 |....90 91....99 前面都是个位是9&#xff0c;一共是9个9、后面十位是9&#xff0c;一共11个9 问&#xff1a;如何求个位和十位的9 如果要得到个位的9 就取余 9%1…

OpenHarmony C/C++三方库移植适配

简介 众所周知&#xff0c;C/C三方库相对与JS/ETS的三方组件来说&#xff0c;其运行效率高。那如何将一个C/C三方库移植到OH系统上呢&#xff1f;本文将介绍如何快速高效的移植一个C/C三方库到OpenHarmony上。 C/C三方库适配问题与解决方案 由上图可以看出&#xff0c;三方库…

【8086汇编】汇编语言基础入门

文章目录 一、汇编简介1. 汇编语言的组成2. CPU、寄存器、内存3. CPU对存储器的读写4. 拓展5. 检测6. 解析 二、寄存器1. mov、add命令2. 物理地址3. CS:IP 装段地址和偏移地址3.1 如何改变CS:IP的值 4. 数据段DS:[address]4.1 前置知识&#xff1a;字与字节4.2 DS:[address] 5…