即时通讯音视频开发之音频编解码技术的学习

news2025/2/4 20:41:58

总是有人问我研究音频编解码要看什么书,其实这是一个很难回答的问题,原因有很多:

    做工程首先一个问题就是和课本学习不同,不是看书能解决的。
    音频编解码技术在国内研究的人很少,包括总体的音频技术国外也研究不多。(从中国的潜艇噪声技术一直解决不好就能看出一二)。
    音频编解码技术是一种应用,而一般的书籍都是讲理论基础。


只看理论书籍会和应用脱离太多,没有实践会忘记。我当初看书也是从工程入手,就是在实际工作中和个人兴趣中看了大量的标准,然后对不懂的地方找论文,再找书籍补知识,这是典型的逆向学习。通常研究生是“课本->看论文->做工程”这样一个学习方法和流程。

 

我们可以按照什么样的思路去找书籍或论文呢?

音频编解码技术是一种比较复杂的应用,而普通的书籍是一种理论书籍,尤其是在中国。音频编解码技术和一般的音频技术不同,比如AEC,HRTF,后者分别是语音和音频的应用技术,应该说是一种具体的应用技术,相对来说查资料还是容易有的放矢。

具体来说,其实音频编解码技术也是一种具体的应用技术,但是可能系统相对复杂,目的相对基础。它是信源编解码技术的一个分支,目的就是压缩数据。

那么音频编解码技术包括哪些方面呢?既然他是一种信源编解码器技术(Source Coding Technology)那么信源编解码技术的书籍都可以看,当做是理论基础学习。

另外其实我把音频编解码技术分为5大技术,简称为:EQTPM。E-熵编码、Q-量化编码、T-变换编码、P-预测编码、M-音频建模(感知建模,BCC建模,正弦建模等)。相对的,学习时我们可以按照这些技术进行相关书籍的查阅和学习。即时通讯聊天软件app开发可以加蔚可云的v:weikeyun24咨询

 

因为国内讲宽带音频编解码的书籍很少,所以可以看些语音编解码的书籍,里面也有讲EQTP技术。例如:《语音处理技术》,《语音编码》,《低码率音频编码》,《数字语音编码原理》,《变速率语音编码》《低速率语音编码》《数字语音编码》《数据压缩》。

《JPEG2000 图像压缩基础》:我认为这本书讲的还是不错的,翻译的也不错,很多基本原理讲的比较透彻。

《信息论与编码》,《信号与系统》,高数这类我就不但列出来了,但是也要常番。

例如我认为很经典的ANDREAS SPANIAS的《Audio Signal Processing and Coding 》。以及他的63页的论文,《Perceptual Coding of Digital Audio》。

其他可看的书籍包括:

    MP3之父——K. Brandenburg的:
    《Applications of Digital Signal Processing to Audio and Acoustics》
    《A Digital Signal Processing Primer, with Applications to Digital Audio and Computer Music》
    《Auditory Perception and the MPEG Audio Standard》
    《Foundation and Evolution of Standardized Coders (Wiley,2003)(ISBN 0471373125)(578s)》
    汉堡联邦国防军大学Udo Zolzer教授的:
    《Digital Audio Signal Processing》
    《High-Fidelity Multichannel Audio Coding》
    《Speech Coding Algorithms》

我强烈推荐把SPANIAS的书读一下。至少把SPANIAS的那个论文仔细看一下。这样会对你理解音频编码有很大的帮助。但是里面会将很多关于耳朵的生理词语,要拿着字典慢慢翻。这个论文我是烦烂了的,使我受益匪浅。

后面的书籍我还没有系统看过,但都有PDF版本,我也是偶尔翻一下。因为这些经典书籍你不花大时间理解,会造成假象是乍看起来都讲得类似,但实际理解起来发现是对不同细节的阐述。

专项技术书籍:

    如《自适应信号处理》,因为音频编码也好其他音频技术也好,自适应技术是经常使用的。
    例如:无损编码的Wavpack,MPEG4 ALS,都使用了自适应技术。
    滤波器设计的相关书籍。
    《多抽样率数字信号处理理论及其应用》:讲解Transform技术。
    HE-AAC和ATRAC3,使用的QMF,
    MP3 使用的PQF
    AAC,MP3使用的MDCT
    AC3使用的TDAC(MDCT)
    WMA和G722.1的(MLT)


都是为什么,选择这些变换工具。有什么区别。如果你能看看Vaidyananthan PP的书,会更有帮助。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/103356.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

攻防世界ics-06

攻防世界ics-06 题目描述:云平台报表中心收集了设备管理基础服务的数据,但是数据被删除了,只有一处留下了入侵者的痕迹。 打开场景,查看页面。 但凡有超链接的都点一遍,发现只有“报表中心可以打开”。 选择日期范围&a…

go 库 viper 配置解析神器

文章目录1. 简介2. 安装3. 建立默认值4. 读取配置文件5. 获取 key/value 方法5.1 Get() 方法5.2 IsSet()、GetStringMap()、GetStringMap() 方法6. 命令行选项7. 访问嵌套的键8. 写入配置文件9. 监控并重新读取配置文件10. 从io.Reader中读取11. Unmarshal12. 环境变量13. 远程…

【Three.js入门】图形用户界面GUI、BufferGeometry创建矩形、随机生成多个随机颜色的三角形

个人简介 👀个人主页: 前端杂货铺 🙋‍♂️学习方向: 主攻前端方向,也会涉及到服务端 📃个人状态: 在校大学生一枚,已拿多个前端 offer(秋招) 🚀未…

第四章操作系统测试

一. 单选题(共24 题,72.0分) (单选题,3.0分)用户编写的程序中所使用的地址是( C )。 A. 内存地址 B. 物理地址 C. 逻辑地址 D. 绝对地址 解释:逻辑地址:用户空间中使用的一种地址又称相对地址 …

一行 Python 代码能实现什么丧心病狂的功能?

手头有 109 张头部 CT 的断层扫描图片,我打算用这些图片尝试头部的三维重建。基础工作之一,就是要把这些图片数据读出来,组织成一个三维的数据结构(实际上是四维的,因为每个像素有 RGBA 四个通道)。这个数据…

gitLab

GitLab 是一个用于仓库管理系统的开源项目,使用Git作为代码管理工具,并在此基础上搭建起来的web服务。下面是使用步骤 1. 注册 进入注册页面(需要公司的人提供地址)例如: http://xx.xxx.xx.xx:18000/users/sign_in …

大漠插件最新版7.2248

工具名称:大漠插件最新版7.2248 工具简介:/ v7.2242更新时间2022年11月16日:/ v7.2248 1. 优化某些模式,在绑定时,有小概率会卡死在绑定函数里的问题. 2. 解决Assemble DisAssemble和GetRemoteApiAddress的COM版本的DLL,在E语言下用类库封装后调用时,对64位地址解析…

4.http模块

http模块是Node.js官方提供创建web服务器的模块,在使用http模块前首先导入http模块 目录 1 一些概念 1.1 IP 1.2 域名 1.3 端口 2 创建一个基本的web服务器 3 req请求对象 4 res响应对象 5 不同地址获取不同响应 6 在服务中加载html文件 6.1 基…

vsomeip 快速入门

vsomeip 快速入门 文章目录vsomeip 快速入门1. 下载仓库2. 编译2.1 安装相关依赖2.2 编译vsomeip2.3 编译hello_world example3. 运行1. 下载仓库 git clone https://github.com/COVESA/vsomeip.git2. 编译 2.1 安装相关依赖 我的ubuntu 版本是20.04,所以以ubunt…

Python幂分布

文章目录幂分布帕累托分布Zipf分布power(a)p(x)axa−1p(x)ax^{a-1}p(x)axa−1幂分布pareto(a)p(x)amaxa1p(x)\frac{am^a}{x^{a1}}p(x)xa1ama​帕累托分布zipf(a)p(k)k−aζ(a)p(k)\frac{k^{-a}}{\zeta(a)}p(k)ζ(a)k−a​齐普夫分布 幂分布 幂分布的形式是非常简单的&#xff…

计算机毕设Python+Vue学习管理系统(程序+LW+部署)

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

大脑皮层的分割方法

大脑皮层分割的意义 神经元之间的相互联系构成了大脑内信息传递的主要手段,这些连接构成了一个复杂的网络。可以通过现代医学成像技术,如磁共振成像MRI在宏观尺度上进行估计 网络节点的定义是构建大脑连接网络的关键步骤之一。使用体素水平的网络具有高…

vue之动态组件

切换组件案例 点击一个tab-bar,切换不同的组件显示: 这个可以通过两种不同的思路来实现: 方式一:通过v-if来判断,显示不同的组件。方式二:动态组件的方式。 (1)通过v-if来判断显示不…

高粱根质膜中K~+ -ATPase活性重组入人工脂质体/硫修饰脂质体包裹的VEGF反义寡核苷酸的相关研究

小编在这里给大家整理了高粱根质膜中K~ -ATPase活性重组入人工脂质体/硫修饰脂质体包裹的VEGF反义寡核苷酸的相关研究,一起来看! 高粱根质膜中K~ -ATPase活性重组入人工脂质体相关研究: 将高粱根质膜中K~ -ATPase活性重组入人工脂质体中 ,并…

迁移速度与计算性能兼得!天翼云DirtyLimit技术大显身手

虚拟机技术的快速发展使系统迁移变得更加灵活且多样化,其广泛应用也促使用户对虚拟机迁移速度和性能影响提出了更高要求。天翼云弹性计算虚拟化团队创新研发DirtyLimit虚拟机迁移加速技术,能够在保证读vCPU性能几乎不下降的情况下,有效缩短虚…

行业沙龙第五期丨供应商全生命周期管理赋能高质量采购

找不到好的供应商、供应商管理难,高成本效率低,货品质量难管控、交货不及时等等,导致错失了客户,太可惜了,怎么办呢?追根溯源,这些问题的源头多在于没有做好供应商管理。 供应商管理是供应链采…

[LeetCode 1760]袋子里最少数目的球

题目描述 题目链接:[LeetCode 1760]袋子里最少数目的球 给你一个整数数组 nums ,其中 nums[i] 表示第 i 个袋子里球的数目。同时给你一个整数 maxOperations 。 你可以进行如下操作至多 maxOperations 次: 选择任意一个袋子,并…

week8 正交化/human-level error/train,dev,test sets

文章目录前言一、8.1,8.2 正交化二、8.3,8.4评估指标1、 单一量化评估指标2、满足和优化指标三、8.5-8.7训练开发测试数据集1、训练开发测试数据集的分布。2、训练开发测试数据集的大小选择3、何时更改指标或者开发测试数据集四、 8.8-8.12 与人类水平相比较1、为什么选择与人类…

单商户商城系统功能拆解49—应用中心—在线客服

单商户商城系统,也称为B2C自营电商模式单店商城系统。可以快速帮助个人、机构和企业搭建自己的私域交易线上商城。 单商户商城系统完美契合私域流量变现闭环交易使用。通常拥有丰富的营销玩法,例如拼团,秒杀,砍价,包邮…

工业物联网解决方案:油井数据远程监控系统

石油行业是国民经济的重要能源支柱,是推动工业发展的原动力。随着物联网、云计算、5G无线通信等技术的发展,多种要素驱动下的生产系统逐步向着数字化转型,重要性越来越明显。油井数字化就是其中的重要一环。 油田开采区域广阔,分…