音频3A——初步了解音频3A

news2024/9/24 21:01:20

文章目录

  • 前言
  • 一、3A使用的场景和原理
    • 1.AEC
    • 2.AGC
    • 3.ANS/ANR
    • 4.硬件3A和软件3A的区别
      • 1)层级不同
      • 2)处理顺序不同
      • 3)优缺点
    • 5.处理过程
  • 二、3A带来的问题
  • 三、开源3A算法
  • 总结


前言

在日常的音视频通话过程中,说话的双端往往会面对比较复杂的场景,比如:环境存在较大的噪声,扬声器需要开启外放导致麦克风重新采集到,麦克风固定而人物需要走来走去等等的场景。

而为了面对这些复杂的场景,音频通话不得不引入算法对于声音进行预处理,再进行发送给远端。而3A是对于音视预处理的三种算法的统称。这三种算法分别是:

  • AEC(Acoustic Echo Cancellation):声学回声消除
  • AGC (Automatic Gain Control):自动增益控制

以及硬件3A和软件3A中不同的降噪技术:

  • ANS (Automatic Noise Suppression) : 自动噪声抑制(软件噪声抑制算法)
  • ANR(Active Noise Reduction):主动噪声消除(硬件噪声抑制算法)

本篇文章中,会对3A的应用场景、基本原理、一些开源的3A库、以及引入3A会带来哪些问题做详细的介绍


|版本声明:山河君,未经博主允许,禁止转载

一、3A使用的场景和原理

1.AEC

  • 解决问题:消除回声,尤其是在通话或会议过程中,扬声器声音被麦克风拾取,导致反复回传形成回声。
  • 应用场景:视频会议、电话会议、语音助手等涉及麦克风和扬声器同时使用的场景。
  • 工作原理:AEC 技术通过比较输入音频信号和输出信号,识别并减弱回声部分,确保只有原始的语音信号被传输。

2.AGC

  • 解决问题:自动调节音量,使得音频信号的强度保持在一个稳定的范围内,防止声音过大或过小。
  • 应用场景:语音通信、录音、音频采集系统中,用于在距离、音量差异较大的情况下确保音量一致性。
  • 工作原理:AGC 监测输入信号的电平,当声音过弱时自动提高增益,过强时降低增益,从而保证输出信号的音量在适当范围内。

3.ANS/ANR

ANS和ANR虽然目的都是为了降低音频通话过程中产生的噪声,但是两者在使用时机和原理上,存在很大的区别,具体

  • 解决问题:抑制背景噪声,如风声、键盘声、交通噪声等,以提高语音的清晰度和质量。
  • 应用场景:语音通信、会议、录音、语音识别等场景,特别是在嘈杂环境中进行的音频处理。
  • 工作原理:ANS 技术通过分析音频信号中的噪声成分并将其过滤,保留清晰的语音部分,从而提高音质。而ANR是通过使用麦克风捕捉环境噪声,并产生与噪声相位相反的声音信号来进行噪声抵消。

4.硬件3A和软件3A的区别

1)层级不同

  • 硬件3A是通过专用的DSP(音频处理芯片)或设备在硬件层面实现的音频增强功能,可以在模拟信号上就进行处理。
  • 软件3A通过音频处理算法和通用的DSP(音频处理芯片)在软件层面实现,包括在移动设备或电脑上运行的音频增强功能,是完全在数字信号领域上实现的。

2)处理顺序不同

  • 硬件3A处理顺序:AEC->ANR->AGC
  • 软件3A处理顺序:AEC->AGC->ANS

产生不同的原因:
硬件3A往往需要处理实时性高的任务,因此ANR被提前应用,因为硬件可以更高效地处理环境噪声,减少低频噪声干扰,再进行增益控制。

而软件3A通常以灵活性为目标,处理复杂的噪声场景,因此优先进行增益控制,然后再通过算法进行噪声抑制,以确保语音信号在处理前后的一致性。

3)优缺点

硬件3A软件3A
延迟低延迟: 由于硬件直接处理信号,通常具有较低的延迟由于音频信号需要经过处理器的计算,可能会带来一定的延迟
成本开发和制造专用硬件需要较高的成本,且设备升级或维修困难依赖现有的处理器和硬件,不需要额外的音频处理芯片,从而降低了成本
性能专用硬件可以更有效地处理音频信号,节省系统的CPU和电源资源,特别在移动设备或嵌入式系统中表现更好软件处理音频通常需要占用设备的CPU和内存资源,可能影响其他应用的运行
扩展性硬件方案较为固定,不容易根据不同场景需求进行调整或升级软件可以通过更新或升级实现新功能,而无需更换硬件设备
维护硬件处理通常是固定的,保证了一定的一致性和稳定性软件算法可以根据不同的需求进行调整和优化

5.处理过程

这里以硬件3A举例

在这里插入图片描述

整体3A工作流程如下:

  1. 近端麦克风采集到Noise, Speaker和人声
  2. AEC通过AF(滤波器)模拟回声通道,再通过NLP进行非线性回声消除
  3. 通过ANR进行噪声抑制
  4. 通过AGC进行音量增益
  5. 通过EQ和CNG增加语音舒适度(非必须)再发送到远端

二、3A带来的问题

既然3A能够带来那么多的好处,为什么使用场景上通常只是在音频通话中使用呢? 例如演唱会、音乐会等等不使用呢?并且在实际场景中,还要根据环境不同进行调节参数呢?

下面来看一看3A引入的一些问题:

  1. AEC(声学回声消除)相关问题:
  • 误消除问题:在回声和语音信号难以区分时,AEC可能误将真实语音当作回声进行消除,导致语音部分被削弱或失真。
  • 延迟引发的失效:AEC依赖于精确的时间同步,如果延迟过大,回声消除器可能无法及时捕捉并处理回声,导致回声仍然存在。
  • 双讲问题:当两个人同时说话时,AEC 可能无法准确处理双向回声,从而导致语音不清晰或部分对话丢失。
  1. AGC(自动增益控制)相关问题:
  • 过度增益调整:AGC可能会导致音量波动过大,特别是在安静的环境下,它会试图放大背景噪声,导致不必要的噪声变得明显。
  • 语音动态损失:在音乐或情感丰富的对话中,AGC可能削减声音的动态范围,使得声音显得过于平淡,失去了原有的情感表现。
  • 慢速反应:AGC可能会对快速变化的音量反应不及时,导致声音过大会有突然的削弱,或者在突然安静后有一段时间声音仍然较高。
  1. ANS(自动噪声抑制)相关问题:
  • 语音质量下降:ANS在过度抑制背景噪声时,可能会削减语音的自然部分,导致语音失真或听起来不自然、机械化。
  • 残留噪声或伪影:在抑制噪声时,ANS有时会留下残余噪声或产生伪影音效(如“嗡嗡”声),特别是在环境噪声复杂或变动较大的情况下。
  • 适应性不足:对于突发性或非持续性的噪声,ANS可能不够灵敏,导致这些噪声在处理时被漏过或抑制效果较差。
  1. 综合问题:
  • 处理延迟:音频3A技术的处理通常需要一些计算时间,特别是对于实时通话应用,这些延迟可能会影响自然的对话流畅性,导致讲话者之间出现不自然的停顿。
  • 复杂环境表现不足:在非常复杂的音频环境下(例如同时存在回声、噪声和音量差异),音频3A系统可能无法同时应对所有问题,导致回声未完全消除、噪声仍然存在或音量波动不稳定。
  • 算法适应问题:音频3A技术往往需要根据不同的环境和设备进行优化。如果没有正确调校,音频质量反而可能受到负面影响,尤其在不同设备(如不同品牌麦克风、扬声器)或不同声学环境中,可能会表现不一致。

三、开源3A算法

下面介绍一些常用的3A开源算法库

介绍功能优点缺点git地址
webrtc最为广泛使用的实时音频处理库之一AEC、AGC、ANS 、VAD(语音检测技术)功能丰富(不仅仅是3A)、跨平台、社区活跃、低延迟场景使用复杂度高、性能高、调节困难webrtc地址
SpeexDSP轻量级的开源音频处理库,适合低功耗或嵌入式设备AEC、AGC、ANS轻量级、易于集成、低功耗和低延迟功能不如 WebRTC 丰富、更新较少、高噪音环境表现一般SpeexDsp地址
PulseAudio AEC ModuleLinux 上常用的音频管理系统,它的模块中集成了回声消除功能,可以结合 WebRTC AEC 模块AEC(基于 WebRTC)无缝集成到桌面和应用程序中、基于 WebRTC、易用性局限于 Linux 平台、使用体验有时受限于 PulseAudio 的整体设置、仅提供回声消除功能PulseAudio 地址
RNNoise基于深度学习的噪声抑制库,通过机器学习模型有效减少环境噪音ANS(基于神经网络)在复杂的噪声环境中效果非常好,特别适合高噪声背景下的语音通信,高效且低延迟,可以根据不同场景进行模型的训练和微调只支持噪声抑制,训练模型难度,平台支持有限RNNoise地址

总结

  • WebRTC Audio Processing:功能全面,适合复杂的实时音频通信应用,但复杂且资源占用较大。
  • SpeexDSP:轻量、简单,适合嵌入式和低功耗设备,但功能较为基础。
  • PulseAudio AEC:适合 Linux 桌面应用,集成简单,但功能相对较少。
  • RNNoise:神经网络噪声抑制效果好,适合高噪声环境,但需要与其他库结合使用。

总结

本篇文章是先对音频3A的概念和一些常用的开源算法的介绍,后面博主会结合实际一一对3A中的算法进行介绍,实际上个人也是从事音视频开发工作后才慢慢了解到这些知识,为了梳理和避免遗忘才坚持在写博客,如果有些不足的地方还希望读者能够指点出来。

如果对您有所帮助,请帮忙点个赞吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2161413.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【后端开发】JavaEE初阶—线程安全问题与加锁原理(超详解)

前言: 🌈上期博客:【后端开发】JavaEE初阶—Theard类及常见方法—线程的操作(超详解)-CSDN博客 🌈感兴趣的小伙伴看一看小编主页:GGBondlctrl-CSDN博客 🌈小编会在后端开发的学习中不…

综合体第三题(DHCP报文分析)

DHCP(一般情况下) 某公司网络DHCP服务器地址为192.168.0.2,可分配IP地址为192.168.0.6-192.168.0.254,缺省网关的地址为192.168.0.1,DNS服务器地址为192.168.0.2。网络中某客户机从服务器获取IP地址后,在客…

初识爬虫8

1.selenium的作用和工作原理 2. 使用selenium,完成web浏览器调用 # -*- coding: utf-8 -*- # 自动化测试工具,降低难度,性能也降低 from selenium import webdriverdriver webdriver.Edge()driver.get("https://www.itcast.cn/")…

Python语言基础教程(上)4.0

✨博客主页: https://blog.csdn.net/m0_63815035?typeblog 💗《博客内容》:.NET、Java.测试开发、Python、Android、Go、Node、Android前端小程序等相关领域知识 📢博客专栏: https://blog.csdn.net/m0_63815035/cat…

新规2027年生效 美国禁止中国智能网联汽车软硬件

当地时间9月23日,美国商务部工业和安全局(BIS)发布了一项拟议规则制定通知(NPRM),该通知将禁止销售或进口集成特定硬件和软件的联网车辆,或单独销售这些组件,这些硬件和软件与中国或…

增强网络威胁防御能力的云安全新兴技术

一些行业专家强调了基于云的运营的独特网络安全需求,并指出保护敏感数据与传统的本地网络不同。尽管新兴技术并没有改变网络安全专业人员与犯罪分子之间持续的斗争,但它们提高了赌注,使斗争变得更加复杂。 如今,我们面对的是技术…

CSS | 如何来避免 FOUC(无样式内容闪烁)现象的发生?

一、什么是 FOUC(无样式内容闪烁)? ‌FOUC(Flash of Unstyled Content)是指网页在加载过程中,由于CSS样式加载延迟或加载顺序不当,导致页面出现闪烁或呈现出未样式化的内容的现象。‌ 这种现象通常发生在HTML文档已经加载&…

为什么数据需要 QA 流程

当有人问我做什么工作时,我会说我是一名数据质量保证 (QA) 工程师。他们并不真正理解我的意思。“嗯,我做数据测试,”我试图解释,但常常无济于事。我有一些从事技术和软件开发的朋友,他们不太了解数据测试是什么&#…

[LLM 学习笔记] Transformer 基础

Transformer 基础 Transformer 模型架构 主要组成: Encoder, Decoder, Generator. Encoder (编码器) 由 N N N 层结构相同(参数不同)的 EncoderLayer 网络组成. In : [ b a t c h _ s z , s e q _ l e n , d m o d e l ] \textbf{In}: [batch\_sz, seq\_len, d_{model}] I…

【WorldView系列卫星】

WorldView系列卫星 WorldView系列卫星是美国DigitalGlobe公司推出的一系列先进商业遥感卫星,旨在提供高分辨率的地球成像服务。该系列卫星以其卓越的成像能力,如高分辨率、快速重访时间和宽幅扫描能力,引领了地球观测技术的新标准。以下是对…

LCD1602

LCD1602 是一种工业字符型液晶显示屏,能够同时显示 16x2 即 32 个字符。 LCD的显示控制 通过向 LCD1602 发送指令和数据来控制其显示内容。指令包括清屏、设置光标位置、显示模式等;数据则是要显示的字符的 ASCII 码。LCD1602 内部有一个控制器&#x…

el-form动态标题和输入值,并且最后一个输入框不校验

需求:给了固定的label,叫xx单位,要输入单位的信息,但是属性名称都一样的,UI画图也是表单的形式,所以改为动态添加的形式,实现方式也很简单,循环就完事了,连着表单校验也动…

ChatGLM-6B:部署指南与实战应用全解析

🍑个人主页:Jupiter. 🚀 所属专栏:Linux从入门到进阶 欢迎大家点赞收藏评论😊 目录 SD3ComfyUI文生图部署步骤DAMODEL-ChatGLM-6B 服务端部署1.1、实例创建1.2、模型准备1.3、模型启动 SD3ComfyUI文生图部署步骤 Chat…

centos系统配置本地镜像源

今天在安装docker相关的依赖包时,在centos系统上,发现很多原本的镜像地址,拉取rpm依赖包失败,因为我的centos系统,安装的时候使用的是最小化安装,很多rpm包没有安装好,所以在后续安装一些常规命…

电脑共享同屏的几种方法分享

实时共享屏幕的方法多种多样,适用于不同的设备和场景。以下是几种常见的实时共享屏幕的方法: 1. 使用无线投屏技术 原理:无线投屏技术允许设备通过Wi-Fi网络或其他无线连接方式,将屏幕内容实时投射到另一台设备上。 操作步骤&a…

如何分析开源项目

如何分析开源项目 教程:【狂神说Java】手把手教你如何分析开源项目_哔哩哔哩_bilibili 一.开源项目下载 1.下载 因为GitHub下载太慢了,下载完毕进行解压。 后端:eladmin: eladmin-jpa 版本:项目基于 Spring Boot 2.1.0 、 Jpa、…

如何在openEuler上安装和配置openGauss数据库

本文将详细介绍如何在openEuler 22.03 LTS SP1上安装和配置openGauss数据库,包括数据库的启动、停止、远程连接配置等关键步骤。 1、安装 使用OpenEuler-22.03-LTS-SP1-x64版本的系统,通过命令行安装openGauss数据库。 1.1、确保系统软件包索引是最新…

Anaconda安装保姆级教程

1.下载Anaconda 可以在官网下载地址链接: Anaconda官网 推荐:清华大学镜像 2.安装 推荐,允许其他程序,如VSCode、PyCham等自动检测anaconda作为系统上的主Python。 3.配置环境变量 D:\Anaconda3为安装路径 D:\Anaconda3 D:\Anaconda3\S…

HT6819 3.3W带数字音量控制/防削顶低EMI立体声D类音频功率放大器

特点 降低了内阻和热耗的EDMA专利技术,极大提升了 输出功率和产品可靠性 Po3.3 W(VDD5.0V,RL4Ω,THDN10%) Po1.7 W(VDD3.6V,RL4Ω,THDN10%) 优异的全带宽EMI抑制性能 a)独创的主动边沿控制专利(AROC,Active edge Ringing and Overshoot Control circuitr…

monaco-editor基本使用

前言 公司项目需要代码编辑器,多方参考之后用了monaco-editor。 一、monaco-editor是什么? Monaco Editor 是微软开源的基于 VS Code 的代码编辑器,运行在浏览器环境中。 二、使用步骤 1.npm下载插件 //我下载的版本 npm i monaco-edit…