语音前处理技术在会议场景中的应用及挑战

news2024/10/6 1:41:25

编者按: 随着在线会议的普及,用户已经不再满足于能听到,而是要有更为极致的听感体验,如何能够在复杂多变的应用场景中依旧保证声音清晰流畅是对会议系统的极大挑战。LiveVideoStackCon2022上海站大会邀请到了全时 音视频研发部经理 顾骋老师,为大家详细介绍了语音前处理技术在会议场景中的应用与挑战。

文/顾骋
整理/LiveVideoStack

大家好,我是顾骋,来自全时,本次分享的主题是语音前处理技术在会议场景中的应用与挑战。

内容主要包括三个方面:第一部分介绍影响会议声音质量的因素及应对方法;第二部分介绍语音前处理技术在会议中的应用;第三部分介绍语音前处理与深度学习技术的结合及效果。

以下是我们在视频会议当中可能经常会遇到的两个场景和问题:

1. 开会时出现杂音,影响参会人员体验

2. 同事讲话时,有他人的键盘声传入影响会议进行

那么,导致产生这些问题的原因是什么呢?

1、如何保障会议中的声音质量

影响声音质量的因素有很多,其中最常见的就是网络。因为声音在网络传输的过程中会有所损失,如数据丢失、包的乱序,或延时较大导致声音过了很久才可被听到。针对这个问题,首先我们需要对相关网络部署进行保障,其次在传输层做一些流控,如在编码时编写冗余信息来对抗丢包问题或是在解码时根据帧与帧的相关性来预测丢失的语音帧。

第二个因素是环境因素,不同于网络因素,环境因素较难察觉。举个例子,同事A在会议室中用座机开会时,同事B进入会议室,打开电脑进入会议,两台设备都开着外放,会导致刺耳尖锐的啸叫声。或是在墙面吸音效果较差的房间进行会议时,由于混响较大,较难听清对方声音。此外,随时随地开会的场景很丰富,在路边开会时,喇叭声传入会议中使得会场混乱,影响他人体验等等。

第三个是硬件因素。如使用iPhone的场景下回声问题出现的概率较小,这是因为它的麦克风扬声器耦合性较好,而部分安卓机由于耦合不良,导致麦克风采集到的扬声器放出的声音非常大,有的声学设计包含许多非线性因素。我们在安卓机上会专门进行适配调整。用头戴麦的会议效果很理想,因为它本身是近场拾音,不会采集到周围杂音,同时不外放的话也就不会出现回声。但如果用笔记本电脑开外放,或连接外置音箱、外置麦克风时,就会出现很多问题。

第四个是软件因素。同一台设备中的同一个软件,在同样的网络环境中,有时好,有时坏。软件的播放或采集通过不同线程驱动,当CPU占用高时,录放设备的同步就会出现问题。此时回音消除模块的近端信号与远端信号之间的时延会发生抖动,导致回声泄露。另外,有很多电脑厂商对声卡做了一些音频处理,如硬件的回声消除或噪声抑制。然而有些厂商设计的产品未必理想,导致消除不彻底致使语音失真,在后期使用软件进行算法处理时往往难以去除这部分噪声或回声。

2、语音前处理在会议中的应用

如图所示为音频引擎的大致流程图。下半部分(蓝线)是uplink链路,麦克风采集信号后通过高通滤波去除工频干扰噪声。大部分采集到的声音是48khz或44.1khz,频率很高,但对于正常语音处理来说频率在16khz以下即可,所以我们会先对语音做分频带处理,回音消除、噪声抑制的工作主要在低频带进行,并将计算出来的增益值映射到高频带,然后再恢复成全带信号,最后经过Agc模块。

Agc可以解决由于说话人离麦克风的距离远近变化导致的声音忽大忽小,以及补偿回音消除、噪声抑制处理过程中对语音造成的损伤。最终前处理后的音频数据会被编码发送到网络端。

上半部分(红线)是downlink链路,从网络接收的包经过NetEq处理后解码,取出低频段作为回声消除模块的参考信号,同时支持多通道混音(除语音之外可能会接收到音乐信号,或是部分场景中使用客户端模式混音),最后从扬声器中播放。

噪声抑制和回声消除是三个引擎中最重要的两个版块。

如图所示为经典的噪声抑制功能图,传统噪声抑制算法首先通过vad检测判断当前是语音还是噪声,然后利用vad检测结果来估算噪声幅度谱,最后从含噪语音幅度谱中减去噪声幅度谱就是纯净语音的幅度谱,相位信息则是利用了含噪语音的相位谱。

噪声抑制分为两步,一步是估计噪声,另一步是计算增益因子。

估噪声最常用的是MCRA。首先计算粗略噪声,利用最小值跟踪法获得噪声的初步估计。即使在语音活动期间也不是所有频点都含有语音,很多频点都会有噪声,因此对于单个频点而言它的幅度谱最终会趋近于噪声的级别。我们可以通过最小值估计来估算初始噪声级别,再通过时间递归法对初始噪声进行平滑处理,如果当前是语音,就用上一帧的数据更新它,如果当前是噪音,就用当前帧的数据更新它。

对于噪声抑制来说,我们可以用简单的谱减法。从含噪的幅度谱中去除噪声幅度谱后即可获得纯净幅度谱,这无疑是最简单的方法,但缺点很明显,这种方法容易过多去除“噪声谱”,可能会减多,也可能会减少导致音乐噪声的出现。

目前应用较广泛的方法是维纳滤波,首先利用估算的纯净幅度谱和理想幅度谱的均方误差,取其最小值,也就是导数为0的地方,估算出先验信噪比后即可算出维纳滤波系数。当然也有很多其他方法,如基于统计意义的方法等,且由于人耳对语音的感知是非线性的,我们可以将幅度谱转换到对数谱,得到的结果会更理想。

声音从扬声器里播放出来之前,会通过直达声直接传给麦克风,同时经过房间的连续反射最终被麦克风采集,相当于扬声器中传出的声音再次传入麦克风,导致对端说话时能听到自身回音。针对回声,一般做法是通过自适应滤波器估算房间冲击响应,再和远端信号进行卷积,得出估算的回音信号。实际应用中会更复杂,因为扬声器和麦克风之间有很多非线性耦合,房间也存在一些混响,而且可能除了远端说话时也有近端在说话,一直处于双讲状态,导致回声消除比较困难。

对于上文提到的回声估计,我们用到较多的是NLMS自适应滤波器,原因是其有利于工程实现,我们基本是通过NLMS方式在频域分块处理。

回声消除主要包括以下几点:

1、时延估计

远端信号首先需要和近端信号对齐。因为在房间内,扬声器播出的声音会被麦克风采集,造成时延差,此外,声卡的输入和输出存在缓存buffer,再加上采集播放线程不同步等问题,不可避免地会引入时延。时延较小时,由于线性滤波器本身有一定长度,能够抵消时延,所以问题不大,但当时延较大时就需要采用时延估计算法,比如用最简单的互相关法。

2、线性回声消除

采用自适应滤波器能够估算出回声在房间内的传播路径,得到线性回声估计。其中归一化最小均方误差(NLMS)应用最为广泛,我们往往通过控制迭代步长来使其尽快收敛,达到稳定状态。

3、双讲检测

那么如何加快收敛速度呢?这就需要双讲检测算法(dtd),因为在仅有远端说话时应尽快更新滤波器,但如果同时有近端说话时,应尽量冻结滤波器以防发散。其实双讲检测操作起来比较困难,因为在有噪声干扰时检测很难准确。在很多场景我们选择通过控制迭代步长起到类似双讲检测作用,同时为了提高收敛速度,我们给滤波器组的每个块分配不同权重,比如更近的块权重更大,从而收敛更多。

4、残留回声抑制

在实际场景中,线性回声包括非常大的非线性成分,简单地通过线性滤波器无法完全消除,所以需要通过RES估算残留回声并抑制。在控制过程中会发现,抑制力度过小时,回声消除的不干净,但如果力度过大则会损伤语音,这也是实际应用中最具有挑战性的。

3、拥抱深度学习追求极致音质

如同上文所提到的,我们基于传统数字信号处理方式进行语音前处理,如消除回声,消除噪声。

传统的降噪基本基于先验的假设条件如假设是一个加性噪声,它和语音不相关,还得是平稳的。对于平稳噪声的处理没有太大问题,但对于某些场景如鼠标键盘敲击声,处理起来的效果会不太理想。如果用传统方法提取鼠标键盘声的特征进行抑制,难点在于也许能够在个别场景下通过观察频谱分布提取有效特征,但由于噪声类型变化太多,导致在其他场景下,特征提取不准,此外人工调参工作量也是十分巨大。

这就体现出深度学习的优势,它提供了非常强大的非线性拟合能力,即使是百万级的参数量,只要有足够好的数据,通过训练后即可达到较好效果。

一般我们会先选定模型,设置训练目标如计算一个mask,这个mask相当于传统算法中的gain值,最初比较简单的是理想二值掩膜,判断频点是语音或噪音,这往往会引入一些噪声。后来我们通过理想比值掩膜计算比值而不是简单的做一个二分类。

后续引入了很多相位信息,发现相位对音质有较大影响。最后我们选择了cIRM,它同时考虑了幅度和相位,达到更好的效果。当然在实际使用中还是需要结合具体场景进行选择。

训练网络需要有非常强大的泛化能力,否则在某些场景下的效果会不太理想,于是我们需要对样本进行增广,对于目前已有的训练数据集进行一些处理或根据需要应用的场景使用私有的训练数据。同时还需找到较合适的特征。如果通过映射方式直接输入时域波形,那么最后直接输出的就是已经完成降噪的时域波形,但这会提升训练难度。所以我们一般会适当提取一些特征,比如将其转换到一个频域或通过分带的方式切割为多个带。更多或更合适的特征提取能够有效降低模型的大小。

之所以这样做,是因为实际的应用场景基本都是实时的。可能大家看到许多挑战赛中的效果非常理想,但如果直接拿来部署就会发现根本无法运行,因为假如10ms一帧的数据,需要运算50ms才能出结果,这根本达不到实时性的要求,换句话说,在好的机器上能跑起来,但换到较差的机器就不行了。所以最终的抉择还应综合实际应用场景、机器性能,及部署在端侧还是服务器。部署在服务器上可以通过较好的gpu提升性能。移动端和pc、mac端的处理上也存在一些差异。嵌入式设备还应考虑存储量的问题,如果参数量过大会对其存储造成一定影响。

我们根据应用场景选择合适的模型后,还会不断的进行优化,或对数据做一些处理,再加上部署,这样才能够保证实时性。

举个例子,噪声里面的瞬态噪声对传统降噪来说很难处理,如图中传统降噪前后的对比,其中的平稳噪声基本能够被消除,但鼠标键盘这种噪声就无法完全消除了。而AI降噪方式能够较好地处理这种情况。

回声消除也类似,其实在回声消除中存在一个大问题,即消除回声算法遇到双讲情况时会对本地语音造成很大损伤,通过AI算法进行较好的训练后能够很好的解决这个问题。

大家可能觉得目前基于深度学习的方法已经可以替代传统方法了,但实际上却没那么简单。深度学习的方法固然好,能够解决许多传统方式解决起来比较困难的问题,但它也并不是全能的。应用基于深度学习的方法时,假如数据集覆盖很全面,效果也许会很不错,但当数据集和真实场景存在一定差异时,最终效果也会大打折扣。

另外一个重要问题是性能,由于我们的计算资源往往比较有限,而深度学习方法的性能开销却很大,对于实时性要求很高的场景来说,设备性能不够,深度学习的方法未必是最好的选择。目前大多还是深度学习加传统相结合的方式,相当于取精华去糟粕,用传统方式完成最基础功能,把复杂的部分交给深度学习,在保障性能的前提下尽可能提高使用效果。

最后,我们来总结下:

1、一场会议有许多组成部分,但声音往往是最为重要的。一方面不是所有人都喜欢开着视频,另一方面声音的卡顿会比视频的卡顿更令人抓狂,一帧声音数据的丢失就会被人明显的感知到。

2、影响声音的因素有很多,包括环境、硬件、软件等因素,都会带来不同的体验。

3、针对这些问题,可以利用语音前处理技术进行噪声抑制以及回声的消除。

4、深度学习和传统方法各有千秋,之间的优势可以互补。

希望通过今天的介绍,大家能对会议系统里音频处理相关的问题有一定的了解。

以上是本次分享的全部内容,谢谢!

(全文完)


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/28444.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

网页大作业代码自取【HTML+CSS制作美味糖果网站】

🎀 精彩专栏推荐👇🏻👇🏻👇🏻 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业…

【2015】408联考数据结构真题整理

2015 1 题目 答案:A 解析 2 题目 解析 3 题目 解析 4 题目 解析 5 题目 答案:D 解析 6 题目 解析 7 题目 答案:A 解析 8 题目 答案:C 解析 9 题目 解析 10 题目 解析 11 题目 解析 41 题目 答案: 3&a…

Android 深入理解View.post()获取宽高、Window加载View原理

文章目录背景:如何在onCreate()中获取View的宽高?View.post()原理Window加载View流程setContentView()ActivityThread#handleResumeActivity()总结扩展Window、Activity及View三者之间的关系是否可以在子线程中更新UI资料背景:如何在onCreate…

从React源码分析看useEffect

热身准备 这里不再讲useLayoutEffect,它和useEffect的代码是一样的,区别主要是: 执行时机不同;useEffect是异步, useLayoutEffect是同步,会阻塞渲染; 初始化 mount mountEffect 在所有hook…

day34 文件上传黑白盒审计逻辑中间件外部引用

前言 #知识点: 1、白盒审计三要素 2、黑盒审计四要素 3、白黑测试流程思路 #详细点: 1、检测层面:前端,后端等 2、检测内容:文件头,完整性,二次渲染等 3、检测后缀:黑名单&am…

强化学习 马尔科夫决策过程(价值迭代、策略迭代、雅克比迭代、蒙特卡洛)

文章目录一、马尔科夫过程Markov Decision Process(MDP)1.简介2、Markov 特性3、Markov 奖励过程符号表示MRPs的贝尔曼方程4、Markov决策过程符号表示转化MRPs的贝尔曼方程优化问题贝尔曼最优方程二、价值迭代求解1、回顾2、算法3、案例案例1案例2三、策…

Linux学习笔记13 - 进程间通信(IPC)(四)

消息队列 消息队列(message queue)即消息的列表,亦称报文队列,也叫做信箱。是Linux的一种通信机制,这种通信机制传递的数据具有某种结构,而不是简单的字节流[1]。消息队列的本质其实是一个内核提供的链表,内核基于这个链表&#…

有限元仿真分析误差来源之边界条件设置-动载荷

作者:青梅煮酒 导读:前不久,笔者在仿真秀平台分享一篇关于有限元仿真分析误差来源之边界条件,约束和point mass,引发了工程师朋友们广泛关注和思考。通过与他们交流和讨论,我也有所所获。今天继续开展有限…

【强化学习论文合集】AAAI-2022 | 人工智能CCF-A类会议(附链接)

人工智能促进会(AAAI)成立于1979年,前身为美国人工智能协会(American Association for Artificial Intelligence),是一个非营利性的科学协会,致力于促进对思想和智能行为及其在机器中的体现的潜在机制的科学理解。AAAI旨在促进人工智能的研究…

利用HbuilderX制作简单网页: HTML5期末大作业——html5漫画风格个人主页

HTML实例网页代码, 本实例适合于初学HTML的同学。该实例里面有设置了css的样式设置,有div的样式格局,这个实例比较全面,有助于同学的学习,本文将介绍如何通过从头开始设计个人网站并将其转换为代码的过程来实践设计。 ⚽精彩专栏推荐&#x1…

用JAVA详解冒泡排序

1.代码段实现&#xff1a;&#xff08;混的只需要把第一个拿走即可&#xff09; public static void main(String[]args){int []arr new int [] {99,68,97,86,65,94,33,72};System.out.println("排序前的数组为&#xff1a;");for (int i 0;i < arr.length;i){…

Java入门

文章目录数组一维数组多维数组Arrays工具类数组中常见异常String、StringBuilder、StringBufferString类String的特性String对象的创建String常用方法StringBuilder类StringBuffer类StringBuffer对象的创建StringBuffer类的常用方法String、StringBuffer、StringBuilder区别日期…

Go:日志滚动(rolling)记录器 lumberjack 简介

文章目录简介简单使用1. Logger 结构体2. backup日志文件的文件名3. 获取文件句柄4. 日志文件backup5. 日志滚动后处理6. 收集旧日志文件7. 后处理小结简介 lumberjack是一个日志滚动记录器。写入lumberjack的日志达到一定的条件后会进行存档&#xff08;普通文件的形式&#…

TAT (AYGRKKRRQRRR)

TAT (AYGRKKRRQRRR) 是一种细胞穿膜肽, 能够将各种性质的药物高效率地传递进入细胞&#xff0c;该传递过程不需要配体-受体特异性结合, 且无饱和现象。但 TAT 缺乏细胞选择性, 能够穿透所有细胞膜, 这一缺点极大地限制了其在全身给药的肿瘤靶向系统中的应用。 编号: 402555中文…

电脑麦克风没声音怎么办?3个方法快速解决

当你跟朋友电脑语音聊天的时候&#xff0c;一连说了好几段话&#xff0c;结果朋友发消息告诉你&#xff0c;问你怎么一直不吭声&#xff0c;你这才发现&#xff0c;原来是你自己电脑麦克风没声音。电脑麦克风没声音怎么办&#xff1f;电脑麦克风说话别人听不到怎么回事&#xf…

机器学习笔记之核方法(一)核方法思想与核函数介绍

机器学习笔记之核方法——核方法思想与核函数介绍引言回顾&#xff1a;支持向量机的对偶问题核方法思想介绍线性可分与线性不可分非线性带来高维转换对偶表示带来内积核函数核函数的定义(2022/11/23)正定核函数引言 本节将介绍核方法以及核函数。 回顾&#xff1a;支持向量机…

[附源码]java毕业设计学生宿舍管理系统设计

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

[附源码]java毕业设计新生入学计算机配号系统

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

代码随想录63——额外题目【链表】:234回文链表、143重排链表、141环形链表

文章目录1.234回文链表1.1.题目1.2.解答1.2.1.数组模拟方法1.2.2.反转后半部分链表法2.143重排链表2.1.题目2.2.解答3.141环形链表3.1.题目3.2.解答1.234回文链表 参考&#xff1a;代码随想录&#xff0c;234回文链表&#xff1b;力扣题目链接 1.1.题目 1.2.解答 1.2.1.数组…

Qt-FFmpeg开发-视频播放(5)

Qt-FFmpeg开发-视频播放【软/硬解码 OpenGL显示YUV/NV12】 文章目录Qt-FFmpeg开发-视频播放【软/硬解码 OpenGL显示YUV/NV12】1、概述2、实现效果3、FFmpeg硬解码流程4、优化av_hwframe_transfer_data()性能低问题5、主要代码5.1 解码代码5.2 OpenGL显示RGB图像代码6、完整源…