ICASSP2024 | ICMC-ASR 车载多通道语音识别挑战赛总结

news2024/12/28 3:46:23

为促进驾驶场景中语音处理和识别研究,在ISCSLP 2022上成功举办智能驾驶座舱语音识别挑战 (ICSRC)的基础上,西工大音频语音与语言处理研究组 (ASLP@NPU)联合理想汽车希尔贝壳WeNet社区字节微软天津大学南洋理工大学以及国信息通信研究院等多家单位在ICASSP2024上推出了车载多通道语音识别挑战赛(ICMC-ASR)。作为大会的旗舰赛事之一,ICMC-ASR发布了在新能源汽车内录制的100多小时多通道语音数据(单通道计算)以及用于数据增广的40小时噪声数据。挑战赛设有语音识别 (ASR)和语音分离和识别 (ASDR)两个赛道,分别使用字符错误率 (CER)和连接最小排列字符错误率 (cpCER)作为评价指标。

本次挑战赛吸引了国内外共计98支队伍参赛,并在两个赛道上收到了53个有效提交结果。竞赛总结论文“ICMC-ASR: The ICASSP 2024 In-Car Multi-Channel Automatic Speech Recognition Challenge”已被语音研究顶级会议ICASSP2024接收。现对该论文进行分享,包括竞赛举办的背景、所采用的数据集、赛道设置、比赛结果和各参赛队伍所采用的关键技术等。

赛事网址:https://icmcasr.org/

论文题目:ICMC-ASR: The ICASSP 2024 In-Car Multi-Channel Automatic Speech Recognition Challenge

合作单位:理想、希尔贝壳、WeNet社区、字节、微软、天津大学、南洋理工大学、中国信息通信研究院

作者列表:王贺、郭鹏程、李越、张奥、孙佳耀、谢磊、陈伟、周盼、卜辉、徐昕、张彬彬、陈卓、巫健、王龙标、Eng Siong Chng、李荪

论文原文:https://arxiv.org/abs/2401.03473

相关链接:NPU-ASLP实验室10篇论文被ICASSP2024录用

发表论文截图

背景动机

随着深度学习的不断发展,语音识别(ASR)技术取得了长足的进步,其性能也获得了大幅提升。然而ASR系统在实际复杂远距离拾音场景中的表现远未达到满意的效果,干扰来自背景噪声、混响、说话人重叠和需要适配各种麦克风阵列几何结构拓扑等。为了应对这些挑战,CHiME系列竞赛应运而生,竞赛的宗旨是通过鼓励多通道信号处理算法的研究和创新来促进鲁棒 ASR系统的发展。

语音交互已经变成车机系统不可或缺的组成部分。不同于智能家居或者会议等常见语音识别 (ASR)系统部署的场景,密闭且不规则的驾驶舱的声学环境是相对更加复杂的。此外,在驾驶过程中存在着各种噪声,如风声、引擎声、轮胎声、车载广播和音乐、多人交谈等。因此,如何利用语音处理和识别领域的最新技术来提高汽车ASR系统的鲁棒性是一个值得研究的重要问题。

在2022年,我们举办了智能驾驶舱语音识别挑战 (ICSRC)[1],并发布了一个在新能源汽车中收集的20小时单通道评估集,为车载ASR提供了一个公开评测的平台。然而,在车载ASR系统的基准测试中仍然缺乏较大规模的实录数据。为了填补这一空白,我们在ICSRC成功举办的基础上推出了ICASSP 2024车载多通道自动语音识别 (ICMC-ASR)挑战赛,专注于复杂驾驶条件下的语音处理和识别。此外,ICMC-ASR数据集包括了一个超过100小时的车内实录多通道、多说话人的普通话对话数据和40小时的汽车内录制的多通道噪声音频(时长均以单通道计算)。ICMC-ASR挑战赛包括语音识别和语音分离与识别 (ASDR)两个赛道,针对车内多说话人聊天场景,分别使用字错误率 (CER)和连接最小排列字符错误率 (cpCER)作为评估指标。最终,ICMC-ASR挑战吸引了国内外98支团队参赛,并在两个赛道中收到了53个有效结果。其中,USTC-iflytek团队在ASR赛道上13.16%的CER和ASDR赛道上21.48%的cpCER获得双赛道冠军,相较于基线系统有显著提升。

ISCSLP 2022丨ICSRC 赛事结果公布

ICASSP2024丨车载多通道语音识别挑战赛排名结果公布

竞赛描述

数据集

ICMC-ASR挑战赛数据集为图1所示的新能源车内实录多通道中文语音数据,车内说话人坐在不同的位置,包括驾驶位、副驾驶位和两个后排座位。具体而言,4个分布式麦克风分别放置在四个座位对应车门上方,录制每个座位上的说话人的“远讲”数据。为了方便语音转录,每位说话人都佩戴了高保真耳机,录制得到“近讲”数据。由于驾驶场景的真实声学环境复杂,同时涉及各种噪声干扰,我们精心设计了不同录制条件来尽可能覆盖所有的驾驶场景。我们通过排列组合与驾驶相关的各种因素,包括驾驶道路 (市区街道和高速公路)、车辆速度 (停车、缓慢、中等和快速)、空调 (关闭、中档和高档)、车载音响 (关闭和开启)、驾驶位车窗和天窗 (关闭、开启三分之一和开启一半)、驾驶时间 (白天和夜晚),来达到这一目的。最终,构成了60种不同的驾驶场景,囊括了大部分的车内声学环境。

图1 数据录制的新能源车和内嵌麦克风示意

表1 ICMC-ASR数据集的统计信息,包括近场音频的时长 (Duration)、会话数 (Session)、是否提供真实说话人日志 (GT SD)、转录文本 (Transcription) 以及近场音频 (Near-field)。

赛道设置

Track1 — 语音识别 (Automatic Speech Recognition, ASR):在此赛道中,参赛者会得到测试集上的真实时间戳信息。该赛道的主要目标是构建基于多通道多说话人语音数据的鲁棒ASR系统。参赛者需要设计并构建能够有效融合不同通道信息、抑制噪声、处理多说话人重叠的系统。对于此赛道,ASR系统的准确性将通过字错误率(CER)来衡量。

Track2  语音日志与识别 (Automatic Speech Diarization and Recognition, ASDR):与Track1不同,Track2在评估过程中不提供任何关于说话人和时间戳的先验信息,包括每个语句的分割和说话人标签以及每个会话中的总说话人数等。此赛道的参赛者需要设计一个既可以获取说话人日志又可以进行语音转录的系统。对于此赛道,我们采用连接最小排列字错误率 (cpCER) 作为ASDR系统的度量标准。

竞赛结果及讨论

表2展示了在本次ICMC-ASR挑战赛中取得优异成绩的团队以及基于WeNet工具包[11]的基线系统的主要技术点和结果。如查看完整的排行榜和详细的系统报告,请参阅我们的竞赛官方网站。我们分别计算了35支参与Track1的团队和18支参与Track2团队的所提交结果的CER和cpCER指标。据此,ICASSP2024 ICMC-ASR挑战赛的两个赛道的冠军均是USTC-iflytek团队,在Track1和Track2上分别取得了13.16%的CER和21.48%的cpCER。下面就各团队所使用的技术展开讨论,包括语音前端、ASR以及说话人日志三个方面。

基线系统:https://github.com/MrSupW/ICMC-ASR_Baseline

竞赛官方网站:https://icmcasr.org/

表2 两个赛道的Top系统和竞基线系统所使用的主要技术和结果。语音前端和ASR在两个赛道中都被应用,而说话人日志技术仅用于Track2。加粗的团队受邀提交ICASSP 2024的技术报告论文

语音前端 大多数团队都在语音前端方面沿用了基线系统中使用的声学回声消除 (AEC)和独立矢量分析 (IVA)技术。基于此,一些团队整合了用于去混响的加权预测误差 (WPE)和分离说话人语音的引导源分离 (GSS)技术,例如RoyalFlush团队、FawAISpeech团队和HLT2023-NUS团队。此外,许多参赛团队也使用了基于神经网络 (NN)的语音前端降噪模型,包括MP-SENet [3]、DCCRN-VAE [8]和DEEP-FSMN [5]。特别地,USTCiflytek团队在GSS中使用能量和相位差异代替传统的最大信号噪声比 (SNR)标准进行通道选择,同时在波束形成器中使用递归平滑技术评估功率谱密度矩阵,为下游ASR提供了更高质量的单通道音频。

ASR Backbone 根据ICMC-ASR挑战赛不允许使用额外文本数据的规则,许多团队选择使用开源音频数据训练自监督学习 (SSL)模型来生成音频特征,然后将其输入主流ASR模型进行训练。HuBERT [4] SSL模型是最受欢迎的模型之一,在分析讨论的7支团队中,有4支均使用了HuBERT模型。其余的三支队伍,Nanjing Longyuan团队使用了Data2vec2 [6]作为SSL模型,并在训练过程中引入了噪声增广技术;USTC-iflytek团队对未标记数据迭代生成伪标签,并提出了针对口音优化的Accent-ASR模型;FawAISpeech团队提出了基于E-Branchformer和交叉注意力[12]的多通道ASR模型,没有使用SSL模型。

说话人日志 除Fosafer Research和Nanjing Longyuan团队,大多数团队使用基于神经网络的VAD模型,在说话人日志技术上选择了TS-VAD [13]并基于此进行改进。具体地,USTC-iflytek团队将TS-VAD模型扩展到多通道音频,提出并使用了Multi-Channel TS-VAD [2];RoyalFlush团队、喜马拉雅语音团队和HLT2023-NUS团队采用了类似的方法,使用不同的基于神经网络的模型提取说话人表征,取代了传统TS-VAD中所使用的i-vector特征。

本赛事相关数据后续会开源,敬请关注。

参考文献

[1] Ao Zhang, Fan Yu, Kaixun Huang, Lei Xie, et al., “The ISCSLP 2022 Intelligent Cockpit Speech Recognition Challenge (ICSRC): Dataset, Tracks, Baseline and Results,” in Proc. ISCSLP. IEEE, 2022, pp. 507–511.

[2] Ruoyu Wang, Maokui He, Jun Du, Hengshun Zhou, et al., “The USTC-Nercslip Systems for the CHiME-7 DASR Challenge,” 2023.

[3] Ye-Xin Lu, Yang Ai, and Zhen-Hua Ling, “MP-SENet: A Speech Enhancement Model with Parallel Denoising of Magnitude and Phase Spectra,” 2023.

[4] Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, et al., “Hubert: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units,” IEEE/ACM TASLP, vol. 29, pp. 3451–3460, 2021.

[5] Shiliang Zhang, Ming Lei, Zhijie Yan, et al., “Deep-FSMN for Large Vocabulary Continuous Speech Recognition,” in Proc. ICASSP, 2018, pp. 5869–5873.

[6] Alexei Baevski, Arun Babu, Wei-Ning Hsu, and Michael Auli, “Efficient Self-Supervised Learning with Contextualized Target Representations for Vision, Speech and Language,” in Proc. ICML. PMLR, 2023, pp. 1416–1429.

[7] Brecht Desplanques, Jenthe Thienpondt, and Kris Demuynck, “ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN based Speaker Verification,” in Proc. Interspeech. 2020, pp. 3830–3834, ISCA.

[8] Yang Xiang, Jingguang Tian, Xinhui Hu, et al., “A Deep Representation Learning-based Speech Enhancement Method using Complex Convolution Recurrent Variational Autoencoder,” arXiv preprint arXiv:2312.09620, 2023.

[9] Jingguang Tian, Xinhui Hu, and Xinkang Xu, “Royalflush Speaker Diarization System for ICASSP 2022 Multi-Channel Multi-Party Meeting Transcription Challenge,” arXiv preprint arXiv:2202.04814, 2022.

[10] Hui Wang, Siqi Zheng, Yafeng Chen, Luyao Cheng, and Qian Chen, “CAM++: A Fast and Efficient Network for Speaker Verification using Contextaware Masking,” arXiv preprint arXiv:2303.00332, 2023.

[11] Zhuoyuan Yao, Di Wu, Xiong Wang, et al., “WeNet: Production Oriented Streaming and Non-streaming End-to-End Speech Recognition Toolkit,” 2021.

[12] Pengcheng Guo, He Wang, Bingshen Mu, Ao Zhang, and Peikun Chen, “The NPU-ASLP System for Audio-Visual Speech Recognition in MISP 2022 Challenge,” in Proc. ICASSP. IEEE, 2023, pp. 1–2.

[13] Ivan Medennikov, Maxim Korenevsky, Tatiana Prisyach, Yuri Khokhlov, et al., “Target-Speaker Voice Activity Detection: A Novel Approach for Multispeaker Diarization in A Dinner Party Scenario,” pp. 274–278, 2020.

文章来源于音频语音与语言处理研究组 ,作者王贺

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1481913.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

动态规划--(算法竞赛、蓝桥杯)--二维费用背包

1、B站视频链接&#xff1a;E15 背包DP 二维费用背包_哔哩哔哩_bilibili #include <bits/stdc.h> using namespace std; int f[101][101]; //f[j][k]第i件物品&#xff0c;体积<j,重量<k的最大价值int main(){int n,V,W;//物品、容量、承重int v,w,val;//体积、重…

IIS部署.Net 7项目

&#x1f468; 作者简介&#xff1a;大家好&#xff0c;我是Taro&#xff0c;前端领域创作者 ✒️ 个人主页&#xff1a;唐璜Taro &#x1f680; 支持我&#xff1a;点赞&#x1f44d;&#x1f4dd; 评论 ⭐️收藏 文章目录 前言一、发布项目二、解决发布失败1.发布失败2.托管…

【论文笔记】An Effective Adversarial Attack on Person Re-Identification ...

原文标题&#xff08;文章标题处有字数限制&#xff09;&#xff1a; 《An Effective Adversarial Attack on Person Re-Identification in Video Surveillance via Dispersion Reduction》 Abstract 通过减少神经网络内部特征图的分散性攻击reid模型。 erbloo/Dispersion_r…

Scratch 第十四课-打地鼠游戏

第十四课-打地鼠游戏 学习目标 这节课我们一起来做一款打地鼠游戏 如何画圆形以及如何使用复制粘贴功能随机数在游戏中的实际应用逻辑运算符与判断语句的使用 程序设计 程序分析 &#xff1a; 打地鼠游戏小朋友们都玩过&#xff0c;在多个洞里面随机伸出老鼠的头&#xff0…

Github配置ssh key的步骤

1. 检查本地主机是否已经存在ssh key 是否存在 id_rsa 和 id_rsa.pub文件&#xff0c;如果存在&#xff0c;说明已经有SSH Key 如下图所示&#xff0c;则表明已经存在 如果存在&#xff0c;直接跳到第三步 2. 生成ssh key 如果不存在ssh key&#xff0c;使用如下命令生…

机器学习(II)--样本不平衡

现实中&#xff0c;样本&#xff08;类别&#xff09;样本不平衡&#xff08;class-imbalance&#xff09;是一种常见的现象&#xff0c;如&#xff1a;金融欺诈交易检测&#xff0c;欺诈交易的订单样本通常是占总交易数量的极少部分&#xff0c;而且对于有些任务而言少数样本更…

Linux系统中的高级多线程编程技术

在Linux系统中&#xff0c;多线程编程是一种常见的并发编程模型&#xff0c;通过利用多线程可以实现程序的并发执行&#xff0c;提高系统的性能和响应速度。在Linux系统中&#xff0c;开发人员通常使用 pthread 库来进行多线程编程&#xff0c;同时需要掌握线程同步技术以避免并…

代码随想录第二十五天 78.子集 90.子集II 491.非递减子序列

LeetCode 78 子集 题目描述 给你一个整数数组 nums &#xff0c;数组中的元素 互不相同 。返回该数组所有可能的子集&#xff08;幂集&#xff09;。 解集 不能 包含重复的子集。你可以按 任意顺序 返回解集。 示例 1&#xff1a; 输入&#xff1a;nums [1,2,3] 输出&…

使用git的小笔记

平时工作中使用git存储项目代码&#xff0c; 常用的命令 拉取仓库代码 git clone http://100.100.100.100:9080/my_test/test.git 拉取到以后&#xff0c; 先切换到自己的分支 git checkout my_name 一顿魔改代码 然后 add 新增的文件或者修改的文件 git add * 然后提交 并写…

IDEA创建Sping项目只能勾选17和21,却无法使用Java8

报错信息 The required java version 17 is not supported by the project SDK 1.8.The maximum supported Java version is 8. 想创建一个springboot项目&#xff0c;本地安装jdk版本为1.8&#xff0c;但是在使用 Spring Initializr创建项目时,版本只能选择21或17&#xff0c;…

02、MongoDB -- MongoDB 的安全配置(创建用户、设置用户权限、启动安全控制、操作数据库命令演示、mongodb 的帮助系统介绍)

目录 MongoDB 的安全配置启动 mongodb 服务器 和 客户端 &#xff1a;1、启动单机模式的 mongodb 服务器2、启动 mongodb 的客户端 MongoDB 的安全配置启动演示用到的 mongodb 服务器 和 客户端启动单机模式的 mongodb 服务器&#xff1a;启动 mongodb 的客户端 MongoDB 操作数…

Spring Boot与Docker部署

系列文章目录 文章目录 系列文章目录前言一、开启Docker远程访问二、新建Maven工程三、创建Java类四、创建Dockerfile五、完整目录结构如下所示:六、Docker启动镜像前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,…

Linux/Centos 部署静态IP,解决无法访问目标主机、Destination Host Unreachable、无法ping通互联网的问题

Linux/Centos 部署IP&#xff0c;解决无法访问目标主机、Destination Host Unreachable、无法ping通互联网的问题 Linux/Centos 部署静态IP查物理机/自身电脑的IP设置VMware上的虚拟网络编辑器设置网卡IP&#xff0c;激活至此就可访问百度了 Linux/Centos 部署静态IP 需要注意…

小程序自定义组件

自定义组件 1. 创建-注册-使用组件 组件介绍 小程序目前已经支持组件化开发&#xff0c;可以将页面中的功能模块抽取成自定义组件&#xff0c;以便在不同的页面中重复使用&#xff1b; 也可以将复杂的页面拆分成多个低耦合的模块&#xff0c;有助于代码维护。 开发中常见的…

数通HCIE和云计算HCIE哪个好一点?

数通是网络的基础知识&#xff0c;也是入门人员必学的方向&#xff0c;相对也会简单些&#xff0c;学习数通&#xff0c;可以很好的学习其他的方向。数通的就业范围也比较广&#xff0c;运营商、企业、政府还是互联网公司&#xff0c;都需要大量的数通工程师来搭建和维护网络&a…

Sora引发安全新挑战

文章目录 前言一、如何看待Sora二、Sora加剧“深度伪造”忧虑三、Sora无法区分对错四、滥用导致的安全危机五、Sora面临的安全挑战总结前言 今年2月,美国人工智能巨头企业OpenAI再推行业爆款Sora,将之前ChatGPT以图文为主的生成式内容全面扩大到视频领域,引发了全球热议,这…

MATLAB练习题:排队论问题的模拟

​讲解视频&#xff1a;可以在bilibili搜索《MATLAB教程新手入门篇——数学建模清风主讲》。​ MATLAB教程新手入门篇&#xff08;数学建模清风主讲&#xff0c;适合零基础同学观看&#xff09;_哔哩哔哩_bilibili 下面我们来看一道排队论的题目。假设某银行工作时间内只有一个…

生成式人工智能治理:入门的基本技巧

GenAI 以前所未有的速度调解并扰乱了“一切照旧”&#xff0c;同时带来了令人难以置信的力量&#xff0c;但也带来了不可否认的责任。当然&#xff0c;现代企业非常熟悉技术进步。然而&#xff0c;人工智能的到来&#xff08;和实施&#xff09;无疑引起了相当大的冲击&#xf…

性能优化篇(二) 静态合批步骤与所有注意事项\游戏运行时使用代码启动静态合批

静态合批步骤: 1.开启Project Settings —>Player–>Other Setting里勾选Static Batching选项(一般情况下unity都是默认勾选状态) 2.勾选需要合批的静态物体上的Batching Static项,勾选后此物体下的所有子物体都默认参与静态合批(勾选后物体不能进行移动/旋转/缩放操作,…

Zookeeper4:Java客户端、应用场景以及实现、第三方客户端curator工具包

文章目录 Java连接Zookeeper服务端依赖代码使用 应用场景统一命名服务统一配置管理统一集群管理服务器节点动态上下线理解实现模拟服务提供者【客户端代码】-注册服务模拟服务消费者【客户端代码】-获取服务信息进行请求消费 软负载均衡分布式锁理解实现 生产集群安装N台机器合…