中文连续视觉语音识别挑战赛

news2025/1/15 14:02:26

视觉语音识别,也称唇语识别,是一项通过口唇动作来推断发音内容的技术。该技术在公共安全、助老助残、视频验真等领域具有重要应用。当前,唇语识别的研究方兴未艾,虽然在独立词、短语等识别上取得了长足进展,但在大词表连续识别方面仍面临巨大挑战。特别是对于中文而言,由于缺乏相应的数据资源,该领域的研究进展受到了限制。为此,清华大学在2023年发布了CN-CVS数据集,成为首个大规模的中文视觉语音识别数据库,为进一步推动大词表连续视觉语音识别 (LVCVSR) 提供了可能。

为推动这一研究方向的发展,由清华大学、北京邮电大学、海天瑞声、语音之家联合举办2023 NCMMSC特殊议题:中文连续视觉语音识别挑战赛(CNVSRC, Chinese Continuous Visual Speech Recognition Challenge)正式对外发布。本次赛事以 CN-CVS 中文视觉语音识别数据库为基础数据,评估在录音室朗读 (Reading) 和网络演讲 (Speech) 两类场景下的 LVCVSR 系统的性能。比赛结果将在 NCMMSC 2023 会议上宣布并颁奖。

任务设置

CNVSRC 2023 共设有两个任务:

  • T1:特定说话人视觉语音识别 (Single-speaker VSR) 

  • T2:多个说话人视觉语音识别 (Multi-speaker VSR)

前者侧重于针对某一特定说话人进行大量数据调优后的性能,后者侧重于系统对非特定说话人的基础性能。每个任务根据训练数据不同,又分为固定赛道 (Fixed Track) 和开放赛道 (Open Track)。

固定赛道仅允许使用 CN-CVS 数据集即各任务发布的开发集作为训练集,旨在验证算法的先进性。开放赛道则可以使用任何数据进行训练,旨在验证当前技术能够达到的性能上限。清华大学将提供固定赛道上的基线系统代码,供参赛者作为参考。

数据集

•  CN-CVS: CN-CVS包含2557名说话人超过300小时的音视频数据,覆盖新闻播报与公开演讲场景,是目前最大的开源中文音视频数据集。主办方为本次竞赛提供了该数据库的文本标注。更多关于CN-CVS的信息请访问数据库官网CN-Celeb。该数据集作为本次竞赛闭集任务的训练集。

•  CNVSRC-Single: CNVSRC2023单人大数据。包含一名说话人超过100小时的音视频数据,数据来源于网络视频,其中十分之九的数据构成开发集,剩余十分之一的数据作为测试集。

•  CNVSRC-Multi: CNVSRC2023多人限量数据。包含43名说话人的音视频数据,每人的数据量接近1小时,其中每个人的三分之二数据构成开发集,剩余数据构成测试集。其中23名说话人的数据来源于受控环境下朗读固定机位录制,且单条数据时长相对较短。另20名说话人的数据来源于网络的演讲视频,单条数据时长较长,环境和内容较为复杂。

对于训练集和开发集,主办方提供音频、视频和对应的转录文本;对于测试集,则仅提供视频数据。参赛者不得以任何方式使用测试集,包括但不限于使用测试集帮助模型训练或者微调等。

数据集CNVSRC-SingleCNVSRC-Multi
开发集 Dev测试集 Eval开发集 Dev测试集 Eval
视频条数2594728812045010269
视频时长(小时)94.008.4129.24 14.49

参赛方式

参赛者需在CNCeleb官网上注册CNVSRC账号

请访问如下网址进行注册:CN-Celeb

注册以后,用户可以依据提示下载数据资源(CN-CVS, CNVSRC-Single, CNVSRC-Multi)。

CNVSRC 2023 以字错误率(Character Error Rate, CER)为评测准则。结果提交时,参赛者需要登录CNVSRC账号,进入CNVSRC 2023结果提交页面,选择对应的任务和赛道,提交结果文件。结果文件中每一行对应一条测试视频,以该视频的ID开始,后接对应的转录文本。内容提交后,系统自动计算CER并显示给参赛者。对每个任务每个赛道,参赛者有5次提交机会。

基线系统

主办方提供了固定赛道条件下多说话人和特定说话人两个任务的基线系统供。该基线系统采用基于Conformer的结构,模型性能如下。

TaskSingle-speaker VSRMulti-speaker VSR
CER on Dev Set48.57%58.77%
CER on Eval Set48.60%58.37%

参赛者可以通过下面网址获得基线系统的代码:https://github.com/MKT-Dataoceanai/CNVSRC2023Baseline

赛程安排

2023/09/20                    开启报名,训练数据集、开发数据集、基线系统发布

2023/10/10                    测试数据集发布

2023/11/01                    提交系统开放

2023/12/01 晚12点        提交结果截止

2023/12/09                    NCMMSC 2023 Workshop,公布成绩、优秀竞赛方案分享

组委会

· DONG WANG, Center for Speech and Language Technologies, Tsinghua University, China
· CHEN CHEN, Center for Speech and Language Technologies, Tsinghua University, China 
· LANTIAN LI, Beijing University of Posts and Telecommunications, China
· KE LI, Beijing Haitian Ruisheng Science Technology Ltd., China
· HUI BU, Beijing AIShell Technology Co. Ltd, China

报名传送门

2023 中文连续视觉语音识别挑战赛

Chinese Continuous Visual Speech Recognition Challenge 2023

Step1.  注册CNVSRC账号

CN-Celeb

*注册后可下载数据资源:CN-CVS, CNVSRC-Single, CNVSRC-Multi

Step2.  基线系统代码

https://github.com/MKT-Dataoceanai/CNVSRC2023Baseline

CNVSRC 2023 Website

CN-Celeb

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1108311.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

FCKeditor编辑器漏洞

FCKeditor在网页上属于开发源代码的文字编辑器,FCK是作者的名字 搭建环境 查看版本http://192.168.246.20:89/_whatsnew.html 编辑器界面http://192.168.246.20:89/_samples/default.html 常用上传地址 FCKeditor/editor/filemanager/browser/default/browser.html…

华为云HECS服务器下docker可视化(portainer)

一、docker安装 华为云HECS安装docker-CSDN博客 二、portainer安装 portainer地址:Portainer: Docker and Kubernetes Management Platform 当前portainer分CE(开源版) 和 BE(商业版),用CE即可 1 创建…

聚观早报 | 真我GT5 Pro即将登场;OPPO Find N3即将亮相

【聚观365】10月18日消息 真我GT5 Pro即将登场 OPPO Find N3即将亮相 小米澎湃OS正式版已完成封包 百川智能获3亿美元A1轮融资 理想MEGA实车曝光 真我GT5 Pro即将登场 8月28日,全新的真我GT5正式亮相,该机拥有安卓阵营最强悍的性能配置&#xff0c…

kali使用docker安装DVWA

上一篇文章我记录了如何使用kali安装DVWA,但是我是一个一个组件安装的,非常麻烦,比如数据库还需要配置,花费时间很多。昨天在逛github时,发现大佬的靶场都是通过docker打包好的,如果我也用docker安装DVWA&a…

[部署网站02]下载安装 unix PHP7.4 Swoole Loader扩展文件

1.下载地址: 链接:https://pan.baidu.com/s/13FA0lu_9uu6yhpHHA0P2yA?pwdhft7 提取码:hft7 2 、安装Swoole Loader 将刚才下载的Swoole Loader扩展文件(swoole_loader74.so)上传到当前PHP的扩展安装目录中&#x…

DAQ进行准确的测量,为决策提供更可靠的依据

进行准确的测量,为决策提供更可靠的依据 DAQExpress提供了交互式分析面板,可帮助您轻松配置兼容的测量硬件,以及查看分析测量数据。无需编程即可立即捕获测量数据,或者在DAQExpress编辑器中创建一个基本的LabVIEW VI,…

BERT变体(1):ALBERT、RoBERTa、ELECTRA、SpanBERT

Author:龙箬 Computer Application Technology Change the World with Data and Artificial Intelligence ! CSDNweixin_43975035 *天下之大,虽离家万里,何处不可往!何事不可为! 1. ALBERT \qquad ALBERT的英文全称为A Lite versi…

【Leetcode】【简单】136.只出现一次的数字

力扣(LeetCode)官网 - 全球极客挚爱的技术成长平台备战技术面试?力扣提供海量技术面试资源,帮助你高效提升编程技能,轻松拿下世界 IT 名企 Dream Offer。https://leetcode.cn/problems/single-number/description/ 给…

【AIFEM案例操作】水轮机转轮强度和模态分析

AIFEM是由天洑自主研发的一款通用的智能结构仿真软件,助力用户解决固体结构相关的静力学、动力学、振动、热力学等实际工程问题,软件提供高效的前后处理工具和高精度的有限元求解器,帮助用户快速、深入地评估结构的力学性能,加速产…

矩阵置零(C++解法)

题目 给定一个 m x n 的矩阵,如果一个元素为 0 ,则将其所在行和列的所有元素都设为 0 。请使用 原地 算法。 示例 1: 输入:matrix [[1,1,1],[1,0,1],[1,1,1]] 输出:[[1,0,1],[0,0,0],[1,0,1]]示例 2: 输入…

Spring AMQP

大家好我是苏麟 今天说一说spring aqmp。 SpringAMQP SpringAMQP是基于RabbitMQ封装的一套模板&#xff0c;并且还利用SpringBoot对其实现了自动装配&#xff0c;使用起 来非常方便。 官方 : Spring AMQP 依赖 <!--AMQP 包含RabbitMQ--><dependency><groupId&g…

三款经典的轮式/轮足机器人讲解,以及学习EG2133产生A/B/C驱动电机。个人机器人学习和开发路线(推荐)

1&#xff0c;灯哥开源&#xff08;有使用指南&#xff0c;适合刚入门新手&#xff09; 机械部分&#xff1a;2个foc无刷电机 硬件和软件部分&#xff1a;没有驱动板子。只有驱动器&#xff0c;主控板esp32和驱动器通过pwm直接通讯。驱动器板子上有蓝色电机接口&#xff0c;直…

常见的 NoSQL 数据库有哪些?

前言 今天我们来介绍一下工作开发中常见的一些NoSQL数据库及其基本特点。欢迎在评论区留下文章中没有介绍且好用的NOSQL数据库&#x1f91e;。 什么是&#xff08;NOSQL&#xff09;非关系型数据库 非关系型数据库又被称为 NoSQL&#xff08;Not Only SQL )&#xff0c;意为不…

第八章动态规划+第九章同余【算法zxd】

算法设计过程&#xff1a; ①问题分析 ②算法策略 / 建立计算模型 ③算法设计与描述 ④算法分析 [ 算法选择 ] ⑤算法实现 ⑥测试与结果分析 ⑦文档编制 常用结论&#xff1a; 对数低于多项式&#xff1b;多项式低于指数 常用公式&#xff1a; 定理2.5 第八章&#xff1…

软件工程与计算总结(十九)软件测试

目录 ​编辑 一.引言 1.验证与确认 2.目标 3.测试用例 4.桩与驱动 5.缺陷、错误与失败 二.测试层次 1.测试层次的划分 2.单元测试 3.集成测试 4.系统测试 三.测试技术 1.测试用例的选择 2.随机测试 3.基于规格的技术&#xff08;黑盒测试&#xff09; 4.基于代…

你的DOT即将解锁,请注意以下事项

作者&#xff1a; David 还记得两年前Polkadot平行链卡槽拍卖质押吗&#xff1f; 参与平行链众贷&#xff0c;质押DOT两年&#xff0c;选择投票的项目方&#xff0c;获得相应token奖励。当年质押的DOT即将解锁&#xff0c;就在十月底&#xff0c;10月24日请注意。 第一批解锁…

【C语言刷题】模拟实现offsetof宏

本篇文章目录 1. 宏offsetof的作用2. 分析该如何模拟实现3.模拟实现 1. 宏offsetof的作用 在www.cplusplus.com中对offsetof宏的功能描述&#xff1a; 这个宏的作用就是传入一个结构体类型和一个成员名&#xff0c;返回这个成员相对比这个结构体起始位置的偏移量&#xff08…

深度学习零基础教程

代码运行软件安装&#xff1a; anaconda:一个管理环境的软件–>https://blog.csdn.net/scorn_/article/details/106591160&#xff08;可选装&#xff09; pycharm&#xff1a;一个深度学习运行环境–>https://blog.csdn.net/scorn_/article/details/106591160&#xf…

c语言内功修炼--深度剖析数据的存储

前言&#xff1a; 我们知道在c语言中的几种基本内置数据类型&#xff0c;分别是&#xff1a; char //字符数据类型 short //短整型 int //整形 long //长整型 long long //更长的整形 float //单精度浮点数 double //双精度浮点数 在…

【】02-02序列求和----二分检索

数列求和公式&#xff1a; 例子&#xff1a; 二分检索算法:&#xff08;有序数列&#xff09; 输入的分析结果&#xff1a; 比较t次的输入个数&#xff1a; 比较K次&#xff0c;是还需要加上间隙处的情况。 如k2;下标 1 2 3 比较k次时 low1,high3 while 第1次循环 &…