视觉语音识别挑战赛 CNVSRC 2024

news2024/12/28 21:41:11

       CNVSRC 2024由NCMMSC 2024组委会发起,清华大学、北京邮电大学、海天瑞声、语音之家共同主办竞赛的目标是通过口唇动作来推断发音内容,进一步推动视觉语音识别技术的发展。视觉语音识别(也称为读唇技术)是一种通过观察唇部动作推断发音内容的技术,广泛应用于公共安全、辅助老年人和残疾人以及假视频检测等领域。

     当前,读唇研究仍处于初级阶段,无法满足实际应用需求。尽管在短语识别上取得了显著进展,但在大规模连续识别方面仍面临巨大挑战,尤其是中文的研究进展因缺乏相关数据资源而受到很大限制。

1、挑战任务

单说话人视觉语音识别 (Single-speaker VSR, T1):专注于对特定说话人大规模调整的性能。

  • 固定赛道只允许使用组委会允许的数据和其他资源。
  • 开放赛道可以使用任何资源,但不能使用评估集。

多说话人视觉语音识别 (Multi-speaker VSR, T2):专注于系统对非特定说话人的基本性能。

  • 固定赛道只允许使用组委会允许的数据和其他资源。
  • 开放赛道可以使用任何资源,但不能使用评估集。

2、挑战数据集

  • CN-CVS:2023年,清华大学的CSLT(Center for Speech and Language Technologies)发布了CN-CVS数据集,包含超过2557名说话者的视觉语音数据,超过300小时,涵盖新闻广播和公共演讲场景,是目前最大的开源中文视觉语音数据集,为推动大规模连续视觉语音识别(LVCVSR)提供了可能性
  • CNVSRC-Single:单说话者数据,包含来自互联网媒体的音频和视频数据,超过100小时。
  • CNVSRC-Multi:多说话者数据,包含43名说话者的音频和视频数据,每人近1小时。
  • CN-CVS2-P1:开放式赛道的额外数据源,提供超过16万句话语,总时长约200小时。

3、评估指标

CNVSRC 2024使用字符错误率(Character Error Rate, CER)作为主要评价指标。

CER主要由三种类型的错误组成:插入(Insertion)、替代(Substitution)和删除(Deletion),Nins、Nsubs、Ndel代表三种类型的错误数量,Ntotal代表错误总数量。

  • 插入错误发生在正确的字符之间不应该有任何字符,但实际上却出现了一个额外的字符。
  • 替代错误是指正确的字符被错误地替换为另一个字符。
  • 删除错误发生在一个字符应该存在的地方,但是却没有该字符。
  • 4、基线系统性能

基线系统旨在提供一个合理的性能基准,使用与固定赛道(Fixed Track)允许的数据资源相同的数据集构建。基线系统采用Conformer结构作为主要的构建块。Conformer是一种流行的神经网络架构,结合了卷积神经网络(CNN)和循环神经网络(RNN)的优点,常用于语音识别任务。

基线系统的性能通过字符错误率(CER)来衡量,这是评估视觉语音识别系统的主要指标。

  • 在固定赛道的单说话者视觉语音识别(VSR)任务上,基线系统在开发集(Dev Set)上的CER为41.22%,在评估集(Eval Set)上的CER为39.66%。
  • 在多说话者视觉语音识别任务上,基线系统在开发集上的CER为52.42%,在评估集上的CER为52.20%。

5、如何降低字符错误率(CER)并提高视觉语音识别(VSR)的准确率

  • 改进特征提取:利用更有效的视觉特征提取技术,如3D卷积、自注意力机制等,以获取更丰富的时空信息。
  • 增加训练数据量:利用数据增强技术如裁剪、旋转、缩放等来扩展训练数据集,同时收集更多高质量的训练数据。
  • 引入语言模型:使用N-gram或RNN语言模型,以约束解码器输出合理的单词序列。
  • 使用预训练模型:在固定赛道中,可以利用预训练的声学模型和语言模型作为特征提取器。
  • 改进解码器:尝试使用集束搜索或基于注意力机制的解码器,以提高解码质量。
  • 模型融合:使用集成学习技术,如模型平均或堆叠,以提高整体性能。
  • 数据清洗和增强:对训练数据进行清洗,去除质量较差的样本,并进行增强以提高模型的泛化能力。
  • 微调和调优:在测试集上进行模型调优,找到最优的模型参数配置。
  • 研究注意力机制:设计新的注意力机制,以使模型更关注关键信息,如嘴唇区域。
  • 使用端到端训练:通过端到端训练,使模型各部分能更好地协同工作。

6、关键日期

2024.05.08

注册开始

2024.05.08

数据集发布

2024.05.08

基线系统发布

2024.07.01

递交系统开放

2024.08.01

结果递交截止

2024.08.15

NCMMSC 2024 研讨会

7、相关资源

官网:http://cnceleb.org/competition#registration

基线系统源代码:Files · cncvs · Lantian Li / Sunine · GitLab。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1711005.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Cweek2+3

C语言学习 五.操作符 5.单目操作符(2) sizeof不能用于计算动态分配的内存 在对数组使用sizeof时,返回的是整个数组的大小(所有元素的总字节数)。而对指针使用sizeof时,返回的是指针本身的大小(通常是机器字长的大小…

基础技术-ELF系列2-ELF文件进阶与libelf库

成就更好的自己 本篇是基础技术系列中ELF相关技术的第二篇,将会详细介绍一下ELF文件的结构。 没有看过之前的文章的朋友请重新开始,博主观点比较清奇,否则可能会有一些不太明白的地方: 基础技术-ELF系列(1)-ELF文件基础-CSDN博…

【设计模式】JAVA Design Patterns——Data Transfer Object(数据传递对象模式)

🔍目的 次将具有多个属性的数据从客户端传递到服务器,以避免多次调用远程服务器 🔍解释 真实世界例子 我们需要从远程数据库中获取有关客户的信息。 我们不使用一次查询一个属性,而是使用DTO一次传送所有相关属性。 通俗描述 使用…

pytorch-16 复现经典网络:LeNet5与AlexNet

一、相关概念 对于(10,3,227,227)数据表示,10张3通道的图,图的大小(特征数)为227*227. 通道数:作为卷积的输入通道数和输出通道数。 特征数:特征图的大小 步长stride和填充padding&…

文章结尾,铺垫下一章带来的期待

你是否容易在阅读时打瞌睡? 是否有很多买回来的书,放在书架上一年甚至几年都未读完,积满了灰尘? 但是,对于小说和电视剧,你却完全停不下来。每集片尾的预告激发了你持续观看下一集的渴望,带来了无限的期待…… 当你撰写文章或编写工具书时,内容可能呈现出乏味的面貌…

二叉树习题精讲-单值二叉树

单值二叉树 965. 单值二叉树 - 力扣(LeetCode)https://leetcode.cn/problems/univalued-binary-tree/description/ 判断这里面的所有数值是不是一样 方案1:遍历 方案2:拆分子问题 /*** Definition for a binary tree node.* struc…

数据库自动化管理的六大等级

什么是数据库自动化管理? 数据库自动化管理是指通过使用工具和流程,在尽量减少人为干预的情况下,管理和执行与数据库相关的任务。主要目的当然是提高效率,减少人为错误,确保一致性,并解放 DBA 和开发者&am…

系统思考—决策

风险来自于你不知道你在做什么。——沃伦巴菲特 今天和一个合作伙伴的创始人交流,她提出了一个引人深思的问题:“策略性陪伴和战略复盘,什么原因不由客户自己来做?”这个问题让我深入思考了第三方策略性陪伴顾问的独特价值和重要…

《征服数据结构》块状链表

摘要: 1,块状链表的介绍 2,块状链表的代码实现(Java和C) 1,块状链表的介绍 前面我们讲过数组和链表,数组具有 O(1)的查询时间,O(N)的删除,O(N)的插入,而链表具…

java 对接农行支付相关业务(二)

文章目录 农行掌银集成第三方APP1:掌银支付对接快e通的流程1.1 在农行网站上注册我们的app信息([网址](https://openbank.abchina.com/Portal/index/index.html))1.2:java整合农行的jar包依赖1.3:把相关配置信息整合到项目中1.4:前端获取授权码信息1.5:后端根据授权码信…

Unity【入门】环境搭建、界面基础、工作原理

Unity环境搭建、界面基础、工作原理 Unity环境搭建 文章目录 Unity环境搭建1、Unity引擎概念1、什么是游戏引擎2、游戏引擎对于我们的意义3、如何学习游戏引擎 2、软件下载和安装3、新工程和工程文件夹 Unity界面基础1、Scene场景和Hierarchy层级窗口1、窗口布局2、Hierarchy层…

Spring Cloud Alibaba-06-Sleuth链路追踪

Lison <dreamlison163.com>, v1.0.0, 2024.4.03 Spring Cloud Alibaba-06-Sleuth链路追踪 文章目录 Spring Cloud Alibaba-06-Sleuth链路追踪为什么使用链路追踪常见链路追踪解决方案Sleuth概述概述Sleuth术语 Sleuth Zipkin 原理Sleuth原理简述Zipkin 原理简述 Sleut…

剪画小程序:自媒体创作的第一步:如何将视频中的文案提取出来?

自媒体创作第一步&#xff0c;文案提取无疑是至关重要的一环。 做自媒体之所以要进行文案提取&#xff0c;有以下重要原因&#xff1a; 首先&#xff0c;提高效率。通过文案提取&#xff0c;可以快速获取关键信息&#xff0c;避免在无关紧要的内容上浪费时间&#xff0c;从而…

OpenEuler安装

1.下载镜像文件 2.新建虚拟机 版本选替他linux5.x内核64位 内存选4G 磁盘大小选40GB 内存和磁盘大小不能按默认&#xff0c;不然会很卡甚至没反应 优先使用英语 安装目的地一开始会有警告标志&#xff0c;点进去点完成 输入密码时不能太短还要保证拥有至少三种字符类型 等待安…

【数据结构】AVL树——平衡二叉搜索树

个人主页&#xff1a;东洛的克莱斯韦克-CSDN博客 祝福语&#xff1a;愿你拥抱自由的风 目录 二叉搜索树 AVL树概述 平衡因子 旋转情况分类 左单旋 右单旋 左右双旋 右左双旋 AVL树节点设计 AVL树设计 详解单旋 左单旋 右单旋 详解双旋 左右双旋 平衡因子情况如…

基于微信小程序+ JAVA后端实现的【微信小程序跑腿平台】设计与实现 (内附设计LW + PPT+ 源码+ 演示视频 下载)

项目名称 项目名称&#xff1a; 《微信小程序跑腿平台的设计与实现》 项目技术栈 该项目采用了以下核心技术栈&#xff1a; 后端框架/库&#xff1a; Java, SSM框架数据库&#xff1a; MySQL前端技术&#xff1a; 微信小程序, HTML…&#xff08;其它相关技术&#xff09; …

.BFS.

BFS &#xff08;Breadth-First Search&#xff09;是一种用于遍历或搜索树&#xff08;tree&#xff09;或图&#xff08;graph&#xff09;的算法。 这个算法从根&#xff08;或某个任意节点&#xff09;开始&#xff0c;并探索最近的邻居节点&#xff0c; 然后再探索那些节点…

adb的常见操作和命令

最近学习adb的时候&#xff0c;整理了一些adb的使用场景&#xff0c;如&#xff1a;adb与设备交互&#xff0c;adb的安装、卸载&#xff0c;adb命令启动&#xff0c;通过命令清除缓存&#xff0c;文件传输和日志操作。 adb的两大作用&#xff1a;在app测试的时候可以提供监控日…

如何高效测试防火墙的NAT64与ALG应用协议转换能力

在本文开始介绍如何去验证防火墙&#xff08;DUT&#xff09;支持NAT64 ALG应用协议转换能力之前&#xff0c;我们先要简单了解2个比较重要的知识点&#xff0c;即&#xff0c;NAT64和ALG这两个家伙到底是什么&#xff1f; 网络世界中的“翻译官” - NAT64技术 简而言之&…

【Linux安全】iptables防火墙(二)

目录 一.iptables规则的保存 1.保存规则 2.还原规则 3.保存为默认规则 二.SNAT的策略及应用 1.SNAT策略的典型应用环境 2.SNAT策略的原理 2.1.未进行SNAT转换后的情况 2.2.进行SNAT转换后的情况 3.SNAT策略的应用 3.1.前提条件 3.2.实现方法 三.DNAT策略及应用 1…