第二届视觉语音识别挑战赛 CNVSRC 2024 启动

news2024/12/28 20:07:25

由 NCMMSC 2024 组委会发起,清华大学、北京邮电大学、海天瑞声、语音之家共同主办的第二届中文连续视觉语音识别挑战赛 CNVSRC 2024 即日启动,诚邀参与报名。

图片

视觉语音识别,也称唇语识别,是一项通过口唇动作来推断发音内容的技术。该技术在公共安全、助老助残、视频验真等领域具有重要应用。当前,唇语识别的研究方兴未艾,虽然在独立词、短语等识别上取得了长足进展,但在大词表连续识别方面仍面临巨大挑战。特别是对于中文而言,由于缺乏相应的数据资源,该领域的研究进展受到了限制。为此,清华大学在2023年发布了 CN-CVS 数据集[1],成为首个大规模的中文视觉语音识别数据库,为进一步推动大词表连续视觉语音识别 (LVCVSR) 提供了可能。关于 CN-CVS 数据集的更多信息,可访问数据库官网 http://cnceleb.org 。

为推动这一研究方向的发展,清华大学联合北京邮电大学、海天瑞声和语音之家将在  NCMMSC 2024 举办第二届中文连续视觉语音识别挑战赛 (CNVSRC 2024, Chinese Continuous Visual Speech Recognition Challenge)。本次赛事以 CN-CVS 中文视觉语音识别数据库为基础数据,评估在录音室朗读 (Reading) 和网络演讲 (Speech) 两类场景下的 LVCVSR 系统的性能。比赛结果将在 NCMMSC 2024 会议上宣布并颁奖。

相较于第一届 CNVSRC 2023,本届 CNVSRC 2024 提供了更强大的固定赛道基线系统以及可用于开放赛道的额外数据集 CN-CVS2-P1。

任务设置

CNVSRC 2024 共设有两个任务:

- T1:特定说话人视觉语音识别 (Single-speaker VSR) 

- T2:多个说话人视觉语音识别 (Multi-speaker VSR)

前者侧重于针对某一特定说话人进行大量数据调优后的性能,后者侧重于系统对非特定说话人的基础性能。每个任务根据训练数据不同,又分为固定赛道 (Fixed Track) 和开放赛道 (Open Track)。

固定赛道仅允许使用 CN-CVS 数据集即各任务发布的开发集作为训练集,旨在验证算法的先进性。开放赛道则可以使用任何数据进行训练(例如,CN-CVS2-P1),旨在验证当前技术能够达到的性能上限。清华大学提供固定赛道上的基线系统代码,供参赛者作为参考。

参赛方式

CNVSRC 2024 对任何个人和机构开放。目前,竞赛官网已经启动并接受报名。关于竞赛规则、时间节点等更多信息,可扫描下方二维码进入竞赛官网,或在浏览器中访问网址 CN-Celeb  。

图片

[1] C. Chen, D. Wang, T.F. Zheng, CN-CVS: A Mandarin Audio-Visual Dataset for Large Vocabulary Continuous Visual to Speech Synthesis, ICASSP, 2023.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1679093.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何在华企盾DSC防泄密系统中设置文件自动加密?

在华企盾DSC系统中设置文件自动加密的过程,简单且用户友好,确保了企业数据的安全,同时不干扰日常工作流程。以下是设置文件自动加密的步骤: 系统安装与配置:确保华企盾DSC数据防泄密系统已经在企业的网络中正确安装和配…

【刷题(3)】双指针

一、双指针问题基础 二、283. 移动零 1 题目 2 解题思路 (1)遍历数组,把不是零的放到一个新容器中 (2)遍历结束后,在新容器末尾插入0 (3)注意,必须在不复制数组的情况…

mobarxtem应用与华为设备端口绑定技术

交换机端口绑定 华为交换机的基础配置与MOBAXTERM终端连接 实验步骤: 一、给每个交换机划分vlan并添加端口 1.单个vlan的划分 2.批量划分vlan 在高端交换机CE6800上批量划分连续编号的VLAN,本例中连续的vlan20到vlan25 [~CE6800]vlan b 20 to 25 3…

使用websocket和服务建立链接慢的原因分析

1、java 项目使用websocketHandler创建websocket服务,在拦截器HttpSessionHandshakeInterceptor中,beforeHandshake日志到的很快,afterHandshake很慢 建立链接一直在连接中 2、原因分析: 找到服务器上的进程名 jps -l 3、使用…

Java开发大厂面试第01讲:String 的特点及其重要的方法都有哪些?

几乎所有的 Java 面试都是以 String 开始的,如果第一个问题没有回答好,则会给面试官留下非常不好的第一印象,而糟糕的第一印象则会直接影响到自己的面试结果,就好像刚破壳的小鹅一样,会把第一眼看到的动物当成自己的母…

处理Mini-ImageNet数据集,用于分类任务

一、Mini-ImageNet数据集介绍 ImageNet 1000类的数据太大了,全部下载大概有100GB左右。 2016年google DeepMind团队从ImagNet数据集中抽取的一小部分(大小约3GB)制作了Mini-ImageNet数据集,共有100个类别,每个类别有…

人物介绍模板 PSD 源文件免费获取

免费获取 下载链接在最后! 下载链接在最后! 下载链接在最后! 下载链接在最后! 下载链接在最后! 链接:https://pan.baidu.com/s/1sq3e6djMdZt76Sh_uqVxWg 提取码:naun

Cache基本原理--以TC3xx为例(1)

目录 1.为什么要使用Cache 2.Memory与Cache如何映射 2.1 地址映射概设 3.小结 为什么要使用Cache?为什么在多核工程里要谨慎使用DCache?Cache里的数据、指令是如何与Memory映射? 灵魂三连后,软件工程师应该都会有模糊的回答&…

数字集成电路物理设计[陈春章]——知识总结与精炼02

第二章 物理设计建库与验证 2.1 集成电路工艺与版图 自行了解,关于闩锁效应可查阅小编之前的文章。 2.2 设计规则检查(DRC) 定义:晶圆代工厂对各自不同工艺参数制定出满足芯片制造良率的同一工艺层及不同工艺层之间几何尺寸的…

【论文阅读 | 三维重建】3D Gaussian Splatting for Real-Time Radiance Field Rendering(3DGS)

Abstract 辐射场方法最近彻底改变了用多张照片或视频捕获的新颖视图合成,然而实现高视觉质量仍然需要训练和渲染成本高昂的神经网络,而最近更快的方法不可避免地要牺牲速度来换取质量。对于无边界和完整的场景和1080P分辨率的渲染,目前没有任…

【练习】分治--快排思想

🎥 个人主页:Dikz12🔥个人专栏:算法(Java)📕格言:吾愚多不敏,而愿加学欢迎大家👍点赞✍评论⭐收藏 目录 颜色分类 题目描述 题解 代码实现 排序数组 题目描述 题解 代码…

Python项目——基于回合制的RPG游戏设计与实现

基于回合制的RPG游戏设计与实现 项目概述 《魔法冒险》是一款基于回合制战斗的角色扮演游戏。玩家将创建一个角色,探索世界,战斗敌人,收集物品并提升等级。 项目设计报告 一、引言 本项目的目标是实现一个基于回合制战斗的 RPG 游戏&…

冯喜运:5.15黄金原油晚盘分析:鲍威尔再放鹰,降息悬念重重

【黄金消息面分析】:在全球经济动荡和通胀预期不断上升的背景下,黄金作为传统的避险资产,再次成为投资者关注的焦点。当前,黄金价格交投于2370美元/盎司左右,连续两日日线呈现上涨趋势,而白银价格也在连续三…

CRWU凯斯西储大学轴承数据,12k频率,十分类

CRWU凯斯西储大学轴承数据,12k频率,十分类。 from torch.utils.data import Dataset, DataLoader from scipy.io import loadmat import numpy as np import os from sklearn import preprocessing # 0-1编码 from sklearn.model_selection import Str…

量化交易:日内回转交易策略

哈喽,大家好,我是木头左! 引言 本文将介绍日内回转交易策略的原理,并通过Python代码示例展示如何在掘金平台实现该策略。本文将深入探讨一种基于1分钟MACD(Moving Average Convergence Divergence,即移动平…

C++ LeetCode 刷题经验、技巧及踩坑记录【三】

C LeetCode 刷题经验、技巧及踩坑记录【三】 前言vector 计数vector 逆序vector 删除首位元素vector二维数组排序vector二维数组初始化C 不同进制输出C 位运算C lower_bound()C pairC stack 和 queue 前言 记录一些小技巧以及平时不熟悉的知识。 vector 计数 计数 //记录与首…

C# Winform+Halcon结合标准视觉工具

介绍 winform与halcon结合标准化工具实例 软件架构 软件架构说明 基于NET6 WINFORMHALCON 实现标准化视觉检测工具 集成相机通讯 集成PLC通讯 TCP等常见通讯 支持常见halcon算子 图形采集blob分析高精度匹配颜色提取找几何体二维码提取OCR识别等等 。。。 安装教程 …

MQTT_客户端安装_1.4

下载地址 MQTTX 下载 下一步直接安装即可 界面介绍

GhostNetV2 Enhance Cheap Operation with Long-Range Attention 论文学习

论文地址:https://arxiv.org/abs/2211.12905 代码地址:https://github.com/huawei-noah/Efficient-AI-Backbones/tree/master/ghostnetv2_pytorch 解决了什么问题? 在计算机视觉领域,深度神经网络在诸多任务上扮演着重要角色。为…

从源头到洞察:大数据时代的数据提取与分析实战指南

随着科技的飞速发展,大数据已经成为现代社会的核心驱动力之一。从商业决策到科学研究,从政策制定到个人生活,数据无处不在,影响着我们的每一个决策。然而,如何从海量的数据中提取有价值的信息,并转化为深刻…