NCMMSC 2021丨长短视频多语种多模态识别挑战赛

news2024/11/14 16:58:12

比赛背景

2021年第十六届全国人机语音通讯学术会议(National Conference on Man-Machine Speech Communication,NCMMSC2021)将于2021年10月15-18日在江苏徐州举行。本次会议由中国中文信息学会和中国计算机学会联合主办。

针对本次会议,由腾讯科技 ASR&OCR oteam联合发起围绕时下在工业界最为关注的三类媒体形式---长视频、短视频、直播场景进行比赛。

长期以来,语音关键词检测竞赛都是NIST国际评测中的经典项目,OPENKWS系列比赛 (https://www.nist.gov/itl/iad/mig/open-keyword-search-evaluation) 连续举办四届,旨在解决电话PSTN信道里,对于低资源小语种的关键词定位和识别能力。该比赛在Babel IARPA项目下,吸引了国内外30多个知名研究机构的参与和竞争,极大地促进了低资源语音内容识别的技术发展。

近年来,随着短视频、直播等应用的迅速崛起,带来了长短视频、直播音视频等新兴互联网媒介的百花齐放。各类创作模式层出不穷、创作门槛日趋平民化,导致各类长短音视频、直播流中声学场景更加复杂多变,多语种、多方言问题日益突出。围绕各类长短音视频的语音识别和内容理解任务一直以来都备受工业界关注,如何对各类视频内容进行准确转写和内容理解,成为了字幕内容创作、兴趣内容推荐、数字媒介归档等下游应用中不可或缺的利器。

因此,腾讯ASR-OCR oteam发布长短视频多语种多模态识别挑战赛,本次比赛将重点关注长短视频下的内容理解与识别,围绕时下在工业界最为关注的三类媒体形式---长视频、短视频、直播流进行。

本次比赛由易到难:

  • 第一期任务将关注模型场景失配下长短视频及直播流中汉语关键词的检测问题;

  • 任务二则扩展到任务一的多语种和多方言关键词检测场景;

  • 任务三则会根据视频画面里的字幕OCR和语音ASR等信息,共同打造SOTA的长短视频、直播场景的多模态视频内容识别解决方案。

这里我们首先发布任务一的具体任务和比赛要求。

比赛任务

Task1,汉语长短视频直播语音关键词

(Video Keyword Wakeup Competition, VKW)

可自定义关键词唤醒能够快速检测出音视频和智能设备中的关键词(唤醒词),广泛应用在设备自定义解锁和唤醒、各类救护、火灾等紧急事件报警、命令识别、语音内容的检索和分类等任务中。

第一届 VKW(Video Keyword Wakeup Competition)任务旨在检验业界利用朗读数据等常规数据公司可获取的大规模数据构建任意自定义关键词检测系统的能力;比赛由腾讯提供少量可供微调的真实长短视频及直播数据,检验场景失配下自定义关键词检测系统的鲁棒性和泛化性。在比赛中,组委会提供1505小时普通话朗读数据(由数据堂公司提供),并提供长视频、短视频、直播场景各50小时有标注数据供场景微调,各5小时有标注数据用于在开发集关键词列表上进行系统优化和调参,各20小时有标注数据用于评价提交系统。赛后,组委会可提供原始数据、标注及关键词列表。

该比赛力求接近工业界实际场景和问题在海量大数据标注下的解决方案,同时为避免学术界和工业界因为数据量级失衡导致无法在一个起跑线进行,比赛设置了受限和非受限两个赛道。受限赛道中,只允许使用提供的1505h普通话朗读数据及各50h的长短视频、直播数据作为有监督语音训练数据,外部数据可使用开源发布的预训练模型及开源语言模型、网络爬取的文本等。可使用外部数据进行数据扩充和预训练,但不得使用外部数据的标注脚本。非受限赛道鼓励参赛队伍使用任意可公开获取的标注数据、无标注数据进一步提升系统性能,但需要在最终提交系统说明里提供数据来源(如可使用http://www.openslr.org/中的开源数据并注明数据来源)。

其次,比赛主要评价指标和国际接轨,采用了通用的NIST OPENKWS关键词评价指标ATWV。同时我们也力求该指标在工业界的可解释性,采用 Precision/Recall 和ATWV两套指标并行评价,评价公式及工具见随后发布的基线系统及具体评测计划。

比赛最终评测结果和排名,将由专家结合两者得分进行评价。最终结果宣布和排名将在ncmmsc 2021会议上公布。作为国内语音领域最大规模的盛会,2021年第十六届全国人机语音通讯学术会议(National Conference on Man-Machine Speech Communication,NCMMSC2021)将于2021年10月15-18日在江苏徐州举行,由中国中文信息学会和中国计算机学会联合主办。

Task 2: 语种多方言长短视频可自定义关键词唤醒(建设中,敬请关注)

(Low-resouce Video Keyword Wakeup Competition, LVKW)

我国是一个多语言、多方言的国家,在长视频,短视频和直播流中,下沉场景时语言的本地化现象非常明显。而通用的设备关键词唤醒往往只支持汉语。如何在多语言,多汉语方言场景下,唤醒出上述三大场景中的各类自定义关键词,是本任务的研究方向。本任务主要包括蒙、藏、维、哈、朝、彝、壮等少数民族语言,西南,中原等各类官话,晋语,吴语,徽语,湘语,粤语,赣语,闽南语,客家话等汉语方言。

比赛详细信息稍后发布,敬请期待......

Task 3: 音视频多模态文字内容识别(建设中,敬请关注)

(Video ASR OCR Competition, VAO)

在长短视频,直播等视频场景中,通常会伴有已经制作好的视频字幕,人脸存在时的唇语等辅助信息。如何利用其他模态的辅助信息提升ASR识别率,尤其是背景音乐、嘈杂噪声等低信噪比情况下,提升ASR的性能是本任务的关注点;另一方面,尽管OCR通常比ASR识别更加准确,但OCR由于画面复杂、冗余信息多(标题,台标等),对于字幕部分的提取和识别也存在较大的困难。如何利用ASR等语音信息,指导OCR进行更好的输出,使得用户“看到”真正重要的口语内容信息,使得多模态内容文字识别率互相促进并最终提升,是本任务的研究方向。

比赛详细信息稍后发布,敬请期待......

比赛算力

比赛首次引入了腾讯云进行推理,参赛者可以通过腾讯云账户进行申请,在统一申请的算力推理机器上进行推理解码,由腾讯云负责统一收集比赛结果和自动排名,保证比赛的公平性。目前,大赛报名通道已开启,本次大赛任务一的报名截至时间为9月6日,比赛结果公布时间为9月24日。参赛提交系统描述有机会收录进入人机语音通讯学术会议的论文集,对于优秀论文有机会选送到国内知名EI检索核心期刊进行发表。
腾讯云计算将作为本次竞赛独家算力支持平台,为参赛队伍提供免费的高性能云服务器资源供竞赛的数据建模与学习推理。 

比赛报名及结果发布

比赛首次引入了腾讯云进行推理,参赛者可以通过腾讯云账户进行申请,在统一申请的算力推理机器上进行推理解码,由腾讯云负责统一收集比赛结果和自动排名,保证比赛的公平性。目前,大赛报名通道已开启,本次大赛任务一的报名截至时间为9月6日,比赛结果公布时间为9月24日。参赛提交系统描述有机会收录进入人机语音通讯学术会议的论文集,对于优秀论文有机会选送到国内知名EI检索核心期刊进行发表。

此次比赛每个注册成功的参赛团队可选任何一个任务参加,或同时注册两个任务。腾讯科技为比赛两个赛道获奖前三名的团队提供了数额丰富的奖金,具体金额待训练集发布时公布。

关于比赛的详细信息,报名表,请参阅网站: https://datatang.com/VMR.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/12868.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

STA -- clock gating check

对于现在design中例化好的icg以及工具插进去的icg,不存在clock gating check的问题,因为clock gating 搞成了一个lib cell,不再是latch加上与门的组合。不过design中除了这些icg,还有一些的clock gating check的出现,这…

写给 Android 开发:从0到1,再从1到N,都离不开 Framework

作为过来人,发现很多学习者和实践者都在 Android Framework上面临着很多的困扰,比如: 工作场景中遇到难题,往往只能靠盲猜和感觉,用临时性的补救措施去掩盖,看似解决了问题,但下次同样的问题又…

Node.js开发、CommondJS 、ES-Module模块化设计

目录 Node.js是什么 基础使用 Node的REPL 全局变量 模块化设计 CommondJS规范 基础使用exports和module.exports require CommondJS优缺点 AMD和CMD规范 ES_Module 基本使用方法 导出 导入 结合使用 默认导出 ES Module解析流程 Node.js是什么 Node与浏览器的对比 在…

两点云求差集和交集

这里两点云的差集指从点云1中删除属于点云2的点得到的点集,并集指既属于点云1又属于点云2的点集。 两点云求差集 基于kd-tree搜索的方法较快速,当然也可以暴力搜索。思路如下: step1 在点云2建立kd-tree,设置容忍误差&#xff0…

UI控件DevExpress WinForm新手指南——如何在应用启动时执行操作

DevExpress WinForm拥有180组件和UI库,能为Windows Forms平台创建具有影响力的业务解决方案。DevExpress WinForm能完美构建流畅、美观且易于使用的应用程序,无论是Office风格的界面,还是分析处理大批量的业务数据,它都能轻松胜任…

RESTful 接口设计

文章目录RESTful 接口设计1.获取所有员工列表2.增加一个员工3.更新员工4.删除员工5.查询单个员工RESTful 接口设计 1.获取所有员工列表 /*** 获取所有员工* 1. 请求路径--确认资源--员工--/employees* 2. 请求方法--get* 3. 请求参数--无* 4. 请求响应--多个员工--List<Em…

苹果iOS App Store上架操作流程

很多开发者在开发完iOS APP、进行内测后&#xff0c;下一步就面临上架App Store&#xff0c;不过也有很多同学对APP上架App Store的流程不太了解&#xff0c;下面我们来说一下iOS APP上架App Store的具体流程&#xff0c;如有未涉及到的部分&#xff0c;大家可以及时咨询&#…

基于微信小程序的学生购电系统设计与实现-计算机毕业设计源码+LW文档

小程序开发说明 开发语言&#xff1a;Java 框架&#xff1a;ssm JDK版本&#xff1a;JDK1.8 服务器&#xff1a;tomcat7 数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09; 数据库工具&#xff1a;Navicat11 开发软件&#xff1a;eclipse/myeclipse/idea Mave…

服务端Skynet(二)——消息调度机制

服务端Skynet(二)——消息调度机制 文章目录服务端Skynet(二)——消息调度机制1、提前了解知识1.1、互斥锁&#xff08;mutex lock : **mut**ual **ex**clusion lock&#xff09;1.2、自旋锁&#xff08;spinlock&#xff09;1.3、读写锁&#xff08;readers–writer lock&…

最简单的git图解(多远程仓库)

上一节我们讲了git操作最基本的命令&#xff1a;最简单的git图解&#xff08;最基本命令&#xff09;_jerry_dyy的博客-CSDN博客 这一节我们来讲一下面对多个远程仓库的场景&#xff0c;应该如何来处理。 为什么要有多个远程仓库&#xff1f; 在企业内部开发团队开发过程中&a…

什么是CDN?CDN的技术原理是什么?

什么是CDN&#xff1f; CDN的全称是Content Delivery Network&#xff0c;中文名称“内容分发网络”。其主要原理是在现有网络中增加一层新的网络架构&#xff0c;将源站中的内容发布到不同的网络节点上&#xff0c;使用户可以就近获得所需的内容&#xff0c;从而提高用户访问…

【学习记录】镭神激光雷达与PC机的NTP同步

本文仅用于记录自己在实现镭神C32激光雷达和PC机进行NTP同步时的一些总结。 吐槽在先&#xff0c;镭神的文档写极其不完善&#xff0c;很多都只是提了一句&#xff0c;但并没有完整的说应该具体怎么做。前前后后折腾了三四天&#xff0c;在一知半解的官方技术支持和实验室大佬…

立创EDA仿真入门1 基本操作

立创EDA仿真入门1 基本操作一、进入EDA仿真环境二、画原理图1. 新建工程2. 绘制如下电路图三、仿真1. 运行仿真2. 导出波形图3. 查看仪表一、进入EDA仿真环境 网址&#xff1a; https://lceda.cn/ 进入EDA标准版&#xff0c;点击左上角切换到仿真模式。 二、画原理图 1. 新…

java毕业设计——基于java+Socket+sqlserver的办公自动化系统设计与实现(毕业论文+程序源码)——办公自动化系统

基于javaSocketsqlserver的办公自动化系统设计与实现&#xff08;毕业论文程序源码&#xff09; 大家好&#xff0c;今天给大家介绍基于javaSocketsqlserver的办公自动化系统设计与实现&#xff0c;文章末尾附有本毕业设计的论文和源码下载地址哦。 文章目录&#xff1a; 基于…

qemu创建linux虚拟机(亲测有效)

1&#xff0c;网桥的搭建 Bridge方式原理 Bridge方式即虚拟网桥的网络连接方式&#xff0c;是客户机和子网里面的机器能够互相通信。可以使虚拟机成为网络中具有独立IP的主机。 桥接网络&#xff08;也叫物理设备共享&#xff09;被用作把一个物理设备复制到一台虚拟机。网桥多…

【语义分割】数据增强方法(原图与标签同时扩增)

1、数据增强作用 避免过拟合 提升模型的鲁棒性 提高模型的泛化能力 避免样本不均衡的问题 2.、数据增强分类 可分为两类&#xff1a;在线增强和离线增强。这两者的区别在于离线增强是在训练前对数据集进行处理&#xff0c;往往能得到多倍的数据集&#xff0c;在线增强是在训练…

javaEE高阶---Spring 更简单的读取和存储对象

一 : 引言 经过前面的学习&#xff0c;我们已经可以实现基本的 Spring 读取和存储对象的操作了&#xff0c;但在操作的过程中我们发现读取和存储对象并没有想象中的那么“简单”&#xff0c;所以接下来我们要学习更加简单的操作 Bean 对象的方法 . 二 : 存储Bean对象 2.1 使…

【Hack The Box】windows练习-- Reel

HTB 学习笔记 【Hack The Box】windows练习-- Reel &#x1f525;系列专栏&#xff1a;Hack The Box &#x1f389;欢迎关注&#x1f50e;点赞&#x1f44d;收藏⭐️留言&#x1f4dd; &#x1f4c6;首发时间&#xff1a;&#x1f334;2022年11月17日&#x1f334; &#x1f3…

视频清晰度优化指南

一、背景介绍 随着移动互联网的深入发展&#xff0c;视频消费场景逐渐变成主流&#xff0c;早期由于手机硬件的限制问题&#xff0c;导致生产出来的视频画质、清晰度存在较大的问题&#xff0c;用户体验不太好&#xff0c;当时的网络也处于4G的发展阶段&#xff0c;网络的限制…

【Hack The Box】windows练习-- support

HTB 学习笔记 【Hack The Box】windows练习-- support &#x1f525;系列专栏&#xff1a;Hack The Box &#x1f389;欢迎关注&#x1f50e;点赞&#x1f44d;收藏⭐️留言&#x1f4dd; &#x1f4c6;首发时间&#xff1a;&#x1f334;2022年11月17日&#x1f334; &#x…