SVDD(Singing Voice Deepfake Detection,歌声深度伪造检测)挑战2024

news2025/1/23 12:05:43

      随着AI生成的歌声快速进步,现在能够逼真地模仿自然人类的歌声并与乐谱无缝对接,这引起了艺术家和音乐产业的高度关注。歌声与说话声不同,由于其音乐性质和强烈的背景音乐存在,检测伪造的歌声成为了一个特殊的领域。

     SVDD挑战是首个专注于检测实验室控制和野外真实与伪造歌声录音的研究挑战。该挑战将在2024年IEEE口语语言技术研讨会(SLT 2024)上举行。

     挑战目标:SVDD挑战旨在汇集学术界和工业界的资源,开发出创新和有效的技术来检测伪造的歌声。

     挑战分为两个不同的轨道:控制环境(CtrSVDD)和野外环境(WildSVDD)。CtrSVDD使用无伴奏的歌声,而WildSVDD则包含背景音乐。CtrSVDD数据集在Zenodo上发布,WildSVDD数据集同样在Zenodo上发布,提供了训练和测试分区。

1、控制环境(CtrSVDD)

使用现有的14种歌声合成(SVS)和歌声转换(SVC)系统从真实的声乐剪辑生成深度伪造的歌声。这些系统包括ESPnet-Muskits、NNSVS、DiffSinger、ACESinger等。

测试集:SVDD Challenge 2024: A Singing Voice Deepfake Detection Challenge (CtrSVDD Track, Test Set)

训练及开发集:SVDD Challenge 2024: A Singing Voice Deepfake Detection Challenge (CtrSVDD Track, Training/Development Set)

  1. 2、野外环境(WildSVDD)

WildSVDD数据集通过从社交媒体平台收集数据来构建,类似于SingFake项目。数据集已经扩展到原始SingFake的大约两倍大小,包含了更多的歌手和歌曲。

CtrSVDD数据集SVDD Challenge 2024: A Singing Voice Deepfake Detection Challenge (WildSVDD Track)

  1. 3、基线系统架构图

挑战有两个基线系统:一个使用原始波形,另一个使用线性频率倒谱系数(LFCCs)作为前端特征。基线系统的架构如图所示

4、关键日期

2024年5月7日,CodaBench研究结果提交开放(根据请求访问)

2024年6月8日,SVDD挑战注册截止日期

2024年6月8日,SVDD挑战额外训练数据集许可请求截止日期

2024年6月8日,组织者发布所有可用的训练数据集

2024年6月15日,结果提交截止日期(结果&系统描述),CodaBench挑战提交关闭。结果将在CodaBench上公开,并电子邮件给参与者以官方确认。

5、歌声合成(SVS)和歌声转换(SVC)知名工具和模型

5.1 ESPnet-Muskits

ESPnet 是一个开源的音乐处理工具包,目前主要关注端到端歌声合成,Muskits 是 ESPnet 中用于歌声合成的一个扩展工具集。Muskits 采用pytorch作为深度学习引擎,遵循ESPnet和Kaldi风格的数据处理方式,以及配方来提供各种音乐的完整设置用于歌声的合成,包括声码器、声学模型和文本前端。它支持多种语言,并能够生成自然听起来的歌声。

5.2 NNSVS (Neural Network-based Singing Voice Synthesis)

NNSVS 是由日本名古屋大学提出的一个基于神经网络的歌声合成系统最新版本是nnsvs-world v4。它利用深度学习技术来模拟人类歌手的声音,并生成与音乐伴奏同步的歌声。NNSVS 通常包括音符特征提取、声码器和声音建模等组件。

5.3 DiffSinger

DiffSinger 是一个基于扩散机制的歌声合成模型,由中国科学院声学研究所提出。它通过模拟声音的物理生成过程来生成歌声,能够生成具有不同歌手特征的歌声。DiffSinger 的一个特点是它使用了一种浅层扩散机制,这使得它在生成歌声时能够保持较高的音质。在中文歌唱数据集上其技术性能和音乐表现力均优于现有声学模型

5.4 ACESinger

ACESinger 是由清华大学提出的一个歌声合成系统,它能够生成与音乐伴奏同步的歌声。ACESinger 采用了先进的深度学习技术,包括变分自编码器(VAE)和生成对抗网络(GAN),来生成自然且富有表现力的歌声。

6、数据共享工具相关资源

Zenodo是一个多学科研究产品储存库,支持各种内容,包括刊物、演示文稿、论文集、项目、图像、软件(包括与GitHub的集成)以及所有语言的数据,由欧洲核子研究组织 (European Organization for Nuclear Research, CERN) 维护。它对数据格式没有任何限制,最多可以存储50GB的数据。此储存库中数据可终身保存,可以采用封闭(只要未授权都无法访问)、开放或禁止(禁止期内无法访问)状态储存。

DataCite:DataCite成立于2009年,最初是一个国际合作组织,目的是为研究数据提供稳定的在线识别信息。DataCite的服务目的还包括为科学数据创建元数据(metadata)集,为用户分配DOI、增强数据搜索能力、与会员共同建立共享数据库和高效引用机制。它收集每个有DOI的元数据,结合成大型索引研究数据,这些数据可直接查询,让人查找数据和其他研究物件,正确引用数据,获取统计数据并探索连接。所有元数据都可自由访问和查看。DataCite 提供了一个集成的搜索界面,可以从数百万条记录中搜索、筛选和提取所有细节。该软件可用于跟踪与基金相关的数据,这点很重要,因为资助机构要求数据共享。此外,跟踪经费数据可以让资助机构更好地了解他们的资金所产生的影响。

Dryad:一个科学和医学论文数据储存库,让科研论文的数据可被发现,可自由重复使用和可引用。Dryad 可存储表格、电子表格、文本、视频、照片、软件代码和其他无储存库可保存的发表数据。Dryad 支持许多期刊的整合提交功能,因此当作者将数据与其发表的文章一起提交给 Dryad时,数据的链接也会包含在发表的文章中。Dyrad的目标用户是研究人员、期刊、科研协会、出版商、研究单位、图书馆和资助机构,因此具有广泛的知名度,并且数据库资源丰富。

Figshare:一个基于云计算网络的在线数字资源库,科研人员可以保存和分享他们的研究成果,包括数据、数据集、图像、视频、海报和代码,从而使得他们的研究,甚至包括初步研究,曝光并获得认可。由于Fighare遵循开放数据原则,用户可以自由访问数据和上传内容。因此,科研人员可以通过Fighare公开他们的数据,Fighare上的所有条目都有DOI,方便引用。Fighare还跟踪托管材料的下载统计,做为altmetrics的来源。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1680355.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android实践:查看Activity信息

问题:本地Android SDK的monitor无法正常运行,看不了进程相关信息,确认当前显示Activity十分不便 解决办法:使用adb shell指令可以快速查看 命令: adb shell dumpsys activity activities 这个命令用于获取Android设…

精酿啤酒:品质的保障与消费者的信赖

在啤酒市场中,Fendi club啤酒以其卓着的品质和消费者的信赖赢得了广泛的认可。作为精酿啤酒的品牌,Fendi club啤酒始终坚持对品质的严格把控,为消费者带来放心的口感体验。 品质的保障源于Fendi club啤酒对原料的严谨挑选和加工。他们深知&a…

LeetCode刷题笔记第1800题:最大升序子数组和

LeetCode刷题笔记第1800题:最大升序子数组和 题目: 想法: 遍历数组的同时记录当前最大升序子数组和,最终返回最大升序子数组和 class Solution:def maxAscendingSum(self, nums: List[int]) -> int:result 0i 0n len(num…

前端之电力系统SVG图低代码

其实所有的图形都是由点&#xff0c;线&#xff0c;面组成的。点线面可以组成一个设备。下面就简单讲讲点线面是怎么画的吧 对于线&#xff0c;可以用path <g><path:d"M ${beginX},${beginY} L ${endX},${endY}":stroke-width"lineWidth":strok…

Java面试题:Spring框架除了IOC和AOP,还有哪些好玩的设计模式?

Spring是一个基于Java的企业级应用程序开发框架&#xff0c;它使用了多种设计模式来实现其各种特性和功能。本文将介绍一些在Spring中使用的常见设计模式以及相应的代码示例和说明。 单例模式 单例模式是Spring中最常用的设计模式之一。在ApplicationContext中&#xff0c;Bean…

DiskANN数据布局

_mem.index.data&#xff1a;和sift_base.fbin一模一样。0-3字节是总向量数&#xff0c;4-7是每个向量的特征数。后面就是依次放置的每个向量。 _disk.index&#xff1a;是存储的图&#xff0c;但是不光包含图也包含原始向量。前4KB不知道存的是啥。从第0x1000开始存放的是原始…

浙大博士毕业2年后发表观点:读博一定要慎重!

已经博士毕业两年了&#xff0c;非常高兴和大家分享自己研究生的学习和生活经历&#xff0c;给准备读研的同学和考研的同学一点点小帮助。 首先我简单介绍下自己&#xff0c;本科非 985&#xff0c;非 211&#xff0c;研究生非 985&#xff0c;非 211&#xff0c;就不说学校的名…

【FPGA、maltab】基于FPGA的SOQPSK调制解调技术的设计与实现

基于FPGA的SOQPSK调制解调技术的设计与实现 SOQPSK一、QPSK、OQPSK、SOQPSK之间的关系二、SOQPSK调制原理 matlab 仿真FPGA 实现顶层设计发射模块接收模块顶层调制解调FPGA代码 SOQPSK 一、QPSK、OQPSK、SOQPSK之间的关系 SOQPSK&#xff08;Shaped Offset Quadrature Phase …

fl studio试用版文件保存无法打开??一个方法教你免费打开!

前言 当下&#xff0c;各款编曲软件五花八门&#xff0c;而这其中最有声誉的必为FL Studio莫属 这个软件呢国人习惯叫他水果&#xff0c;拥有强大的录音、编曲、混音等功能&#xff0c;所以广受音乐圈欢迎。如今&#xff0c;大部分水果一旦有编曲所需&#xff0c;一般都要使用…

一文搞懂CPU是如何进行计算的?

你好&#xff0c;我是 shengjk1&#xff0c;多年大厂经验&#xff0c;努力构建 通俗易懂的、好玩的编程语言教程。 欢迎关注&#xff01;你会有如下收益&#xff1a; 了解大厂经验拥有和大厂相匹配的技术等 希望看什么&#xff0c;评论或者私信告诉我&#xff01; 文章目录 一…

优秀测试的核心能力!2招高效定位分析BUG!

之所以写这一篇文章&#xff0c;是突然想起来曾经在测试过程中被开发嘲讽过&#xff0c;事情是这样的&#xff0c;当时发现了一个疑似前端的Bug就草草提交到了禅道&#xff0c;结果刚来的女前端看到了就有点生气地问我为啥不查清到底是前后端问题就直接派给她前端了&#xff0c…

React框架-Next 学习-1

创建一个 Next.js 应用,node版本要高&#xff0c;16.5以上 npm淘宝镜像切为https://registry.npmmirror.com npm config set registry https://registry.npmmirror.com npx create-next-applatest//安装后 使用npm run dev 启动 Next.js 是围绕着 页面&#xff08;pages&am…

uac驱动之const修饰的变量和const修饰的指针

const int*p // p所指向的空间是常量 不可修改 ,但p可以修改 int*const p // p所指向的空间是可以修改 ,p不可以修改 #include <stdio.h> #include <string.h>struct usb_string {char id;const char *s; };enum {STR_ASSOC,STR_AC_IF,STR_USB_OUT_IT,STR_USB_O…

单位个人怎样向报社的报纸投稿?

作为一名单位的信息宣传员,我肩负着每月定期在媒体上投稿发表文章的重任。然而,在投稿的道路上,我经历了不少波折和挫折。 一开始,我天真地以为只要将稿件发送到报社的投稿邮箱,就能轻松完成任务。然而,现实却远比我想象的复杂。邮箱投稿的竞争异常激烈,编辑们会在众多稿件中挑…

ROS2系统与px4通信测试

参考文章&#xff1a; No communication with ROS2 using MicroXRCEAgent with px4 board ROS2官方安装及测试程序 概要 新安装的ROS2与PixHawk开发板进行通信。 操作步骤 启动示例程序&#xff0c;在&#xff5e;/ws_sensor_combined/src路径下执行&#xff1a; ros2 l…

MYSQL-9.问题排查

问题排查的思路与方向 问题排查思路 分析问题&#xff1a;根据理论知识经验分析问题&#xff0c;判断问题可能出现的位置或可能引起问题的原因&#xff0c;将目标缩小到一定范围&#xff1b;排查问题&#xff1a;基于上一步的结果&#xff0c;从引发问题的“可疑性”角度出发…

【C++ 高阶数据结构 Test】AVL ~ 二叉搜索树

文章目录 1. AVL 树概念2. AVL 树节点的定义3. AVL树的插入4. AVL树的旋转4.1 新节点插入较高左子树的左侧---左左&#xff1a;右单旋4.2 新节点插入较高右子树的右侧---右右&#xff1a;左单旋4.3 新节点插入较高左子树的右侧---左右&#xff1a;先左单旋再右单旋4.4 新节点插…

【计算机毕业设计】springboot房地产销售管理系统的设计与实现

相比于以前的传统手工管理方式&#xff0c;智能化的管理方式可以大幅降低房地产公司的运营人员成本&#xff0c;实现了房地产销售的 标准化、制度化、程序化的管理&#xff0c;有效地防止了房地产销售的随意管理&#xff0c;提高了信息的处理速度和精确度&#xff0c;能够及时、…

九游娱乐携手云达不莱梅共谋跨界新发展!

近日&#xff0c;九游娱乐正式宣布&#xff0c;成为德国著名足球俱乐部云达不莱梅俱乐部的亚洲官方合作伙伴。此次跨界合作将携手开创体育与娱乐融合的新篇章&#xff0c;不仅彰显九游娱乐在全球体育和娱乐领域的影响力&#xff0c;也为云达不莱梅俱乐部在亚洲市场带来了新的机…

js之选项卡制作实例

大家好&#xff0c;今天给大家书写选项卡实例&#xff0c;话不多说&#xff0c;直接上干货 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, in…