深度伪造语音检测(Deepfake Speech Detection, DSD)全面概述

news2024/11/16 23:54:27

     近期,深度学习技术和神经网络在生成型人工智能领域已取得重大突破。如今,关键的通信媒介,如音频、图像、视频和文本,均能实现自动生成,并广泛应用于诸多领域,包括聊天机器人系统(如ChatGPT)、电影制作、代码编写及音频合成等。然而,若AI合成数据被用于不法目的,给社会安全带来极大隐患。

     为了解决这一问题,研究社区提出了检测由基于深度学习的方法生成的合成数据(例如,假数据)的任务,这些任务被称为深度伪造检测。本文专注于人类语音,提供了深度伪造语音检测(DSD)任务全面概述

1 DSD任务挑战赛

深度伪造语音检测(DSD)挑战赛

  • 2015年:首个针对英语语音的挑战(ASVspoof 2015-LA任务)。
  • 2020年:首个针对英语视频深度伪造检测的挑战(DFDC)。
  • 2021年:首个日语数据集、首个韩语数据集、首个中文挑战。
  • 2022年:首个针对歌唱的挑战(SVDD 2024,6种语言)、首个多语言数据集(MLAAD,23种语言)。
  • 2023年:首个针对多语言会话的挑战(MLAAD)、首个针对歌唱的数据集(SVDD)。
  • 2024年:发布了包括MLAAD用于会话语音和SVDD用于歌唱的多语言数据集。

1.1挑战赛的作用和重要性

  • 推动 DSD 技术发展: 挑战赛吸引了大量研究人员参与,促进了 DSD 技术的创新和发展。
  • 促进数据集和技术的共享: 挑战赛通常伴随着新的数据集发布,并鼓励研究人员分享他们的技术和方法。
  • 建立基准: 挑战赛为 DSD 技术提供了客观的评估标准,帮助研究人员比较不同方法的效果。
  • 促进合作: 挑战赛为来自不同机构的研究人员提供了一个合作平台,促进了知识交流和合作研究。

1.2 挑战赛的统计数据和分析

  • 语言多样性: 目前,大多数挑战赛专注于检测英语语音中的深度伪造,缺乏对多语言的支持。
  • 数据类型: 挑战赛主要针对语音数据,但也有一些挑战赛开始探索视频深度伪造检测。
  • 参与度和影响力: 随着深度学习技术的进步,参与 DSD 挑战赛的研究团队数量和规模在近年来显著增加,表明该领域越来越受到重视。

1.3 挑战赛存在的不足

  • 语言多样性不足: 现有的挑战赛主要集中在英语语音,缺乏对其他语言的探索,限制了模型的泛化能力。
  • 数据集不平衡: 一些挑战赛的数据集可能存在类别不平衡的问题,这会影响模型的泛化能力和鲁棒性。
  • 数据集可用性: 一些挑战赛没有发布数据集,这限制了其他研究人员的研究和比较。
  • 技术局限性: 一些挑战赛的技术要求可能过于严格,限制了模型的实时性和可扩展性。

2 数据集

数据集

年份

语言

说话者(男性/女性)

话语数量(假/真)

假语音生成系统的数量

真实语音资源

话语长度(秒)

评估指标

ASVspoof 2015 (音频)

2015

英语

45/61

16,651/246,500

10

清洁的说话者志愿者

1至2

EER

FoR (音频)

2019

英语

140

-/195,541

7

清洁的Kaggle

2.35

Acc

ASVspoof 2019 (LA任务) (音频)

2019

英语

46/61

12,483/108,978

19

清洁的说话者志愿者

未提供

EER

DFDC (视频)

2020

英语

3,426

128,154/104,500

1

清洁的 & 嘈杂的说话者志愿者

68.8

Pre., Rec.

ASVspoof 2021 (LA任务) (音频)

2021

英语

21/27

18,452/163,114

13

清洁的 & 嘈杂的说话者志愿者

未提供

EER

ASVspoof 2021 (DF任务)(音频)

2021

英语

21/27

22,617/589,212

100+

清洁的 & 嘈杂的说话者志愿者

未提供

EER

WaveFake (音频)

2021

英语、日语

0/2

-/117,985

6

清洁的LJSPEECH , JSUT

6/4.8

EER

KoDF (视频)

2021

韩语

198/205

62,116/175,776

2

清洁的说话者志愿者

90/15(真/假)

Acc, AuC

ADD 2022

2022

中文

40/40

3,012/24,072

2

清洁的AISHELL-3

1至10

EER

FakeAVCeleb (视频)

2022

英语

250/250

570/25,000

2

清洁的 & 嘈杂的Vox-Celeb2

7

AuC

In-the-Wild (视频)

2022

英语

58

19,963/11,816

0

清洁的 & 嘈杂的自收集

4.3

EER

LAV-DF (视频)

2022

英语

153

36,431/99,873

1

清洁的 & 嘈杂的Vox-Celeb2

3至20

AP

Voc.v (音频)

2023

英语

46/61

14,250/41,280

5

清洁的 & 嘈杂的ASVspoof 2019

未提供

EER

PartialSpoof(音频)

2023

英语

46/61

12,483/108,978

19

清洁的 & 嘈杂的ASVspoof 2019

0.2至6.4

EER

LibriSeVoc (音频)

2023

英语

未提供

13,201/79,206

6

清洁的 & 嘈杂的Librispeech

5至34

EER

AV-Deepfake1M [25], (视频)

2023

英语

2,068

286,721/860,039

2

清洁的 & 嘈杂的Voxceleb2

5至35

Acc, AuC

CFAD (音频)

2024

中文

1,023

-/374,000

11

清洁的 & 嘈杂的AISHELL1-3 [44], [45] & Codecs MAGICDATA

未提供

EER

MLAAD (音频)

2024

多语言(23种语言)

未提供

-/76,000

54

清洁的 & 嘈杂的M-AILABS

未提供

Acc

ASVspoof 2024 (音频)

2024

英语

未提供

188,819/815,262

28

清洁的 & 嘈杂的MLS

未提供

EER

SVDD2024 (音频)

2024

多语言(6种语言)

59

12,169/72,235

48

清洁的普通话,日语

未提供

EER

2.1 数据集的作用和重要性

  • 评估模型性能: 数据集用于评估 DSD 模型的性能,包括准确率、召回率、F1 分数和错误接受率 (EER) 等。
  • 比较不同方法: 数据集允许研究人员比较不同 DSD 方法的性能,并选择最佳方法。
  • 促进技术共享: 数据集的发布促进了 DSD 技术的共享和发展。
  • 推动研究进展: 数据集的发布推动了 DSD 研究的进展,并为新的研究方向提供了灵感。

2.2 数据集的统计数据和分析

  • 语言多样性: 目前,大多数数据集主要支持英语,缺乏对其他语言的覆盖。例如,MLAAD 数据集提供了 23 种语言的对话式语音数据,而 SVDD 数据集则专注于六种语言的歌唱语音数据。
  • 数据类型: 大多数数据集包含干净和噪声语音,但也有一些数据集专注于特定类型的语音,例如电话通话、视频会议或公共演讲。
  • 生成方法: 数据集通常使用不同的深度伪造语音生成系统生成假语音,例如文本到语音 (TTS)、语音转换 (VC) 和对抗攻击 (AT)。
  • 数据规模: 数据集的大小不一,一些数据集包含数万个样本,而另一些数据集则包含数百万个样本。
  • 数据来源: 数据集可以使用志愿者语音或现有语音数据集构建。志愿者语音可以提供更好的控制,但需要时间和成本,并且可能无法扩展。现有语音数据集则更容易获取,但可能存在偏差。

2.3 数据集存在的不足

  • 语言多样性不足: 大多数数据集缺乏对其他语言的覆盖,限制了模型的泛化能力。
  • 数据不平衡: 一些数据集可能存在类别不平衡的问题,这会影响模型的泛化能力和鲁棒性。
  • 数据集可用性: 一些数据集没有公开发布,限制了其他研究人员的研究和比较。
  • 数据质量: 一些数据集可能存在数据质量的问题,例如噪声、回声或其他干扰。
  • 伦理和法律问题: 使用志愿者语音数据集需要考虑伦理和法律问题,例如隐私保护和知情同意。

3 深度伪造语音检测(DSD)系统架构

  • 离线数据增强:在训练过程之前,对原始音频话语进行压缩和解压缩算法处理,以生成数据的变体,从而增加数据集的大小并提高模型的鲁棒性和泛化能力。
  • 特征提取:将原始音频话语转换为时频特征,如梅尔频谱图(Mel-spectrogram)、线性频谱图(Linear spectrogram)或其他类型的频谱图。这些特征图代表了音频信号的时频特性。
  • 分类模型:使用深度学习模型,如卷积神经网络(CNN)、循环神经网络(RNN)、或它们的组合(CRNN),来分析特征图并学习区分真实和伪造语音的能力。
  • 损失函数和训练策略:定义损失函数来评估模型预测与真实标签之间的差异,并使用这些信息来更新和优化模型的权重。训练策略包括如何选择训练数据、如何配置模型的学习率和优化器等。

3.1 离线数据增强

增加训练数据集的大小,以提高模型的鲁棒性和泛化能力。

3.1.1 方法

  • 压缩: 使用音频编解码器 (codec) 对原始语音信号进行压缩和解压缩,例如 MP3、AAC 和 WAV。
  • 扭曲: 通过添加噪声、回声或改变语音的音调、音量和节奏等来修改原始语音信号。

3.1.2 挑战

需要评估不同数据增强方法的效果,并选择最合适的组合。

3.2 特征提取

将原始语音信号转换为可用于分类的特征表示。

3.2.1 方法

3.2.1.1 非参数方法

  • 时频特征: 使用短时傅里叶变换 (STFT)、梅尔频率倒谱系数 (MFCC) 和线性频率倒谱系数 (LFCC) 等方法将原始语音信号转换为时频特征。
  • 基于听觉滤波器的特征: 使用梅尔滤波器、线性滤波器和伽马滤波器等听觉滤波器来提取与人类听觉感知相关的特征。
  • 基于统计的特征: 使用语音声学统计方法,例如梅尔倒谱系数 (PLP) 和线性预测系数 (LPC) 来提取语音信号的统计特征。
  • 基于预训练模型的特征: 使用预训练的语音表示模型,例如 XLSR、Hubert 和 WavLM,来提取语音嵌入特征。

3.2.1.2 可训练参数方法

使用可训练的神经网络层,例如 SincNet 和 LEAF 层,来直接从原始语音信号中学习特征。

3.2.2 挑战

需要评估不同特征提取方法的效果,并选择最合适的特征组合。

3.3 分类模型

根据提取的特征对语音信号进行分类,判断其是否为深度伪造语音。

3.3.1 方法

3.3.1.1 机器学习模型

使用机器学习算法,例如支持向量机 (SVM) 和 K 近邻 (KNN) 来进行分类。

3.3.1.2 深度学习模型

  • 卷积神经网络 (CNN): 使用 CNN 来提取语音信号的局部特征,例如 ResNet 和 LCNN。
  • 循环神经网络 (RNN): 使用 RNN 来提取语音信号的时序特征,例如 LSTM 和 TDNN。
  • 混合网络架构: 结合 CNN 和 RNN 的优点,例如 CRNN。
  • 编码器-解码器网络架构: 使用编码器-解码器网络架构,例如 Transformer,来提取语音信号的深层次特征。
  • 集成模型: 结合多个模型或特征来提高模型的鲁棒性和泛化能力。

3.3.2 挑战

需要评估不同分类模型的效果,并选择最合适的模型。

3.4 损失函数和训练策略

指导模型的训练过程,使其能够更好地学习真实语音和伪造语音之间的差异。

3.4.1 方法

  • 损失函数: 选择合适的损失函数,例如交叉熵损失 (CE) 和 Softmax 损失,来衡量预测结果和真实标签之间的差异。
  • 训练策略: 使用不同的训练策略,例如数据增强、迁移学习和微调,来提高模型的性能和泛化能力。

3.4.2 挑战

需要评估不同损失函数和训练策略的效果,并选择最合适的组合。

4 新DSD集成系统

4.1 目标

  • 评估离线数据增强(编解码器)和在线数据增强(Mixup 和 SpecAugment)的效果。
  • 评估不同输入特征和网络架构的优劣。
  • 评估模型在真实世界场景中的鲁棒性和泛化能力。
  • 提出一个具有竞争力的 DSD 集成系统。

4.2 数据集和评估指标

  • 使用 ASVspoof 2019 (LA Task) 数据集进行评估。
  • 主要评估指标为 Equal Error Rate (ERR)。
  • 补充指标包括 Accuracy、F1 score 和 AUC score。

4.3 系统设计

4.3.1 数据增强

  • 离线数据增强:使用 MP3、OPUS、OGG、GSM、G722 和 M4A 六种编解码器进行压缩和解压缩。
  • 在线数据增强:使用 Mixup 和 SpecAugment 对 Mel spectrogram 进行处理。

4.3.2 输入特征

  • 原始音频
  • 六种不同的 spectrogram:STFT、CQT、WT、Mel、LF、Gammatone

4.3.3 分类模型

  • 端到端深度学习模型:CNN、SinC-CNN、RNN、C-RNN
  • 传输学习模型:ResNet-18、MobileNet-V3、EfficientNet-B0、DenseNet-121、ShuffleNet-V2、Swint、Convnext-Tiny、GoogLeNet、MNASnet、RegNet
  • 音频嵌入深度学习模型:Whisper、Seamless、Speechbrain、Pyanote + MLP

4.3.4 集成方法

使用 MEAN 模型融合技术将多个模型的结果进行融合。

4.4 实验结果

4.4.1 数据增强

  • 离线数据增强(编解码器)和在线数据增强(Mixup 和 SpecAugment)都有效。
  • 组合两种数据增强方法没有提升性能。

4.4.2 输入特征

STFT 和 Linear Filter (LF) 组合在 CNN 模型中表现最佳。

4.4.3 深度学习方法

  • CNN 模型优于 RNN 或 C-RNN 模型。
  • Finetuning 的 Convnext-Tiny 模型表现最佳。
  • 音频嵌入模型(Whisper + MLP)表现优于 Finetuning 模型。

4.4.4 集成模型

  • CQT、STFT & LF、STFT & GAM 的组合表现最佳。
  • CNN + ConvNeXt-Tiny 组合表现最佳。
  • Whisper + MLP + ConvNeXt-Tiny 组合表现最佳。

不同的输入特征和网络架构对 DSD 任务有显著影响。

集成模型可以显著提升 DSD 任务性能。

音频嵌入模型和 Finetuning 模型在 DSD 任务中具有潜力。

需要进一步探索轻量级模型和实时 DSD 系统。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2172556.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大数据新视界 --大数据大厂之数据压缩算法比较与应用:节省存储空间

💖💖💖亲爱的朋友们,热烈欢迎你们来到 青云交的博客!能与你们在此邂逅,我满心欢喜,深感无比荣幸。在这个瞬息万变的时代,我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…

基于Python实现的国庆节庆祝小程序

祖国母亲即将迎来75周年华诞,在这个特殊的日子里,我们可以用编程的方式来表达对祖国的祝福。本文将使用Python编写一个简单的国庆节庆祝小程序,通过一些编程技巧和设计为国庆节增添一些程序员的特色。 ⭕️庆祝国庆 ⭐️ 程序设计思路&#x…

Netty 与 WebSocket之间的关系

WebSocketProtocolHandler 和 Netty 在处理 WebSocket 连接时扮演不同的角色,但它们通常是一起使用的,尤其是在基于 Netty 的项目中。为了更好地理解它们之间的区别,我们首先需要了解 WebSocket 和 Netty 的基本概念。 WebSocket WebSocket…

超好用的可视化工具!一键生成影响因素森林图,文章增色好帮手!

森林图目前在相关文献中可以说是非常常见了,不只是亚组分析中,普通的回归分析结果也可以用森林图进行可视化展示,不仅可以帮助我们更好地理解不同变量间的一致性和差异性,新颖的图片还能为文章增色不少。 当下主流绘制森林图的方式…

linux蓝屏重启解决方法汇总

前言 linux系统蓝屏(Blue Screen Of Death)是Linux系统用户遇到最严重的故障,任何新手都无法直接解决它。在遇到蓝屏时,最好的解决方案是联系Linux专业供应商或Linux专业支持工程师,因为他们有系统的协议和经验来解决…

手机如何五开玩梦幻西游端游?用GameViewer远程手机免费畅玩梦幻西游

用手机就能免费玩梦幻西游端游,还可以随时查看挂机进度! 想要实现这一点,就用网易GameViewer远程,而且不光手机可以玩梦幻西游端游,平板也能免费玩,并为你实现五开玩梦幻西游端游。 那么,通过Ga…

事后被动处置向事前主动预警转变的智慧工业开源了

智慧工业视觉监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒,省去繁琐重复的适配流程,实现芯片、算法、应用的全流程组合,从而大大减少企业级应用约95%的开发成本。用户只需在界面上…

【逐梦旅程】Windows游戏开发笔记

前言 伴随着最近黑神话悟空大火,游戏开发也引起了我的关注。我相信每一个程序员都有一个开发游戏的梦,遗憾的是我的职业路径似乎与这个梦想越来越远了。但是也没关系,我收藏过一本游戏开发的书籍,正好趁现在工作不忙,…

C# 相等性检测方法差异分析(==,Equals,ReferenceEquals)

先给结论: 对于每种类型创建2个一样的数据,比较结果如下表所示: 数据类型EqualsReferenceEqualsint(值类型)√√引用类型引用类型(带override)以operator 实现为准以Equals覆写为准struct必须实现操作符√struct&…

【BurpSuite】访问控制漏洞和权限提升 | Access control vulnerabilities (3-6)

🏘️个人主页: 点燃银河尽头的篝火(●’◡’●) 如果文章有帮到你的话记得点赞👍收藏💗支持一下哦 【BurpSuite】访问控制漏洞和权限提升 | Access control vulnerabilities (3-6) 实验三 Lab: User role controlled b…

【高频SQL基础50题】6-10

目录 1.上级经理已离职的公司员工 2.修复表中的名字 3. 寻找用户推荐人 4.产品销售分析 I 5.平均售价 1.上级经理已离职的公司员工 子查询。 先根据薪水大小查询,再根据manager_id查询该员工是否存在,最后做排序。 # Write your MySQL query st…

ValueError: Out of range float values are not JSON compliant

可能原因一 可能原因二 数据里面有NaN

C++八股进阶

之前那个只是总结了一下常考点,这个是纯手打记笔记加深理解 这里写目录标题 C的四种智能指针为什么要使用智能指针?四种智能指针: C中的内存分配情况C中的指针参数传递和引用参数传递C 中 const 和 static 关键字(定义&#xff0…

Linux云计算 |【第四阶段】PROJECT2-DAY2

综合项目内容: 升级网站运行平台、部署Redis内存存储服务集群、数据迁移、部署PXCMySQL实现强同步、部署LB和HA集群 一、项目拓扑结构 PROJECT2-DAY1回顾: 服务架构缺点分析: ① 数据存储结构存在单点故障(需增调度器&#xff0…

STM32低功耗实验学习日记

STM32低功耗实验学习日记 写于2024/9/25晚 文章目录 STM32低功耗实验学习日记1. 简介2. STM32F1电源系统2.1 电源系统2.2 电源管理2.2.1 睡眠模式2.2.2 停止模式2.2.3 待机模式 2.3 相关寄存器介绍2.3.1 系统控制寄存器(SCB_SCR)2.3.2 电源控制寄存器(PWR_CR)2.3.3 电源控制/状…

智能BI项目第六期

本期任务 分析系统现在的不足分布式消息队列分布式消息队列 RabbitMQ 入门实战 系统现状不足分析总结 让我们来讨论一下单机系统的问题。 现状:我们的异步处理是通过本地线程池实现的。 但是存在以下问题: 无法集中限制,仅能单机限制&a…

kafka监控平台Kafdrop:使用记录

背景 AI的发展真是太方便了,让它给我推荐一款轻量级,没有学习曲线的kafka监控平台,它就给我推荐这一款。用了一下果然没有一点学习曲线。 目前已经满足了我的需求,可视化界面,topic、消息、消费者group信息以及消费情…

【项目经验分享】深度学习点云算法毕业设计项目案例定制

以下是深度学习与点云算法相关的毕业设计项目案例,涵盖了点云数据的分类、分割、重建、配准、目标检测等多个领域,适用于智能驾驶、机器人导航、3D建模等多个应用场景: 案例截图: 基于PointNet的3D点云分类与分割PointNet在大规…

2-105 基于matlab的GA-WNN预测算法

基于matlab的GA-WNN预测算法。遗传算法优化小波神经网络的步骤:1设种群规模为M。随机生成初始种群N , 采用实数编码对个体Ni编码。2、用1中的种群N训练, WNN参数由初始化获得。3、计算种群N中个体适应度值。满足终止条件则跳至6, 不满足执行4。4、适应度大的个体, 选…

基于Hive和Hadoop的白酒分析系统

本项目是一个基于大数据技术的白酒分析系统,旨在为用户提供全面的白酒市场信息和深入的价格分析。系统采用 Hadoop 平台进行大规模数据存储和处理,利用 MapReduce 进行数据分析和处理,通过 Sqoop 实现数据的导入导出,以 Spark 为核…