150万条多语种音频数据！浙大清华发布语音伪造检测框架SafeEar，兼顾隐私保护，附代码和数据集

150万条多语种音频数据！浙大清华发布语音伪造检测框架SafeEar，兼顾隐私保护，附代码和数据集.

在这里插入图片描述

SafeEar是一种内容隐私保护的语音伪造检测方法，其核心是设计基于神经音频编解码器的解耦模型，分离语音声学与语义信息，仅利用声学信息检测，包括前端解耦模型、瓶颈层和混淆层、伪造检测器、真实环境增强四部分。

近年来，语音合成和语音转换等技术取得快速发展，基于相关技术能够合成逼真、自然的音频。然而，攻击者可利用该技术进行语音伪造，即「克隆」特定对象语音，为用户隐私安全与社会稳定带来严重威胁。

以下是一些优秀的开源语音合成和声音克隆项目，以及它们的详细介绍和访问链接：

OpenVoice
- 简介：OpenVoice是一个开源的即时语音克隆工具，由MIT、清华大学和加拿大初创公司MyShell的AI研究团队开发。它能够以惊人的精度和控制力克隆声音，生成模仿该声音的自然语音，支持多种语言，并能够控制语调、节奏和语调。OpenVoice的特点包括准确的音色克隆、灵活的语音风格控制和零样本跨语言语音克隆。
- 访问链接：GitHub
Hugging Face
- 简介：Hugging Face是一个用于开发机器学习和AI项目的的工具和平台。它拥有庞大的用户基础和广泛的资源，帮助开发者创建令人印象深刻的AI工具。平台提供各种模型，包括文本分类、标记分类、问答、零样本分类、翻译、摘要和文本生成等。结合文本到语音工具，可以使用Hugging Face创建有效的AI语音项目。
- 访问链接：Hugging Face
Mycroft AI
- 简介：Mycroft AI是一个开源的语音平台项目，在AI语音技术领域取得了长足进步。它的愿景是“为每个人提供AI”，允许你通过语音命令与各种设备进行交互。该软件是可定制的，允许开发者根据特定需求设计技能。
- 访问链接：Mycroft AI
Coqui.ai
- 简介：Coqui.ai是一个开源项目，使用TensorFlow和PyTorch框架，为视频游戏、后期制作、配音等生成AI语音。Coqui的特点包括声音克隆、生成性语音和语音控制。它适用于为视频和游戏创建独特而戏剧性的旁白。无论你想模拟自己的声音还是创造一个全新的声音，Coqui都能胜任。
- 访问链接：Coqui.ai
Mozilla Common Voice
- 简介：Mozilla是著名的Firefox网络浏览器背后的组织，它也在AI语音技术领域取得了进展，推出了Common Voice项目。该计划旨在创建一个能够以自然、类似人类的方式说话的AI。Common Voice项目是通过收集大量语音数据来构建的，用于训练他们的AI模型。
- 访问链接：Common Voice
Voice-Cloning
- 简介：Voice_Cloning是一个Python包，允许用户使用人工智能技术合成语音和克隆声音。有了Voice_Cloning，用户可以创建自己的文本到语音系统，从文本生成音频，甚至克隆自己的声音以创建个性化的语音模型。
- 访问链接：Voice-Cloning
WhisperSpeech
- 简介：WhisperSpeech是Collabora开发的一个开源文本到语音模型，它基于适当许可的语音数据集和不受限制的开源代码。WhisperSpeech的创新架构受到Whisper语音识别模型的启发，并反转其操作，从听写到文本到语音合成。这种独特的方法为生成自然语音开辟了许多可能性。
- 访问链接：WhisperSpeech
The Festival Speech Synthesis System
- 简介：Festival提供了一个构建语音合成系统的通用框架，包括各种模块的例子。作为一个整体，它通过多个API提供完整的文本到语音功能：从shell级别，通过Scheme命令解释器，作为C++库，从Java，以及Emacs界面。Festival支持多语言（目前包括英式和美式英语，以及西班牙语），尽管英语是最高级的。其他团队为系统发布了新的语言。Carnegie Mellon的FestVox项目提供了完整的工具和文档，用于构建新的声音。
- 访问链接：Festival
Unet-TTS
- 简介：Unet-TTS是一种新颖的一次性语音克隆算法，具有良好的对未见说话者和风格的泛化能力。该模型基于跳跃连接的U-net结构，可以有效地从参考音频中发现说话者级和话语级的频谱特征，将复杂的声学特征准确推断并模仿到合成语音中。
- 访问链接：Unet-TTS
Neural Voice Cloning with a Few Samples
- 简介：这是一个Neural Voice Cloning系统，使用少量音频样本创建个性化的语音界面。探索了两种方法：说话者适应，使用克隆样本微调多说话者模型；说话者编码，训练一个单独的模型从克隆音频中推断新的说话者嵌入。这两种方法在语音自然度和与原始说话者的相似度方面都取得了良好的性能。
- 访问链接：Neural Voice Cloning

目前，已有较多基于卷积神经网络、图神经网络等的伪造检测方法取得了优越的检测效果。但现有工作通常需要采用音频波形或频谱特征作为输入，即需要访问语音完整信息，在该过程中存在语音隐私泄露问题。同时，已有研究证实音色、响度等声学特征在语音伪造检测上的重要性[1,2]，这为仅基于声学特征进行深度伪造检测带来潜在可能。

针对此问题，浙江大学智能系统安全实验室(USSLAB)与清华大学联合提出SafeEar，一种内容隐私保护的语音伪造检测方法。

论文地址：https://safeearweb.github.io/Project/files/SafeEar_CCS2024.pdf

论文主页：https://safeearweb.github.io/Project/

代码地址：https://github.com/LetterLiGo/SafeEar

CVoiceFake数据集地址：https://zenodo.org/records/11124319

SafeEar的核心思路是，设计基于神经音频编解码器（Neural Audio Codec）的解耦模型，该模型能够将语音的声学信息与语义信息分离，并且仅利用声学信息进行伪造检测(如图1)，从而实现了内容隐私保护的语音伪造检测。

该框架针对各类音频伪造技术展现良好的检测能力与泛化能力，检测等错误率(EER)可低至2.02%，与基于完整语音信息进行伪造检测的SOTA性能接近。同时实验证明攻击者无法基于该声学信息恢复语音内容，基于人耳与机器识别方法的单词错误率(WER)均高于93.93%。

方法概述

SafeEar采用一种串行检测器结构，对输入语音获取目标离散声学特征，进而输入后端检测器，主要框架如图2所示。

主要包括以下四个部分：

基于神经音频编解码器的前端解耦模型（Frontend Codec-based Decoupling Model, Frontend CDM）

受SpeechTokenizer[3]等前期工作的启发，该部分基于神经音频编解码器结构，在语音特征分离与重建的过程中实现语音特征解耦。如图3所示，包括编码器（Encoder）、多层残差向量量化器（Residual Vector Quantizers, RVQs）、解码器（Decoder）、鉴别器（Discriminator）四个核心部分。

其中，RVQs主要包括级联的八层量化器，在第一层量化器中以Hubert特征作为监督信号分离语义特征，后续各层量化器输出特征累加即为声学特征。

瓶颈层和混淆层（Bottleneck & Shuffle）

瓶颈层被用于特征降维表征和正则化处理。混淆层对声学特征进行固定时间窗范围内的随机打乱重置，从而提升特征复杂度，确保内容窃取攻击者即便借助SOTA的语音识别（ASR）模型，也无法从声学特征中强行提取出语义信息。最终，经过解缠和混淆双重保护的音频可以有效抵御人耳或者模型两方面的恶意语音内容窃取。

伪造检测器（Deepfake Detector）

最近研究表明Transformer分类器在伪造检测方面的潜力[4]，SafeEar框架的伪造音频检测后端设计了一种仅基于声学输入的Transformer-based分类器，采用正弦、余弦函数交替形式对语音信号在时域和频域上进行位置编码。该分类器的主要结构如图5所示，包括编码器、池化层和全连接层等部分。

真实环境增强（Real-world Augment）

鉴于现实世界的信道多样性，采用具有代表性的音频编解码器（如G.711、G.722、gsm、vorbis、ogg）进行数据增强，模拟实际环境中带宽、码率的多样性，以推广到不可见通信场景。

伪造检测效果

本文选择了八个代表性的基线方法，其中包括端到端检测器(AASIST[5]、RawNet2[6]、Rawformer[7])和串行检测器(LFCC+SE-ResNet34[8]、LFCC + LCNN-LSTM[9]、LFCC+GMM[10]、CQCC+GMM[10]、Wav2Vec2+Transformer)，测试数据集采用语音伪造检测代表性数据集ASVspoof2019[11]和ASVspoof2021[12]。

SafeEar在信息损失的情况下，仍能实现较为优越的检测效果，在同类型的串行检测器中达到最低等错误率（3.10%），且优于部分端到端检测器。

隐私保护效果

对于隐私保护效果，本文讨论了具有不同能力的三类主要攻击者，包括Naive content recovery adversary（CRA1）、Knowledgeable content adversary（CRA2）和Adaptive content adversary（CRA3），通过语音识别（具有代表性的ASR模型和开源ASR API）准确率评价隐私保护的效果。

由于解耦出的声学特征具有信息损失性，攻击者无法有效恢复或重建语音内容，从而证明该方法具有隐私保护能力。同时，论文通过用户测试体现出人耳与机器在内容隐私恢复上均具有较高难度。部分实验结果如下。

训练过程中验证集上词错误率变化曲线（CRA1）。可见ASR模型（Conformer、Bi-LSTM）对于SafeEar保护后的语音始终无法识别，WER曲线保持过高数值且震荡；而对于完整音频，ASR模型可迅速收敛并在验证集上取得极低的WER

真实的用户调研表明，ASR模型被认为能够有效识别完整音频（高达Original: 8.99），而对于SafeEar面对不同攻击者等级下的识别效果始终很差（低至CRA2: 1.31、CRA3: 1.31）；同理人耳听感的清晰度分别为Original: 9.38、CRA2: 1.10、CRA3: 1.60。当用户模拟攻击者尝试恢复语音内容时，在SafeEar保护下的WER始终高于96.37%

本文在保护语音内容隐私的同时实现了语音深度伪造检测，该方法可被应用于实时语音通话环境，具有优越的检测准确性和泛化能力。

同时，该工作构建了涉及五种主流语言（英语、中文、德语、法语、意大利语）、多声码器（Parallel WaveGAN, Multi-band MelGAN, Style MelGAN, Griffin-Lim, WORLD, DiffWave）的语音伪造检测数据集CVoiceFake，最新数据集涵盖150万个语音样本及其对应转录文本，可作为语音伪造检测和内容恢复攻击的基准数据集。

SafeEar也提供了一种新颖的隐私保护串行检测框架，能够在其他相关任务中沿用和拓展，进而推进智能语音服务安全化发展。

参考资料：
[1] Chaiwongyen A, Songsriboonsit N, Duangpummet S, et al. Contribution of Timbre and Shimmer Features to Deepfake Speech Detection[C]. 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC). Chiang Mai, Thailand: IEEE, 2022: 97-103.
[2] Li M, Ahmadiadli Y, Zhang X P. A Comparative Study on Physical and Perceptual Features for Deepfake Audio Detection[C]. Proceedings of the 1st International Workshop on Deepfake Detection for Audio Multimedia. Lisboa Portugal: ACM, 2022: 35-41.
[3] Zhang, X., Zhang, D., Li, S., Zhou, Y. and Qiu, X., 2023. SpeechTokenizer: Unified Speech Tokenizer for Speech Large Language Models. International Conference on Learning Representations (ICLR) 2024.
[4] Liu, X., Liu, M., Wang, L., Lee, K.A., Zhang, H. and Dang, J., 2023, June. Leveraging positional-related local-global dependency for synthetic speech detection. In ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 1-5). IEEE.
[5] Jung J weon, Heo H S, Tak H, et al. AASIST: Audio Anti-Spoofing using Integrated Spectro-Temporal Graph Attention Networks[J]. arXiv, 2021.
[6] Jung J weon, Kim S bin, Shim H jin, et al. Improved RawNet with Feature Map Scaling for Text-independent Speaker Verification using Raw Waveforms[J]. arXiv, 2020.
[7] Liu X, Liu M, Wang L, et al. Leveraging Positional-Related Local-Global Dependency for Synthetic Speech Detection[C]. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Rhodes Island, Greece: IEEE, 2023: 1-5.
[8] Pal M, Raikar A, Panda A, et al. Synthetic Speech Detection Using Meta-Learning with Prototypical Loss[J]. arXiv, 2022.
[9] Wang X, Yamagishi J. A Comparative Study on Recent Neural Spoofing Countermeasures for Synthetic Speech Detection[J]. arXiv, 2021.
[10] ASVspoof2021 challenge organizers. ASVspoof 2021 Baseline CM & Evaluation Package[EB/OL]. 2021. https: //github.com/asvspoof- challenge/2021.
[11] Yamagishi J, Todisco M, Delgado H, et al. ASVspoof 2019: Automatic Speaker Veriﬁcation Spooﬁng and Countermeasures Challenge Evaluation Plan[R]. ASV Spoof, 2019: 13.
[12] Delgado H, Evans N, Kinnunen T, et al. ASVspoof 2021: Automatic Speaker Verification Spoofing and Countermeasures Challenge Evaluation Plan[J]. arXiv, 2021.