150万条多语种音频数据!浙大清华发布语音伪造检测框架SafeEar,兼顾隐私保护,附代码和数据集

news2025/1/16 17:53:57

150万条多语种音频数据!浙大清华发布语音伪造检测框架SafeEar,兼顾隐私保护,附代码和数据集.

在这里插入图片描述

SafeEar是一种内容隐私保护的语音伪造检测方法,其核心是设计基于神经音频编解码器的解耦模型,分离语音声学与语义信息,仅利用声学信息检测,包括前端解耦模型、瓶颈层和混淆层、伪造检测器、真实环境增强四部分。

近年来,语音合成和语音转换等技术取得快速发展,基于相关技术能够合成逼真、自然的音频。然而,攻击者可利用该技术进行语音伪造,即「克隆」特定对象语音,为用户隐私安全与社会稳定带来严重威胁。

以下是一些优秀的开源语音合成和声音克隆项目,以及它们的详细介绍和访问链接:

  1. OpenVoice

    • 简介:OpenVoice是一个开源的即时语音克隆工具,由MIT、清华大学和加拿大初创公司MyShell的AI研究团队开发。它能够以惊人的精度和控制力克隆声音,生成模仿该声音的自然语音,支持多种语言,并能够控制语调、节奏和语调。OpenVoice的特点包括准确的音色克隆、灵活的语音风格控制和零样本跨语言语音克隆。
    • 访问链接:GitHub
  2. Hugging Face

    • 简介:Hugging Face是一个用于开发机器学习和AI项目的的工具和平台。它拥有庞大的用户基础和广泛的资源,帮助开发者创建令人印象深刻的AI工具。平台提供各种模型,包括文本分类、标记分类、问答、零样本分类、翻译、摘要和文本生成等。结合文本到语音工具,可以使用Hugging Face创建有效的AI语音项目。
    • 访问链接:Hugging Face
  3. Mycroft AI

    • 简介:Mycroft AI是一个开源的语音平台项目,在AI语音技术领域取得了长足进步。它的愿景是“为每个人提供AI”,允许你通过语音命令与各种设备进行交互。该软件是可定制的,允许开发者根据特定需求设计技能。
    • 访问链接:Mycroft AI
  4. Coqui.ai

    • 简介:Coqui.ai是一个开源项目,使用TensorFlow和PyTorch框架,为视频游戏、后期制作、配音等生成AI语音。Coqui的特点包括声音克隆、生成性语音和语音控制。它适用于为视频和游戏创建独特而戏剧性的旁白。无论你想模拟自己的声音还是创造一个全新的声音,Coqui都能胜任。
    • 访问链接:Coqui.ai
  5. Mozilla Common Voice

    • 简介:Mozilla是著名的Firefox网络浏览器背后的组织,它也在AI语音技术领域取得了进展,推出了Common Voice项目。该计划旨在创建一个能够以自然、类似人类的方式说话的AI。Common Voice项目是通过收集大量语音数据来构建的,用于训练他们的AI模型。
    • 访问链接:Common Voice
  6. Voice-Cloning

    • 简介:Voice_Cloning是一个Python包,允许用户使用人工智能技术合成语音和克隆声音。有了Voice_Cloning,用户可以创建自己的文本到语音系统,从文本生成音频,甚至克隆自己的声音以创建个性化的语音模型。
    • 访问链接:Voice-Cloning
  7. WhisperSpeech

    • 简介:WhisperSpeech是Collabora开发的一个开源文本到语音模型,它基于适当许可的语音数据集和不受限制的开源代码。WhisperSpeech的创新架构受到Whisper语音识别模型的启发,并反转其操作,从听写到文本到语音合成。这种独特的方法为生成自然语音开辟了许多可能性。
    • 访问链接:WhisperSpeech
  8. The Festival Speech Synthesis System

    • 简介:Festival提供了一个构建语音合成系统的通用框架,包括各种模块的例子。作为一个整体,它通过多个API提供完整的文本到语音功能:从shell级别,通过Scheme命令解释器,作为C++库,从Java,以及Emacs界面。Festival支持多语言(目前包括英式和美式英语,以及西班牙语),尽管英语是最高级的。其他团队为系统发布了新的语言。Carnegie Mellon的FestVox项目提供了完整的工具和文档,用于构建新的声音。
    • 访问链接:Festival
  9. Unet-TTS

    • 简介:Unet-TTS是一种新颖的一次性语音克隆算法,具有良好的对未见说话者和风格的泛化能力。该模型基于跳跃连接的U-net结构,可以有效地从参考音频中发现说话者级和话语级的频谱特征,将复杂的声学特征准确推断并模仿到合成语音中。
    • 访问链接:Unet-TTS
  10. Neural Voice Cloning with a Few Samples

    • 简介:这是一个Neural Voice Cloning系统,使用少量音频样本创建个性化的语音界面。探索了两种方法:说话者适应,使用克隆样本微调多说话者模型;说话者编码,训练一个单独的模型从克隆音频中推断新的说话者嵌入。这两种方法在语音自然度和与原始说话者的相似度方面都取得了良好的性能。
    • 访问链接:Neural Voice Cloning

目前,已有较多基于卷积神经网络、图神经网络等的伪造检测方法取得了优越的检测效果。但现有工作通常需要采用音频波形或频谱特征作为输入,即需要访问语音完整信息,在该过程中存在语音隐私泄露问题。同时,已有研究证实音色、响度等声学特征在语音伪造检测上的重要性[1,2],这为仅基于声学特征进行深度伪造检测带来潜在可能。

针对此问题,浙江大学智能系统安全实验室(USSLAB)与清华大学联合提出SafeEar,一种内容隐私保护的语音伪造检测方法。

论文地址:https://safeearweb.github.io/Project/files/SafeEar_CCS2024.pdf

论文主页:https://safeearweb.github.io/Project/

代码地址:https://github.com/LetterLiGo/SafeEar

CVoiceFake数据集地址:https://zenodo.org/records/11124319

SafeEar的核心思路是,设计基于神经音频编解码器(Neural Audio Codec)的解耦模型,该模型能够将语音的声学信息与语义信息分离,并且仅利用声学信息进行伪造检测(如图1),从而实现了内容隐私保护的语音伪造检测。

该框架针对各类音频伪造技术展现良好的检测能力与泛化能力,检测等错误率(EER)可低至2.02%,与基于完整语音信息进行伪造检测的SOTA性能接近。同时实验证明攻击者无法基于该声学信息恢复语音内容,基于人耳与机器识别方法的单词错误率(WER)均高于93.93%。

方法概述

SafeEar采用一种串行检测器结构,对输入语音获取目标离散声学特征,进而输入后端检测器,主要框架如图2所示。

主要包括以下四个部分:

  1. 基于神经音频编解码器的前端解耦模型(Frontend Codec-based Decoupling Model, Frontend CDM)

受SpeechTokenizer[3]等前期工作的启发,该部分基于神经音频编解码器结构,在语音特征分离与重建的过程中实现语音特征解耦。如图3所示,包括编码器(Encoder)、多层残差向量量化器(Residual Vector Quantizers, RVQs)、解码器(Decoder)、鉴别器(Discriminator)四个核心部分。

其中,RVQs主要包括级联的八层量化器,在第一层量化器中以Hubert特征作为监督信号分离语义特征,后续各层量化器输出特征累加即为声学特征。

  1. 瓶颈层和混淆层(Bottleneck & Shuffle)

瓶颈层被用于特征降维表征和正则化处理。混淆层对声学特征进行固定时间窗范围内的随机打乱重置,从而提升特征复杂度,确保内容窃取攻击者即便借助SOTA的语音识别(ASR)模型,也无法从声学特征中强行提取出语义信息。最终,经过解缠和混淆双重保护的音频可以有效抵御人耳或者模型两方面的恶意语音内容窃取。

  1. 伪造检测器(Deepfake Detector)

最近研究表明Transformer分类器在伪造检测方面的潜力[4],SafeEar框架的伪造音频检测后端设计了一种仅基于声学输入的Transformer-based分类器,采用正弦、余弦函数交替形式对语音信号在时域和频域上进行位置编码。该分类器的主要结构如图5所示,包括编码器、池化层和全连接层等部分。

  1. 真实环境增强(Real-world Augment)

鉴于现实世界的信道多样性,采用具有代表性的音频编解码器(如G.711、G.722、gsm、vorbis、ogg)进行数据增强,模拟实际环境中带宽、码率的多样性,以推广到不可见通信场景。

伪造检测效果

本文选择了八个代表性的基线方法,其中包括端到端检测器(AASIST[5]、RawNet2[6]、Rawformer[7])和串行检测器(LFCC+SE-ResNet34[8]、LFCC + LCNN-LSTM[9]、LFCC+GMM[10]、CQCC+GMM[10]、Wav2Vec2+Transformer),测试数据集采用语音伪造检测代表性数据集ASVspoof2019[11]和ASVspoof2021[12]。

SafeEar在信息损失的情况下,仍能实现较为优越的检测效果,在同类型的串行检测器中达到最低等错误率(3.10%),且优于部分端到端检测器。

隐私保护效果

对于隐私保护效果,本文讨论了具有不同能力的三类主要攻击者,包括Naive content recovery adversary(CRA1)、Knowledgeable content adversary(CRA2)和Adaptive content adversary(CRA3),通过语音识别(具有代表性的ASR模型和开源ASR API)准确率评价隐私保护的效果。

由于解耦出的声学特征具有信息损失性,攻击者无法有效恢复或重建语音内容,从而证明该方法具有隐私保护能力。同时,论文通过用户测试体现出人耳与机器在内容隐私恢复上均具有较高难度。部分实验结果如下。

训练过程中验证集上词错误率变化曲线(CRA1)。可见ASR模型(Conformer、Bi-LSTM)对于SafeEar保护后的语音始终无法识别,WER曲线保持过高数值且震荡;而对于完整音频,ASR模型可迅速收敛并在验证集上取得极低的WER

真实的用户调研表明,ASR模型被认为能够有效识别完整音频(高达Original: 8.99),而对于SafeEar面对不同攻击者等级下的识别效果始终很差(低至CRA2: 1.31、CRA3: 1.31);同理人耳听感的清晰度分别为Original: 9.38、CRA2: 1.10、CRA3: 1.60。当用户模拟攻击者尝试恢复语音内容时,在SafeEar保护下的WER始终高于96.37%

本文在保护语音内容隐私的同时实现了语音深度伪造检测,该方法可被应用于实时语音通话环境,具有优越的检测准确性和泛化能力。

同时,该工作构建了涉及五种主流语言(英语、中文、德语、法语、意大利语)、多声码器(Parallel WaveGAN, Multi-band MelGAN, Style MelGAN, Griffin-Lim, WORLD, DiffWave)的语音伪造检测数据集CVoiceFake,最新数据集涵盖150万个语音样本及其对应转录文本,可作为语音伪造检测和内容恢复攻击的基准数据集。

SafeEar也提供了一种新颖的隐私保护串行检测框架,能够在其他相关任务中沿用和拓展,进而推进智能语音服务安全化发展。

参考资料:
[1] Chaiwongyen A, Songsriboonsit N, Duangpummet S, et al. Contribution of Timbre and Shimmer Features to Deepfake Speech Detection[C]. 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC). Chiang Mai, Thailand: IEEE, 2022: 97-103.
[2] Li M, Ahmadiadli Y, Zhang X P. A Comparative Study on Physical and Perceptual Features for Deepfake Audio Detection[C]. Proceedings of the 1st International Workshop on Deepfake Detection for Audio Multimedia. Lisboa Portugal: ACM, 2022: 35-41.
[3] Zhang, X., Zhang, D., Li, S., Zhou, Y. and Qiu, X., 2023. SpeechTokenizer: Unified Speech Tokenizer for Speech Large Language Models. International Conference on Learning Representations (ICLR) 2024.
[4] Liu, X., Liu, M., Wang, L., Lee, K.A., Zhang, H. and Dang, J., 2023, June. Leveraging positional-related local-global dependency for synthetic speech detection. In ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 1-5). IEEE.
[5] Jung J weon, Heo H S, Tak H, et al. AASIST: Audio Anti-Spoofing using Integrated Spectro-Temporal Graph Attention Networks[J]. arXiv, 2021.
[6] Jung J weon, Kim S bin, Shim H jin, et al. Improved RawNet with Feature Map Scaling for Text-independent Speaker Verification using Raw Waveforms[J]. arXiv, 2020.
[7] Liu X, Liu M, Wang L, et al. Leveraging Positional-Related Local-Global Dependency for Synthetic Speech Detection[C]. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Rhodes Island, Greece: IEEE, 2023: 1-5.
[8] Pal M, Raikar A, Panda A, et al. Synthetic Speech Detection Using Meta-Learning with Prototypical Loss[J]. arXiv, 2022.
[9] Wang X, Yamagishi J. A Comparative Study on Recent Neural Spoofing Countermeasures for Synthetic Speech Detection[J]. arXiv, 2021.
[10] ASVspoof2021 challenge organizers. ASVspoof 2021 Baseline CM & Evaluation Package[EB/OL]. 2021. https: //github.com/asvspoof- challenge/2021.
[11] Yamagishi J, Todisco M, Delgado H, et al. ASVspoof 2019: Automatic Speaker Verification Spoofing and Countermeasures Challenge Evaluation Plan[R]. ASV Spoof, 2019: 13.
[12] Delgado H, Evans N, Kinnunen T, et al. ASVspoof 2021: Automatic Speaker Verification Spoofing and Countermeasures Challenge Evaluation Plan[J]. arXiv, 2021.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2208223.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

服务器数据恢复—硬盘坏扇区导致Linux系统服务器数据丢失的数据恢复案例

服务器数据恢复环境: 一台linux操作系统网站服务器,该服务器上部署了几十个网站,使用一块SATA硬盘。 服务器故障&原因: 服务器在工作过程中突然宕机。管理员尝试重新启动服务器失败,于是将服务器上的硬盘拆下检测…

PostgreSQL数据库安全管理,细节都在这里了

📢📢📢📣📣📣 作者:IT邦德 中国DBA联盟(ACDU)成员,10余年DBA工作经验, Oracle、PostgreSQL ACE CSDN博客专家及B站知名UP主,全网粉丝10万 擅长主流Oracle、My…

要求信创检测的项目验收中,验收依据有哪些?

一、验收依据和分类 验收依据: 通常包括立项批复文件以及经批复的项目建议书、可行性研究报告、业务需求说明书;正式设计文件;项目招标文件和采购文件;签订的项目合同或协议;经批准的项目变更文件;有关法…

出海快报 | “三消+短剧”手游横空出世,黄油相机“出圈”日本市场,从Q1看日本手游市场趋势和机会

编者按:TopOn出海快报栏目为互联网出海从业者梳理出海热点,供大家了解行业最新发展态势。 1.“三消短剧”横空出世,融合创新手游表现亮眼 随着竞争的加剧,新产品想要突出重围,只能在游戏中加入额外的元素。第一次打开…

vue使用js-xlsx导入本地excle表格数据,回显在页面上

效果图 解释放在代码的注释中 页面代码&#xff0c;导入本地文件我用的是element的上传工具 // 我是根据js文件直接引入的 <script src"/js/xlsx.full.min.js"></script>// 导入excelreadWorkbookFromLocalFile(fileData) {// 文件信息const file f…

智能生成ppt软件哪个好?如何高效生成ppt?

想要快速制作出专业且吸引人的PPT演示文稿吗&#xff1f;ai智能生成ppt工具可以帮你实现这一目标。 无需复杂的设计技巧&#xff0c;也不必花费大量时间&#xff0c;只需几个简单的步骤&#xff0c;就能创造出令人印象深刻的演示文稿。下面是一份免费版教程&#xff0c;让你轻…

中航资本:股票低佣开户注意事项,怎么低佣金开户?

股票生意中会涉及到一些手续费&#xff0c;佣金费、印花税、过户费等&#xff0c;印花税、过户费的费率是承认的&#xff0c;而不同证券公司、生意途径的佣金费率都有或许不同。 低佣金开户办法&#xff1a; 1、线上券商途径开户&#xff1a;许多大型证券公司&#xff0c;例如…

在HF上部署你的专属MindSearch,随时随地开启智能搜索!

作者&#xff1a;MindSearch 兴趣小组成员张富才 本文将详细带领大家学习如何在 Hugging Face Space 部署****并美化专属自己的 MindSearch 应用&#xff0c;免去排队等待的烦恼&#xff0c;随时随地开启智能搜索&#xff01; 在深入开始之前&#xff0c;我们需要了解&#x…

深入理解 C/C++ 指针

深入理解 C 指针&#xff1a;指针、解引用与指针变量的详细解析 前言 在 C 编程语言中&#xff0c;指针 是一个非常强大且重要的概念。对于初学者来说&#xff0c;指针往往会让人感到困惑不解。本文将通过形象的比喻&#xff0c;帮助大家深入理解指针、解引用与指针变量的概念…

安装openai-whisper 失败

昨晚安装python 语音识别模型经常失败&#xff1a; pip install openai-whisper 具体原因是因为国外的源使网络不稳定造成断网 查阅资料我自己的解决办法是在自己C:\Users\用户名目录下建一个pip文件夹&#xff0c;在pip文件夹下建一个pip.ini文件 在pip.ini文件中加入自己要…

MYSQL 多表拼接link

&#x1f3c6;本文收录于《全栈Bug调优(实战版)》专栏&#xff0c;主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案&#xff0c;希望能够助你一臂之力&#xff0c;帮你早日登顶实现财富自由&#x1f680;&#xff1b;同时&#xff0c;欢迎大家关注&&am…

mysql复制表结构和数据

1.实例 #复制一张和test 一摸一样的表结构 CREATE TABLE test_one like test#往复制的表结构中复制数据 INSERT INTO test_one SELECT * FROM test#两者一起使用相当于 cv大法2.总结 完全实现了表结构和数据的复制&#xff0c;但是两条sql 得分两步执行 2.1 复制表结构 #复制…

AI开源项目

开源AI知识库 FastGPT FastGPT是一个基于LLM&#xff08;大型语言模型&#xff09;的知识库问答系统项目&#xff0c;以下是对FastGPT项目的详细解释&#xff1a; 一、项目背景与团队 FastGPT由FastAI团队开发&#xff0c;该团队包含多位在机器学习和自然语言处理领域具有丰富…

大数据应用方案1-Postgresql集群

1 说明&#xff1a; 在做任何系统之前&#xff0c;选择哪种数据底座做支持很重要&#xff0c;是一栋大厦地基牢不牢固的根本问题&#xff0c;这里用Postgresql基于docker实现了分布式的集群实践&#xff0c;分享之。 2. 基于docker的集群实践 2.1 方案设计 - 两个已安装了d…

ICLR 2024 Spotlight|SEAL:面向真实场景超分辨率的系统性评估框架

研究背景 现实世界图像超分辨率&#xff08;Real-World Super-Resolution, Real-SR&#xff09;技术&#xff0c;作为提升图像清晰度的关键技术&#xff0c;正变得越来越重要。然而&#xff0c;如何准确评估Real-SR方法的性能&#xff0c;一直是该领域的一大挑战。目前的评估…

mig IP核的学习

mig全称是Memory Interface Generator。 参考自视频&#xff1a;MIG IP配置_哔哩哔哩_bilibili DDR基础知识 时钟类型 使用流程 选择DDR3 16是地址线的位宽 能在DDR3的型号MT41K256M16XX-125中看出来。 怎么选择clock period 靠的是 芯片型号中的 -125,然后算出 800MHZ,…

【市场解读】中国智能电车发展趋势

参考文献&#xff1a;汽车之家-《2024中国智能电动车发展趋势洞察报告》 市场趋势 汽车消费 新能源渗透率持续走高&#xff0c;在2024上半年已达到42%&#xff0c;有望在2025冲刺60%。用户对新能源车的关注度也持续增长。 新能源车新品投放加速&#xff0c;其中混动新品投…

QT 10.11

作业&#xff1a;将数据库和图像处理自己实现一遍 数据库操作 源文件 #include "widget.h" #include "ui_widget.h" #include<QMessageBox> #include<QDebug> #include <QTableWidget> Widget::Widget(QWidget *parent) : QWidget(pare…

如何在 idea 中移动类

今天在项目中出现了一个问题&#xff0c;大哥告诉我说&#xff0c;我的类放错包了&#xff0c;但是此时这个类我已经写得差不多了&#xff0c;有很多其他类中都用的是当前包的路径&#xff0c;那么该如何简单的将类移动位置呢&#xff1f; 1.右击你要移动的类&#xff0c;依次…

包含957,174个局部最优解,为优化算法评估提供了新的视角

2024-10-03, 英国诺丁汉大学数学科学学院的Gary R. Mirams教授团队创建了一个基于英国地形的二维优化基准数据集,该数据集包含了经过修改的英国地形数据&#xff0c;并从中识别出了957,174个局部最优解&#xff0c;为优化算法的评估提供了新的视角。 一、研究背景&#xff1a; …