文章目录
- Half-Truth: A Partially Fake Audio Detection Dataset
- 背景
- key points
- 研究
- 数据集设计
- 评价指标
- 实验
-
- 基线:utterance-level分类(话语级)
- 基线:segment-level分类(片段级)
Half-Truth: A Partially Fake Audio Detection Dataset
会议/期刊:Interspeech 2021 CCF-C
作者:
背景
语音合成技术取得了显著的进步[1,2,3]。
以前的数据集忽略了一种攻击情况,即黑客在真实的语音音频中隐藏了一些小的假片段。
【很难从整个语音话语中区分出小的假片段】
key points
开发了一个半真音频检测(HAD)的数据集。
HAD数据集中的部分假音频只涉及改变话语中的几个单词。单词的音频是用最先进的语音合成技术生成的。
使用该数据集,我们不仅可以检测出假话,还可以定位语音中被操纵的区域。
部分假音频比完全假音频在假音频检测中更具挑战性。