1. 引言
当前,已越来越难以区分AI生成的音频与人类的声音。可能带来欺诈、身份盗用以及其它滥用问题。
在AI生成的音频可以完美模仿人声的当前环境中,需要一个可靠的信任链——从最初的音频捕获到最终的播放。这种信任链可以使用加密技术建立:经过认证的麦克风用于捕获音频,并通过ZK SNARK进行最终播放。
可使用https://github.com/ddkang/zkml来为声音编辑(如降噪、剪辑敏感信息)生成computational proof。本文将展示从音频采集,到可验证编辑的整个流程。
主要需解决2个问题:
- 1)如何采集音频:认证麦克风可解决可信音频采集问题。认证麦克风会对所采集的音频信号进行密码学签名。即使借助AI工具,该签名也不可伪造。
- 借助该签名,任何人都可验证该签名源自特定麦克风。为验证该音频源自特定的个人,这个人可公开其认证麦克风的公钥。
- 主要问题在于当前没有认证的麦克风,期待未来硬件厂商会生产硬件麦克风来抵抗AI生成的音频。
- 2)如何编辑音频:借助zk-SNARKs技术。当通过认证麦克风采集到了原始音频之后,可能需要秘密地对其进行编辑。因,情报机构可根据背景声音来定位,从而牺牲了隐私性。为保证隐私,需去掉背景造影、或者剪掉某些敏感信息。
zk-SNARKs可提供计算完整性。zk-SNARKs支持在不泄露原始音频的情况下对音频进行秘密编辑。与密码学签名类似,zk-SNARKs也不可伪造,从而可将信任链扩展到音频编辑环节。
2. 示例
在示例中:
每个人(Anna、Daniel和Kobi)都用自己的麦克风录制一个30秒的音频片段。即,有三个30秒的音频片段。
由于认证麦克风还不存在,可通过用以太坊钱包签署个人音频片段来模拟认证麦克风。这些钱包包含私钥,私钥类似于认证麦克风中的安全硬件元件。假设钱包没有被泄露,签名也是不可伪造。
在录音过程中,丹尼尔的麦克风拾取了一些背景回声,所以想把它剪下来,把片段组合成一个。借助zk-SNARKs,验证了这些编辑是从原始音频剪辑中诚实地完成的。此外,zk-SNARKs隐藏了输入音频,因此无法提取Daniel剪辑中的背景噪声!这有助于保护隐私。
在下面的演示中,最终的音频文件将与一个证明和一组签名一起呈现。验证程序对两者进行验证,确保听到的音频是对原始音频的指定操作。
总体架构为:
具体流程为:
- 1)采集音频并签名:由于当前无认证麦克风硬件,以以太坊钱包签名来模拟硬件签名。
- 2)对于已签名的音频进行编辑:需对编辑操作做计算完整性证明,可借助zk-SNARKs技术,在不暴露原始音频隐私的情况下,证明编辑操作的正确性。
参考资料
[1] Daniel Kang 2023年6月博客 Fighting AI-generated Audio with Attested Microphones and ZK-SNARKs: the Attested Audio Experiment
[2] Bonus: zkpod.ai & Attested Audio Experiment with Daniel Kang