中电金信多模态鉴伪技术抵御AI造假威胁

AI换脸技术，属于深度伪造最常见方式之一，是一种利用人工智能生成逼真的虚假人脸图片或视频的技术。基于深度学习算法，可以将一个人的面部特征映射到另一个人的面部，创造出看似真实的伪造内容。近年来，以AI换脸为代表的AIGC技术被用于诈骗活动呈显著增长趋势，给金融行业带来了巨大的安全风险。

注：图左为AI分身

如上述画面，领英创始人里德·霍夫曼用LLM创建了自己的AI分身，并接受了其AI分身的采访，整场采访的效果极为逼真，难辨真假。

而在近期，GitHub上的一个名为Deep-Live-Cam的项目爆火，更让人感受到AI技术的出神入化。通过这款工具随意使用一张他人的照片，就能实现在直播流中的实时换脸。

国外网友（图右）使用了一张埃隆·马斯克的照片映射在自己脸上，即使在昏暗的灯光下表情也很生动。

目前，Deep-Live-Cam完全开源，对于很多网友来说是多了一个娱乐或者研究项目，但是对于不法分子来说，他们伪造欺诈的手段也会“更上一层楼”！

新型金融诈骗重灾区：AI换脸拟声

近年来，以身份验证环节的人脸识别安全为例，AI换脸诈骗作为一种新兴的“AIGC”诈骗攻击手段，已经对金融业务安全构成了严重威胁，同时，通过换脸伪装成亲友，以紧急情况为由借钱，让受害者在毫无防备的情况下遭受资金损失的案例也很多，比如：

对于不法分子来说，最关键的是破解线上银行的人脸核验系统。要突破人脸验证，还必须经历金融机构风控的多个环节，比如验证码、密码等环节攻破，这也意味着整个线上验证系统都会经历不同程度的攻击。而一旦进入人脸核验环节，不法分子便可通过表情、实时换脸等驱动让照片做出“张嘴、眨眼、点头、摇头”等指令性动作，再让智能设备不启动摄像头，直接底层注入合成的动态人脸视频，绕过动作等活体检测，便可顺利破解人脸识别。不法分子在掌握用户个人信息后便可轻易实施银行卡盗转盗刷，或者是引诱转账、实施敲诈等作案行为。

伪造他人身份通话、视频，骗取转账。不法分子首先会通过各种公开的渠道获取受害人的个人肖像或视频，然后利用AI技术，对这些照片中的面容特征进行学习，从而模仿眨眼、摇头等动作，实现以假乱真的效果，然后在微信等即时通信或者社交软件上伪装成他人，以紧急情况为由借钱，开展相应的金融诈骗活动，而受害人在视频通话中看到了熟悉的亲友样貌，打消了顾虑，向对方发起转账汇款等行为，最终造成经济损失。

多模态智能鉴伪AI造假

随着图像、视频、音频等媒体伪造所造成的威胁不断增长，许多检测方法已经出现。早期的伪造检测方法主要关注单个模态，如检测图像的真假、音频的真假等。单模态鉴伪方法处理速度快，但场景泛化性能有限，无法同时检测多个模态的真伪。为了解决上述问题，多模态鉴伪方法应用而生。现有的多模态鉴伪方法仅在小样本数据集上进行训练，并且忽略了身份信息，难以得到泛化性能较好的模型。为了提升鉴伪模型的泛化能力，中电金信联合复旦大学提出了参照辅助的多模态鉴伪方法，相关论文已被多媒体领域顶级国际会议ACM MultiMedia 2024接收，并将在该大会上进行口头报告（Oral 接收率仅3.97%）。

核心技术介绍

R-MFDN方法创新性地利用丰富的身份信息，挖掘跨模态不一致性来进行伪造检测。该方法由三个模块组成，多模态特征提取模块、特征信息融合模块和伪造鉴别模块。多模态特征提取模块包含视频编码部分和音频编码部分。视频编码部分通过ResNet实现。对于输入的视频帧序列，模型从该序列等步长地采样4个分组，每个分组中包含连续的4帧。对于采样的16帧，模型使用ResNet提取对应的图像级特征。然后每个分组的特征通过时序Transformer模型得到一个分组级特征。最后通过对4个分组级特征进行平均池化得到视觉特征。音频编码部分使用音频频谱图Transformer提取音频的高级特征。然后，这些特征作为特征信息融合模块的输入。在特征信息融合模块中，视觉特征先经过自注意力层处理，然后和音频特征通过交叉注意力层进行特征融合。最后的融合特征输入到伪造鉴别模块中，进行类别判断。

为了监督R-MFDN模型的训练，我们使用三个损失函数对模型参数更新进行约束。第一个损失函数是分类结果的交叉熵损失函数。第二个损失函数则是视觉特征与音频特征的跨模态对比学习损失函数。模型通过对来自同源和不同源视频的两种模态特征进行匹配，从而使特征学习过程能够在特征空间中对齐不同模态的信息。具体而言，源于同一个视频的不同模态特征被视作正样本对，不同源的则被视作负样本对。正样本对的特征应该尽可能接近，负样本对则应该疏远。此外在匹配过程中，涉及伪造信息的匹配亦对被视为负样本对，以增强特征学习过程对伪造的敏感性。这不仅提升了模型的判别能力，还使其在现实世界的多模态深度伪造场景中实现更准确的检测。第三个损失函数是身份驱动的对比学习损失函数，旨在使相同身份的相同模态特征尽可能靠近，而不同身份的特征则尽量远离。尽管训练与测试数据中每个身份涉及多个视频和场景，表现形式各异，鉴伪模型仍能学习到身份敏感的特征，从而在AI换脸拟声等身份伪造场景中具备更强的鉴别能力。

此外, 由于多模态伪造视频鉴别领域目前没有大规模高质量的开源数据集，研究团队还构建了一个高质量的AI换脸拟声数据集——IDForge。该数据集包含针对54位名人讲话的249,138个视频片段，其中包括169,311个伪造视频片段，模拟了当下文本、音频和视频多模态的全方位伪造。文本伪造使用大语言模型和文本替换策略生成语义不同但风格相似的新句子，以模拟大语言模型被滥用传播虚假信息的情境。音频伪造使用了TorToiSe、RVC和音频替换策略生成与说话人声音相似的新音频片段，并通过随机替换相同性别的音频来制造伪造效果。视频伪造采用了社区和学界大量采用的ROOP、SimSwap和InfoSwap三种换脸方法，并使用高分辨率版本的Wav2Lip模型进行口型同步，以确保伪造视频的高质量和自然性。与现有数据集不同，IDForge还提供了一个额外的参考数据集，该数据集包含214,438个真实视频片段。这些片段来自另外926个完整的YouTube视频，作为每位说话人的身份先验信息。这一设计的出发点是，当观众面对可能存在伪造迹象的视频时，通常会凭借记忆中对该说话人的印象或对照已有的音视频，以判断视频的真实性。因此，研究团队额外提供了参考数据集部分，作为检测网络中可用的先验信息。先前的身份信息检测方法由于缺乏类似设计的数据集，受到了诸多限制。数据集目前已在Github上开源👇

https://github.com/xyyandxyy/IDForge.

研究团队通过在提出的权威评测数据集IDForge的大量实验，证明了R-MFDN在多媒体检测任务上的有效性。

注：R-MFDN的性能在每个评估指标上都取得了最好的成绩，实现了92.90%的高准确率，分别比RealForensics、VFD、CDCN、RawNet2高出了3.72%, 6.69%, 13.02%，和13.69%。

基于此项技术，中电金信推出了多模态深度伪造检测产品，通过先进的多模态内容理解与对齐技术，预测图像、音频、视频真实采集的置信度，鉴别 Al 生成内容，防范身份盗用、侵权欺诈等风险，可广泛应用在金融身份认证、视频会议核身认证、网络视频电话防欺诈等场景。目前，双模态篡改检出率已达到99.9%以上，单模态篡改检出率达到96%以上。

如上图，回到开头领英创始人里德·霍夫曼的AI分身视频，以此为素材，通过中电金信的多模态深度伪造检测能够对真伪视频立马见分晓。

利用AI换脸视频或合成声音来实施诈骗的确让人防不胜防，有关部门也正在积极开发相关的反制技术和手段。比如，《互联网信息服务深度合成管理规定》提出了算法备案、安全评估的手段，要求深度合成服务提供者对深度合成的内容添加显式或隐式水印。与此同时，也要加强对个人隐私的保护，不轻易提供人脸、指纹等个人生物信息给他人。