中电金信多模态鉴伪技术抵御AI造假威胁

news2024/9/24 13:37:33

AI换脸技术,属于深度伪造最常见方式之一,是一种利用人工智能生成逼真的虚假人脸图片或视频的技术。基于深度学习算法,可以将一个人的面部特征映射到另一个人的面部,创造出看似真实的伪造内容。近年来,以AI换脸为代表的AIGC技术被用于诈骗活动呈显著增长趋势,给金融行业带来了巨大的安全风险。

图片

注:图左为AI分身

如上述画面,领英创始人里德·霍夫曼用LLM创建了自己的AI分身,并接受了其AI分身的采访,整场采访的效果极为逼真,难辨真假。

而在近期,GitHub上的一个名为Deep-Live-Cam的项目爆火,更让人感受到AI技术的出神入化。通过这款工具随意使用一张他人的照片,就能实现在直播流中的实时换脸。

图片

国外网友(图右)使用了一张埃隆·马斯克的照片映射在自己脸上,即使在昏暗的灯光下表情也很生动。

目前,Deep-Live-Cam完全开源,对于很多网友来说是多了一个娱乐或者研究项目,但是对于不法分子来说,他们伪造欺诈的手段也会“更上一层楼”!

新型金融诈骗重灾区:AI换脸拟声

近年来,以身份验证环节的人脸识别安全为例,AI换脸诈骗作为一种新兴的“AIGC”诈骗攻击手段,已经对金融业务安全构成了严重威胁,同时,通过换脸伪装成亲友,以紧急情况为由借钱,让受害者在毫无防备的情况下遭受资金损失的案例也很多,比如:

01

对于不法分子来说,最关键的是破解线上银行的人脸核验系统。要突破人脸验证,还必须经历金融机构风控的多个环节,比如验证码、密码等环节攻破,这也意味着整个线上验证系统都会经历不同程度的攻击。而一旦进入人脸核验环节,不法分子便可通过表情、实时换脸等驱动让照片做出“张嘴、眨眼、点头、摇头”等指令性动作,再让智能设备不启动摄像头,直接底层注入合成的动态人脸视频,绕过动作等活体检测,便可顺利破解人脸识别。不法分子在掌握用户个人信息后便可轻易实施银行卡盗转盗刷,或者是引诱转账、实施敲诈等作案行为。

02

伪造他人身份通话、视频,骗取转账。不法分子首先会通过各种公开的渠道获取受害人的个人肖像或视频,然后利用AI技术,对这些照片中的面容特征进行学习,从而模仿眨眼、摇头等动作,实现以假乱真的效果,然后在微信等即时通信或者社交软件上伪装成他人,以紧急情况为由借钱,开展相应的金融诈骗活动,而受害人在视频通话中看到了熟悉的亲友样貌,打消了顾虑,向对方发起转账汇款等行为,最终造成经济损失。

多模态智能鉴伪AI造假

随着图像、视频、音频等媒体伪造所造成的威胁不断增长,许多检测方法已经出现。早期的伪造检测方法主要关注单个模态,如检测图像的真假、音频的真假等。单模态鉴伪方法处理速度快,但场景泛化性能有限,无法同时检测多个模态的真伪。为了解决上述问题,多模态鉴伪方法应用而生。现有的多模态鉴伪方法仅在小样本数据集上进行训练,并且忽略了身份信息,难以得到泛化性能较好的模型。为了提升鉴伪模型的泛化能力,中电金信联合复旦大学提出了参照辅助的多模态鉴伪方法,相关论文已被多媒体领域顶级国际会议ACM MultiMedia 2024接收,并将在该大会上进行口头报告(Oral 接收率仅3.97%)。

核心技术介绍

R-MFDN方法创新性地利用丰富的身份信息,挖掘跨模态不一致性来进行伪造检测。该方法由三个模块组成,多模态特征提取模块、特征信息融合模块和伪造鉴别模块。多模态特征提取模块包含视频编码部分和音频编码部分。视频编码部分通过ResNet实现。对于输入的视频帧序列,模型从该序列等步长地采样4个分组,每个分组中包含连续的4帧。对于采样的16帧,模型使用ResNet提取对应的图像级特征。然后每个分组的特征通过时序Transformer模型得到一个分组级特征。最后通过对4个分组级特征进行平均池化得到视觉特征。音频编码部分使用音频频谱图Transformer提取音频的高级特征。然后,这些特征作为特征信息融合模块的输入。在特征信息融合模块中,视觉特征先经过自注意力层处理,然后和音频特征通过交叉注意力层进行特征融合。最后的融合特征输入到伪造鉴别模块中,进行类别判断。

为了监督R-MFDN模型的训练,我们使用三个损失函数对模型参数更新进行约束。第一个损失函数是分类结果的交叉熵损失函数。第二个损失函数则是视觉特征与音频特征的跨模态对比学习损失函数。模型通过对来自同源和不同源视频的两种模态特征进行匹配,从而使特征学习过程能够在特征空间中对齐不同模态的信息。具体而言,源于同一个视频的不同模态特征被视作正样本对,不同源的则被视作负样本对。正样本对的特征应该尽可能接近,负样本对则应该疏远。此外在匹配过程中,涉及伪造信息的匹配亦对被视为负样本对,以增强特征学习过程对伪造的敏感性。这不仅提升了模型的判别能力,还使其在现实世界的多模态深度伪造场景中实现更准确的检测。第三个损失函数是身份驱动的对比学习损失函数,旨在使相同身份的相同模态特征尽可能靠近,而不同身份的特征则尽量远离。尽管训练与测试数据中每个身份涉及多个视频和场景,表现形式各异,鉴伪模型仍能学习到身份敏感的特征,从而在AI换脸拟声等身份伪造场景中具备更强的鉴别能力。

此外, 由于多模态伪造视频鉴别领域目前没有大规模高质量的开源数据集,研究团队还构建了一个高质量的AI换脸拟声数据集——IDForge。该数据集包含针对54位名人讲话的249,138个视频片段,其中包括169,311个伪造视频片段,模拟了当下文本、音频和视频多模态的全方位伪造。文本伪造使用大语言模型和文本替换策略生成语义不同但风格相似的新句子,以模拟大语言模型被滥用传播虚假信息的情境。音频伪造使用了TorToiSe、RVC和音频替换策略生成与说话人声音相似的新音频片段,并通过随机替换相同性别的音频来制造伪造效果。视频伪造采用了社区和学界大量采用的ROOP、SimSwap和InfoSwap三种换脸方法,并使用高分辨率版本的Wav2Lip模型进行口型同步,以确保伪造视频的高质量和自然性。与现有数据集不同,IDForge还提供了一个额外的参考数据集,该数据集包含214,438个真实视频片段。这些片段来自另外926个完整的YouTube视频,作为每位说话人的身份先验信息。这一设计的出发点是,当观众面对可能存在伪造迹象的视频时,通常会凭借记忆中对该说话人的印象或对照已有的音视频,以判断视频的真实性。因此,研究团队额外提供了参考数据集部分,作为检测网络中可用的先验信息。先前的身份信息检测方法由于缺乏类似设计的数据集,受到了诸多限制。数据集目前已在Github上开源👇

https://github.com/xyyandxyy/IDForge.

研究团队通过在提出的权威评测数据集IDForge的大量实验,证明了R-MFDN在多媒体检测任务上的有效性。

图片

注:R-MFDN的性能在每个评估指标上都取得了最好的成绩,实现了92.90%的高准确率,分别比RealForensics、VFD、CDCN、RawNet2高出了3.72%, 6.69%, 13.02%,和13.69%。

基于此项技术,中电金信推出了多模态深度伪造检测产品,通过先进的多模态内容理解与对齐技术,预测图像、音频、视频真实采集的置信度,鉴别 Al 生成内容,防范身份盗用、侵权欺诈等风险,可广泛应用在金融身份认证、视频会议核身认证、网络视频电话防欺诈等场景。目前,双模态篡改检出率已达到99.9%以上,单模态篡改检出率达到96%以上。

如上图,回到开头领英创始人里德·霍夫曼的AI分身视频,以此为素材,通过中电金信的多模态深度伪造检测能够对真伪视频立马见分晓。

利用AI换脸视频或合成声音来实施诈骗的确让人防不胜防,有关部门也正在积极开发相关的反制技术和手段。比如,《互联网信息服务深度合成管理规定》提出了算法备案、安全评估的手段,要求深度合成服务提供者对深度合成的内容添加显式或隐式水印。与此同时,也要加强对个人隐私的保护,不轻易提供人脸、指纹等个人生物信息给他人。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2160480.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

关于Cursor使用的小白第一视角

最近看破局感觉洋哥总是提到cursor,感觉好火,所以打算学习一下怎么用Cursor,如果可以希望能做一个我自己的网站。 之前从来没用过Cursor。所以,这是一篇小白视角的Cursor使用教程。 如果你也是一个小白,并且对Cursor…

【Python】Spyder:科学 Python 开发环境

在数据科学和科学计算领域,Python 已经成为了一个不可或缺的工具。为了提高开发效率和改善编程体验,一个功能强大且用户友好的开发环境是必需的。Spyder(Scientific Python Development Environment)正是这样一个为科学计算和数据…

Redhat 7,8,9系(复刻系列) 一键部署Oracle19c rpm

Oracle19c前言 Oracle 19c 是甲骨文公司推出的一款企业级关系数据库管理系统,它带来了许多新的功能和改进,使得数据库管理更加高效、安全和可靠。以下是关于 Oracle 19c 的详细介绍: 主要新特性 多租户架构:支持多租户架构,允许多个独立的数据库实例在同一个物理服务器上…

网络PPP协议802.11协议以太网协议IPV4协议在思科模拟器的实现

1)PPP协议 1. 选择2620系列交换机,添加WIC-2t模块,具有两个serial串行接口; 2.Router>enable:进入特权模式 Router#configure terminal:全局配置模式 Enter configuration commands, one per line. End with CNTL…

配置win10开电脑时显示可登录账号策略

有1台公用的windows10电脑,电脑上有N多用户,使用人员登录时选择相应的账号登录即可。但在某次使用脚本加固后,发现之前显示的用户都不能显示了。检查加固脚本,是脚本启用了“交互式登录:不显示上次登录”策略。因此&am…

基于SpringBoot+Vue的垃圾分类回收管理系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码 精品专栏:Java精选实战项目…

RHCSA认证-Linux(RHel9)-Linux入门

文章目录 概要一、创建、查看和编辑⽂本1.1 输出重定向1.2 vim编辑器1.3 shell 变量1.5 获取帮助 二、管理本地用户和组2.1 描述用户2.2 切换用户和赋权2.3 用户管理2.4 用户组管理2.5 密码策略 三、控制文件访问3.1 列出文件和文件权限3.2 更改文件权限和拥有者3.3 控制默认权…

【中级通信工程师】终端与业务(二):终端产品

【零基础3天通关中级通信工程师】 终端与业务(二):终端产品 本文是中级通信工程师考试《终端与业务》科目第二章《终端产品》的复习资料和真题汇总。终端与业务是通信考试里最简单的科目,有效复习通过率可达90%以上,本文结合了高频考点和近几…

JUC并发编程_阻塞队列 BlockingQueue

JUC并发编程_阻塞队列 BlockingQueue 一、基本概念二、主要特性三、常用方法四、实现类ArrayBlockingQueueLinkedBlockingQueuePriorityBlockingQueueSynchronousQueue 五、使用场景六、注意事项 一、基本概念 阻塞队列是一种特殊的队列,它除了支持普通队列的插入&…

电动车车牌识别系统源码分享

电动车车牌识别检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer V…

VUE-CLI配置全局SCSS变量

一.引入node-sass和sass-loader依赖 npm install --save-dev sass-loader node-sass 二. 在项目根目录中创建一个scss变量文件,比如constant.scss: 三.在vue.config.js文件中引入这个变量文件: // vue.config.js module.exports {css: {l…

艾体宝产品丨无需代码开发!Redis数据集成助你轻松优化数据库

我们不仅致力于加速应用程序的构建过程,更专注于助力您达成最终目标——实现应用的高效运行。因此,我们欣然宣布,Redis 数据集成(Redis Data Integration,RDI)(https://redis.io/data-integration/) 已经正…

自动化学习1:pytest自动化框架的基本用法:注意事项/断言assert/测试结果分析

一.注意事项: ①创建test开头的文件(test_)/类/函数或方法 ②pytest中以每一个函数或方法,作为用例 ③pytest启动方式:pytest def test01(): # 函数(写在类外边是函数)passclass Test:def t…

【机器学习】决策树算法

目录 算法引入 基尼系数: 决策树算法概述 决策树的关键概念 决策树的构建 代码实现 1. 定义决策树节点 2. 计算信息增益 3. 选择最佳分割特征 4. 构建决策树 5. 决策树预测 决策树的评估指标: 决策树的优缺点 优点: 缺点&…

Mitsuba 渲染基础

Mitsuba 渲染基础 0. Abstract1. 安装 Mitsuba21.1 下载 Mitsuba2 源码1.2 选择后端 (variants)1.3 编译 2. [Mitsuba2PointCloudRenderer](https://github.com/tolgabirdal/Mitsuba2PointCloudRenderer)2.1 Mitsuba2 渲染 XML2.2 Scene 场景的 XML 文件格式2.2.1 chair.npy to…

哪种电容笔更好用?2024精选推荐五款黄金畅销平替电容笔!

在当今信息化高速发展的时代,电容笔已成为众多电子设备用户不可或缺的重要配件。无论是专业的绘画创作者,还是日常学习、办公的人群,都对电容笔有着广泛的需求。可是市面上的品牌很多,到底哪种电容笔更好用呢?大家别担…

基于TCP协议的网络通信

TCP即传输控制协议,基于TCP协议的网络通信总是面向连接的,在通信过程中需要进行“三次握手,四次挥手”,这是众所周知的,所以这里不过多赘述。我们都知道TCP协议传输数据比较稳定,那么为什么稳定&#xff0c…

【Windows 同时安装 MySQL5 和 MySQL8 - 详细图文教程】

卸载 MySQL 参考文章: 完美解决Mysql彻底删除并重装_怎么找到mysql并卸载-CSDN博客使用命令卸载mysql_卸载mysql服务命令-CSDN博客 先管理员方式打开 cmd ,切换到 MySQL 安装目录的 bin 文件夹下,执行如下命令,删除 MySQL 服务mys…

基于DPU的OpenStack裸金属服务快速部署及存储解决方案

1 方案背景和挑战 Openstack作为开源云计算领域的领军项目,凭借其强大的功能、灵活的架构以及活跃的社区支持,在全球范围内得到了广泛的采用。通过Openstack,企业和云服务提供商可以更加高效地管理和利用计算资源、存储资源和网络资源&#…

秋招面试准备:《小米2024数字芯片岗面试题》

在数字芯片设计的浪潮中,验证工程师的角色愈发重要。他们如同守门人,确保每一块芯片在投入市场前都能稳定、高效地运行。小米,作为全球知名的智能设备制造商,对数字芯片岗位的人才选拔尤为严格。 本文分享《小米2024数字芯片岗面…