已经有多人中招,不要被AI换脸技术骗了!

news2024/11/15 23:00:59

您好,我是码农飞哥(wei158556),感谢您阅读本文,欢迎一键三连哦
💪🏻 1. Python基础专栏,基础知识一网打尽,9.9元买不了吃亏,买不了上当。 Python从入门到精通
😁 2. 毕业设计专栏,毕业季咱们不慌忙,几百款毕业设计等你选。
❤️ 3. Python爬虫专栏,系统性的学习爬虫的知识点。9.9元买不了吃亏,买不了上当 。python爬虫入门进阶
❤️ 4. Ceph实战,从原理到实战应有尽有。 Ceph实战
❤️ 5. Java高并发编程入门,打卡学习Java高并发。 Java高并发编程入门

文章目录

    • 1. 前言背景
    • 2. 大模型在文档图像领域的应用
      • 2.1. 文档图像大模型的进展
    • 3. 图像安全
      • 3.1. 图像篡改检测
      • 3.2. 生成式图像鉴别
    • 4. 总结

1. 前言背景

自去年ChatGPT发布之后,各大科技公司纷纷推出了自家的大模型,标志这人类社会正式进入了大模型时代。大模型的发展速度惊人,从最初的只能根据提问生成自然语言文本,到现在可以根据输入文本来绘图,根据输入图像来进行OCR识别,并对文档或图像的内容进行解释。这意味着现在的大模型已经从单一模态的输入和输出,进化到了多模态的输入和输出。

在近期召开的第六届中国模式识别与计算机视觉大会上。我专门学习了合合信息的郭丰俊博士关于文档图像前沿技术探索的分享。郭博士是上海交通大学模式识别与智能系统博士,他首先介绍了多模态在文档图像领域的应用以及合合信息在此方向的最新研究成果。接着,他阐述了如何应对各类图像安全问题,特别是图像篡改以及AI换脸等造假行为的甄别新思路。通过郭博士的分享,我对大模型时代文档图像领域的发展趋势有了更深入的了解。

2. 大模型在文档图像领域的应用

通用大语言模型(Large Language Models,LLM)是以深度学习为基础,包含超大规模参数的预训练模型,主要应用于自然语言领域。这些模型的训练需要大量的高质量数据语料。然而,随着大模型的快速发展和广泛应用,高质量的数据语料逐渐被消耗殆尽。据预测,到2026年全世界可用于大模型训练的高质量数据语料将面临枯竭的风险。这对大模型的发展和应用提出了严峻挑战。

为了应对这一问题,单一的文本数据输入已无法满足需求,大模型需要引入多种模态的数据语料。电子文档作为丰富的数据源,具有巨大的潜力。首先,电子文档提供了丰富多样的文本内容,涵盖了各种领域的专业知识,专业术语,实际场景将这些文档作为语料库,可以有效扩大大语言模型的训练数据范围,提高其语言理解和生成能力。其次,电子文档通常经过精心编辑,逻辑清晰、可读性强。其章节分明、段落明确的结构有助于大模型更好地学习理解上下文规则。此外,通过电子文档的训练,大模型还能够适应不同的语境和用法。

考虑到电子文档中存在大量的扫描件,文档图像处理技术的发展对大模型的进步具有重要意义。图像处理和自然语言处理相结合,将为大模型提供更加全面和多样的数据支持,进一步推动其发展和应用。

同时,这种技术也可以给图像识别提供新的思路和方法。通过结合自然语言处理,图像识别可以更加准确地理解图像中的文本信息,从而提高图像识别的准确性和可靠性。这种跨模态的技术将为人工智能领域的发展带来新的机遇和挑战。

2.1. 文档图像大模型的进展

目前,业界已经涌现出了一批知名的文档图像大模型,其中有代表性的包括多模态模型BLP2,微软的LLaVA以及DeepMind的Flamingo。这些模型在工作机制上有所不同,但都展现了在文档图像处理领域的强大能力。

BLP2多模态模型使用Q-Former连接图像编码器(ViT) 和LLM解码器,通过Image Encode将图像进行编码,然后使用Q-Former将图像部分和文字部分进行融合,最后对接大模型进行理解和生成。这种工作机制使得BLP2不仅能够进行图像识别,还能充分利用大模型的理解能力,提高了模型的性能和应用范围。

微软的LLaVA模型则采用CLIP ViT-L图像编码器和LLaMA解码器,并使用GPT-4和自注意力生成高质量的158K instruction following数据。这种方法使得LLaVA能够在文档图像处理任务中取得较好的效果,提高了模型的准确性和可靠性。

DeepMind的Flamingo模型则在大语言模型中增加了Gated Attention层,通过计算图像特征和文本特征之间的注意力权重,生成与文本特征相匹配的视觉向量。这个视觉向量与文本向量一起作为输入,使得语言模型的输出更加准确和生动。

尽管这些文档图像大模型在工作机制上有所不同,但它们都依赖于OCR引擎进行文本识别。这种模式存在的一个问题是误差的累积,目前这些模型在OCR识别上的系统性能还有待进一步提高。
在这里插入图片描述

郭丰俊博士指出了当前文档图像大模型在处理细粒度文本时存在的局限性,可能的原因之一是视觉编码器的分辨率不足。在真实的应用场景中,细粒度文本往往会受到光照、噪声、变形等各种因素的干扰,这增加了文字识别的难度。现有的多模态大模型中的视觉编码器,如基于卷积神经网络或Transformer的模型,在处理图像时会受到分辨率的限制,导致对细粒度文本的识别效果不佳。

另一方面,训练数据集的缺乏也是影响模型性能的重要因素。由于缺少针对细粒度文本的标注数据,模型难以从数据中学习到有效的细粒度文本特征表示。因此,虽然现有的多模态大模型在处理显著文本时表现较好,但在处理细粒度文本时仍存在很大的局限性。

为了克服这些局限性,需要进一步开展深入的研究和探索。

3. 图像安全

图像安全与每个人的日常生活紧密相连,许多诈骗分子利用伪造的身份证冒充他人进行非法交易,或者通过虚假发票实施金融诈骗。

在传统图像处理中,人们通过PS(Photoshop)等工具对图像进行篡改,例如添加水印,修改原图内容等。这种篡改方式相对较易检测出来。然而,随着大模型时代的到来,AI换脸技术的出现使得图像篡改变得更加复杂和难以检测。通过运用大量的训练数据和强大的神经网络模型,AI可以生成非常逼真的人脸图像,与真实的人脸几乎无法区分。由此,利用AI换了技术进行欺诈的案例屡见不鲜。

除了AI换脸技术,通过生成对抗网络(GAN)等技术 ,AIGC还能生成各种类型的图像,包括风景、动物、物体等。这些生成的图像可以非常逼真,与真实的图片相比真假难辨。这给图像安全带来了巨大的挑战,因为人们很难判断一张图像是真实拍摄的还是由AI所生成的。

在这里插入图片描述

为了应对这些挑战,研究人员正在努力开发新的技术和方法来检测和防止图像篡改和伪造。

3.1. 图像篡改检测

传统的图像篡改检测技术主要通过应用Sobel算子计算图像的梯度,然后进行阈值处理,将梯度幅值较小的像素设为零。接着通过分析非零像素数量来判断图像是否被篡改。具体来说,如果非零像素数量超过图像总像素数的1%,那么该图像会被认定为已被篡改。

这种方法对于相片这类有明显像素差异的图片有一定的效果,但对于截图这类缺乏纹路和底色、光照差异的图片则显得力不从心,鉴别准确率不高。

为了应对这种情况,合合信息提出了一种全新的分割模型Backbone,该模型采用了ConvNeXt作为编码器,同时使用LightHam和EANet两个网络并行作为解码器。

编码器的作用是将输入的图像数据进行特征提取和压缩,将其转化为低维的特征表示。在这个分割模型中,选择的ConvNeXt编码器是一种基于卷积神经网络(CNN)的新型架构。它在保持计算效率的同时,能够有效地捕捉图像中的局部和全局信息,提高了网络的性能和表达能力。

解码器的作用则是将编码器提取的特征表示恢复为原始图像的大小,并进行像素级别的分类。在这个分割模型中,采用了并行的两个解码器:LightHam和EANet。LightHam是一种轻量级的解码器结构,通过分层注意力机制和多尺度融合策略,实现了高效的图像分割。而EANet(Efficient Attention Network)则是一种高效的解码器结构,通过引入自底向上的注意力机制和空间金字塔池化等技术,提高了分割的准确性和速度。

最后,这两个解码器并行工作,分别生成两个独立的分割结果。这两个结果可以进一步融合或选择最优的结果作为最终的分割输出。这种并行处理的方式可以提高模型的鲁棒性和准确性,同时也增加了模型的复杂度和计算开销。

Backbone分割模型架构图如下图所示:

在这里插入图片描述

合合信息自研的图片篡改检测系统,在 ICDAR2023 文档图像篡改检测竞赛中,凭借卓越的检测性能,成功荣获赛道冠军。

在这里插入图片描述

合合信息自研的图片篡改检测系统已经在多个行业成功落地,包括证券、保险、银行、零售等。这些行业的业务流程涉及到大量的图像信息处理和审核,如证件照、合同、发票等,因此对图像篡改检测的需求较大。

通过引入合合信息的图片篡改检测系统,企业可以提高业务审核的准确性和效率,有效减少因图像篡改而引发的风险和损失。同时,该系统还可以提升企业的业务流程自动化水平,降低人工审核的成本和误差。

为了方便更多用户体验和使用该系统,合合信息已在其官网上线了这套图片篡改检测系统。有需求的小伙伴可以到官网进行免费体验。体验地址为: PS检测网址。通过这一系统, 用户可以快速检测图像是否被篡改,提高图像信息的可信度。

3.2. 生成式图像鉴别

生成式图像鉴别主要面临两大难题:首先,AI生成的图像涵盖了丰富多样的场景,这使得通过穷举法进行鉴别变得非常困难;其次,AI生成的图像非常的逼真,与真实图片相似度极高,这对人类的判断构成了极大的挑战。

为了应对这些难点,合合信息提出了一种创新的方法,基于空域和频域关系建模。这种方法无需穷举所有可能的图像,而是通过捕捉多维度的特征来准确地分辨真实图片和生成式图片之间的微妙差异。

这种多维度特征的分析方式为机器提供了一种更加精确的判断图像真实性的能力,从而有效地解决了生成式图片与真实图片相似度过高的问题。这使得机器能够更加可靠地鉴别图像的来源,提高了生成式图像鉴别的准确性。

模型结构图如下图所示:

image-20231015201118187

以人脸为例,该模型通过运用多个空间注意力头来聚焦空间特征,并结合纹理增强模块对浅层特征中的细微伪影进行放大处理。这些技术手段大大增强了模型真实人脸和伪造人脸的感知与判断准确度。在各种复杂场景下,该模型均能够表现出高度可靠的性能,准确区分真实人脸和伪造人脸。随着相关技术的快速迭代,模型的性能也在不断提升,进一步优化了对生成式图像鉴别的能力。

image-20231015201429559

4. 总结

通过郭丰俊博士的分享,我深入了解了大模型在文档图像领域应用的广阔前景。合合信息将大模型与OCR技术巧妙结合,创新地将端到端的检测识别定义为图片到序列的预测任务,只需单点标注指示文本位置,无需额外的ROI采样和复杂的后处理操作,真正实现了检测与识别的完美融合。这一创新方法极大地提高了文档图像识别的效率,展现了大模型在文档图像处理中的优势。

此外,合合信息还提出了一种空域和频率建模的方法,以解决AI换脸和AI生成图片的图像篡改鉴别问题。该方法通过捕捉多维度的特征,精确地分辨真实图片和生成式图片之间的细微差异,在实际场景中表现出可靠的性能。

值得一提的是,合合信息在文档图像领域拥有近20年的丰富积累,具备OCR识别、版面分析等技术领域的坚实基础。公司推出了多款知名产品,如扫描全能王和名片全能王等,展现了其在文档图像处理领域的领先地位。
image-20231015194737646

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1113914.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LinkedList 源码解析(JDK1.8)

目录 一. 前言 二. 常用方法 三. 源码解析 3.1. 属性和内部类 3.2. 构造函数 3.3. 添加元素 3.4. 获取元素 3.5. 删除元素 3.6. 迭代器 3.6.1. 头到尾方向的迭代 3.6.2. 尾到头方向的迭代 3.6.3. add() 插入元素 3.6.4. remove() 移除元素 一. 前言 LinkedList同时…

ATA-8202射频功率放大器参数指标及应用介绍

ATA-8202射频功率放大器简介 ATA-8202是一款射频功率放大器。其P1dB输出功率100W,饱和输出功率200W。增益数控可调,一键保存设置,提供了方便简洁的操作选择,可与主流的信号发生器配套使用,实现射频信号的完美放大。宽…

JavaScript 中的Hoisting是什么?

在JavaScript中,Hoisting(变量提升)是指在代码执行之前,JavaScript引擎将变量和函数的声明提升到当前作用域的顶部的行为。 具体来说,JavaScript引擎在执行代码之前会进行两个步骤:编译阶段和执行阶段。在编译阶段,JavaScript引擎会将变量声明和函数声明提升到当前作用…

智能井盖监测系统,增加城市管理便捷性

看起来小小的井盖,实际上折射的是一个城市,一个地区的发展状况。每一个城市的道路网络,决定了一个城市发展的缓慢程度,哪怕是其中的井盖,有着自己的职责,是城市生命线的不可缺少的组成部分。但是现如今传统…

Qt10-19

第一个界面的头文件 #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include<QMovie>//动态图片所用的类 #include<QMessageBox>//消息对话框类QT_BEGIN_NAMESPACE namespace Ui { class Widget; } QT_END_NAMESPACEclass Widget : public QWidget …

国产主控应用案例:汉王电子血压计-君正开发板

2023春季新品发布会上汉王科技发布柯氏音法电子血压计产品—汉王电子血压计&#xff0c;继嗅觉检测盒之后再次深度布局大健康领域。 不同于当前市面上使用示波法原理的电子血压计&#xff0c;汉王电子血压计采用血压测量金标准中的柯氏音法&#xff0c;由此引领一场电子血压计领…

出东方利中国!长城五星牵手国家宝藏,共谱丝路艺术华章

执笔 | 尼 奥 编辑 | 古利特 当中国葡萄酒与国家宝藏、非遗工艺灵魂碰撞&#xff0c;又将产生怎样的大国之美&#xff1f;长城五星艺术干红给出答案。 10月19日&#xff0c;长城五星艺术干红上市发布会在成都召开。会上&#xff0c;长城葡萄酒正式发布文化战略新品——“五…

“达观杯”智能文档版面分析赛题baseline已上线,欢迎下载报名!

由国内领先智能文本处理企业达观数据与上海市计算机学会联合举办的智能文档版面分析多模态数据处理算法竞赛正在火热报名阶段。开赛一周内&#xff0c;第七届“达观杯”已有来自国内外的近200名企业和高校算法精英参与到比赛中。作为本次赛题的出题方&#xff0c;为助力各位打榜…

taro使用defineConstants定义全局变量eslint报错该变量不存在

问题描述 在taro项目中使用defineConstants定义一些全局变量供业务代码中进行使用&#xff0c;全局变量声明config/index.js代码如下&#xff1a; module.exports {defineConstants: {LOGIN_URL: JSON.stringify(/baidu/login), },全局变量使用代码如下&#xff1a; /*** 跳…

高速DSP系统设计参考指南(四)DSP电源设计

&#xff08;四&#xff09;DSP电源设计 1.电源设计的重要性2.DSP电源架构考虑3.电源去耦技术3.1 一般经验法则解耦法3.2 解耦分析方法3.3 分析案例3.4 计算去耦电容值3.5 高频噪声隔离 1.电源设计的重要性 电源设计可能是高速 DSP 设计中控制噪声和辐射的整个过程中最具挑战性…

Affinity Photofor Mac/Windows:专业级图片编辑的终极选择

在今天的内容中&#xff0c;我们将要介绍一款备受赞誉的图片编辑软件——Affinity Photo。无论你是业余的摄影爱好者&#xff0c;还是专业的设计师&#xff0c;Affinity Photo都能为你提供丰富的编辑功能和出色的使用体验。 首先&#xff0c;让我们来简单了解一下Affinity Pho…

哪些重生奇迹mu地图适合刷玛雅宝石?

作为一款非常经典的打斗游戏&#xff0c;重生奇迹mu设计非常复杂&#xff0c;游戏玩法以及地图设计非常完善&#xff0c;而且游戏推出了最新版本&#xff0c;各方面表现更加的优秀&#xff0c;值得游戏玩家去尝试。 重生奇迹mu游戏拥有非常完善的商城系统&#xff0c;其中最重…

金融机器学习方法:决策树与随机森林

目录 1.决策树 1.1 什么是决策树&#xff1f; 1.2 决策树的优点与缺点 2.随机森林 2.1 什么是随机森林&#xff1f; 2.2 随机森林的优点与缺点 3.决策树与随机森林的联系与区别 4.案例分析 4.1 使用决策树和随机森林预测 4.2绘制ROC曲线 决策树和随机森林都是监督学…

聊聊Android线程优化这件事

一、背景 在日常开发APP的过程中&#xff0c;难免需要使用第二方库和第三方库来帮助开发者快速实现一些功能&#xff0c;提高开发效率。但是&#xff0c;这些库也可能会给线程带来一定的压力&#xff0c;主要表现在以下几个方面&#xff1a; 线程数量增多&#xff1a;一些库可…

uniapp——自定义组件插槽及使用

案例样式 自定义组件pageBox.vue <template><view><view class"bgColor" :style"{ height: bgHeight rpx }"></view><view class"main"><!-- 主要内容放这里 --><slot></slot></view>&…

虚拟/物理机备份中深度有效数据提取应用原理

当前针对虚拟机的磁盘映像备份的通用技术&#xff0c;主要通过识别虚拟机磁盘文件的元数据&#xff0c;或是借助虚拟化API&#xff08;如CBT接口&#xff09;或分区结构提取位图来进行。然而&#xff0c;由于虚拟化环境底层的限制&#xff0c;无法洞悉文件系统的内部运作&#…

idea中java类属性(字段)链式赋值

很多人看到标题可能会想到 lombok 的 Builder&#xff0c;lombok 在国内用的挺多的&#xff0c;开源的组件中 mybatis-plus 中用到了这个&#xff0c;使用这个有一个问题就是通过对应 get 和 set 方法找不到对应的赋值方法&#xff0c;因为 lombok 使用了 apt 在编译期生成了相…

超全整理,服务端性能测试-tomcat部署项目/查看日志(细致)

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 tomcat部署单项目…

vue3+vite中使用Lottie动画

Lottie通过读取json文件信息实现动画效果 官方文档 Lottie官网 lottie库有众多动画 选择下载Lottie JSON到项目中 安装Lottie包 pnpm add lottie-web 模板创建 <template><div class"bg"><div id"canvas" class"canvas" ref&quo…

【Spring篇】详解AOP相关知识

&#x1f38a;专栏【Spring】 &#x1f354;喜欢的诗句&#xff1a;天行健&#xff0c;君子以自强不息。 &#x1f386;音乐分享【如愿】 &#x1f384;欢迎并且感谢大家指出小吉的问题&#x1f970; 文章目录 &#x1f33a;AOP简介&#x1f33a;AOP作用&#x1f33a;AOP核心概…