揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD

news2024/11/15 9:36:12

    ChatGPT狂飙160天,世界已经不是之前的样子。
新建了免费的人工智能中文站https://ai.weoknow.com
新建了收费的人工智能中文站https://ai.hzytsoft.cn/

更多资源欢迎关注


GPT-4V 的推出引爆了多模态大模型的研究。GPT-4V 在包括多模态问答、推理、交互在内的多个领域都展现了出色的能力,成为如今最领先的多模态大模型。

然而,近期很多工作发现 GPT-4V 在很多基本能力上却意外的出现短板。例如,在微软一篇长达 166 页的技术报告《The Dawn of LMMs:Preliminary Explorations with GPT-4V (ision)》中,作者发现,对于一个不太复杂的图像中的苹果数量,GPT-4V 竟然怎么数也数不对。

图片

然而,学术界和工业界尚不清楚导致这些问题的底层原因。

这个问题在清华大学、新加坡国立大学和中国科学院大学的一篇题为《LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images》的论文中得到了解释。

图片

  • 论文链接:https://arxiv.org/pdf/2403.11703.pdf

  • 项目链接:github.com/thunlp/LLaVA-UHD

其原因在于 GPT-4V 很可能存在:视觉编码漏洞。

该工作对当前最强的商业大模型 GPT-4V 和最受欢迎的开源模型 LLaVA-1.5 进行了实验,揭示了目前多模态大模型中的视觉编码漏洞。

图片

漏洞 1:GPT-4V 将图像进行有重叠的切片后再编码

作者首先设计了一个实验来观察:图像中的位置如何影响 GPT-4V 的计数回答。

具体来说,作者合成了如图 1 (a) 所示的图像,并向 GPT-4V 提问题:“图像中有多少个圆圈?” 同时,通过改变圆圈的位置而保持提问不变,进一步生成了一系列图像变体。

图 1 (b) 中以热图的形式显示了 GPT-4V 对图像中每个位置平均回答的数量,作者发现了一个与图像中目标位置高度相关的有趣模式如图 1(b)所示,具体表现为被 256×256 的正方形网格分割的三种不同模式:

(1) 中央正方形区域展示了最高的响应数量,

(2) 中间边缘区域的响应数量较低,

(3) 角落区域的响应数量最接近于真实值。

在对 GPT-4V 的响应进行数值区分后,作者发现除了正确答案和接近正确答案的情况,还有两种异常答案(8 个圆和 16 个圆),这些异常答案呈现了答案数量翻倍或四倍的错误模式。结合 OpenAI 公开的信息,这一现象的最可能原因是,当图像分辨率无法被 512 整除时,GPT-4V 处理图像的切片之间会出现重叠。如图 1 (e) 所示,两个切片之间的重叠区域导致数量翻倍,而四个切片的交叉重叠区域会使得识别出的数量增加至四倍。

图片

作者设计了另一个实验来观察:图像分辨率如何影响 GPT-4V 的计数回答。

具体来说,作者将图 2 (a) 中的图像按比例缩放至连续递增的分辨率,并询问 GPT-4V 其中圆圈的个数。

图片

图 2 (b) 中展示了 GPT-4V 的回答结果。随着图像分辨率的变化,GPT-4V 的回答显示出显著的相位变化:(1)在第 1 阶段,由于没有图像切片,大多数答案是正确的;(2)在第 2 阶段,答案 12 在响应中占主导地位,可能是由于每个切片中的圆不完整;(3)第 3 阶段显示了 9、12 和 16 的混合答案。请注意,16 可以很好地解释图 1 (e) 中的错误模式。

以上两个实验结果揭示了 GPT-4V 在处理高分辨率图像时存在重叠切片,导致错误响应,启发作者需要进一步研究更合理的图像预处理和编码方式。

漏洞 2:LLaVA-1.5 进行大范围的图像填充(Padding)

LLaVA-1.5 作为出色的开源多模态大模型被学术界广泛关注。

为了处理具有不同长宽比的图像,LLaVA-1.5 在将图像输入视觉编码器之前将其填充为正方形。这种编码方法导致非正方形图像的计算浪费。例如,将 1:4 图像填充为正方形后,有效计算量仅为 25%。

更重要的是,LLaVA-1.5 实际上无法确定填充像素是来自图像预处理还是原始输入图像的实际部分。

图片

为了演示这个问题,作者合成了一系列输入图像,如图 3(右)所示,其中不同长宽比的绿色矩形被灰色(即填充对应的 RGB 值)所包围。给定输入图像,作者提示:“最左 / 最右 / 最上 / 最下区域的颜色是什么?” 从图 3(左)的结果中,作者观察到 LLaVA-1.5 忽略了灰色输入区域(将其视为填充),并置信地回答了中心矩形的颜色。

综合以上 2 个明显的视觉编码漏洞可以知道,多模态模型中的视觉策略必须谨慎设计。常见做法,如填充、形状扭曲调整和重复切片,可能导致计算资源的浪费、模型能力的丧失,甚至容易受到对抗性攻击。

于是,作者提出 LLaVA-UHD,该模型可以对 180 万像素任意长宽比图像进行编码,相比于 LLaVA-1.5 在 9 个主流评测基准实现提升,训练和推理计算开销相比于 LLaVA-1.5 均有显著下降。

图片

LaVA-UHD 包括三个关键部分:一种图像模块化策略,将原始分辨率的图像分成更小的可变大小的切片,以便进行高效和可扩展的编码;一个压缩模块,进一步压缩来自视觉编码器的图像 tokens,一个空间装饰模式,用于为 LLMs 组织片段 tokens。

图像模块化策略中主要包含两个部分:

1. 高分辨率图像划分策略(如图 4 左侧)。目标是确定高分辨率图像的划分方式,使每个切片的分辨率变化最小。给定图像分辨率和和在固定分辨率上预训练的 ViT,首先确定处理图像所需的切片数。然后将切片数因式分解为和几种划分方式。为了选择最合适的划分,作者定义一个评分函数来衡量与 ViT 标准预训练设置的偏差,进而选择最佳的划分方法。

2. 任意宽高比切片编码(如图 4 右侧)。目的是等比例调整图像以适应预训练模型的位置嵌入数量。首先将 ViT 的 1D 位置嵌入转换为 2D 格式,并进行插值以匹配动态切片分辨率,从而获得自适应图像尺寸的视觉编码。实验表明,此方法在保持 ViT 和位置嵌入参数不变的情况下,通过后期微调即可提升性能。此外,还编码一张低分辨率概览图像,有助于提供全局语义信息,增强模型对图像的整体理解。

LLaVA-UHD 利用压缩模块(Resampler)压缩每张切片的 tokens,实现比 LLaVA-1.5 在 336×336 分辨率图像中更低的计算成本来编码 672×1008 分辨率的图像。由于图像切片在不同图像之间是动态的,因此有必要通过位置修饰符来告知 LLM 图像切片的相对位置。

图片

表 1 报告了主要的实验结果。在性能表现上,LLaVA-UHD 相对于 LLaVA-1.5 取得了显著的改进。通过简单地感知原生高分辨率图像,LLaVA-UHD 在 TextVQA 上实现了 6.4 的准确率提升,在 POPE 上实现了 3.2 的准确率提升。原因在于低分辨率图像中的模糊内容可能会阻止 LMMs 准确识别具有挑战性的细粒度目标和 OCR 字符。在计算效率和可拓展性上,LLaVA-UHD 仅使用 94% 的推理计算即支持任意宽高比的 672×1088 分辨率图像,能够适应更大分辨率的拓展。

图片

为了更直观地展示 LMM 在处理高分辨率图像方面的能力,在图 5 中提供了 LLaVA-UHD 和 LLaVA-1.5 的定性结果。可以看到,LLaVA-UHD 可以正确识别课表上的密集内容,小海报上的文字以及手机上的图标和文字,实现了细粒度的识别和推理。

未来展望

LLaVA-UHD 将图像分辨率限制在最大 672×1008。但是在未来,考虑到其具有潜力的效率和可扩展性,将探索更高分辨率的图像以及更具挑战性的任务,如小目标检测和分割。此外,目前图像片段是独立编码的,只在 LLMs 中进行交互。计划通过改进的视觉编码策略,在图像片段之间建立高效的连接,实现细粒度全局信息交互。

    ChatGPT狂飙160天,世界已经不是之前的样子。
新建了免费的人工智能中文站https://ai.weoknow.com
新建了收费的人工智能中文站https://ai.hzytsoft.cn/

更多资源欢迎关注


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1575460.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PCL 点到三角形的距离(3D)

文章目录 一、简介二、实现代码三、实现效果参考资料一、简介 给定三角形ABC和点P,设Q为描述ABC上离P最近的点。求Q的一个方法:如果P在ABC内,那么P的正交投影点就是离P最近的点Q。如果P投影在ABC之外,最近的点则必须位于它的一条边上。在这种情况下,Q可以通过计算线段AB、…

串口和 蓝牙模块HC08

串口基本认知 串行接口简称串口,也称 串行通信 接口或 串行通讯接口 (通常指 COM 接口 ),是采用串行通信方 式的 扩展接口 。串行 接口(Serial Interface )是指数据一位一位地顺序传送。其特点是 通信线路…

Successive Convex Approximation算法的学习笔记

文章目录 一、代码debug二、原理 本文主要参考了CSDN上的 另一篇文章,但规范了公式的推导过程和修缮了部分代码 一、代码debug 首先,我们将所有的代码放到MATLAB中,很快在命令行中出现了错误信息 很显然有问题,但是我不知道发生…

剪映国际版 v3.7 来了,全功能纯净,附400套离线模板下载

剪映国际版 v3.7 来了,全功能纯净,附400套离线模板下载 相比国内版 国际版不仅没有广告,所有素材和功能都是免费使用的。 CapCut是剪映的国际版本,操作和各种功能几乎和剪映一模一样, 是一款免费无限制使用的视频剪辑软件,软件…

极客时间: 用 Word2Vec, LangChain, Gemma 模拟全本地检索增强生成(RAG)

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

Linux中安装nacos

Linux中安装nacos 一、前言二、准备1、下载2、上传到服务器3、解压 三、配置1、备份配置文件2、导入sql3、修改前4、修改后 四、使用1、启动2、关闭 一、前言 最近国外的docker似乎是出什么问题,试过很多手段都拉不下 nacos 镜像,就打算在服务器装一下 …

二. CUDA编程入门-双线性插值计算

目录 前言0. 简述1. 执行一下我们的第十个CUDA程序2. Bilinear interpolation3. 代码分析总结参考 前言 自动驾驶之心推出的 《CUDA与TensorRT部署实战课程》,链接。记录下个人学习笔记,仅供自己参考 Note:关于 CUDA 加速双线程插值的内容博主…

golang slice总结

目录 概述 一、什么是slice 二、slice的声明 三、slice的初始化、创建 make方式创建 创建一个包含指定长度的切片 创建一个指定长度和容量的切片 创建一个空切片 创建一个长度和容量都为 0 的切片 new方式创建 短声明初始化切片 通过一个数组来创建切片 声明一个 …

Coursera上托福专项课程01:TOEFL Reading and Listening Sections Skills Mastery 学习笔记

TOEFL Reading and Listening Sections Skills Mastery Course Certificate 本文是学习 https://www.coursera.org/learn/toefl-reading-listening-sections-skills-mastery 这门课的笔记,如有侵权,请联系删除。 文章目录 TOEFL Reading and Listening …

【微服务】面试题(一)

最近进行了一些面试,这几个问题分享给大家 一、分别介绍一下微服务、分布式以及两者的区别 微服务(Microservices)和分布式系统(Distributed Systems)是两种不同的软件架构风格,虽然它们之间有些重叠&#…

SV学习笔记(五)

文章目录 线程的使用程序和模块什么是线程线程的概念澄清 线程的控制fork并行线程语句块fork…joinfork…join_any等待所有衍生线程停止单个线程停止多个线程停止被多次调用的任务 线程的通信写在前面event事件通知的需求semaphore旗语mailbox信箱三种通信的比较和应用 参考资料…

探索数据结构:特殊的双向队列

✨✨ 欢迎大家来到贝蒂大讲堂✨✨ 🎈🎈养成好习惯,先赞后看哦~🎈🎈 所属专栏:数据结构与算法 贝蒂的主页:Betty’s blog 1. 双向队列的定义 **双向队列(double‑ended queue)**是一种特殊的队列…

[羊城杯 2020]Easyphp2 ---不会编程的崽

摆烂一周了,继续更!!题目还是简单哦。 提示明显要我们修改数据包,第一反应是修改referer。试了一下不太对。url很可能存在文件包含 使用伪协议读取一下源码吧。它过滤了base64关键字。尝试url编码绕过,这里可以使用二…

实景三维技术在推进城市全域数字化转型的作用

4月2日,国家数据局发布《深化智慧城市发展推进城市全域数字化转型的指导意见(征求意见稿)》(下称:《指导意见》),向社会公开征求意见。 《指导意见》作为推进城市数字化转型的重要文件&#xf…

11、子串-滑动窗口最大值

题解: 双端队列是一种特殊的队列,允许你在队列的两端进行插入和删除操作。在滑动窗口问题中,我们使用它来存储可能是当前窗口最大值的元素的索引。 维护队列的顺序: 当新元素进入窗口时,我们将它与队列尾部的元素进…

echarts 毕节区县地图 包含百管委、高新区 (手扣)

百度网盘 链接:https://pan.baidu.com/s/14yiReP8HT_bNCGMOBajexg 提取码:isqi

MQ简介和面试题

一,什么是MQ MQ全称是Mwessage Queue(消息队列),是在消息传输过程中保存消息的容器,多用于分布式系统之间进行通信,解耦和低耦合性 二,常见的MQ产品 RebbitMQ,RocketMQ, ActiveMQ, Kafka, ZeroMQ, MetaMQ 其中我们…

(学习日记)2024.04.06:UCOSIII第三十四节:互斥量函数接口讲解

写在前面: 由于时间的不足与学习的碎片化,写博客变得有些奢侈。 但是对于记录学习(忘了以后能快速复习)的渴望一天天变得强烈。 既然如此 不如以天为单位,以时间为顺序,仅仅将博客当做一个知识学习的目录&a…

STM32CubeMX+MDK通过I2S接口进行音频输入输出(全双工读写一个DMA回调)

一、前言 目前有一个关于通过STM32F411CEUx的I2S总线接口控制SSS1700芯片进行音频输入输出的研究。 SSS1700 是具有片上振荡器的 3S 高度集成的USB音频控制器芯片 。 SSS1700 功能支持96 KHz 24 位采样率,带外部音频编解码器(24 位/96KHz I2S 输入和输出…

工具推荐-针对Nacos利器-NacosExploitGUI_v4.0

Nacos是由阿里所开发的一个更易于构建云原生应用的动态服务发现、配置管理和服务管理平台。 工具简介 集成Nacos的各种poc Nacos控制台默认口令漏洞(nacos,nacos)Nacostoken.secret.key默认配置(QVD-2023-6271)Nacos-clientYaml反序列化漏洞Nacos Jraft Hessian反序列化漏洞…