ICLR2024：大视觉语言模型中对象幻觉的分析和缓解

ICLR2024：大视觉语言模型中对象幻觉的分析和缓解

news2026/2/15 5:41:03

https://arxiv.org/pdf/2310.00754

https://github.com/YiyangZhou/LURE

背景

对象幻觉：生成包含图像中实际不存在的对象的描述

早期的工作试图通过跨不同模式执行细粒度对齐（Biten et al.，2022）或通过数据增强减少对象共现模式（Rohrbach et al.，2018； Kim et al.，2023）来解决小规模多模态预训练模型中的对象幻觉问题。最近的一些工作（Li et al.，2023c；Liu et al.，2023a；d）研究了通过增强用于微调的数据集的质量来减少LVLM中的对象幻觉。

经验和理论发现都揭示了对象幻觉可以归因于三个关键因素：共现、不确定性和对象位置。

首先，如果训练数据包含对象之间的虚假共现模式，语言模型可能会基于这些学习到的虚假关联生成输出，从而导致幻觉描述。

其次，在生成过程中，幻觉更频繁地发生在以高不确定性为特征的对象上。

最后，位置因素也发挥了作用，因为由于误解的积累，更多的对象幻觉倾向于出现在生成描述的后半部分。

贡献

提出了轻量级的后处理方法LVLM幻觉审阅器（LURE），通过重建较少幻觉的描述来事后纠正LVLM中的对象幻觉

LURE开发了一个对象幻觉审校器。这个审校器将潜在的幻觉描述作为输入，并将它们转换为准确的。

在这里插入图片描述

为了创建审校器，我们首先使用GPT-3.5生成一个幻觉数据集，方法是对原始正确的标题进行两次修改：

（1）在描述中插入额外的对象文本，这些文本很可能与初始描述中包含的对象共同出现。这种修改允许LURE学习有效地解开这种共现模式；

（2）用占位符支架替换不确定的对象或描述末尾的对象，鼓励审校器重新评估这些对象。

最后，我们利用获得的幻觉数据集训练我们的幻觉审校器。一旦经过训练，审校器可以与任何LVLM无缝集成，以纠正潜在的幻觉描述。

实验

为了验证我们的方法的性能增益不是来自于使用额外的数据来训练修订器，我们使用额外的数据集微调了原始LVLM

在这里插入图片描述
幻觉因素是否有助于性能增益？为了证明考虑共现、不确定性和物体位置在减少幻觉方面的影响，我们进行了消融实验，并在表4中报告了结果，其中“原始”代表了MiniGPT-4的描述。

在消融实验中，我们在没有三个因素的情况下训练和部署了修正器，一次一个。结果表明，所有三个因素都有助于训练一个强大的幻觉修正器来减少物体幻觉

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2112034.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

各类AI工具编程能力测试对比

各类AI工具编程能力测试对比

各类AI工具编程能力对比现在各类AI工具火爆，擅长各类问题解决，闲来无事，验证下各类AI工具的编程能力如何。问题：c 实现杨辉三角，并main函数测试 kimi 对话窗口输入问题，得到了c的完整程序： …

阅读更多...

JS面试真题 part2

JS面试真题 part2

JS面试真题 part2 6、typeof 与 instanceof 区别7、JavaScript原型，原型链？有什么特点8、说说你对作用域链的理解9、谈谈this对象的理解10、说说new操作符具体干了什么 6、typeof 与 instanceof 区别自己回答： typeof：用来判断数…

阅读更多...

SLM561A系列 60V 10mA到50mA线性恒流LED驱动芯片为智能家居照明注入新活力

SLM561A系列 60V 10mA到50mA线性恒流LED驱动芯片为智能家居照明注入新活力

SLM561A系列选型参考： SLM561A10ae-7G SOD123 SLM561A15ae-7G SOD123 SLM561A20ae-7G SOD123 SLM561A25ae-7G SOD123 SLM561A30ae-7G SOD123 SLM561A35ae-7G SOD123 SLM561A40ae-7G SOD123 SLM561A45ae-7G SOD123 SLM561A50ae-7G SOD123 …

阅读更多...

数字证书与公钥基础设施

数字证书与公钥基础设施

关注这个证书的其他相关笔记：NISP 一级 —— 考证笔记合集-CSDN博客 0x01：数字证书数字证书是由第三方可信机构（一般是证书服务器）颁发的数字证书，可以证明身份的可信度。数字证书具有以下特点以及性质&#xff1a…

阅读更多...

对极约束及其性质 —— 公式详细推导

对极约束及其性质 —— 公式详细推导

Title: 对极约束及其性质 —— 公式详细推导文章目录前言1. 对极约束 (Epipolar Constraint)2. 坐标转换 (Coordinate Transformations)3. 像素坐标 (Pixel Coordinates)4. 像素坐标转换 (Transformations of Pixel Coordinates)5. 本质矩阵 (Essential Matrix)6. 线坐标 (Co…

阅读更多...

【蓝桥杯嵌入式（一）程序框架和调度器】

【蓝桥杯嵌入式（一）程序框架和调度器】

蓝桥杯嵌入式（一）程序框架和调度器序、代码命名规则零、STM32和8051⼀、软件及环境安装⼆、⼯程框架搭建1.时钟配置2、SYS配置3、⼯程配置4、NVIC配置5.、Keil配置三、系统初始化四、任务调度器链接: 视频出处序、代码命名规则以下是一些常见的举例…

阅读更多...

树状数组记录

树状数组记录

树状数组（Fenwick Tree）是一种用于维护数组前缀和的数据结构，支持高效的单点更新和区间查询操作。它的查询和更新时间复杂度为 O ( log ⁡ n ) O(\log n) O(logn)，适用于需要频繁更新和查询的场景。树状数组的基本操作单点更…

阅读更多...

HCIA--实验五：静态路由综合实验

HCIA--实验五：静态路由综合实验

静态路由综合实验一、实验内容： 1.需求/目的： 在ensp模拟器中使用四个路由器，并且在路由器上创建loopback接口，相当于连接了一台主机，通过配置静态路由的方式实现全网通。二、实验过程 1.道具： 4个…

阅读更多...

基于 AC 驱动的电容结构 GaN LED 模型开发和应用

基于 AC 驱动的电容结构 GaN LED 模型开发和应用

随着芯片尺寸减小，微小尺寸GaN 基 Micro LED 显示面临着显示与驱动高密度集成的难题，传统直流（DC）驱动技术会导致结温上升，降低器件寿命。南京大学团队创新提出交流（AC）驱动的单电极 LED&#x…

阅读更多...

flask-login 生成 cookie,session

flask-login 生成 cookie,session

flask-login 生成 cookie,session Flask-Login login_user() 显示来自 Set-Cookie 标头的加密 cookie # 模拟一个用户类 class User(UserMixin):def __init__(self, id):self.id idapp.route(/login) def login():# 模拟用户登录过程user User(1)login_user(user)from flask…

阅读更多...

openconnect-gui for qt 避坑指南

openconnect-gui for qt 避坑指南

构建mingw_32 的时候 cmake居然识别的是vc 一直改不了 ，一直到卸载qt重装编译release 模式tap-win 下载一直不成功修改cmake文件（手动下载下来）

阅读更多...

智慧农业-自动化如何塑造农业的未来

智慧农业-自动化如何塑造农业的未来

全球人口的增长和气候变化对农业生产的持续影响，传统农业面临非常大的考验。为了保证农业效率、减少资源浪费和应对环境破坏，智能农业（Smart Agriculture）已成为未来农业发展的关键趋势。但在智能农业的诸多技术中，自动…

阅读更多...

【OpenMV】AprilTag 机器视觉定位技术详解

【OpenMV】AprilTag 机器视觉定位技术详解

写在前面： 🌟 欢迎光临清流君的博客小天地，这里是我分享技术与心得的温馨角落。📝 个人主页：清流君_CSDN博客，期待与您一同探索移动机器人领域的无限可能。 🔍 本文系清流君原创之作&…

阅读更多...

C++开发基础之自定义异步日志库实现及性能测试

C++开发基础之自定义异步日志库实现及性能测试

1. 前言在软件开发中，日志记录是一个必不可少的部分。通过日志，我们可以记录系统的运行状态、错误信息以及调试数据。然而，当系统的日志量很大时，日志写入操作可能会影响系统的性能，尤其是在 I/O 操作较为频繁的情况…

阅读更多...

VR虚拟展厅的应用场景有哪些？

VR虚拟展厅的应用场景有哪些？

虚拟展厅作为一种利用虚拟现实技术构建的三维展示空间，其应用场景广泛且多样。视创云展为企业虚拟展厅搭建提供技术支持。以下是一些主要的应用场景： 1. 博物馆和艺术展览文物保护与展示： 在博物馆中，为了保护珍贵的文物和艺术…

阅读更多...

初识命名空间

初识命名空间

1.创建两个命名空间 ip netns add host1 ip netns add host2 2. 查看命名空间 ip netns ls 3 、创建veth ip -netns host1 link add veth0 type veth peer name host1-peer 4、查看命名空间接口 ip -netns host1 address 5、把host1-peer移动到host2命名空间 ip -ne…

阅读更多...

编译过程例题

编译过程例题

答案：A 知识点： 词法分析：从左到右逐个扫描源程序中的字符，识别其中如关键字，标识符，常数，运算符以及分隔符语法分析：根据语法规则将单词符号分解成各类语法单位，并分…

阅读更多...

1.2CubeMAX创建FREERTOS入门示例

1.2CubeMAX创建FREERTOS入门示例

1.CUBEMAX快速配置 V2改为V1否则编译会报错 2.Freertos各配置选项卡解释 Events ：事件相关的创建 Task and Queues ： 任务与队列的创建 Timers and Semaphores ： 定时器和信号量的创建 Mutexes ： 互斥量的创建 FreeRTOS Heap…

阅读更多...

android之bootchart的使用

android之bootchart的使用

文章目录简述流程简述主要是记录开机运行时的一些进程记录情况流程 1.开启bootchart 输入以下命令 adb shell touch /data/bootchart/enabled然后重新启动设备，即可记录开机过程中的一些文件,如下所示如果不想要bootchart进行记录，直接删除掉/…

阅读更多...

STM32单片机HAL库——ADC输入

STM32单片机HAL库——ADC输入

一、单通道采集二、单通道DMA采集使能DMA 三、定时器采集DMA传输选择定时器1的通道1作为触发源，在TIM1的上升沿进行采集定时器1挂载在APB2上面，APB2上定时器的频率为168MHZ psc168-1 arr1000-1 TIM1的时钟频率为168/168/10001kHZ pulse设置为500…

阅读更多...

推荐文章

最新文章