多模态模型的语言幻觉和视觉幻觉

news2024/12/26 0:01:56

HALLUSIONBENCH: You See What You Think?Or You Think What You See?

An Image-Context Reasoning Benchmark Challenging for GPT-4V(ision),LLaVA-1.5, and Other Multi-modality Models
论文链接
github地址

论文中提出大的多模态模型出现“语言幻觉”和视觉错觉由下面的原因导致的:

  1. 多模态模型可能会忽略图像上下文,只依赖(甚至是矛盾的)语言先验进行推理,语言的先验知识可能与图片中的内容相矛盾。
  2. VLM中的视觉模块比LLM弱,可能导致误导性的视觉表示,然后LLM将其转化为自信的错误。

Language Hallucination and Visual Illusion. While the former is caused by the reasoning bias from the parametric memory of LLMs in those models, the latter is due to the misinterpretation of the visual patterns in the image context.
语言幻觉与视觉错觉。前者是由这些模型中LLM的参数记忆的推理偏差引起的,而后者是对图像视觉模式的误解

关于语言幻觉和视觉幻觉的定义

“Language Hallucination” is a perception not based on sensory input, whereas “Visual Illusion” is a misinterpretation of a correct sensory input
“语言幻觉”是一种不基于感官输入的感知,而“视觉幻觉”是对正确感官输入的误解

文章中设计了一系列的能表现语言幻觉和视觉幻觉的实验,共200对图像-问题-答案对。包括表格、地图、海报、视频帧等,以及修改后的图片,这些修改的图片只有小幅的修改,但是对于同一问题的答案是完全不同的。
这些实验分为两大类视觉依赖型和视觉辅助型。视觉依赖型的问题的答案与图片的内容强相关(比如:图片的左上角是什么?)视觉补充型是一些常识型的问题(比如:提供一张中国地图,问上海和北京两个城市的面积,哪个更大 )

视觉依赖型

主要考察模型下面几种能力:

  1. 模型的视觉理解和推理能力
  2. 语言模型的参数记忆如何影响模型的推理结果
  3. 模型能否捕捉多个图像之间的时间关系

对比实验设计:修改图片中的一个小部分,关于问题的答案与修改之前不同。这部分属于“难例”

视觉辅助型

主要考察模型下面几种能力:

  1. 当模型不知道参数记忆的答案时,模型(仍然)会对图像产生幻觉吗?
  2. 当模型从参数记忆中知道答案时,模型会从视觉补充中获得更多细节来更好地回答问题吗(尤其是在两者之间存在冲突信息或参数记忆过时的情况下)?
  3. 模型能在多大程度上获得具有密集信息的视觉效果(如图形、图表、地图等)并用于回答问题?什么操作会干扰信息提取

对比实验设计:不提供图片和提供图片

一些对比实验

增加了CogVLM模型的输出结果

视觉依赖型

  1. 图形尺寸
    在这里插入图片描述
    在这里插入图片描述
  2. 连续帧的理解
    在这里插入图片描述

视觉辅助型

  1. 字符识别
    在这里插入图片描述
  2. 表格理解
    在这里插入图片描述
    在这里插入图片描述
    language hallucination 语言的幻觉
    visual illusion 视觉幻觉

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1163453.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

媒介盒子分享:提升软文转化率的秘诀

哈喽大家好,今天盒子来和大家分享的干货内容是如何提升软文转化率。 优质内容能够打动消费者,促使消费者完成购买行为,这就是软文的作用,软文想要提升转化率,要做好以下五个关键点。 一、 把握用户需求 只要把握用户…

MobaXterm使用VNC远程操作ubuntu桌面

目录 1 在ubuntu中安装vnc 2 设置ubuntu远程连接 3 MobaXterm中连接ubuntu的vnc 1 在ubuntu中安装vnc 参考:Ubuntu18.04~Ubuntu22.04安装并配置VNC_ubuntu安装vnc-CSDN博客 大体流程就是在ubuntu中安装vnc,设置密码,然后配置服务&#x…

Linux(CentOS)安装MySQL教程

主要参考链接 教程 1. 准备工作 1.1 安装CentOS虚拟机 教程点击 1.2 将CentOS虚拟机设置为静态IP,否则你每次重启虚拟机后连接数据库都要重新查IP 教程点击 1.3 如果有安装过MySQL,请先卸载MySQL 教程点击 1.4 虚拟机执行命令su切换到root账号(输…

「图像 cv2.seamlessClone」无中生有制造数据

上一篇博客【「图像 merge」无中生有制造数据 】写的是图片直接融合,此方法生成的图片相对而言比较生硬,虽然目标图片已经透明化处理过了,但是生成的图片依旧很假 除了上述上述的图片叠加融合之外,还有一种更加自然的融合方法&…

Java 性能优化之直接使用成员变量 VS 拷贝副本

背景 刷到一个大佬的 CSDN 博客,仔细看了一下性能优化专栏。联想到我们的日常开发工作,由于业务比较简单,很容就忽略性能问题。但是,性能优化的一下常见思路,也早有耳闻。看了一个 Java 性能优化的方法 「减少操作指令…

最新版一媒体7.3、星媒体、皮皮剪辑,视频MD ,安卓手机剪辑去重神器+搬运脚本+去视频重软件工具

最新版一媒体app安卓版介绍: 这是一款功能强大的视频搬运工具,内置海量视频编辑工具,支持一键智能化处理、混剪、搬运、还能快速解析和去水印等等,超多实用功能等着您来体验! 老牌手机剪辑去重神器,用过的…

导轨在数控机床中起哪些作用?

数控机床导轨是数控机床中重要的组成部分,其主要作用有以下几个方面: 1、导向和承载作用:数控机床的导轨是机床各部件运动的导向轨道,它引导机床各部件按照规定的轨迹和速度进行运动,同时承受和分散运动部件的重力和切…

The Sandbox 与 hi 建立合作伙伴关系

我们很高兴地宣布,Web 3 Neo-Banking 应用程序已正式宣布与 The Sandbox 达成合作。它将允许用户使用 hi 借记卡在店内和线上消费原生通证 SAND。 hi 为数百万人提供了一种新的 SAND 消费方式,使持卡人能够使用 hi 借记万事达卡在店内和线上的精选商户使…

VScode 全局搜索快捷键Ctrl+Shift+F失效 衝突

主要的原因是搜狗输入法的,简体和繁体的切换快捷键冲突了 去掉输入法的切换快捷键

CLion 2023.2.2(C ++ IDE智能代码编辑器)

CLion 2023是一款跨平台C/C集成开发环境(IDE)。它为Mac用户提供了高效的编程体验,帮助程序员们在Mac平台上进行C/C开发。 CLion 2023支持多种编译器和调试器,并具有强大的代码分析和导航功能。它还为用户提供了许多便捷的工具和插…

Cpolar和Qchan的使用与轻量级搭建:构建独特的个人图床并保护隐私

文章目录 前言1. Qchan网站搭建1.1 Qchan下载和安装1.2 Qchan网页测试1.3 cpolar的安装和注册 2. 本地网页发布2.1 Cpolar云端设置2.2 Cpolar本地设置 3. 公网访问测试总结 前言 图床作为云存储的一项重要应用场景,在大量开发人员的努力下,已经开发出大…

6.OsgEarth加载倾斜摄影

愿你出走半生,归来仍是少年! 三维场景中常用的地表模型包含倾斜摄影,通过CC处理出来的倾斜摄影是一个通过文件夹进行分块的,然后通过元数据记录了其空间位置信息(原点)。 本文通过解析metadata.xml文件后进行多块情况的…

Handler原理机制解析,Android开发中的重要性

Handler在android程序开发中使用的非常频繁、我们知道android是不允许在子线程中更新UI的,这就需要借助Handler来实现,那么你是否想过为什么一定要这个这样子做呢?而且Handler的内部消息处理机制究竟是什么样的呢?Handler的原理是…

Redis(11)| 持久化AOF和RDB

一、AOF(Append Only File) Redis 每执行一条写操作命令,就把该命令以追加的方式写入到一个文件里,然后重启 Redis 的时候,先去读取这个文件里的命令,并且执行它。 注意:只会记录写操作命令&am…

YOLOv7输出COCOmAP指标:输出自定义数据集中small、medium、large大中小目标的mAP值S,M,L指标,适用于自定义数据集

💡更多改进内容📚可以点击查看:YOLO改进原创目录 | 老师联袂推荐🏆 💡🚀🚀🚀内含改进源代码,按步骤操作运行改进后的代码即可,内附代码💡更方便的统计更多实验数据,方便写作 芒果改进 | YOLOv5 输出自定义数据集中 S,M,L指标大中小目标的mAP值 点这篇链…

华山编程培训中心——工业相机飞拍

飞拍功能是一种高速运动图像采集技术,通过降低相机的曝光时间来拍摄快速移动的对象,以提高工作效率和加快生产速度。下面视频演示工业相机飞拍: 上位机控制工业相机飞拍演示 一. 飞拍对相机硬件的要求 全局快门相机:飞拍要求相机…

树结构及其算法-二叉查找树

目录 树结构及其算法-二叉查找树 C代码 树结构及其算法-二叉查找树 二叉树在建立的过程中是根据“左子树 < 树根 < 右子树”的原则建立的&#xff0c;因此只需从树根出发比较键值即可&#xff0c;如果比树根大就往右&#xff0c;否则往左而下&#xff0c;直到相等就找…

网易按照作者批量采集新闻资讯软件说明文档

大家好&#xff0c;我是淘小白~ 今天给大家介绍的爬虫软件是网易按照作者采集的软件 1、软件语言&#xff1a; Python 2、使用到的工具 Python selenium库、谷歌浏览器、谷歌浏览器驱动 3、文件说明&#xff1a; 4、配置文件说明&#xff1a; 5、环境配置 安装Python&am…

【Linux笔记】Linux进程概念与进程状态

【Linux笔记】Linux进程概念与进程状态 一、什么是进程1.1、进程的概念1.2、进程的描述 二、关于进程的一些基本操作2.1、查看进程2.2、杀进程2.3、获取进程id2.4、创建进程 三、进程状态3.1、普适操作系统中的进程状态3.2、具体到Linux操作系统中的进程状态 四、僵尸进程和孤儿…

创建ABAP数据库表和ABAP字典对象-使用基本类型增加账号字段03

新增字段 现在你将增加字段&#xff1a;account_number,基于基本类型 1.输入以下内容(包括句点)&#xff0c;然后选择“代码补全”(Ctrl空格): key account_number : abap.2.从下拉列表中选择numc(len)并指定len为8。另外&#xff0c;指定这个关键字段为not null: key accoun…