HALLUSIONBENCH: You See What You Think?Or You Think What You See?
An Image-Context Reasoning Benchmark Challenging for GPT-4V(ision),LLaVA-1.5, and Other Multi-modality Models
论文链接
github地址
论文中提出大的多模态模型出现“语言幻觉”和视觉错觉由下面的原因导致的:
- 多模态模型可能会忽略图像上下文,只依赖(甚至是矛盾的)语言先验进行推理,语言的先验知识可能与图片中的内容相矛盾。
- VLM中的视觉模块比LLM弱,可能导致误导性的视觉表示,然后LLM将其转化为自信的错误。
Language Hallucination and Visual Illusion. While the former is caused by the reasoning bias from the parametric memory of LLMs in those models, the latter is due to the misinterpretation of the visual patterns in the image context.
语言幻觉与视觉错觉。前者是由这些模型中LLM的参数记忆的推理偏差引起的,而后者是对图像视觉模式的误解
关于语言幻觉和视觉幻觉的定义
“Language Hallucination” is a perception not based on sensory input, whereas “Visual Illusion” is a misinterpretation of a correct sensory input
“语言幻觉”是一种不基于感官输入的感知,而“视觉幻觉”是对正确感官输入的误解
文章中设计了一系列的能表现语言幻觉和视觉幻觉的实验,共200对图像-问题-答案对。包括表格、地图、海报、视频帧等,以及修改后的图片,这些修改的图片只有小幅的修改,但是对于同一问题的答案是完全不同的。
这些实验分为两大类视觉依赖型和视觉辅助型。视觉依赖型的问题的答案与图片的内容强相关(比如:图片的左上角是什么?)视觉补充型是一些常识型的问题(比如:提供一张中国地图,问上海和北京两个城市的面积,哪个更大 )
视觉依赖型
主要考察模型下面几种能力:
- 模型的视觉理解和推理能力
- 语言模型的参数记忆如何影响模型的推理结果
- 模型能否捕捉多个图像之间的时间关系
对比实验设计:修改图片中的一个小部分,关于问题的答案与修改之前不同。这部分属于“难例”
视觉辅助型
主要考察模型下面几种能力:
- 当模型不知道参数记忆的答案时,模型(仍然)会对图像产生幻觉吗?
- 当模型从参数记忆中知道答案时,模型会从视觉补充中获得更多细节来更好地回答问题吗(尤其是在两者之间存在冲突信息或参数记忆过时的情况下)?
- 模型能在多大程度上获得具有密集信息的视觉效果(如图形、图表、地图等)并用于回答问题?什么操作会干扰信息提取
对比实验设计:不提供图片和提供图片
一些对比实验
增加了CogVLM模型的输出结果
视觉依赖型
- 图形尺寸
- 连续帧的理解
视觉辅助型
- 字符识别
- 表格理解
language hallucination 语言的幻觉
visual illusion 视觉幻觉