LLM - 理解 多模态大语言模型(MLLM) 的 幻觉(Hallucination) 与相关技术 (七)

news2024/11/16 15:54:55

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/142463789

免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。


多模态大语言模型(MLLM) 系列:

  1. 理解 多模态大语言模型(MLLM) 的 发展(Timeline) 与相关技术 (一)
  2. 理解 多模态大语言模型(MLLM) 的 架构(Architecture) 与相关技术 (二)
  3. 理解 多模态大语言模型(MLLM) 的 预训练(Pre-training) 与相关技术 (三)
  4. 理解 多模态大语言模型(MLLM) 的 指令微调(Instruction-Tuning) 与相关技术 (四)
  5. 理解 多模态大语言模型(MLLM) 的 对齐微调(Alignment) 与相关技术 (五)
  6. 理解 多模态大语言模型(MLLM) 的 评估(Evaluation) 与相关技术 (六)
  7. 理解 多模态大语言模型(MLLM) 的 幻觉(Hallucination) 与相关技术 (七)

多模态幻觉(Hallucination) 是多模态大语言模型的生成回复与图像内容不一致的现象。多模态幻觉包括 3 种类型,即:

  1. 存在幻觉(Existence Hallucination),最基本形式,模型错误地声称图像中存在一些对象。
  2. 属性幻觉(Attribute Hallucination),以错误的方式描述对象的属性,例如未能正确识别狗的颜色。通常与存在幻觉相关联,因为属性的描述是基于图像中存在的对象。
  3. 关系幻觉(Relationship Hallucination),更复杂的类型,也基于对象的存在,对象之间关系的错误描述,例如相对位置和互动。

Hallucination: Multimodal hallucination refers to the phenomenon of responses generated by MLLMs being inconsistent with the image content.

缓解多模态幻觉的方式:

  1. 预校正(Pre-correction),对于幻觉问题,直观且直接的解决方案是收集专门的数据,例如,负样本数据,使用这些数据进行微调,从而,得到具有较少幻觉反应的模型,参考 LRV。
  2. 过程校正(In-process-correction),在架构设计或特征表示上,进行改进,探索幻觉产生的原因,设计相应的补救措施,以在生成过程中减轻幻觉,参考 VCD & HACL。
  3. 后校正(Post-correction),以补救的方式减轻幻觉,在输出生成之后,再纠正幻觉,参考 Woodpecker & LURE。

参考论文:

  • LRV-Instruction - Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning, ICLR-2024, Microsoft (预先矫正)
    • GitHub: https://github.com/FuxiaoLiu/LRV-Instruction.git
  • POPE - Evaluating Object Hallucination in Large Vision-Language Models
  • VCD - Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding, CVPR-2024, DAMO Alibaba, 2023.11, 过程矫正
  • HACL - Hallucination Augmented Contrastive Learning for Multimodal Large Language Model,CVPR-2024, Alibaba & Peking, 2024.2
  • LURE - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models, ICLR-2024, UNC-Chapel Hill 北卡罗来纳大学教堂山分校 (University of North Carolina at Chapel Hill)

1. 预矫正(Pre-correction) - LRV

LRV(Large-scale Robust Visual,大规模鲁棒视觉),引入视觉指令调整数据集,除了常见的正指令外,数据集还精心设计不同语义层面的负指令,以鼓励响应忠实于图像内容。数据集包含由 GPT4 生成的 40 万个视觉指令,涵盖 16 个具有 开放式(Open-Ended) 指令和答案的视觉与语言任务。

输入图片和人类指令,引入 GPT4 辅助视觉指令评估(GPT4-Assisted Visual Instruction Evaluation, GAVIE),评估当前大型多模态模型(LMM) 的输出,例如 MiniGPT4 和 mPLUG-Owl。蓝色表示 LMM 无法准确遵循人类指令,而红色表示存在幻觉问题。使用 LRV-指令数据集 进行微调之后,当前的 LMM 可以生成更加鲁棒的答案。即:

LRV

LRV-指令数据集:正向和负向样本的示例,红色表示负向指令中的不一致元素。即:

LRV

大语言模型的训练数据集对比,如下:

  • 困难的负向指令 (Hard Negative Instructions)
  • 自生成指令数量 (Self Generated Instruction)
  • 解决幻觉 (Address Hallucination)
  • 不包含模版指令 (NOT Template Instruction)
  • 视觉语言任务数量 (VL Tasks)

即:

LRV

在 POPE 数据集评估零样本目标幻觉,图像中不存在的对象,采用三种不同的策略进行采样。

  • 随机(Random Set):随机采样
  • 流行(Popular Set):MS-COCO 中出现频率最高的前 k 个对象
  • 对抗性(Adversarial Set):首先,根据共现频率将对象进行排名,然后,采样出现频率最高的前 k 个对象

Ours-7B 是使用 LRV-指令数据集 微调过的 mPLUG-Owl-7B 模型。

LRV

其中 POPE(Polling-based Object Probing Evaluation,
基于轮询的目标探测评估)
的评估流程:

  1. 输入图像,POPE 根据人类注释中提取图像中的真实对象,或者借助于类似 SEEM 这样的自动分割工具的帮助。
  2. POPE 在 随机(Random) / 流行(Popular) / 对抗性(Adversarial) 设置下,对于图像中不存在的对象进行负采样。
  3. 最后,将 真实(Ground-Truth) 对象和不存在(Non-Existent) 对象,组成问题模板,使用 LVLM 投票选择 Yes 获 No。

即:

POPE

2. 过程校正(In-process-correction) - VCD & HACL

VCD(Visual Contrastive Decoding,视觉对比解码):大型视觉语言模型(LVLM) 在视觉识别和语言理解方面,取得显著进步,能够生成既连贯又符合上下文的内容。LVLM 仍然存在对象幻觉问题,即模型生成的输出,看起来合理,但是包含图像中不存在的对象。为了解决这个问题,引入视觉对比解码(Visual Contrastive Decoding,简称 VCD) 的方法,简单且无需训练的方法,即通过比较 原始(original)扭曲(distorted) 之间视觉输入产生的输出分布,有效减少对于 统计偏差(statistical bias)单模态先验(unimodal priors) 的过度依赖,而这两种因素是对象幻觉的主要原因。这种调整确保生成的内容与视觉输入紧密相关,从而产生上下文准确的输出。实验表明,无需额外训练或使用外部工具,就能显著减轻不同 LVLM 家族中的对象幻觉问题。VCD不仅减轻了对象幻觉,还在一般 LVLM 基准测试中表现出色,突显了其广泛的适用性。图像加噪声的过程,使用高斯噪声(Gaussian Noise)。

VCD(视觉对比解码) 示例,幻觉对象 冲浪板(Surfboards),用红色标出,在生成过程中,通过与倾向于幻觉的输出分布进行对比,将其消除,即:

VCD

其中,视觉不确定性(Visual Uncertainty) 放大 语言先验(Language Priors) 的示例。输入图片,包括一串黑色的香蕉,和其他彩色的水果,随着视觉不确定性的增加,大型视觉语言模型(LVLM) 更倾向于更常见的香蕉颜色,例如黄色和绿色。真实颜色的 黑色在概率 l o g p ( y ∣ x , v ′ ) logp(y|x,v′) logp(yx,v) 中,随着扭曲的加剧而降低,这使得 LVLM 过度依赖于 大语言模型(LLM) 预训练中的语言先验,通常将香蕉与黄色或绿色联系起来,如图:

VCD

HACL(Hallucination Augmented Contrastive Learning, 幻觉增强的对比学习) 研究视觉和语言的嵌入空间,基于观察,设计了一种对比学习方案,将 成对跨模态(Paired Cross-Modal) 表征拉近,同时,推开非幻觉和幻觉文本表征。从表征学习的视角来解决 多模态大语言模型(MLLM) 中的幻觉问题。首先分析 MLLM 中文本和视觉标记的表征分布,揭示 2 个重要发现:

  1. 文本和视觉表征之间存在显著差距,表明跨模态表征对齐的 不满意(Unsatisfactory);
  2. 包含和不包含幻觉的文本表征,纠缠(Entangled) 在一起,这使得区分变得具有挑战性。

HACL 将对比学习引入到 多模态大语言模型(MLLM) 中,使用包含幻觉的文本作为困难负例(Hard Negative Examples),自然地将非幻觉文本和视觉样本的表征拉近,同时推开非幻觉和幻觉文本的表征。

图(a) 和 图(b) 显示 大语言模型(LLM) 为视觉或文本标记序列产生的最后一个标记的表征分布。蓝色图标代表图像,绿色图标代表真实描述,红色代表由 GPT-4 生成的幻觉描述。HACL,即幻觉增强对比学习。在 图(a) 中,文本和视觉表征存在跨模态语义差距,而非幻觉和幻觉文本表征混合在一起。这一现象通过 HACL 得到缓解,如 图(b) 所示。子图© 显示幻觉评估基准 MMhal-Bench 的经验结果以及模型性能评估指标 MME。即:

HACL

图(a) 展示 HACL 框架,使用 GPT-4 来生成幻觉描述,作为图像到文本对比学习中的困难负例,图(b) 展示 HACL 的训练范式(Paradigm),即:

HACL

3. 后校正(Post-correction) - LURE

LURE(LVLM hallUcination REvisor, LVLM 幻觉修订)

  • 橙色阴影部分显示 LURE 的训练范式,其中黑色边框部分代表幻觉数据生成阶段,包括引入 共现对象(Co-Occurring Objects) 以及替换描述中不确定的对象或后面位置的对象。
  • 紫色边框部分表面 修订者(Revisor) 训练过程,其中 Masking 过程,橙色阴影部分展示 LURE 推理阶段的一个示例。

即:

LURE

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2171967.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【湖南步联科技身份证】 身份证读取与酒店收银系统源码整合———未来之窗行业应用跨平台架构

一、html5 <!DOCTYPE html> <html><head><meta http-equiv"Content-Type" content"text/html; charsetutf-8" /><script type"text/javascript" src"http://51.onelink.ynwlzc.net/o2o/tpl/Merchant/static/js…

电脑桌面美化用什么软件?精选6款桌面文件管理工具,小白秒变大师!

随着电脑在日常生活和工作中的普及&#xff0c;越来越多的用户开始重视电脑桌面美化的需求。单调的桌面背景和杂乱的文件排列已经无法满足我们对个性化与效率的追求。许多用户渴望找到合适的桌面整理工具&#xff0c;使他们的电脑桌面不仅美观&#xff0c;还能提升工作效率。为…

艺术家刘欢近况时隔5年再登《歌手》舞台,国家级嗓音引发热议

在我国&#xff0c;有这样一位艺术家&#xff0c;他自上世纪80年代至今&#xff0c;用一首首脍炙人口的歌曲和他那独特的嗓音陪伴数代人成长。凭借音乐上的造诣和天赋&#xff0c;他被众多网友誉为“音乐教父”&#xff1b;攀登至领域巅峰时&#xff0c;他不忘提携后辈&#xf…

低代码平台推荐与对比,国内外哪家更胜一筹?

低代码开发通过图形界面简化开发&#xff0c;提升速度与协作&#xff0c;降低成本。国内外平台如ZohoCreator、OutSystems等各具特色&#xff0c;支持快速开发、集成与数据安全。企业可试用后按需选择&#xff0c;降低决策成本。 一、低代码是什么&#xff1f; 低代码开发是一…

如何组织一场考试并筛选未参加答题的考生?

&#x1f64b;频繁有小伙伴咨询&#xff1a;我组织了一场答题活动&#xff0c;导出考试成绩时只有参加了答题的人&#xff0c;但我想要找到哪些人没答题 此前我们会建议小伙伴逐人排查&#xff0c;但这建议被反复吐槽&#x1f926; 确实&#xff0c;如果只有十几个人逐人排查还…

一家5口全感染?幽门螺杆菌筛查的意义!

近日&#xff0c;浙江的一家医院消化内科专家接诊了一名因感染幽门螺杆菌多年而罹患胃癌的患者。糟糕的是&#xff0c;他一家5口全感染了这种菌。2023年底&#xff0c;浙江杭州李先生&#xff08;化名&#xff09;在公司组织体检时查出幽门螺杆菌阳性。但他也不知道自己是何时、…

HTML基础用法介绍一

VS code 如何快速生成HTML骨架注释是什么&#xff1f;为什么要写注释&#xff1f;注释的标签是什么&#xff1f;标题标签段落标签换行标签与水平线标签 (都是单标签&#xff09;文本格式化标签图片标签超链接标签音频标签视频标签 &#x1f698;正片开始 VS code 如何快速生成…

相亲交友系统的社会影响:家庭结构的变化

随着互联网技术的发展&#xff0c;相亲交友系统已成为许多单身人士寻找伴侣的重要途径。这些平台不仅改变了人们的社交方式&#xff0c;还对家庭结构产生了深远的影响。本文将探讨相亲交友系统如何促使家庭结构发生变化&#xff0c;开发h17711347205并通过简单的Python代码示例…

【bug fixed】hexo d的时候Spawn failed

在执行hexo d部署的时候&#xff0c;遇到报错&#xff1a; % hexo d INFO Validating config INFO Deploying: git INFO Clearing .deploy_git folder... INFO Copying files from public folder... INFO Copying files from extend dirs... [main 8e89088] Site updated…

信息学奥赛的最佳启蒙阶段是小学还是初中?

信息学奥赛&#xff08;NOI&#xff09;近年来越来越受家长和学生的关注&#xff0c;尤其是在编程教育不断升温的背景下&#xff0c;信息学竞赛成为了许多家庭的教育选择之一。家长们往往关心的是&#xff1a;孩子应该在什么年龄段开始接触信息学竞赛&#xff0c;才能打下坚实的…

设计模式 之 —— MVC模式

目录 什么是MVC模式&#xff1f; MVC 工作流程&#xff1a; MVC模式&#xff08;java示例.部分代码&#xff09; 1、Model java 2、View HTML CSS JS 3、Controller java 运行结果&#xff1a; 适用场景&#xff1a; 什么是MVC模式&#xff1f; MVC模式提供了灵活…

基于 C# 的文本文件的编码识别

基于 C# 的文本文件的编码识别 前言一、有 BOM 文件头二、无 BOM 文件头三、简体中文汉字编码四、C# 程序对编码的识别1、文件选择按钮代码&#xff1a;2、获取文件编码&#xff0c;有 BOM 的文件识别3、获取文件编码&#xff0c;UTF8 无 BOM 文件的识别4、获取文件编码&#x…

如何有效应对商标撤三挑战?

商标撤三作为商标法中的一项重要制度&#xff0c;时刻考验着企业的商标维护与保护能力。面对这一挑战&#xff0c;企业如何构建一套有效的商标撤三管理体系&#xff0c;以确保自身品牌权益不受侵害&#xff0c;成为了一个亟待解决的问题。 理解商标撤三制度的核心要义 商标撤三…

【MyBatis 源码拆解系列】执行 Mapper 接口的方法时,MyBatis 怎么知道执行的哪个 SQL?

欢迎关注公众号 【11来了】 &#xff0c;持续 MyBatis 源码系列内容&#xff01; 在我后台回复 「资料」 可领取编程高频电子书&#xff01; 在我后台回复「面试」可领取硬核面试笔记&#xff01; 文章导读地址&#xff1a;点击查看文章导读&#xff01; 感谢你的关注&#xff…

web前端-CSS字体属性

CSS Fonts(字体)属性用于定义字体系列、大小、粗细、和文字样式(如斜体)。 一、字体 1.字体系列 CSS使用font-family属性定义文本的字体系列 例如&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8">&l…

vmware-toolbox安装,VMware虚拟机访问win10共享目录

问题&#xff1a;VMware界面无法安装vmware-toolbox&#xff0c;共享目录设置失败 解决方法&#xff1a; VMware设置 共享文件夹 ubuntu24 vm中运行vmware-toolbox-cmd -v 检查版本 vm运行sudo apt install open-vm-tools // vm可能需要重启 vm的 /mnt 目录下如果没有 hgfs…

UE5 C++: 插件编写04 | 增加和删改前缀

准备工作 UObject* Asset UObject* Asset 通常指的是一个指向UObject的指针。UObject是Unreal Engine中的基类&#xff0c;几乎所有的引擎对象都继承自UObject。这个指针可以引用任何派生自UObject的对象&#xff0c;比如蓝图、材质、贴图、音频资源等资产。 如果你看到UObj…

开箱即用的大模型应用跟踪与批量测试方案

背景介绍 最近抽空参加了一个讯飞的 RAG 比赛&#xff0c;耗时两周终于在最后一天冲上了榜首。 整体的框架是基于 RAG 能力有点弱弱的 Dify 实现。在比赛调优的过程中&#xff0c;经常需要批量提交几百个问题至 Dify 获取回答&#xff0c;并需要跟踪多轮调优的效果差异。借助…

Paxos 协议详解:分布式系统一致性的基石

文章目录 1. 分布式系统与一致性问题1.1 分布式系统的定义1.2 一致性问题的起源1.3 CAP 定理及其影响1.4 分布式系统中的失败假设 2. Paxos 协议的背景与介绍2.1 Paxos 协议是什么2.3 Paxos 解决什么问题 3. Paxos 的基本原理3.1 Paxos 角色3.2 Paxos 的多数原则3.3 Paxos 协议…

Python画笔案例-068 绘制漂亮米

1、绘制漂亮米 通过 python 的turtle 库绘制 漂亮米,如下图: 2、实现代码 绘制 漂亮米,以下为实现代码: """漂亮米.py注意亮度为0.5的时候最鲜艳本程序需要coloradd模块支持,安装方法:pip install coloradd程序运行需要很长时间,请耐心等待。可以把窗口最小…