ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

news2024/11/16 13:06:43

随着大型语言模型(LLMs)的进步,多模态大型语言模型(MLLMs)迅速发展。它们使用预训练的视觉编码器处理图像,并将图像与文本信息一同作为 Token 嵌入输入至 LLMs,从而扩展了模型处理图像输入的对话能力。这种能力的提升为自动驾驶和医疗助手等多种潜在应用领域带来了可能性。

点击访问我的技术博客https://ai.weoknow.comicon-default.png?t=N7T8https://ai.weoknow.com

尽管 MLLMs 具有出色的图文理解能力,但它们仍然会出现错误或幻觉,生成与输入图像不相符的相应,例如回答不存在的对象或错误识别属性等。我们认为多模态大模型在不同训练阶段的数据量和训练时间的不平衡是产生这类偏见的主要原因之一。多模态大模型的语言模块往往使用了海量的文本数据进行预训练,而模态对齐阶段则使用更小的数据规模和更短的训练时间。

为了解决上述问题,我们提出了一种偏好对齐方法 --Bootstrapped Preference Optimization(BPO),能在缓解多模态大模型的幻觉现象的同时提升模型的视觉理解能力。

图片

  • 论文标题:Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization

  • 论文链接:https://arxiv.org/pdf/2403.08730

  • 代码链接:https://github.com/pipilurj/bootstrapped-preference-optimization-BPO-

图片

具体来讲,我们设计了两种方法去自动构建偏好学习的负样本,使得多模态模型对与训练的过度依赖暴露出来。之后,我们用原本的数据标注当作正样本,对多模态模型进行偏好微调。总的来说,我们的主要贡献有:

1. 我们提出了一种新的视角,将多模态对齐问题转化为偏好学习任务,其中预训练偏见和视觉理解能力被视为旧的和新的偏好;

2. 我们介绍了一种自动化构建大规模偏好数据集的方法。通过该方法能构造出大量带有预训练偏见信息的负面样本;

3. 在大量实验上证明了我们的方法能有效地提升多模态大模型对于图像的认知能力,训练后的模型在多个基准测试中性能得到提升。

可扩展的偏好数据集构建

对于偏好数据集的正面样本,已经有许多为监督微调而设计的现成数据集,例如通过 LlaVA 和 MiniGPT4 生成的高质量标注问答数据、ShareGPTV 利用强大的 GPT4-V 作为工具为图像生成高质量标题。我们将这些已标注完成的公开数据集作为偏好数据集中的正面响应,在保证高质量数据对的同时避免了昂贵的人工标注。

为了能收集到能反映预训练偏见的负面响应数据,我们提出了两种方法。

a. 弱化图像提示:我们给偏好数据集中的图片数据加上噪声,以此破坏图像特征,使多模态大模型在回答时更倾向原始的预训练分布,由此产生的错误响应会包含 LLM 模块的固有偏见。从图中可以看到,我们通过像图片中加入不同程度的噪声,正确答案出现的概率就越小,带有预训练偏见的答案出现的概率也就越大。

图片

b. 错误注入:我们要求多模态大模型对应的大语言模型直接改写响应,要求模型生成与答案相近但不完全一样的错误回答。

接下来,我们采用直接偏好优化(DPO)对多模态模型进行优化:

图片

实验评估

我们采用经过 BPO 微调过后的 LLaVA 模型(LLaVA-7B-BPO 和 LLaVA-13B-BPO)在 MM-Vet,LLaVA-Wild 和 Object HalBench 上测试。MM-Vet 和 LlaVA-Bench 是专门用来衡量模型综合能力的榜单,Object HalBench 则是评估多模态大模型的视觉可信度。

实验结果表明,经过 BPO 微调后的模型在三个基准测试榜单的所有任务中均取得领先。在大多数任务上,LLaVA-7B-BPO 的表现甚至超过了未曾微调的 LLaVa1.5-13B 模型。

图片

我们还将 BPO 与监督微调训练(SFT)进行对比。我们通过直接使用数据集中的正样本作为监督数据对模型进行微调。实验表明经过 BPO 微调过的多模态大模型在不同类别的子任务下的表现均优于 SFT 微调。

图片

在定性结果上,我们对比了 BPO 微调前后多模态大模型的表现。我们发现经过 BPO 微调后的模型能生成更忠诚于图像输入的答案,并且包含更少错误信息。

更多研究细节,可参考原论文。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1972137.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

移动UI:活泼风格如何识别,有什么应用场景。

在移动UI设计中,活泼风格通常具有以下特征: 1. 鲜艳的色彩: 活泼风格的移动UI通常采用鲜艳、明快的色彩,如橙色、黄色、绿色等,以增加活力和生机。 2. 元素动画: 活泼风格的UI设计通常包含丰富的动画效…

无缝融入,即刻智能[2]:MaxKB内置强大工作流引擎,编排AI工作流程,满足多样化业务需求

无缝融入,即刻智能[2]:MaxKB内置强大工作流引擎,编排AI工作流程,满足多样化业务需求 1.简介 MaxKB(Max Knowledge Base)是一款基于 LLM 大语言模型的开源知识库问答系统, 官方网址:https://maxkb.cn/ GitHub:https://github.com/1Panel-dev/MaxKB 1.1 产品优势 开箱即…

嵌入式Linux系统中LCD屏驱动框架基本实现

大家好,今天主要给大家分享一下,如何使用linux系统中LCD屏驱动框架Framebuffer编写具体的代码。 第一:如何编写字符设备驱动程序 1、驱动框架基本操作: 驱动主设备号 * 构造file_operations结构体,填充open/read/write等成员函数 * 注册驱动:register_chrdev(major, name…

C#中WebView2调用与交互实现

简要说明: 此控件实际上是 [WebView2 COM API] (https://aka.ms/webview2) 的包装器。 可以通过访问 Microsoft.Web.WebView2.Wpf.WebView2.CoreWebView2 属性来直接访问基础 ICoreWebView2 接口及其所有功能。 一些最常见的 COM 功能也可以…

解决k8s flannel网络插件国内镜像docker拉取不到问题

一、准备下载资源 https://download.csdn.net/download/weixin_43205308/89608560 以下,每个k8s节点都要执行 二、载入镜像 解压上面的下载资源的文件夹后,会有图中的两个资源 载入资源 docker load --input flannel-flannel-v0.25.1-amd64.tar.gzd…

59在Linux中加docker中加mysql,tomcat,redis

一、引言 1.1 环境不一致 我本地运行没问题啊:由于环境不一致,导致相同的程序,运行结果却不一致。 1.2 隔离性 哪个哥们又写死循环了,怎么这么卡:在多用户的操作系统下,会因为其他用户的操作失误影响到你自…

基于STM32的智能家居控制系统教程

目录 引言环境准备智能家居控制系统基础代码实现:实现智能家居控制系统 照明控制模块温度与湿度监控模块安防监控模块用户界面与远程控制应用场景:智能家居优化常见问题与解决方案收尾与总结 引言 随着物联网技术的发展,智能家居控制系统变…

libvir服务机制与通信原理

libvir服务机制 前言 libvirt服务机制是一个复杂的结构,里面包含了event事件,rpc网络通信,线程池以及相关的job机制,哪一个单拿出来都是一个复杂的模型结构,更何况libvirt服务是这几个机制之间相互协作的复杂结构&…

【数据结构】——二叉树OJ题

文章目录 前言1. 单值二叉树2. 检查两颗树是否相同3. 判断一棵树是否为另一颗树的子树4. 对称二叉树5. 平衡二叉树6. 二叉树的前序遍历7. 二叉树的中序遍历8. 二叉树的后序遍历9. 二叉树的构建及遍历 前言 我们先想想二叉树我们学习了哪些内容再来做题哈 其实学习二叉树重要的…

JavaScript (十四)——JavaScript typeof和类型转换

目录 JavaScript typeof, null, 和 undefined typeof 操作符 null undefined undefined 和 null 的区别 JavaScript 类型转换 JavaScript 数据类型 JavaScript 类型转换 将数字转换为字符串 将布尔值转换为字符串 将日期转换为字符串 将字符串转换为数字 一元运算符…

新浪微博笔试秋招管培笔试测评肯耐珂萨题型题库解析

新浪微博的笔试是该公司用于筛选潜在候选人的重要环节,主要目的在于评估应聘者的逻辑推理、图表计算和文字理解能力。以下是新浪微博笔试题型的详细解析: 1. 逻辑推理 - **题型概述**:逻辑推理部分通常包含20题,考察应试者的逻…

算法板子:树形DP、树的DFS——树的重心

思想&#xff1a; 代码&#xff1a; #include <iostream> #include <cstring> using namespace std;const int N 1e5 10;// vis标记当前节点是否被访问过; vis[1]true代表编号为1的节点被访问过 bool vis[N]; // h数组为邻接表; h数组上的每个坑位都串了一个单链…

商业购物中心开业活动方案怎么写?附230个案例

商业购物中心开业活动方案的撰写是一个综合性的过程&#xff0c;需要结合购物中心的特点、目标消费群体、市场环境以及活动目的等多方面因素进行考虑。 以下是一个详细的撰写指南&#xff0c;带你一步步了解如何撰写一个成功的商业购物中心开业活动方案。 码字不易&#xff0…

处理kkFileView的com.aspose:aspose-cad:iar:23.9 not found 问题

背景: 一款很强大的开源的文件预览工具包下载地址:aspose-cad-23.9.jar 启动成功界面: 一、.问题描述:com.aspose:aspose-cad:iar:23.9 not found 处理方案:直接下载aspose-cad-23.9.jar 安装到本地 二、处理步骤(win环境):1.安装maven 下载地址:https://maven.apach…

CSP-J 复赛 模拟题

1.生产计划&#xff1a; 样例 #1 样例输入 #1 2 4 5 6 12 1 3 6 15 8 1 3 100 3 200 4 300 6 100 样例输出 #1 YES NO 2.分组和为3&#xff1a; 样 例 # 1 样 例 输 入 # 1 5 1 1 1 2 1 样 例 输 出 # 1 2 样 例 # 2 样 例 输 入 # 2 7 2 2 1 1 2 1 1 样 例 输 出 # …

2024最简七步完成 将本地项目提交到github仓库方法

2024最简七步完成 将本地项目提交到github仓库方法 文章目录 2024最简七步完成 将本地项目提交到github仓库方法一、前言二、具体步骤1、github仓库创建2、将远程仓库拉取并合并&#xff08;1&#xff09;初始化本地仓库&#xff08;2&#xff09;本地仓库与Github仓库关联&…

Linux驱动开发—并发与竞争,原子操作,自旋锁,信号量详解

1.并发与并行的概念 并发是指在同一时间段内&#xff0c;多个任务交替执行。并发可以发生在单核处理器上&#xff0c;通过任务切换实现 并行是指在同一时间段内&#xff0c;多个任务同时执行。并行可以发生在多核处理器上&#xff0c;例如下图任务1 和任务3同时进行&#xff0…

JAVA基础知识点3 (String 和 StringBuffer 以及 StringBuilder 的特点以及区别)

1&#xff0c;String 和 StringBuffer 以及 StringBuilder 的特点 &#xff08;1&#xff09;String的特点&#xff1a;String是final修饰的字符序列是不可改变的&#xff0c; 是字符串常量&#xff0c;一旦初始化就不可以被更改,因此是线程安全的 因为是常量每次对其操作都会…

C++必修:STL之vector的模拟实现

✨✨ 欢迎大家来到贝蒂大讲堂✨✨ &#x1f388;&#x1f388;养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; 所属专栏&#xff1a;C学习 贝蒂的主页&#xff1a;Betty’s blog 为了让我们更加深入理解vector&#xff0c;接下来我们将模拟实现一个简易版的vect…

龙迅#LT8918适用于TTL/LVDS转MIPIDSI/CSI应用方案,分辨率高达1080P@60HZ,可提供技术支持!

1. 描述 Lontium LT8918 是一款高性能 MIPIDSI/CSI-2 发射器&#xff0c;适用于移动显示面板或相机应用。 LT8918 的 TTL 输入在 SDR 或 DDR 采样下支持 24 位 RGB 和 BT656/1120 视频格式。最大输入像素时钟频率为 SDR 148.5MHz 或 DDR 74.25MHz&#xff0c;适用于1080P60Hz高…