多模态大模型通用模式

news2025/1/8 4:40:40

MM-LLMs(多模态大模型)是目前比较新的和实用价值越发显著的方向。其指的是基于LLM的模型,具有接收、推理和输出多模态信息的能力。这里主要指图文的多模态。

代表模型:GPT-4o、Gemini-1.5-Pro、GPT-4v、Qwen-VL、CogVLM2、GLM4V、InternVL-Chat-V1.5、MiniCPM-Llama3-V2.5
在这里插入图片描述

1.模型结构

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

主要由编码器、连接器、LLM组成:

编码器 Modality Encoder (ME):编码器是处理输入数据的组件,它可以接收多种模态的输入,如图像、音频或视频。编码器的任务是将这些原始的多模态数据转换成模型可以理解的特征表示。
连接器:连接器是连接编码器输出和大型语言模型(LLM)的桥梁。它的主要作用是将编码器输出的特征进一步处理,使其能够与LLM的输入格式兼容,从而让LLM能够更好地理解这些特征。
LLM:LLM是MLLM的核心,通常是一个预训练的语言模型,负责处理和生成文本。它能够根据输入的文本和其他模态的特征,进行语言理解、生成或推理等任务。
生成器:是可选的。可以附加到LLM上,用于生成除文本之外的其他模态输出,如图像、音频或视频。

(1)模态编码器

通常使用预训练的编码器。常见的有CLIP、EVA-CLIP、EVA2-CLIP-E、InternViT-6B、VILT。

优化要点:更高的分辨率能带来更高的性能提升。

一文看完多模态:从视觉表征到多模态大模型 - 菜人卷的文章 - 知乎
https://zhuanlan.zhihu.com/p/684472814

(2)连接器

该模块用于对齐不同模态和LLM的文本模态。

The Input Projector is tasked with aligning the encoded features of other modalities with the text feature space .
https://arxiv.org/html/2401.13601v5

最主要的方法是在预训练的视觉编码器和LLM之间引入一个可学习的连接器,将信息投影到LLM可以高效理解的空间中。
可学习的连接器的分类
①基于投影的连接器(Projection-based):这种连接器将编码器输出的特征投影到与LLM的词嵌入相同的维度空间,使得特征可以直接与文本令牌一起被LLM处理。如MLP。 (令牌级)
②基于查询的连接器(Query-based):这种连接器使用一组可学习的查询令牌来动态地从编码器输出的特征中提取信息。如Q-Former。 (令牌级)
③基于融合的连接器(Fusion-based):这种连接器在LLM内部实现特征级别的融合,允许文本特征和视觉特征在模型内部进行更深入的交互和整合。如Cross-attention。 (特征级)

其次可以使用专家模型,直接将图像描述语言作为文本发送给LLM。基本思想是在不训练的情况下将多模态输入转换为语言。通过这种方式,大型语言模型(LLMs)可以通过转换后的语言理解多模态性。

(3)LLM

预训练的LLM,如QwenLM、Yi-34B、Llama-3-8B-Instruct。

优化要点:更大的参数量能带来更高的性能提升;专家混合(MoE)架构较优。

2.训练流程

和语言模型一样,都要经过预训练和监督微调两个阶段。下图为Qwen-VL的训练流程。
在这里插入图片描述

(1) MM PT 多模态预训练

预训练阶段通常涉及大规模图文Pair对数据,例如字幕数据。通过优化预定义的目标函数来训练连接器,以实现各种模态之间的对齐。冻结LLM的参数。

例如可以给定一张图像,模型被训练以自回归方式预测图像的字幕,使用标准的交叉熵损失。

语料类型:图文对(<img1><txt1>);图文交错语料(<txt1><img1><txt2><txt3><img2><txt4>)。

在这里插入图片描述
对于简短和嘈杂的字幕数据,可以采用较低分辨率(例如224)以加快训练过程,而对于更长和更清洁的数据,最好使用更高的分辨率(例如448或更高)以减少幻觉。

(2)MM IT 指令微调

指令微调旨在教模型更好地理解用户的指令并完成所需的任务。通过这种方式微调,LLM可以通过遵循新指令来泛化到未见过的任务,从而提升零样本性能。

MM IT包括监督微调(SFT)和基于人类反馈的强化学习(RLHF),旨在与人类意图对齐并增强MM-LLMs的交互能力。

①SFT

样本格式:包括一个可选的指令和一个输入输出对。
在这里插入图片描述
模型被预测响应的下一个标记,训练目标通常是用于训练LLM的原始自回归目标,使用交叉熵损失函数。

数据集:LLaVA-Instruct-150k。

数据质量的评价维度:提示多样性;任务覆盖。

②RLHF

人类偏好对齐。利用强化学习算法使LLM与人类偏好对齐,训练环节中以人类注释作为监督。

流程:监督微调;奖励建模;强化学习。

方法:PPO;DPO。
跟语言大模型一样,具体可以看对应的论文。

3.模型评估

MM LLM 评估可以根据问题类型大致分为两类:封闭集和开放集。
评估可以看这个:https://github.com/open-compass/VLMEvalKit/blob/main/README_zh-CN.md#data-model-results

(1)封闭集

封闭集问题指的是一种可能答案选项是预定义且有限的问题类型。评估通常在任务特定的数据集上进行。
也就是选择题。

在这里插入图片描述

数据集:ScienceQA、MMBench、RealWorldQA。

(2)开放集

与封闭集问题相比,开放集问题的回答更灵活。
因此评测可以分为人工评测、GPT评分和案例研究。

①人工评测

人类评估可以从多个方面对微调后的模型进行评估,例如:

  • 相关性:评估模型的响应是否与给定的指令相关。
  • 连贯性:评估生成的文本在逻辑上一致且结构良好。
  • 流利性:评估生成的响应是否自然并且正确遵循语法规则。

数据集:https://github.com/X-PLUG/mPLUG-Owl/blob/main/mPLUG-Owl/OwlEval/OwlEval.md

②GPT评分

使用GPT代替人工。

③案例研究

专为某一模型设计定性或综合的评估方案。

4.发展方向

(1)粒度深入:朝向像素级定位。
(2)模态扩展:文本、图像、音频、视频等。
(3)多语言:多语言能力。
(4)场景扩展:多端(如手机)部署;垂域模型。

5.多模态幻觉

模型一定会有幻觉。多模态模型幻觉可分为:

(1)存在性幻觉(Existence Hallucination):

这是最基本的形式,指模型错误地声称图像中存在某些物体。

(2)属性性幻觉(Attribute Hallucination):

指错误地描述某些物体的属性,例如未能正确识别狗的颜色。它通常与存在性幻觉相关,因为属性的描述应基于图像中存在的物体。

(3)关系性幻觉(Relationship Hallucination):

这是更复杂的一种类型,也是基于物体的存在。它指的是错误描述物体之间的关系,例如相对位置和互动。

6.幻觉缓解方法

分为预纠正、过程中纠正和后纠正。

(1)预纠正

一种直观而简单的解决幻觉的方法是收集专门的数据(例如,负面数据)并使用这些数据进行微调,从而得到幻觉响应较少的模型。 如 VictorSanh/LrvInstruction

(2)过程中纠正

指改进架构设计或特征表示。这些工作尝试探索幻觉的原因,并设计相应的补救措施,以在生成过程中减轻幻觉。

  • HallE-Switch 对物体存在幻觉的可能因素进行了实证分析,并假设存在幻觉源于未被视觉编码器定位的物体,而这些物体实际上是基于嵌入在LLM中的知识推断出来的。基于这一假设,引入了一个连续控制因子和相应的训练方案,以在推理过程中控制模型输出的想象程度。
  • VCD 提出物体幻觉源于两个主要原因,即训练语料库中的统计偏差和嵌入在LLM中的强语言先验。作者注意到,当向图像注入噪声时,MLLMs倾向于依赖语言先验而非图像内容进行响应生成,从而导致幻觉。相应地,这项工作设计了一种放大-对比解码方案,以抵消错误的偏差。

(3)后纠正

不同于先前的范式,后纠正以后期补救的方式减轻幻觉,在输出生成后进行纠正。

  • Woodpecker 是一种无需训练的通用幻觉纠正框架。具体而言,该方法结合专家模型来补充图像的上下文信息,并设计了一条逐步纠正幻觉的流程。该方法具有可解释性,因为每一步的中间结果都可以检查,且物体是基于图像的。

参考:
1.https://arxiv.org/pdf/2401.13601
2.https://arxiv.org/pdf/2312.16602
3.https://arxiv.org/pdf/2306.13549
4.https://mp.weixin.qq.com/s/a1slqH2ScZnrFmDFpo0R7A
5.https://zhuanlan.zhihu.com/p/684472814
6.https://zhuanlan.zhihu.com/p/688215018
7.https://huggingface.co/spaces/opencompass/open_vlm_leaderboard
8.https://zhuanlan.zhihu.com/p/682893729

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1835621.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

服务器测试之硬盘规格扫盲贴

最近整理了AVL系统里的SSD相关规格信息&#xff0c;来个了解硬盘规格信息的扫盲贴,过程很曲折&#xff0c;但是认为学习一下相关规格参数还是很有用的 1.什么是硬盘 硬盘是计算机最主要的存储设备&#xff0c;平常买电脑的时候看到的配置24G1T里的1T就是硬盘&#xff0c;计算机…

ECharts 词云案例三:2024年阅读关键词

ECharts 词云案例三&#xff1a;2024年阅读关键词 引言 在数据可视化领域&#xff0c;ECharts 以其强大的功能性和灵活性&#xff0c;成为开发者和设计师的首选工具之一。继上一篇关于 ECharts 词云图的详细介绍后&#xff0c;本文将探索词云图的进阶应用——使用蒙版来创造更…

【Linux】—在Linux中搭建Python环境

文章目录 前言一、检查Linux系统是否自带Python版本。二、安装依赖包(重要)三、下载Python-3.9.5安装包四、下载完成后&#xff0c;通过xftp6上传到Linux服务器上五、解压Python安装包六、编译安装Python七、配置Python环境变量八、运行Python&#xff0c;查看是否可用九、pyth…

如何用Excel随机抽取幸运儿

在举行年会等活动&#xff0c;会在大屏幕互动随机滚动抽取幸运观众&#xff0c;有专门开发的软件或程序&#xff1b; 对于我们日常工作中有时会遇到&#xff0c;如何在群体中随机抽取部分幸运儿的问题&#xff1f; 除了抓阄&#xff0c;当然也可以用Excel解决哦&#xff0c;今…

适合小白学习的项目1906java Web智慧食堂管理系统idea开发mysql数据库web结构java编程计算机网页源码servlet项目

一、源码特点 java Web智慧食堂管理系统是一套完善的信息管理系统&#xff0c;结合java 开发技术和bootstrap完成本系统&#xff0c;对理解JSP java编程开发语言有帮助&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用B/S模式开发。 前段主要技术 bootstra…

现在市面上哪个大大数据信用查询平台比较好用?

在当今信息化和数字化的时代&#xff0c;信用查询平台的重要性愈发突出&#xff0c;特别是在个人贷款、信用卡申请和金融服务领域。选择一个优秀的大数据信用查询平台&#xff0c;不仅可以帮助用户全面了解自己的信用状况&#xff0c;还能提供针对性的解读和建议&#xff0c;帮…

中国天辰×蓝卓丨共创行业级工业操作系统,加速培育新质生产力!

6月17日&#xff0c;中国天辰工程有限公司&#xff08;以下简称“中国天辰”&#xff09;党委委员、总经理梁军湘一行莅临蓝卓&#xff0c;双方就工业互联网平台合作进行座谈交流。蓝卓总经理谭彰、副总经理蓝照斌、总经理助理俞益标&#xff0c;以及中控技术副总裁吴才宝、大客…

阿里又出AI神器,颠覆传统图像编辑,免费开源!

文章首发于公众号&#xff1a;X小鹿AI副业 大家好&#xff0c;我是程序员X小鹿&#xff0c;前互联网大厂程序员&#xff0c;自由职业2年&#xff0c;也一名 AIGC 爱好者&#xff0c;持续分享更多前沿的「AI 工具」和「AI副业玩法」&#xff0c;欢迎一起交流~ 最近阿里开源了 Mi…

玩转编程的终极挑战,C++究竟有多难?

C是一门非常强大和灵活的编程语言&#xff0c;它可以实现面向对象、泛型、元编程等多种编程范式&#xff0c;可以开发高性能的系统软件、游戏、图形、网络等各种应用。但是&#xff0c;C也是一门非常复杂和难学的语言&#xff0c;很多初学者在学习C的过程中会遇到很多困难和挫折…

YOLOv8目标检测算法在地平线Bernoulli2架构BPU上高效部署参考(PTQ方案)30fps!

—— 以RDK X3为例&#xff0c;修改Head部分&#xff0c;8ms疾速Python后处理程序&#xff0c;30fps稳稳当当 本文在地平线对YOLOv8s的Backbone修改的基础上&#xff0c;提出一种在地平线Bernoulli2架构BPU上部署YOLOv8的后处理思路。使用640640分辨率&#xff0c;80类别基于C…

【STM32入门学习】定时器与PWM的LED控制

目录 一、定时器与PWM介绍 1.1定时器 1.1.1定时器分类简介 1.1.2STM32定时器分类比较表 1.1.3定时器启动操作&#xff1a; 1.2 PWM 1.2.1 简介&#xff1a; 1.2.2PWM工作原理 1.2.3使用步骤&#xff1a; 二、定时器计数控制LED灯亮灭 2.1HAL库 2.1.1使用HAL库创建…

如何选择适合自己的收银系统源码?

提到收银系统源码&#xff0c;想必很多企业都为此头疼&#xff0c;收银系统厂商五花八门&#xff0c;价格从几千元&#xff0c;到几十万元&#xff0c;甚至上百万元不等。到底如何选择一套适合自己的收银系统源码呢&#xff1f;本文我将结合自己8年从业经验展推荐大家从以下几个…

代码随想录算法训练营第二十七天

题目&#xff1a;122. 买卖股票的最佳时机 II 本题首先要清楚两点&#xff1a; 只有一只股票&#xff01;当前只有买股票或者卖股票的操作 想获得利润至少要两天为一个交易单元。 局部最优&#xff1a;收集每天的正利润&#xff0c;全局最优&#xff1a;求得最大利润。 我…

(资料收藏)王阳明传《知行合一》共74讲,王阳明知行合一音频讲解资料

今天给大家带来的不是软件&#xff0c;而是一份精神食粮——《知行合一》的教程福利。这可不是一般的教程&#xff0c;它关乎心灵&#xff0c;关乎智慧&#xff0c;关乎我们如何在纷繁复杂的世界中找到自己的位置。 咱们得聊聊王阳明&#xff0c;这位明代的大儒&#xff0c;他…

el-table合并单元格之后,再进行隔行换色的实现

el-table 中有现成的隔行换色功能&#xff0c;只要增加 stripe 属性即可。但是如果有单元格合并的话&#xff0c;这个属性就不可用了。这时候我们就需要动点小心思了。 基于相同字段进行合并 如果是基于表头中的某一列&#xff0c;具有相同值进行合并的话&#xff0c;那么只需…

【Unity】RPG2D龙城纷争(三)角色、角色数据集

更新日期&#xff1a;2024年6月18日。 项目源码&#xff1a;后续章节发布 索引 简介角色数据集&#xff08;RoleDataSet&#xff09;一、定义角色数据集类二、角色基础数据&#xff08;公共数据&#xff09; 角色&#xff08;Role&#xff09;一、定义角色类二、角色其他数据&a…

Python构造TCP三次握手、传输数据、四次挥手pcap数据包并打乱顺序

Python构造数据包&#xff0c;包含&#xff1a; TCP三次握手、 传输数据、 四次挥手 实现 随机乱序TCP数据包 from scapy.all import * from scapy.all import Ether, IP, TCP, UDP, wrpcap from abc import ABC, abstractmethod import random import dpkt from scapy.all…

全氟己酮自动灭火材料表现亮眼!手把手教你自动灭火毯的使用方法

灭火毯的使用方法是什么&#xff1f;很多朋友在购买灭火毯之前&#xff0c;都比较关心这个问题。在这里&#xff0c;我们可以把灭火毯分为两种。一种是传统灭火毯&#xff0c;还有一种是近年来兴起的高科技产品—全氟己酮自动灭火毯。这两种灭火毯的使用方法大有不同&#xff0…

图解ZGC

ZGC&#xff08;Z Garbage Collector&#xff09; 是一款性能比 G1 更加优秀的垃圾收集器。ZGC 第一次出现是在 JDK 11 中以实验性的特性引入&#xff0c;这也是 JDK 11 中最大的亮点。在 JDK 15 中 ZGC 不再是实验功能&#xff0c;可以正式投入生产使用了&#xff0c;使用 –X…

智能网站管理系统

智能网站管理系统&#xff0c;即智能化的网站管理工具&#xff0c;是为了提高网站管理效率和简化操作流程而开发的一种软件系统。它集合了各种先进的技术和功能&#xff0c;为网站管理员提供了一套强大而可靠的解决方案。 智能网站管理系统的核心功能是网站内容管理。传统的网站…