NExT-GPT: Any-to-Any Multimodal LLM论文笔记

news2025/2/28 17:06:05
论文https://arxiv.org/pdf/2309.05519.pdf
代码https://github.com/NExT-GPT/NExT-GPT/tree/main

在这里插入图片描述

1. Motivation

  • 现有的多模态大模型大都只是支持输入端的多模态(Text、Image、Video、Audio等),但是输出端都是Text。
  • 也有一些现有的输入输出都是多模态的工作,如CoDi、Visual-ChatGPT、 HuggingGPT等,这一类工作又存在下述问题

在这里插入图片描述

因此,本文提出一种端到端训练的,支持任意模态输入输出MM-LLM(Multimodal Large Language Model)——NExT-GPT。

2. Overall Architecture

在这里插入图片描述

NExT-GPT主要包含三层架构:

  1. Encoder+Input Projection:利用现有的开源编码器(ImageBind)对多模态输入进行编码,随后通过各自的Projection 模块将多模态Embedding对齐到Text Embedding。

  2. LLM:利用开源 的LLM (Vicuna)作为来处理输入多模态Embedding,进行语义理解和推理。LLM 可以直接输出文本,同时其还将输出一种模态信号指令,来决定调用哪个模态的解码器进行解码输出。
    在这里插入图片描述

  3. 对于特定模态的指令,调用对应模态的Projection模块以及相应的开源Diffusion解码器 (Stable Diffusion (SD) for image synthesis, Zeroscope for video synthesis, and AudioLDM for audio synthesis) 生成对应输出。

整个MM-LLM系统中,Encoder、LLM、Diffusion都是现成的开源预训练模型,只有输入端和输出端的Projection模块需要训练,只有1%的参数需要更新。

  • 这样首先避免了难度较大的从头训练人工;
  • 其次,这种模块化的预训练模型拼接方式能够方便集成更多的模态;

3. 输入端和输出端 Projection 模块训练方式

为了解决不同模态输入和输出之间特征对齐问题,本文分别设计了 Encoding-side LLM-centric Multimodal Alignment 和 Decoding-side Instruction-following Alignment 来进行 Projection 模块的训练。

3.1 Encoding-side LLM-centric Multimodal Alignment

在这里插入图片描述

  • 目标:aligning different inputting multimodal features with the text feature space;
  • 做法:prepare the ‘X-caption’ pair (‘X’ stands for image, audio, or video) data from existing corpus and benchmarks. And enforce LLM to produce the caption of each input modality against the gold caption。

3.2 Decoding-side Instruction-following Alignment

在这里插入图片描述

  • 背景:现有的Diffusion Model 大多采用 textual token inputs 作为condition 。
  • 目标:minimizing the distance between the LLM’s modal signal token representations (after each Transformer-based project layer) and the conditional text representations of the diffusion models。

4. Modality-switching Instruction Tuning

尽管讲输入和输出都对齐到了LLM的Embedding 空间,但是为了让模型能够生成用户想要的模态的输出,还要进行指令微调。这需要对整个MM-LLM模型采用 (INPUT, OUTPUT) 对进行训练。采用LoRA对一NeXT-GPT的小部分参数进行更新,同时,Projection 模块也需要有两层也需要进行更新。

在这里插入图片描述

为此,作者还构建了一个 Modality-switching Instruction Tuning (MosIT) 数据集。

这一部分开的还不是很明白,暂时略过。

5. Limitation and Future work

在这里插入图片描述

  1. 模态与任务扩展: 扩展到更多的模态(例如,网页、3D 视觉、热图、表格和图表)和任务(例如,对象检测、分割、定位和跟踪);

  2. 考虑更多基座 LLM: 整合不同大小的 LLM,以及其他 LLM 类型。

  3. 多模态生成策略: 目前版本的 NExT-GPT 系统仅考虑了基于扩散模型的纯输出方式的多模态输出。然而生成模式容易输出错误幻想内容(Hallucination),并且输出内容的质量往往容易受到扩散模型能力的限制。因此,进一步提升扩散模型的性能很关键,这能直接帮助提高多模态内容的输出质量。另外,实际上可以整合基于检索的方法来补充基于生成的过程的弊端,从而提升整体系统的输出可靠性。

  4. MosIT 数据集扩展:目前 NExT-GPT 所使用的 MosIT 数据集规模受限,这也会限制其与用户的交互表现。后续研究可以进一步提升模态切换指令微调学习策略以及数据集。(这个实际使用确实遇到了这种问题,模型在提供很明确的生成图片或者音频的指令情况下无法执行生成任务,只会输出一句话)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1026922.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux服务器自定义登陆提示信息

背景 最近在搭建zookeeper和应用服务环境,需要配置很多东西,然后不同服务器的文件路径之类的东西可能会有一些不同,比较麻烦,就准备给每个服务器配置一个登陆提示,让每一个登陆的用户能很快了解配置信息和文件路径。 …

Java 调用 GitLabAPI 获取仓库里的文件件 提交记录

1. 需求 项目组 需要做统计,获取每个开发人员的代码提交次数,提交时间,提交人等等,因代码在GitLab上管理,所以需要调用GitLabAPI来获取。 2. 开发 API官网:https://docs.gitlab.com/ee/api/ 2.1 创建自…

centos设置固定ip

ip addr查看是哪张网卡我这里是 编辑 设置

QT 绘画功能的时钟

.h #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include <QPaintEvent> #include <QDebug> //信息调试类 #include <QPainter> #include <QPixmap> //图像引擎类 #include <QTime> #include <QTimer> …

FPGA设计时序约束一、主时钟与生成时钟

​目录 一、主时钟create_clock 1.1 定义 1.2 约束设置格式 1.3 Add this clock to the existing clock 1.4 示例 1.5 差分信号 二、生成时钟generate_clock 2.1 定义 2.2 格式 2.2.1 by clock frequency 2.2.2 by clock edges 2.2.3 示例 2.2.4 自动生成时钟 2.…

看完这篇 教你玩转渗透测试靶机Vulnhub——Grotesque:3.0.1

Vulnhub靶机Grotesque:3.0.1渗透测试详解 Vulnhub靶机介绍&#xff1a;Vulnhub靶机下载&#xff1a;Vulnhub靶机安装&#xff1a;①&#xff1a;信息收集&#xff1a;②&#xff1a;漏洞发现&#xff1a;③&#xff1a;LFI漏洞利用(本地文件包含漏洞)&#xff1a;④&#xff1a…

go语言初学(备忘)

1、安装 2 路径配置 C:\Program Files\Go\bin 3新建一个工程 4、下载VSCode 并安装插件 创建一个调试文件 在main目录下新建一个test.go脚本 package main import "fmt" func main() { fmt.Println("Hi 1111") fmt.Println("testasdf") } 断点…

【递归方式,流程回路检测】

背景&#xff1a;后置流程。例如&#xff1a;task1配置后置流程task2&#xff0c;task3。task3配置后置流程task4 问题&#xff1a;需要解决的问题配置时候防止回路&#xff0c;造成死循环&#xff1a;task1配置后置流程task2&#xff0c;task2配置后置流程task1 import jav…

Spring Cloud Gateway快速入门(二)——断言工厂

文章目录 前言1. 什么是Gateway断言工厂2. 为什么要使用断言2.1. 调试和开发&#xff1a;2.2. 防御性编程&#xff1a;2.3. 文档和可读性&#xff1a;2.4. 测试&#xff1a; 3. 常用的Gateway断言工厂3.1 Path断言工厂3.2 Method断言工厂3.3 Header断言工厂3.4 时间断言工厂 4.…

OpenHarmony应用程序包整体说明

用户应用程序泛指运行在设备的操作系统之上&#xff0c;为用户提供特定服务的程序&#xff0c;简称“应用”。一个应用所对应的软件包文件&#xff0c;称为“应用程序包”。 OpenHarmony提供了应用程序包开发、安装、查询、更新、卸载的管理机制&#xff0c;方便开发者开发和管…

C# PaddleDetection 安全帽检测

效果 项目 代码 using OpenCvSharp; using OpenCvSharp.Extensions; using Sdcb.PaddleDetection; using Sdcb.PaddleInference; using System; using System.Drawing; using System.Text; using System.Windows.Forms; using YamlDotNet; using static System.Windows.Forms…

jvm-sandbox-repeater源码解析-配置管理

一、配置初见 源码里提供的控制台截图如下&#xff1a;&#xff08;怎么搭建自己去百度&#xff09; 从中取出对应的配置如下&#xff1a; { "degrade": false, //阻断能力 "exceptionThreshold": 1000, //异常采样率 "httpEntrancePatterns&qu…

RuoYi-Vue 新增子module模块,接口报404

新建maven子模块 参考若依添加子模块 解决接口报404 官方用例没有父版本号 需要在ruoyi-admin加上父版本号

淘宝分布式文件存储系统( 三 ) -TFS

淘宝分布式文件存储系统( 三 ) ->>TFS 目录 : 文件重新映射的接口介绍文件映射 mmap_file.cpp的实现进行测试 文件重新映射 (增加 或者 减少 文件映射区域的大小) mremap() 函数的原型如下 #include <sys/mman.h> void *mremap( void * old_address , size_…

git 使用之撤销暂存区提交

有时候git add 不想要的文件,不想要继续commit了, 可以使用如下命令: git reset HEAD如下命令 比较工作区和暂存区差异,查询是否恢复成功 git diff --cached

【Vue+NodeJS】vue路由及NodeJS环境搭建(Windows版)

一、Vue路由 1、什么是Vue路由 Vue路由是Vue.js框架中用于实现单页面应用&#xff08;SPA&#xff09;的路由管理器。它允许您创建多个页面之间的导航&#xff0c;并通过URL的变化来动态加载不同的组件。Vue路由通过声明式的方式定义页面的导航规则&#xff0c;并提供了一些内置…

机器视觉Halcon中read_image算子探究与学习

目录 算子作用参数注意点算子 作用 读取图片,用于从硬盘上读取图像数据并将其加载到Halcon中进行进一步的显示,分析,处理。 参数 Image:输出参数,表示读取的图像数据。 FileName:输入参数,表示待读取的图像文件的路径和名称 注意点 FileName有相对路径和绝对路径…

K8S:pod集群调度及相关操作

文章目录 一.pod集群调度概念1.调度约束( List-Watch组件)2.List-Watch的工作机制&#xff08;1&#xff09;List-Watch的工作机制流程&#xff08;2&#xff09;List-Watch的工作机制图示 3.调度的过程&#xff08;1&#xff09;调度的任务&#xff08;2&#xff09;调度选择p…

如何选择适合爬虫的动态住宅套餐

在当今互联网时代&#xff0c;爬虫已经成为了一项非常重要的技术。爬虫技术可以帮助企业和个人获取大量的数据&#xff0c;从而进行数据分析和决策。但是&#xff0c;要想让爬虫技术发挥最大的作用&#xff0c;就需要选择一款动态住宅套餐。那么&#xff0c;在选择动态住宅套餐…

vue内置组件Transition的详解

1. Transition定义 Vue 提供了两个内置组件&#xff0c;可以帮助你制作基于状态变化的过渡和动画&#xff1a; <Transition>会在一个元素或组件进入和离开 DOM 时应用动画。 <TransitionGroup> 会在一个 v-for 列表中的元素或组件被插入&#xff0c;移动&#xff0…