多模态大模型:关于Better Captions那些事儿

news2025/1/20 3:54:45

Overview

    • 一、ShareGPT4V
      • 1.1、Motivation
      • 1.2、ShareGPT4V数据集构建
      • 1.3、ShareGPT4V-7B模型

一、ShareGPT4V

题目: ShareGPT4V: Improving Large Multi-Modal Models with Better Captions
机构:中科大,上海人工智能实验室
论文: https://arxiv.org/pdf/2311.12793.pdf
代码:https://sharegpt4v.github.io/
任务: 多模态大模型CAPTION数据集质量优化
特点: 提出一个大规模更高质量的图像caption数据集
方法: 利用GPT4V
前置相关工作:LLaVA-Instruct,Qwen-VL

BLIP model

1.1、Motivation

利用GPT4-V去构造更加详细准确的图像文本描述(相比COCO-Caption以及LLaVA-Instruct等数据集而言)

  1. 100K直接从GPT4-V直接生成的captions
  2. 利用上述子集去训练一个caption模型,进而把数据集扩充自1.2M
  3. ShareGPT4V用于SFT阶段可以明显提升LLaVA-7B, LLaVA-1.5-13B, and Qwen- VL-Chat-7B 在MME和MMBench等数据集上的指标
  4. 利用这个数据集,进行预训练和微调,提出一个模型ShareGPT4V-7B

本文认为现在LMM常规的两段式训练,预训练再微调,在预训练阶段想要达到的模态对齐的目标往往很难达到,其中一个很重要的原因是高质量的图文对比较少,现有的图文对,文本描述往往比较简单,并且主要关注在显著性的目标身上,会丢失很多信息,导致是一个sub optimal的模态对齐。

为了证明上面motivation,做了如下的简单实验,将GPT4-V生成的caption,以一定比例替换掉如下LLM SFT阶段的数据,only 3.5% for LLaVA-1.5 [30] and Qwen-VL-Chat [3]1, and 14.5% for LLaVA [31](值得注意的是千问-VL chat的pre-SFT的模型以及SFT的数据都是没有开源的,因此采取的方式是直接用LLaVA-1.5 SFT的665K数据去做实验微调 Qwen-VL-Chat-7B)
BLIP model

当然,在上面的100K GPT4-V构造的数据,尝到甜头后,也驱使作者去构造更多的数据用于预训练阶段(可能是从成本考虑,间接去训练了一个captioner,而非直接去调用GPT4-V去构造超过1M量级的数据集)

1.2、ShareGPT4V数据集构建

BLIP model BLIP model

值得注意的是这100K的图像,还是有针对性的做了一些配比以及源的选取的,比如

  • 50K images from COCO [29]
  • 30K images from ’LCS’ (which abbreviates LAION [48], CC-3M [50], and SBU [41])
  • 20K images from SAM [21]
  • 500 images from TextCaps [51]
  • 500 images from WikiArt [47]
  • 1K images from web- crawled data (split evenly between images of landmarks and images of celebritie

对于1.2M用于训练share captioner的图像,分别来自:

  • 118K images from COCO [29]
  • 570K images from SAM [21]
  • 558K images from LLaVA-1.5 pre-training data [30].

最终得到ShareGPT4V-PT这样一个预训练的数据集

1.3、ShareGPT4V-7B模型

模型设计:
采用了类似LLaVA- 1.5的架构设计,其中包含三个主要部分:

  1. 一个视觉编码器,CLIP-Large,输入分辨率336 * 336,patch size 14,的到576个视觉tokens。
  2. 一个projector,两层MLP
  3. 一个大语言模型,Vicuna-v1.5(训练自LLaMA2),7B规模

预训练阶段:
数据:ShareGPT4V-PT
训练参数:视觉编码器, projector, 大语言模型同时打开,lr 2e−5,batch size 256,4700 steps,实验也发现,选择性finetune vit的后半部分参数,能够取得更好的结果,以及更快的训练效率

SFT阶段:
数据:用的是llava1.5的665K SFT数据,其中有23K是关于详细描述的数据,用ShareGPT4V(100K)随机采样23K来进行替换,即除了详细描述这个数据集替换之外,其他都保留,整体还是665K的量级。
训练参数:固定视觉编码器,训练projector以及大语言模型,lr 2e−5,batch size 128,5200 steps(一个epoch)

BLIP model

论文也做了一些消融实验,比如Effectiveness of ShareGPT4V Dataset,Pre-training Caption Quality,下面选择了两个比较有意思的展示:

Number of Captions in Pre-training.
BLIP model

Number of Learnable ViT Blocks in Pre-training.
BLIP model

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1330897.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

少儿编程:从兴趣到升学的关键之路

随着科技的飞速发展,计算机编程已经逐渐渗透到我们生活的方方面面。对于新时代的少儿来说,掌握编程技能不仅可以开拓视野,提高思维能力,还可能成为他们未来升学和就业的重要砝码。6547网将探讨如何将少儿编程从兴趣培养成一种有力…

基于ERC20代币协议实现的去中心化应用平台

文章目录 内容简介设计逻辑ERC20TokenLoanPlatform 合约事件结构体状态变量函数 Remix 运行实现部署相关智能合约存款和取款贷款和还款 源码地址 内容简介 使用 solidity 实现的基于 ERC20 代币协议的借贷款去中心化应用平台(极简版)。实现存款、取款、贷款、还款以及利息计算的…

低代码开发:数字化转型的引擎

引言 在当今数字化时代,组织面临着不断变化的市场需求和技术挑战。数字化转型已成为维持竞争力的关键,而低代码开发正在崭露头角,成为加速创新和数字化转型的有力工具。本文将深入探讨低代码开发的核心概念、优势和应用,以揭示它…

单调栈分类、封装和总结

作者推荐 map|动态规划|单调栈|LeetCode975:奇偶跳 通过枚举最小(最大)值不重复、不遗漏枚举所有子数组 C算法:美丽塔O(n)解法单调栈左右寻找第一个小于maxHeight[i]的left,right,[left,right]直接的高度都是maxHeight[i] 可以…

【动态规划算法(dp算法)】之背包问题

文章目录 背包问题动规五部曲一、0-1背包问题 :限制物品不可重复 (要么不选 要么选一个)二、完全背包问题:不限制重复(要么不选 要么可以多选)(完全背包可以转化为0-1背包问题) 动态规划:01背包…

宝塔面板 -- 创建第一个自己的网站

文章目录 前言 一、安装宝塔面板 二、注册宝塔面板 三、安装nginx 四、第一个hello world运行 五、总结 文章目录 前言一、安装宝塔面板二、注册宝塔面板三、安装nginx四、第一个hello world运行五、总结 前言 阿里云最近对在校大学生免费每人赠送一台服务器&#xff0c…

Apache ShenYu 网关JWT认证绕过漏洞 CVE-2021-37580

Apache ShenYu 网关JWT认证绕过漏洞 CVE-2021-37580 已亲自复现 漏洞名称漏洞描述影响版本 漏洞复现环境搭建漏洞利用 修复建议总结 Apache ShenYu 网关JWT认证绕过漏洞 CVE-2021-37580 已亲自复现) 漏洞名称 漏洞描述 Apache ShenYu是一个异步的,高性能的&#x…

第九周算法题(哈希映射,二分,Floyd算法 (含详细讲解) )

第九周算法题 第一题 题目来源&#xff1a;33. 搜索旋转排序数组 - 力扣&#xff08;LeetCode&#xff09; 题目描述&#xff1a;整数数组 nums 按升序排列&#xff0c;数组中的值 互不相同 。 在传递给函数之前&#xff0c;nums 在预先未知的某个下标 k&#xff08;0 <…

HA启动Advanced SSH Web Terminal 提示附加组件似乎尚未准备就绪,它可能仍在启动。是否要再试一次?

环境&#xff1a; Home Assistant OS11.1 Advanced SSH & Web Terminal 17.0 问题描述&#xff1a; HA安装好SSH加载项&#xff0c;启动Advanced SSH & Web Terminal 提示附加组件似乎尚未准备就绪&#xff0c;它可能仍在启动。是否要再试一次&#xff1f; 解决方案…

尚硅谷 java 2023(基础语法)笔记

一、变量与运算符 1、HelloWorld的编写和执行 class HelloChina{public static void main(String[] args){System.out.println("hello,world!!你好&#xff0c;中国&#xff01;");} } 总结&#xff1a; 1. Java程序编写和执行的过程&#xff1a; 步骤1&#xff1…

解决 MATLAB 遗传算法中 exitflg=4 的问题

一、优化问题简介 以求解下述优化问题为例&#xff1a; P 1 : min ⁡ p ∑ k 1 K p k s . t . { ∑ k 1 K R k r e q l o g ( 1 α k ∗ p k ) ≤ B b s , ∀ k ∈ K p k ≥ 0 , ∀ k ∈ K \begin{align} {P_1:}&\mathop{\min}_{\bm{p}}{ \sum\limits_{k1}^K p_k } \no…

微软写了份GPT-4V说明书:166页讲解又全又详细demo示例一应俱全

原文&#xff1a;微软写了份GPT-4V说明书&#xff1a;166页讲解又全又详细demo示例一应俱全 - 哔哩哔哩 编者按&#xff1a;这篇文章深入研究了GPT-4V的用法、基本功能&#xff0c;用较大篇幅介绍了GPT-4V在遵循文字说明、视觉指向和视觉参考提示、视觉文本提示等方面展示出的…

Swiper轮播图系列

一、初始化Swiper new Swiper(.swiper-container, {initialSlide: 0,slidesPerView: 3,breakpoints: {750: {slidesPerView: 1},990: {slidesPerView: 2}},spaceBetween: 12,loop: true,speed: 1000,autoplay: {disableOnInteraction: false, // 手动滑动后&#xff0c;不停止…

阿里云 ACK One 新特性:多集群网关,帮您快速构建同城容灾系统

云布道师 近日&#xff0c;阿里云分布式云容器平台 ACK One[1]发布“多集群网关”[2]&#xff08;ACK One Multi-cluster Gateways&#xff09;新特性&#xff0c;这是 ACK One 面向多云、多集群场景提供的云原生网关&#xff0c;用于对多集群南北向流量进行统一管理。 基于 …

【UML】第9篇 类图(概念、作用和抽象类)(1/3)

目录 一、类图的概念 二、类图的主要作用 三、类图的构成 3.1 类的名称 3.2 抽象类&#xff08;Abstract Class&#xff09; 一、类图的概念 类图是UML模型中静态视图。它用来描述系统中的有意义的概念&#xff0c;包括具体的概念、抽象的概念、实现方面的概念等。静态视…

Pytorch项目,肺癌检测项目之四

# 安装图像处理 的两个包 simpleITK 和 ipyvolume # 安装缓存相关的两个包 diskcache 和 cassandra-driver import gzip from diskcache import FanoutCache, Disk from cassandra.cqltypes import BytesType from diskcache import FanoutCache,Disk,core from diskcache…

浏览器原理篇—渲染优化

渲染优化 通常一个页面有三个阶段&#xff1a;加载阶段、交互阶段和关闭阶段 加载阶段&#xff0c;是指从发出请求到渲染出完整页面的过程&#xff0c;影响到这个阶段的主要因素有网络和 JavaScript 脚本。交互阶段&#xff0c;主要是从页面加载完成到用户交互的整合过程&…

【星海出品】Keepalived 使用基础案例 (二)

keepalived 使用 [rootmaster ~]# cat /etc/keepalived/keepalived.conf ! Configuration File for keepalivedglobal_defs { //全局配置notification_email { //定义报警收件人邮件地址acassenfirewall.locfailoverfirewall.locsysadminfirewall.loc}notification_…

单例模式实现

⭐ 作者&#xff1a;小胡_不糊涂 &#x1f331; 作者主页&#xff1a;小胡_不糊涂的个人主页 &#x1f4c0; 收录专栏&#xff1a;JavaEE &#x1f496; 持续更文&#xff0c;关注博主少走弯路&#xff0c;谢谢大家支持 &#x1f496; 单例模式 1. 什么是单例模式2. 饿汉模式3.…

JoySSL诚招SSL证书代理

不久前&#xff0c;阿里云宣布了一个让人稍感唏嘘的消息——它们的一年期免费SSL证书服务将停步&#xff0c;转而提供三个月期限的证书。这一变化&#xff0c;无疑会使得网站开发的公司在维持用户信任和网站安全上多出心思。然而&#xff0c;免费的午餐并没有彻底消失&#xff…