MM-LLM:Internvl_chat.v1.5论文解读

news2025/1/11 14:29:46

这个模型在我自己测的结果上也是表现优异,和glm4v打得有来有回。是目前开源的效果最佳的模型之一。

官方的评测榜单:https://huggingface.co/spaces/opencompass/open_vlm_leaderboard

摘要:

直接说提出了一个拉近开源和商业多模态模型的开源模型。
优化点:1.更强的Vision Encoder——InternViT-6B;
2.动态高分辨率——动态高分辨率;
3.高质量的中英双语数据集——显著增强OCR和中文相关的任务。

引言

作者直接点出了目前开源和商业的多模态大模型的巨大差距。原因在于:
1.参数规模的巨大差距:1000亿参数 VS 3亿参数的视觉模型+70亿或130亿参数的语言模型
2.图像资源:商业模型使用动态分辨率,保持原始的纵横比;开源模型使用固定分辨率(336336、448448)
3.多语言能力:商业模型使用多种语言的数据集;开源模型使用单英语数据集。

Internvl_1.5也是针对这些差距发力的:

  1. 我们对大规模视觉基础模型(VFM)——InternViT-6B实施连续学习方法,使用高质量的图文数据进行精炼。这个过程不仅增强了模型理解视觉内容的能力,还提高了其在各种大语言模型(LLMs)中的适应性。此外,使用InternLM2-20B作为语言基础模型也提供了强大的初始语言处理能力。

  2. 我们采用动态高分辨率策略,将图像划分为448×448的图块,图块数量根据图像的纵横比和分辨率在1到40之间(即4K分辨率)。为了捕捉全局上下文,我们还包括了缩略图视图。

  3. 我们收集了多样的公共数据集,涵盖高质量的自然场景、图表、文档以及英语和中文的对话。此外,我们开发了一个使用开源大语言模型的数据翻译管道,可以轻松扩展到更多语言。

最终也是获得了突出的优势:
1.灵活的分辨率;
2.双语能力;
3.强大的视觉表征:持续学习策略——http://t.csdnimg.cn/LS4Ar

作者也提到为了训练高分辨率图像,已经有双分支图像编码器和将高分辨率图像分割成多个低分辨率图块两种方法。但是开源模型的效果仍然比不上商业模型。

视觉编码器(视觉基础模型VFM)是多模态模型的核心,目前常见的有 CLIP-VIT,SifLIP,VIT,DINOv2,CLIP-ConvNext, SAM-B等。

模型架构

在这里插入图片描述
可以看到是通用的视觉编码器、连接器、LLM的组合。

ViT-MLP-LLM architectures

一个InternVIT-6B的VFM,一个随机初始化的MLP层(连接器),一个InternLM2-Chat-20B的LLM。
模型结构确实很简洁,下面重点介绍了训练的数据集,高质量的数据才是核心。

视觉编码器

开源模型常用的是VIT,但是作者认为因为其在互联网上的低分辨率的图文对上训练,所以在迁移到高分辨率或者其他领域的数据集上表现不佳。

作者训练了两个版本的InternViT-6B-448px。

1.InternViT-6B-448px-V1.2:在InternViT-6B的基础上采用继续预训练的策略。去掉了最后三层网络,因为发现倒数第四层在多模态上表现最佳;分辨率从224提升到448,和Nous-Hermes-2-Yi-34B模型结合形成多模态大模型。
2.InternViT-6B-448px-V1.5:在上一个模型的基础上,继续采用就继续预训练策略。使用动态分辨率,图块数量范围从 1 到 12;更强大的数据集。

作者在1.5版本的多模态大模型上还发现了InternViT-6B在预训练学习的知识是可插拔的,不受LLM的影响。

动态分辨率训练

在这里插入图片描述
动态高分辨率训练方法:
1.动态纵横比匹配:预定义了一组纵横比中动态匹配最佳的纵横比。在训练期间允许最多12个图块。
2.图像分割与缩略图:一旦确定了合适的纵横比,图像就会调整到相应的分辨率。例如,一个800×1300的图像将被调整到896×1344。调整后的图像随后被分割成448×448像素的图块。除了图块外,我们还包括整个图像的缩略图以捕捉全局上下文。这个缩略图被缩小到448×448,有助于模型理解整体场景。

数据集

1.预训练数据集
请添加图片描述
2.监督微调数据集
请添加图片描述
3.双语数据集的转换管道
纯粹使用LLM进行。
请添加图片描述

训练过程

图像被分割成448×448像素的图块,训练过程中图块数量根据图像的纵横比和分辨率最多达到12个。在测试阶段,模型可以处理最多40个图块,相当于4K分辨率,展示了其在零样本情况下对高分辨率输入的适应能力。

阶段1:预训练阶段专注于训练 InternViT-6B 视觉编码器和 MLP 投影器,以优化视觉特征提取。
阶段2:对整个模型的260亿参数进行了微调,以增强多模态能力。

个人总结:优秀的视觉编码器+MLP连接器+强大的LLM+高质量的数据=SOTA
实测也非常好用。

参考:
1.https://arxiv.org/abs/2404.16821
2.https://github.com/OpenGVLab/InternVL

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1858954.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

强强联合 极光推送(JPush)成为华为生态市场首家推送类SDK服务商

近日,中国领先的客户互动和营销科技服务商,极光(Aurora Mobile,纳斯达克股票代码:JG)的核心产品极光推送(JPush)顺利通过华为开发者联盟的多项测试及审核,成为首家在Harm…

RN开发搬砖经验之—“Calculated frame index should never be lower than 0“崩溃问题分析

问题重现 崩溃堆栈: Back traces starts. java.lang.RuntimeException: java.lang.IllegalStateException: Calculated frame index should never be lower than 0at com.facebook.react.animated.NativeAnimatedModule$1.doFrameGuarded(NativeAnimatedModule.ja…

【FFMPEG+Mediamtx】 本地RTSP测试推流记录

利用本地FFMPEGMediamtx 搭建本地RTSP测试推流电脑摄像头 起因 本来要用qt的qml的Video做摄像头测试。 😔但是,不在现场,本地测试,又要测试rtsp流,又因为搜了一圈找不到一个比较好的在线测试rtsp推流网址&#x1f6…

JAVA每日作业day6.24

ok了家人们今天学习了一些关键字,用法和注意事项,静态代码块这些知识,闲话少叙我们一起看看吧。 一,final关键字 1.1 final关键字的概述 final: 不可改变。可以用于修饰类、方法和变量。 类:被修饰的类&a…

Hex文件与BIn文件的关系

单片机中Hex文件与BIn文件的关系 前言 时间:2024/6/24 官方网站:.hex文件解析:Hexadecimal (Intel-Format) File (.hex) Definition 参考博客:实现STM32烧写程序-(3) Hex文件结构-CSDN博客 文件:《Hexfrmt.pdf》描述了…

地信大四,实习重要吗?怎么找实习岗位?

“地信怎么找实习啊?” “实习三个月以上?暑假只有两个月啊” “什么岗位实习比较有用?” “助理类岗位是做什么?” …… 同学们好啊,不知不觉24年已经是过完一小半了,24届毕业的同学们也差不多就要迎来…

JSON.parse(JSON.stringify())导致的响应式属性丢失

console.log("formdata赋值前", this.formdata);console.log("row",row);console.log("row序列化后", JSON.parse(JSON.stringify(row)));this.formdata JSON.parse(JSON.stringify(row)); console.log("formdata赋值后", this.formd…

0803功放3

1.甲乙类互补堆成功放, 理想12v t提供静态偏置,消去交越失真 2.12V Po(12)2/2RL 3.电压并联负反馈 并联减小输入电阻 电压减小输出电阻 4.-Rf/Ri 这个问题是工艺问题引起的,最早用PNP管用的锗管,后面硅工艺成熟后用的就是硅管&…

springboot 网上商城系统-计算机毕业设计源码08789

摘 要 随着互联网趋势的到来,各行各业都在考虑利用互联网将自己推广出去,最好方式就是建立自己的互联网系统,并对其进行维护和管理。在现实运用中,应用软件的工作规则和开发步骤,采用Java技术建设网上商城系统。 本设…

数据库攻防之MongoDB

MongoDB是一个安全性相对较高的非关系型数据库,它的安全问题主要出现在使用、配置过程当中。目前随着MongoDB的流行,它也成为了红队攻防领域不可忽视的数据库。 0x01 MongoDB简介 MongoDB 是一个由C编写、基于分布式文件存储的开源数据库系统&#xff…

java运维交接项目逆向工程

​ 背景 有承接过Java项目运维的团队估计都处理过的一件事情,就是同步生产代码跟本地代码,条件再差些甚至要直接基于生产部署包逆向本地源码工程。而哪怕是原运维团队交接了源码,往往也会历史久远的原因,给了一份不太可靠的源码…

Navicat连接服务器MySQL

Navicat连接服务器MySQL 1. Navicat连接服务器MySQL2. 如何查看MySQL用户名和密码3. 修改MySQL登录密码4. 安装MySQL(Centos7)遇到错误和问题1. error 1045 (28000): access denied for user rootlocalhost (using password:yes) 1. Navicat连接服务器MySQL 选择数据库 直接使用…

记录react实现选择框一二级联动出现的问题

需求:用户在选择第一个选择框的选项后,第二个选择框的选项会根据第一个选择框的选择动态更新。如图所示 出现的问题 一级分类选择之后二级分类没有数据,第二次重新选择一级分类的时候,二级分类就会有值。 第一次点击截图&#x…

提升办公效率的利器—OnlyOffice文档8.1深度体验

目录 1. 前言 2. 安装 3. 基本使用 3.1 文档编辑 3.2 表格处理 3.3 演示文稿 4. 个人评价 5. 总结 1. 前言 在当今信息化时代,办公软件已经成为我们日常工作中不可或缺的工具。无论是撰写文档、处理数据,还是制作演示文稿,办公软件的…

数电大作业-四输入表决器

(PCB和multisim仿真画的有很大问题,没有VCC输入和GND,没学过直接裸画的,之后会好好看视频学习) 应用背景: 四个评委,三个及以上评委同时按下通过按钮时,选手才能通过。否则不通过。…

【Flink metric(3)】chunjun是如何实现脏数据管理的

文章目录 一. 基础逻辑二. DirtyManager1. 初始化2. 收集脏数据并check3. 关闭资源 三. DirtyDataCollector1. 初始化2. 收集脏数据并check3. run:消费脏数据4. 释放资源 四. LogDirtyDataCollector 一. 基础逻辑 脏数据管理模块的基本逻辑是: 当数据消…

适用于轨道交通专用的板卡式网管型工业以太网交换机

是网管型 CompactPCI板卡式冗余环网交换机。前面板带有6个 10/100/1000Base-T(X)M12接口。后面的CPCI接口有 8个10/100/1000Base-T (X) 以太网接口。 是特别为轨道交通行业EN50155标准要求而设计的坚固型交换机。它同时具有以下特性: ● 支持2线以太网距离扩展端口&…

Crypto++ 入门

一、简介 Crypto(也称为CryptoPP、libcrypto或cryptlib)是一个免费的开源C库,提供了多种加密方案。它由Wei Dai开发和维护,广泛应用于需要强大加密安全的各种应用程序中。该库提供了广泛的加密算法和协议的实现,包括&…

【通用技巧】自动获取日志存放路径,无需手动修改配置文件

我们在部署环境的时候,常常会手动修改一些配置文件的存放地址,比如日志的路径、截图的路径,这是因为我们的环境不一样,部署应用的位置也不一样导致的。如果位置写死了,那么就会造成通用性很差,所以我们经常…

明明设置允许跨域,为什么还会出现跨域请求的问题

一、问题 在微服务项目中,明明已经设置允许跨域访问: 为什么还会出现跨域请求问题? 二、为什么 仔细查看错误提示信息:When allowCredentials is true, allowedOrigins cannot contain the special value "*" since t…