基于LLMs的多模态大模型(PALM-E,ArtGPT-4,VPGTrans )

news2024/12/24 14:21:34

这个系列已经更文一些了,如果有新的文章会继续补充:

  • 基于LLMs的多模态大模型(Visual ChatGPT,PICa,MM-REACT,MAGIC)
  • 基于LLMs的多模态大模型(Flamingo, BLIP-2,KOSMOS-1)
  • 基于LLMs的多模态大模型(MiniGPT-4,LLaVA,mPLUG-Owl,InstuctBLIP,X-LLM)

本篇文章先放一些比较杂的延伸和应用的文章,后面形成分支了再单独开,目前主要是PALM-E,ArtGPT-4,VPGTrans 等。


Pathways Language Model with Embodied
PALM-E是博主很关心的文章之一,它是一个562B的视觉语言模型(PaLM-540B + ViT-22B),有个是目前全球最大的视觉语言模型了。同时它将集成到机器人控制中,即多模态具身智能,这将为目前已经很强大的模型们加上机器人的手臂。关于多模态具身智能可以看博主以往的博文,不再赘述:传送门:具身智能综述和应用(Embodied AI)。

在这里插入图片描述
模型结构如下图中间部分所示,PaLM-E主要是将连续的具身观察,如图像、状态估计或其他传感器模态一起输入到语言模型中。因此模型的输入会变成:

  • Give <emb> ... <img> A: How to grasp blue block?

这里对多模态输入的处理跟前几篇博文中的方法类似,也是什么模态用什么编码器先token化,然后再把大家拼在一起,然后用PaLM-E来当解码器,去自回归地生成文本。生成的文本便可以去执行动作,

  • A: First. grasp yellow block and ...

然后与真实世界做交互。
在这里插入图片描述
从论文结果上看,PaLM-E完全支持zero-shot和cot。不过目前还只放出了paper和demo,具体的细节暂时不太清楚。但至少PALM-E向我们展示了,多模态LMs+world grounding是真的很有前景(pr:欢迎感兴趣的朋友私信我一起来做)。

  • paper:PaLM-E: An Embodied Multimodal Language Model
  • arxiv:https://arxiv.org/abs/2303.03378v1
  • github:https://palm-e.github.io

ArtGPT-4: Artistic Vision-Language Understanding with Adapter-enhanced MiniGPT-4
ArtGPT-4是一类延伸模型,其主要基于MiniGPT-4,然后垂类解决它在艺术图片理解方面的问题。

模型结构如下图所示,主要通过Adapter-enhanced MiniGPT-4的策略做adapter tuning。如图主要对Vicuna的线性层和激活函数做tuning,以使模型能够更好地捕捉复杂的细节并理解艺术图像的含义,一个vicuna backbone可以被改装成如下结构:
在这里插入图片描述

训练数据集来自于ChatGPT创建的高质量图像文本对,总共 3500 对的高质量数据集。然后在Tesla A100 设备上使用大约 200 GB 的图像文本对训练2 小时。它除了改进图像理解之外,还能够生成视觉代码,包括美观的 HTML/CSS 网页等,具有更多的艺术天赋。

arxiv:https://arxiv.org/pdf/2305.07490.pdf
github:https://github.com/DLYuanGod/ArtGPT-4


VPGTrans: Transfer Visual Prompt Generator across LLMs
目前从头开始训练视觉-语言模型(VL-LLM)需要耗费大量资源,因此在前一篇博文中也基本都是把现有的语言模型和视觉模型拼接起来,这种方法虽然减少了训练消耗,但linear layers(projector)或者视觉模块(VPG)也往往是需要训练的。因此这篇文章的VPGTrans主要是一个提效方法,可以对现有的模型进行迁移来得到VL-LLM。相比于从头训练视觉模块,该方法可以将 BLIP-2 FlanT5-XXL 的训练开销从 19000+ 人民币缩减到不到 1000 元,如下图所示。
在这里插入图片描述

VPGTrans主要探索了两种类型的VPG的迁移:

  • 跨LLM大小迁移(TaS):比如从OPT-2.7B到OPT-6.7B,其意义在于可以先在小的LLM上调参,然后再扩展到大LLM。
  • 跨LLM类型迁移(TaT):比如从OPT到FlanT5,其意义在于可以快速切换不同的LLMs。

然后作者们做了一些探索实验,有一些有趣的发现:

  • 直接继承VPG可以加速收敛,但加速有限+会掉点。
  • 先warm-up projector 做3 epoch可以防止掉点+加速收敛。
  • 词向量转化器初始化可以加速3 epoch到2 eopch,这个是很有意思的。作者们认为VPG是通过把图像转化为LLM可以理解的soft prompt,而soft prompt和词向量其实是非常相似的,因此作者们训练了一个图片到图片的词向量转化器(一个线性层),然后利用它来做projector的初始化。
  • 5倍超大学习率可以加速收敛(主要是projector参数不复杂不容易崩)。

因此VPGTrans最终的训练结构如下图所示,
在这里插入图片描述
该方法同样分为两个阶段:

  • 第一阶段:使用词向量转化器和原有projector进行融合作为新projector的初始化,然后用5倍学习率训练新projector 1 epoch。
  • 第二阶段:直接正常训练VPG和projector。

demo:https://vpgtrans.github.io/
paper:https://arxiv.org/pdf/2305.01278.pdf
code:https://github.com/VPGTrans/VPGTrans

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/571996.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2023年DAMA-CDGA/CDGP认证合肥/厦门/长春/深圳可以报名

DAMA认证为数据管理专业人士提供职业目标晋升规划&#xff0c;彰显了职业发展里程碑及发展阶梯定义&#xff0c;帮助数据管理从业人士获得企业数字化转型战略下的必备职业能力&#xff0c;促进开展工作实践应用及实际问题解决&#xff0c;形成企业所需的新数字经济下的核心职业…

【MySQL】实验十 E-R图

文章目录 1. 学校2. 院系3. 图书馆4. 舰队5. 工厂6. 网购7. 公司1. 学校 设有如下实体: 班主任:工号、姓名、电话 班级:班号、专业、毕业总学分 学生:学号、姓名、性别、年龄 课程:课程号、课程名 上述实体中存在如下联系: (1)一个班主任管理一个班级,一个班级由一个…

小兔鲜--项目总结 2

目录 登录-表单校验实现 表单如何进行校验 表单校验步骤 自定义校验规则 整个表单的内容验证 登录-基础登录业务实现 登录业务流程 Pinia管理用户数据 如何使用Pinia管理数据 关键代码总结 登录-Pinia用户数据持久化 持久化用户数据说明 ​编辑关键步骤总结和插件运行机…

基于 JMeter 实现 WEB 项目性能测试,环境搭建与测试用例编写

目录 前言&#xff1a; 一、JDK 安装 二、Tomcat 安装 三、Redis 安装 四、数据库安装 五、WEB 项目搭建 六、性能测试项目搭建 七、总结 前言&#xff1a; 性能测试是软件开发中必不可少的一环&#xff0c;它可以帮助开发者提高程序的稳定性&#xff0c;优化性能&…

【产品经理】产品体验报告的思路

&#xff08;一&#xff09;产品概述 &#xff08;1&#xff09;体验环境 对于app来说&#xff0c;无非就是体验产品所用的机型&#xff0c;系统&#xff0c;然后app版本&#xff0c;体验时间&#xff0c;体验人等方面的信息。 &#xff08;2&#xff09;产品的概括或简介说…

基于LLMs的多模态大模型(Visual ChatGPT,PICa,MM-REACT,MAGIC)

当LLMs已经拥有了极强的对话能力后&#xff0c;如何使其拥有视觉和语音等多模态能力是紧接而来的热点&#xff08;虽然GPT4已经有了&#xff09;&#xff0c;这个系列将不定期更新一些利用LLMs做多模态任务的文章。 直觉上&#xff0c;如果直接训练一个类似chatgpt架构的多模态…

7种PCB走线方式

01电源布局布线相关 数字电路很多时候需要的电流是不连续的&#xff0c;所以对一些高速器件就会产生浪涌电流。 如果电源走线很长&#xff0c;则由于浪涌电流的存在进而会导致高频噪声&#xff0c;而此高频噪声会引入到其他信号中去。 而在高速电路中必然会存在寄生电感和寄…

SSM 如何使用 ShardingSphere 实现数据库分库分表

SSM 如何使用 ShardingSphere 实现数据库分库分表 简介 在大规模数据应用场景下&#xff0c;单一数据库可能无法承载高并发的读写操作。为了解决这个问题&#xff0c;一种常见的方式是使用数据库分库分表技术。ShardingSphere 是一个支持多种关系型数据库的分布式数据库中间件…

带您看懂全国产串口服务器!如何使用一看便知

不可否认&#xff0c;目前工业现场仍然会有很多串口设备的存在&#xff0c;对于这些串口设备&#xff0c;如果想要联网&#xff0c;就必须要转换成网络接口&#xff0c;这时候就会用到全国产串口服务器。 全国产串口服务器提供串口转网络功能&#xff0c;能够将RS-232/485/422串…

盐城北大青鸟“北大青鸟杯”IT精英挑战赛设中心评审隆重开赛

为积极响应北大青鸟总部开展第十届“北大青鸟杯”全国IT精英挑战赛的号召&#xff0c;成就学员们的IT梦想&#xff0c;“北大青鸟杯”IT精英挑战赛&#xff08;设计组&#xff09;盐城卓晨中心评审于2023年5月25日下午1:00在人才大厦306教室正式开赛&#xff01; ​ 赛前&a…

【状态估计】基于随机方法优化PMU优化配置(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

报表控件FastReport使用指南——使用NuGet包创建PDF文档

FastReport 是功能齐全的报表控件&#xff0c;可以帮助开发者可以快速并高效地为.NET&#xff0c;VCL&#xff0c;COM&#xff0c;ActiveX应用程序添加报表支持&#xff0c;由于其独特的编程原则&#xff0c;现在已经成为了Delphi平台最优秀的报表控件&#xff0c;支持将编程开…

低代码平台简介(10家国产化低代码平台详细介绍)

低代码平台&#xff1a;一个号称能在几分钟的时间里开发一套企业内部都可使用的系统开发工具。 本人曾做过一个测试&#xff0c;2人&#xff0c;历时8小时&#xff0c;用低代码平台成功搭建出一套“客户管理系统”。该系统所需要的15个子模块与40个界面。同样的功能如果用传统编…

什么是 sudo,为什么它如此重要?

在当今的技术世界中&#xff0c;Linux 操作系统广泛应用于各种环境&#xff0c;包括个人计算机、服务器和嵌入式设备。作为一种强大的开源操作系统&#xff0c;Linux 提供了丰富的安全功能&#xff0c;以保护系统和用户的数据安全。在 Linux 安全领域中&#xff0c;sudo 是一项…

接口测试的请求和响应

接口测试的请求和响应 在软件开发中&#xff0c;接口测试是必不可少的一环节。接口测试主要涉及到测试请求和响应的过程。请求是指客户端向服务器发送的一些指令或数据&#xff0c;而响应则是服务器对这些请求做出的回应。 请求通常包括请求方法、请求头以及请求体。请求方法有…

信息安全服务资质认证CCRC证书‖中国网络安全审查技术与认证中心

随着CCRC信息安全服务资质持证企业的增加&#xff0c;很多企业看着自己的同行纷纷获的CCRC证书&#xff0c;自身也想进行申报&#xff0c;但由于之前没有做过了解&#xff0c;像个无头苍蝇一样&#xff0c;所以对该资质申报的条件要求、申报的好处又不是那么清楚&#xff0c;接…

重塑DeFi:深入了解Solaris Network

Solaris Network已经在充满活力的去中心化金融&#xff08;DeFi&#xff09;领域崭露头角&#xff0c;成为一家颠覆性的平台&#xff0c;使用户能够创造和交易合成资产。凭借其致力于多链集成、创新功能和以社区为中心的方法&#xff0c;Solaris Network正在改变DeFi的格局&…

【PXIE301-203】基于PXIE总线的4路Cameralink Base图像模拟源

产品概述 PXIE301-203一款基于PXI Express总线的高性能4路CameraLink Base图像模拟源&#xff0c;板卡采用Xilinx的高性能Kintex-7系列FPGA作为主控制器&#xff0c;实现PCI Express总线接口的转换&#xff0c;图像数据的缓存&#xff0c;以及CameraLink图像时序的控制。该板卡…

记录::opencv编译,cmake编译vs动态库

环境&#xff1a;window7&#xff0c;cmake-gui&#xff0c;vs2013 opencv&#xff1a;3.4.4 opencv_contrib&#xff1a;3.4.4&#xff08;nonfree模块&#xff0c;主要为了用sift&#xff09; 链接&#xff1a;https://pan.baidu.com/s/1OXg2IRaxTLTVqM2PVR2ZFA 提取码&a…

2023年企业网盘推荐:实测好用的工具

在数字化时代&#xff0c;企业内部的文件、资料等信息量越来越大。如何高效地管理和共享这些数据&#xff0c;成为企业管理者亟需解决的问题。企业网盘作为一种新型的信息技术工具&#xff0c;以其方便快捷、安全可靠等优点&#xff0c;受到越来越多企业的青睐。 企业网盘工具的…