达摩院开源多模态对话大模型mPLUG-Owl

news2025/1/11 14:59:30

miniGPT-4的热度至今未减,距离LLaVA的推出也不到半个月,而新的看图聊天模型已经问世了。今天要介绍的模型是一款类似于miniGPT-4和LLaVA的多模态对话生成模型,它的名字叫mPLUG-Owl。
在这里插入图片描述

  • 论文链接:https://arxiv.org/abs/2304.14178
  • 项目链接:https://github.com/X-PLUG/mPLUG-Owl
  • 在线demo:https://modelscope.cn/studios/damo/mPLUG-Owl/summary

mPLUG-Owl展现出强大的图文理解能力:
在这里插入图片描述
以下是本文作者的试用结果:
在这里插入图片描述

本文贡献如下:

  • 提出一种新的模块化的训练多模态大模型的方式
  • 提出测评集OwlEval,以便测试多模态模型在视觉相关任务上的能力
  • 开源模型代码,demo代码以及模型权重文件,方便研究者进行进一步的研究。

mPLUG-Owl

模型架构

在这里插入图片描述

本文提出了 mPLUG-Owl,其整体架构如图2所示。它由视觉基础模型 f V f_V fV、视觉抽象模块 f K f_K fK 以及预训练语言模型 f L f_L fL 组成。视觉抽象模块将较长的、细粒度的图像特征概括为少量可学习的 Token,从而实现对视觉信息的高效建模。生成的视觉 Token 与文本查询一起输入到语言模型中,以生成相应的回复。

训练策略

在这里插入图片描述

如图1所示,目前存在三种主要的训练策略来训练端到端的多模态LLM模型。这些策略分别是:

  1. 在预训练和指令微调阶段冻结视觉模块和语言模块,调整有限的参数,如MiniGPT4。
  2. 冻结视觉模块,训练语言模块,如Kosmos-1。
  3. 在指令微调阶段冻结视觉模块,训练语言模块,如LLaVA。

然而,这些模型都冻结了视觉模块的参数调整,从而限制了不同模态之间的对齐。此外,它们缺乏单模态和多模态数据的共同训练,难以有效地激发大型模型的各种潜能。

为了克服这些限制,mPLUG-Owl采用了一种不同的训练策略。首先,其使用多模态数据训练视觉模块,并冻结语言模块。这样可以让视觉特征贴合语言特征。然后,其使用多模态和单模态数据联合调整语言模块的LoRA参数,同时冻结视觉模块。这样,模型可以学习多样化的单模态和多模态指令,同时具备单模态和多模态多轮对话能力。

实验

定量分析

在这里插入图片描述
在这里插入图片描述

如图3所示,本文在构建的多模态测评集 OwlEval 上对 mPLUG-Owl 进行了人工评估。评价结果分为四个等级 A-D,代表对应的生成质量依次递减。从测评结果中可以看出,mPLUG-Owl 取得了最佳的结果。

为了分别探究 mPLUG-Owl 在单轮对话和多轮对话上的性能,本文还从 OwlEval 中单独抽出了一些单轮对话和一些多轮对话,分别进行人工评估。结果如图4所示。可以发现,mPLUG-Owl 具有较强的多轮对话能力。

消融实验

在这里插入图片描述

为了探究训练策略与指令数据的使用对模型结果的影响,本文还展示了消融实验的结果,如表2所示。
在这里插入图片描述

此外,本文还发现了一个有趣的现象:多模态数据的学习可以提高模型的文本单模态能力。正如表3所示,使用ChatGPT对生成结果进行评分发现,仅调整LoRA参数的mPLUG-Owl在纯文本生成能力上击败了全参数调整的Alpaca。

定性分析

在这里插入图片描述

从图6中可以发现,mPLUG-Owl有较强的多轮对话能力。
在这里插入图片描述

从图7中可以发现,mPLUG-Owl还具有很强的推理能力。
在这里插入图片描述

尽管mPLUG-Owl已具有较强的图文理解能力,但和GPT-4相比仍有一些差距。如图8所示,mPLUG-Owl虽然已经正确理解了笑点,但错误地将VGA插头识别为了USB插头。
在这里插入图片描述

图9展示了一些额外的笑话解释例子。
在这里插入图片描述

如图10所示,虽然在训练阶段并没有进行多图关联数据的训练。mPLUG-Owl展现出了一定的多图关连能力。
在这里插入图片描述

如图11所示,尽管mPLUG-Owl在训练阶段仅接触了英文数据,但其展现出了有趣的多语言能力。这可能是因为mPLUG-Owl中的语言模块采用了支持多语言的LLaMa,从而出现了这一现象。
在这里插入图片描述

尽管mPLUG-Owl没有在带有标注的文档数据上进行训练,但其仍然展现出了一定的文字识别和文档理解能力。测试结果如图12所示。
在这里插入图片描述
在这里插入图片描述

如图13、14所示,mPLUG-Owl在多模态的开放式结尾续写方面展现出了较强的能力。
以下是更多有趣的例子:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

更多开源应用

智能通行团队模型、论文、博文、直播合集,点击此处浏览。

​DamoFD人脸检测0.5G

RetinaFace人脸检测关键点模型

人脸活体检测模型-IR

人脸活体检测模型-RGB

FLCM人脸关键点置信度模型

人脸表情识别模型FER

人脸属性识别模型FairFace

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/505735.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《NFT区块链进阶指南二》Etherscan验证Solidity智能合约(Remix插件验证)

文章目录 一、验证说明二、Etherscan Key三、验证插件四、源码认证4.1 Remix验证(推荐)4.1.1 无构造参数合约验证4.1.2 有构造参数合约验证 4.2 单文件验证(不推荐)4.3 Hardhat部署(按照需要) 五、验证结果…

( 位运算 ) 461. 汉明距离 ——【Leetcode每日一题】

❓461. 汉明距离 难度:简单 两个整数之间的 汉明距离 指的是这两个数字对应二进制位不同的位置的数目。 给你两个整数 x 和 y,计算并返回它们之间的汉明距离。 示例 1: 输入:x 1, y 4 输出:2 解释: 1…

Python 字典修改对应的键值

将 key ‘1’ 的值 ‘1’, ‘3’, ‘5’ 字符,修改为 ‘2’, ‘4’, ‘5’ 。 【学习的细节是欢悦的历程】 Python 官网:https://www.python.org/ Free:大咖免费“圣经”教程《 python 完全自学教程》,不仅仅是基础那么简单………

Cy5.5 NHS ester 氨基反应性荧光染料Cyanine5.5 -NHS

Cy5.5 NHS ester是一种常用的荧光探针,可用于细胞或组织的荧光标记,也可用于蛋白质或核酸的标记。Cy5.5 NHS ester的荧光峰位于近红外区域,波长为675nm,具有较强的荧光强度和较长的荧光寿命,适合于生物分子在体内或组织…

用友nc软件被locked1勒索病毒攻击,解密恢复oracle数据库与用友nchome的配置文件

当用友NC软件被locked1勒索病毒攻击后,对应企业的oracle数据库和nchome配置文件往往也会受到影响。数据库和配置文件是企业运营的基础,一旦受到感染会导致企业无法正常运转。因此,遇到这种情况需要采取正确的方法来解密恢复对应的Oracle数据库…

手机日程提醒在哪里设置?

在每天要处理的各类事项比较多,且繁杂的情况下,想要有条不紊地安排好每个时间段应该完成的事项,提前设置好日程提醒是非常有必要的。 那么手机日程提醒在哪里设置呢?无论你使用的是小米、荣耀、OPPO等安卓手机,还是华为…

学顶教育:2023年中级经济师什么时候报名?

一、2023年中级经济师申请时间 2023年中级经济师报名时间预计7、8月左右开始,考试时间为11月11-12日。 届时考生可关注中国人事考试网发布的公告。 二、中级经济师网上报名需提供以下材料: 1、 准备一张白色背景的近期免冠照片,尺寸为25mm…

如何构建一个高效的企业舆情监测系统?

随着互联网的快速发展,企业需要对自身在网络上的形象和声誉进行全方位的监控和管理,以保证企业的长期稳定发展。构建一个高效的企业舆情监测系统已经成为了当下企业发展的必要手段。本文将通过国内具体案例分析,阐述如何构建一个高效的企业舆…

和月薪5W的聊过后,才发现自己一直在打杂···

前几天和一个朋友聊面试,他说上个月同时拿到了腾讯和阿里的offer,最后选择了阿里。 我了解了下他的面试过程,就一点,不管是阿里还是腾讯的面试,这个级别的程序员,都会考察项目管理能力,并且权重…

SLAM论文速递:SLAM—(2021) 基于目标检测的动态环境下的视觉SLAM—5.05(1)

论文信息 题目: Visual SLAM in dynamic environments based on object detection 基于目标检测的动态环境下的视觉SLAM论文地址: https://www.sciencedirect.com/science/article/pii/S2214914720304402发表期刊: Defence Technology,&…

2019年上半年软件设计师下午试题

试题四(共 15 分) 阅读下列说明和 C 代码,回答问题 1 至 3,将解答写在答题纸的对应栏内 【说明】 n 皇后问题描述为:在一个 n*n 的棋盘上摆放 n 个皇后,要求任意两个皇后不能冲突, 即任意两个皇后不在同一行、同一列或者同一斜…

【Java入门合集】第五章抽象类和接口(一)

博主:命运之光 专栏:JAVA入门 学习目标 1.了解什么是抽象类,什么是接口; 2.掌握抽象类和接口的定义方法; 3.理解接口和抽象类的使用场景; 4.掌握多态的含义和用法; 5.掌握内部类的定义方法和使用…

2023爱分析·数据开发与管理平台市场厂商评估报告

01.研究范围定义 利用多种数据智能技术实现数据驱动的分析与决策,已经成为当前企业数字化转型最重要的目标之一。随着数据来源日益丰富、数据体量快速增长,企业对数据的依赖和挖掘愈发深入,不仅带来数据应用场景、数据用户角色的复杂和多元&…

“STL算法大全“

前言 欢迎来到💖小K💖的💞C专栏💞,本小节是继非质变算法的第二篇CSTL算法,所以本节总结了大量的STL算法,以便大家需要时查阅 文章目录 前言质变算法查找算法(13个)排序和通用算法(14个)删除和替…

k8s nfs运行问题、etcd问题、calico网络问题

服务器重启后nfs运行问题导致服务不能正常重启 解决办法 在每个节点下使用如下命令进行查看nfs是否正常启动 systemctl status nfs 如果没有启动,则使用如下命令启动,保证三个节点下的nfs都正常启动 systemctl start nfs 再次查看nfs是否正常启动 syst…

你真的理解PyTorch中的dimension嘛?

文章目录 Understanding dimensions in PyTorch参考 Understanding dimensions in PyTorch 通过可视化3D张量上的求和过程,为PyTorch维度提供更好的直觉 当我们开始用PyTorch张量做一些基本的运算,比如求和时,对于一维张量来说,…

Mysql事务与存储引擎

目录 一、事务的概念二、事务的特点ACID2.1 原子性2.2 一致性2.3 隔离性2.4 持久性2.5 事务的互相影响 三、Mysql事务隔离级别3.1 查询全局事务隔离界别3.2 查询会话事务隔离级别3.3 设置全局事务隔离级别3.4 设置会话事务隔离级别 四、事务控制语句4.1 开始事务与提交4.2 事务…

不同问题来评测百度、谷歌、ChatGPT、Phind、GPT-4(持续更新)

大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法…

ShardingSphere系列四(Sharding-JDBC内核原理及核心源码解析)

文章目录 1. ShardingSphere内核解析1.1 解析引擎1.2 路由引擎1.3 改写引擎1.4 执行引擎1.5 归并引擎 2. ShardingSphere的SPI扩展点2.1 SPI机制2.2 ShardingSphere中的SPI扩展点2.3 实现自定义主键生成策略 3. ShardingSphere源码 1. ShardingSphere内核解析 ShardingSphere虽…

css布局——flex布局知识点总结(青蛙游戏)

文章目录 学习网址推荐align-items、justify-content合并使用左右分布和垂直end flex-directionrowrow-reversecolumncolumn-reserse横向逆转并水平start垂直列并从末尾排列逆向垂直列并左右排列水平居中,垂直end,横向逆向 order、align-selforder改变排…