微软发布多模态版ChatGPT!取名“宇宙一代”

news2024/11/26 18:22:47

41a266270814a4b179f93c3d47200a8e.jpeg

文|CoCo酱

Ludwig Wittgenstein曾说过:“我语言的局限,即是我世界的局限”。

大型语言模型(LLM)已成功地作为各种自然语言任务的通用接口,只要我们能够将输入和输出转换为文本,就可以将基于LLM的接口适应任务。尽管在自然语言处理中取得了成功的应用,但仍然难以将LLM用于处理多模态数据,例如图像和音频。

本论文提出了Kosmos-1,一种多模态大语言模型(MLLM),Kosmos-1可以感知常见模态,遵循指令和上下文学习。其目标是将视觉感知与LLM对齐,以便模型能够“看”和“说”

Kosmos和Cosmos同音,Cosmos是“宇宙”。

多模态感知能力对于LLMs至关重要,因为它可以使LLMs获得文本描述之外的常识知识,解锁多模态输入大大扩展了语言模型的应用范围,涉及多模态机器学习,文档智能和机器人等高价值领域。

概括

作者使用大规模的多模态语料库对KOSMOS-1进行了从零开始的训练,包括任意交错的文本和图像、图像标题对和文本数据。作者在各种任务上进行了评估,包括零样本、少样本和多模态思维链提示,而且不需要任何梯度更新或微调

baa61177b23334c8f14bb02ba18c8776.png

除了各种自然语言任务外,KOSMOS-1模型本身还可以处理广泛的感知密集型任务,包括视觉对话、视觉解释、视觉问答、图像标注、简单数学方程等,

MLLMs具备感知能力后,可以直接从屏幕读取信息或从收据中提取数字,实现多个API的统一。

看题作答,轻松搞定~不仅能“看懂”图像,还能对答如流,并且能进行一定的数学计算。6f601da1d69b8927d1fb8dfaf14c090f.png

甚至,看图进行连续对话功能也实现了。977e82c5bcfcc2d335bb3ca9e89efe2a.png

作者还发现,MLLMs可以从跨模态转移中受益,即从语言到多模态和从多模态到语言的知识转移。此外,作者还介绍了一个Raven IQ测试数据集,用于诊断MLLMs的非语言推理能力。

Multimodal Large Language Model (MLLM)

KKOSMOS-1是基于Transformer语言模型,通过自回归方式学习生成文本。除了文本外,其他模态转成embedding后喂给模型。该模型在多模态语料库上进行训练,包括单模态数据、交叉模态配对数据。

该框架可以灵活处理各种数据类型,只要我们可以将输入表示为向量即可。MLLMs完美地融合了两大优势:1、语言模型自然地继承了上下文学习和指令跟随的能力。2、通过在多模态语料库上训练,补齐了语言模型的多模态感知能力。

MLLMs作为通用接口,可以处理自然语言和多模态输入。对于输入格式,我们使用 <s>和</s> 来表示序列的开始和结束。特殊标记<image>和</image>表示图像嵌入的开始和结束。例如,“<s> document </s>”是一个文本输入,“<s> paragraph <image> Image Embedding </image> paragraph </s>”是一个图像文本输入。获得输入序列后,将它们输入到Transfomer的解码器中,使用Softmax分类器来生成下一个预测。

我们使用MAGNETO(Transformer的变体)作为模型的主要结构,因为它训练稳定且非常适合多模态场景,它为每个子层引入额外的layernorm,且理论上拥有更好的初始化方法。为了更好地进行长序列建模,采用了名为 XPOS 的相对位置编码技术。该方法能够更好地适应不同长度的训练和测试序列,并且能够优化注意力分辨率,从而能够更精确地捕捉位置信息。

训练数据

训练数据集包括文本语料库、图像标题对和交错的图像和文本数据。

文本语料库我们用The Pile和Common Crawl (CC)训练我们的模型。The Pile是一个用于训练大规模语言模型的大型英文文本数据集,排除了来自GitHub、arXiv、Stack Exchange和PubMed Central的数据。还使用了Common Crawl快照(2020-50和2021-04)数据集、CC-Stories和RealNews数据集。已经去重并且过滤掉了下游任务数据。

图像标题对数据集,包括英文LAION-2B、LAION-400M、COYO-700M 和Conceptual Captions。图像文本数据是从Common Crawl快照中收集的多模态数据,这是一个公开可用的网页存档,从原始2B网页中选择约71M网页,从网页的HTML中提取文本和图像。对于每个文档,我们将图像的数量限制为五个,以减少噪声和冗余。

模型细节

KKOSMOS-1模型有24层,32个注意力头,Hidden size是2048,FFN隐层是8192维,大约有1.3B个参数,使用Magneto的初始化。为了更快的收敛,图像编码模型用CLIP ViT-L/14模型。我们在训练期间冻结除最后一层外的CLIP模型参数。所以KOSMOS-1的总参数数量约为1.6B。

Batchsize大小设置为120万个token(文本语料库500万,图像标题对500万,来自文本图像交错数据200万),训练了300k步,过了约3600亿个token。

为了更好地将KOSMOS-1与人类指令对齐,我们进行语言指令微调。具体来说,我们继续使用(指令,输入和输出)格式的指令数据对模型进行训练。指令数据是纯语言的,与训练语料混合在一起。将Unnatural Instructions和FLANv2 结合起来作为我们的指令数据集。Unnatural Instructions是使用大型语言模型为各种自然语言处理任务生成指令的数据集,有68,478个指令输入输出三元组。FLANv2是一系列涵盖各种类型语言理解任务的数据集,例如阅读理解,常识推理和封闭式问答。我们从FLANv2中随机选择54k个指令示例来增强我们的指令数据集。

实验效果

我们评估了KOSMOS-1在各种类型的任务上的表现,包括:

• 语言任务:语言理解、语言生成、无OCR文本分类 

• 跨模态转移:常识推理

• 非语言推理 :智商测试 

• 视觉-语言任务:图像标注、视觉问答、网页问答 

• 视觉任务:zero-shot图像分类、带描述的zero-shot图像分类

非语言推理能力测试

非语言推理能力通常反映了个人的智商 (IQ)。模型在没有明确微调的情况下进行零样本非语言推理。RavenIQ测试类似于语言模型的上下文学习,区别在于上下文是非语言的还是语言的。为了推断出答案,模型必须识别抽象概念并识别给定图像的潜在模式。因此,IQ任务是衡量非语言情境学习能力的一个很好的测试平台。图4显示了一个示例,给定在 3 × 3 矩阵中呈现的八张图像,任务是从六个相似的候选者中识别出正确图形。

1c7ce1397d3f05b02730715f79414f5d.png f9ff34ad7132a9ef97edd3b373d28f2a.png

多模态思维链提示测试

思维链是模型发展到一定智能水平才突现出的高级能力,思维链提示允许大型语言模型生成一系列推理步骤并将复杂问题分解为多个子步骤解决。受思维链提示的启发,我们研究了KOSMOS-1的多模态思维链提示能力。

将感知语言任务分解为两个步骤:给定图像,使用提示引导模型生成描述,然后再进行问答。下面一个例子中,如果直接提问,模型给出了错误答案,但如果先提示模型:请描述下图片里的内容,然后再提问就会得到正确答案了。

b5647fa0d570c245c7876a98959a2aa6.png

视觉-语言任务测试

在zero-shot设置下,KOSMOS-1在两个图像标注数据集上取得了显着的效果。2f74a216856ad4427d8ce18c2f1a8559.pngk=2,4,8的few-shot设置下的指标4fc6ca8b82ec1f8f9227adcf57c2cf8a.png

作者还测试了图像分类、视觉问答等多个任务上的模型表现,KOSMOS-1都有显著的提升。具体任务测试有兴趣可以去看下原文。

跨模态迁移

跨模态可转移性允许模型从一种模态(如文本、图像、音频等)中学习,并将知识转移到其他模态。这种技能可以使模型在不同模态下执行各种任务。我们评估了KOSMOS-1在几个基准测试中的跨模型可转移性。

从语言到多模态的转移:仅语言指令调整

为了评估仅用语言指令调整的效果,我们使用了四个数据集进行消融研究:COCO、Flickr30k、VQAv2和VizWiz。这些数据集包括图像标注和视觉问答。评估指标为:COCO/Flickr30k的CIDEr分数和VQAv2/VizWiz的VQA准确性。6cbfb5a06de7088f863e6f91c77521d2.png

实验表明,仅语言指令调整可以显着提高模型在不同模态下的指令跟随能力。结果还表明,我们的模型可以将指令跟随能力从语言转移到其他模态。

从多模态到语言的转移:视觉常识推理

视觉常识推理任务需要理解现实世界中日常物品的属性,如颜色、大小和形状。这些任务对于语言模型来说是具有挑战性的,因为它们可能需要更多有关物体属性的信息,而这些信息在文本中并不容易获取。为了研究视觉常识能力,我们比较了KOSMOS-1和LLM在视觉常识推理任务上的零样本性能,使用纯文本作为输入,不包含任何图像。5fd740eaca66527ac9a9f3332a4b8919.png

通过对比,结果表明KOSMOS-1在三个数据集上的表现均优于LLM,相对大小数据集上提高了1.5%,记忆颜色数据集上提高了14.7%,颜色术语数据集上提高了9.7%。这表明KOSMOS-1可以从视觉知识中获益,完成相应的视觉常识推理任务,而LLM只能依靠文本知识和线索来回答视觉常识问题,这限制了其推理物体属性的能力。

结论

语言和多模态感知的大融合是实现通用人工智能的关键一步。本文提出了KOSMOS-1,一个多模态大型语言模型,它可以感知多种模态,遵循指令,并进行上下文学习。通过在多模态语料库上进行训练,实现从LLM到MLLM的转变。未来可能的工作包括提高KOSMOS-1的模型规模,并将语音能力整合到其中。此外,KOSMOS-1可以作为多模态学习的统一接口,例如,可以使用指令和示例来控制文本到图像的生成。

81240b8ba86ac8d0859ef14a8d949d8b.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/384618.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

爱普生L805开机后所有灯一起闪烁不打印

故障现象: 爱普生L805彩色喷墨打印机开机后所有灯全闪烁,不能打印了?(电源灯、WiFi灯闪绿色,状态 灯、墨水灯、缺纸灯闪红色;) </

【正点原子FPGA连载】第二十二章IP封装与接口定义实验 摘自【正点原子】DFZU2EG_4EV MPSoC之嵌入式Vitis开发指南

1&#xff09;实验平台&#xff1a;正点原子MPSoC开发板 2&#xff09;平台购买地址&#xff1a;https://detail.tmall.com/item.htm?id692450874670 3&#xff09;全套实验源码手册视频下载地址&#xff1a; http://www.openedv.com/thread-340252-1-1.html 第二十二章IP封装…

大话数据结构-树

1 概述 树&#xff08;Tree&#xff09;是n&#xff08;n > 0&#xff09;个结点的有限集。n 0时称为空树。在任意一棵非空树中&#xff1a;   (1) 有且仅有一个特定的称为根&#xff08;root&#xff09;的结点&#xff1b;   (2) 当n > 1时&#xff0c;其余结点可…

(Fabric 超级账本学习【1】)Fabcar网络调用Fabric-Java-SDK进行简单开发 FabCar

Fabric 2.3网络调用Fabric-Java-SDK进行简单开发 FabCar 1、先进入fabcar文件夹 2、启动网络 ./startFabric.sh down 启动成功 3、查看启动情况 docker 镜像 4、新建SpringBoot工程项目。导入如下Fabric依赖包 <dependency><groupId>org.hyperledger.fabric…

【LeetCode】剑指 Offer(14)

目录 题目&#xff1a;剑指 Offer 32 - I. 从上到下打印二叉树 - 力扣&#xff08;Leetcode&#xff09; 题目的接口&#xff1a; 解题思路&#xff1a; 代码&#xff1a; 过啦&#xff01;&#xff01;&#xff01; 写在最后&#xff1a; 题目&#xff1a;剑指 Offer 32…

缓冲器/驱动器/收发器IC

一、前言 记录学习未使用过的IC&#xff0c;开发使用新的IC&#xff0c;就是玩 本编文章主要介绍缓冲器/驱动器/收发器 目录一、前言二、环境三、正文1.SN74HCT245NSR2.四、结语二、环境 FPGA或MCU低驱动能力引脚 单向长距离信号 三、正文 1.SN74HCT245NSR DIR高电平&#…

适合小团队协作、任务管理、计划和进度跟踪的项目任务管理工具有哪些?

适合小团队协作、任务管理、计划和进度跟踪的项目任务管理工具有哪些? 大家可以参考这个模板&#xff1a;http://s.fanruan.com/irhj8管理项目归根结底在管理人、物&#xff0c;扩展来说便是&#xff1a; 人&#xff1a;员工能力、组织机制&#xff1b; 物&#xff1a;项目内…

01-前端-htmlcss

文章目录HTML&CSS1&#xff0c;HTML1.1 介绍1.2 快速入门1.3 基础标签1.3.1 标题标签1.3.2 hr标签1.3.3 字体标签1.3.4 换行标签1.3.5 段落标签1.3.6 加粗、斜体、下划线标签1.3.7 居中标签1.3.8 案例1.4 图片、音频、视频标签1.5 超链接标签1.6 列表标签1.7 表格标签1.8 布…

charts BarChartView柱状图宽度自适应

ios-charts是一个强大的图表框架&#xff0c;MPAndroidChart在 iOS 上的移植。GitHub地址:https://github.com/danielgindi/Charts.git有一些基础的图标框架来展示,但是实际项目中还是会有所改动的针对charts 的BarChartDataEntry和BarChartRenderer进行了部分修改添加了barWid…

联想配对法

一、课程目的1.掌握联想配对法2.实战应用训练二、发挥咱们的想象力使两者发生关系&#xff0c;让图像动起来三、练习&#xff08;1&#xff09;老鼠飞机我们可以想象老鼠开飞机或者飞机撞倒了老鼠&#xff08;2&#xff09;建立联接的方法要点外置法:把一个图像放在另一个外面旋…

【C/C++语言】刷题|双指针|数组|单链表

主页&#xff1a;114514的代码大冒 qq:2188956112&#xff08;欢迎小伙伴呀hi✿(。◕ᴗ◕。)✿ &#xff09; Gitee&#xff1a;庄嘉豪 (zhuang-jiahaoxxx) - Gitee.com 文章目录 目录 文章目录 前言 一、删除有序数组中的重复项 二、合并两个有序数组 三&#xff0c;移除…

QT中多项目管理问题,同时构建多个项目

QT中多项目管理问题 0.前言 在编写项目的过程中&#xff0c;当项目比较多时&#xff0c;需要进行统一的管理&#xff0c;这时可以使用qt的子项目管理的方式。 参考&#xff1a; QT 创建多个子项目&#xff0c;以及调用&#xff1a;https://blog.csdn.net/chen1231985111/art…

Docker--(四)--搭建私有仓库(registry、harbor)

私有仓库----registry官方提供registry仓库管理&#xff08;推送、删除、下载&#xff09;私有仓库----harbor私有镜像仓库1.私有仓库----registry官方提供 Docker hub官方已提供容器镜像registry,用于搭建私有仓库 1.1 镜像拉取、运行、查看信息、测试 (一) 拉取镜像 # dock…

企业级分布式数据库 - GaussDB介绍

目录 什么是GaussDB 简介 应用场景 产品架构 产品优势 安全 责任共担 身份认证与访问控制 数据保护技术 审计与日志 ​​​​​​​监控安全风险 ​​​​​​​故障恢复 ​​​​​​​认证证书 GaussDB与其他服务的关系 约束与限制 计费模式 什么是GaussDB …

如何在openKylin操作系统上搭建Qt开发环境

一、获取linux系统下的Qt安装包 Qt官网下载地址&#xff1a;https://download.qt.io 国内镜像下载地址&#xff1a;https://mirrors.cloud.tencent.com/qt/ 。建议用镜像下载速度快。集成安装包在 official_releases/qt 目录下&#xff0c;新地址&#xff1a;https://downloa…

避免重启应用,10倍提升本地研发效率

谁在消耗我们的开发时间&#xff1f; 修改一点代码要重启项目&#xff0c;每次都要浪费很多时间进行方法调试时&#xff0c;要么需要Http请求&#xff0c;要么写个单元测试&#xff0c;非常烦 思考&#xff1a;有没有可能实现热部署随意测试任何一个方法&#xff1f; 热部署 …

开源计划 - 用海量设备汇聚成一台巨型处理器的开源项目

巨型处理器特性1. 由各种能够联网的普通智能设备组成2. 模拟硬件3. 存储器即处理器4. 数据处理的匿名化在2016年的时候&#xff0c;曾经设想过一种处理器。运行在海量的浏览器之上&#xff0c;可用于处理大规模的GPS地理定位距离的运算。后来开始逐渐做了新的延伸&#xff0c;打…

SpringCloud之服务拆分和实现远程调用案例

服务拆分对单体架构项目来说&#xff1a;简单方便&#xff0c;高度耦合&#xff0c;扩展性差&#xff0c;适合小型项目。而对于分布式架构来说&#xff1a;低耦合&#xff0c;扩展性好&#xff0c;但架构复杂&#xff0c;难度大。微服务就是一种良好的分布式架构方案&#xff1…

Git-学习笔记01【Git简介及安装使用】

Java后端 学习路线 笔记汇总表【黑马-传智播客】Git-学习笔记01【Git简介及安装使用】Git-学习笔记02【Git连接远程仓库】Git-学习笔记03【Git分支】目录 01-git的历史 02-git和svn的对比 03-git的安装 04-向本地仓库中添加文件 05-修改文件内容并提交 06-删除本地仓库中…

SpringCloud全家桶— — 【1】eureka、ribbon、nacos、feign、gateway

SpringCloud全家桶— — 组件搭建 1 Eureka 1.1 Eureka-server 创建eureka-server的SpringBoot项目 ①导入依赖 <dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-starter-netflix-eureka-server</artifactId…