微软发布「升级版」多模态大模型 Kosmos-2!新增局部理解能力,解锁实体级交互

news2024/9/21 17:31:40
夕小瑶科技说 原创
作者 | 小戏、ZenMoore

三个多月前,微软亚洲研究院在论文《Language Is Not All You Need: Aligning Perception with Language Models》中发布了一个强大的多模态大模型 Kosmos-1,成功将感知与语言对齐,在 ChatGPT 的多轮对话与推理判断能力的基础上增加了图像识别与理解的能力,将大模型的能力从语言向视觉推进了一小步

而三个多月后,就在昨天,微软亚洲研究院更进一步,推出了 KOSMOS-1 的加强升级版 KOSMOS-2,相较于早期的多模态大模型,KOSMOS-2 解锁了多模态大模型的 Grounding Capability,获得了与输入进行对象级交互的能力,换言之 KOSMOS-2 可以真正将语言与视觉世界相互联系,举一个例子,如下图所示,当我输入一张图片,我希望让模型描述其中有什么时,模型并不仅仅是语言上给出一段文字说一个雪人在烤火,并且我们希望模型可以真正识别到哪里是雪人哪里是火堆,而 KOSMOS-2 则真正具有了这种不仅仅是语言上的描述,并且还可以识别图像之中实体的能力。

某种程度上说,多模态的大模型的这种能力奠定了通往具身 AI(Embodiment AI)的基础,为真正的多模态——语言、感知、行动与世界的大结合提供了启示,再来看一些例子,当用户输入“左眼的 emoji”,KOSMOS-2 可以成功定位到图片之中的心形(1),当输入有多少头牛在图片中,KOSMOS-2 不仅可以回答“Two”,还可以真正的定位到是哪两头牛(2),又如输入一张图片我们询问横幅上是什么字,KOSMOS-2 也能准确识别,并且给出定位(3)。

如果调换一下图片与语言的顺序,输入一张类似龟兔赛跑乌龟与兔子同步冲刺的图片,选中乌龟询问模型为什么 this animal (代指选中的乌龟)并不常见,KOSMOS-2 也可以有理有据的给出解释(4),代表模型可以理解框选的物体以及语言中 this 的指代,再如一个看图说话的场景,输入图片询问 what is it?KOSMOS-2 也成功定位到了画面的主体(5),或者一个框选两瓶饮料询问这两瓶饮料最大的不同,模型也能识别最大的不同在于 label,一个指柠檬,一个指西瓜。

而如果希望来一个全面的分割与解释,来看看 KOSMOS-2 是如何描述图片细节的,如下图所示,KOSMOS-2 不仅成功描述了画面内容,还为每个描述给出了定位

除了这种偏向感性的认识,来自微软的学者们还对 KOSMOS-2 的各项指标做了一系列的实验,实验分为两部分,一部分测评 KOSMOS-2 区别于 KOSMOS-1 的新能力即 Grounding Capability 的表现,另一部分则对比 KOSMOS-1 在通用的语言任务与 Perception-Language 任务展现 KOSMOS-2 的优势

作者采用了两类输入形式对 Grounding 能力进行测试,分别是 Phrase grounding 与 Referring expression comprehension。Phrase grounding 要求模型根据一个或多个短语生成出一组对应的边界框,而 Referring expression comprehension 任务则跟进一步需要模型通过给定的句子找到图片之中的实体,如下图所示:

大模型研究测试传送门

GPT-4能力研究传送门(遇浏览器警告点高级/继续访问即可):
https://gpt4test.com

对比传统微调模型,KOSMOS-2 表现相当亮眼,作为一种 Zero-shot 的模型,在 Phrase grounding 任务中,在指标R@1 上甚至击败了微调模型,且与其他更复杂的模型差距不大。而在 Referring expression comprehension 中,也大幅超过了对标的 Zero-shot 模型,在 RefCOCOg 中也取得了不俗的效果。

同时,作者也希望从对图像的理解出发对模型进行测评,对比之前的多模态大模型只能通过详细的文本描述将图像区域指代给模型的方法,KOSMOS-2 可以使用直接框图的模式,因此论文也希望测评模型是否真正理解了框选出的图像的内容,因此作者团队构建了一个 Referring expression generation 任务,并将 KOSMOS-2 在其中进行了实验:

在这一任务中,KOSMOS-2 的 Zero-shot 能力也让人印象深刻,并且在指标 CIDEr 上也成功击败了微调模型,取得了领先

而对比 KOSMOS-1,KOSMOS-2在一般的语言及视觉-语言多模态任务,包括图像描述(Image Captioning),视觉回答(Visual Question Answering),以及八个标准的语言任务上进行了实验:

对比 KOSMOS-1,KOSMOS-2 在获得了新的能力的同时,性能整体上与 KOSMOS-1 相当,并且在图像描述任务中还获得了一定的提升。在语言能力方面,KOSMOS-2 在 StoryCloze、HellaSwag、Winograd、Winogrande 和 PIQA 之中的性能都与 KOSMOS-1 相当,在 CB 之中有所下降但在 BoolQ 与 COPA 中有所提供,总的而言
KOSMOS-2 还是在获取新的强大能力的同时保持了自身的基础能力

那么,KOSMOS-2 是如何诞生的呢?其中一个核心就是作者构建的 Grounded 的图像文本对数据集,即 Grounded Image-Text Pairs(GRIT)。为了实现 KOSMOS-2 的 Grounding 能力,论文基于COYO-700M 和 LAION-2B 构建了一个 Grounded 图像文本对数据集,并与 KOSMOS-1 中的多模态语料库相结合进行训练。整体数据集构建分为两步,首先生成名词-短语-边界框的数据对,得到基础的训练数据,而为了使得模型获得处理复杂语言描述的能力,论文又将短语扩展为复杂的句子,从而扩展了模型的处理能力,数据集 GRIT 的整体构建过程如下图所示:

在经过两步构建之后,最终 GRIT 获得了大约 9100 万幅图像、1.15 亿个文本段落以及 1.37 亿个相关的边界数据框,在上图的表格中作者对比了 GRIT 与现存的 Grounding 数据集的规模。而基于此构建的 GRIT 数据集,KOSMOS-2 采用与 KOSMOS-1 相同的模型架构和训练目标对模型进行训练,值得注意的是,作者通过“超链接”的数据格式连接位置标记与相应的文本段落,整体训练策略与方式可以参考 KOSMOS-1 的论文。

总结与讨论

无疑,将自然语言真正的链接到视觉世界是实现智能的关键一步,而 KOSMOS-2 则有力的推进了视觉与语言更深层次的联系,实现了对象级感知图像区域的新能力,并且具有不俗的语言理解与图像识别的能力。当具身的 AI 真正进入现实世界,Grounding Capability 将是一个真正的基础能力,KOSMOS-2 的出现一定可以让一窥具身 AI 的真正曙光!

论文题目:

KOSMOS-2: Grounding Multimodal Large Language Models to the World

论文链接:

https://arxiv.org/pdf/2306.14824.pdf

项目链接:

https://aka.ms/GeneralAI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/697903.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C#串口通信从入门到精通(26)——多个串口多个线程发送数据和接收数据

前言 我们在开发串口程序的过程中有时候会遇到多个串口,并且多个串口也需要在多个线程进行操作,本文就来讲解如何实现多个串口在多线程下的安全发送与接收。 1、操作界面与测试过程 我们首先使用虚拟串口助手虚拟COM1、COM2这一对串口;COM3、COM4这一对串口,然后使用代码…

小黑子—MySQL数据库:第二章 - 进阶篇

MySQL数据库入门2.0 MySQL进阶篇1. MySQL体系结构2. 存储引擎2.1 InnoDB 存储引擎2.2 MyISAM 存储引擎2.3 Memory 存储引擎2.4 存储引擎选择2.5 MySQL安装Linux版本 3. 索引3.1 索引结构3.1.1 B tree3.1.2 B tree3.1.3 Hash 3.2 索引分类3.2.1 思考题 3.3 索引语法3.4 SQL性能分…

docker jenkins 安装

使用 Docker 安装 Jenkins 并实现项目自动化部署-阿里云开发者社区 (aliyun.com)https://developer.aliyun.com/article/892646#slide-1运行镜像命令: docker run \ --name jenkins \ -p 8080:8080 \ -p 50000:50000 \ -d \ -v /home/admin/SoftWare/volume/jenkin…

CSS 内容盒子

这章比较重要,会不断更新❗ 文章目录 内容盒子开发者工具的使用border 边框padding 内边距margin 外边距盒子整体尺寸元素默认样式与CSS重置元素分类块级标记行级标记行内块标记 display样式内容溢出裁剪掉溢出部分滚动条 圆角边框 border-radius 内容盒子 提示&am…

云原生之使用Docker部署Firefox浏览器

云原生之使用Docker部署Firefox浏览器 一、Firefox浏览器介绍1.1 Firefox简介1.2 Firefox特点 二、本次实践介绍2.1 本地环境规划2.2 本次实践简介 三、本地环境检查3.1 检查Docker服务状态3.2 检查Docker版本3.3 检查docker compose 版本 四、下载Firefox镜像五、部署Firefox5…

M7615DNA M7455DNF M7675DXF安装网络打印驱动方法

注意:网络驱动安装首先需要把打印机接入到网络设备上,例如接到路由器或者交换机。 1、访问联想官方网站下载驱动或者使用机器随机自带光盘。 2、下载驱动后解压,如图: 3、运行解压后驱动包内的install文件夹里的相应打印机型号&am…

【云原生】软件架构的演进以及各个架构的优缺点

文章目录 1. 什么是软件架构?2. 单机架构3. 应用数据分离架构4. 应用服务集群架构5. 读写分离架构6. 冷热分离架构7.垂直分库架构8. 微服务架构9. 容器编排架构10. 小结 1. 什么是软件架构? 软件架构是指在设计和构建软件系统时,对系统的组织结构、组件、模块、接…

数据竞赛复现代码的 Docker 镜像制作指南

文章目录 一、前言二、主要内容1. Docker Desktop?2. VMware17 CentOS Linux Xshell 三、总结 🍉 CSDN 叶庭云:https://yetingyun.blog.csdn.net/ 一、前言 主要的要求: 通过 Dockerfile 文件创建 Docker 镜像,数据…

Python初学-记录与Java基本语法不同的地方

这里写目录标题 条件与循环If条件语句for循环while循环 数学复数随机数 序列字符串列表与元组一些方法: 字典 条件与循环 If条件语句 在python里基础结构为if,elif,else,并且执行语句是在冒号后面的,Java是if&#x…

(小程序)基于uniapp+vite4+vue3搭建跨端项目|uni-app+uview-plus模板

(小程序)基于uniappvite4vue3搭建跨端项目|uni-appuview-plus模板 版本信息: HBuilderX: 3.8.4 Vite: 4.2.1 uView-Plus: 3.1.31一、创建uniappvue3项目: 点击编辑器的文件 > 新建 > 项目(快捷键CtrlN) 2.选择uni-app项目&…

一点基础、但一直没分清的概念2023/06/28

文章目录 1.export和export default的区别2.npm和cnpm的区别3.npm run dev/serve的区别4.slice、splice和split的区别 1.export和export default的区别 模块功能主要由两个命令构成:export和import。export命令用于规定模块的对外接口,import命令用于输…

【Windows】Windows 如何查看已连接过WiFi的密码

文章目录 方式一、使用命令行查看方式二、使用PowerShell 查看方式三、使用网络适配查看 方式一、使用命令行查看 CtrlShiftEsc 打开任务管理器 打开新建任务对话框 在任务管理器界面,找到第一个菜单文件(F)点击运行新任务(N)。 新建cmd任务 打开(O):cmd     …

SpringBoot+VUE实现文件导入并将其保存到Liunx系统

SpringBootVUE实现文件导入 一、需求二、前端代码实现2.1 显示实现2.1.1 a标签实现2.1.1.1 上传标签实现2.1.1.2 查看标签实现 2.2 上传文件和文件查看界面实现2.2.1 上传文件界面2.2.1.1 上传文件界面展示部分2.2.1.1 上传文件界面逻辑部分 2.2.2 查看文件界面2.2.2.1 查看文件…

一步一步学OAK之二: RGB相机控制

今天我们来实现 RGB相机的控制程序,用来控制彩色相机的曝光、灵敏度、白平衡、亮度/色度降噪、 设备端裁剪、相机触发器等。 目录 Setup 1: 创建文件Setup 2: 安装依赖Setup 3: 导入需要的包Setup 4: 全局变量Setup 5: 定义clamp函数Setup 6: 创建pipelineSetup 7:…

Nginx重写跳转

目录 一、rewrite跳转场景 二、rewrite跳转实现 三、rewrite实际场景 四、rewrite正则表达式 五、rewrite命令语法格式 六、location分类 1、location 大致可以分为三类 2、正则匹配的常用表达式 七、location 优先级 八、rewrite和location比较 九、总结 一、rewri…

9 HAL库驱动框架简述(STM32HAL库)

目录 HAL库驱动框架简述 HAL库外设设计思想 HAL库和Cube MX相结合 一、对外设的封装——句柄结构体 二、外设初始化 初始化结构体 初始化的逻辑 三、外设使用逻辑 通用接口函数 初始化函数 I/O操作函数 控制函数 状态参数 扩展接口函数 总结 补充:H…

如何以最小成本通过CMMI评估?评估调查问卷收集中

CMMI评估,我们经常遇到:评估费用高、时间长,CMMI标准过程无法高效落地,那么我们如何以最小的成本通过CMMI评估? CoCode开发云公益直播课即将开播!直播主题:如何以最小成本通过CMMI评估。为了更好…

怎么把文字生成图片?三款ai绘画生成器分享

如果你对ai绘画工具有一定了解的话,你就会知道:市面上大部分ai绘画工具都是收费。再退一步讲,我们暂且不论收费价格的高低,大多数收费的ai绘画工具也不一定能准确匹配我们的需求。 仅仅在学生党和工作党之间,对ai绘画…

python爬虫增加多线程获取数据

Python爬虫应用领域广泛,并且在数据爬取领域处于霸主位置,并且拥有很多性能好的框架,像Scrapy、Request、BeautifuSoap、urlib等框架可以实现爬行自如的功能,只要有能爬取的数据,Python爬虫均可实现。数据信息采集离不…

windows10教育版过期,记录一下重装windows11专业工作站。报错“若要在此计算机上安装windows,请重新启动安装”

准确的来说是重装 windows10或者windows11都有问题,而且卡了很久;最初的问题是 第一步解决问题的方法: 1、修改注册文件: 有些不显示鼠标,记住鼠标按住拖动,这样可以看见矩形的样子,可以知道大…