苹果大模型MM1强势来袭!300亿参数所向披靡

news2024/12/24 8:27:45

功能展示

在这里插入图片描述

左图问:图片中有多少个苹果?

苹果大模型答:7个

在这里插入图片描述
左图问:这些州中哪一个是最北的?

回答:Delaware

追问:其他的州是什么?

回答:Arizona, Oklahoma, North Carolina

右图问:在这个食物网中,哪一个生物是生产者?

回答:浆果和花朵、草类、种子

在这里插入图片描述
难度升级

左图问:你能找到灰色的猫旁边的红球吗?

MM1并没有上当,直接回答:灰猫旁边没有红球。

右图也是一样的方式,MM1轻松回答。

在这里插入图片描述
左图问:看到下面的图片后,人们可能会产生怎样的情感和反应?

回答:目睹这张图片时,人们可能会感受到一种敬畏、着迷和宁静的混合情绪。飞机舷窗展示出飞机机翼和广阔的雪山脉的壮丽景色,给人一种宁静和大自然美丽的感觉。雪山的壮观、有序的景观和雪峰与清澈的蓝天形成鲜明对比,唤起了对自然界的敬畏和赞赏之情。这个景象还提供了一种独特的世界观,人们可能不常体验到,因此引发了好奇心和兴奋。此外,这张图片也会带来宁静和平静的感觉,因为所展示的景观是未经触动和原始的。

右图问:看到下面的图片后,人们可能会产生怎样的情感和反应?

回答:这张图片展示了一个黑暗的楼梯间,氛围诡异,可能会在人们心中引起不安、恐惧或好奇等情感。一些人可能会选择完全避开这个楼梯间,而其他人可能会被神秘的氛围所吸引,决定进一步探索。楼梯间的黑暗和阴影可能会影响人们的感知,引发他们的想象,可能让他们觉得有人或某种东西潜伏在阴影中。总的来说,这张图片可能会引起一系列的情感反应,从不安到着迷不等,这取决于每个人的性格和心态。

在这里插入图片描述

左图问:对于这两张图片中的每一张,请评论水是否咸。

回答:在第一张图片中,有几艘船漂浮在一片水域上。根据船只的存在,这很可能是一个港口,而且水很可能是咸的,因为大多数港口通常都靠近海洋。然而,没有更多信息,无法确认水的咸度。
在第二张图片中,各种非洲动物,包括大象和长颈鹿,聚集在一个干草田里的水洼周围。这片水域很可能是淡水,因为动物需要饮用淡水。大量动物从水洼中喝水的存在证实了这种水对它们的生存至关重要,并且它们极不可能饮用咸水。

右图问:哪张图片展示了更健康的餐点?

回答:在给定的图片中,展示了更健康的餐点是那张包含西兰花和一碗蔬菜的,还有一盘肉类的图片。添加像西兰花和碗里的蔬菜这样的蔬菜提供了必要的营养、维生素和纤维,有助于保持均衡和更健康的饮食。而有各种配料的比萨和啤酒可能会被认为是不太健康的,因为它可能含有更多的卡路里、脂肪和加工成分,与另一种强调蔬菜和肉类的餐点相比。

MM1可以感知图像美学。

在这里插入图片描述

左图问:假设你是一位老师,请使用这个图示来解释蒸发和蒸散发之间的区别。

回答:蒸发和蒸散是水循环中两个重要的过程,经常容易混淆。这个图示清楚地区分了这两者。蒸发是水从液态变为气态的过程。图中,太阳的热量导致湖泊和海洋中的水蒸发成水蒸气,升入大气层中,这就是蒸发的过程。
另一方面,蒸散是蒸发和植物蒸腾的结合。蒸腾是植物吸收的水通过植物的叶子释放到大气中的过程。在图中,蒸散通过树木和草地吸收的水释放回大气中得到了体现。
总而言之,蒸发是水转化为水蒸气并升入大气层的过程,而蒸散是蒸发和植物蒸腾的结合,代表了植物吸收的水释放回大气中的过程。

在这里插入图片描述

问:估计每张图片的摄氏温度,并提供理由。

海滩上有雨伞的图片:25-30摄氏度。雨伞张开,人们在海滩上,表明是一个温暖、晴朗的日子。
飞机飞过雪地的图片:零下20到零下30摄氏度。飞机飞过一片积雪覆盖的区域,地面上有车辆,表明是一个寒冷的冬日。
在田野里放牧的动物图片:15-20摄氏度。动物在放牧,这通常发生在温和的天气条件下。草是绿色的,进一步表明了温和的气候。
只能说MM1强的离谱

苹果大模型论文

今年以来,苹果已经加大了对生成式人工智能(GenAI)的重视和投入。在 2024 年苹果股东大会上,苹果 CEO 蒂姆・库克表示,今年将在 GenAI 领域实现重大进展。此外,苹果宣布放弃了长达 10 年的造车项目,这导致一部分造车团队成员开始专注于 GenAI。

这一系列举措表明,苹果正在向外界传达其加注 GenAI 的决心。目前,多模态领域的 GenAI 技术和产品非常受欢迎,其中以 OpenAI 的 Sora 最为著名,苹果自然也希望在该领域有所建树。

今天,在一篇由多位作者署名的论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》中,苹果正式公布了自家的多模态大型模型研究成果 —— 这个模型具有高达 30B 参数的多模态 LLM 系列。

在这里插入图片描述

论文地址:https://arxiv.org/pdf/2403.09611.pdf

原文简介:

在这项工作中,我们讨论了构建高性能多模态大型语言模型(MLLMs)的问题。

具体而言,我们研究了各种架构组件和数据选择的重要性。

通过对图像编码器、视觉语言连接器和各种预训练数据选择进行仔细而全面的消融实验,我们确定了几个关键的设计经验教训。例如,我们证明了在大规模多模态预训练中,使用精心选择的图像字幕、交叉图像文本和纯文本数据的混合是至关重要的,可以实现在多个基准测试中达到最新一代(SOTA)少样本结果,相比其他已发表的预训练结果。

此外,我们还表明图像编码器以及图像分辨率和图像令牌数量的设计具有重大影响,而视觉语言连接器的设计相对来说影响较小。

通过扩展所提出的方法,我们构建了MM1,一个多模态模型系列,参数高达30B,包括密集模型和专家混合(MoE)变体,在预训练指标上处于最新一代水平,并在一系列成熟的多模态基准测试上进行监督微调后获得了竞争性的性能。由于大规模预训练,MM1具有诸如增强上下文学习和多图像推理等吸引人的特性,实现了少样本推理链的提示。

监督微调对比结果

最后,研究者介绍了他们进行的监督微调(SFT)实验,这是在预训练模型之上进行的。

他们遵循了LLaVA-1.5和LLaVA-NeXT的方法,从不同的数据集中收集了大约100万个SFT样本。鉴于直观上,更高的图像分辨率可能会带来更好的性能,研究者还采用了扩展到高分辨率的SFT方法。

监督微调的结果如下:

表中展示了与SOTA模型比较的情况,“-Chat”表示监督微调后的MM1模型。

MM1-3B-Chat和MM1-7B-Chat优于所有列出的相同规模的模型。MM1-3B-Chat和MM1-7B-Chat在VQAv2、TextVQA、ScienceQA、MMBench以及最近的基准测试(MMMU和MathVista)中表现尤为突出。

研究者探索了两种MoE模型:3B-MoE和6B-MoE。在几乎所有基准测试中,苹果的MoE模型都比密集模型取得了更好的性能。这显示了MoE进一步扩展的巨大潜力。

对于30B大小的模型,MM1-30B-Chat在TextVQA、SEED和MMMU上的表现优于Emu2-Chat37B和CogVLM-30B。与LLaVA-NeXT相比,MM1也取得了具有竞争力的全面性能。

LLaVA-NeXT不支持多图像推理,也不支持少样本提示,因为每幅图像都表示为2880个发送到LLM的token,而MM1的token总数只有720个。

在这里插入图片描述
更多细节请参考原文。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1520946.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Ant Design Pro complete版本的下载及运行

前言 complete 版本提供了很多基础、美观的页面和组件,对于前端不太熟练的小白十分友好,可以直接套用或者修改提供的代码完成自己的页面开发,简直不要太爽。故记录一些下载的步骤。 环境 E:\code>npm -v 9.8.1E:\code>node -v v18.1…

[HTML]Web前端开发技术24(HTML5、CSS3、JavaScript )JavaScript基础JavaScript,Netscape,事件处理代码,外部JS——喵喵画网页

希望你开心,希望你健康,希望你幸福,希望你点赞! 最后的最后,关注喵,关注喵,关注喵,佬佬会看到更多有趣的博客哦!!! 喵喵喵,你对我真的…

Java学习笔记(12)

包 导包 Final 不能被改变的,修饰方法 类 变量 方法不能被重写 类不能被继承 变量,赋值一次,变成常量,不能再被赋值 final修饰引用数据类型,地址值不能变,里面的内容可以变 字符串是不可变的 源码中使…

ubuntu(20.04)-安装JAVA环境-IDEA

1.下载IDEA 2.解压文件 sudo tar -zxvf idealC-2022.2.3.tar.gz -C /opt 3.添加环境变量: .vim ~/.bashrc export IDEA_HOME/opt/ideaIC-2022.2.3/ export PATH${IDEA_HOME}/bin:$PATH source ~/.bashrc 4.启动: cd /opt/ideaIC-2…

安装jupyter报错:404 GET /static/notebook/4131.bundle.js

1、报错安装过程 我直接是pip install jupyter 进行的安装,如下,安装的版本是7.1.2 2、报错结果 运行jupyternotebook后报错:404 GET /static/notebook/4131.bundle.js (3bea7012d1534d70a935c3c193d9308d127.0.0.1) 5.70ms refererht…

cf(163)

D. Tandem Repeats? 找最长串联字串的长度 #include<iostream> #include<algorithm> #include<cstring> #include<queue> #include<vector> #include<map> using namespace std; typedef pair<int,int>PII; typedef long long ll…

ThingsBoard Edge 安装部署

文章目录 一、概述1.官方文档2.部署说明3.安装准备3.1. 克隆服务器3.2.安装 Docker3.3.安装 Java 113.4.安装 PostgreSQL3.5.下载安装包 二、安装部署1.创建 Edge 实例2.创建数据库3.Edge 服务安装3.1.安装服务3.2.配置 Edge3.3.运行安装脚本3.4.重新启动服务 4.访问 Edge5.故障…

基于ssm+layui的图书管理系统

基于ssmlayui的图书管理系统 账户类型分为&#xff1a;管理员&#xff0c;用户管理员私有功能用户私有功能公共功能技术栈功能实现图 视频演示 账户类型分为&#xff1a;管理员&#xff0c;用户 图书管理系统主要登录账户类型为管理员账户与用户账户 管理员私有功能 账户管理…

算法的渐进时间复杂度

T(n) = O(F(n)) T(n):Time 渐进时间复杂度 O:正比例关系 F(n):代码执行次数 只要代码执行的次数越来越多 所耗费的时间也就越来越高 常见的5种: O(n^2) O(n logn) O(n) O(logn) O(1):不管重复多少次1次也是这个时间,10次也是这个时间。 时间复杂度排序:由小到…

关于如何在BIOS中设置引导顺序,看这篇文章就差不多了

前言 更改计算机上“可引导”设备(如USB端口、软盘驱动器或光盘驱动器中的硬盘驱动器或可引导介质)的引导顺序非常容易。 为什么要更改引导顺序 有几个场景需要更改引导顺序,例如启动一些数据销毁工具和可引导防病毒程序,以及安装操作系统。 BIOS设置实用程序用于更改引…

鸿蒙Harmony应用开发—ArkTS声明式开发(基础手势:ScrollBar)

滚动条组件ScrollBar&#xff0c;用于配合可滚动组件使用&#xff0c;如List、Grid、Scroll。 说明&#xff1a; 该组件从API Version 8开始支持。后续版本如有新增内容&#xff0c;则采用上角标单独标记该内容的起始版本。 子组件 可以包含单个子组件。 接口 ScrollBar(val…

C++ 入门篇

目录 1、了解C 2、C关键字 2、命名空间 2.1 命名空间的定义 2.2 命名空间的使用 3. C输入与输出 4.缺省参数 4.1 缺省参数的概念 4.2 缺省参数的分类 5. 函数重载 5.1 函数重载的概念 5.2 C中支持函数重载的原理--名字修饰 6. 引用 6.1 引用概念 6.2 引用…

【Miniconda】Linux系统中 .condarc 配置文件的位置一般在哪里

【Miniconda】Linux系统中 .condarc 配置文件的位置一般在哪里 &#x1f308; 个人主页&#xff1a;高斯小哥 &#x1f525; 高质量专栏&#xff1a;Matplotlib之旅&#xff1a;零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程&#x1f448; 希望得到…

Elasticsearch 索引库操作 文档操作

索引库就类似数据库表&#xff0c;mapping映射就类似表的结构。要向es中存储数据&#xff0c;必须先创建“库”和“表”。 mapping映射属性 mapping是对索引库中文档的约束&#xff0c;常见的mapping属性包括&#xff1a; type&#xff1a; 字段数据类型&#xff0c;常见的简…

CSS3技巧38:3D 翻转数字效果

博主其它CSS3 3D的文章&#xff1a; CSS3干货4&#xff1a;CSS中3D运用_css 3d-CSDN博客 CSS3干货5&#xff1a;CSS中3D运用-2_中3d-2-CSDN博客 CSS3干货6&#xff1a;CSS中3D运用-3_css3d 使用-CSDN博客 最近工作上烦心的事情太多&#xff0c;只有周末才能让我冷静一下 cod…

黑群晖: 未在 DS918+ 中检测到硬盘 之 解决方案

黑群晖&#xff1a; 未在 DS918 中检测到硬盘 之 解决方案 操作如下&#xff1a; 进入BIOS&#xff0c;将sata operation 设置为 AHCI 即可

ARMv8架构特殊寄存器介绍-0

一、zero 寄存器 零寄存器用作源寄存器时读取零&#xff0c;用作目标寄存器时丢弃结果。您可以在大多数指令中使用零寄存器&#xff0c;但不是所有指令。二、sp寄存器 在ARMv8架构中&#xff0c;要使用的堆栈指针的选择在某种程度上与Exception级别。默认情况下&#xff0c;异…

套利 19个ETH 案例二解析

交易时间 2024.03.10 &#xff1b; 获利&#xff1a;19eth 套利交易地址&#xff1a; 0x4a3e5209877755c293b39b6cdc9414195cf7c951cd7a36bea426ded224f1b337 交易流程看着比较复杂&#xff1a; 实际核心获利的部分就是第4行的交易和第7行的交易&#xff0c;也是利用了2个交易…

【OceanBase诊断调优】—— 敏捷诊断工具obdiag一键分析OB集群日志设计与实践

最近总结一些诊断OCeanBase的一些经验&#xff0c;出一个【OceanBase诊断调优】专题&#xff0c;也欢迎大家贡献自己的诊断OceanBase的方法。 1. 前言 obdiag定位为OceanBase敏捷诊断工具。1.2版本的obdiag支持诊断信息的一键收集&#xff0c;光有收集信息的能力&#xff0c;…

Ubuntu 安装 KVM 虚拟化

1. Ubuntu 安装 KVM 虚拟化 KVM 是 Linux 内核中一个基于 hypervisor 的虚拟化模块&#xff0c;它允许用户在 Linux 操作系统上创建和管理虚拟机。 如果机器的CPU不支持硬件虚拟化扩展&#xff0c;是无法使用KVM(基于内核的虚拟机)直接创建和运行虚拟机的。此时最多只能使用…