Llama 3.2 90B刚开源就被Molmo-72B全面击败!

news2024/11/18 23:39:08

Meta此次发布的Llama 3.2一个新特性是视觉模型,包括11B和90B,作为首批支持视觉任务的Llama模型,但是allenai开源的多模态Molmo-72B,在视觉评测上全面击败Llama 3.2 90B

两个新发布的开源LLM之间的基准测试比较:Molmo与Llama 3.2可以看出,Molmo在各个方面都相当出色!

图片

allenai的Molmo发布详情

Molmo,采用 Apache 2.0 许可,并将发布他们的数据,创建了自定义的 ELO 评估,并且其架构比 Llama 3.2 更简单,可能与 Flash Attention 兼容。

  • 有 4 个变体

图片

  • Molmo 72B 基于 Qwen2-72B,并使用 OpenAI CLIP 作为视觉骨干

  • Molmo 7B 使用 Qwen2 7B 和 Olmo 7B 作为 LLM 骨干

  • Molmo 72B 模型在基准测试中胜过 Llama 3.2 90B、Pixtral 12B 和 Qwen 2 72B VL

  • Molmo 72B 与 OpenAI 的 GPT-4o、GoogleDeepMind 的 Gemini 1.5 Pro 和 Anthropic的 Claude Sonnet 3.5 相匹配

  • Molmo 理解用户界面并且能够指向它所看到的内容

  • 使用基于语音的图像描述生成高质量的训练数据

  • 在 11 个学术基准和 325,231 个人类成对比较上进行了评估

  • 在比竞争对手小三数量级的高质量数据集PixMo上训练

  • 广泛的人类评估验证了 Molmo 的性能和用户偏好。

图片

Blog:https://molmo.allenai.org/blogPaper:https://molmo.allenai.org/paper.pdfDemo:https://molmo.allenai.orgHF:https://huggingface.co/collections/allenai/molmo-66f379e6fe3b8ef090a8ca19

Meta Llama3.2发布详情:

📣Llama 3.2:为边缘设备设计的轻量级模型,视觉模型等等!新特性有哪些?

  • Llama 3.2 的 1B 和 3B 模型为多种设备上的用例提供了同类领先的能力 

  • Llama 3.2 的 11B 和 90B 视觉模型的性能与领先的封闭模型相媲美 —— 并且可以作为 Llama 3.1 的 8B 和 70B 的直接替代品。

  • 新的 Llama Guard 模型支持多模态用例和边缘部署。

  • Llama Stack 的首次官方发行版简化并加速了开发者和企业围绕 Llama 构建支持代理应用等的方式。

视觉模型

作为首批支持视觉任务的Llama模型,11B和90B模型需要支持图像推理的全新模型架构。

训练流程由多个阶段组成:

  • 从预训练的Llama 3.1文本模型开始。首先,添加图像适配器和编码器,然后在大规模噪声(图像、文本)对数据上进行预训练。

  • 接下来,在中等规模的高质量领域内和知识增强的(图像、文本)对数据上进行训练。

在后期训练中:

  • 使用与文本模型类似的方法,在监督微调、拒绝采样和直接偏好优化方面进行多轮对齐。

  • 利用 Llama 3.1 模型生成合成数据,在域内图像的基础上过滤和扩充问题和答案,并使用奖励模型对所有候选答案进行排名,以提供高质量的微调数据。

  • 还添加了安全缓解数据,以生成具有高安全水平的模型,同时保留模型的有用性

最终结果是一组可以同时接收图像和文本提示并深入理解和推理两者组合的模型。

,时长00:34

轻量级模型

在 1B 和 3B 模型上使用了两种方法(修剪和提炼),使其成为首批能够高效适应设备的高性能轻量级 Llama 模型。

图片

  • 修剪能够缩小 Llama 群中现有模型的大小,同时尽可能多地恢复知识和性能。对于 1B 和 3B 模型,采用了从 Llama 3.1 8B 中一次性使用结构化修剪的方法。这涉及系统地移除网络的某些部分并调整权重和梯度的大小,以创建一个更小、更高效的模型,同时保留原始网络的性能。

  • 知识蒸馏使用较大的网络将知识传授给较小的网络,其理念是较小的模型使用教师可以获得比从头开始更好的性能。对于 Llama 3.2 中的 1B 和 3B,将 Llama 3.1 8B 和 70B 模型的对数合并到模型开发的预训练阶段,其中这些较大模型的输出(对数)被用作 token 级目标。修剪后使用知识蒸馏来恢复性能。

,时长00:18

Blog: https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/HF: https://huggingface.co/collections/meta-llama/llama-32-66f448ffc8c32f949b04c8cf

来源 | PaperAgent

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2173723.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

leetcode163.缺失的区间,模拟

leetcode163.缺失的区间 给定一个排序的整数数组 nums ,其中元素的范围在 闭区间 [lower, upper] 当中,返回不包含在数组中的缺失区间。 示例: 输入: nums [0, 1, 3, 50, 75], lower 0 和 upper 99, 输出: [“2”, “4->49”, “51-&…

OpenSource - 开源WAF_SamWaf

文章目录 PreSafeLine VS SamWaf开发初衷软件介绍架构界面主要功能 使用说明下载最新版本快速启动WindowsLinuxDocker 启动访问升级指南自动升级手动升级 在线文档 代码相关代码托管介绍和编译已测试支持的平台测试效果 安全策略问题反馈许可证书贡献代码 Pre Nginx - 集成Mod…

关系模型与关系代数——数据库原理 总结2

2.1 关系模型 关系数据结构 关系模型的数据结构是二维表,亦称为关系。关系数据库是表的集合,即关系的集合。表是一个实体集,一行就是一个实体,它由有关联的若干属性的值所构成。 关系模型的相关概念 列就是数据项 或 字段 或 属…

C++那些你不得不知道的(2)

C那些你不得不知道的(2) 1、缺省参数在使用的遍历 (1)以下是实现顺序表的初始化和检查容量空间的方式: void Init(list* ps) {ps->arr NULL;ps->Capacity ps->size 0; }void CheckCapacity(list* ps) {…

量化系统QTYX使用攻略|“自动交易”篇——ETF量化框架,集成“策略回测仓位风控下单”(更新v2.9.2)...

QTYX系统简介 股票量化交易系统QTYX是一个即可以用于学习,也可以用于实战炒股分析的系统。 分享QTYX系统目的是提供给大家一个搭建量化系统的模版,最终帮助大家搭建属于自己的系统。因此我们提供源码,可以根据自己的风格二次开发。 关于QTYX的…

ABAP版本管理

在开发中ABAP管理有查看,生成,比对,远程比对,回滚,删除等等操作。日常中往往会遇到需要回滚到上一版本的代码,但是ABAP不像git代码管理那么专业,但是也是可以回滚代码的。在此记录一下操作过程。…

大模型时代,2024的传统程序员还需要写代码吗?需要学习大模型吗?

一.引言 随着大模型(如GPT等)的迅猛发展,软件开发领域中我们的开发方式也在悄然发生变化。当然,我作为一名传统的Java后端开发工程师,在职业生涯的初期主要专注于使用多种数据结构以及算法编写业务代码。 …

所有测试人,下半年的新方向(大模型),赢麻了!!!

现在做测试,真的挺累的。 现在测试越来越难做,晋升困难,工资迟迟不涨……公司裁员,测试首当其冲!! 做测试几年了,还没升职,就先到了“职业天花板”。 想凭工作几年积累的经验&…

面向未来的设计:推动企业架构创新的关键——The Open Group 2024生态系统架构与可持续发展年度大会

在当今快速变化的数字时代,企业的可持续发展和创新能力比以往任何时候都更为重要。The Open Group 2024生态系统架构可持续发展年度大会,为全球技术和数字化转型专业人士提供了一个无与伦比的机会,以探索先进的企业架构与建模解决方案&#x…

SQLite3模块使用详解

目录 一、引言 1.1 SQLite3 简介 1.2 Python sqlite3 模块 二、连接数据库 2.1 导入 sqlite3 模块 2.2 连接数据库 2.3 创建游标对象 三、执行 SQL 语句 3.1 创建表 3.2 插入数据 3.3 查询数据 3.4 更新数据 3.5 删除数据 四、处理查询结果 4.1 fetchall() 4.2…

FollowYourPose - 生成可编辑、姿态可控制的人物视频

文章目录 关于 FollowYourPose摘要🍻🍻🍻设置环境💃💃💃培训🕺🕺🕺推理💃💃💃 本地 Gradio 演示🕺🕺&#x1f…

性能测试常见故障和解决思路详解

🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 一、性能问题分析流程 1、查看服务器的CPU、内存 、负载等情况,包括应用服务器和数据库服务器 2、查看数据库健康状态,数据库死锁、连…

监控易监测对象及指标之:全面监控Sybase_New数据库

随着企业数据量的不断增长和业务的复杂化,数据库的稳定性和性能成为了保障业务连续性的关键因素。Sybase_New数据库作为众多企业选择的数据管理解决方案,其稳定性和性能对于企业的运营至关重要。 为了确保Sybase_New数据库的稳定运行和高效性能&#xff…

在类外定义的运算符重载函数

对基本的数据类型,C提供了许多预定义的运算符,如,-,*,/,等,他们可以用一种简洁的方式工作,例如 运算符: int x, y, z; x 3; y 5; z x y; 这是将两个整数相加的方法…

急!现在转大模型还来得及吗?零基础入门到精通,收藏这一篇就够了

大模型的出现,让行内和行外大多数人都感到非常焦虑。 行外很多人想了解却感到无从下手,行内很多人苦于没有硬件条件无法尝试。想转大模型方向,相关的招聘虽然层出不穷,但一般都要求有大模型经验。而更多的人,则一直处…

指数级增长使Hugging Face上的人工智能模型达到100万个

本周四,人工智能托管平台Hugging Face的人工智能模型列表首次突破100 万个,这标志着快速扩张的机器学习领域的一个里程碑。 人工智能模型是一种计算机程序(通常使用神经网络),通过数据训练来执行特定任务或进行预测。 …

【算法】字符串相关

【ps】本篇有 4 道 leetcode OJ。 一、算法简介 字符串是一种数据结构,大多与别的算法结合在一起出题,例如模拟、高精度算法、双指针、dp、回溯等,因此这个专题的题型本身是特别丰富的。本篇选取了较为典型的字符串题型,除了涵盖一…

双端之Nginx+Php结合PostgreSQL搭建Wordpress

第一台虚拟机:安装 Nginx 更新系统包列表: sudo apt update安装 Nginx及php扩展: sudo apt install nginx php-fpm php-pgsql php-mysqli -y启动 Nginx 服务: sudo systemctl start nginx检查 Nginx 是否正常运行: xdg-open http://localhost注意:终端命令打开网址 …

【射频通信电子线路第六讲】射频信号与调制包括调幅和部分调频的内容

一、调制(Modulation)与解调(Demodulation) 1、相关概念 调制是指使一个信号(如光信号、高频电磁振荡等)的某些参数(振幅、频率和相位)按照另一个欲传输的信号的特点变化的过程。 …

Linux基础(二):磁盘分区

1.磁盘在Linux中的文件名 SATA接口的磁盘在Linux中名字为/dev/sdx。/dev 几乎是所有外接设备存放的文件夹: 磁盘在Linux中的文件名是不确定的,比如拿一个U盘插到Linux主机,可能第一次名字为sda,拔插后名字为sdc,这取…