Meta AI 发布 Llama 3.2

news2024/9/28 15:17:48

Llama 3.2新闻

  1. Meta公司在其Connect大会上宣布了Llama 3.2的发布,这是其首款能够理解图像和文本的旗舰视觉模型。Llama 3.2包含中型和小型两个版本(分别拥有11B与90B参数),以及更轻量化的纯文本模型(分别拥有1B与3B参数),后两款主要面向特定移动与边缘设备。这些模型在保持文本处理能力的同时,通过适配器权重将预训练的图像编码器整合到语言模型中,实现了对图像的理解和推理。

  2. Llama 3.2的11B和90B模型是首次支持视觉任务的Llama模型,它们通过一系列交叉注意力层将图像编码器的表征输入到语言模型中,从而实现图像推理功能。这些模型在图像识别和其他视觉理解任务上的表现,已经能够与Anthropic的Claude 3 Haiku以及OpenAI的GPT 4o-mini相媲美,甚至在某些方面更优越。

  3. 此外,Llama 3.2的1B和3B模型支持128K tokens的上下文长度,适配高通和联发科硬件,对Arm处理器做了专属优化。这些轻量级模型特别适合在移动设备上运行,能够用于创建个性化智能体应用,同时保证数据隐私,因为它们能够在设备本地处理数据,无需将信息发送到云端。

  4. Meta还首次分享了官方的Llama技术栈发行版,以便开发人员可以在各种环境下使用这些模型,包括本地、设备端、云端和单节点场景。Llama 3.2模型目前已经在llama.com、Hugging Face以及Meta各合作伙伴的平台上开放下载。

模型评估

  1. 评估表明,Llama 3.2 视觉模型在图像识别和一系列视觉理解任务上与领先的基础模型 Claude 3 Haiku 和 GPT4o-mini 竞争。3B 模型在遵循指令、摘要、提示重写和工具使用等任务上的表现超过了 Gemma 2 2.6B 和 Phi 3.5-mini 模型,而 1B 则与 Gemma 竞争。
    在这里插入图片描述
    在这里插入图片描述

视觉模型

  1. 作为首批支持视觉任务的 Llama 模型,11B 和 90B 模型需要一个全新的模型架构来支持图像推理。

  2. 为了增加图像输入支持,mata 训练了一组适配器权重,将预训练的图像编码器整合到预训练的语言模型中。适配器由一系列交叉注意力层组成,这些层将图像编码器的表征输入到语言模型中。在文本-图像对上训练适配器,以使图像表征与语言表征对齐。在适配器训练期间,还更新了图像编码器的参数,但有意不更新语言模型参数。这样做,保持了所有仅限文本的功能完整,为开发者提供了 Llama 3.1 模型的直接替代品。

轻量级模型

  1. 正如我们在 Llama 3.1 中所讨论的,可以利用强大的教师模型来创建性能更好的小型模型。我们在 1B 和 3B 模型上使用了两种方法——剪枝和蒸馏,使它们成为首批能够高效适应设备的高能力轻量级 Llama 模型。

  2. 剪枝使我们能够在保留尽可能多的知识和性能的同时,减少现有模型的大小。对于 1B 和 3B 模型,我们采取了一次性的结构化剪枝方法,从 Llama 3.1 的 8B 模型开始。这涉及到系统地移除网络的部分,并调整权重和梯度的大小,以创建一个更小、更高效的模型,同时保持原始网络的性能。

  3. 知识蒸馏使用较大的网络向较小的网络传授知识,其理念是较小的模型可以在教师模型的帮助下实现比从头开始更好的性能。对于 Llama 3.2 中的 1B 和 3B 模型,我们将 Llama 3.1 的 8B 和 70B 模型的 logit 数据纳入模型开发的预训练阶段,这里这些较大模型的输出(logit)被用作 token 级别的目标。剪枝后使用知识蒸馏来恢复性能。
    在这里插入图片描述

参考

  1. https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2173900.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

安全的价值:构建现代企业的基础

物理安全对于组织来说并不是事后才考虑的问题:它是关键的基础设施。零售商、医疗保健提供商、市政当局、学校和所有其他类型的组织都依赖安全系统来保障其人员和场所的安全。 随着安全技术能力的不断发展,许多组织正在以更广泛的视角看待他们的投资&am…

element plus block报错

解决: ::v-deep input[aria-hidden"true"] {display: none !important }

二叉树进阶oj题【二叉树相关10道oj题的解析和c++代码实现】

目录 二叉树进阶oj题1.根据二叉树创建字符串2.二叉树的层序遍历3.二叉树的层序遍历 II4.二叉树的最近公共祖先5.二叉搜索树和双向链表6.从前序与中序遍历序列构造二叉树7.从中序和后序遍历序列来构造二叉树8.二叉树的前序遍历,非递归迭代实现9.二叉树中序遍历 &…

日志工具spdlog全解析:理论、安装、使用与实践(C++)

文章目录 前言spdlog 与 glog spdlog介绍内容日志等级输出格式 使用步骤同步日志输出异步日志输出封装一个日志输出类对日志输出类的测试 安装 前言 在编写项目时,通过日志追踪程序错误或其他情况出现的位置是十分重要的,对于不太复杂的场景&#xff0c…

突发:Sam万字长文,OpenAI o1超越人类,o1模型训练原理、微调、能力来源-AI已死,大模型当立

OpenAl o1大模型:原理、突破、前景及影响 北京时间2024年9月13日凌晨,OpenAI正式发布了新的人工智能模型o1(o是orion猎户座,1代表从头再来,也意味着后续将出现更多序列),就是此前OpenAI一直在高…

烟雾污染云层检测系统源码分享

烟雾污染云层检测检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer…

嵌入式学习--LinuxDay04

嵌入式学习--LinuxDay04 shell脚本 1.1数组 1.1.1数组的赋值 1.1.2数组的调用 1.2函数 1.2.1函数的定义方式 1.2.2函数的调用 2.分文件编程 2.1源文件 2.2头文件 3.编译工具 3.1 gcc编译工具 3.2 gdb调试 4.make工具 4.1定义 4.2Makefile格式 4.3Makefile管理多个文件 4.4Makef…

【笔记】X射线的衍射方向

X射线在晶体中的衍射,实质是大量原子散射波互相干涉的结果。 衍射花样有两个特征: 衍射方向(衍射线在空间的分布规律):由晶胞的大小、形状和位向决定。 衍射强度:由原子的种类以及它在晶胞中所处的位置决…

56 门控循环单元(GRU)_by《李沐:动手学深度学习v2》pytorch版

系列文章目录 文章目录 系列文章目录门控循环单元(GRU)门控隐状态重置门和更新门候选隐状态隐状态 从零开始实现初始化模型参数定义模型训练与预测 简洁实现小结练习 门控循环单元(GRU) 之前我们讨论了如何在循环神经网络中计算梯…

PREDATOR: Registration of 3D Point Clouds with Low Overlap

Abstract 这篇文章介绍了一种新的点云配准模型-Predator。该模型专注于处理低重叠的点云对,它更加关注于重叠区域的处理,其新颖之处在于一个重叠的注意块,作用是用于两个点云的潜在编码之间的早期信息交换。该模型大大提高了低重叠场景下的配…

AI跟踪报道第58期-新加坡内哥谈技术-本周AI新闻: OpenAI动荡时刻和Meta从未如此动人

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

深度学习与数学归纳法

最近发现,深度学习可以分为两个主要的阶段,分别是前向推理以及反向传播,分别对应着网络的推理和参数训练两个步骤。其中推理有时候也称为归纳推理。 在做参数训练的时候,本质上是在利用历史数据求网络参数的先验分布; …

leetcode每日一题day15(24.9.25)——公司命名

思路:首先如果没有相同的后缀,则无论只要不是相同的首字母交换都不会出现重复情况,如果有重复后缀,则还需多增加个不能和,首字符与另一相同后缀字串的首字符相同的字串交换。 主要矛盾已经明确,则可对矛盾…

MySql5.7.26安装和配置

一.下载: 地址MySQL :: Download MySQL Community Server 1、选择版本 根据自己需要选择32位或64位版本(这里选择64位)点击下载 进入到下载页面按下图操作 2.解压文件放置位置:这边将下载的文件解压到D:Software 下 解压后内部文…

Linux---文件io

1.系统调用 由操作系统实现并提供给外部应用程序的编程接口。(Application Programming Interface,API)。是应用程序同系统之间数据交互的桥梁。 C标准函数和系统函数调用关系。一个helloworld如何打印到屏幕。 man手册中一共有九卷,其中一卷就有讲到系…

快速了解graphql特点

graphql--快速了解graphql特点 1.它的作用2.demo示例2.1依赖引入2.2定义schema2.3定义GrapQL端点2.4运行测试2.5一些坑 今天浏览博客时看到graphQL,之前在招聘网站上第一次接触,以为是图数据查询语言, 简单了解后,发现对graphQL的介绍主要是用作API的查询语言,不仅限于图数据查…

目标检测系列(三)yolov2的全面讲解

YOLOv2(论文原名《YOLO9000: Better, Faster, Stronger》)作为该系列的第二个版本,对原始YOLO进行了显著的改进,进一步提高了检测速度和准确度。在精度上利用一些列训练技巧,在速度上应用了新的网络模型DarkNet19&…

个性化大语言模型:PPlug——让AI更懂你

在当今数字化转型的时代,大型语言模型(LLMs)已经成为了不可或缺的工具,它们在自然语言理解、生成和推理方面展现了非凡的能力。然而,这些模型普遍采用的是“一刀切”的方式,即对于相同的输入给予所有用户相…

828华为云征文|部署多功能集成的协作知识库 AFFiNE

828华为云征文|部署多功能集成的协作知识库 AFFiNE 一、Flexus云服务器X实例介绍二、Flexus云服务器X实例配置2.1 重置密码2.2 服务器连接2.3 安全组配置2.4 Docker 环境搭建 三、Flexus云服务器X实例部署 AFFiNE3.1 AFFiNE 介绍3.2 AFFiNE 部署3.3 AFFiNE 使用 四、…

【深度学习】(10)--ResNet残差网络

文章目录 ResNet残差网络1. 传统卷积神经网络的问题1.1 梯度消失和梯度爆炸1.2 退化问题 2. 解决问题2.1 梯度消失与爆炸2.2 退化问题 3. 残差结构结构归纳 4. BN(Batch Normalization) 总结 ResNet残差网络 ResNet 网络是在 2015年 由微软实验室中的何…