一文了解:最新版本 Llama 3.2

news2024/11/18 1:26:37

Meta AI最近发布了 Llama 3.2。这是他们第一次推出可以同时处理文字和图片的多模态模型。这个版本主要关注两个方面:

  1. 视觉功能:他们现在有了能处理图片的模型,参数量从11亿到90亿不等。

  2. 轻量级模型:这些模型参数量在1亿到3亿之间,设计得小巧玲珑,可以在手机或者边缘设备上运行,不需要联网。

接下来,我会详细聊聊这些新模型是怎么工作的,它们能做什么,还有怎么用它们。

图片

Llama 3.2的视觉模型

Llama 3.2的一个关键特性是引入了具有11亿和90亿参数的视觉启用模型。

这些模型现在可以处理图片和文字了,给Llama生态系统带来了新的能力。

多模态能力

这些视觉模型在需要识别图片和处理语言的任务上特别棒。它们不仅能回答问题,还能给图片配上描述性的标题,甚至能理解复杂的视觉信息。

根据Meta的示例,这些模型可以分析嵌入文档中的图表并总结关键趋势。它们还可以解释地图,确定哪一部分远足径最陡,或者计算两个点之间的距离。

视觉模型的应用

这种结合了文本和图像理解的能力,让这些模型有了很多潜在的应用场景:

  • 文档理解:这些模型可以从包含图片、图表的文档中提取信息。比如,公司可以用Llama 3.2自动分析销售数据。

  • 视觉问题回答:模型能根据视觉内容回答问题,比如识别场景中的对象或者总结图片内容。

  • 图像字幕:模型能给图片配上标题,这对于需要理解图片内容的数字媒体或辅助功能领域特别有用。

开放和可定制

Llama 3.2的视觉模型不仅开放,还可以根据需要进行定制。开发者可以用Meta的Torchtune框架来调整这些模型。

而且,这些模型可以通过Torchchat在本地部署,这样就不需要依赖云基础设施了。

这些视觉模型还可以通过Meta AI的智能助手进行测试。

视觉模型的工作原理

为了让Llama 3.2的视觉模型能理解文本和图片,Meta把一个预训练的图像编码器集成到了现有的语言模型中,还用了特殊的适配器。这些适配器把图像数据和模型处理文本的部分连接起来,让模型能处理两种输入。

训练过程是从Llama 3.1语言模型开始的。团队先是用大量图片和文字描述来训练它,教会模型怎么把这两者联系起来。然后,他们用更清晰、更具体的数据来优化模型,提高它理解和推理视觉内容的能力。

在最后阶段,Meta用了微调和合成数据生成等技术,确保模型能给出有用的答案,并且安全地表现。

基准测试:强项和弱点

Llama 3.2的视觉模型在理解图表和图形方面做得特别好。在AI2 Diagram和DocVQA这些基准测试中,Llama 3.2的得分比Claude 3 Haiku还要高,这让它在处理文档理解、视觉问题回答和从图表中提取数据的任务上很有优势。

而且,在多语言任务上,Llama 3.2也表现得相当不错,得分86.9,几乎和GPT-4o-mini的得分一样,这对需要处理多种语言的开发者来说是个好消息。

图片

 

不过,虽然Llama 3.2在视觉任务上做得很好,但在其他方面还有待提高。比如在MMMU-Pro Vision这个测试视觉数据上数学推理能力的测试中,GPT-4o-mini的得分36.5就比Llama 3.2的33.8要高。

同样,在MATH基准测试中,GPT-4o-mini的得分70.2也明显超过了Llama 3.2的51.9,这说明Llama在数学推理方面还有提升的空间。

Llama 3.2的1B和3B轻量级模型

Llama 3.2的另一个亮点是推出了为边缘设备和移动设备设计的轻量级模型,参数量分别是10亿和30亿。这些模型在小设备上运行得又快又好,而且性能也还不错。

设备上的AI:快速和私密

这些模型可以在手机上运行,提供快速的本地处理,不需要把数据上传到云端。这样做有两个主要好处:

  • 更快的响应时间:模型在设备上运行,可以几乎瞬间处理请求和生成回应,这对于需要快速反应的应用来说非常有用。

  • 更好的隐私保护:数据在本地处理,不需要离开设备,这样可以更好地保护用户的敏感信息,比如私人消息或日历事件。

Llama 3.2的轻量级模型针对Arm处理器进行了优化,现在可以在很多移动和边缘设备上使用的高通和联发科硬件上运行。

Llama 3.2 1B和3B的应用

这些轻量级模型设计来满足各种实际的、在设备上的应用需求,比如:

  1. 摘要:用户可以直接在设备上对大量文本进行摘要,比如电子邮件或会议记录,不需要依赖云服务。

  2. AI个人助理:模型可以理解自然语言指令并执行任务,比如创建待办事项列表或安排会议。

  3. 文本重写:这些模型能够即时增强或修改文本,非常适合用于自动编辑或改写工具等应用。

Llama 3.2轻量级模型的工作原理

Llama 3.2的轻量级模型(1B和3B)就是为了在手机和小型设备上也能跑得飞快,同时还得保持强大的性能。Meta用上了两种牛掰的技术:剪枝和蒸馏。

图片

 

剪枝:让模型更苗条

剪枝就是把模型里不太重要的部分去掉,让模型变得更小,但知识还保留着。Llama 3.2的1B和3B模型就是从更大的Llama 3.1 8B预训练模型开始,一步步剪枝,变得更小更高效的。

Meta AI的团队通过这种方法,成功地把模型做得更小,但性能上并没有太大损失。就像上图里展示的,8B的预训练模型(紫色那个框)经过剪枝和提炼,就成了更小的Llama 3.2 1B/3B模型的基础。

蒸馏:把大模型的知识传给小模型

蒸馏就是把大模型(老师)的知识教给小模型(学生)。Llama 3.2用上了来自更大的Llama 3.1 8B和Llama 3.1 70B模型的预测结果来训练更小的模型。

这样,即使模型变小了,1B和3B的模型还是能很有效地完成任务。上图展示了这个过程,就是用大模型的预测数据来指导1B和3B模型在预训练期间的学习。

最终的磨练

剪枝和蒸馏之后,1B和3B模型还要经过一系列的后训练,和之前的Llama模型差不多。这个过程包括了监督微调、拒绝采样和直接偏好优化等技术,让模型的输出更符合用户的期望。

他们还生成了合成数据,确保模型能处理各种任务,比如摘要、重写和遵循指令。

就像上图展示的,最终的Llama 3.2 1B/3B指令模型是经过剪枝、蒸馏和广泛的后训练得到的。

基准测试:优点和缺点

Llama 3.2的3B模型在某些领域特别出色,尤其是需要推理的任务。比如在ARC Challenge中,它的得分是78.6,超过了Gemma(76.7),虽然比Phi-3.5-mini(87.4)稍微低一点。在HellaWag基准测试中,它的得分是69.8,超过了Gemma,和Phi不相上下。

在BFCL V2这样的工具使用任务中,Llama 3.2的3B模型也表现得很棒,得分67.0,超过了两个竞争对手。这说明3B模型在处理指令遵循和与工具相关的任务上做得很好。

图片

 

Llama堆栈分发

Meta为了配合Llama 3.2的推出,还搞了个Llama堆栈。这对开发者来说是个好消息,因为用Llama堆栈,他们就不用担心怎么配置或部署那些复杂的大型模型了。开发者们可以专注于自己的应用开发,剩下的重活累活都交给Llama堆栈来搞定。

Llama堆栈的亮点包括:

  • 标准化API:开发者可以直接用这些API和Llama模型交互,不用什么都从头做起。

  • 跨平台:Llama堆栈能在各种平台上运行:

    • 单节点:在一台电脑上跑Llama模型。

    • 本地:在自己的服务器或私有云上用模型。

    • :通过AWS或Google Cloud这样的云服务商来部署Llama模型。

    • 移动和边缘设备:让模型在不联网的手机上或小设备上也能跑。

  • 预构建解决方案:Llama堆栈提供了现成的解决方案,专门针对一些常见任务,比如文档分析或问题回答,帮开发者省时省力。

  • 集成安全:堆栈还自带了安全功能,确保AI在部署的时候能负责任地、符合道德地运行。

图片

 

Llama 3.2安全

Meta对负责任的AI一直很上心,这次Llama 3.2的推出也不例外。Llama Guard 3更新了,现在支持Llama 3.2的新多模态功能,包括视觉功能。这保证了用新图像理解功能的应用能安全、合规。

而且,Llama Guard 3 1B也针对在资源受限的环境里部署做了优化,让它比之前的版本更小巧、更高效。

如何访问和下载Llama 3.2模型

获取Llama 3.2模型挺方便的。Meta已经在好几个平台上提供了这些模型,包括他们自己的网站和Hugging Face。

你可以直接从官方Llama网站上下载Llama 3.2模型。Meta给开发者提供了轻量级的模型(1B和3B)和视觉功能的大模型(11B和90B)。

Hugging Face也是个能拿到Llama 3.2模型的平台,它用起来很方便,在AI开发者社区里也很流行。

现在,Llama 3.2模型也能在我们众多的合作伙伴平台上马上用起来,包括AMD、AWS、Databricks、Dell、Google Cloud、Groq、IBM、Intel、Microsoft Azure、NVIDIA、Oracle Cloud、Snowflake等等。

结论

Meta这次推出的Llama 3.2,是系列中头一个多模态模型,主要关注两个方面:视觉功能和轻量级模型,后者是给边缘和移动设备用的。

11B和90B的多模态模型现在能处理文本和图像了,而1B和3B的模型则是为了在小设备上本地高效运行而优化的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2176276.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

llamafactory0.9.0微调qwen2vl

LLaMA-Factory/data/README_zh.md at main hiyouga/LLaMA-Factory GitHubEfficiently Fine-Tune 100+ LLMs in WebUI (ACL 2024) - LLaMA-Factory/data/README_zh.md at main hiyouga/LLaMA-Factoryhttps://github.com/hiyouga/LLaMA-Factory/blob/main

【Java SE】初遇Java,数据类型,运算符

🔥博客主页🔥:【 坊钰_CSDN博客 】 欢迎各位点赞👍评论✍收藏⭐ 1. Java 概述 1.1 Java 是什么 Java 是一种高级计算机语言,是一种可以编写跨平台应用软件,完全面向对象的程序设计语言。Java 语言简单易学…

Android平台如何获取CPU占用率和电池电量信息

技术背景 我们在做Android平台GB28181设备接入模块、轻量级RTSP服务模块和RTMP推流模块的时候,遇到这样的技术诉求,开发者希望把实时CPU占用、电池信息等叠加在视频界面。 获取CPU占用率 Android平台获取CPU占用情况,可以读取/proc/stat文…

第十三届蓝桥杯真题Java c组D.求和(持续更新)

博客主页:音符犹如代码系列专栏:蓝桥杯关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ 【问题描述】 给定 n 个整数 a1, a2, , an ,求它们两两相乘再相…

生信初学者教程(十六):GO富集分析

文章目录 介绍加载R包导入数据所需函数运行输出结果总结介绍 GO(Gene Ontology)是一个在生物信息学中广泛使用的概念,用于描述基因和基因产物的功能、它们所处的细胞位置以及它们参与的生物过程。GO项目是一个协作性的国际努力,旨在建立和维护一个适用于各种物种的、结构化…

用Python实现运筹学——Day 6: 单纯形法求解过程

一、学习内容 1. 单纯形法的详细步骤 单纯形法是通过迭代过程来优化线性规划问题的解决方案。该算法从可行解空间的一个顶点出发,逐步沿着可行解空间的边界移动到另一个顶点,直到找到最优解。单纯形法的求解过程分为以下几个步骤: 初始化&a…

EE trade:黄金T+D是什么意思

黄金TD,全称“黄金延期交割”,是由上海黄金交易所推出的标准化合约,允许投资者以保证金的形式进行黄金交易,并可以选择当日交割或延期交割。它为国内投资者提供了一个全新的黄金投资渠道,但也存在一些风险,…

Linux进程切换以及调度算法

目录 Linux进程切换以及调度算法 Linux进程切换介绍 前置知识 进程切换过程分析 调度算法 补充知识 Linux进程切换以及调度算法 Linux进程切换介绍 前面提到,分时操作系统下,CPU会在多个进程中做高速切换以实现多个进程看似同时执行的&#xff0…

会员办理--足浴店系统开发代码———未来之窗行业应用跨平台架构

function fun_会员查询_事务_新增(){var 未来之窗vos对话框_内容 ;var title"test";var 未来之窗vos对话框_id"hjksgfjkkhkj";CyberWin_Dialog.layer(未来之窗vos对话框_内容,{type:"frame",title:"新增会员",move:false,width:"…

828华为云征文|WordPress部署

目录 前言 一、环境准备 二、远程连接 三、WordPress简介 四、WordPress安装 1. 基础环境安装 ​编辑 2. WordPress下载与解压 3. 创建站点 4. 数据库配置 总结 前言 WordPress 是一个非常流行的开源内容管理系统(Content Management System, CMS&#xf…

FTP 服务器 linux安装

文章目录 前言一、了解二、安装启动匿名连接 三、创建用户1. 创建系统用户2. 连接3. 连接不上? 5004. 还是连接不上? 5005. 还还还是连不上?530 补充关于创建用户useradd 命令如何设置用户不能登录shell不用系统指定的家目录 vsftpd 配置chro…

Python | Leetcode Python题解之第443题压缩字符串

题目&#xff1a; 题解&#xff1a; class Solution:def compress(self, chars: List[str]) -> int:def reverse(left: int, right: int) -> None:while left < right:chars[left], chars[right] chars[right], chars[left]left 1right - 1n len(chars)write lef…

Android15音频进阶之新播放器HwAudioSource(八十六)

简介: CSDN博客专家、《Android系统多媒体进阶实战》一书作者 新书发布:《Android系统多媒体进阶实战》🚀 优质专栏: Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏: 多媒体系统工程师系列【原创干货持续更新中……】🚀 优质视频课程:AAOS车载系统+…

面试扩展知识点

1.C语言中分为下面几个存储区 栈(stack): 由编译器自动分配释放堆(heap): 一般由程序员分配释放&#xff0c;若程序员不释放&#xff0c;程序结束时可能由OS回收全局区(静态区): 全局变量和静态变量的存储是放在一块的&#xff0c;初始化的全局变量和静态变量在一块区域&#…

线性表二——栈stack

第一题 #include<bits/stdc.h> using namespace std; stack<char> s; int n; string ced;//如何匹配 出现的右括号转换成同类型的左括号&#xff0c;方便我们直接和栈顶元素 char cheak(char c){if(c)) return (;if(c]) return [;if(c}) return {;return \0;/…

MySQL 高级 - 第十五章 | MySQL 事务日志

目录 第十五章 MySQL 事务日志15.1 redo 日志15.1.1 为什么需要 redo 日志15.1.2 redo 日志的优点与特点15.1.3 redo 的组成15.1.4 redo 的整体流程15.1.5 redo log 的刷盘策略15.1.6 不同刷盘策略演示15.1.7 写入 redo log buffer 过程15.1.8 redo log file 15.2 undo 日志15.…

lombok详细教程(详解)

Lombok 极速上手 此笔记来自于b站白马 背景 ⚠️ 开始学习Lombok前至少需要保证完成 JavaSE 课程中的注解部分&#xff0c;本课程采用的版本为 Java17 我们发现&#xff0c;在以往编写项目时&#xff0c;尤其是在类进行类内部成员字段封装时&#xff0c;需要编写大量的 get…

看480p、720p、1080p、2k、4k、视频一般需要多大带宽呢?

看视频都喜欢看高清&#xff0c;那么一般来说看电影不卡顿需要多大带宽呢&#xff1f; 以4K为例&#xff0c;这里引用一位网友的回答&#xff1a;“视频分辨率4092*2160&#xff0c;每个像素用红蓝绿三个256色(8bit)的数据表示&#xff0c;视频帧数为60fps&#xff0c;那么一秒…

基于微信小程序爱心领养小程序设计与实现(源码+参考文档+定制开发)

博主介绍&#xff1a; ✌我是阿龙&#xff0c;一名专注于Java技术领域的程序员&#xff0c;全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师&#xff0c;我在计算机毕业设计开发方面积累了丰富的经验。同时&#xff0c;我也是掘金、华为云、阿里云、InfoQ等平台…

excel统计分析(5): 非线性回归分析

非线性回归模型分类 非线性回归分析和预测模型包括&#xff1a;指数、对数、幂函数、多项式等。 &#xff08;1&#xff09;指数回归模型 指数回归模型适用于因变量随自变量的增加而迅速增长或减少的情况。 Yβ0⋅e^(β1⋅X) 其中&#xff0c;e是自然对数的底数&#xff0c;…