Llama 3.2:利用开放、可定制的模型实现边缘人工智能和视觉革命

news2024/11/16 2:38:08

在这里插入图片描述
在我们发布 Llama 3.1 模型群后的两个月内,包括 405B - 第一个开放的前沿级人工智能模型在内,它们所产生的影响令我们兴奋不已。 虽然这些模型非常强大,但我们也认识到,使用它们进行构建需要大量的计算资源和专业知识。 我们也听到一些开发人员说,他们没有这些资源,但仍然希望有机会使用 Llama 进行构建。 正如 Meta 创始人兼首席执行官马克-扎克伯格(Mark Zuckerberg)今天在 Connect 大会上所分享的,他们不必再等待了。 今天,我们发布了 Llama 3.2,其中包括适合特定边缘和移动设备的中小型视觉 LLM(11B 和 90B)和轻量级纯文字模型(1B 和 3B)。

从我们首次发布 Llama 到现在只有一年半的时间,我们在如此短的时间内取得了令人难以置信的进展。 今年,Llama 实现了 10 倍的增长,成为负责任创新的标准。 在开放性、可修改性和成本效益方面,Llama 也继续处于领先地位,与封闭模式相比,它具有很强的竞争力,甚至在某些领域处于领先地位。 我们相信,开放性能够推动创新,也是正确的发展道路,这也是我们继续与合作伙伴和开发者社区分享研究成果并开展合作的原因。

我们将在 llama.com 和 Hugging Face 上提供 Llama 3.2 模型下载,并在我们广泛的合作伙伴平台生态系统上提供即时开发。 合作伙伴是这项工作的重要组成部分,我们已经与超过 25 家公司合作,包括 AMD、AWS、Databricks、戴尔、谷歌云、Groq、IBM、英特尔、微软 Azure、英伟达(NVIDIA)、甲骨文云(Oracle Cloud)和 Snowflake,以便在第一天就提供服务。 在Llama 3.2版本中,我们还与设备合作伙伴Arm、联发科(MediaTek)和高通(Qualcomm)合作,在发布时提供广泛的服务。 从今天开始,我们还将向社区提供 Llama Stack。 有关最新版本的更多详情,包括欧洲多模式可用性的信息,请参阅我们的可接受使用政策。

Meet Llama 3.2

Llama 3.2 系列中最大的两个型号(11B 和 90B)支持图像推理用例,如文档级理解(包括图表和图形)、图像标题和视觉基础任务(如根据自然语言描述在图像中精确定位对象的方向)。 例如,一个人可能会问去年哪个月他的小企业销售额最高,Llama 3.2 就能根据可用的图表进行推理,并迅速给出答案。 另一个例子是,该模型可以根据地图进行推理,帮助回答徒步旅行何时会变得更加陡峭或地图上标注的某条小路的距离等问题。 11B 和 90B 模型还能在视觉和语言之间架起一座桥梁,从图像中提取细节,理解场景,然后编写一两句话作为图像说明,帮助讲述故事。

轻量级的 1B 和 3B 模型具有强大的多语言文本生成和工具调用能力。 这些模型使开发人员能够在设备上构建个性化的代理应用程序,而且数据不会离开设备,具有很强的私密性。 例如,这样的应用程序可以帮助总结最近收到的 10 条信息,提取行动项目,并利用工具调用功能直接发送后续会议的日历邀请。

在本地运行这些模型有两大优势。 首先,由于处理是在本地完成的,因此提示和响应可以感觉是即时的。 其次,在本地运行模型不会将信息和日历信息等数据发送到云端,从而维护了隐私,使整个应用程序更加私密。 由于处理是在本地进行的,因此应用程序可以清楚地控制哪些查询留在设备上,哪些查询可能需要由云中更大的模型来处理。

模型评估

我们的评估结果表明,在图像识别和一系列视觉理解任务上,Llama 3.2 视觉模型与领先的基础模型 Claude 3 Haiku 和 GPT4o-mini 相比具有竞争力。 在遵循指令、总结、提示改写和工具使用等任务上,3B 模型优于 Gemma 2 2.6B 和 Phi 3.5-mini 模型,而 1B 模型则与 Gemma 具有竞争力。

我们评估了 150 多个基准数据集的性能,这些数据集涵盖了多种语言。 对于视觉 LLM,我们在图像理解和视觉推理的基准数据集上进行了性能评估。

在这里插入图片描述
在这里插入图片描述

视觉模型

作为首款支持视觉任务的 Llama 模型,11B 和 90B 模型需要一个全新的模型架构来支持图像推理。

为了增加图像输入支持,我们训练了一组适配器权重,将预先训练好的图像编码器整合到预先训练好的语言模型中。 适配器由一系列交叉注意层组成,可将图像编码器表示输入语言模型。 我们对文本图像对进行适配器训练,以使图像表征与语言表征保持一致。 在适配器训练过程中,我们还更新了图像编码器的参数,但有意不更新语言模型参数。 这样,我们就保留了所有纯文本功能,为开发人员提供了 Llama 3.1 模型的即插即用替代品。

我们的训练流水线由多个阶段组成,从预训练的 Llama 3.1 文本模型开始。 首先,我们添加图像适配器和编码器,然后在大规模噪声(图像、文本)配对数据上进行预训练。 接下来,我们在中等规模的高质量域内和知识增强(图像、文本)配对数据上进行训练。

在后期训练中,我们使用与文本模型类似的方法,对监督微调、拒绝采样和直接偏好优化进行多轮对齐。 我们利用 Llama 3.1 模型生成合成数据,在域内图像上过滤和增强问题和答案,并使用奖励模型对所有候选答案进行排序,从而提供高质量的微调数据。 我们还添加了安全缓解数据,以生成一个具有高度安全性的模型,同时保留该模式的有用性。

最终,这套模型可以同时接收图像和文本提示,并深入理解和推理两者的结合。 这是 Llama 模型向更丰富的代理能力迈出的又一步。

轻量模型

正如我们在 Llama 3.1 中提到的,可以利用强大的教师模型来创建性能更强的小型模型。 我们在 1B 和 3B 模型上使用了两种方法–剪枝和蒸馏,使它们成为首批可高效安装在设备上的高功能轻量级 Llama 模型。

修剪使我们能够缩小 Llama 群中现存模型的大小,同时恢复尽可能多的知识和性能。 对于 1B 和 3B 模型,我们从 Llama 3.1 8B 中采用了结构化剪枝的方法。 这包括系统性地移除部分网络,并调整权重和梯度的大小,以创建一个更小、更高效的模型,同时保留原始网络的性能。

知识提炼利用较大的网络向较小的网络传授知识,其理念是较小的模型利用教师可以获得比从头开始更好的性能。 对于 Llama 3.2 中的 1B 和 3B,我们将 Llama 3.1 8B 和 70B 模型的对数纳入了模型开发的预训练阶段,这些较大模型的输出(对数)被用作标记级目标。 在剪枝之后,我们使用知识提炼来恢复性能。

在这里插入图片描述
在后期训练中,我们使用与 Llama 3.1 类似的方法,通过在预训练模型的基础上进行多轮对齐来生成最终的聊天模型。 每一轮都包括监督微调 (SFT)、拒绝采样 (RS) 和直接偏好优化 (DPO)。

在后期训练中,我们将上下文长度支持扩展到 128K 标记,同时保持与预训练模型相同的质量。 我们还参与合成数据的生成,对数据进行仔细处理和过滤,以确保高质量。 我们仔细混合数据,以优化摘要、改写、指令遵循、语言推理和工具使用等多种能力的质量。

为了让社区能够在这些模型上进行创新,我们与高通公司和联发科公司(全球前两大移动系统芯片(SoC)公司)以及为 99% 的移动设备提供基础计算平台的 Arm 公司密切合作。 今天发布的权重基于 BFloat16 数值。 我们的团队正在积极探索运行速度更快的量化变体,希望不久能分享更多相关信息。

Llama Stack distributions

今年七月,我们发布了关于 Llama Stack API 的意见征集,这是一个标准化接口,用于规范工具链组件(微调、合成数据生成),以定制 Llama 模型并构建代理应用程序。

从那时起,我们就一直在努力实现 API。 我们为推理、工具使用和 RAG 构建了 API 的参考实施。 此外,我们还与合作伙伴合作,使他们成为 API 的提供者。 最后,我们还推出了 Llama Stack Distribution(Llama 堆栈分发),作为一种打包多个 API 提供商的方法,这些 API 提供商可以很好地协同工作,为开发人员提供一个单一的端点。 现在,我们正在与社区分享一种简化且一致的体验,使他们能够在多种环境(包括内部部署、云、单节点和设备)中使用 Llama 模型。

在这里插入图片描述
全套版本包括

  1. 用于构建、配置和运行 Llama Stack 发行版的 Llama CLI(命令行界面)
  2. 多种语言的客户端代码,包括 python、node、kotlin 和 swift
  3. 用于 Llama Stack 发行版服务器和代理 API 提供商的 Docker 容器
  4. 多种发行版
    • 通过 Meta 内部实现和 Ollama 实现单节点 Llama 堆栈分发
    • 通过 AWS、Databricks、Fireworks 和 Together 进行云计算Llama Stack distributions
    • 通过 PyTorch ExecuTorch 在 iOS 上实现设备上的 Llama Stack 发行版
    • 戴尔支持内部部署的 Llama Stack Distribution

我们期待与开发人员和合作伙伴合作,简化使用 Llama 模型构建的各个方面,并欢迎反馈意见。

在这里插入图片描述

系统级安全

采取开放的方法有很多好处。 它有助于确保全世界更多的人能够获得人工智能提供的机会,防止权力集中在少数人手中,并在全社会更公平、更安全地部署技术。 在我们不断创新的同时,我们也希望确保我们能够授权开发人员构建安全、负责任的系统。

基于我们先前的发布以及不断努力支持负责任的创新,今天,我们正在为保障措施系列添加新的更新:

  • 首先,我们将发布Llama Guard 3 11B Vision,该Vision旨在支持Llama 3。2 ’的新图像理解功能,并过滤文本+图像输入提示或对这些提示的文本输出响应。
  • 其次,当我们发布1B和3B Llama模型以用于更受约束的环境(例如设备上)时,我们还对Llama Guard进行了优化,以大大降低其部署成本。Llama Guard 3 1B基于Llama 3。2 1B模型,并已进行修剪和量化,使其大小从2,858 MB降至438 MB,从而使其部署效率比以往更高。

这些新解决方案已集成到我们的参考实现,演示和应用程序中,并已准备好供开源社区在第一天使用。

Huggingface

在这里插入图片描述
除了现有的支持文本的 Llama 3.1 8B、70B 和 405B 模型外,Llama 3.2 还支持多模态用例。 您现在可以使用 Meta 的四种新 Llama 3.2 模型(90B、11B、3B 和 1B)来构建、实验和扩展您的创意想法:

Llama 3.2 90B Vision(文本+图像输入)–Meta 最先进的模型,是企业级应用的理想选择。 该模型擅长常识、长文本生成、多语言翻译、编码、数学和高级推理。 它还引入了图像推理功能,可用于图像理解和视觉推理任务。 该模型非常适合以下用例:图像标题、图像文本检索、视觉基础、视觉问题解答和视觉推理,以及文档视觉问题解答。

Llama 3.2 11B Vision(文本+图像输入)–非常适合内容创建、对话式人工智能、语言理解和需要视觉推理的企业应用。 该模型在文本摘要、情感分析、代码生成和执行指令方面表现出色,并增加了图像推理能力。 该模型的用例与 90B 版本类似:图像标题、图像文本检索、视觉基础、视觉问题解答和视觉推理,以及文档视觉问题解答。

Llama 3.2 3B(文本输入)–专为需要低延迟推理和有限计算资源的应用而设计。 它擅长文本摘要、分类和语言翻译任务。 该模型非常适合以下用例:人工智能驱动的移动写作助手和客户服务应用。

Llama 3.2 1B(文本输入)- Llama 3.2 模型系列中最轻量级的模型,非常适合边缘设备和移动应用程序的检索和摘要。 该模型非常适合以下用例:个人信息管理和多语言知识检索。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2169203.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

成都网安周暨CCS2024 | 大模型安全与产业应用创新研讨活动成功举办

9月11日-12日,作为2024年国家网络安全宣传周成都系列活动的重磅活动之一,CCS 2024成都网络安全系列活动在成都举行。“大模型安全与产业应用创新研讨活动”同期举办,本场活动由百度安全、成都无糖信息联合承办,特邀云安全联盟CSA大…

MYSQL求月份同比数据和环比数据

1.需求题目如下 1.首先求出每月每个account_id 对应的amount金额 2.利用表自关联,获取上月,上年对应月份及金额, 关联条件利用 主表月份-1个月上月月份 和 主表月份-1年上年月份 3.最后求同比和环比 附代码及测试数据 CREATE TABLE transa…

HTML·第3章 表格布局与表单交互

3.1 表格概述 3.1.1 表格的结构 表格是由行和列组成的二维表,而每行又由一个或多个单元格组成,用于放置数据或其他内容。表格中的单元格是行与列的交叉部分,是组成表格的最基本单元。单元格的内容是数据,也称数据单元格。数据单元…

如何在 macOS(MacBook Pro、Air 和 iMac)上恢复未保存的 Word 文档

Microsoft Word 在许多用户中很受欢迎,并且有多种用途。无论是为学校写论文、在办公室写报告还是其他许多事情。但是不保存文档并丢失数据可能是您可能面临的最可怕的噩梦。但是,也有几种方法可以在 macOS 上恢复未保存的 Word 文档。 用户在 Windows P…

【C++笔试强训】如何成为算法糕手Day5

学习编程就得循环渐进,扎实基础,勿在浮沙筑高台 循环渐进Forward-CSDN博客 目录 循环渐进Forward-CSDN博客 第一题:游游的you 思路: 第二题:腐烂的苹果 思路: 第三题:孩子们的游戏 思路&…

RabbitMQ下载安装运行环境搭建

RabbitMQ运行环境搭建 1、Erlang及RabbitMQ安装版本的选择2、下载安装Erlang2.1、下载Erlang2.2、安装Erlang2.2.1、安装Erlang前先安装Linux依赖库2.2.2、解压Erlang压缩包文件2.2.3、配置2.2.4、编译2.2.5、安装2.2.6、验证erlang是否安装成功 3、RabbitMQ下载安装3.1、下载3…

基于SSM+小程序的医院核酸检测服务管理系统(医院2)(源码+sql脚本+视频导入教程+文档)

👉文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1、项目介绍 基于SSM小程序的医院核酸检测服务管理系统实现了管理员、用户管理、普通管理员、医护人员。 1、管理员实现了首页、用户管理、医护人员管理、普通管理员、通知公告管理、疫苗接种管理、核…

2023_Spark_实验九:编写WordCount程序(Scala版)

需求: 1、做某个文件的词频统计//某个单词在这个文件出现次数 步骤: 文件单词规律(空格分开)单词切分单词的统计(k,v)->(k:单词,V:数量)打印 框架: 单…

基于RPA+BERT的文档辅助“悦读”系统 | OPENAIGC开发者大赛高校组AI创作力奖

在第二届拯救者杯OPENAIGC开发者大赛中,涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到,我们特意开设了优秀作品报道专栏,旨在展示其独特之处和开发者的精彩故事。 无论您是技术专家还是爱好者,希望能带给…

毕业设计选题:基于ssm+vue+uniapp的鲜花销售小程序

开发语言:Java框架:ssmuniappJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包:M…

uniapp EChars图表

1. uniapp EChars图表 (1)Apache ECharts 一个基于 JavaScript 的开源可视化图表库   https://echarts.apache.org/examples/zh/index.html (1)官网图例 (2)个人实现图例 1.1. 下载echart 1.1.1. 下…

新手教学系列——系统模块划分原则:如何让系统架构更加灵活与高效

在现代软件开发中,模块化设计是一个至关重要的概念。对于初学者来说,理解如何合理划分系统模块不仅能提高代码的可读性,还能让系统架构更具灵活性和可维护性。本文将深入探讨模块划分的基本原则,结合功能边界和数据边界的划分实例,帮助大家在实际开发中掌握模块化设计的精…

高校竞赛管理系统的设计与实现

摘 要 如今社会上各行各业,都喜欢用自己行业的专属软件工作,互联网发展到这个时候,人们已经发现离不开了互联网。新技术的产生,往往能解决一些老技术的弊端问题。因为传统高校竞赛管理系统信息管理难度大,容错率低&am…

828华为云征文 | 华为云Flexus云服务器X实例搭建Zabbix网络设备监视系统(Ubuntu服务器运维)

前言 Flexus X实例内嵌智能应用调优算法,性能强悍,基础模式GeekBench单核及多核跑分可达同规格独享型实例的1.6倍,性能模式更是超越多系列旗舰型云主机,为企业业务提供强劲动力。 💼 Flexus X Zabbix:打造…

Spring Boot 快速入门教程

1. Spring Boot 简介 Spring Boot 是一个基于 Spring 框架的项目,它简化了基于 Spring 的 Java 应用程序的创建和部署。Spring Boot 通过提供一系列的“Starters”来简化 Maven 配置,同时使用约定大于配置的原则,让开发者能够以最少的配置启…

计算机视觉硬件整理(四):相机与镜头参数介绍

文章目录 前言一、工业相机常用分类二、工业相机的基本参数三、工业相机的接口四、工业镜头的参数五、工业镜头的选择要点 前言 随着科技的飞速发展,工业自动化和智能制造在当今社会扮演着越来越重要的角色。在这个背景下,工业相机作为一种关键的视觉检…

C# 委托(Delegate)一

一.Delegate的定义说明: C# 中的委托(Delegate)就是类似于 C 或 C 中函数的指针。Delegate 是存有对某个方法引用的一种引用类型变量,引用可在运行时是可以被改变的,特别适用于实现事件和回调方法。所有的Delegate都是…

微服务MongoDB解析部署使用全流程

1、什么是MongoDB 1、非关系型数据库 NoSQL,泛指非关系型的数据库。随着互联网web2.0网站的兴起,传统的关系数据库在处理web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心,出现了很多难以克服的问…

H5响应式的文化传媒娱乐公司HTML网站模板源码

源码名称:响应式的文化传媒娱乐公司HTML网站模板源码 源码介绍:一款自适应H5文化传媒娱乐公司官网源码,源码带有6个H5页面,可用于文化传媒和娱乐公司官网。 需求环境:H5 下载地址: https://www.51888w.c…

【漏洞复现】天融信 运维安全审计系统 synRequest.do 远程命令执行漏洞

免责声明: 本文内容旨在提供有关特定漏洞或安全漏洞的信息,以帮助用户更好地了解可能存在的风险。公布此类信息的目的在于促进网络安全意识和技术进步,并非出于任何恶意目的。阅读者应该明白,在利用本文提到的漏洞信息或进行相关测…