重磅!Meta 发布 Llama 3,前所未有的强大功能和多模态能力|TodayAI

news2024/10/7 16:25:34

Meta今日宣布推出其最新一代尖端开源大型语言模型Llama 3。该模型预计很快将在多个领先的云服务平台上线,包括AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM和Snowflake。

Llama 3模型得到了AMD、AWS、Dell、Intel、NVIDIA和Qualcomm等硬件平台的大力支持。Meta表示,他们致力于负责任地开发和推广Llama 3,为此引入了多项新的信任与安全工具,例如Llama Guard 2、Code Shield和CyberSec Eval 2。

在接下来的几个月中,Meta计划引入多项新功能,提供更长的上下文窗口、更多的模型尺寸选择,并进一步提升性能。此外,Meta还计划发布有关Llama 3的研究论文,以分享其技术细节和成就。

Llama 3技术使Meta AI成为全球领先的AI助手之一,旨在通过学习、完成任务、创造内容及更多方式增强用户智能和减轻负担。用户现已能够体验Meta AI的服务。

Meta同时推出了Llama 3的两个版本,包括预训练和指令微调的语言模型,分别具有8B和70B的参数,以支持广泛的应用场景。该模型在各种行业基准测试中展示了卓越性能,并引入了改进的推理功能。Meta坚信,这些都是目前最优秀的同类开源模型。

为了维护开放和共享的精神,Meta已将Llama 3交由社区使用,期望激发AI技术在整个技术堆栈中的创新,从应用开发到开发者工具,再到评估和推理优化等。Meta热切期待看到社区使用Llama 3取得的成果,并希望收到广泛的反馈。

尽早并频繁发布的策略

Meta已设定其新一代开源大型语言模型Llama 3的发展目标,旨在建构能够与当前市场上顶尖的专有模型竞争的优秀模型。公司计划依据开发者社区的反馈来增强Llama 3的整体实用性,并持续在负责任地使用和部署大型语言模型的领域中发挥领导作用。

为了贯彻开源精神,Meta采取了尽早并频繁发布的策略,确保社区在模型仍在开发阶段时即可访问和使用这些工具。作为Llama 3系列的首款产品,今天发布的模型主要基于文本处理。

Meta的近期计划包括扩展Llama 3的功能,使其支持多语言和多模态输入,并提供更长的上下文理解能力。此外,公司还致力于在模型的核心功能,如推理和编程上,持续提升性能,以满足更广泛的应用需求。

显著的性能提升

Meta的最新8B和70B参数模型Llama 3在先前版本Llama 2的基础上实现了显著的性能提升,设定了大型语言模型的新标准。这两个模型通过预训练和训练后的改进,已成为同类规模中的领先者。


 

具体来说,这些模型在减少错误拒绝率、提高对齐度以及增加模型响应多样性方面实现了显著的进步。 

 

此外,Meta还大幅提升了模型在推理、代码生成和指令遵循等关键功能上的能力,进一步增强了Llama 3的指导性和实用性。 

 

庞大的训练数据集

为了开发出卓越的语言模型,Meta投入了大量资源以策划一个庞大且高质量的训练数据集,这是培养成功的语言模型的关键因素。Llama 3模型在预训练阶段使用了超过15T的令牌,这些令牌均来自公开可获取的数据源。相比于Llama 2, Llama 3使用的训练数据集增加了七倍,其中包含的代码量也增加到了四倍。

为了满足即将推出的多语言用例,Llama 3的预训练数据集中超过5%的内容是覆盖30多种语言的高质量非英语数据。尽管如此,开发团队并不期望这些非英语语言的性能能完全与英语相匹敌。

为了确保Llama 3在最优质的数据上进行训练,Meta开发了一系列数据过滤管道,包括启用启发式过滤器、不适宜工作内容(NSFW)过滤器、语义去重技术以及用于预测数据质量的文本分类器。值得一提的是,先前版本的Llama模型在识别高质量数据方面表现卓越,因此Meta利用Llama 2生成了推动Llama 3的文本质量分类器的训练数据。

通过广泛的实验评估混合不同来源数据的最佳方式,Meta能够选择一个优化的数据组合,确保Llama 3在多种应用场景中,如小知识点问题、科学技术工程数学(STEM)、编程和历史知识等,都能有出色的表现。

扩大训练规模

在Meta的最新Llama 3模型开发过程中,公司为了有效地利用其庞大的预训练数据集,投入了大量资源扩大训练规模。这包括制定一系列详细的下游基准评估规模法则,以选择最佳数据组合并做出明智的计算资源分配决策。这些规模法则还使公司能够预测最大模型在关键任务上的表现,如基于HumanEval基准的代码生成,这些预测在实际训练模型前已经进行。

在开发Llama 3的过程中,Meta观察到几个新的规模行为模式。例如,尽管8B参数模型的最佳训练计算量对应于大约200B个令牌,但模型性能随着训练量增加至两个数量级后仍然在提高。公司的8B和70B参数模型在训练达到15T令牌后,性能持续呈对数线性提升。大型模型虽然可以用较少的训练计算匹配较小模型的性能,但较小模型由于在推理过程中更高的效率,通常更受青睐。

为了优化其最大的Llama 3模型,Meta结合了数据并行化、模型并行化和流水线并行化三种类型的并行化策略。在使用高达16K GPU进行训练时,其最高效的实现计算利用率超过400 TFLOPS每GPU。此外,Meta在两个定制构建的24K GPU集群上进行了训练。为了最大化GPU运行时间,公司开发了一个先进的训练堆栈,能够自动检测、处理和维护错误,并且显著提高了硬件可靠性和静默数据腐败检测机制。新的可扩展存储系统减少了检查点和回滚的开销,这些改进使整体有效训练时间超过95%,将Llama 3的训练效率提高了约三倍。

指令微调

在开发Llama 3模型的过程中,Meta采用了创新的指令微调技术以最大化其预训练模型在聊天应用场景中的效能。该公司的微调方法包括监督式微调(SFT)、拒绝采样、邻近策略优化(PPO)以及直接策略优化(DPO)。特别是在SFT中使用的提示和在PPO及DPO中使用的偏好排名对模型性能的提升有着显著影响。

Meta对这些数据进行了精心策划,并对人类注释员提供的注释进行了多轮质量保证,这些都是模型质量提升的关键因素。通过PPO和DPO学习偏好排名,Llama 3在推理和编程任务上的表现也得到了显著提高。公司观察到,当模型面对难以回答的推理问题时,它有时能够生成正确的推理轨迹,即模型知道如何得出正确答案,但之前不知道如何选取它。通过偏好排名的训练,模型学会了如何选取正确的答案,从而提高了整体性能和应用效果。

与Llama 3共建

在最近的Llama 3发布中,Meta推出了新的信任与安全工具,旨在使开发者能够更容易地定制Llama 3以支持相关用例,并推动最佳实践和开放生态系统的改进。这些工具包括带有Llama Guard 2和Cybersec Eval 2的更新组件以及新引入的Code Shield,一个用于过滤生成的不安全代码的推理时保护装置。

此外,Meta还与torchune合作开发了Llama 3,这是一个全新的PyTorch原生库,旨在简化编写、微调和实验大型语言模型(LLMs)的过程。torchune库提供了内存高效且易于修改的训练配方,完全使用PyTorch编写。该库已与Hugging Face、Weights & Biases和EleutherAI等流行平台集成,并支持Executorch,以便在各种移动和边缘设备上高效运行推理。

Meta提供了全面的入门指南,从下载Llama 3开始,覆盖提示工程和与LangChain的集成,指导开发者在生成式AI应用中进行规模部署。这一系列工具和资源旨在增强Llama 3的可定制性和易用性,同时确保其在各种应用场景中的安全性和效率。

负责任的部署

Meta在设计其最新的Llama 3模型时,采取了一种系统级的方法,旨在确保其模型不仅在行业中以负责任的方式部署,同时也能最大限度地提供帮助。公司视Llama模型为更广泛系统的一部分,使开发者能够根据自己的独特目标设计系统,将Llama模型作为核心组成部分。

 

在确保模型安全性方面,指令微调发挥了关键作用。Llama 3的指令微调模型已经通过了一系列内部和外部的红队安全测试,这些测试包括由人类专家和自动化系统执行的对抗性提示生成,以诱发并识别潜在的问题响应。例如,Meta对模型在化学、生物和网络安全等高风险领域的误用进行了全面测试,这些测试旨在评估和减少滥用风险。

此外,Llama Guard模型被设计为一个安全提示和响应的基础框架,可以根据具体应用需求进行灵活微调,创建新的分类法。最新的Llama Guard 2采用了最近宣布的MLCommons分类法,支持这一重要行业标准的发展。同时,CyberSecEval 2在其前身基础上进行了扩展,增加了对LLM的安全性能评估,包括防止其代码解释器被滥用、网络安全能力被恶意利用和对提示注入攻击的抵抗力。

最后,Meta引入了Code Shield,增强了对推理时过滤不安全代码的支持,提供了围绕不安全代码建议、代码解释器滥用预防和安全命令执行的风险缓解措施。这些努力的详细描述可在公司发布的模型卡和技术论文中找到。

全球范围的部署

Llama 3模型即将在全球范围内的所有主要平台上推出,包括各大云服务提供商和模型API提供商,预计将实现广泛的可访问性。

根据Meta的基准测试,Llama 3的新标记器在令牌效率上有显著提升,与前代模型Llama 2相比,令牌使用量减少了多达15%。此外,群组查询注意力(GQA)技术已被整合到Llama 3的8B版本中。尽管Llama 3的参数量比Llama 2的7B版本多出1B,但得益于标记器效率的提升和GQA的添加,Llama 3保持了与Llama 2相当的推理效率。

对于希望了解如何利用这些新功能的开发者,Meta推荐查阅Llama Recipes,这是一系列包含从微调到部署再到模型评估各个环节的开源代码示例,旨在帮助用户最大化Llama 3模型的应用潜力。

Meta的未来计划

Meta的新语言模型Llama 3已经发布了其8B和70B参数版本,这只是该公司为Llama 3计划发布的众多内容的开始。Meta还计划在未来几个月推出多个功能更加丰富的模型,包括多模态性、多语言对话能力、更长的上下文窗口以及更强大的总体性能。其中,最大的模型已经达到了400B参数,虽然这些模型仍在训练中,但Meta团队对其发展趋势表示非常期待。

 

一旦Llama 3的开发和训练完成,Meta还计划发布一篇详细的研究论文,以深入介绍这些模型的技术和性能。为了让公众提前了解这些模型的当前状态,Meta提供了一些关于其最大语言模型(LLM)的发展趋势的快照,尽管需要注意,这些数据基于目前仍在训练中的Llama 3的早期检查点,并且今天发布的模型尚未支持这些新功能。

Meta强调,他们致力于持续发展和开发一个开放的AI生态系统,并负责任地发布其模型。公司一直认为,开放性能够带来更优质、更安全的产品,加速创新,并促进市场的整体健康。这种策略不仅对Meta有利,对整个社会同样有益。目前,Llama 3已在全球领先的云平台、托管服务和硬件平台上提供,并且未来将会有更多的扩展。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1607238.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

解决VirtualBox虚拟机启动失败的问题

一.出现的问题(未能启动虚拟电脑,由于物理网卡未找到) 一、错误信息分析 “未能启动虚拟电脑,由于物理网卡未找到”:这个错误通常是由于VirtualBox无法识别或连接到物理网卡造成的。可能是由于驱动程序问题、网络设置错…

Hadoop——Yarn 调度器和调度算法

Yarn 调度器和调度算法 YARN调度器(Scheduler)是负责将集群资源分配给不同应用程序的组件。它根据应用程序的资源需求和优先级,以及集群的资源供给情况,决定如何分配资源。YARN提供了多种调度器实现,每种调度器都有不…

力扣:219. 存在重复元素 II

力扣&#xff1a;219. 存在重复元素 II 给你一个整数数组 nums 和一个整数 k &#xff0c;判断数组中是否存在两个 不同的索引 i 和 j &#xff0c;满足 nums[i] nums[j] 且 abs(i - j) < k 。如果存在&#xff0c;返回 true &#xff1b;否则&#xff0c;返回 false 。 …

服务调用-微服务小白入门(4)

背景 各个服务应用&#xff0c;有很多restful api&#xff0c;不论是用哪种方式发布&#xff0c;部署&#xff0c;注册&#xff0c;发现&#xff0c;有很多场景需要各个微服务之间进行服务的调用&#xff0c;大多时候返回的json格式响应数据多&#xff0c;如果是前端直接调用倒…

ST-GCN模型详解(+openpose)

ST-GCN模型详解&#xff08;openpose&#xff09; 一、什么是ST-GCN呢 基于骨架的动作识别&#xff08;Skeleton-Based Action Recognition&#xff09;主要任务是从一系列时间连续的骨骼关键点&#xff08;2D/3D&#xff09;中识别出正在执行的动作。因为牵涉到骨骼框架这种…

工控CTF之协议分析类型

协议分析 主要以工控流量和恶意流量为主&#xff0c;难度较低的题目主要考察Wireshark使用和找规律&#xff0c;难度较高的题目主要考察协议定义和特征 简单只能简单得干篇一律&#xff0c;难可以难得五花八门 常见的工控协议有&#xff1a;Modbus、MMS、IEC60870、MQTT、CoA…

完整版软件建模复习题和答案

一、单选题 D &#xff09;1&#xff0e;下面哪个不是信息系统利益相关者&#xff1f; A&#xff0e;客户 B&#xff0e;用户 C&#xff0e;开发人员 D&#xff0e;监理人员 B &#xff09;2&#xff0e;下面哪项不是用户主要关注的软件质量属性&#xff1f; A&#xff0e;…

解线性方程组——上三角、下三角,回代算法 | 北太天元

解上三角(回代) a i i ≠ 0 a_{ii\neq0} aii0​ , i 1 , 2 , … , n i1,2,\ldots,n i1,2,…,n a 11 x 1 a 12 x 2 ⋯ a 1 n x n b 1 a 22 x 2 ⋯ a 2 n x n b 2 ⋯ a n n x n b n \begin{aligned} a_{11}x_1a_{12}x_2\cdotsa_{1n}x_n&b_1 \\ a_{22}x_2\cdotsa_…

基于Matlab机器人工具箱对Dobot机械臂的研究

文章目录 文章目录 前言 一、Dobot Mangician 分析 二、Matlab 机器人工具箱 1. 建立模型 2. DoBot 正向运动学 3. Dobot 逆运动学 4. Dobot workpace 5. Dobot轨迹规划 三、Dobot studio 1. DoBot teaching 2. DoBot Python 程序 总结 前言 在本实验中&#xf…

自如电费均摊问题

3月份搬了次家&#xff0c;嫌麻烦租了自如&#xff0c;第一个月的电费账单出来了&#xff0c;由于我是中途搬进去的&#xff0c;于是乎就好奇他会如何计算均摊&#xff0c;这个月电费账单出来了&#xff0c;算了下发现了点东西。 先说结论&#xff1a;按照我的这个均摊的方式&a…

TCP报文与三次握手四次断开、TCP最大连接数与文件打开数限制、keepalive、tcpdump、wireshark抓包分析工具

TCP报文 tcp详解、tcp与udp对比等 TCP:传输控制协议 UDP&#xff1a;用户数据报协议 源端口和目的端口字段&#xff1a;各占 2 字节&#xff08;16位&#xff09;。端口是运输层与应用层的服务接口。运输层的复用和分用功能都要通过端口才能实现。 序列号&#xff1a;在建立…

万兆以太网10G Ethernet简介

2002年6月IEEE标准协会批准了万兆&#xff08;10G&#xff09;以太网的正式标准。此标准的全名是“10Gbit/s工作的媒体接入控制参数、物理层和管理参数”。 另一个组织是10G以太网联盟(10GEA)。10GEA由网络界的著名企业创建&#xff0c;现已有一百多家企业参加&#xff0c;中国…

Pytorch DistributedDataParallel(DDP)教程一:快速入门理论篇

Pytorch DistributedDataParallel&#xff08;DDP&#xff09;教程一&#xff1a;快速入门理论篇 目录 一、 写在前面二、什么是分布式并行训练1. 并行训练2. 数据并行 三、DDP的基本原理1. DDP的训练过程2. Ring-All-Reduce算法 四、如何搭建一个Pytorch DDP代码框架1. 与DDP有…

javaScript常用知识点

1. this指向问题 在绝大多数情况下&#xff0c;函数的调用方式决定了this的值。this不能在执行期间被赋值&#xff0c;并且在每次函数被调用时this的值也可能会不同。 this指向的对象称为函数的上下文对象context&#xff1b;this的指向取决于函数被调用方式this的指向不是函数…

【机器学习】小波变换在特征提取中的实践与应用

小波变换在特征提取中的实践与应用 一、小波变换的基本原理与数学表达二、基于小波变换的特征提取方法与实例三、小波变换在特征提取中的优势与展望 在信号处理与数据分析领域&#xff0c;小波变换作为一种强大的数学工具&#xff0c;其多尺度分析特性使得它在特征提取中扮演着…

云服务器部署Springboot项目

前端项目打包 修改ip地址 在控制台输入npm run build:prod 会产生dist文件 将dist文件中的内容移动至/usr/local/nginx/html目录下 后端项目打包 修改ip地址 执行clean操作 执行install操作 将生成的target文件中的jar包移动至/usr/local/src目录下 启动 注意⚠️&#xff…

【linux】Ubuntu 修改用户名

第一次打开Ubuntu时不小心把初始用户名“siriusiot”写成“siriousiot”&#xff08;多了一个o&#xff09; 。作为技术人&#xff0c;我们要保持严谨&#xff0c;我们要纠正过来&#xff08;其实就是单词拼错了怕被笑话&#xff09;。 打开终端&#xff0c;输入&#xff1a; …

Redis key(BigKey、MoreKey)的存储策略

1. MoreKey 案例 1.1 大批量往 redis 里面 插入2000w 测试数据key (1) Linux Bash 下面执行&#xff0c;插入 100w rootspray:~# for((i1;i<100*10000;i)); do echo "set k$i v$i" >> /tmp/redisTest.txt; done; 查看 rootspray:~# more /tmp/redisTest.…

ABAP报表开发总结---采购排产表

1.动态创建内表 1.1首先维护好一个子例程 FORM frm_add_fcat USING value1 value2 value3 value4.wa_fcat-fieldname value1.wa_fcat-inttype value2.wa_fcat-reptext value3.wa_fcat-intlen value4.APPEND wa_fcat TO it_fcat.CLEAR: wa_fcat. ENDFORM. "frm_add_f…

win/mac达芬奇19下载:DaVinci Resolve Studio 19

DaVinci Resolve Studio 19 是一款功能强大的视频编辑和调色软件&#xff0c;广泛应用于电影、电视和网络节目的后期制作。这款软件不仅提供了专业的剪辑、调色和音频处理工具&#xff0c;还引入了全新的DaVinci Neural Engine AI工具&#xff0c;对100多项功能进行了大规模升级…