Llama 3 模型系列解析(一)

news2025/2/19 7:54:15

目录

1. 引言

1.1 Llama 3 的简介

1.2 性能评估

1.3 开源计划

1.4 多模态扩展

ps

1. 缩放法则

2. 超额训练(Over-training)

3. 计算训练预算

4. 如何逐步估算和确定最优模型?

2. 概述

2.1 Llama 3 语言模型开发两个主要阶段

2.2 多功能模型的能力

2.3 多模态扩展实验


1. 引言

基础模型 是面向语言、视觉、语音和其他多模态的大型模型,旨在支持各种 AI 任务。它们是许多现代 AI 系统的核心。 现代基础模型的开发主要包括两个阶段:

  • 预训练阶段在大规模数据集上进行训练,任务通常很简单,比如预测下一个单词或生成字幕。

  • 后训练阶段模型经过调整以能够遵循指令,更好地符合人类偏好,并提升特定能力(例如编码和推理)。

在本文中,我们介绍了一组名为 Llama 3 的全新语言基础模型。Llama 3 系列模型本地支持多语言、编码、推理和工具使用。我们的最大模型是一个拥有 4050 亿参数的稠密 Transformer,能够在最长 128K 个 token 的上下文窗口中处理信息。

1.1 Llama 3 的简介

  • Llama 3 是一组多语言大语言模型,由三个不同规模的模型组成:8B、70B 和 405B 参数

    • 8B:小型模型,适合资源受限的场景。

    • 70B:中型模型,性能与计算需求均衡。

    • 405B:旗舰模型,性能接近 GPT-4。

开发高质量基础模型有三个关键要素:数据、规模和复杂性管理

数据:训练数据量提升到 15T token,是 Llama 2 的 8 倍以上。数据更广泛、更高质量,使模型更强大。

规模:旗舰模型拥有 4050 亿参数,远超 Llama 2。这种大模型具备更强的泛化能力和复杂任务处理能力

复杂性管理:采用更稳定的稠密 Transformer,而非更复杂的混合模型,确保训练稳定性和易于扩展。

表 1 解读

  • Llama 3.1 版本的模型全面支持多语言、长上下文和工具使用,而早期的 Llama 3 版本仅在部分模型中实现这些功能。

  • 405B 模型 是当前最大的模型版本,展现了在大规模训练下的顶级性能。是基于缩放法则的计算最优模型。

  • 小型模型如 8B 和 70B 虽然更小,但通过更长时间的训练(超额训练),在同样的推理预算下,也能达到接近旗舰模型的效果。

  • Instruct 版本 是针对指令优化的模型,能更好地遵循人类输入,实现更精确的响应。

1.2 性能评估

  • 研究团队在广泛的基准数据集上评估了 Llama 3 的表现,这些数据集涵盖了多种语言理解任务。

  • **旗舰模型(405B 参数)**的表现:

    • 在多个任务上接近或达到 GPT-4 的水平,非常接近当前的最先进(state-of-the-art)语言模型。

  • 小型模型(8B 和 70B 参数)

    • 在同样的参数规模下,小型模型优于其他竞争模型(如 Bai et al., 2023;Jiang et al., 2023),证明了它的高效性。

1.3 开源计划

  • 公开发布:所有三个 Llama 3 模型(8B、70B、405B)将通过一个更新的 Llama 3 社区许可协议(Community License)开放 https://llama.meta.com. 包括:

    • 预训练版本(405B):基础大模型。

    • 微调版本(405B):优化过的指令版本。

    • Llama Guard 模型:用于输入和输出的安全性检查。

1.4 多模态扩展

  • 多模态支持:Llama 3 团队正在开发扩展模型,使其能够支持以下任务:

    • 图像识别(image recognition)。

    • 视频分析(video recognition)。

    • 语音理解(speech understanding)。

  • 这些多模态模型仍在积极开发中,目前尚未准备好发布。

ps

1. 缩放法则

基础模型的缩放法则(Scaling Laws for Foundation Models)是指在训练大型模型时,模型的性能如何随以下三大因素扩展而提高的规律:

  • 数据规模(Data Size)

  • 模型参数量(Model Size)

  • 计算量(FLOPs)(Compute Budget)

这些法则揭示了:

  • 更大的模型 在更大的数据集上训练,并使用更多的计算资源时,其性能通常会持续提升。

  • 性能提升是可预测的,即模型的损失函数或下游任务的精度,可以根据模型规模和计算量的增加呈现出幂律关系。

简单理解

  • 小模型+长时间训练大模型+少训练时间

  • 计算最优模型在两者之间找到平衡,确保在有限的预算下获得最高性能

2. 超额训练(Over-training)

超额训练 指的是在模型已经达到计算最优之后,继续进行训练,投入更多的计算量或数据,尽管提升幅度变小,但最终模型表现会略优于计算最优模型。

通常适用于:

  • 关键任务:需要高精度的任务(如医疗、自动驾驶)。

  • 长尾场景:在罕见或复杂数据上需要更强的泛化能力。

3. 计算训练预算

经验值参考

  • GPT-3 (175B 参数) 训练耗费约 3.14 × 10²³ FLOPs

  • LLaMA 2 (65B 参数) 训练耗费约 1.0 × 10²³ FLOPs

  • PaLM 540B 参数 训练预算约 6.4 × 10²⁴ FLOPs

1E24 FLOPs 是一个行业通用的经验值,适合训练 50B~100B 参数规模的模型。

训练预算也可以通过公式推导,结合模型参数量和数据量来计算。

4. 如何逐步估算和确定最优模型?

行业基准:很多公司在训练 50B~100B 参数模型时,通常预算约在 1E24−5E24FLOPs范围内。

计算资源:这个预算量级对应当前行业常用的 TPU/GPU 集群资源,能够在合理时间内完成大规模模型训练。

总结:流程简化版

  1. 用公式估算最优模型参数量(先估模型大小)。

  2. 反算训练预算(FLOPs),确保资源充足。

  3. 训练不同规模模型,观察损失曲线变化。

  4. 在计算最优点停下或决定超额训练

2. 概述

Llama 3 的模型架构如图 1 所示。

2.1 Llama 3 开发两个主要阶段

语言模型的预训练(Language model pre-training)

  • 我们首先将一个大规模的多语言文本语料库转换为离散的 token(标记),并使用这些数据对一个大型语言模型(LLM)进行预训练,以执行下一个 token 的预测任务。

  • 在语言模型的预训练阶段,模型通过“阅读”文本,学习语言的结构并获得关于世界的大量知识。

  • 为了高效实现这一点,预训练在大规模环境下进行:我们对一个拥有 4050 亿参数的模型进行了预训练,使用了 15.6 万亿 token 的语料,支持的上下文窗口为 8K token

  • 在标准预训练阶段完成后,还进行了进一步的预训练阶段,将支持的上下文窗口扩展到 128K token(详见第 3 节)。

语言模型的后训练(Language model post-training)

  • 虽然经过预训练的语言模型对语言有了丰富的理解,但它尚不能遵循指令,或表现出我们期望的助手行为。

  • 我们通过多轮次的对齐优化,使模型与人类反馈保持一致,每一轮都包括:

    • 使用指令微调数据进行的监督微调(SFT

    • 直接偏好优化(DPO;Rafailov 等人,2024)。

  • 在后训练阶段,我们还整合了新的功能,例如工具使用,并在其他领域(如编程和推理)上观察到显著改进(详见第 4 节)。

  • 最后,在后训练阶段中还加入了安全性缓解措施,详细内容详见第 5.4 节。

2.2 多功能模型的能力

训练后的 Llama 3 模型具备丰富的功能:

  • 能够使用至少八种语言回答问题

  • 撰写高质量代码

  • 解决复杂的推理问题

  • 支持零样本使用工具或开箱即用。

2.3 多模态扩展实验

我们还进行了实验,为 Llama 3 添加了图像、视频和语音处理能力。这些能力是通过一个组合方法实现的,分为以下三个阶段

1. 多模态编码器预训练(Multi-modal encoder pre-training)

图像编码器

  • 我们为图像和语言训练了独立的图像编码器,使用了大量图像-文本对。

  • 这让模型能够学习视觉内容与自然语言描述之间的关系。

语音编码器

  • 我们使用一种自监督方法训练语音编码器,方法是在语音输入中掩盖部分信号并让模型尝试重建这些掩盖的部分,输出为离散的 token 表示。

  • 结果是模型学会了语音信号的结构和特征。

2. 视觉适配器训练(Vision adapter training)

我们为图像编码器设计了一个适配器(adapter),将其与预训练的语言模型集成。

  • 适配器包含一系列交叉注意力层(cross-attention layers),用于将图像编码器的表示输入到语言模型中。

  • 训练适配器时使用的是图像-文本对数据,使图像表示和语言表示对齐。

训练过程中:

  • 图像编码器参数会更新。

  • 语言模型参数不会更新。

视频适配器

  • 在图像适配器的基础上,我们使用视频-文本对数据训练了一个视频适配器,使模型能够跨帧聚合信息。

3. 语音适配器训练(Speech adapter training)

最后,我们通过一个适配器将语音编码器集成到模型中,适配器将语音编码转换为可以直接输入到微调语言模型的 token 表示。

适配器和语音编码器的参数在监督微调阶段一起更新,以实现高质量的语音理解。

训练过程中:

  • 语言模型参数不会被改变。

我们还集成了一个文本到语音系统(text-to-speech system),进一步增强了语音交互能力。

实验结果

这些多模态实验结果表明,Llama 3 的扩展模型能够:

  • 识别图像和视频的内容。

  • 支持通过语音接口与用户交互。

当前状态:这些模型仍在开发中,尚未准备好发布。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2265963.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【多时段】含sop的配电网重构【含分布式电源】【已更新视频讲解】

1 主要内容 之前分享了很多配电网重构的程序,每个程序针对场景限定性比较大,程序初学者修改起来难度较大,本次分享一个基础程序,针对含sop的配电网重构模型,含风电和光伏,优化了33节点网络电压合理性&…

使用 Elastic AI Assistant 简化威胁情报报告

作者:来自 Tommy Bumford 了解 SRE 不断扩展的角色以及所需的新技能:成本管理和 AI。 通过 AI 驱动的报告为分析师提供支持 在不断发展的网络安全领域,威胁分析师不断被新的威胁情报 (threat intelligence - TI) 数据淹没。挑战不仅在于理解…

64.基于SpringBoot + Vue实现的前后端分离-新闻资讯系统(项目 + 论文)

项目介绍 传统信息的管理大部分依赖于管理人员的手工登记与管理,然而,随着近些年信息技术的迅猛发展,让许多比较老套的信息管理模式进行了更新迭代,文章信息因为其管理内容繁杂,管理数量繁多导致手工进行处理不能满足广…

word无法创建工作文件,检查临时环境变量。

word无法创建工作文件,检查临时环境变量。 word preview版本,关联打开文件出现报错。word无法创建工作文件,检查临时环境变量。 打开注册表,删除键 Word Preview: HKCR\CLSID{84F66100-FF7C-4fb4-B0C0-02CD7FB668FE} PowerPoint …

人工智能ACA(七)——计算机视觉基础

一、自然语言处理基本介绍 1. 自然语言处理的定义 1-1 自然语言 人类使用的在社会生活中自然形成的语言 1-2 自然语言处理 目标是让计算机能够理解、解析、生成和处理人类的自然语言 包含自然语言理解和自然语言生成两部分组成 2. 自然语言处理的发展趋势 3.自然语言处理…

(带源码)宠物主题商场系统 计算机项目 P10083

项目说明 本号所发布的项目均由我部署运行验证,可保证项目系统正常运行,以及提供完整源码。 如需要远程部署/定制/讲解系统,可以联系我。定制项目未经同意不会上传! 项目源码获取方式放在文章末尾处 注:项目仅供学…

编程考古-传奇的开始Delphi(中)

发布会 这是 Delphi 发布的邀请: 许多曾经风靡一时的开发工具已逐渐淡出人们的视野,被历史的洪流所淹没。然而,Delphi不仅没有被遗忘,反而持续保持着其独特的魅力和广泛的用户基础。这不仅彰显了Delphi在快速变化的技术领域中的持…

山景BP1048增加AT指令,实现单片机串口控制播放音乐(一)

1、设计目的 山景提供的SDK是蓝牙音箱demo,用户使用ADC按键或者IR遥控器,进行人机交互。然而现实很多场景,需要和单片机通信,不管是ADC按键或者IR接口都不适合和单片机通信。这里设计个AT指令用来和BP1048通信。AT指令如下图所示…

IntelliJ IDEA Docker集成

一、概述 Docker是一种用于在隔离和可复制环境中部署和运行可执行文件的工具。这可能很有用,例如,在与生产相同的环境中测试代码。 IntelliJ IDEA集成了Docker功能,并为创建Docker映像、运行Docker容器、管理Docker Compose应用程序、使用公…

43. Three.js案例-绘制100个立方体

43. Three.js案例-绘制100个立方体 实现效果 知识点 WebGLRenderer(WebGL渲染器) WebGLRenderer是Three.js中最常用的渲染器之一,用于将3D场景渲染到网页上。 构造器 WebGLRenderer(parameters : Object) 参数类型描述parametersObject…

Linux------进程处理(system库函数)

视频&#xff1a; 【尚硅谷嵌入式Linux应用层开发&#xff0c;linux网络编程&#xff0c;linux进程线程&#xff0c;linux文件io】https://www.bilibili.com/video/BV1DJ4m1M77z?p34&vd_source342079de7c07f82982956aad8662b467 #include <stdlib.h> #include <…

自然语言处理与知识图谱的融合与应用

目录 前言1. 知识图谱与自然语言处理的关系1.1 知识图谱的定义与特点1.2 自然语言处理的核心任务1.3 二者的互补性 2. NLP在知识图谱构建中的应用2.1 信息抽取2.1.1 实体识别2.1.2 关系抽取2.1.3 属性抽取 2.2 知识融合2.3 知识推理 3. NLP与知识图谱融合的实际应用3.1 智能问答…

【数据库初阶】数据库基础知识

&#x1f389;博主首页&#xff1a; 有趣的中国人 &#x1f389;专栏首页&#xff1a; 数据库初阶 &#x1f389;其它专栏&#xff1a; C初阶 | C进阶 | 初阶数据结构 亲爱的小伙伴们&#xff0c;大家好&#xff01;在这篇文章中&#xff0c;我们将深入浅出地为大家讲解 数据库…

【LeetCode】726、原子的数量

【LeetCode】726、原子的数量 文章目录 一、递归: 嵌套类问题1.1 递归: 嵌套类问题 二、多语言解法 一、递归: 嵌套类问题 1.1 递归: 嵌套类问题 遇到 ( 括号, 则递归计算子问题 遇到大写字母, 或遇到 ( 括号, 则清算历史, 并开始新的记录 记录由两部分组成: 大写字母开头的 …

财经英语期末考试复习

文章目录 第一篇第二篇第三篇第四篇思路梳理作文撰写 第一篇 李宁是中国运动服装和鞋类行业的领导者,这源于其创始人,同名体操冠军李宁的愿景. Ling-Ning is the Chinese leader in athletic apparel and footwear, rooted in the vision of its founder and namesake,the cha…

Pytorch | 利用VA-I-FGSM针对CIFAR10上的ResNet分类器进行对抗攻击

Pytorch | 利用VA-I-FGSM针对CIFAR10上的ResNet分类器进行对抗攻击 CIFAR数据集VA-I-FGSM介绍相关定义算法流程 VAI-FGSM代码实现VAI-FGSM算法实现攻击效果 代码汇总vaifgsm.pytrain.pyadvtest.py 之前已经针对CIFAR10训练了多种分类器&#xff1a; Pytorch | 从零构建AlexNet对…

20241225在ubuntu20.04.5下监控SSD

20241225在ubuntu20.04.5下监控SSD 2024/12/25 20:29 参考资料&#xff1a; 百度&#xff1a;ubuntu查看ssd寿命 方法 1&#xff1a;使用「磁盘」工具监测 SSD 健康状态 sudo apt install gnome-disk-utility 方法 2&#xff1a;使用 smartctl 工具检查 SSD 健康状态 Ubuntu 和…

mvn install:install-file jar 打入本地仓库

安装指定文件到本地仓库命令&#xff1a;mvn http://install:install-file -DgroupId : 设置上传到仓库的包名 -DartifactId : 设置该包所属的模块名 -Dversion1.0.0 : 设置该包的版本号 -Dpackagingjar : 设置该包的类型(很显然jar包) -Dfile : 设置该jar包文件所在的路径…

CentOS下,离线安装vscode的步骤;

前置条件&#xff1a; 1.CentOS7; 步骤&#xff1a; 1.下载vscode指定版本&#xff0c;例如&#xff1b; 例如 code-1.83.1-1696982959.el7.x86_64.rpm 2.使用下面命令&#xff1a; sudo rpm -ivh code-1.83.1-1696982959.el7.x86_64.rpm 其他&#xff1a; 卸载vscode的命…

【CSS in Depth 2 精译_087】14.4:CSS 中的浮动特效以及在文字环绕中的应用 + 14.5:本章小结

当前内容所在位置&#xff08;可进入专栏查看其他译好的章节内容&#xff09; 第四部分 视觉增强技术 ✔️【第 14 章 蒙版、形状与剪切】 ✔️ 14.1 滤镜 14.1.1 滤镜的类型14.1.2 背景滤镜 14.2 蒙版 14.2.1 带渐变效果的蒙版特效14.2.2 基于亮度来定义蒙版14.2.3 其他蒙版属…