17.Meta AI 大模型家族 LLaMA

17.Meta AI 大模型家族 LLaMA

news2025/4/27 5:42:43

请添加图片描述

Meta LLaMA 1 大模型技术解读

LLaMA 1：小模型+大数据

请添加图片描述

LLaMA 1 在万亿 Token 公开数据集上预训练

请添加图片描述

请添加图片描述

LLaMA 1 模型网络架构改进

请添加图片描述

请添加图片描述

大模型网络架构差异性配置总览

请添加图片描述

典型大模型网络架构对比

请添加图片描述

LLaMA 1 预训练超参数配置

请添加图片描述

典型大模型训练超参数对比

请添加图片描述

LLaMA 1 预训练效率提升与成本评估

为提升模型训练速度，Meta 团队基于进行了多项优化：

• **因果多头注意力：**采用xformers库的因果多头注意力实现，减少显存使用和运行时间。不存储注意力权重，且不不计算由于语言建模任务的因果性质而被掩盖的key/query分数来实现的。
• 减少重复激活计算：在反向传播过程中通过检查点技术，减少了需要重新计算的激活量。具体来说，保存计算成本高的激活输出，如线性层的输出。这是通过手动实现Transformer层的反向传播函数（替代 PyTorch autograd）。
• 模型并行和流水线并行：尽可能调度使得激活值计算和GPU间网络通信重叠，提升效率。

在训练 65B 模型时，Meta 代码在2048个A100 GPU(80GB)上处理速度约为380 tokens/sec/GPU 。这意味着在1.4T Tokens

数据集上训练需要约21天。与其他大模型的训练成本横向对比如下：

请添加图片描述

实验结果

LLaMA 1实验结果 - Zero-shot 常识推理任务

请添加图片描述

LLaMA 1实验结果 – QA 和语义理解任务

请添加图片描述

LLaMA 1实验结果 – 数学和代码生成任务

请添加图片描述

LLaMA 1实验结果 – 多任务能力

请添加图片描述

LLaMA 衍生模型家族

大模型 (>10B) 发布时间线

请添加图片描述

请添加图片描述

Alpaca-7B 大模型

请添加图片描述

Vicuna-13B 大模型

请添加图片描述

LLaMA 2

LLaMA 2 vs LLaMA 1

请添加图片描述

LLaMA 2-chat 模型训练方法

Llama 2 基座模型是在 2 万亿 tokens 上预训练得到的。

然后，在 100 万人类标记数据上进行 RLHF 训练得到 LLaMA 2-Chat 模型。

型是在 2 万亿 tokens 上预训练得到的。

然后，在 100 万人类标记数据上进行 RLHF 训练得到 LLaMA 2-Chat 模型。

请添加图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1830284.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Linux shell 重定向输入和输出

Linux shell 重定向输入和输出

Linux shell 重定向输入和输出 1. Standard I/O streams2. Redirecting to and from the standard file handles (标准文件句柄的重定向)2.1. command > file2.2. command >> file2.3. command 2> file2.4. command 2>> file2.5. command < file2.6. comm…

阅读更多...

JavaFX GridPane布局

JavaFX GridPane布局

网格布局 GridPane通常用于布局：表单布局 GridPane可以在行，列或单元格级别指定约束。例如，我们可以设置包含输入文本字段的第二列，以在窗口调整大小时调整大小。使用Java FX创建表格的时候，这个布局非常方便。包…

阅读更多...

39、基于深度学习的(拼音)字符识别(matlab)

39、基于深度学习的(拼音)字符识别(matlab)

1、原理及流程深度学习中常用的字符识别方法包括卷积神经网络（CNN）和循环神经网络（RNN）。数据准备：首先需要准备包含字符的数据集，通常是手写字符、印刷字符或者印刷字体数据集。数据预处理&#xff1…

阅读更多...

AI大模型-本科生24暑期实习NLP（Infra LLM）算法工程师面经

AI大模型-本科生24暑期实习NLP（Infra LLM）算法工程师面经

Brief Intro 今年暑假，在科研和工业界之间，我选择在国内工业界找一份实习，参与到百模大战的浪潮中，主要的意向是知名的LLM领域的独角兽，期望能避免做Dirty Work，在实习过程中也能被重视，做一些…

阅读更多...

AI数据分析：集中度分析和离散度分析

AI数据分析：集中度分析和离散度分析

在deepseek中输入提示词： 你是一个Python编程专家，要完成一个Python脚本编写的任务，具体步骤如下： 读取Excel表格："F:\AI自媒体内容\AI行业数据分析\toolify月榜\toolify2023年-2024年月排行榜汇总数据.xlsx&qu…

阅读更多...

浙江广厦大学第七届程序设计比赛（重现赛）（个人题解）（未完成）

浙江广厦大学第七届程序设计比赛（重现赛）（个人题解）（未完成）

前言： 今天晚上实验室的一场比赛，题目难度感觉还行，有几道题大家都没做出来，老规矩，这些没写出来的题都放在这，等我有能力补的时候再来写。正文： 原比赛链接：(1条未读私信) 浙江广…

阅读更多...

NASA数据：南极海洋生物资源

NASA数据：南极海洋生物资源

Antarctic Marine Living Resources (AMLR) program 南极海洋生物资源许可证南极海洋生物资源保护委员会公约区受到管制。任何打算从该区域捕获海洋生物的人都必须获得许可证。简介美国是南极海洋生物资源保护委员会（Commission for the Conservation of Anta…

阅读更多...

热管式换热器

热管式换热器

热管式换热器是一种高效、紧凑的换热设备，其核心部件是热管。热管技术基于热管内部工作介质（通常是液体）的相变原理来传递热量，能够实现快速、大温差的热量传输，特别适用于需要高效换热或者在空间受限条件下进行热能交…

阅读更多...

【APP_汽修宝】数据采集案例APP_数据解密分析

【APP_汽修宝】数据采集案例APP_数据解密分析

如果不会写代码，那就出书、写博客、做视频、录播客。 📚 S35赛季末王者昭君罗关键代码定位使用方法【逆向-快速定位关键代码】通过hook常用函数HashMap方法动态分析下面是我们通过访问目标页面时 Frida hook 捕获HashMap的调…

阅读更多...

Linux之BCC 性能工具的移植和使用

Linux之BCC 性能工具的移植和使用

一、bcc 工具 bcc 的全称：BPF Compiler Collection BCC（BPF Compiler Collection）是一个用于创建高效的内核跟踪和操作程序的工具包，包含了几个有用的工具和示例。它利用了扩展的BPF（Berkeley Packet Filters&#x…

阅读更多...

【C/C++】【学生成绩管理系统】深度剖析

【C/C++】【学生成绩管理系统】深度剖析

可接各类C/C管理系统课设目录实现功能部分1：系统设置和主菜单 1. 引入头文件 2. 定义结构体 3. 函数声明 4. 主函数部分2：添加学生信息部分3：删除学生信息部分4：修改学生信息部分5：查询学生信息部分…

阅读更多...

大众点评_token,mtgsig

大众点评_token,mtgsig

声明本文章中所有内容仅供学习交流使用，不用于其他任何目的，抓包内容、敏感网址、数据接口等均已做脱敏处理，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！ 本文章未经许可禁止转载&#xff0…

阅读更多...

以太网基础知识（三）—FEC概念以及编码原理介绍

以太网基础知识（三）—FEC概念以及编码原理介绍

1：前言 KR4(528,514) FEC表示的意思： KR4 RS(528,514) FEC 是一种以太网中使用的FEC（Forward Error Correction）编码方案。在这个方案中，采用的是Reed-Solomon (RS) 编码算法，它被设计用于提高数据传输的…

阅读更多...

9M高速USB转接芯片CH347转双串口转I2C转SPI转JTAG转SWD

9M高速USB转接芯片CH347转双串口转I2C转SPI转JTAG转SWD

1、概述 CH347 TSSOP20封装和丝印 CH347 是一款高速 USB 总线转接芯片，通过 USB 总线提供异步串口、I2C 同步串行接口、SPI 同步串行接口和 JTAG 接口等。在异步串口方式下，CH347 提供了 2 个高速串口，支持 RS485 串口收发使能控制、硬件流控…

阅读更多...

论文阅读：基于谱分析的全新早停策略

论文阅读：基于谱分析的全新早停策略

来自JMLR的一篇论文，https://www.jmlr.org/papers/volume24/21-1441/21-1441.pdf 这篇文章试图通过分析模型权重矩阵的频谱来解释模型，并在此基础上提出了一种用于早停的频谱标准。 1，分类难度对权重矩阵谱的影响 1.1 相关研究在最近针对…

阅读更多...

SN74HC14+陶瓷振子做振荡器的试验初步

SN74HC14+陶瓷振子做振荡器的试验初步

本想试验一下465khz用SN74HC14做振荡器，实验了很多次，无法起振。用1M，4M的也无法起振，用到10Mhz时，能起振，用小频谱仪看，谐波相当丰富，从10M到300Mhz，当然我是通过实验在…

阅读更多...

python14 字典类型

python14 字典类型

字典类型键值对方式，可变数据类型，所以有增删改功能声明方式1 {} 大括号，示例 d {key1 : value1, key2 : value2, key3 : value3 ....} 声明方式2 使用内置函数 dict() 创建1)通过映射函数创建字典zip(list1,list2) 继承了序列的所有操作 …

阅读更多...

第零篇——数学到底应该怎么学？

第零篇——数学到底应该怎么学？

目录一、背景介绍二、思路&方案三、过程1.思维导图2.文章中经典的句子理解3.学习之后对于投资市场的理解4.通过这篇文章结合我知道的东西我能想到什么？ 四、总结五、升华一、背景介绍宏观讲解数学定位，数学学习方式方法，再次详细学习…

阅读更多...

C# OpenCV 部署RecRecNet广角图像畸变矫正

C# OpenCV 部署RecRecNet广角图像畸变矫正

C# OpenCV 部署RecRecNet广角图像畸变矫正目录说明效果模型信息项目代码下载说明 ICCV2023 - RecRecNet: Rectangling Rectified Wide-Angle Images by Thin-Plate Spline Model and DoF-based Curriculum Learning 参考： https://github.com/Kang…

阅读更多...

Vue52-scoped样式

Vue52-scoped样式

一、scoped样式的作用 1-1、scoped样式的作用 vue中组件的样式都是汇总到一起的。容易出现一个问题：类名冲突。示例： school和student组件的类名都叫demo，则student的样式将覆盖school的样式，因为App.vue中，先引入的…

阅读更多...

推荐文章

最新文章