17.Meta AI 大模型家族 LLaMA

news2025/1/11 18:06:00

请添加图片描述

Meta LLaMA 1 大模型技术解读

LLaMA 1:小模型+大数据

请添加图片描述

LLaMA 1 在万亿 Token 公开数据集上预训练

请添加图片描述

请添加图片描述

LLaMA 1 模型网络架构改进

请添加图片描述

请添加图片描述

大模型网络架构差异性配置总览

请添加图片描述

典型大模型网络架构对比

请添加图片描述

LLaMA 1 预训练超参数配置

请添加图片描述

典型大模型训练超参数对比

请添加图片描述

LLaMA 1 预训练效率提升与成本评估

为提升模型训练速度,Meta 团队基于进行了多项优化:

  • • **因果多头注意力:**采用xformers库的因果多头注意力实现,减少显存使用和运行时间。不存储注意力权重,且不不计算由于语言建模任务的因果性质而被掩盖的key/query分数来实现的 。
  • 减少重复激活计算:在反向传播过程中通过检查点技术,减少了需要重新计算的激活量。具体来说,保存计算成本高的激活输出,如线性层的输出。这是通过手动实现Transformer层的反向传播函数(替代 PyTorch autograd)。
  • 模型并行和流水线并行:尽可能调度使得激活值计算和GPU间网络通信重叠,提升效率。

在训练 65B 模型时,Meta 代码在2048个A100 GPU(80GB)上处理速度约为380 tokens/sec/GPU 。这意味着在1.4T Tokens

数据集上训练需要约21天。与其他大模型的训练成本横向对比如下:

请添加图片描述

实验结果

LLaMA 1****实验结果 - Zero-shot 常识推理任务

请添加图片描述

LLaMA 1****实验结果 – QA 和语义理解任务

请添加图片描述

LLaMA 1****实验结果 数学和代码生成任务

请添加图片描述

LLaMA 1****实验结果 多任务能力

请添加图片描述

LLaMA 衍生模型家族

大模型 (>10B) 发布时间线

请添加图片描述

请添加图片描述

Alpaca-7B 大模型

请添加图片描述

Vicuna-13B 大模型

请添加图片描述

LLaMA 2

LLaMA 2 vs LLaMA 1

请添加图片描述

LLaMA 2-chat 模型训练方法

Llama 2 基座模型是在 2 万亿 tokens 上预训练得到的。

然后,在 100 万人类标记数据上 进行 RLHF 训练得到 LLaMA 2-Chat 模型。

型是在 2 万亿 tokens 上预训练得到的。

然后,在 100 万人类标记数据上 进行 RLHF 训练得到 LLaMA 2-Chat 模型。

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1830284.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux shell 重定向输入和输出

Linux shell 重定向输入和输出 1. Standard I/O streams2. Redirecting to and from the standard file handles (标准文件句柄的重定向)2.1. command > file2.2. command >> file2.3. command 2> file2.4. command 2>> file2.5. command < file2.6. comm…

JavaFX GridPane布局

网格布局 GridPane通常用于布局&#xff1a;表单布局 GridPane可以在行&#xff0c;列或单元格级别指定约束。 例如&#xff0c;我们可以设置包含输入文本字段的第二列&#xff0c;以在窗口调整大小时调整大小。 使用Java FX创建表格的时候&#xff0c;这个布局非常方便。 包…

39、基于深度学习的(拼音)字符识别(matlab)

1、原理及流程 深度学习中常用的字符识别方法包括卷积神经网络&#xff08;CNN&#xff09;和循环神经网络&#xff08;RNN&#xff09;。 数据准备&#xff1a;首先需要准备包含字符的数据集&#xff0c;通常是手写字符、印刷字符或者印刷字体数据集。 数据预处理&#xff1…

AI大模型-本科生24暑期实习NLP(Infra LLM)算法工程师面经

Brief Intro 今年暑假&#xff0c;在科研和工业界之间&#xff0c;我选择在国内工业界找一份实习&#xff0c;参与到百模大战的浪潮中&#xff0c;主要的意向是知名的LLM领域的独角兽&#xff0c;期望能避免做Dirty Work&#xff0c;在实习过程中也能被重视&#xff0c;做一些…

AI数据分析:集中度分析和离散度分析

在deepseek中输入提示词&#xff1a; 你是一个Python编程专家&#xff0c;要完成一个Python脚本编写的任务&#xff0c;具体步骤如下&#xff1a; 读取Excel表格&#xff1a;"F:\AI自媒体内容\AI行业数据分析\toolify月榜\toolify2023年-2024年月排行榜汇总数据.xlsx&qu…

浙江广厦大学第七届程序设计比赛(重现赛)(个人题解)(未完成)

前言&#xff1a; 今天晚上实验室的一场比赛&#xff0c;题目难度感觉还行&#xff0c;有几道题大家都没做出来&#xff0c;老规矩&#xff0c;这些没写出来的题都放在这&#xff0c;等我有能力补的时候再来写。 正文&#xff1a; 原比赛链接&#xff1a;(1条未读私信) 浙江广…

NASA数据:南极海洋生物资源

Antarctic Marine Living Resources (AMLR) program 南极海洋生物资源许可证 南极海洋生物资源保护委员会公约区受到管制。任何打算从该区域捕获海洋生物的人都必须获得许可证。 简介 美国是南极海洋生物资源保护委员会&#xff08;Commission for the Conservation of Anta…

热管式换热器

热管式换热器是一种高效、紧凑的换热设备&#xff0c;其核心部件是热管。热管技术基于热管内部工作介质&#xff08;通常是液体&#xff09;的相变原理来传递热量&#xff0c;能够实现快速、大温差的热量传输&#xff0c;特别适用于需要高效换热或者在空间受限条件下进行热能交…

【APP_汽修宝】数据采集案例APP_数据解密分析

如果不会写代码&#xff0c;那就出书、写博客、做视频、录播客。 &#x1f4da; S35赛季末王者昭君罗 关键代码定位 使用方法【逆向-快速定位关键代码】通过hook常用函数HashMap方法 动态分析 下面是我们通过访问目标页面时 Frida hook 捕获HashMap的调…

Linux之BCC 性能工具的移植和使用

一、bcc 工具 bcc 的全称&#xff1a;BPF Compiler Collection BCC&#xff08;BPF Compiler Collection&#xff09;是一个用于创建高效的内核跟踪和操作程序的工具包&#xff0c;包含了几个有用的工具和示例。它利用了扩展的BPF&#xff08;Berkeley Packet Filters&#x…

【C/C++】【学生成绩管理系统】深度剖析

可接各类C/C管理系统课设 目录 实现功能 部分1&#xff1a;系统设置和主菜单 1. 引入头文件 2. 定义结构体 3. 函数声明 4. 主函数 部分2&#xff1a;添加学生信息 部分3&#xff1a;删除学生信息 部分4&#xff1a;修改学生信息 部分5&#xff1a;查询学生信息 部分…

大众点评_token,mtgsig

声明 本文章中所有内容仅供学习交流使用&#xff0c;不用于其他任何目的&#xff0c;抓包内容、敏感网址、数据接口等均已做脱敏处理&#xff0c;严禁用于商业用途和非法用途&#xff0c;否则由此产生的一切后果均与作者无关&#xff01; 本文章未经许可禁止转载&#xff0…

以太网基础知识(三)—FEC概念以及编码原理介绍

1&#xff1a;前言 KR4(528,514) FEC表示的意思&#xff1a; KR4 RS(528,514) FEC 是一种以太网中使用的FEC&#xff08;Forward Error Correction&#xff09;编码方案。在这个方案中&#xff0c;采用的是Reed-Solomon (RS) 编码算法&#xff0c;它被设计用于提高数据传输的…

9M高速USB转接芯片CH347转双串口转I2C转SPI转JTAG转SWD

1、概述 CH347 TSSOP20封装和丝印 CH347 是一款高速 USB 总线转接芯片&#xff0c;通过 USB 总线提供异步串口、I2C 同步串行接口、SPI 同步串行接口和 JTAG 接口等。 在异步串口方式下&#xff0c;CH347 提供了 2 个高速串口&#xff0c;支持 RS485 串口收发使能控制、硬件流控…

论文阅读:基于谱分析的全新早停策略

来自JMLR的一篇论文&#xff0c;https://www.jmlr.org/papers/volume24/21-1441/21-1441.pdf 这篇文章试图通过分析模型权重矩阵的频谱来解释模型&#xff0c;并在此基础上提出了一种用于早停的频谱标准。 1&#xff0c;分类难度对权重矩阵谱的影响 1.1 相关研究 在最近针对…

SN74HC14+陶瓷振子做振荡器的试验初步

本想试验一下465khz用SN74HC14做振荡器&#xff0c;实验了很多次&#xff0c;无法起振。 用1M&#xff0c;4M的也无法起振&#xff0c;用到10Mhz时&#xff0c;能起振&#xff0c;用小频谱仪看&#xff0c;谐波相当丰富&#xff0c;从10M到300Mhz&#xff0c;当然我是通过实验在…

python14 字典类型

字典类型 键值对方式&#xff0c;可变数据类型&#xff0c;所以有增删改功能 声明方式1 {} 大括号&#xff0c;示例 d {key1 : value1, key2 : value2, key3 : value3 ....} 声明方式2 使用内置函数 dict() 创建1)通过映射函数创建字典zip(list1,list2) 继承了序列的所有操作 …

第零篇——数学到底应该怎么学?

目录 一、背景介绍二、思路&方案三、过程1.思维导图2.文章中经典的句子理解3.学习之后对于投资市场的理解4.通过这篇文章结合我知道的东西我能想到什么&#xff1f; 四、总结五、升华 一、背景介绍 宏观讲解数学定位&#xff0c;数学学习方式方法&#xff0c;再次详细学习…

C# OpenCV 部署RecRecNet广角图像畸变矫正

C# OpenCV 部署RecRecNet广角图像畸变矫正 目录 说明 效果 模型信息 项目 代码 下载 说明 ICCV2023 - RecRecNet: Rectangling Rectified Wide-Angle Images by Thin-Plate Spline Model and DoF-based Curriculum Learning 参考&#xff1a; https://github.com/Kang…

Vue52-scoped样式

一、scoped样式的作用 1-1、scoped样式的作用 vue中组件的样式都是汇总到一起的。容易出现一个问题&#xff1a;类名冲突。 示例&#xff1a; school和student组件的类名都叫demo&#xff0c;则student的样式将覆盖school的样式&#xff0c;因为App.vue中&#xff0c;先引入的…