【论文阅读】Megatron-LM要点

news2026/2/14 2:19:14

Megatron-LM论文要点

本文主要是对李沐老师的b站分享做一下自己的理解和总结。

李沐老师b站分享

模型结构无非就是那样，相比而言，想要训练更大的模型而又能平稳进行，是一项非常高超的技术！

nvidia
跟gpipe类似，也是模型并行，但是在任务切割上面跟gpipe不一样。
gpipe： transformer也可以，cnn也可以，比较通用的方式。把不同的层放到不同的gpu，加入数据并行，成为流水线并行。
Megatron-LM：只针对特别大的使用transformer的语言模型，层中间切开，然后放到不同的gpu上。==》层切开的方法，通常命名为张量并行。

〉83亿的语言模型，使用了512块GPU，76%的分布式性能。
39亿的bert，层归一化layer norm的位置。
引言：军备竞赛

之前也有类似的工作，但是需要编译，现在这个方式更简单pytorch代码改动一点就可以了，不需要编译。

系统的文章，取舍，牺牲了通用性。

MLP层并行

在这里插入图片描述

MLP输入 $X$ ，实际输入是3D的东西，改成2D的形式，方便讲解：行数是批量大小*序列长度 $b * l$ ，列数 $k$ 是隐藏层大小。
$\sigma(X·A)·B=Y$
$\sigma$ 一般是GeLU。

https://docs.nvidia.com/deeplearning/nemo/user-guide/docs/en/stable/nlp/megatron.html

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/611400.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

mysql中sql语句之分组（group by）

mysql中sql语句之分组（group by）

文章目录前言分组查询定义语法说明 group by使用group by group_concat()的使用group by 聚合函数的使用group by having的使用group by with rollup的使用分组查询小结前言今天遇到公司新来的小伙伴咨询问题，统计集团内部的在职员工与离职员工数量&#xf…

阅读更多...

负载不堵塞，稳定可靠，企业性能测试指南！

负载不堵塞，稳定可靠，企业性能测试指南！

目录前言： 基准测试 - 确认你的产品在正常使用条件下的性能负载测试 - 确认你的产品在高负荷下的性能压力测试 - 确认你的产品的极限性能稳定性测试 - 确认你的产品在长时间高负荷下的表现总结前言： 在当今竞争激烈的商业环境中，…

阅读更多...

我敢说，这是科普路由协议的最高境界

我敢说，这是科普路由协议的最高境界

大家好，我是许公子。路由协议，经常看我文章的小友都知道，给你们说过很多期了。这是网络世界里，很重要的一个概念，总得来说，它负责将数据包从源节点传递到目的节点。最近又有很多萌新关注过来&#xff…

阅读更多...

C语言：计算n的阶乘（不考虑溢出）

C语言：计算n的阶乘（不考虑溢出）

题目： 从键盘输入一个值n，计算n的阶乘， 如：输入5，计算5的阶乘 --> 5! 1 * 2 * 3 * 4 * 5 思路： 第一步： 创建一个变量 ret ，用来存放每次相乘后的值， 因为 0 乘任何…

阅读更多...

uipath 实现连接pg数据库

uipath 实现连接pg数据库

1、下载ODBC 如需要使用UiPath连接数据库进行操作，需要先准备必需条件先安装ODBC。 postgresql ODBC下载链接：https://www.postgresql.org/ftp/odbc/versions/msi/ 下载最新的安装包即可。 2、配置ODBC 下载完pgsql ODBC的安装包直接打开压缩包进行…

阅读更多...

实验篇(7.2) 07. 通过安全隧道访问指定网站 (SSL) ❀ 远程访问

实验篇(7.2) 07. 通过安全隧道访问指定网站 (SSL) ❀ 远程访问

【简介】通过前面的实验，我们已经了解了SSL VPN的隧道模式。FortiClient客户端拨号后，访问服务器IP的流量，会通过安全隧道到达远端防火墙，并访问DMZ接口下的服务器。那如果我想让更多的访问走安全隧道，但是又不确定是哪…

阅读更多...

最受欢迎的十个开源大数据技术

最受欢迎的十个开源大数据技术

导读大数据已然成为当今最热门的技术之一，正呈爆炸式增长。每天来自全球的新项目如雨后春笋般涌现。幸运地是，开源让越来越多的项目可以直接采用大数据技术，下面就来盘点最受欢迎的十大开源的大数据技术。大数据已然成为当今最热门的技术之…

阅读更多...

热烈庆祝兴业法拍网与中关村科技融资担保有限公司签订业务合作

热烈庆祝兴业法拍网与中关村科技融资担保有限公司签订业务合作

6月1日，兴业法拍网与北京中关村科技融资担保有限公司签订“法拍贷”合作协议。 “法拍贷”是以法院房产拍卖为核心、线上平台拓宽拍卖渠道、保险公司提供阶段性保证、公证机构加大司法效力、银行提供全程金融服务的“14”创新合作模式。该模式汇聚五方合力让更多竞…

阅读更多...

在本地Windows 11 系统的桌面版Docker上搭建PlantUML

在本地Windows 11 系统的桌面版Docker上搭建PlantUML

文章目录在本地Windows系统的桌面版Docker上搭建PlantUML简介步骤步骤 1：安装Docker Desktop步骤 2：启动Docker Desktop步骤 3：拉取PlantUML镜像步骤 4：运行PlantUML容器步骤 5：访问PlantUML Web界面结论参考资料结…

阅读更多...

stable-diffusion-webui 更换 Python 版本

stable-diffusion-webui 更换 Python 版本

目录一、原因二、解决方法一、原因 stable-diffusion-webui 推荐版本是 Python 3.10 ，如果电脑中安装了其他版本到Python，会警告推荐使用Python 3.10版本。官方安装教程 Automatic Installation on Windows Install Python 3.10.6 (Newer version of…

阅读更多...

OBS如何做绿幕直播（滤镜实现去除绿色背景）

OBS如何做绿幕直播（滤镜实现去除绿色背景）

OBS如何做绿幕直播（滤镜实现去除绿色背景） 一、设备推流电脑（i7及以上，16G内存，独显加分）不推荐笔记本和苹果电脑。摄像头（单反或摄像机需要配备采集卡和收音设备）。补光灯。稳定…

阅读更多...

k8s概述

k8s概述

前言通过linux基于cgroup,ns,及rootfs的学习，我们了解了基于容器技术原理。在大规模情况下，单单容器技术完全不够，k8s的出现就是解决在大规模集群中存在各种各样的任务，任务之间又有着各样的关系。对于这些关系要如何处理优雅得…

阅读更多...

tinkerCAD入门操作(4)：使用对齐工具和工作平面帮助程序

tinkerCAD入门操作(4)：使用对齐工具和工作平面帮助程序

tinkerCAD入门操作(4)：使用对齐工具和工作平面帮助程序介绍在本课中，我们将建造一座简单的城堡。您将了解有关对齐工具、镜像和帮助程序工具的所有信息。开始您将使用的第一个工具是对齐工具。无需使用鼠标仔细定位两个部分，对齐工具…

阅读更多...

团队管理之性能实施团队日志6

团队管理之性能实施团队日志6

一、从问题统计看进度风险从统计来看，近三个星期过去了，发现了 59 个问题。28 个是性能问题还需要再细分类型，现在这个还是粗了点，比如说配置问题、代码问题。所以笼统说来除了这里的功能问题之外，其他的基本上都是…

阅读更多...

对话中科易安市场经理：联网智能门锁之运行、运营与运维

对话中科易安市场经理：联网智能门锁之运行、运营与运维

大家好！我是中科易安市场部的市场经理，相信很多中科易安联网智能门锁的新老朋友对我并不陌生，或许我们没有面见，但是每一篇中科易安发布的原创推文皆出自我手。此刻，我想和中科易安的产品用户、客户以及媒体朋友们&…

阅读更多...

weblogic 重置密码|修改密码

weblogic 重置密码|修改密码

一：重置密码： 我本机的文件目录： /u01/wls12214/Middleware/user_projects/domains/wls_domain/ 第一步删除： DefaultAuthenticatorlnit.ldift （先对此文件备份，防止后续异常可复原） 删除此文件…

阅读更多...

使用Leangoo领歌敏捷工具实施多团队规模化敏捷

使用Leangoo领歌敏捷工具实施多团队规模化敏捷

多团队大规模敏捷的场景定义： 多个敏捷团队开发同一个大型产品，几十人，甚至几百人开发一个产品或解决方案。在Leangoo领歌中创建多团队大规模敏捷项目： 多团队规模化敏捷的项目结构： 在Leangoo企业中创建项目&…

阅读更多...

图解LeetCode——230. 二叉搜索树中第K小的元素

图解LeetCode——230. 二叉搜索树中第K小的元素

一、题目给定一个二叉搜索树的根节点 root ，和一个整数 k ，请你设计一个算法查找其中第 k 个最小元素（从 1 开始计数）。二、示例 2.1> 示例 1： 【输入】root [3,1,4,null,2], k 1 【输出】1 2.2> 示例 2&…

阅读更多...

数据库优化之常用的show variables、show status配置优化

数据库优化之常用的show variables、show status配置优化

文章目录 ⭐️ MySQL优化-配置优化1、show variables查看MySQL服务器配置参数1）查看及调整系统配置变量值2）查询缓存相关参数： 2、show status查看MySQL服务器运行状态值1）调整max_connections：2）调整back_…

阅读更多...

chatgpt赋能python：Python可以烧录进硬件里吗？

chatgpt赋能python：Python可以烧录进硬件里吗？

Python可以烧录进硬件里吗？ Python编程语言已经成为了越来越多的开发工程师的首选工具。这是一门易学易用的编程语言，以其灵活性、可读性和功能强大而受到广泛的青睐。因此，许多人都很自然地想知道这个问题：Python可以烧录进硬件…

阅读更多...

推荐文章

最新文章