上半年大模型遍地开花,大模型发展中有哪些经验和教训?

news2024/11/15 10:01:00

前言

过去一年里,大模型遍地开花,我自己也在做大模型训练相关的工作,踩过了很多很多坑,这里分享一些教训:用成熟的分布式训练框架:

  • 多用 DeepSpeed,少用 Pytorch 原生的 torchrun。在节点数量较少的情况下,使用哪种训练框架并不是特别重要;然而,一旦涉及到数百个节点,DeepSpeed的优点就显得很明显,其简便的启动和便于性能分析的特点使其成为理想之选。

  • 弹性容错和自动重启机制:大模型训练不是以往那种单机训个几小时就结束的任务,往往需要训练好几周甚至好几个月,这时候你就知道能稳定训练有多么重要。弹性容错能让你在机器故障的情况下依然继续重启训练;自动重启能让你在训练中断之后立刻重启训练。毕竟,大模型时代,节约时间就是节约钱。

  • 定期保存模型:训练的时候每隔一段时间做个checkpointing,这样如果训练中断还能从上次的断点来恢复训练。

  • 训练加速方法:最常用的有FlashAttention(V1 和 V2),加速效果很不错,基本是开箱即用;其他的有算子融合,fused_kernels等。

  • 流水线并行和张量并行:大模型的参数规模都特别大,大到单机存不下。通常都会用流水线并行和张量并行的方法在有限的GPU机器下训练大模型。

  • 使用高速网卡:用以太网卡来跑大模型训练是不现实的,大模型多机多卡训练一般都会用到RDMA技术,需要使用IB网卡和RoCE网卡(IB网卡的速度会比RoCE快一些,也贵一些)。

  • 想清楚再开始训练:训练一次大模型的成本很高的。在训练之前先想清楚这次训练的目的,记录训练参数和中间过程结果,少做重复劳动。

  • 关注GPU使用效率:有时候,即使增加了多块 A100 GPU,大型模型的训练速度未必会加快,这很可能是因为GPU使用效率不高,尤其在多机训练情况下更为明显。仅仅依赖nvidia-smi显示的GPU 利用率并不足以准确反映实际情况,因为即使显示为100%,实际GPU利用率也可能不是真正的 100%。要更准确地评估GPU利用率,需要关注TFLOPS和吞吐率等指标,这些监控在DeepSpeed框架中都有。

如果你也想学习AI大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的苦难。我已将重要的AI大模型资料包括市面上AI大模型商业报告、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来。

这份完整版的Android全套学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

大模型知识脑图

为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述

经典书籍阅读

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。

在这里插入图片描述

实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

面试资料

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
在这里插入图片描述

640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述
这份完整版的Android全套学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2075076.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android settings命令讲解和实战

1,简介 在Android系统中,settings命令用于管理设备设置。这些命令可以与Settings提供者(Settings provider)交互,后者是一个用于存储和检索系统设置的系统服务。Settings provider在Android系统中可以被看作是一个特殊…

垃圾目标检测数据集

垃圾目标检测数据集。数据集已经标注好,txt标注,YOLO格式,适用于训练YOLO系列目标检测模型(YOLO5 YOLO8 YOLO9 YOLO10等)数据集已经划分好训练集(4526张图)验证集(1046张图片&#x…

Git 分支操作全解析:创建、切换、合并、删除及冲突解决

“ 在现代软件开发中,高效的版本控制是确保项目成功的关键。Git 提供了强大的分支管理功能,使得开发者能够独立地进行功能开发、修复 bug 和进行紧急修补。本文将深入探讨 Git 分支的基本操作,包括创建、切换、合并和删除分支,同时…

使命同心,六西格玛同行,顶尖人才扎堆来!——张驰咨询

在当今竞争激烈的商业环境中,顶尖人才不仅是企业创新与突破的源泉,更是决定企业成败的关键因素。如何有效吸引并长期留住这些宝贵资源,成为企业家们亟待解决的难题。企业文化、领导风格以及先进的管理方法,如六西格玛,…

两个视频如何合成一个视频?推荐8个视频合并方法

两个视频如何合成一个视频?在数字时代,视频内容的创作和编辑变得越来越普及。无论是在个人项目还是专业制作中,将两个视频合并成一个已成为常见需求。这一操作不仅能提高视频内容的连贯性,还能增强观众的观看体验。下面&#xff0…

大模型火了一年半,AI应用如何实现商业变现?

自ChatGPT走红后,国内AI大模型建设潮起,如今经过一年半的快速发展后,大模型商业化显著提速。自生成式AI席卷各行业以来,市场对AI应用发展的预期高涨,但AI应用似乎陷入“增长难题”,进展不及预期&#xff0c…

Java筑基之路:数组的深入了解学习!

🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝 🥇博主昵称:小菜元 🍟博客主页…

科技温柔拥抱梦乡!康姿百德柔压磁性枕舒适与科技的甜蜜邂逅

解锁未来睡眠新姿势!康姿百德柔压磁性枕,科技护航每一夜好梦 在现代家居产品的设计中,科技与舒适性的结合越来越受到人们的关注。康姿百德柔压磁性枕正是一款将科技与舒适结合的产品,为现代生活注入了新的活力。 康姿百德柔压磁性…

【发邮件】 在邮件中添加 (mailto:) 链接的返回电子邮件

🐳打工人给导师发邮件,注意格式中学到的一个东西,记录一下 发送邮件想达到点击这个邮件就能到收件人的位置,不用跳转。 也就是你点击这个邮件 就能直接给你蹦到发送这个人,然后直接发送 只需要在邮件那个位置 加入超…

语言大模型的分布式训练与高效微调指南

最近语言大模型(LLM)异常火爆,一个非常特别的开源社区正在探索在消费级硬件上微调、提供服务和进行推理的最佳方式。为满足上述需求,出现了许多出色的开源代码库,以HuggingFace生态系统为中心,这些代码库还…

【干货】看看我司消息队列用啥,全网最接地气pulsar教程(含业务解耦demo源码)

前言 🍊缘由 消息队列一出手,pulsar就知有没有 🐣闪亮主角 大家好,我是JavaDog程序狗 今天跟大家分享pulsar,一个分布式的消息发布/订阅传递平台。 本狗以身入局,将pulsar的使用场景,结合实…

【flask框架搭建服务器demo】Python 使用轻量级 Flask 框架搭建 Web 服务器可视化数据库数据demo

本文适合刚入门flask框架用来熟悉项目的开发人员,关于flask框架的组成概念一些用法请参考下面的文章 https://blog.csdn.net/qq_47452807/article/details/122289200 本文主要给出一个可视化sqlite数据库数据的demo,先展示一下效果: 主要的…

前端速通面经八股系列(二)—— HTML篇

HTML高频面经八股目录 1. src和href的区别2. 对HTML语义化的理解3. DOCTYPE(⽂档类型) 的作⽤4. script标签中defer和async的区别5. 常⽤的meta标签有哪些6. HTML5有哪些更新1. 语义化标签2. 媒体标签3. 表单4. 进度条、度量器5.DOM查询操作6. Web存储7. 其他 7. img的srcset属…

Python 图像处理进阶:特征提取与图像分类

特征提取 特征提取是计算机视觉中的一个重要环节,它可以从图像中提取出有助于后续处理的特征,比如用于识别和分类的关键点、纹理等。常见的特征提取方法包括SIFT、SURF和ORB等。 SIFT(尺度不变特征变换) SIFT是一种用于检测图像…

Web-ssrfme--redis 未授权访问攻击

目录 1、题目源码 2、测试ssrf 3、发现主机 4、发现服务 5、redis 未授权访问攻击 6&#xff0c;拿flag 1、题目源码 <?php highlight_file(__file__); function curl($url){ $ch curl_init();curl_setopt($ch, CURLOPT_URL, $url);curl_setopt($ch, CURLOPT_HEADER…

用Maven开发Spring Boot 项目

一、初识 Spring Boot Spring Boot框架是一 套开源的后台开发框架&#xff0c; 继承了Spring MVC框架的前辈SSM框架的优秀特性&#xff0c;通过注解大幅减少程序员写配置的工作量。从企业开发角度来看&#xff0c;它提供了自动化配置&#xff0c;内嵌容器和兼容Maven等核心功…

银河麒麟桌面操作系统V10:如何快速将应用固定到任务栏?

银河麒麟桌面操作系统V10&#xff1a;如何快速将应用固定到任务栏&#xff1f; 1、图形界面方法2、命令行方法2.1 固定应用2.2 取消固定 &#x1f496;The Begin&#x1f496;点点关注&#xff0c;收藏不迷路&#x1f496; 在银河麒麟V10中&#xff0c;/usr/share/applications…

Vue 绘制圆形 上下左右

效果图 代码&#xff1a; <div style"transform: rotate(45deg)"><div id"top"><div id"top-left" click"addformData(true, form.lat, 0.000003, lat)"><ArrowUpBold style"height: 25px; width: 25px; tr…

winform 实现优美的进度条 包含百分比

winform 原生控件中包含进度条控件 ProgressBar。 但这个控件并没有告诉我们如何在上面实现 显示百分比进度的方式&#xff0c;或者说根本就不支持。但没 有百分比显示的进度条是没有灵魂的&#xff0c;可能是有点让人一头雾水的。 还好我们可以通过实现 ProgressBar 的 OnP…