LLM PreTraining from scratch -- 大模型从头开始预训练指北

LLM PreTraining from scratch -- 大模型从头开始预训练指北

news2025/12/30 22:22:23

最近做了一些大模型训练相关的训练相关的技术储备，在内部平台上完成了多机多卡的llm 预训练的尝试，具体的过程大致如下：

数据准备：

大语言模型的训练依赖于与之匹配的语料数据，在开源社区有一群人在自发的整理高质量的语料数据，可以通过以下的一些链接获取

liwu/MNBVC at main

Skywork/SkyPile-150B · Datasets at Hugging Face

预训练框架：

选用了百川智能的开源框架

原始版本代码训练准备：

根据README 里面的介绍，需要准备以下几样东西：

训练数据，按照训练的卡的数目分成多个文件，每个文件的每一行为一整句的语料,类似这样的文件

添加图片注释，不超过 140 字（可选）

分词器（tokenizer），下载分词器到当前目录下。
修改hostfile训练脚本，单机训练情况下，不依赖于多机多卡的hostfile，修改启动脚本添加启动项 --num_nodes 即可完成单机多卡的训练

#!/bin/bash

deepspeed --hostfile config/hostfile --num_nodes=1 \ train.py \ --deepspeed \ --deepspeed_config config/deepspeed.json

原版的训练中几个要处理的问题

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1510714.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Java多线程——对象的原子更新

Java多线程——对象的原子更新

目录引出对象原子更新AtomicReferenceAtomicLongFieldUpdaterABA问题创建线程有几种方式？方式1：继承Thread创建线程方式2：通过Runnable方式3：通过Callable创建线程方式4：通过线程池概述ThreadPoolExecutor API代码实…

阅读更多...

在VMvare中虚拟机安装centos7和初始设置

在VMvare中虚拟机安装centos7和初始设置

下载镜像阿里云的镜像站：https://mirrors.aliyun.com/centos/7/isos/x86_64/ 创建虚拟机过程虚拟机创建过程比较简单，以下在VMvare16中进行安装点击左上角，文件-新建虚拟机： 选择典型选择刚刚下载好的镜像输入虚拟机…

阅读更多...

#QT（本地音乐播放器）

#QT（本地音乐播放器）

1.IDE：QTCreator 2.实验：之前做的音乐播放器只做了一个界面，是因为跟的课程发现到后面需要付费，并且WINGW6.2.0运行QMediaPlayer时无法运行，会崩溃，现在退一步用WINGW5.12.2做一个本地音乐播放器 3.记录&am…

阅读更多...

012集——显示高考天数倒计时——vba实现

012集——显示高考天数倒计时——vba实现

以下代码实现高考倒计时： Sub 高考倒计时() 高考日期 CDate("06,07," & Year(Date)) If Date > 高考日期 Then高考日期 CDate("06-07-" & Year(Date) 1) End If 年月日 Year(Date) & "年" & Month(Date) &am…

阅读更多...

鲜花销售小程序|基于微信小程序的鲜花销售系统设计与实现(源码+数据库+文档)

鲜花销售小程序|基于微信小程序的鲜花销售系统设计与实现(源码+数据库+文档)

鲜花销售小程序目录目录基于微信小程序的鲜花销售系统设计与实现一、前言二、系统功能设计三、系统实现 1前台功能模块 2、后台功能模块 1、管理员功能模块四、数据库设计 1、实体ER图 2、具体的表设计如下所示： 五、核心代码六、论文参考七、…

阅读更多...

LabVIEW多表位数字温湿度计图像识别系统

LabVIEW多表位数字温湿度计图像识别系统

LabVIEW多表位数字温湿度计图像识别系统解决数字温湿度计校准过程中存在的大量需求和长时间校准问题，通过LabVIEW开发平台设计了一套适用于20多个表位的数字温度计图像识别系统。该系统能够通过图像采集、提取和处理，进行字符训练，从而实现…

阅读更多...

LiveGBS流媒体平台GB/T28181功能-海康摄像头国标语音对讲大华摄像头国标语音对讲GB28181语音对讲需要的设备及服务准备

LiveGBS流媒体平台GB/T28181功能-海康摄像头国标语音对讲大华摄像头国标语音对讲GB28181语音对讲需要的设备及服务准备

LiveGBS海康摄像头国标语音对讲大华摄像头国标语音对讲GB28181语音对讲需要的设备及服务准备 1、背景2、准备2.1、服务端必备条件（注意）2.2、准备语音对讲设备2.2.1、大华摄像机2.2.1.1、配置接入示例2.2.1.2、配置音频通道编号 2.2.2、海康摄像机2.…

阅读更多...

现货黄金交易网上有用的交易技巧

现货黄金交易网上有用的交易技巧

在不同的现货黄金交易网上，经常有投资者分享交易技巧。由于在网上发文没什么限制，所以这些交易技巧都是泥沙俱下，质量良莠不齐。不过也有一些是有用的，下面我们就来介绍一下现货黄金交易网上那些有用的交易技巧。培养防守意识。什…

阅读更多...

swiftUI中的可变属性和封装

swiftUI中的可变属性和封装

swiftUI的可变属性关于swift中的属性，声明常量使用let ， 声明变量使用var 如果需要在content中更改视图变化那么就需要在 var前面加上state 。通过挂载到state列表 ，从而让xcode找到对应的改变的值例子： import SwiftUIstruc…

阅读更多...

Java后端八股------消息中间件篇

Java后端八股------消息中间件篇

自动确认没收到，实现重复消费问题，可以用业务唯一标识来确定业务是否被消费。 TTL也就是超时时间，一般去dead letter的时间为min(消息的ttl,queue的ttl)。 acksall设置是最安全的，但是效率太低了，实际的生…

阅读更多...

App自动化测试环境搭建（详细版）

App自动化测试环境搭建（详细版）

🍅 视频学习：文末有免费的配套视频可观看 🍅 点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快只做记录和注意点，详细内容不做解释环境：winappium夜神模拟器python 需…

阅读更多...

企业电子招投标系统源码-从源码到实践：深入了解鸿鹄电子招投标系统与电子招投标

企业电子招投标系统源码-从源码到实践：深入了解鸿鹄电子招投标系统与电子招投标

在数字化采购领域，企业需要一个高效、透明和规范的管理系统。通过采用Spring Cloud、Spring Boot2、Mybatis等先进技术，我们打造了全过程数字化采购管理平台。该平台具备内外协同的能力，通过待办消息、招标公告、中标公告和信息发布等功能模块…

阅读更多...

echarts绘制雷达图

echarts绘制雷达图

<template><div><div>【云端报警风险】</div><div ref"target" class"w-full h-full" stylewidth：200px;height:300px></div></div> </template><script setup> import { ref, onMounte…

阅读更多...

11 | 怎么给字符串字段加索引？

11 | 怎么给字符串字段加索引？

现在，几乎所有的系统都支持邮箱登录，如何在邮箱这样的字段上建立合理的索引，是我们今天要讨论的问题。假设，你现在维护一个支持邮箱登录的系统，用户表是这么定义的： mysql> create table SUser( ID bi…

阅读更多...

安科瑞温湿度控制器怎么安装？

安科瑞温湿度控制器怎么安装？

WH-M 温湿度模块主要用于中高压开关柜、端子箱、环网柜、箱变等设备内部温度和湿度的检测。该模块采用专用外壳，通风效果好，外观精致，既能有效保护内部元件，提高使用寿命，又方便安装、接线。接线方式

阅读更多...

数据结构奇妙旅程之二叉平衡树进阶---AVL树

数据结构奇妙旅程之二叉平衡树进阶---AVL树

꒰˃͈꒵˂͈꒱ write in front ꒰˃͈꒵˂͈꒱ ʕ̯•͡˔•̯᷅ʔ大家好，我是xiaoxie.希望你看完之后,有不足之处请多多谅解，让我们一起共同进步૮₍❀ᴗ͈ . ᴗ͈ აxiaoxieʕ̯•͡˔•̯᷅ʔ—CSDN博客本文由xiaoxieʕ̯•͡˔•̯᷅ʔ 原创 CSDN …

阅读更多...

3588板子部署yoloV5

3588板子部署yoloV5

一 ：准备 ubuntu linux X86_64系统 a.安装anaconda b.创建虚拟环境 python3.8 二： 下载rknn-toolkit2 传送门 unzip 解压文件夹三：pt转onnx模型四：onnx转rknn模型 a:cd到rknn-toolkit2-master/rknn-toolkit2/packag…

阅读更多...

使用Java的等待/通知机制实现一个简单的阻塞队列

使用Java的等待/通知机制实现一个简单的阻塞队列

Java的等待/通知机制 Java的等待通知机制是多线程间进行通信的一种方式。有三个重要的方法：wait()，notify() 和以及notifyAll() wait()：该方法用于让当前线程（即调用该方法的线程）进入等待状态并且释放掉该对象上的…

阅读更多...

初级爬虫实战——伯克利新闻

初级爬虫实战——伯克利新闻

文章目录发现宝藏一、目标二、简单分析网页1. 寻找所有新闻2. 分析模块、版面和文章三、爬取新闻1. 爬取模块2. 爬取版面3. 爬取文章四、完整代码五、效果展示发现宝藏前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不…

阅读更多...

leetcode 热题 100_螺旋矩阵

leetcode 热题 100_螺旋矩阵

题解一： 模拟：定义四个边界，指针按右下左上的顺序遍历，每遍历一条边，边界就减一，并且在某个方向没有可以遍历的数时直接返回。 import java.util.ArrayList; import java.util.List;class Solution {publi…

阅读更多...

推荐文章

最新文章