实战：手把手教你colossal-AI复现Chatgpt的流程

news2025/12/21 7:09:30

相信很多人都看了使用colossal-AI复现Chatgpt的流程的文章，但实际上看过了，不免有人发出“说得贼明白，就是自己做不出来”的感叹吧。本人公开一下实战过程，给有兴趣复现chatgpt流程的朋友一个参考。

一、环境搭建：

1.腾讯云购买P40 GPU服务器（T4 GPU 16G跑不动哦，OOM），该服务器是24G GPU，软件环境是：ubutun18.04+torch1.9

2.使用git clone下载colossalAI的源代码，使用了https://ghproxy.com进行了加速。

git clone https://ghproxy.com/https://github.com/hpcaitech/ColossalAI

3.搭建nvidia docker运行环境。

请参考：https://zhuanlan.zhihu.com/p/361934132

4. 使用nvidia的镜像（如：nvcr.io/nvidia/pytorch:22.05-py3），注意：hpcaitech/colossalai:0.2.5的镜像无法使用--gpus参数。

sudo docker pull nvcr.io/nvidia/pytorch:22.05-py3

5. 进入ColosaalAI，创建gpt容器

sudo docker run --name gpt --gpus=all --ipc=host --rm -it -v $PWD:/gpt -p 6006 -p 8888 --ulimit memlock=-1 -v /etc/localtime:/etc/localtime:ro -d nvcr.io/nvidia/pytorch:22.05-py3

6.进入gpt容器

sudo docker exec -it gpt /bin/bash

7. 在ColossalAI\applications\ChatGPT下，安装chatgpt及依赖，使用豆瓣加速源。

pip install . -i https://pypi.douban.com/simple

二、开始训练prompt data

1.进入example目录，下载prompts.csv，可以开始运行prompts的训练了。

python train_prompts.py prompts.csv --strategy naive

2.训练完成后，生成了两个模型文件，GPU占用大概9个G左右。

三、开始训练reward model

1.在宿主服务中（非docker环境）安装git-lfs，用于管理模型中的大文件。

curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash
sudo apt-get install git-lfs
git lfs install

2.进入到ColossalAI\applications\ChatGPT\examples目录,下载bloom-560m.

git clone https://huggingface.co/bigscience/bloom-560m

这个时间比较长，要下载3个多G的模型文件，耐心等待。

3. 在gpt容器中训练reward model

python train_reward_model.py --pretrain bloom-560m

四、运行benckmark

相信你知道该如何做了，参考ReadMe.md即可。

五、展望

实际上要达成chatgpt一样的效果，还需要很多的努力，包括数据如何组织，prompt如何编写，奖励模型的实现方式，人类反馈的结果是否有偏等。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/365397.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

实战：手把手教你colossal-AI复现Chatgpt的流程

相关文章

Redis四原理篇

【Linux】进程间通信（万字详解）—— 匿名管道 | 命名管道 | System V | 共享内存

华为OD机试 - 区块链文件转储系统（Python）【2023-Q1 新题】

华为OD机试真题用 C++ 实现 - 静态扫描最优成本

什么蓝牙耳机适合打游戏？打游戏不延迟的蓝牙耳机

Powershell Install java 13

CleanMyMac4.12最新Mac电脑系统垃圾清理神器

「TCG 规范解读」初识 TCG 身份认证

第10天-商品服务（分层领域模型及规格参数编码实现）

【likeshop多商户】电子面单商家直播上线啦~

矩阵中的路径 AcWing (JAVA)

【c语言】预处理

设计模式--工厂模式

通过一张照片来定位拍摄地点和网站的域名 LA CTF 2023

浅谈分布式锁的原理

SPINAND UBI 离线烧录开发指南

React从入门到精通二

OAK相机深度流探测草莓距离

uniapp 悬浮窗（悬浮球、动态菜单、在其他应用上层显示） Ba-FloatBall

一口吃不成ChatGPT，复旦版MOSS服务器被挤崩后续