训练一个中文gpt2模型

news2025/4/15 16:04:57

前言

这是我的github上的一个介绍，关于如何训练中文版本的gpt2的。
链接为: https://github.com/yuanzhoulvpi2017/zero_nlp

介绍

本文，将介绍如何使用中文语料，训练一个gpt2
可以使用你自己的数据训练，用来：写新闻、写古诗、写对联等
我这里也训练了一个中文gpt2模型，使用了612万个样本，每个样本有512个tokens，总共相当于大约31亿个tokens

⚠️安装包

需要准备好环境，也就是安装需要的包

pip install -r requirements.txt

像是pytorch这种基础的包肯定也是要安装的，就不提了。

数据

数据来源

获得数据:数据链接，关注公众号【统计学人】，然后回复【gpt2】即可获得。
获得我训练好的模型(使用了15GB的数据(31亿个tokens)，在一张3090上，训练了60多小时)

数据格式

数据其实就是一系列文件夹📁，然后每一个文件夹里面有大量的文件，每一个文件都是.csv格式的文件。其中有一列数据是content
每一行的content就代表一句话,截图如下
虽然数据有15GB那么大，但是处理起来一点也不复杂，使用 datasets
包，可以很轻松的处理大数据，而我只需要传递所有的文件路径即可，这个使用 glob 包就能完成。

代码

⚙️训练代码`train_chinese_gpt2.ipynb`

⚠️注意

现在训练一个gpt2代码，其实很简单的。抛开处理数据问题，技术上就三点:tokenizer、gpt2_model、Trainer
tokenizer使用的是bert-base-chinese
，然后再添加一下bos_token、eos_token、pad_token。
gpt2_model使用的是gpt2，这里的gpt2我是从0开始训练的。而不是使用别人的预训练的gpt2模型。
Trainer训练器使用的就是transformers的Trainer模块。（支撑多卡并行，tensorboard等，都写好的，直接调用就行了，非常好用）

📤推理代码`infer.ipynb`

⚠️注意

这个是chinese-gpt2的推理代码

将代码中的model_name_or_path = "checkpoint-36000"里面的"checkpoint-36000",修改为模型所在的路径。
然后运行下面一个代码块，即可输出文本生成结果
可以参考这个代码，制作一个api，或者打包成一个函数或者类。

🤖交互机器人界面`chatbot.py`

⚠️注意

修改代码里面的第4行，这一行值为模型所在的位置，修改为我分享的模型文件路径。

model_name_or_path = "checkpoint-36000"

运行

python chatbot.py

点击链接，即可在浏览器中打开机器人对话界面

更多

这个完整的项目下来，其实我都是全靠huggingface文档、教程度过来的.
我做的东西，也就是把Tokenizer改成中文的了，然后也整理了数据，别的大部分东西，都不是我做的了.
原文链接为https://huggingface.co/course/zh-CN/chapter7/6?fw=pt.

一起学习

其实，我更喜欢做应用，但是也要理解相关的背后原理，目前还在研究相关的gpt2原理还有相关的推理细节，这是我整理的链接，希望可以共同进步

https://huggingface.co/blog/how-to-generate
https://huggingface.co/gpt2
https://huggingface.co/gpt2-large

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/345978.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

linux中top命令分析

linux中top命令分析

TOP命令是比较常用的性能分析命令，可以看出服务器CPU 、负载、内存、磁盘、IO等数值，接下来就详细解读top命令 top命令打开服务器终端，直接输入top，top命令中的数据显示的都是当前的实时数据直接这样输入，回车即…

阅读更多...

iptables防火墙屏蔽指定ip的端口

iptables防火墙屏蔽指定ip的端口

因为需要测试客户端程序与hadoop服务器之间正常通信需要开通的端口, 所以在hadoop各服务器上使用iptables防火墙屏蔽了测试客户端程序的ip和所有端口。然后，根据报错信息提示的端口号来逐步放开直到能正常通信下载文件。在服务器端屏蔽指定ip访问所有端口 #查看…

阅读更多...

UUID的弊端以及雪花算法

UUID的弊端以及雪花算法

目录一、问题为什么需要分布式全局唯一ID以及分布式ID的业务需求 ID生成规则部分硬性要求 ID号生成系统的可用性要求二、一般通用方案 （一）UUID （二）数据库自增主键 （三）Redis生成全局id策略三…

阅读更多...

与AI相遇 | 在ChatGPT中输入“情人节”，我们会得到......？

与AI相遇 | 在ChatGPT中输入“情人节”，我们会得到......？

最近ChatGPT可谓是风靡全球，大家彼此的问候从“你吃饭了吗”变成“你玩ChatGPT了吗”。这款当今最火爆的AI语言模型，是美国人工智能研究实验室OpenAI新推出的一种人工智能技术驱动的自然语言处理工具，使用了Transformer神经网络架构&#xff…

阅读更多...

校园创新创业基地管理系统(java,jsp,ssh,mysql)+全套视频教程

校园创新创业基地管理系统(java,jsp,ssh,mysql)+全套视频教程

技术栈: JAVA,SSH, MYSQL, JQUERY,HTML,CSS, JAVASCRIPT首页访问 http://localhost:8080/Struts2.3.16.1Hibernate4.3.4Spring4.0.2/index_index.action管理员admin 123456用户 user1 123456代码功能演示： http://woc.xin/8C64kZ功能列表:本系统包含普通用户,后台管…

阅读更多...

LeetCode（Java）—— 加一（简单）

LeetCode（Java）—— 加一（简单）

加一概述：给定一个由整数组成的非空数组所表示的非负整数，在该数的基础上加一。最高位数字存放在数组的首位， 数组中每个元素只存储单个数字。你可以假设除了整数 0 之外，这个整数不会以零开头。输入：digits [1,2,3] …

阅读更多...

如何设计一个API接口？

如何设计一个API接口？

在日常开发中，总会接触到各种接口。前后端数据传输接口，第三方业务平台接口。一个平台的前后端数据传输接口一般都会在内网环境下通信，而且会使用安全框架，所以安全性可以得到很好的保护。这篇文章重点讨论一下提供给第三方平台的…

阅读更多...

Python readline()和readlines()函数：按行读取文件

Python readline()和readlines()函数：按行读取文件

如果想读取用 open() 函数打开的文件中的内容，除了可以使用 read() 函数，还可以使用 readline() 和 readlines() 函数。和 read() 函数不同，这 2 个函数都以“行”作为读取单位，即每次都读取目标文件中的一行。对于读取以文本格式…

阅读更多...

基于JAVA+SpringBoot+VUE的心理健康测试系统的设计与实现

基于JAVA+SpringBoot+VUE的心理健康测试系统的设计与实现

✌全网粉丝20W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取项目下载方式🍅 一、项目背景介绍： 随着现代社会的不断发…

阅读更多...

写给小白，Python 爬虫学习思路

写给小白，Python 爬虫学习思路

爬虫是Python是一个很经典的方向，大多数的小伙伴看到的是Python爬虫的就业效果，确实Python爬虫学习成本低（学习快），就业效果好，特别适合新手入门，但是也要关注另外一个点，就是Python…

阅读更多...

iTerm2 + Oh My Zsh 打造舒适终端体验

iTerm2 + Oh My Zsh 打造舒适终端体验

最终效果图： 因为powerline以及homebrew均需要安装command line tool，网络条件优越的同学在执行本文下面内容之前，可以先安装XCode并打开运行一次（会初始化安装components），省去以后在iterm2中的等待时间。…

阅读更多...

LeetCode 234. 回文链表 | C语言版

LeetCode 234. 回文链表 | C语言版

LeetCode 234. 回文链表 | C语言版LeetCode 234. 回文链表题目描述解题思路思路一：使用快慢双指针代码实现运行结果参考文章：[https://leetcode.cn/problems/palindrome-linked-list/solutions/1011052/dai-ma-sui-xiang-lu-234-hui-wen-lian-bia-qs0k/?…

阅读更多...

这几款高效办公神器，职场大神都在用（建议收藏）

这几款高效办公神器，职场大神都在用（建议收藏）

都快2023年了，还不知道怎么用网站来提高工作和生活质量？还不快搬好小板凳，听我来安利这几个实用网站！ 一、做图神器 1.创可贴：国内最火的在线设计工具链接：https://www.chuangkit.com/designtools/desi…

阅读更多...

基于深度学习的三维重建（一）：三维重建简介、patchmatchNet环境部署、用colmap如何测试自己的数据集

基于深度学习的三维重建（一）：三维重建简介、patchmatchNet环境部署、用colmap如何测试自己的数据集

目录 1.什么是三维重建 2.MVS是什么 3.传统MVS的局限性和为什么基于深度学习的MVS性能好于传统三维重建 4.基础概念 5. patchmatchNet环境配置 6.如何测试自己的数据集（位姿计算） 6.1 colmap导出位姿 6.2 将colmap位姿转换成MVS读取的数据格式 1.…

阅读更多...

Linux安装Docker配置docker-compose 编排工具【超详细】

Linux安装Docker配置docker-compose 编排工具【超详细】

一、介绍Docker Docker 是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中，然后发布到任何流行的 Linux或Windows操作系统的机器上，也可以实现虚拟化。容器是完全使用沙箱机制，相互之间不会有…

阅读更多...

面试官：什么是性能测试计划？（内含干货）

面试官：什么是性能测试计划？（内含干货）

引言在进入今天的内容前， 先想几个问题：什么是测试计划？什么是性能测试计划？在你的性能知识领域中， 你认为性能测试计划应该包含哪些内容？因为作为企业的金牌面试官， 经过我面试的求职者&#x…

阅读更多...

一文搞懂：JS严格模式“use strict”

一文搞懂：JS严格模式“use strict”

什么是JS的严格模式 JS严格模式概念是在ES5中引入的，在此模式下，JS对语法的要求会变的严格，某些不太严谨的代码在严格模式下将不能运行。如何启用严格模式只需要JS代码的起始添加 "use strict"即可。如： "use…

阅读更多...

Spring Boot邮件发送（powernode CD2207）（内含教训视频+源代码）

Spring Boot邮件发送（powernode CD2207）（内含教训视频+源代码）

Spring Boot邮件发送（powernode CD2207）（内含教训视频源代码） 教学视频源代码下载链接地址：https://download.csdn.net/download/weixin_46411355/87452056 目录Spring Boot邮件发送（powernode CD2207&…

阅读更多...

图解LeetCode——1233. 删除子文件夹（难道：中等）

图解LeetCode——1233. 删除子文件夹（难道：中等）

一、题目你是一位系统管理员，手里有一份文件夹列表 folder，你的任务是要删除该列表中的所有子文件夹，并以任意顺序返回剩下的文件夹。如果文件夹 folder[i] 位于另一个文件夹 folder[j] 下，那么 folder[i] 就是 folder[j] …

阅读更多...

Redis学习【4】之简单动态字符串

Redis学习【4】之简单动态字符串

文章目录一简单动态字符串 SDS1.1 SDS简介1.2 SDS结构1.3 SDS优势1.3.1 防止”字符串长度获取”性能瓶颈1.3.2 保障二进制安全1.3.3 减少内存再分配次数1.3.4 兼容C函数1.4 常用的 SDS 操作函数一简单动态字符串 SDS 1.1 SDS简介无论是 Redis 的 Key 还是 Value&#xff0…

阅读更多...

推荐文章

最新文章