什么？穷哥们没钱RLHF？跟我一起DPO吧，丐版一样用

什么？穷哥们没钱RLHF？跟我一起DPO吧，丐版一样用

news2025/1/9 10:39:39

本次DPO训练采用TRL的方式来进行训练

Huggingface TRL是一个基于peft的库，它可以让RL步骤变得更灵活、简单，你可以使用这个算法finetune一个模型去生成积极的评论、减少毒性等等。

本次进行DPO的模型是一个500M的GPT-2，目的是训练快，少占资源，快速看到结果。

下载Tokenizer：

from transformers import AutoTokenizer

AutoTokenizer.from_pretrained('gpt2').save_pretrained('tokenizer/gpt2')

下载Datasets：

from datasets import load_dataset

load_dataset('b-mc2/sql-create-context').save_to_disk(

'dataset/b-mc2/sql-create-context')

下载Model：

from transformers import AutoModelForCausalLM

AutoModelForCausalLM.from_pretrained('gpt2').save_pretrained('model/gpt2')

图下载Tokenizer，model，数据

首先我们看一下原始数据集，原始数据集的构成分为3部分，一个是question，代表想提出的问题，一个是answer代表回答，第三部分是context代表参考的表结构。

图原始数据集

图数据集样例

实际数据样例，我们进一步规范了三种数据类型：

·第一个prompt，包含了context表结构和问题。

·第二个chose，表示希望训练之后的模型按着什么范式来回答问题。

·第三个reject，表示不希望用什么方式来回答，这里就留空了，代表隐式确认，如果有条件也可以整理不喜欢的回答范式。

这个训练的目的就是不管回答什么问题，都要用SQL语句的形式来回答，强调一种受欢迎回答的范式，这也是RLHF/DPO训练的主要目的。

下面开始训练部分，首先load tokenizer。

图8-9 load tokenizer

按照需求来整理数据格式。

图整理数据格式

读取模型。

from transformers import AutoTokenizer

import random

import torch

tokenizer = AutoTokenizer.from_pretrained('/data2/DPO/tokenizer/gpt2')

tokenizer.pad_token_id = 0

tokenizer

from transformers import AutoModelForCausalLM

model_dpo = AutoModelForCausalLM.from_pretrained('/data2/DPO/model/gpt2').to('cuda')

model_dpo_ref = AutoModelForCausalLM.from_pretrained('/data2/DPO/model/gpt2').to('cuda')

先做个测试看看模型目前是怎么回答的。

图训练前的回答方式

如上图所示，很显然这个回答方式不是我们要求的方式，我们需要它把问题都按着SQL语句来进行回答。

最后一步就是正式训练了。

如上图所示，随着训练的开展，模型回复对话的方式，基本就越来越向着正规SQL的方向演进。

这就是DPO训练所达成的目的。

也没有多废资源，我是点auto-map技能点了，正常也就一张A100够了。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1568663.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Anaconda如何切换国内镜像源

Anaconda如何切换国内镜像源

一、anaconda如何切换阿里镜像源在Anaconda中切换到阿里云镜像源可以通过以下步骤进行： 1、打开终端（Windows）或者命令行界面（macOS/Linux）。 2、执行以下命令来配置阿里云镜像源： conda config --add…

阅读更多...

复现k8s黄金票据学习

复现k8s黄金票据学习

1.什么是黄金票据在 Kubernetes 中，"黄金票据"并不是一个常见的术语。可能你想了解的是服务账户（Service Account）。服务账户是 Kubernetes 中用于身份验证和授权的一种机制。它们允许 Pods 或其他工作负载在 Kubernetes 集群中与…

阅读更多...

Java-继承-定义Student类继承于Person类(例)

Java-继承-定义Student类继承于Person类(例)

我们书接上回：这一章，我们进入"继承"。先来了解题目有关继承的需求：（本题是为知识服务，也可用于练手） 题目： 已有一个类Person类，代码如下： Person类定义…

阅读更多...

模拟退火遗传算法GASA-附MATLAB代码

模拟退火遗传算法GASA-附MATLAB代码

模拟退火遗传算法（Simulated Annealing Genetic Algorithm，SAGA）结合了模拟退火算法（Simulated Annealing，SA）和遗传算法（Genetic Algorithm，GA）的优点，用于解…

阅读更多...

基于springboot+vue+Mysql的招生管理系统

基于springboot+vue+Mysql的招生管理系统

开发语言：Java框架：springbootJDK版本：JDK1.8服务器：tomcat7数据库：mysql 5.7（一定要5.7版本）数据库工具：Navicat11开发软件：eclipse/myeclipse/ideaMaven包：…

阅读更多...

网络基础（二）——HTTPS协议原理

网络基础（二）——HTTPS协议原理

目录 1、概念准备 1.1、HTTPS是什么 1.2、什么是加密 1.3、为什么要进行加密 1.4、常见的加密方式对称加密非对称加密 1.5、数据摘要&&数据指纹 1.6、数字签名 2、HTTPS的工作过程探究 2.1、方案1 - 只使用对称加密 2.2、方案2 - 只使用非对称加密 2.3、…

阅读更多...

多线程中常用的一些方法介绍

多线程中常用的一些方法介绍

目录 1. setName和getName方法 2. 静态方法currentThread 3. 静态方法sleep 4. setPriority和getPriority方法 5. setDaemon方法 6. 静态方法yield 7. join方法下面介绍这些方法的使用，以下面的MyThread为例： public class MyThread extends Th…

阅读更多...

电商系列之促销

电商系列之促销

> 插：AI时代，程序员或多或少要了解些人工智能，前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。坚持不懈，越努力越幸运，大家…

阅读更多...

SpringBoot + Vue + Nginx前后端分离项目本地部署（Win）

SpringBoot + Vue + Nginx前后端分离项目本地部署（Win）

SpringBoot Vue Nginx前后端分离项目本地部署步骤本地部署所需步骤将后端打包好的jar文件和前端生成的静态资源文件放入同一目录启动Spring Boot应用配置Nginx并重启访问 http://your_domain 查看部署效果前端Vue项目部署将写好的vue代码的目录下运行 npm run build …

阅读更多...

956: 约瑟夫问题的实现

956: 约瑟夫问题的实现

【学习版】【C语言】 #include <iostream> #include <string> #include <algorithm> #include <cmath> #include <cstdlib> using namespace std; typedef struct Lnode {int date;struct Lnode* next; }Lnode, * Linklist; int In(Linklist&…

阅读更多...

《数据结构学习笔记---第十篇》--- 堆堆排序（超详细图解）

《数据结构学习笔记---第十篇》--- 堆堆排序（超详细图解）

目录 1.堆是什么? 2.问题引入：当我们插入一个新的元素时，那么他还是堆吗。 3.堆的元素插入 4.问题引入：当我们删除一个堆顶元素时，我们又该如何调整呢？ 5.堆顶元素删除 6.如何建堆？ 6.1向上调整建堆…

阅读更多...

面试算法-140-接雨水

面试算法-140-接雨水

题目给定 n 个非负整数表示每个宽度为 1 的柱子的高度图，计算按此排列的柱子，下雨之后能接多少雨水。示例 1： 输入：height [0,1,0,2,1,0,1,3,2,1,2,1] 输出：6 解释：上面是由数组 [0,1,0,2,1,0,1,3,2…

阅读更多...

网络编程（TCP、UDP）

网络编程（TCP、UDP）

文章目录一、概念1.1 什么是网络编程1.2 网络编程中的基本知识二、Socket套接字2.1 概念及分类2.2 TCP VS UDP2.3 通信模型2.4 接口方法UDP数据报套接字编程TCP流套接字编程三、代码示例3.1 注意点3.2 回显服务器基于UDP基于TCP 一、概念首先介绍了什么是网络编程&#xff…

阅读更多...

大模型量化技术-GPTQ

大模型量化技术-GPTQ

大模型量化技术-GPTQ 2022年，Frantar等人发表了论文 GPTQ：Accurate Post-Training Quantization for Generative Pre-trained Transformers。这篇论文详细介绍了一种训练后量化算法，适用于所有通用的预训练 Transformer模型，同时只有微小的性能下降。 GPTQ算法需要通过…

阅读更多...

Autodesk Maya 2025 Multilanguage (macOS, Linux, Windows) - 三维动画和视觉特效软件

Autodesk Maya 2025 Multilanguage (macOS, Linux, Windows) - 三维动画和视觉特效软件

Autodesk Maya 2025 Multilanguage (macOS, Linux, Windows) - 三维动画和视觉特效软件三维计算机动画、建模、仿真和渲染软件请访问原文链接：https://sysin.org/blog/autodesk-maya/，查看最新版。原创作品，转载请保留出处。作者主页&a…

阅读更多...

‘cv2’、PIL、torch、torchivision

‘cv2’、PIL、torch、torchivision

运行环境安装失败集 1、 ModuleNotFoundError: No module named ‘cv2’No module named ‘cv2’ opencv-python PEP517 ERROR2、ModuleNotFoundError: No module named PIL3、torch、torchvision安装 1、 ModuleNotFoundError: No module named ‘cv2’ No module named ‘cv…

阅读更多...

基于SSM的社区疫情防控管理信息系统

基于SSM的社区疫情防控管理信息系统

目录背景技术简介系统简介界面预览背景随着时代的进步，计算机技术已经全方位地影响了社会的发展。随着居民生活质量的持续上升，人们对社区疫情防控管理信息系统的期望和要求也在同步增长。在社区疫情防控日益受到广泛关注的背景下&#xff0c…

阅读更多...

JAVAEE——文件IO

JAVAEE——文件IO

文章目录文件的概念什么是文件？树型结构组织和目录文件路径相对路径绝对路径文件的分类文件的权限文件读写IO API字符流操作API 警告字节流操作APIInputStreamOutputStream 文件的概念什么是文件？ 我们先来理解一下什么是文件，那么想…

阅读更多...

四川尚熠电子商务有限公司靠谱吗？怎么样？

四川尚熠电子商务有限公司靠谱吗？怎么样？

在当下数字化浪潮中，电子商务行业正以前所未有的速度蓬勃发展。四川尚熠电子商务有限公司，作为专注于抖音电商服务的企业，凭借其敏锐的市场洞察力和创新精神，正成为行业内的佼佼者，为众多品牌打开抖音电商市场的大门。…

阅读更多...

[技术闲聊]我对电路设计的理解(三)

[技术闲聊]我对电路设计的理解(三)

终于可以独立做项目了，是不是很激动，是不是为自己骄傲和自豪，应该的，奋斗那么久不就是为了站在山巅看看四周的风景嘛！ 虽说山外还有山，但是此刻就在脚下的山巅上，怡然自得都是不过分的&#xff…

阅读更多...

推荐文章

最新文章