DPO讲解

DPO讲解

news2026/2/13 1:26:31

PPO算法的pipeline冗长，涉及模型多，资源消耗大，且训练极其不稳定。DPO是斯坦福团队基于PPO推导出的优化算法，去掉了RW训练和RL环节，只需要加载一个推理模型和一个训练模型，直接在偏好数据上进行训练即可：

DPO

损失函数如下：
$\mathcal{L}_{\mathrm{DPO}}\left(\pi_\theta ; \pi_{\mathrm{ref}}\right)=-\mathbb{E}_{\left(x, y_w, y_l\right) \sim \mathcal{D}}\left[\log \sigma\left(\beta \log \frac{\pi_\theta\left(y_w \mid x\right)}{\pi_{\mathrm{ref}}\left(y_w \mid x\right)}-\beta \log \frac{\pi_\theta\left(y_l \mid x\right)}{\pi_{\mathrm{ref}}\left(y_l \mid x\right)}\right)\right]$

DPO在理解难度、实现难度和资源占用都非常友好，想看具体的公式推导见：

[论文笔记]DPO：Direct Preference Optimization: Your Language Model is Secretly a Reward Model

参考

Direct Preference Optimization:
Your Language Model is Secretly a Reward Model
DPO: Direct Preference Optimization 论文解读及代码实践

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1319237.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

计算机出现xinput1_3.dll缺失、五种详细解决方案

计算机出现xinput1_3.dll缺失、五种详细解决方案

在电脑使用过程中，我们可能会遇到一些错误提示，其中之一就是xinput1_3.dll丢失。这个错误提示通常会导致游戏或其他应用程序无法正常运行。那么，xinput1_3.dll文件到底是什么？它丢失会对电脑产生什么影响？本文将为您详…

阅读更多...

1688订单详情对接及实现方案

1688订单详情对接及实现方案

一、引言 1688作为中国最大的B2B电子商务平台之一，提供了丰富的商品信息和订单详情。通过与1688订单详情接口的对接，电商企业可以实时获取订单详细信息，以便更好地了解客户需求、优化运营策略以及提高服务质量。本文将详细介绍如何实现1688订…

阅读更多...

《数据结构、算法与应用C++语言描述》-机器调度-最长处理时间(LPT)-堆应用

《数据结构、算法与应用C++语言描述》-机器调度-最长处理时间(LPT)-堆应用

机器调度完整可编译运行代码见：Github::Data-Structures-Algorithms-and-Applications/_28LongestProcessingTime 问题描述一个工厂具有 m台一模一样的机器。我们有n 个任务需要处理。设作业i的处理时间为 t i t_i ti，这个时间包括把作业放入机器…

阅读更多...

【PostgreSQL】从零开始:（十二）PostgreSQL-数据库对象关系及定义

【PostgreSQL】从零开始:（十二）PostgreSQL-数据库对象关系及定义

从图中我们可以看出服务器对象的关系现在我们来了解它们的定义数据库服务器(Server) 数据库服务器是一种用来存储、管理和查询大量数据的服务器。它是一个独立的计算机系统，运行数据库管理系统（DBMS）软件，并提供对数据库的访问…

阅读更多...

【ECMAScript笔记二】运算符分类，流程控制（顺序结构、分支结构、循环结构）

【ECMAScript笔记二】运算符分类，流程控制（顺序结构、分支结构、循环结构）

文章目录 4 运算符4.1 算术运算符4.2 递增和递减运算符4.3 比较运算符4.4 逻辑运算符4.5 赋值运算符4.6 运算优先级 5 流程控制5.1 顺序结构5.2 分支结构5.2.1 if 语句5.2.2 switch 语句 5.3 循环结构5.3.1 for循环5.3.2 while循环5.3.3 do while循环5.3.4 continue和break 5.4…

阅读更多...

数据科学知识库

数据科学知识库

我的博客是一个技术分享平台，涵盖了机器学习、数据可视化、大数据分析、数学统计学、推荐算法、Linux命令及环境搭建，以及Kafka、Flask、FastAPI、Docker等组件的使用教程。在这个信息时代，数据已经成为了一种新的资源，而机…

阅读更多...

1.新入手的32位单片机资源和资料总览

1.新入手的32位单片机资源和资料总览

前言： 学了将近1年的linux驱动和uboot，感觉反馈不足，主要是一直在学各种框架，而且也遇到了门槛，比如驱动部分，还不能随心所欲地编程，原因是有些外设的原理还不够深刻、有些复杂的底层驱动的代码…

阅读更多...

java springboot 内存级数据库 H2 创建表并添加数据演示

java springboot 内存级数据库 H2 创建表并添加数据演示

好上文 java简述springboot通过配合初始化H2数据库并完成登录带着大家登进了 h2数据库这里需要强调你只需要第一次加上 datasource:url: jdbc:h2:~/testhikari:driver-class-name: org.h2.Driverusername: rootpassword: 123456这些因为它要初始化你后面再启动去掉这些…

阅读更多...

C语言预处理详解及其指令

C语言预处理详解及其指令

预处理详解 1.预定义符号2.#define定义常量基本使用方法举例子如果在define定义的表示符后面加上分号会发生什么？用一下来解释 3. #define定义宏举例例1例2 4. 带有副作用的宏参数例如: 5. 宏替换的规则6. 宏函数的对比宏和函数的一个对比 7. #和##7.1 #运算符7.2 #…

阅读更多...

shell子进程管理

shell子进程管理

简介在我们平时写代码过程中，可能经常会遇到串行执行速度慢 ，串行无法执行多个任务，这时便需要使用子进程同时执行。使用父进程创建子进程时，子进程会复制父进程的内存、文件描述符和其他相关信息。当然，子进程可以独…

阅读更多...

2023年全球运维大会（GOPS深圳站）-核心PPT资料下载

2023年全球运维大会（GOPS深圳站）-核心PPT资料下载

一、峰会简介 1、大会背景与概述全球运维大会（GOPS）是运维领域最具影响力的国际盛会，每年都会汇聚世界各地的运维专家、企业领袖、技术爱好者，共同探讨运维技术的最新发展、最佳实践以及面临的挑战。2023年GOPS深圳站作为该系列…

阅读更多...

亚马逊云科技re:Invent推出生成式AI技术堆栈及关键服务和工具

亚马逊云科技re:Invent推出生成式AI技术堆栈及关键服务和工具

亚马逊云科技于29日推出“生成式AI技术堆栈”后，又在30日的re:Invent 2023大会上宣布了一系列支持这一全新堆栈的关键服务和工具。亚马逊云科技数据和人工智能副总裁Swami Sivasubramanian在主题演讲中，将生成式人工智能与“超新星爆炸”进行了比较&am…

阅读更多...

HttpRunner接口自动化测试框架

HttpRunner接口自动化测试框架

简介 HttpRunner是一款面向 HTTP(S) 协议的通用测试框架，只需编写维护一份 YAML/JSON 脚本，即可实现自动化测试、性能测试、线上监控、持续集成等多种测试需求。项目地址：GitHub - httprunner/httprunner: HttpRunner 是一个开源的 API/UI…

阅读更多...

Apache SeaTunne简介

Apache SeaTunne简介

Apache SeaTunne简介文章目录 1.Apache SeaTunne是什么？1.1[官网](https://seatunnel.apache.org/)1.2 项目地址 2.架构3.特性3.1 丰富且可扩展的连接器和插件机制3.2 支持分布式快照算法以确保数据一致性3.3 支持流、批数据处理，支持全量、增量和实时数…

阅读更多...

Web前端-HTML（常用标签）

Web前端-HTML（常用标签）

文章目录 1. HTML常用标签1.1 排版标签1）标题标签h (熟记)2）段落标签p ( 熟记)3）水平线标签hr(认识)4）换行标签br (熟记)5）div 和 span标签(重点)6）排版标签总结 1.2 标签属性1.3 图像标签img (重点)1.4 链…

阅读更多...

新算法!!! TSOA-CNN-LSTM-Attention凌日优化卷积、长短期记忆网络融合注意力机制的多变量回归预测程序,数据由Excel导入，直接运行

新算法!!! TSOA-CNN-LSTM-Attention凌日优化卷积、长短期记忆网络融合注意力机制的多变量回归预测程序,数据由Excel导入，直接运行

适用平台：Matlab2023版及以上凌日优化算法（Transit Search Optimization Algorithm，TSOA）是2022年8月提出的一种新颖的元启发式算法，当一颗行星经过其恒星前方时，会导致恒星的亮度微弱地下降，…

阅读更多...

分布式事务｜ 2PC与3PC 详解

分布式事务｜ 2PC与3PC 详解

分布式事务 2PC 2PC ，两阶段提交，将事务的提交过程分成资源准备和资源提交两个阶段，并且由事务协调者来协调所有事务参与者，如果准备阶段所有事务参与者都预留资源成功，则进行第二阶段的资源提交，否则事务…

阅读更多...

数据库MySQL的一些复习题

数据库MySQL的一些复习题

阅读更多...

本章主要介绍Spring Framework中用来处理URI的多种方式

本章主要介绍Spring Framework中用来处理URI的多种方式

1.使用 UriComponentsBuilder 构建URi 话不多说直接上代码 UriComponents uriComponents UriComponentsBuilder.fromUriString("https://example.com/hotels/{hotel}").queryParam("q", "{q}").encode().build();URI uri uriComponents.exp…

阅读更多...

【Gradle】创建第一个项目

【Gradle】创建第一个项目

文章目录 1. 前提2. 创建项目并初始化1）创建项目2）初始化项目 3. 介绍生成的文件结构4. 执行5. 包的作成 （非必须）6. 推送（非必须） 本节将继 Gradle 之初体验安装之后，创建第一个 Hello World…

阅读更多...

推荐文章

最新文章