sft是mean-seeking rl是mode-seeking

news2024/9/20 18:51:18

原文链接

KL散度是D(P||Q),P和Q谁在前谁在后是有讲究的,P在前,就从P采样。
D K L ( P ∣ ∣ Q ) = E x − p ( x ) ( l o g ( P ( x ) / Q ( x ) ) ) D_{KL}(P||Q)=E_{x-p(x)}(log(P(x)/Q(x))) DKL(P∣∣Q)=Exp(x)(log(P(x)/Q(x)))想象一下,如果某个x的Q=0,1>P>0,则 D K L D_{KL} DKL会直指∞。所以你要在这个KL形式下最小化KL,就必须遵循一个原则:P大,Q就得大,不然KL会很大。

反之,对于 D K L ( Q ∣ ∣ P ) D_{KL}(Q||P) DKL(Q∣∣P)也是这个情况,Q大,P就得大。可是P是真实数据,是固定的,所以Q就得让自己大的地方正好是P大的地方。

理想情况下,这两种都能训练成功,但是训练往往是次优的。由于原则的差别,会让Q拟合P时产生两种截然不同的反应:mean-seeking和mode-seeking。
前者形容 D K L ( P ∣ ∣ Q ) D_{KL}(P||Q) DKL(P∣∣Q),后者形容 D K L ( Q ∣ ∣ P ) D_{KL}(Q||P) DKL(Q∣∣P)
看图更容易理解:红色是Q,蓝色是P。

这是 D K L ( P ∣ ∣ Q ) D_{KL}(P||Q) DKL(P∣∣Q)的次优训练结果。刚才说了,Q大P小无所谓,但是P大Q就得大,因此Q在本身分布假设简单的情况下(例如是正态分布),就只能获得这样的拟合。
在这里插入图片描述这是 D K L ( Q ∣ ∣ P ) D_{KL}(Q||P) DKL(Q∣∣P)的次优训练结果。刚才说了,P大Q小无所谓,但是Q大P就得大,因此Q在本身分布假设简单的情况下(例如是正态分布),能力有限,就只能拟合P的一个高峰。

对于两种KL, D K L ( P ∣ ∣ Q ) D_{KL}(P||Q) DKL(P∣∣Q)叫forward KL, D K L ( Q ∣ ∣ P ) D_{KL}(Q||P) DKL(Q∣∣P)叫reverse KL。前者需要你采样P,后者需要你计算p(x)。

mean-seeking准备工作

在解释sft是mean-seeking,rl是mode-seeking前,对KL做个变形:
在这里插入图片描述
在这里插入图片描述

sft是mean-seeking

对于forward KL,简单把log打开就是第一个式子,H是P的熵。然后训练目标是改变策略,让forward KL最小。简化到最后就是上面那样。显然,要是停在argmin那块(倒数第二行),这就是个P和Q的cross entropy,这就已经能联想到sft的目标函数了,这俩是一回事。

mode-seeking准备工作

在这里插入图片描述
reverse KL的拆解就不贴了。总之优化目标是这个。
如果我设置
在这里插入图片描述
即reward就是从偏好数据集分布来的,这样不犯忌讳,我偏好的肯定概率高,我偏好的肯定reward大,那我就直接拿概率当reward。log是递增函数,所以不影响上述规律。我这么一设置,reverse KL的优化目标就变成了:
在这里插入图片描述
这是最大熵强化学习的目标函数。要后面的-log最大,就得01分布,0去拿到∞,1拿到0。1放在reward最大的action上还能让目标函数更大。这是该目标函数工作的原理。
论证完毕。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2072553.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

关于Java中@Component的使用中出现@Autowired为NULL的问题

目录: 关于Java中Component的使用中出现Autowired为NULL的问题解决过程 关于Java中Component的使用中出现Autowired为NULL的问题 解决过程 我在写一个项目中使用Component配置了一个RedisCompent在这里插入代码片类我将在AccountController和 UserinfoController中…

如何使用ssm实现基于Vue框架的订餐系统+vue

TOC ssm157基于Vue框架的订餐系统vue 绪论 1.1 研究背景 当前社会各行业领域竞争压力非常大,随着当前时代的信息化,科学化发展,让社会各行业领域都争相使用新的信息技术,对行业内的各种相关数据进行科学化,规范化管…

AI数字时代客户体验白皮书5G云算力网络云网终端AIGC人工智能宽带政企物联网专线 IDC智慧城市专家学者教授培训讲师分享

客户体验的时代已然来临 在过去的几十年里,中国企业逐步从产品驱动转向市场驱动,从规模竞争走向创新竞争。然而,随着市场竞争的白热化和产品、服务的高度同质化,企业之间的差异化逐渐被削弱,传统的价格战、渠道战已经…

一题看 无记忆化dfs、记忆化dfs和dp直接的转化

无记忆化dfs&#xff1a; class Solution { public:bool resfalse;bool wordBreak(string s, vector<string>& wordDict) {set<string> S;int ns.size();for(auto ss:wordDict){S.insert(ss);}function<void(int)> dfs[&](int t){if(restrue) retur…

深度学习--对抗生成网络(GAN)

对抗生成网络&#xff08;Generative Adversarial Network, GAN&#xff09;是一种深度学习模型&#xff0c;由伊恩古德费洛&#xff08;Ian Goodfellow&#xff09;及其同事在2014年提出。GAN通过两个神经网络的对抗过程来生成数据&#xff0c;这两个网络分别是生成器&#xf…

Chapter 03 Vue指令(下)

欢迎大家订阅【Vue2Vue3】入门到实践 专栏&#xff0c;开启你的 Vue 学习之旅&#xff01; 文章目录 前言一、v-on指令二、v-for指令三、v-bind指令 前言 在 Vue.js 中&#xff0c;指令是带有 v- 前缀的特殊属性&#xff0c;不同属性对应不同的功能。通过学习不同的指令&#…

临床医生与人工智能识别三级淋巴结成熟状态的研究对比|文献速递·24-08-24

小罗碎碎念 这期推文的主题是三级淋巴结&#xff0c;主要解决一个问题——临床上如何识别三级淋巴结&人工智能如何应用于三级淋巴结的识别。这两篇文献来源于临床和工科两位不同的老师&#xff0c;是在与他们交流的过程中推荐的&#xff0c;在这里向他们表示感谢&#xff…

在VSCode中使用REST Client插件调试HTTP接口

在 VSCode 中安装 REST Client 扩展程序。新建 test.http 文件。编写请求 请求编写格式可以查看 REST Client 扩展程序说明。点击“Send Request”发送请求 5. 等待请求完成查看响应 请求完成会自动打开响应结果。响应结果上面部分是响应头&#xff0c;下面部分是响应…

idea付费插件,SequenceDiagram比较好用

以下idea付费插件你们都用过哪些呢&#xff1f; SequenceDiagram插件是一种用于绘制时序图的工具。时序图是一种图形化的表示对象之间消息传递顺序的方法。 该插件可以在使用各种编程语言编写代码时&#xff0c;方便地绘制时序图&#xff0c;以帮助开发者更好地理解和描述系统…

【数据分享】全球含建筑高度的建筑物数据(shp格式\约15亿栋建筑物)

建筑数据是我们在各项研究中经常使用到的数据。之前我们能获取到的建筑数据大多没有建筑高度信息&#xff0c;而建筑高度是建筑数据最重要的属性。之前我们给大家分享了我国分城市的含建筑高度的建筑物数据&#xff08;可查看之前的文章获悉详情&#xff09;&#xff0c;本次我…

ST-LINK常见错误总结

伴随着走进STM32 开发 &#xff0c;烧录部分一直会出现 各种各样的问题 &#xff0c;写一篇博文记录关于烧录部分的问题&#xff0c;此文会持续更新&#xff0c;可能之后又遇到其他新的问题&#xff0c;会回来再添加的。 目录 STLINK CONNECTION ERROR 问题的解决 固件丢失 …

buuctf [MRCTF2020]hello_world_go

前言 学习笔记 这题签到&#xff01; 64IDA打开。 查找字符串发现什么都没有。。。 没事 搜索main()【不知道go语言有没有&#xff0c;先搜索再说】 随便点开一个。 有flag格式&#xff0c;提交看看呗。 成了&#xff0c;签到。 flag{hello_world_gogogo} 题外话&#xff0c;…

双系统报错verifiying shim SBAT data falled: Security Pollcy Violation,Ubuntu无法打开

问题 一觉醒来&#xff0c;打开电脑报错无法打开&#xff0c;详细报错如下&#xff1a; verifiying shim SBAT data falled: Security Pollcy Violation Something has gone serlously wrong: seni self-check falled: Security Policy vlolation 这是由于Windows系统自动更新…

x-cmd mod | x btop - 使用 btop 来查看进程的实时信息

目录 介绍使用语法子命令选项FLAGS 介绍 btop 是系统监控工具&#xff0c;能够实时监控 CPU、内存、磁盘、网络和进程使用情况。 使用语法 x btop [FLAGS]子命令 名称描述–cmd直接运行 btop 命令 选项 名称描述–preset,-p 从预设开始&#xff0c;整数范围为 0-9。–upda…

【深度学习】使用Conda虚拟环境安装多个版本的CUDA和CUDNN方便切换

conda虚拟环境安装CUDA和CUDNN 官网教程 https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html#conda-installation 1. 背景 深度学习用显卡训练的时候&#xff0c;需要安装与显卡对应的cuda和cudnn。但不同的项目所支持的pytorch版本是不一样的&#x…

考研备考是选择电子学习工具无纸化学习?还是纸质版训练考感?

作为一名成功上岸的考研学子&#xff0c;回顾备考的艰辛历程&#xff0c;深感学习工具的选择至关重要。在当今数字化时代&#xff0c;我们面临着一个关键的抉择&#xff1a;是延续传统的纸质版资料学习&#xff0c;还是投身于电子学习工具的怀抱&#xff0c;开启无纸化学习之旅…

安卓飞机大战设计过程

用户界面 XML布局文件和Activity类 Android布局文件XML是在res/layout文件夹下的xml文件&#xff0c;里面可以放一些组件 启动Activity时&#xff0c; Android 框架会调用 Activity 中的 onCreate() 回调方法&#xff0c;从而加载应 用代码中的布局资源&#xff1b; Overri…

PDF编辑神器!免费版助你轻松搞定文档转换

随着数字化时代的来临&#xff0c;PDF文件因其稳定性和兼容性成为了我们在职场中常用的文档格式。而面对众多的PDF编辑器&#xff0c;免费版的工具选择显得尤为重要。今天分享五款我用过的免费版PDF编辑器的使用感受&#xff0c;帮助大家更好地了解并选择适合自己的办公工具。 …

Flink1.18 同步 MySQL 到 Doris

一、前言 使用Apache Flink实现数据同步的ETL&#xff08;抽取、转换、加载&#xff09;过程通常涉及从源系统&#xff08;如数据库、消息队列或文件&#xff09;中抽取数据&#xff0c;进行必要的转换&#xff0c;然后将数据加载到目标系统&#xff08;如另一个数据库…

数据结构之排序(二)

目录 基本思想&#xff1a; 1.1冒泡排序 ​编辑1.1.1代码实现 1.3冒泡排序的特性总结&#xff1a; 2.1 快速排序 2.1.1基本思想 2.2.2代码实现 1. hoare版本 2.挖坑法 3.前后指针版本 2.2.3 快速排序的优化&#xff08;三数取中&#xff09; 实现步骤 3.1 快速排序非…