【生成式人工智能-五-大模型的修炼-阶段三RLHF】

news2024/9/30 3:31:42

大模型的修炼-RLHF 增强式学习

  • 大模型修炼阶段
    • Instruct Fine-tune 和 RLHF 的区别和联系
  • 回馈模型 Reward Model
    • 增强式学习的难题
      • 怎么定义什么是好的?
      • 人类也无法判定好坏的

大模型是如何具备人工智能的呢? 上面一篇文章介绍到了前两个阶段,接下来还需要第三阶段的RLHF,下面先复习一下这几个阶段:

大模型修炼阶段

在这里插入图片描述

  1. 第一阶段,自督导式学习
    不需要人工标注数据,自督导式学习,直接使用网络上的大量资料,喂给模型,让模型学会文法知识和世界认知的知识。
    第一阶段的模型形成pre-train的模型,具备常识。

  2. 第二阶段,督导式学习
    人工标注数据,督导式学习,Instruct Fine-tune,微调模型,教会模型人类问答的形式,学会怎么跟人类一样回答问题
    第二阶段回复更具备人类回复方式

  3. 第三阶段,增强式学习Reinforcement learning From Human Feedback (RLHF)
    学会了人类的回复方式,但还是要让模型学会更怎么回复的更好。比如回复涉及到不健康内容,这就不是个好回复。这就继续需要人类去选择那种回复更好,也就是从人类反馈的增强式学习RLHF

第二第三阶段都是微调模型,二者的区别又是什么呢?

Instruct Fine-tune 和 RLHF 的区别和联系

相同点:

  • 都是使用人工标注的数据,对模型微调

区别:

  • 人类负责的事情不同:RLHF阶段,人只是负责选择答案,对模型进行微调,而Instruct Fine-tune需要人类把输入和输出都确定,工作量更大。
  • Instruct Fine-tune关注下一个字输出的结果如何,也就是关心每个生成过程。而 RLHF更加注重结果,而不是过程

RLHF也需要人工来做,要知道人工是费时费力的,难道没有自动化的方法么?
答案是有的,就是再训练一个评价用户输出的模型,这个模型就叫做回馈模型。

回馈模型 Reward Model

下面回馈模型的一种做法:

在这里插入图片描述

把语言模型的输入和输出组合起来都当作输入给回馈模型,让模型给出评分,如果评分比较高,那代表这就是人类可能觉得好的答案,我们就去微调模型,提高这个问题的答案。有了回馈模型以后,我们就可以自动来告诉模型,不再需要人力参与了。

当然,现在也有论文证明,过度跟虚拟人类学习的模型,语言模型的输出受人类欢迎的程度反而会下降,所以又出现了DPO KTO等方法来解决人类反馈问题。

增强式学习的难题

怎么定义什么是好的?

一个问题的答案,几乎是见仁见智的问题。也许有种答案,对人类没用,但是却更加安全。比如让模型查询一些隐私问题,模型出于安全性考虑,并不给出答案,但这个对人类没用呀。所以这个到底应该是给高分还是低分就很难给出,现在很多大型语言模型通常要在safety Reward Model 和 helpful Reward Model之间取得一些平衡也正是这个原因。

人类也无法判定好坏的

就是这个问题即使去问人类,人类也不知道答案。因为这问题本身就没法判定好坏,比如你问模型,老板让我加班是好是坏? 这个问题本来就没有好坏之分的,连人都难以区分出来,那模型的输出就更加难以确认什么是好,什么是坏的了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1991659.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

网页 生成桌面快捷应用 manifest.json

效果如图 代码 <link rel"manifest" href"./manifest.json" />// manifest.json {"name": "讨口子","short_name": "TKZ","start_url": "/","display": "standalo…

奔驰GLS450升级迈巴赫四座版内饰 后排电动遮阳帘 后排娱乐案例

多座互联娱乐系统 独乐乐,不如众乐乐。 同级独有的多座互联提乐系统,可令车内所有乘客通过7.0美对中央扶手触控屏与双11.6英寸后排提乐系统缺控屏,随心所欲地分享号航、视频、音频等内容,即便身处后排,您同样也可以享受完M的MBUX智能人都交互体验,直接控制车M的全种功能。 奔驰…

The Otherworld《我独自升级》活动来了!

最近&#xff0c;我们迎来了韩国初创公司 Otherworld&#xff0c;加入 The Sandbox 大家庭。这次合作建立了一个元宇宙网络动漫中心&#xff0c;以 KakaoPage 的热门 IP 为基础&#xff0c;为我们的玩家和创作者在 The Sandbox 中提供多样化的体验。我们将推出一个全新的活动&a…

pikachu: unsafe filedownload(文件下载)

是一个图片下载页面&#xff0c;随便下载一张图片&#xff0c;查看下载链接发现是 http://127.0.0.1:8001/vul/unsafedownload/execdownload.php?filenamekb.png 修改拼接 URL&#xff0c; 构造想要传的的路径来对其进行文件上传 http://127.0.0.1/pikachu-master/vul/unsa…

芯片底部填充工艺流程有哪些?

芯片底部填充工艺流程有哪些&#xff1f;底部填充工艺&#xff08;Underfill&#xff09;是一种在电子封装过程中广泛使用的技术&#xff0c;主要用于增强倒装芯片&#xff08;Flip Chip&#xff09;、球栅阵列&#xff08;BGA&#xff09;、芯片级封装&#xff08;CSP&#xf…

多久没有清理你的电脑磁盘了?轻松解锁免费轻量磁盘清理工具

随着我们日常使用电脑的时间越来越长&#xff0c;磁盘上积累的无用文件和垃圾数据也越来越多。这些文件不仅占用宝贵的存储空间&#xff0c;还可能拖慢电脑的运行速度。 那么&#xff0c;你多久没有清理过你的电脑磁盘了呢&#xff1f; 今天&#xff0c;我将为大家推荐几款免…

低代码平台:效率利器还是质量妥协?

目录 低代码平台&#xff1a;效率利器还是质量妥协&#xff1f; 一、引言 二、低代码平台的定义和背景 1、什么是低代码平台&#xff1f; 2、低代码平台的兴起 三、低代码开发的机遇 1、提高开发效率 2、降低开发成本 3、赋能业务人员 四、低代码开发的挑战 1、质量…

Midjourney V6.1更新 | 细节狂魔,绝美人像(附提示词)

前言 Midjourney V6.1版本&#xff0c;堪称细节狂魔&#xff0c;在人像上简直登峰造极&#xff01; 自V6.1版本更新以来我一次次被Midjourney生成的人像震惊到&#xff01;用Midjourney官网分享的提示词微调&#xff0c;生成图像&#xff0c;每一张都绝美&#xff0c;晚上玩到…

Go语言并发编程实战:掌握并发模型,提升应用性能

1. 引言 1.1 并发编程的重要性 在现代软件开发中&#xff0c;并发编程已经成为了一种不可或缺的技术。随着多核处理器的普及和云计算的兴起&#xff0c;应用程序需要能够有效地利用并发处理能力&#xff0c;以提高性能和用户体验。并发编程使得程序能够在同一时间内处理多个任…

《MySQL 数据库》 安装、配置、字符集修改 —/—<1>

一、MySQL介绍 1、介绍MySQL 数据库是数据的仓库&#xff0c;与普通的数据仓库不同的是,数据库依据数据结构来组织数据,因为数据结构的存在,所以看到的数据是条理化的 数据库和普通文件系统的区别在与&#xff1a;数据库拥有数据结构,能都快速查找对应的数据 常说的MySQL数据库…

Pytorch-张量的创建

&#x1f308;个人主页&#xff1a; 羽晨同学 &#x1f4ab;个人格言:“成为自己未来的主人~” 简介&#xff1a; 一个Python深度学习框架&#xff0c;它将数据封装成张量&#xff08;Tensor&#xff09;进行处理&#xff0c;Python中的张量就是元素为同一种数据类型的多维…

南京观海微电子----静电放电ESD保护设计方案

ESD 保护方案 图 5- 2 所示的片上保护设计概念被用来避免来自几乎随机组合的引脚之间的HBM / MM ESD 应力损伤。对每一个输入或输出引脚&#xff0c; 在压焊点与 VDD 和 VSS 电源线之间采用 ESD 钳位器件&#xff0c; 用于泄放 I / O 引脚上的四种模式的 ESD 应力。为了克服引脚…

Qt题目知多少-3

1.事件与信号的区别 使用场合和时机不同 一般情况下&#xff0c;在“使用”窗口部件时&#xff0c;我们经常需要使用信号&#xff0c;并且会遵循信号与槽的机制&#xff1b;而在“实现”窗口部件时&#xff0c;我们就不得不考虑如何处理事件了。举个例子&#xff0c;当使用 QPu…

界面组件Kendo UI for Vue 2024 Q2亮点 - 发布一系列新组件

随着最新的2024年第二季度发布&#xff0c;Kendo UI for Vue为应用程序开发设定了标准&#xff0c;包括生成式AI集成、增强的设计系统功能和可访问的数据可视化。新的2024年第二季度版本为应用程序界面提供了人工智能(AI)提示&#xff0c;从设计到代码的生产力增强、可访问性改…

算法23:寻找旋转排序数组中的最小值

寻找旋转排序数组中的最小值. - 备战技术面试&#xff1f;力扣提供海量技术面试资源&#xff0c;帮助你高效提升编程技能,轻松拿下世界 IT 名企 Dream Offer。https://leetcode.cn/problems/find-minimum-in-rotated-sorted-array/ 这个题乍一看可以用二分查找&#xff0c;并且…

C#——使用S7netplus包实现西门子s7协议

使用S7netplus包实现西门子s7协议 S7netplus是一个用于与Siemens S7 PLC进行通信的C#库。它提供了一种简单的方式来读取和写入PLC中的数据。 安装 可以通过NuGet包管理器来安装。 S7netplus的使用 一、连接 // CpuType&#xff1a;PLC的CPU型号&#xff0c;咱用的这个设备…

write_sdc和write_script区别

文章目录 一、set_disable_clock_gating_check二、write_sdc和write_script区别1. write_sdc2. write_script 一、set_disable_clock_gating_check set_disable_clock_gating_check对指定的cell/pin/lib_cell/lib_pin设置是否进行clock gating的时序检查。 对于工具插入或者…

C语言——计算1-1/2+1/3-...+1/99-1/100+...相似题目集合

题目一&#xff1a; #include<stdio.h> #include<math.h>int main() {int n 1;float sum 0, term 1, sign 1;while (fabs(term) > 1e-4){term sign / n;sum term;sign -sign;n;}printf("sum%f", sum);return 0; } 题目二&#xff1a; #include…

服务器数据恢复—Raid故障导致存储中数据库数据丢失的数据恢复案例

服务器存储数据恢复环境&故障情况&#xff1a; 一台光纤存储中有一组由16块硬盘组成的raid。 该存储出现故障导致数据丢失。RAID中2块盘掉线&#xff0c;还有1块盘smart状态为“警告”。 服务器存储数据恢复过程&#xff1a; 1、通过该存储自带的存储管理软件将当前存储的完…

关于之前写的一篇“快速构建MES系统”引发的争议,后续来了~~

之前因写了一篇用低代码开发平台快速搭建MES系统&#xff0c;结果被大量的网友骂得体无完肤&#xff0c;不过&#xff0c;默默点赞、默默收藏、默默分享的用户还是大有人在。 在某些方面&#xff0c;或许在语言表达上不够精确&#xff0c;不够准确&#xff0c;这里也给各位看官…