LLMs 从人类获得反馈RLHF: Obtaining feedback from humans

news2024/11/14 14:45:06

在使用RLHF进行微调的第一步是选择要使用的模型,并使用它准备一个人工反馈数据集。

您选择的模型应该具备执行您感兴趣的任务的一定能力,无论这是文本摘要、问答还是其他任务。通常情况下,您可能会发现,从已经在许多任务上进行了微调并具备一定通用能力的预训练模型开始会更容易一些。然后,您将使用这个LLM(大型语言模型),以及一个提示数据集,为每个提示生成多个不同的响应。提示数据集由多个提示组成,每个提示都会经过LLM处理,生成一组完成。
在这里插入图片描述

接下来的步骤是从人工标记者那里收集有关LLM生成的完成的反馈。这是RLHF(强化学习与人工反馈)中的人工反馈部分。首先,您必须决定您希望人们根据什么标准来评估完成。这可以是前面讨论过的任何问题,比如帮助性或有害性等。一旦您决定了,您将要求标记者根据该标准对数据集中的每个完成进行评估。让我们来看一个例子。在这种情况下,提示是"My house is too hot."(我的房子太热了)。您将此提示传递给LLM,然后LLM会生成三个不同的完成。标记者的任务是根据帮助性对这三个完成进行排名,从最有帮助到最不帮助。因此,在这里,标记者可能会决定完成二是最有帮助的。它告诉用户一些可以真正冷却他们的房子的东西,并排名为第一。
在这里插入图片描述

完成一和三都不是很有帮助,但也许标记者会决定三是两者中较差的,因为模型实际上与用户的输入意见不一致。所以标记者将顶部完成排在第二位,最后一个完成排在第三位。然后,这个过程将在许多提示完成集上重复进行,建立一个可用于训练奖励模型的数据集,该模型最终将在代替人类进行此工作时使用。通常情况下,相同的提示完成集通常会分配给多个人类标记者,以建立共识并减小组内差标记者的影响。就像这里的第三个标记者一样,他的回答与其他人不一致,可能表示他误解了说明,这实际上是一个非常重要的观点。您的说明的清晰度可以对您获得的人工反馈的质量产生很大影响。标记者通常来自代表多元和全球思维的人群样本。

在这里,您可以看到一组为人类标记者编写的示例指令。这将在标记者开始任务之前呈现给标记者阅读,并在他们处理数据集时提供供参考。说明从标记者应该执行的整体任务开始。在这种情况下,选择最佳完成提示。
在这里插入图片描述

说明继续提供额外的详细信息,以指导标记者如何完成任务。通常情况下,您使这些说明越详细,标记者理解他们必须完成的任务并完全按照您的要求完成任务的可能性就越高。例如,在第二个指令项中,告诉标记者他们应该根据对响应的正确性和信息性的感知来做出决策。他们被告知可以使用互联网进行事实检查和查找其他信息。

在这里插入图片描述

他们还明确指示了如果发现并列的情况,即他们认为有两个同样正确和信息丰富的完成,他们应该怎么做。

标记者被告知可以将两个完成排名相同,但他们应该谨慎地这样做。
在这里插入图片描述

在这里需要强调的最后一项指令是在回答荒谬、令人困惑或不相关的情况下应该怎么办。在这种情况下,标记者应选择"F"而不是排名,以便轻松删除质量差的答案。
在这里插入图片描述

提供这样详细的指令可以增加回答的质量,并确保个别人会以与其他人相似的方式执行任务。这有助于确保标记的完成集将代表共识观点。

当您的人工标记者完成了他们对提示完成集的评估后,您将拥有训练奖励模型所需的所有数据,该模型将在强化学习微调过程中用于分类模型的完成,而不是人类。然而,在开始训练奖励模型之前,您需要将排名数据转换为完成的成对比较。
在这里插入图片描述

换句话说,应该对每个提示的可用选择中的所有可能成对完成进行0或1分的分类。在示例中,有三个完成提示,由人工标记者分配的排名为2、1、3,其中1是最高排名,对应于最受欢迎的响应。对于三种不同的完成,存在三种可能的配对:紫色-黄色、紫色-绿色和黄色-绿色。对于每一对,您将为首选响应分配1分,对于较不喜欢的响应分配0分。然后,您将重新排列提示,以使首选选项首先出现。这是一个重要的步骤,因为奖励模型期望首选完成,也就是称为Yj的完成,首先出现。

一旦完成了这个数据的重构,人类的响应将以正确的格式呈现,以用于训练奖励模型。请注意,虽然拇指指向上、拇指指向下的反馈通常比排名反馈更容易收集,但排名反馈可以为您提供更多的完成数据,以训练您的奖励模型。如您所见,在这里,每个人类排名都可以获得三个提示完成对。

参考

https://www.coursera.org/learn/generative-ai-with-llms/lecture/lQBGW/rlhf-obtaining-feedback-from-humans

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1061182.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

<学习笔记>从零开始自学Python-之-常用库篇(十二)Matplotlib

Matplotlib 是Python中类似 MATLAB的绘图工具,Matplotlib是Python中最常用的可视化工具之一,可以非常方便地创建2D图表和一些基本的3D图表,可根据数据集(DataFrame,Series)自行定义x,y轴,绘制图…

UGUI交互组件Toggle

一.Toggle对象的构造 Toggle和Button类似,是交互组件的一种 如果所示,通过菜单创建了两个Toggle,Toggle2中更换了背景和标记资源 对象说明Toggle含有Toggle组件的对象Background开关背景Checkmark开关选中标记Label名称文本 二.Toggle组件属…

基于Spring Boot的中小型医院网站的设计与实现

目录 前言 一、技术栈 二、系统功能介绍 前台首页界面 用户登录界面 用户注册界面 门诊信息详情界面 预约挂号界面 药品详情界面 体检报告界面 管理员登录界面 用户管理界面 医师管理界面 科室类型管理界面 门诊信息管理界面 药库信息管理界面 预约挂号管理界面…

计算机网络基础(一):网络系统概述、OSI七层模型、TCP/IP协议及数据传输

通信,在古代是通过书信与他人互通信息的意思。 今天,“通信”这个词的外沿已经得到了极大扩展,它目前的大意是指双方或多方借助某种媒介实现信息互通的行为。 如果按照当代汉语的方式理解“通信”,那么古代的互遣使节、飞鸽传书…

番外12:连续类功率放大器理论-连续类实现带宽拓展的底层原理

连续类功放通解:连续类功率放大器理论-连续类实现带宽拓展的底层原理-基础 本次内容理论性较强,适合对功率放大器理论研究比较感兴趣以及想发论文的小朋友,着重探讨现有的一些带宽拓展模式(也就是连续类)的基本实现原…

MATLAB算法实战应用案例精讲-【优化算法】火烈鸟搜索优化算法(FSA)(附python代码实现)

前言 火烈鸟搜索算法(flamingo search algorithm,fsa)是一种模拟火烈鸟群体觅食行为的新型智能优化算法,可以用于路径规划领域。根据fsa的寻优过程可知,fsa存在以下不足:(1)初始化种群位置是随机的,不能保证种群质量;(2)在个体的迭代更新过程中缺少变异机制,导致种群多…

XFTP上传文件状态出现错误的原因和解决方案

这几天有时候会出现XFTP会出现上传的时候状态出现错误的情况,我没那么在意,但是今天要传比较重要的东西,结果没办法传,我参考了这个方法,但是感觉修改用户组的权限是正确的可能解释的没那准确 之后我是直接把XFTP的登陆…

【LeetCode热题100】--74.搜索二维矩阵

74.搜索二维矩阵 按行搜索,使用二分查找 class Solution {public boolean searchMatrix(int[][] matrix, int target) {for(int[] row : matrix){int index search(row,target);if(index > 0){return true;}}return false;}public int search(int[] nums,int t…

【C++入门到精通】C++入门 —— AVL 树(自平衡二叉搜索树)

阅读导航 前言一、AVL树的概念二、AVL树节点的定义三、AVL树的插入四、AVL树的旋转(重点)1. 右单旋(新节点插入较高左子树的左侧)2. 左单旋(新节点插入较高右子树的右侧)3. 先左单旋再右单旋(新…

Kafka安装记录

目录 安装依赖 安装zookeeper 可能遇到的报错 下载安装包 解压 修改配置 其他相关配置 修改日志的位置 修改Zookeeper 启动 测试 创建主题 查看主题 插入数据 查看数据量 消费数据 删除主题 安装依赖 由于Kafka是用Scala语言开发的,运行在JVM上&am…

Elasticsearch安装访问

Elasticsearch 是一个开源的、基于 Lucene 的分布式搜索和分析引擎,设计用于云计算环境中,能够实现实时的、可扩展的搜索、分析和探索全文和结构化数据。它具有高度的可扩展性,可以在短时间内搜索和分析大量数据。 Elasticsearch 不仅仅是一个…

C++人事管理系统

一、设计目的 企业员工管理系统主要是针对企业员工的基本信息进行增、删、改、查的相关操作,以便用户使用本管理系统时可以快速对企业员工的信息进行管理。 二、设计内容 1.用户首次使用本系统时进行密码设置和初始化操作。 2.实现添加功能,即添加员工…

计算机竞赛 身份证识别系统 - 图像识别 深度学习

文章目录 0 前言1 实现方法1.1 原理1.1.1 字符定位1.1.2 字符识别1.1.3 深度学习算法介绍1.1.4 模型选择 2 算法流程3 部分关键代码 4 效果展示5 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 毕业设计 图像识别 深度学习 身份证识别…

【算法训练-二分查找 四】【模拟二分】X的平方根

废话不多说,喊一句号子鼓励自己:程序员永不失业,程序员走向架构!本篇Blog的主题是【二分查找】,使用【数组】这个基本的数据结构来实现,这个高频题的站点是:CodeTop,筛选条件为&…

stm32-SPI协议

SPI协议详解(图文并茂超详细) SPI通讯协议 于是我们想有没有更好一点的串行通讯方式;相比较于UART,SPI的工作方式略有不同。 SPI是一个同步的数据总线,也就是说它是用单独的数据线和一个单独的时钟信号来保证发送端和…

Django的模版使用(Django-03)

一 模版的使用 模板引擎是一种可以让开发者把服务端数据填充到html网页中完成渲染效果的技术。它实现了 把前端代码和服务端代码分离 的作用,让项目中的业务逻辑代码和数据表现代码分离,让前端开发者和服务端开发者可以更好的完成协同开发。 静态网页&…

Linux文本三剑客---awk

AWK是什么 Linux文本三剑客之一(grep,sed,awk),功能最强大的文本工具。 逐行读取输入的文本内容,默认以空格和tab键作为分隔符。但是多个空格或者tab键的空格,会自动压缩成一个,然后按照指定的模式和条件执…

3D 毛玻璃晶质见证卡

效果展示 页面结构 从上面的效果展示来看,页面主要成员是一张卡片,并且卡片上有三个小矩形,而小矩形上会展示对应的内容。 当鼠标悬停在卡片上时,卡片会随着鼠标的移动而改变视角。 CSS3 知识点 transform-style 属性的 prese…

用OpenCV(Python)获取图像的SIFT特征

import cv2 as cv import numpy as np import matplotlib.pyplot as plt imgcv.imread("../Lena.png") img_graycv.cvtColor(img,cv.COLOR_BGR2GRAY)#创建一个SIFI对象 siftcv.SIFT_create()#使用SIFT对象在灰度图像img_gray中检测关键点,结果存储在变量k…

MATLAB中plot3函数用法

目录 语法 说明 向量和矩阵数据 表数据 其他选项 示例 绘制三维螺旋图 绘制多个线条 使用矩阵绘制多个线条 指定等间距刻度单位和轴标签 将点绘制为不带线的标记 自定义颜色和标记 指定线型 在绘图后修改线条 绘制表中的数据 在 x 和 y 轴上绘制多个表变量 指…