InstructGPT:Training language models to follow instrcutions with human feedback

news2025/1/22 18:03:35

InstructGPT:Training language models to follow instrcutions with human feedback

  • 介绍
  • 模型
    • 数据集
    • Task
    • Human data collection
    • model
  • 实验结果
  • 参考

介绍

现在LLM可以被prompt来完成一系列的下游任务,然而这些模型也总会产生一些用户不想要的结果,如捏造事实,产生偏差,或者生成负面的数据。作者认为原因可能出现在评估函数,由于LLM的评估函数可能是完形填空(Bert系列)或者文字接龙(GPT系列),而我们想让他完成QA,所以作者认为LLM没有align用户用的想法。
于是作者就想让模型对人们更有帮助、无害,缓解上面的所说的偏差。

做法如下图:
在这里插入图片描述

  1. 第一步:作者找了一些比较不错的问答数据(通过labeler书写,或者产生于模型测试时期的用户数据),然后把这些数据送入模型进行finetune,这个过程被称之为SFT(Supervised- fine- tuning)。tips:其实这个阶段的模型也是可以用的(数据可能不够),但是写qa数据是一个非常贵的事情。
  2. 第二步:通过第一步finetune好的模型,继续生成把新的qa数据送入这个模型,然后通过beam search的方法来对一个问题生成多个回答,然后由labeler对这几个回答进行打分排序,如上图D>C>A=B,然后训练一个RM(reward model)的模型,rm模型可以把每个回答的句子按照大小关系数值化的表示出来。训练完成RM模型后,模型就可以自动的为模型生成的结果打分。
  3. 第三步:把打分结果融入第一步的代价函数,让模型更偏向于生成高质量的结果。

模型

数据集

为了获取数据,作者首先让labeler 生成三种类型的数据,第一步生成一些有创造性的qa,确保数据的多样性,然后在根据第一步的结果通过few-shot 生成更多数据,然后在让labeler生成各个领域的数据。通过这些数据,SFT模型,然后放在 测试平台上面,让用户测试,并收集此数据(每一个用户最多收集200条qa)。
大体的数据种类如下:
在这里插入图片描述

作者划分数据的方式比较奇特,他是通过用户id来划分训练、验证、测试集,因为同一个用户可能会问相似的问题,如果随机划分,可能会造成数据泄漏。

最后作者还描述了个阶段数据集分配的数量,SFT:13k,RM:33k,PPO:31k.

Task

主要介绍任务多样性,略。

Human data collection

这里主要介绍如何去选择labeler,略。

model

Supervised fine-tuning(SFT):这一部分与简介中提到的差不多,就是居于GPT-3的fine-tune,epoch=16,但是1个epoch过后就直接过拟合了,作者认为这类数据更贴合人类的喜好,对RM score也有帮助,所以过拟合也影响不大。

Reward modeling(RM):这部分的model实际上就是把LLM的最后一层softmax换成了输出为标量linear,这个标量就是分数,LLM的大小作者尝试了6B与175B,作者发现175B不好训练,表现也不稳定,最终就采用了6B。
其中loss为:
在这里插入图片描述
其中r_theta为奖励模型输出的标量。K:batch_size。
一般的loss是 比较input为x的y与真实值y*的差距,但是这个loss是输入两对问答数据,其中假设w下标的比l下标的排位靠前。然后把这两对分别输入奖励模型,得到两个得分,模型想让这两个得分差距越大越好。

由于每次送入两对qa数据容易overfitting,所以作者把batch调节为4、9.

Reinforement learning(RL)
待更新。。。。
在这里插入图片描述

实验结果

在这里插入图片描述

参考

https://www.bilibili.com/video/BV1hd4y187CR/?spm_id_from=333.337.search-card.all.click&vd_source=0da9d499cd80cd8f11e8a465deeace93
https://arxiv.org/pdf/2203.02155.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/439559.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ESP32 WiFi扫描、WiFi通道查询

ESP32WiFi扫描程序 代码解决什么问题? 扫描周围WiFi并识别指定WiFi名称的WiFi通道(为了ESP32的esp-now协议正常通信)。 这跟ESP32 now有什么关系? ESP32使用NOW协议进行通信时,要求参与通信的设备必须处于同一物理…

ASEMI代理ADI亚德诺AD8603AUJZ-REEL7车规级芯片

编辑-Z AD8603AUJZ-REEL7芯片参数: 型号:AD8603AUJZ-REEL7 偏移电压:12μV 偏移电压漂移:1μV/C 输入偏置电流:0.2 pA 输入失调电流:0.1 pA 输入电压范围:–0.3 to 5.2V 输入电容&#…

Win10+VS2019安装vcpkg

vcpkg是一个C的包管理器。类似Python中的pip。安装后可以直接通过命令下载一些C的包,省的自己编译配路径。安装后的包都被vcpkg统一保存,统一配置路径。VS中哪个项目需要,就将其配置到某个项目中,当然也可以全局配置。 1、下载vc…

Node 04-http模块

HTTP 协议 概念 HTTP(hypertext transport protocol)协议;中文叫 超文本传输协议 是一种基于TCP/IP的应用层通信协议 这个协议详细规定了 浏览器 和 万维网 服务器 之间互相通信的规则 协议中主要规定了两个方面的内容: 客户端&#xff1…

Coovally再升级!基于CV大模型的智能标注解放你的双手

近日,随着SAM大模型的横空出世,“分割一切”成为可能,基于CV大模型的标注技术受到瞩目。 SAM分割示例 SAM大模型 Meta 在论文中发布了名为 Segment Anything Model (SAM)的新模型,“SAM 已经学会了关于物体的一般概念&#xff0c…

Hbase1.1:HBase官网、HBase定义、HBase结构、HBase依赖框架、HBase整合框架

这里写自定义目录标题 HBase官网HBase特点:大HBase定义HBase结构HBase依赖框架hadoop HBase整合框架PhoenixHive HBase官网 Hbase官网地址 HBase是Hadoop database,一个分布式、可扩展的大数据存储。 当您需要对大数据进行随机、实时读/写访问时&…

Activiti学习03

这里写目录标题 一、开发环境1.1 Java环境1.2 数据库1.3 开发工具 二、Activiti入门体验2.1 新建项目2.2 pom.xml文件2.3 activiti.cfg.xml文件2.4 添加日志配置文件 三、创建数据库3.1 创建数据库3.2 执行代码3.2.1 通过代码实现创建表格3.2.2 简化代码 四、绘制流程4.1 新建b…

香港金银业贸易场十大会员名单排行榜

在种类丰富全面的国际投资市场中,黄金拥有者良好的受众基础,黄金投资产品有着悠久的历史记录和蓬勃旺盛的生命力,数百年以来无数炒金者在黄金投资中实现了投资理财的梦想,但是在黄金投资的过程中,投资中需要面对无数考…

162.网络安全渗透测试—[Cobalt Strike系列]—[Veil免杀]

文章目录 1 Veil的使用2 生成有效载荷payload3 Veil免杀过程4 测试免杀 1 Veil的使用 (1)Veil主要用于生成:免杀payload (2)下载地址:https://github.com/Veil-Framework/Veil (3&#xff09…

Unity 工具控件 之 Text 文本字间距调整(老版本的Unity编写工具控件/新版本Unity使用TMP)

Unity 工具控件 之 Text 文本字间距调整(老版本的Unity编写工具控件/新版本Unity使用TMP) 目录 Unity 工具控件 之 Text 文本字间距调整(老版本的Unity编写工具控件/新版本Unity使用TMP) 一、简单介绍 二、老版本 Unity Text 使用工具控件调整行间距 三、新版本 Unity Text…

mysql性能调优开篇介绍、错误代码总结(处理方法)和参数文件详解(持续更新中ing)

前言 MySQL是一个关系型数据库管理系统,由瑞典MySQL AB 公司开发,属于 Oracle 旗下产品。MySQL是最流行的关系型数据库管理系统之一,在 WEB 应用方面,MySQL是最好的 RDBMS (Relational Database Management System,关系…

园区路线地图指引图怎么画?园区地图三维图怎么画?

目前在园区信息化应用形式中,广泛缺乏专业电子地图的使用,因此,使这种高效的信息化工具的应用受到了很大限制。有些仅以图片代替,但图片没有空间计算、检索、路径设计的能力,在地图应用形式中,使用价值很低…

一文!解决恒定磁场的基本方程(有介质)

目录 引言 磁化过程 磁偶极矩 磁化强度 方程的化简 磁场强度 磁化率 磁导率 相对磁导率 现实生活中的应用 引言 为什么介质在磁场中会被磁化呢? 首先因为电子绕着原子核转动,所以就可以形成一个环形电流,,环形电流就可以产生磁场。…

SAR型ADC结构原理

SAR型 ADC,即逐次渐进逼近型 ADC,采用的是多次比较的方式来获得最终的输出结果,具有简单易用,功耗低的特点。下图这个结构可以帮助我们容易地理解SAR型 ADC的工作过程: 如上图,假设输入信号的伪代码为 45&…

YOLOv5+单目测距(python)

YOLOv5单目测距(python) 1. 相关配置2. 测距原理3. 相机标定3.1:标定方法13.2:标定方法2 4. 相机测距4.1 测距添加4.2 细节修改(可忽略)4.3 主代码 5. 实验效果 相关链接 1. YOLOV7 单目测距(p…

今晚直播 | 思码逸陆春蕊:面对研发效能度量落地难点,如何让数据说话?

本期分享 本期 DevData Talks 邀请到了思码逸高级咨询专家陆春蕊老师。陆春蕊老师曾就职于 Oracle 美国,在软件质量、项目管理方面有着丰富的经验。在研发效能领域为上百家客户提供了技术、数据分析、实践落地等方面的咨询,协助客户提升研发效能10%-30%…

Revit问题:墙体被楼板剪切及材质库被锁定问题

一、Revit 墙体被楼板剪切怎么办? 建模的时候画的墙总是到楼板就停了,这是为什么?明明顶部约束到标高2了,这种情况如何解决? 首先来分析问题产生的原因是,我们在绘制楼板的时候选择了用楼板剪切重复部分的墙体。 解决…

junit的基本使用

1 依赖引入&#xff1a; 只需要在maven项目中引入&#xff1a; <dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.12</version> </dependency> 2 常用注解 Test Before after BeforeClass…

BUG——DM -3217: 第1 行附近出现错误: 列[***]未编制全文索引或全文索引数据错误(全文索引、是否包含某些字符串)

文章目录 一、情景二、报错三、解决四、说明1、CONTAINS的使用前景2、全文索引2.1.全文索引定义语句2.2.全文索引修改语句2.3.全文索引删除语句 一、情景 统计某字段中&#xff0c;包含某些字符串的行数 # 使用CONTAINS select sum(case when CONTAINS(my_column,123) then 1…

12种优雅的接口优化方案

12种优雅的接口优化方案 一、背景二、接口优化方案总结1.批处理2.异步处理3.空间换时间4.预处理5.池化思想6.串行改并行7.索引8.避免大事务9.优化程序结构10.深分页问题11.SQL优化12.锁粒度避免过粗欲速则不达,欲达则欲速! —— 佚名 一、背景 针对老项目,做了许多降本增效…