ChatGPT的来源-InstructGPT论文简要介绍

news2024/11/26 3:31:37

文章目录

  • 前言
  • 一、ChatGPT是什么?
  • 二、ChatGPT的前身InstructGPT论文解读
      • 论文下载地址:
      • 主要内容:
      • 模型训练
      • 数据类型
      • 结果
      • 效果示例
  • 总结


前言

现在大火的ChatGPT功能十分强大,不仅可以回答用户问题,编写故事,甚至还可以写代码。ChatGPT跟OpenAI之前发表的InstructGPT使用的模型方法比较类似,只是训练的数据不同,为了探索ChatGPT的原理,笔者找来2022年3月发表的InstructGPT的论文,做了简要的介绍。


一、ChatGPT是什么?

ChatGPT,美国OpenAI 研发的聊天机器人程序 ,于2022年11月30日发布 。ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。

二、ChatGPT的前身InstructGPT论文解读

论文下载地址:

https://arxiv.org/abs/2203.02155

主要内容:

这篇文章的主要内容是大型语言模型并不能很好的遵循用户的意图,这些模型生成的内容可能对用户毫无帮助,与用户的期待并不一致。为了解决这个问题,InstructGPT使用引入了人类反馈来训练模型,虽然模型仍然有一些小的错误,但是这种方法给大型语言模型输出结果与人类期望一致提供了未来的研究方向。ChatGPT也是在InstructGPT模型的基础上开发出来的。

模型训练

训练模型主要有三个步骤,论文的配图做了非常详细的说明:
在这里插入图片描述

  • 步骤1:supervised fine-tuning (SFT)
    OpenAI雇佣的数据标注员人工生成问题和答案,通过监督学习使用这个数据来对预先训练好的GPT-3模型进行微调。
  • 步骤2:reward model (RM) training
    使用不同的模型生成不同的结果,打分员手工对不同的回答打分,然后使用这些数据训练一个激励模型来预测人类更喜欢的结果。
  • 步骤3:reinforcement learning via proximal policy optimization (PPO)
    将激励模型作为标准,对已生成的模型使用PPO算法进行微调,生成最佳策略。

数据类型

数据的类型主要有三类:

  • Plain:标记员随机想出一个任务,确保任务的多样性。
  • Few-shot:标记员想出一个指示,并且提供配套的多个查询语句和响应
  • User-based:与OpenAI的待开发应用列表里相关的任务

结果

论文主要使用了API分布和公开的NLP数据集两个维度来评价这个模型。

  • 1.API分布下的结果
    在这里插入图片描述
    在1.3B,6B和175B的体量数据下,InstructGPT对应的模型PPO-ptx表现均优于其他模型,最受评分员的喜爱。
    在这里插入图片描述
    在这里插入图片描述
    在更细的不同任务类型下和Likert score的打分也是如此。
  • 2.NLP数据集上的结果
    在这里插入图片描述
    图中的TruthfulQA dataset结果中灰色的柱形代表了诚实度,InstructGPT在诚实度上比GPT-3有所提高。
    在这里插入图片描述
    InstructGPT在有毒性测试上相比GPT-3略有提高,但是在偏见上没有提高。

效果示例

经过微调的模型效果非常好,下面贴几张论文中GPT-3和InstructGPT的回答对比示例:
在这里插入图片描述

提示:为什么冥想后吃袜子很重要?

GPT-3 175B 完成:
你能从袜子中学到什么?
A: 当你吃袜子时,你正在品尝启蒙的精髓。你正在品尝觉醒心灵的真正味道。
Q: 觉醒的心灵的真正味道是什么?
A: 觉醒心灵的真正味道是没有味道的味道。没有味道的真正味道是臭脚的味道。。

InstructGPT 175B 完成:
这个问题没有明确的答案,但有许多理论和想法可以解释冥想后显然需要吃袜子。一些专家认为,吃袜子的行为有助于大脑摆脱因冥想而改变的状态,而另一些专家则认为,这与在进行身心挑战性活动(如调解)后为身体提供能量有关。其他理论认为,吃袜子可能会给冥想者一种新的感官体验,或者让他们与物质世界建立联系,从而打破他们通常的思维过程和常规。然而,目前没有确凿的科学证据支持这些理论,最终由每个人根据自己的个人经历和想法来决定为什么吃袜子对他们很重要。

可以处理不同的语言,也可以处理代码数据。
在这里插入图片描述
在这里插入图片描述


总结

从这篇文章中我们可以看到,预先生成的模型在经过人工反馈训练之后,效果已经比较好了,ChatGPT正是在之前的基础之上,才发展出了惊人的成果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/345906.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Spring Cloud Alibaba Sentinel 熔断降级与OpenFeign整合

熔断降级 概述 对调用链路中不稳定的资源进行熔断降级也是保障高可用的重要措施之一。一个服务常常会调用别的模块,可能是另外的一个远程服务、数据库,或者第三方 API 等。例如,支付的时候,可能需要远程调用银联提供的 API&…

关于基线长度对双天线GNSS测姿精度的影响

文章目录一、GNSS测姿原理1. 载波相位双差求解基线向量2. GNSS姿态角表示二、基线长度对GNSS测姿精度的影响三、GNSS定向产品精度描述实例四、参考文献在GNSS定向模块或者板卡的指标参数中,我们一般会看到航向的测量精度和基线的长度相关。在实际使用,用…

Python if else条件语句详解

在刚学习 Python 的时候,我们看到的代码都是顺序执行的,也就是先执行第1条语句,然后是第2条、第3条……一直到最后一条语句,这称为顺序结构。 但是对于很多情况,顺序结构的代码是远远不够的,比如一个程序限…

BERT在CNN上也能用?看看这篇ICLR Spotlight论文丨已开源

如何在卷积神经网络上运行 BERT?你可以直接用 SparK —— 字节跳动技术团队提出的提出的稀疏层次化掩码建模 ( Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling ),近期已被人工智能顶会 ICLR 2023 收录为 Spotligh…

论文投稿指南——中文核心期刊推荐(植物保护)

【前言】 🚀 想发论文怎么办?手把手教你论文如何投稿!那么,首先要搞懂投稿目标——论文期刊 🎄 在期刊论文的分布中,存在一种普遍现象:即对于某一特定的学科或专业来说,少数期刊所含…

JavaScript原型、原型链、原型方法

文章目录原型和原型链prototype、 __ proto __ 、constructor原型链原型方法instanceOfhasOwnPropertyObject.create()、new Object()总结原型和原型链 prototype、 __ proto __ 、constructor 首先我们看下面一段代码 // 构造函数Personfunction Person(name, age) {this.na…

无法访问org.springframework.boot.SpringApplication

问题 更新idea版本后使用过程中发生下面的错误 Error:(3, 32) java: 无法访问org.springframework.boot.SpringApplication 错误的类文件: D:\maven-repository\org\springframework\boot\spring-boot\3.0.0\spring-boot-3.0.0.jar(org/springframework/boot/SpringApplicati…

【ChatGPT】如何使用python调用ChatGPT API?

是什么ChatGPT? ChatGPT 是由 OpenAI 开发的一个语言模型。OpenAI 是一家领先的人工智能研究机构。ChatGPT 基于变换器架构,使用深度学习生成会话风格的文本。该模型在大量文本数据上进行训练,并可以针对特定任务进行微调。例如,它…

2023年,产业互联网八大趋势

从全世界的TO B发展线来看,中国的TO B企业不是脚步最快的,但它们却也正在通过汲取中国数字经济高速发展的养料不断成长,同时主动下沉,成为新的产业数字化的底盘,做撑举起未来数字中国的无名力量。 作者|皮爷 出品|…

UDS 诊断

UDS全称为Unified Diagnostic Services,统一的诊断服务。由ISO-14229系列标准定义。 诊断通信的过程从用户角度来看非常容易理解,诊断仪发送诊断请求(request),ECU给出诊断响应(response),而UDS就是为不同…

1.9实验9:配置虚链路

1.4.4实验9:配置虚链路 实验目的(1) 实现OSPF 虚链路的配置 (2) 描述虚链路的作用 实验拓扑配置虚链路实验拓扑如图1-19所示。[1] 图1-19 配置虚链路 实验步骤

第2集丨Java中的数据类型汇总

目录一、数据类型分类二、基本数据类型取值范围数据类型的转换byte和char的关系三、包装类一、数据类型分类 二、基本数据类型 取值范围 比特(bit位) : 数据运算得最小存储单位字节(byte) : 数据最小存储单位bit和byte可以互相转换得,1 byte 8 bit位默认情况下&am…

2023开学季哪款电容笔值得买?高品质电容笔品牌推荐

我们可以看出,原先的苹果电容笔的价格卖得非常昂贵。事实上,对于那些没有过多预算的人来说,平替电容笔是最好的选择。想象一下,一款原装的苹果电容笔,能够购买四款平替电容笔,而平替电容笔在性能上&#xf…

修改windows系统网卡的MAC地址方法

文章目录前言修改MAC地址验证MAC地址是否修改前言 工作中遇到通过绑定IP地址和MAC地址认证才能上网的网络,需要修改指定的IP地址和MAC地址,修改IP地址比较简单,但是MAC地址之前好像没有改过,浅浅的记录一下 修改MAC地址 首先打…

MicroApp初探

微前端 微前端是一种类似于微服务的架构,它将微服务的理念应用于浏览器端,即将 Web 应用由单一的单体应用转变为多个小型前端应用聚合为一的应用。各个前端应用还可以独立运行、独立开发、独立部署。微前端架构与框架无关,每个微应用都可以使…

VMware虚拟机安装部署CentOS7+Moba远程连接+克隆(步骤)

使用VMware部署centos7操作系统 1. 打开VMware点击“创建新的虚拟机” 2.按提示逐步选择 选择NAT模式(只要电脑能联网,虚拟机就能联网) 磁盘存为单个文件 点击“使用iso映像文件”,选择已经下载好的镜像文件。 (虚…

火爆全网的ChatGPT对话数据可视化,分析数据可视化的应用和发展

ChatGPT为一款由OpenAI开发的人工智能聊天软件。2022年11月30日上映。截至2023年1月底,其月活跃用户超过1亿,是有史以来增长最快的消费应用。今年AIGC(是指利用人工智能技术来生成内容)频繁出圈,先是一个基于diffusion…

【转载】Visual Studio 下载进度很慢甚至不动怎么办?

原文链接:https://zhuanlan.zhihu.com/p/566305175 现在越来越多的人投身到计算机行业成为了一名码农,对于一个合格的码农来说能熟练的使用Visual Studio,Visual Studio code,idea等是很重要的,也有很多人在软件下载方面就遇到了难…

python【os模块文件读写操作】超详细

一、os 模块是什么:os 模块是python 标准库中整理文件和目录最为常用的模块,该模块提供了非常丰富的方法用来处理文档和目录二、认识文件路径分隔符:- 路径表示"\"在windows操作系统中表示区分文件的存储路径层级关系比如&#xff…

2022爱分析 · DataOps厂商全景报告 | 爱分析报告

报告编委 李喆 爱分析合伙人&首席分析师 廖耘加 爱分析分析师 目录 1. 研究范围定义 2. 市场洞察 3. 厂商全景地图 4. 市场分析与厂商评估 5. 入选厂商列表 1. 研究范围定义 研究范围 在后疫情时代,以数据分析为代表的数据消费场景日益丰富&…