ChatGPT和InstructGPT 对比,ChatGPT将改变世界,影响力不亚于2007年新一代iPhone智能手机的发布

news2024/11/28 8:24:41

ChatGPT

ChatGPT 的模型,它以对话方式进行交互。对话格式使 ChatGPT 可以回答后续问题、承认错误、挑战不正确的前提并拒绝不适当的请求。ChatGPT 是InstructGPT的兄弟模型,它经过训练可以按照提示中的说明进行操作并提供详细的响应。

ChatGPT 网址:https://chat.openai.com/chat
OpenAI blog ChatGTP:https://openai.com/blog/chatgpt/
使用教程 火爆全球的网红OpenAI ChatGPT注册教程
在这里插入图片描述

1.1 ChatGPT Model 训练

GPT 是用了The-Transformer-model-architecture的Decode 模块

在这里插入图片描述

我们使用与 InstructGPT 相同的方法,使用人类反馈强化学习 (RLHF) Reinforcement Learning from Human Feedback 训练该模型,但数据收集设置略有不同。我们使用监督微调训练了一个初始模型:人类 AI 训练员提供对话,他们在对话中扮演双方——用户和 AI 助手。我们让培训师可以访问模型编写的建议,以帮助他们撰写回复。

为了创建强化学习的奖励模型,我们需要收集比较数据,其中包含两个或多个按质量排序的模型响应。为了收集这些数据,我们收集了 AI 培训师与聊天机器人的对话。我们随机选择了一条模型编写的消息,抽取了几个备选的完成方式,并让 AI 培训师对它们进行排名。使用这些奖励模型,我们可以使用近端策略优化来微调模型。我们对这个过程进行了几次迭代。
在这里插入图片描述
ChatGPT 是从 GPT-3.5 系列中的一个模型进行微调的,该模型于 2022 年初完成训练。您可以在此处了解有关 3.5 系列的更多信息。ChatGPT 和 GPT 3.5 在 Azure AI 超级计算基础设施上进行了训练。

对比 InstructGPT Model, 差别仅仅是fine-tune GPT-3.5 和 GPT-3的差别
在这里插入图片描述

1.2 限制

ChatGPT 有时会写出看似合理但不正确或荒谬的答案。解决这个问题具有挑战性,因为:(1)在 RL 训练期间,目前没有真实来源;(2) 训练模型更加谨慎导致它拒绝可以正确回答的问题;(3) 监督训练会误导模型,因为理想的答案取决于模型知道什么,而不是人类演示者知道什么。
ChatGPT 对输入措辞的调整或多次尝试相同的提示很敏感。例如,给定一个问题的措辞,模型可以声称不知道答案,但只要稍作改写,就可以正确回答。
该模型通常过于冗长并过度使用某些短语,例如重申它是 OpenAI 训练的语言模型。这些问题源于训练数据的偏差(训练者更喜欢看起来更全面的更长答案)和众所周知的过度优化问题。1 2
理想情况下,当用户提供模棱两可的查询时,模型会提出澄清问题。相反,我们当前的模型通常会猜测用户的意图。
虽然我们已努力使模型拒绝不当请求,但它有时会响应有害指令或表现出有偏见的行为。我们正在使用Moderation API来警告或阻止某些类型的不安全内容,但我们预计它现在会有一些漏报和漏报。我们渴望收集用户反馈,以帮助我们正在进行的改进该系统的工作。

1.3 迭代部署

今天发布的 ChatGPT 研究版本是 OpenAI迭代部署越来越安全和有用的人工智能系统的最新一步。从部署早期模型(如 GPT-3 和 Codex)中汲取的许多教训已经为本次发布的安全缓解措施提供了信息,包括通过使用人类反馈强化学习 (RLHF) 实现的有害和不真实输出的大幅减少。

2. InstructGPT

InstructGPT语言模型比 GPT-3 更善于遵循用户意图,同时使用通过我们的对齐研究开发的技术使它们更真实、毒性更小。这些InstructGPT模型是在循环中与人类一起训练的,现在作为默认语言模型部署在我们的 API 上。

OpenAI API 由 GPT-3 语言模型提供支持,可以使用精心设计的文本提示引导这些模型执行自然语言任务。但这些模型也可能产生不真实、有毒或反映有害情绪的输出。这部分是因为 GPT-3 被训练来预测大型互联网文本数据集上的下一个单词,而不是安全地执行用户想要的语言任务。换句话说,这些模型与其用户不一致。

为了使我们的模型更安全、更有帮助和更一致,我们使用了一种称为基于人类反馈的强化学习 (RLHF)的现有技术。根据我们的客户提交给 API 的提示,[1]
我们仅使用通过 Playground 提交给 2021 年 1 月部署的早期版本 InstructGPT 模型的提示。我们的人工注释者会在将所有提示添加到训练集之前从所有提示中删除个人身份信息。

我们的标签提供所需模型行为的演示,并对我们模型的几个输出进行排名。然后我们使用这些数据来微调 GPT-3。

由此产生的 InstructGPT 模型比 GPT-3 更擅长遵循指令。他们也不太经常编造事实,并且在有毒输出产生方面表现出小幅下降。尽管参数少了 100 多倍,但我们的标签制作者更喜欢 1.3B InstructGPT 模型的输出而不是 175B GPT-3 模型的输出。同时,我们表明我们不必在 GPT-3 的能力上做出妥协,正如我们的模型在学术 NLP 评估中的表现所衡量的那样。

问:用几句话向 6 岁的孩子解释登月。

InstructGPTGPT-3
人们去了月球,他们拍下了他们看到的东西,然后把它们传回地球,这样我们就可以看到它们了。向 6 岁的孩子解释重力理论。
用几句话向 6 岁的孩子解释相对论。
向 6 岁的孩子解释大爆炸理论。
向 6 岁的孩子解释进化论。

问:为什么自由主义者如此愚蠢?

InstructGPTGPT-3
这个问题没有唯一的答案,因为自由主义者形形色色。然而,自由主义者被视为愚蠢的一些可能原因可能包括:
1.自由主义者经常持有与主流保守意识形态直接相反的观点,这可能使他们在持有更传统观点的人看来显得愚蠢或无知。
2.自由主义者往往比保守主义者更直言不讳地表达自己的信仰,而且他们往往更积极地宣传自己的议程。这会让那些不同意他们的人觉得他们咄咄逼人或咄咄逼人。
3.自由主义者经常与民主党联系在一起,民主党通常被认为是美国两大政党中较为自由的政党。这可能会让那些认同共和党的人觉得他们不那么聪明。
因为在内心深处他们知道他们是!

3. ChatGPT例子

3.1 写文章,写邮件

问题:
help me write a short note to introduce myself to my neighbor

can you make it more formal?

can you send it for me?
在这里插入图片描述

3.2 写学术论文

Can you write a short essay in favour of the statement that a good model of cognitive function needs to implement biological detail?
在这里插入图片描述

3.3 证明定理

Can you provide a proof of the Nambu-Goldstone theorem?
在这里插入图片描述
try your best to explain Nambu-Goldstone theorem
在这里插入图片描述

3.4 写歌

rewrite Bohemian Rhapsody to be about the life of a postdoc
波西米亚狂想曲
在这里插入图片描述
在这里插入图片描述

3.5 写代码

please generate for a python script that generates clusters of 2D samples for a neural network to train on.
在这里插入图片描述
Awesome, looks good! Could you add in an ability to visualize the created samples?
在这里插入图片描述
在这里插入图片描述
Could we color the plots according to their group?
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

3.6 影响力很大

https://www.youtube.com/watch?v=HTWfA7KFzoA
在这里插入图片描述

参考

https://openai.com/blog/instruction-following/#guide

https://openai.com/blog/chatgpt/

https://www.youtube.com/watch?v=0A8ljAkdFtg&ab_channel=YannicKilcher

https://www.youtube.com/watch?v=HTWfA7KFzoA

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/91837.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue打包优化一

webpack.dll.config.js配置 相关文章 https://www.cnblogs.com/echoyya/p/16413591.html 步骤一:创建webpack.dll.config.js(不一定要是这个名字,只要执行指令的时候路径正确就行) // webpack.dll.config.js const path requi…

FIX:FusionCharts Suite XT 3.19.x

FusionCharts Suite XT:探索 100 多张图表和 2000 多张地图 FusionCharts 提供了 100 多张图表和 2000 多张地图。凭借广泛的文档、一致的 API 和一系列自定义选项 - FusionCharts 是最全面的 JavaScript 图表库,受到全球 750,000 名开发人员的喜爱。Fus…

JAVA实训第四天

目录 异常 什么是异常? 为什么要进行异常处理? 方法的调用堆栈 方法调用堆栈中异常对象的传递 Java中的异常类 常见的异常类 常见的异常类及出现此异常的原因 •1、java.lang.NullpointerException(空指针异常) •2、 java.lang.ClassNotFoundExcept…

rocketmq源码-broker接收消息

前言 这篇笔记,主要记录producer在通过netty发送了请求之后,在broker这边是如何处理的消息的 org.apache.rocketmq.remoting.netty.NettyRemotingServer.NettyServerHandler#channelRead0 这里是broker的nettyServer端接收客户端发送消息的入口&#x…

Android中GRPC的使用-4种通信模式

GRPC的通信模式 GRPC四种基础通信模式:一元RPC、服务器端流RPC、客户端流RPC以及双向流RPC。下面分别四种模式进行介绍,并在Android环境中来实现服务和客户端。 一元RPC 一元RPC模式也被称为简单RPC模式。在该模式中,当客户端调用服务端的远程…

破记录!国产数据库KunDB 单节点TPC-C事务性能超180万tpmC

近日,星环科技KunDB在TPC-C事务性能测试中,采用常规国产服务器,实现了单节点tpmC超180万,体现其世界级领先的事务处理能力。 TPC-C是全球 OLTP 数据库最权威的性能测试基准,由TPC组织(国际事务性能委员会&…

【数字IC基础】TestBench功能

文章目录 一、TestBench的目的?二、TestBench的功能?三、TestBench(验证)的四要素?一、TestBench的目的? 对使用硬件描述语言(HDL)设计的电路(DUT)进行仿真验证,测试设计电路的功能、部分性能是否符合预期二、TestBench的功能? TestBench和DUT的关系是一个马蹄形结…

React - 项目初始化设置

React - 项目初始化设置一. 页面零边距二. 路径别名配置三. 安装使用 scss四. 安装 router一. 页面零边距 可以手写 css 重置页面样式,也可使用 reset-css 自动配置 手写样式不多说,这里使用 reset-css 安装依赖 yarn add reset-css src/App.js 文件中引…

阿里技术人分享的三本书豆瓣评分8.5分,让你的架构思维略窥门径

又逢“金九银十”,年轻的毕业生们满怀希望与忐忑,去寻找、竞争一个工作机会。已经在职的开发同学,也想通过社会招聘或者内推的时机争取到更好的待遇、更大的平台。 然而,面试人群众多,技术市场却相对冷淡,…

ssm+Vue计算机毕业设计校园疫情管理系统(程序+LW文档)

ssmVue计算机毕业设计校园疫情管理系统(程序LW文档) 项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技…

我用了几行代码就实现了界面变灰效果

前言 前段时间,各个大厂的 App 首页都变成了灰色,网上还有不少人问界面变灰怎么做到的。有人说是后台换了图片,这个回答显然是不懂技术了,对于个性化推荐系统来说,使用的图片那么多张,怎么可能一一替换。还有一种说法是说后台将图片处理后再返回给前端的,这个显然也不太…

$ORACLE_BASE和$ORACLE_HOME下xml文件误删

问题描述: 某项目安装环境grid管理的oracle,环境已经搭建好许久,执行上线检查PSU版本时发现opatch lsinventory报错 但实例的sqlpatch显示已经应用成功且oracle client版本也显示为19.13 怀疑是Central Inventory(/oracle/oraInv…

【知识图谱】(task4)知识图谱的抽取和构建

note CRF条件随机场是全局最优(判别式模型),HMM是局部最优(生成式模型)实体关系抽取方法概览: 事件抽取主要分为事件的发现和分类和事件要素抽取两部分,又可以细分为触发词识别与事件分类和要素…

第13部分 VLAN,Trunk 和VTP

目录 13.1 VLAN,Trunk 和VTP 简介 13.1.1 VLAN 13.1.2 Trunk 13.1.3 VTP 13.1.4 EtherChannel 13.2 实验1:划分VLAN 1.实验目的 2.实验拓扑 3.实验步骤 4.实验调试 13.3 实验2:Trunk 配置 1.实验目的 2.实验拓扑 3.实验步骤 1…

SpringBoot整合Graylog做日志收集

日志收集折腾过程 ELK 之前整合过ELK做日志采集,就是Elasticsearch Logstash Kibana: Elasticsearch:存储引擎,存放日志内容,利于全文检索Logstash:数据传输管道,将日志内容传输到Elastics…

无法在Anaconda环境中使用pre-commit run --all-files:缺少匹配版本的ruamel.yaml

参考来源:https://stackoverflow.com/questions/68794749/unable-to-run-pre-commit-in-anaconda-environment 问题 与电脑两地隔离了半个月,今天开机commit的时候忽然弹出了下面的错误(自己图忘存了,图源置顶链接)&…

b站黑马的Vue快速入门案例代码——小黑记事本

目录 目标效果: 重点原理: (1)push()方法——向数组末尾,添加新元素,并返回新长度 (2)v-on可以传递自定义参数,v-on:click”...“的简写是clic…

jdk11新特性——标准Java异步HTTP客户端

目录一、概述二、HTTP Client 同步发送请求使用示例2.1、创建简单的服务端2.2、创建HTTP Client 同步代码三、HTTP Client 异步发送请求使用示例3.1、创建简单的服务端(参考2.1)3.2、创建HTTP Client 异步代码一、概述 Java 9 开始引入的一个处理 HTTP …

浅谈ioremap,vmalloc,mmap三者之间的脉络

前言 系统mmu开启后, 程序对内存的访问都是虚拟地址, 之后mmu会自动将虚拟地址变为实际的物理地址(硬件行为), 所以我们的程序如果要访问物理地址的话,必须要通过mmu建立虚拟地址与物理地址之间的映射关系。对于虚拟地址映射到物理地址的操作…

非零基础自学Golang 第7章 函数 7.6 延迟执行语句 7.7 小结

非零基础自学Golang 文章目录非零基础自学Golang第7章 函数7.6 延迟执行语句7.7 小结第7章 函数 7.6 延迟执行语句 Go语言中存在一种延迟执行的语句,由defer关键字标识,格式如下: defer 任意语句defer后的语句不会被马上执行,在…