Chat GPT原理

news2026/2/11 7:58:47

ChatGPT一经发布就在科技圈火得不行，这两天也是被传得神乎其神，听说它写得了代码、改得了 Bug，小说、段子统统不再话下！那他到底是怎么训练成现在这样的呢？本文介绍李宏毅老师的分析。

那么接下来我们就来介绍Chat GPT是怎样练成的！

1.找寻资料参考：

李老师在翻看OpenAI的博客发现，其目前并没有发表关于ChatGPT的论文。但是！在OpenAI官方博客介绍中，我们可以发现CharGPT有一个兄弟，InstructGPT，因此他决定依靠InstructGPT去寻找一些ChatGPT的训练逻辑。

当我们看到ChatGPT与InstructGPT的对比时，更加坚定的确定通过InstructGPT是可以找到ChatGPT模型的蛛丝马迹的。如下，上面为ChartGPT的训练流程下面为InstructGPT的流程图。可以说像的7788了，比较面明显的区别其实只有GPT的版本不同而已，前者是GPT3.5，后者是GPT3。所以李老师决定直接分析InstructGPT来推测Chat GPT是怎样练成的！

2.正式开始介绍Chat GPT的学习四阶段：

2.1 学习文字接龙

学习文字接龙，其实就是依据目前已有的信息，去推测下一个可能出现的字，以此类推。与我们在学习机器学习中的文字翻译Transformer架构很相似。

正如下面的例子所演示的，当我们有目前有：“你好”这一个不完整的句子的时候，程序可以基于在互联网上学习到的知识去预测下一个字，有可能是 “美”

这种学习的好处是，我们并不需要人工标注出机器需要训练的内容，只需要把他放到互联网上，看到文字就自我学习文字接龙即可。

但是，坏处也显而易见了，对于一个不完整的句子，我们后面的词可以是很多种多样的，比如说在 “你好” 后面，我们可以接上 “吗” 、 “高”、“美” 等，所以GPT返回的其实是一个概率分布，也就是说每次回答的内容其实都是随机的。这次说 “你好吗”，下次可能就说 “你好美了” 。

但是单单依靠文字接龙，其实GPT就已经可以回答问题了。比如下面的例子，我们问出“台湾最高的山是哪座？” 当GPT在网上看过这么多资料，它通过文字接龙的形式回答，可能可以直接回答出玉山，也可能给你出一道选择题（如果他读过的资料是这么连接起来的），也可能反问你 “谁来告诉我呀？”

2.2 人类老师引导文字接龙方向

经过了文字接龙，我们会发现GPT虽然能回答我们的问题，但是并不一定能回答出我们想要的答案。说白了就是人工来筛选哪些是我们需要的答案（还是逃离不了有多人工就有多智能呐！）

2.3 模仿人类老师的喜好

人类希望获得的答案就会被赋予更高的分数

2.4 使用增强向模拟老师学习

就是我们将每次GPT得到的答案都丢给TeacherModel来评判，如果是人类希望的答案就给高分，如果不是则给低分，这个模式被称为增强式学习种的“Reward”模块

3. 当然，ChatGPT目前并不是完美的...

目前ChatGPT模型已经很难再被找到错误了，但是根据上面的分析，我们只需要问出一些没有人问过的内容，他就回答不出来了。比如说：我问 “numbers”是由几个字母组成的，他会回答八个，这是八个吗？？？这明明就是七个！！！

4.总结

李宏毅老师认为ChatGPT是GPT的社会化过程，从一开始的想说什么就说什么，一直到后面的人类引导他说出期望的答案。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/78946.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

学习在UE中为截屏工具(SceneCapture)添加一种新的源(Source)

学习在UE中为截屏工具(SceneCapture)添加一种新的源(Source)

SceneCapture 创建一个SceneCapture2D类型的Actor，再新建一个RenderTarget资源交给它。随后，就能看到截屏的数据出现在RenderTarget中。通过修改 Capture Source ，可以改变截取的数据源，比如法线、基础色等等。目标本篇的目…

阅读更多...

论文投稿指南——中国（中文EI）期刊推荐（第4期）

论文投稿指南——中国（中文EI）期刊推荐（第4期）

🚀 EI是国际知名三大检索系统之一，在学术界的知名度和认可度仅次于SCI！🎄🎈 【前言】想发论文怎么办？手把手教你论文如何投稿！那么，首先要搞懂投稿目标——论文期刊。其中&#xf…

阅读更多...

AndroidT(13) Log 系统 -- logd 服务的初始化(七)

AndroidT(13) Log 系统 -- logd 服务的初始化(七)

1. 概览经过上一章的分析，现在也是时候讨论下logd的初始化了，虽然 logd 在代码量上来说并不大，但是还是分模块进行分析比较合适。所以这里就不贴整体代码了，这部分代码也被包含在AOSP t 的代码中，有兴趣的读者可以自己…

阅读更多...

【LeetCode102. 二叉树的层序遍历】——层序遍历

【LeetCode102. 二叉树的层序遍历】——层序遍历

102. 二叉树的层序遍历给你二叉树的根节点 root ，返回其节点值的层序遍历。 （即逐层地，从左到右访问所有节点）。示例 1： 输入：root [3,9,20,null,null,15,7] 输出：[[3],[9,20],[15,7]]示…

阅读更多...

[附源码]Python计算机毕业设计SSM基于的优质房源房租管理系统（程序+LW)

[附源码]Python计算机毕业设计SSM基于的优质房源房租管理系统（程序+LW)

项目运行环境配置： Jdk1.8 Tomcat7.0 Mysql HBuilderX（Webstorm也行） Eclispe（IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持）。项目技术： SSM mybatis Maven Vue 等等组成，B/S模式 M…

阅读更多...

LeetCode HOT 100 —— 207 .课程表

LeetCode HOT 100 —— 207 .课程表

题目你这个学期必须选修 numCourses 门课程，记为 0 到 numCourses - 1 。在选修某些课程之前需要一些先修课程。先修课程按数组 prerequisites 给出，其中 prerequisites[i] [ai, bi] ，表示如果要学习课程 ai 则必须先学习课程 bi 。例…

阅读更多...

软件测试的类型

软件测试的类型

在本节中，我们将了解各种类型的软件测试，这些测试可以在软件开发生命周期时使用。众所周知， 软件测试是根据客户的先决条件分析应用程序功能的过程。如果我们想确保我们的软件没有错误或稳定，我们必须执行各种类型的软件测试…

阅读更多...

神经辐射场NeRF

神经辐射场NeRF

NeRF: Representing Scenes as Neural Radiance Fields for Novel View Synthesis 文章目录NeRF: Representing Scenes as Neural Radiance Fields for Novel View SynthesisPipelineStepsVolume RenderingOptimizationPositional EncodingHierarchical Volume Samplingview-de…

阅读更多...

从零学习gitHub (一)

从零学习gitHub (一)

一、账户注册 1.1、打开 GitHub 官方网址 GitHub 1.2、填入用户名「Username」、邮箱「Email」l、密码「Password 注意事项 Username：用户名不能重名，可包含字母数字字符和单行连字符，且不能以单行连字符开头或结尾； Email&…

阅读更多...

Linux | 线程同步 | 条件变量 | 生产消费模型 | 阻塞队列实现生产消费模型

Linux | 线程同步 | 条件变量 | 生产消费模型 | 阻塞队列实现生产消费模型

文章目录线程饥饿条件变量接口的使用生产者和消费者模型使用阻塞队列实现生产消费模型代码中存在的问题关于pthread_cond_wait的原子性生产消费模型中的并发体现线程饥饿在多线程并发执行的场景中，会不会出现这样的情况，一些线程由于优先级更高&#x…

阅读更多...

分布式锁4-Redisson分布式锁实现与看门狗原理

分布式锁4-Redisson分布式锁实现与看门狗原理

文章目录一.Redisson介绍二.分布式锁的运用1.引入依赖.2.增加配置类.3.简单代码实现1.不指定加锁时间,会默认启动看门狗.自动帮你的锁进行续期.2.指定加锁时间,不启用看门狗续期,到期自动解锁.三.分布式锁实现原理加锁过程看门狗续期过程一.Redisson介绍 Redisson 是架设在 Red…

阅读更多...

读《冯诺依曼传》

读《冯诺依曼传》

关于冯诺依曼冯诺依曼是20世纪的全才，原名约翰尼，匈牙利美籍科学家，被称为计算机之父和博弈论之父。计算机和博弈论都深刻改变人类的生活工作和思维方式，极大地促进了社会和人类文明的进步发展。在六个哲学领域他都做出了相当大的贡献，把模糊的问题用数学精确地表述出来…

阅读更多...

扩散模型的迁移和应用（DiffusionDet，AR-LDM，MagicVideo，RenderDiffusion，AltDiffusion，VD）

扩散模型的迁移和应用（DiffusionDet，AR-LDM，MagicVideo，RenderDiffusion，AltDiffusion，VD）

在上一篇博文中，博主已经整理了扩散模型（Diffusion Model，DDPM，GLIDE，DALLE2，Stable Diffusion）的基本原理，后续不再赘述其细节。作为一个最近被讨论热烈的方向，很自然地…

阅读更多...

干Java开发快30岁了，没有核心竞争力，该怎么跳槽面试？

干Java开发快30岁了，没有核心竞争力，该怎么跳槽面试？

今年互联网大环境的确不怎么好，互联网公司纷纷陷入裁员风波并缩减规模，这就导致更多程序员需要去竞争更少的就业岗位，搞的整个IT 行业越来越卷。作为Java程序员的我们就更不用说了，除去加班的可能性，每天上班8小时需要…

阅读更多...

Java项目：SSM药品进货销售仓储信息管理系统

Java项目：SSM药品进货销售仓储信息管理系统

作者主页：源码空间站2022 简介：Java领域优质创作者、Java项目、学习资料、技术互助文末获取源码项目介绍管理员角色包含以下功能： 管理员登录,用户信息管理,个人信息管理,药品信息管理,药品类别信息管理,选购药品管理,订单管理,订单记录管…

阅读更多...

余生很短，及时止损--爱摸鱼的美工（九）

余生很短，及时止损--爱摸鱼的美工（九）

-----------作者：天涯小Y 余生很短，及时止损今日份垃圾清理完毕有的人就像垃圾车他们装满了垃圾四处奔走充满懊悔、愤怒.失望的情绪随着垃圾越堆越高就需要找地方倾倒，释放出来他们会逮着一切机会到处碰瓷、找茬、泄愤如果你给他们…

阅读更多...

Js逆向教程22-AST 抽象语法树babel安装

Js逆向教程22-AST 抽象语法树babel安装

作者：虚坏叔叔博客：https://xuhss.com 早餐店不会开到晚上，想吃的人早就来了！😄 AST 抽象语法树babel安装一、什么是AST js代码： var a1;json标识： 赋值语句左边为定义定义的名称为a(作用域…

阅读更多...

python——面向对象

python——面向对象

1、概念 ①OOP：Object Oriented Programming ②面向对象：只关心哪个对象完成这个功能，它关注的是完成功能的结果，以结果为导向 python、Java、js、c... ③面向过程&面向对象 ④面向对象三大特征：封装、继承、多…

阅读更多...

springcloud（配置中心）

springcloud（配置中心）

目录 1. 为何需要配置中心2. nacos的配置中心 2.1 配置示例2.2 多环境配置2.3 GROUP2.4 namespace 1. 为何需要配置中心没有配置中心的情况下会出现什么情况： 如果没有配置中心，则各个服务的配置文件分散在各个项目中，不方便维护出于安全考…

阅读更多...

代码审计学习： xhcms

代码审计学习： xhcms

前言从大佬那里听说，xhcms 很适合代码审计的新手。环境 php 5.4.45 Apache 2.4.39 Mysql 5.7.26 文件上传配合文件包含 /index.php 和 /admin/index.php error_reporting(0); //关闭错误显示 $fileaddslashes($_GET[r]); //接收文件名 $action$file?index:…

阅读更多...

推荐文章

最新文章