ChatGPT简要解读(三) - ChatGPT发展历程及模型训练机制

news2024/11/23 2:59:14
  • 💂 个人主页: 同学来啦
  • 🤟 版权: 本文由【同学来啦】原创、在CSDN首发、需要转载请联系博主
  • 💬 如果文章对你有帮助,欢迎关注、点赞、收藏和订阅专栏哦

文章目录

  • 🐣 一、发展历程
    • 🔴 1、基本概念
    • 🟠 2、演化过程
  • 🐤 二、模型训练机制

🐣 一、发展历程

🔴 1、基本概念

ChatGPT是一个采用基于GPT-3.5(Generative Pre-trained Transformer 3.5)架构开发的大型语言模型,与InstructGPT模型是姊妹模型(sibling model),使用了RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)技术来更好地让语言模型与人类指令保持一致。

而GPT(Generative Pre-Trained Transformer)是一系列基于Transformer的深度学习语言模型,利用机器学习算法来分析和理解文本输入的含义,然后根据该输入生成响应。该模型在大量文本数据上进行训练,使其能够学习自然语言的模式和结构。
在这里插入图片描述

🟠 2、演化过程

  • 🦐 GPT-1发布
    2018年6月,OpenAl 在题为《Improving Language Understanding by Generative Pre-Training》的论文中提出了第一个GPT 模型GPT-1。从这篇论文中得出的关键结论是,Transformer 架构与无监督预训练的结合产生了可喜的结果。GPT-1 以无监督预训练+有监督微调的方式,针对特定任务进行训练,实现了 “强大的自然语言理解”。

  • 🦞 GPT-2发布
    2019年2月,OpenAI发表了第二篇论文《Language Models are Unsupervised Multitask Learners》,其中介绍了由GPT-1演变的GPT-2。尽管GPT-2 大了一个数量级,但它们在其他方面非常相似。两者之间只有一个区别:GPT-2 可以完成多任务处理。OpenAI成功地证明了半监督语言模型可以在“无需特定任务训练”的情况下,在多项任务上表现出色。该模型在零样本任务转移设置中取得了显著效果。

  • 🦑 GPT-3发布
    2020年5月,OpenAI发表《Language Models are Few-Shot Learners》,呈现GPT-3。GPT-3 比GPT-2 大100 倍,它拥有1750 亿个参数。然而,它与其他GPT 并没有本质不同,基本原则大体一致。尽管GPT 模型之间的相似性很高,但GPT-3 的性能仍超出了所有可能的预期。

  • 🦀 GPT-3.5 & ChatGPT发布
    2022年11月底,OpenAI进行了两次更新。11月29日,OpenAI发布了一个命名为“text-davinci-003”(文本-达芬奇-003”,通常称为GPT3.5)的新模式。11月30日,发布了它的第二个新功能:“对话”模式。它以对话方式进行交互,既能够做到回答问题,也能承认错误、质疑不正确的前提以及拒绝不恰当的请求。ChatGPT由效果更强大的GPT-3.5系列模型提供支持,可以用更接近人类的思考方式参与用户的查询过程。
    在这里插入图片描述

🐤 二、模型训练机制

  • 第1️⃣步:使用有监督的微调训练初始模型:人类训练师之间提供对话,其中一个扮演用户,另一个扮演ChatGPT中的Al助手。为了创建强化学习的奖励模型,需要收集比较数据,并使用收集到的数据调整GPT-3.5模型;

  • 第2️⃣步:模型会根据提示生成多个输出,训练师将ChatGPT编写的回复与人类的回答进行比较,并对它们的质量进行排名,以帮助强化机器的类人对话风格。奖励模型将自动执行最后一个训练阶段,使用排名后的数据训练;

  • 第3️⃣步:在最后一步使用近端策略优化进一步调整,这是OpenAl广泛使用的强化学习技术。
    在这里插入图片描述

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/337437.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android图形显示流程简介

注:本文缩写说明本文代码都是基于Android S一、概述本文将对从App画出一帧画面到这帧画面是如何到达屏幕并最终被人眼看到的这一过程进行简要分析,并将这其中涉及到的各个流程与其在systrace上的体现对应起来,期望最终能够让读者对Android系统…

Geek Uninstaller:向流氓软件火力全开,超良心的软件彻底卸载工具

写在前面 我们在电脑上安装软件,以及在使用软件的过程中,会产生一些程序文件、注册表项和临时文件等,用来支持软件的正常使用,都是正常现象。 但是,在卸载软件时,很多软件自身的卸载程序很不负责任&#…

内网渗透(十六)之内网信息收集-powershell基础知识

系列文章第一章节之基础知识篇 内网渗透(一)之基础知识-内网渗透介绍和概述 内网渗透(二)之基础知识-工作组介绍 内网渗透(三)之基础知识-域环境的介绍和优点 内网渗透(四)之基础知识-搭建域环境 内网渗透(五)之基础知识-Active Directory活动目录介绍和使用 内网渗透(六)之基…

chatGPT接入个人微信教程(国内可用)

chatGPT最近突然又大火起来了,而且这次不是一般的火,带有浓浓的商业气息火了。各个互联网大厂都开始进军了,感觉要来一场ChatGPT的军备竞赛一样,看看谁先获取国内的地盘。 作为吃瓜群众,我们也能个人使用ChatGPT&…

PCB设计中的正片和负片设计原理

PCB实际的最终目的 让需要导通的地方铺有铜,让不需要导通的地方没有铜 正片和负片的含义 参考:https://www.sohu.com/a/203224754_100012544,https://blog.csdn.net/weixin_42837669/article/details/110411765 查找资料中常见说法&#x…

力扣HOT100 (1-5)

目录 1.两数之和 2.两数相加 拓展到牛客的TOP101的BM11( 链表相加(二)) 3.无重复的最长子串(牛客BM92) 解法1: 解法2: 4.寻找两个正序数组的中位数 5.最长回文子串 1.两数之和 思路:用Has…

Centos7下安装单节点flink1.13

前置环境配置jdk可以参考博文:Centos7下安装hadoop单节点 。 如下图所示,这里我们将flink-1.13.0-bin-scala_2.12.tgz上传到如下路径: 解压安装文件到/opt/module下面 tar -zxvf flink-1.13.0-bin-scala_2.12.tgz -C /opt/module/将flink…

背包问题求方案数、具体方案

背包问题求方案数、具体方案01背包问题求体积恰好等于V的方案数完全背包问题求体积恰好等于V的方案数01背包问题求最优选法的方案数完全背包问题求最优选法的方案数01背包问题求具体方案01背包问题求体积恰好等于V的方案数 原题链接AcWing278. 数字组合 考虑状态表示&#x…

如何实现LFU缓存(最近最少频率使用)

目录 1.什么是LFU缓存? 2.LFU的使用场景有哪些? 3.LFU缓存的实现方式有哪些? 4.put/get 函数实现具体功能 1.什么是LFU缓存? LFU缓存是一个具有指定大小的缓存,随着添加元素的增加,达到容量的上限&…

为什么我们不再发明编程语言了?

上个世纪,数百种编程语言被发明出来,但是进入21世纪,当我们都进入互联网时代时,只剩那么寥寥几个了。 如果你翻一下TIOBE得编程语言排行榜,就会发现20年来,上蹿下跳的就是那几张老面孔:C , Java…

(片花)原汤话原食:从公共场所不知深浅的熊孩子聊聊边界感这事

点击文末“阅读原文”即可收听本期节目剪辑、音频 / 伊姐 编辑 / SandLiu 卷圈 监制 / 姝琦 文案 / 伊姐 产品统筹 / bobo 录音间 / 声湃轩天津站本期节目完整版请在各大音频平台搜索”原汤话原食“,找到原汤话原食栏目后订阅收听。刚刚过去的春节,许…

靓号管理(2)

表结构: 根据表结构的需求,在models.py中创建类。 主要是创建级别和默认级别 class PrettyNum(models):"""靓号表"""models models.CharField(verbose_name"手机号", max_length32)price models.IntegerFie…

MES系统智能工厂,搭上中国制造2025顺风车

MES在电子制造业中的应用日益广泛,越来越多的厂商已经购置或自行开发了MES,并将其作为“智能化工厂”。国内大大小小、各行各业都有上百个MES系统,还有很多的国外MES系统,怎么才能在MES系统公司中找到适合自己的MES?希…

数据库学习笔记(2)——workbench和SQL语言

1、workbench简介: 登录客户端的两种方法 在cmd中,只能通过sql语句控制数据库;workbench其实就是一种图形化数据库管理工具,在workbench中既可以通过sql语句控制数据库,也可以通过图形化界面控制数据库。通过workbenc…

LeetCode题解 动态规划(四):416 分割等和子集;1049 最后一块石头的重量 II

背包问题 下图将背包问题做了分类 其中之重点,是01背包,即一堆物件选哪样不选哪样放入背包里。难度在于,以前的状态转移,多只用考虑一个变量,比如爬楼梯的阶层,路径点的选择,这也是能用滚动数组…

ChatGPT 的未来挑战和风险

ChatGPT 是 OpenAI 开发的流行语言模型,彻底改变了我们与 AI 交互的方式。然而,随着像 ChatGPT 这样的语言模型的使用越来越广泛,重要的是要考虑它们未来可能面临的潜在风险和挑战。 一、数据质量和公平性 使用 ChatGPT 的主要风险之一是用于…

大数据-------元数据管理

一、什么是元数据 元数据就是描述数据的数据,它为企业的各类数据提供了上下文环境,使企业能够更好地了解、管理和使用数据。 现在数据对于公司的决策十分的重要,随着业务的发展,业务线会慢慢庞大起来,随着开发人员的…

九、STM32定时器讲解 - 通用定时器实战

目录 1.三种定时器的区别 2.通用定时器的特点描述 3.计数器模式 4.通用定时器工作过程 5.计数器时钟计算方法、 5.1定时器的输入时钟频率 - TimeClockFren 5.2计数器时钟计算方法 6.定时器相关寄存器 7.定时器库函数结构体 8.通用定时器函数 9.定时器中断配置过程 1…

图论算法:树上倍增法解决LCA问题

文章目录树上倍增法: LCA问题树上倍增法: LCA问题 树上倍增法用于求解LCA问题是一种非常有效的方法。 倍增是什么? 简单来说,倍增就是 1 2 4 8 16 … 2^k 可以发现倍增是呈 2的指数型递增的一类数据,和二分一样&…

黑马程序员 Linux 教程

目录Linux 简介不同应用领域主流操作系统Linux 系统历史Linux 系统版本Linux 安装安装方式网卡设置安装 SSH 连接工具使用 FinalShell 连接到 LinuxLinux 和 Windows 目录结构对比Linux 目录介绍Linux 常用命令Linux 命令初体验Linux 命令使用技巧Linux 命令格式文件目录操作命…