[State of GPT] OpenAI讲座随笔记

news2025/7/14 6:54:55

原版：State of GPT
B站翻译版：【精校版】Andrej Karpathy微软Build大会精彩演讲： GPT状态和原理 - 解密OpenAI模型训练

1 GPT Training Pipeline图解

记录一下对这个图的理解：

在这里插入图片描述
大模型训练的四个阶段：

Pretraining 阶段，数据：低质量的大量文本，模型任务：Predict Next Token任务；这个阶段的模型更多是模型补全，不等于问答；最漫长的训练步骤，需要个把月，底层模型的选择与训练代价非常大了
SFT监督学习，Prompt问答对的数据，训练集采集的难度较大
Reward Modeling反馈式模型，判别式模型
RL learning 强化学习，在RM基础上继续强化

2 阶段一：Pretraining 阶段

预训练阶段的模型目标是预测下一步，
在这里插入图片描述
虽然不能跟问答一样，当然可以给一些提示，达到类似回答的效果：

3 阶段二：SFT监督学习

supervised finetuning

在这里插入图片描述
prompt 是人类指令，response 是标注员写得针对人类指令的示例回复；
高质量问答：

这个数据集整理难度蛮高，对于标注员来说需要高质量的回答

4 阶段三：Reward Modeling反馈式模型

在这里插入图片描述
模型采用的是分类判别式模型，
写一个判断字符串是否是回文字符串的 python 程序，
基于 SFT 模型生成多个回复，比如下面生成了三个回复后让标注员来对生成结果进行排名（排名难度较大，一个 prompt 的答案甚至可能需要几个小时来标注）
在这里插入图片描述

5:阶段四： RL learning 强化学习

基于上一步的 RM 模型进行强化学习训练，对于prompt之后补齐的文章进行给分，不太好的就负分，好的给高分
在这里插入图片描述

6 一些结论

RLHF强化学习相关：

【阶段三 RM】与【阶段四 RL】都是对结果进行特定的“强化”，不过RLHF 模型效果比较好，所以需要加上
karpathy 认为 RLHF 有用的原因是判别比生成更容易，让标注员去写一些 SFT 的 QA 数据对是比较难的，如果有一个 SFT 模型生成一些数据让标注员判断哪个更好就简单很多
RLHF 模型降低了熵，对输出文本的确定性更强，SFT 模型更善于给出有区分度的回答

其他还有：
SFT 相对容易；RLHF 很难，非常不稳定，很难训练，对初学者不友好，而且可能变化快，不推荐一般人来做

7 一些使用建议

讲座还说了一些写prompt的技巧

推理任务的Prompt方式：Chain of thought

两种方式：

few-shot CoT
就是根据QA给出一些推理逻辑，然后再问下一个问题，相当于有一个例子可以学习一下
zero-shot-CoT
最简单就是Prompt最后加一句话【 Let’s think step by step】

答案不满意，多生成几次

如果对答案不满意，可以多生成几次
在这里插入图片描述

反思答案，模型其实并不管生成的内容是否正确，所以你可以反问他，或者prompt的时候多加一句，让他自己检查

在这里插入图片描述

在这里插入图片描述

Constrained prompting，按规则模型输入、输出

在这里插入图片描述

参考材料：

State of GPT (OpenAI Karpathy 介绍 ChatGPT 原理及现状)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/693617.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

开发者活动：云原生的开源 AI 大模型基础设施

开发者活动：云原生的开源 AI 大模型基础设施

随着 ChatGPT 的火热，大语言模型和相关应用不断涌现。你是否了解大语言模型的技术细节？你是否曾经开发过大语言模型应用？如果你对大语言模型背后的基础设施感兴趣，那么7月8号，北京海淀中关村创业大街，云原生…

阅读更多...

chatgpt赋能python：Python调用关系图：了解你的代码依赖关系

chatgpt赋能python：Python调用关系图：了解你的代码依赖关系

Python调用关系图：了解你的代码依赖关系 Python是一种强大的编程语言，具有易读易写、开放源代码、多功能等优点。但是在开发大型项目时，代码会变得复杂，不同模块之间的依赖关系也会变得混乱。为了更好地了解你的代码依赖关系&…

阅读更多...

Openresty原理概念篇(九)LuaJIT分支和标准Lua有什么不同

Openresty原理概念篇(九)LuaJIT分支和标准Lua有什么不同

一 LuaJIT分支和标准Lua有什么不同 ① 背景 luajit官方标准lua官方 openresty自身维护的luajit 编译luajit ② LuaJIT 在 OpenResty 整体架构中的位置 ③ 标准 Lua 和 LuaJIT 的关系 ④ 为什么选择LuaJIT ⑤ lua特别之处 1）Lua 的下标从1开始 2) 使用…

阅读更多...

Java HelloWorld

Java HelloWorld

一、java命令 javac：将.java文件编译成.class文件 cp - 指定class搜索路径 d - 指定class文件生成目录 java: 执行.class或.jar文件 cp指定class搜索路径示例：java test1.app #表示执行./test1/app.class文件main函数 jar:打包生成.jar文件 v- 可视化输…

阅读更多...

星星之火，可以燎原——关于太赫兹的技术进展

星星之火，可以燎原——关于太赫兹的技术进展

盼望着，盼望着，5G来了，6G的脚步也近了。除了做好现有的技术工作，作为通信人还要不断关注新技术的发展，真心不易！无线数据链路的容量在过去十几年中呈指数级增长，但对更高数据速率的需求持续增加…

阅读更多...

MySQL数据库优化技术一

MySQL数据库优化技术一

纵论对mysql优化时一个综合性的技术，主要包括表的设计合理化(符合3NF)添加适当索引(index) [ 四种: 普通索引、主键索引、唯一索引unique、全文索引 ]分表技术( 水平分割、垂直分割 ) 水平分割根据一个标准重复定义几个字段值相同，表名称不同的表&…

阅读更多...

Android Jetpack Compose之ModalBottomSheet的使用

Android Jetpack Compose之ModalBottomSheet的使用

Android Jetpack Compose是一个现代化的UI工具包，让开发者以声明式的方式来构建Android应用。今天我们要讨论的是其中一个重要组件——ModalBottomSheet。 1. ModalBottomSheet简介 ModalBottomSheet是Jetpack Compose中的一个组件，它允许我们从屏幕底部…

阅读更多...

Hugging News #0626: 音频课程更新、在线体验 baichuan-7B 模型、ChatGLM2-6B 重磅发布

Hugging News #0626: 音频课程更新、在线体验 baichuan-7B 模型、ChatGLM2-6B 重磅发布

每一周，我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新，包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等，我们将其称之为「Hugging News」，本期 Hugging News 有哪些有趣的消息…

阅读更多...

第27章 uView 内置路由使用注意事项

第27章 uView 内置路由使用注意事项

1 uView 内置路由不支持通过“localhost”域名直接获取数据。在前后分离开发中“axios” 路由支持使用“localhost”域名或IP地址获取后端的数据，所以不管是IIS部署还是后端调试通过“axios” 路由都能获取数据，对于.NetCore的前后端分离开发来说“axio…

阅读更多...

【proxychains4】虚拟机内kali走主机代理

【proxychains4】虚拟机内kali走主机代理

文章目录简介安装配置使用测试简介 ProxyChains是Linux和其他Unix下的代理工具。它可以使任何程序通过代理上网， 允许TCP和DNS通过代理隧道， 支持HTTP、 SOCKS4和SOCKS5类型的代理服务器， 并且可配置多个代理。 ProxyChains通过一个用户定…

阅读更多...

数据结构--单链表的定义

数据结构--单链表的定义

数据结构–单链表的定义本节的学习目标： 单链表的定义（如何用代码实现） 优点:不要求大片连续空间，改变容量方便缺点:不可随机存取，要耗费一定空间存放指针代码实现 struct LNode {ElemType data; //数据域stru…

阅读更多...

vcruntime140.dll,丢失如何修复，vcruntime140.dll,丢失修复详细办法（有效的方法）

vcruntime140.dll,丢失如何修复，vcruntime140.dll,丢失修复详细办法（有效的方法）

今天打开photoshop软件的时候，突然间就打不开，电脑报错由于找不到vcruntime140.dll，无法继续执行此代码，然后我就把photoshop卸载了，再重新安装，依然还是报错。这个可怎么办？vcruntime140.dll如…

阅读更多...

C++【day1】

C++【day1】

练习定义一个命名空间Myspace，包含以下函数：将一个字符串中的所有单词进行反转，并输出反转后的结果。 #include <iostream> #include<iomanip>using namespace std;namespace Myspace { void reversal(string *str); }void My…

阅读更多...

CW32L083不同主频功耗测试

CW32L083不同主频功耗测试

本文主要介绍CWL083VCT6芯片在不同主频下的功耗测试方法和测试结果。 1.HSIOSC时钟 HSIOSC 时钟由内部 RC 振荡器产生，不需要外部电路，比 HSE 时钟的成本低，启动速度快。HSIOSC 时钟频率固定为 48MHz，频率精度低于 HSE 时钟。RC …

阅读更多...

《计算机系统与网络安全》第二章计算机网络基础与TCPIP协议安全性

《计算机系统与网络安全》第二章计算机网络基础与TCPIP协议安全性

🌷🍁 博主 libin9iOak带您 Go to New World.✨🍁 🦄 个人主页——libin9iOak的博客🎐 🐳 《面试题大全》文章图文并茂🦕生动形象🦖简单易学！欢迎大家来踩踩~&#x1f33…

阅读更多...

苹果app用发布证书打包后怎么装手机测试

苹果app用发布证书打包后怎么装手机测试

一、背景 iOS 的开发证书打包后可以通过爱思助手安装到手机上测试，但发布 (Production) 证书是不允许安装在手机上的。而在实际开发过程中，尽管通过开发证书测试过了，iOS生产包仍然可能会出现一些问题，需对生产包也进行测试。而…

阅读更多...

【Stable diffusion教程】AutoDL云部署超详细步骤说明【外婆都会】

【Stable diffusion教程】AutoDL云部署超详细步骤说明【外婆都会】

1 AutoDL云端部署操作流程 1.1 登录/注册官网：https://www.autodl.com/home，点击右上角登录/注册。此处我已经注册了如果你是学生的话，注册完之后，进入控制台，在右上角点一下学生认证，然后你就可以享受…

阅读更多...

23.6.24

23.6.24

1、grep：查找字符串 grep 字符串文件名 -w:按单词查找 -R:实现递归查找，主要用于路径是目录的情况 -i:不区分大小写 -n:显示行号 grep -w "^ubuntu" /etc/passwd ---->查找以ubuntu单词作为开头位置的所在行 grep -w "ubuntu$"…

阅读更多...

html简单实现b站评论回车发布

html简单实现b站评论回车发布

头像： <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport" content"widthdevice-wi…

阅读更多...

Linux系统：进程概念

Linux系统：进程概念

文章目录 1 操作系统1.1 概念1.2设计操作系统的目的 2进程2.1 进程是什么2.2 如何管理进程2.2查看进程2.3 程序中获取自己的pid2.4 创建一个进程2.5 进程状态2.6 进程优先级2.6.1为什么要有优先级2.6.2 什么是优先级2.6.3 linux下优先级的做法 2.8 其他概念 3进程地址空间3.1 初…

阅读更多...

推荐文章

最新文章