【无监督+自然语言】GPT，GPT-2，GPT-3 方法概述（Generative Pre-Traning）

【无监督+自然语言】GPT，GPT-2，GPT-3 方法概述（Generative Pre-Traning）

news2025/4/6 8:17:27

主要参考

【GPT，GPT-2，GPT-3 论文精读【李沐论文精读】-2022.03.04】 https://www.bilibili.com/video/BV1AF411b7xQ/
大语言模型综述： http://t.csdnimg.cn/4obR4
在这里插入图片描述

发展节点

2017.06 Transformer: 所有大语言模型LLMs的基础结构 , Attention is all you need !
2018.06 GPT: 只用Transformer解码器,只预测未来：Improving language understanding by Generative Pre-Traning
2018.10 BERT：对标GPT，编解码结构，完型填空
2019.02 GPT-2: 更大的数据集： Language Models are Unsupervised Multitast Learner
2020.05 GPT-3: 相对于GPT-2数据和模型都大了100倍（极少数公司能做）
GPT-3:Language models are few-shot learners

一、GPT-1: 使用大量没有标记文本无监督训练（Generative Pre-Traning ）

论文：利用生成式预训练来提高自然语言理解
Improving language understanding by Generative Pre-Traning

二阶段训练模型：大量无标记文本 + 人工标注任务

通过在大规模无标签文本语料库上进行生成式预训练，并在每个特定任务上进行判别式微调，可以在多种自然语言理解任务上获得大幅度的提升

结构上，只用Transformer的编码器预测（预测未来）见下图左侧
损失函数上是与bert不同的
通过在大规模无标签文本语料库上进行生成式预训练，并在每个特定任务上进行判别式微调，可以在多种自然语言理解任务上获得大幅度的提升

结构与应用（预训练后，在有标注文本训练下流任务）

开始符号、结束符号、终止符
下图（左），表示Transformer架构和训练目标。
下图(右)，表示微调不同任务的输入转换示意。将所有结构化输入转换为由我们的预训练模型处理的标记序列，然后是线性+softmax 层。
其中，右侧绿色transformer块表示第一阶段得到的预训练模型
在这里插入图片描述

“Extract” ：指从模型的某个部分提取信息或特征的过程。模型会处理文本，提取和学习复杂的特征和模式。这个过程可以被视作是在“抽取”输入文本的语义和句法信息
Delim”则可能是“Delimiter”的缩写，指的是分隔符。在自然语言处理任务中，分隔符用于区分文本中的不同部分
分隔符可以用来明确哪部分是前提（Premise），哪部分是假设（Hypothesis）。在处理输入数据时，模型会识别这些分隔符，以便正确地解析和处理各部分信息。

二、GPT-2: 语言模型是无监督的多任务学习器

论文：Language Models are Unsupervised Multitast Learner

参数15亿，Bert 1.3亿，参数相差大，但是性能差别不大，主要创新点是zero-shot:
无监督训练后，不微调下游任务——没有任何参数或架构修改

输入更像自然语言
语言翻译：
(translate to french, english text, french text)
阅读理解
(answer the question, document, question, answer)

三、GPT-3 : 基于gpt-2,细节不明（无监督训练，不需要参数更新就能学会各种任务）

20.05.Language models are few-shot learners

不用再进行模型参数更新，就能直接适应下游任务

零样本、少样本学习的关系

zero-shot:零样本：表示不训练，也不给示例，直接说一句功能（例如翻译英文到中文）
one-shot :一张范例：表示给出一个范例
few-show:给出多个范例
在这里插入图片描述

模型大小与少样本学习性能关系：少样本、零样本学习的准确率关系

实验表明：GPT3参数量扩大几百倍后，少量样本（few-shot）的学习，**准确率从20%左右到了50%**多

在这里插入图片描述

8个不同大小的模型

模型的大小、架构和学习超参数（令牌中的批量大小和学习率）。所有模型都训练了总共 300 亿个令牌。
在这里插入图片描述

用的数据集

在这里插入图片描述

附录

作者信息

GPT-1

在这里插入图片描述

GPT-2

在这里插入图片描述

GPT-3

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1616195.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

windows服务器iis系统部署https

windows服务器iis系统部署https

源地址：https://www.ctvol.com/seoomethods/1418785.html https是网页常用的一种网络安全机制，在部署其他服务器https，我们在前面文章中已经提到过。下面我们来说说windows服务器iis系统部署https步骤： 1、到服务提供商下载所需…

阅读更多...

WPF2022终结版系列课程笔记 1 WPF 基本布局

WPF2022终结版系列课程笔记 1 WPF 基本布局

本笔记为B站微软系列技术教程 WPF项目实战合集(2022终结版) 项目记录 WPF 基本布局 WPF布局原则一个窗口中只能包含一个元素不应显示设置元素尺寸不应使用坐标设置元素的位置可以嵌套布局容器 WPF布局容器 StackPanel: 水平或垂直排列元素、Orientation属性分别: Hor…

阅读更多...

森林消防装备：高压消防接力水泵/恒峰智慧科技

森林消防装备：高压消防接力水泵/恒峰智慧科技

在广袤无垠的森林中，每一份绿色都是大自然赋予我们的宝贵财富。然而，这些美丽的绿色也可能因为一场突如其来的火灾而被瞬间吞噬。为了保护这片生命的绿洲，我们需要一种高效、可靠的消防装备——高压消防接力水泵。这款森林消防装备采用本田汽…

阅读更多...

Hadoop3：HDFS、YARN、MapReduce三部分的架构概述及三者间关系（Hadoop入门必须记住的内容）

Hadoop3：HDFS、YARN、MapReduce三部分的架构概述及三者间关系（Hadoop入门必须记住的内容）

一、HDFS架构概述 Hadoop Distributed File System，简称HDFS，是一个分布式文件系统。 1）NameNode(nn)：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件…

阅读更多...

Linux 系统IO函数之stat、lstat函数

Linux 系统IO函数之stat、lstat函数

1、stat函数要点： int stat(const char *pathname, struct stat *statbuf); 作用：查看文件的信息 man 2 stat/return value1、stat结构体： 2、sturct stat 结构体中 st_mode 的含义（文件的类型和存取的权限）: st_mo…

阅读更多...

go语言通过TCP协议实现聊天室样例

go语言通过TCP协议实现聊天室样例

1、服务端： package mainimport ("fmt""net""sync" )type ChatServer struct {clients map[string]net.ConnclientsMux sync.Mutex }func NewChatServer() *ChatServer {return &ChatServer{clients: make(map[string]net.Co…

阅读更多...

JS-47-Node.js06-fs模块-读写文件

JS-47-Node.js06-fs模块-读写文件

Node.js内置的fs模块就是文件系统模块，负责读写文件。和所有其它JavaScript模块不同的是，fs模块同时提供了异步和同步的方法。一、回顾：异步方法VS同步方法 1-1、异步方法因为JavaScript的单线程模型，执行IO操作时&#xff…

阅读更多...

iStat Menus for Mac：强大的系统监控工具

iStat Menus for Mac：强大的系统监控工具

iStat Menus for Mac是一款功能强大的系统监控工具，专为Mac用户设计，旨在帮助用户全面了解电脑的运行状态，提高电脑的性能和稳定性。 iStat Menus for Mac v6.73 (1239)中文版下载该软件可以实时监测CPU使用率、内存占用、网络速度、硬盘活动…

阅读更多...

华为P系列“砍了”，三角美学系列全新登场

华为P系列“砍了”，三角美学系列全新登场

2021 年 10 月，Intel 正式带来了颠覆以往的第 12 代酷睿「混合架构」 CPU。不知道是良心发现还是为了弥补 11 代酷睿过于拉胯表现，Intel 终于把狠活儿都用在了这代。全新 Intel 7 工艺、全新架构、单核与多核性能大幅提升，让大家十分默契…

阅读更多...

excel文件可以直接转换成图片格式吗？excel文件怎样才能快速转换成图片？excel文件快速转换成图片的方法

excel文件可以直接转换成图片格式吗？excel文件怎样才能快速转换成图片？excel文件快速转换成图片的方法

一，excel文件转图片的必要性 1，excel文件转图片可以提高信息传播的便捷性。在日常工作中，我们可能需要将表格数据分享给同事或客户，但由于Excel文件的复杂性，对方可能需要安装相应的软件才能查看。而如果将Excel文件转…

阅读更多...

【多态】底层原理

【多态】底层原理

博主首页： 有趣的中国人专栏首页： C进阶本篇文章主要讲解多态底层原理的相关内容 1. 多态原理 1.1 虚函数表先看一下这段代码，计算一下sizeof(Base)是多少： class Base { public:virtual void Func1(){cout << &quo…

阅读更多...

Facebook的区块链应用深度分析

Facebook的区块链应用深度分析

去中心化身份验证的意义在当今数字化社会中，身份验证的重要性不言而喻。对于Facebook这样的大型社交媒体平台来说，确保用户的身份真实性和数据的安全性是至关重要的。传统的中心化身份验证方式存在一定的安全风险和可信性问题，而去中心化身…

阅读更多...

成电少年学fpga培训就业班怎么样

成电少年学fpga培训就业班怎么样

成电少年学是专注做FPGA培训的，以就业为导向，学习FPGA还是很有前途的，如果你是像电气、通信、自动化、物联网、集成电路这类专业，又不是名校高学历的，确实有必要可以考虑下校外培训机构。找工作多少会遇到一些问题&…

阅读更多...

机器学习-10-神经网络python实现-从零开始

机器学习-10-神经网络python实现-从零开始

文章目录总结参考本门课程的目标机器学习定义从零构建神经网络手写数据集MNIST介绍代码读取数据集MNIST神经网络实现测试手写的图片带有反向查询的神经网络实现总结本系列是机器学习课程的系列课程，主要介绍基于python实现神经网络。参考 BP神经网络及pytho…

阅读更多...

VUE 项目自动按需导入

VUE 项目自动按需导入

你是否有这样的苦恼，每个.vue都需要导入所需的vue各个方法 unplugin-auto-import 库 Vite、Webpack和Rollup的按需自动导入API 本章提供Vite、Webpack中使用说明 1. 安装 npm i -D unplugin-auto-import 2. config.js 配置文件内追加配置 2.1 Vite // vite.conf…

阅读更多...

计算机网络—— book

计算机网络—— book

文章目录一、概述1.互联网的核心部分1．电路交换的主要特点2．分组交换的主要特点 2.计算机网络的性能1．速率2．带宽3．吞吐量4．时延5．利用率 3.计算机网络体系结构协议与划分层次具有五层协议的体…

阅读更多...

达芬奇调色:色彩理论入门

达芬奇调色:色彩理论入门

写在前面整理一些达芬奇调色的笔记博文内容涉及： 一级调色是什么，以及调色素材格式 log，raw，rec709 简单认知理解不足小伙伴帮忙指正不必太纠结于当下，也不必太忧虑未来，当你经历过一些事情的时候&#…

阅读更多...

四、【易 AI】模型渲染与透明背景

四、【易 AI】模型渲染与透明背景

美恶相饰，命曰复周，物极则反，命曰环流。 ——《鹖冠子环流》一、渲染帧率以上两种移植方式，均可正常渲染出模型，但是画面是静止的，是因为没有调用 update 方法来刷新窗口渲染内容，我们可以通过 QTimer 来控制渲染帧率，以 MyOpenGLWindow 为例，做以下修改， #ifnde…

阅读更多...

GHO文件安装到Vmware的两种姿势

GHO文件安装到Vmware的两种姿势

1、使用 Ghost11.5.1.2269 将gho转换为vmdk文件(虚拟机硬盘)，Vmware新建虚拟机自定义配置，然后添加已有的虚拟硬盘文件。注意ghost的版本，如果你是用Ghost11.5备份的gho文件，再用Ghost12把gho文件转换为vmdk，则vmdk文…

阅读更多...

C++及QT的线程学习

C++及QT的线程学习

目录一. 线程学习二. 学习线程当中，得到的未知。 1. 了解以下MainWindow和main的关系 2. []()匿名函数有函数体，没有函数名. 3. join和detach都是用来管理线程的生命周期的，它们的区别在于线程结束和资源的回收。 4. operator()() 仿…

阅读更多...

推荐文章

最新文章