<论文>初代GPT长什么样?

news2025/1/23 4:01:14

一、摘要

        今天我们聊一下论文《Improving Language Understanding by Generative Pre-Training》以及它所提出来的预训练模型——GPT1。我们知道Bert在出道那会儿红极一时,但实际上GPT1比Bert还要早几个月就出道了,而且同样刷新了当时的多个任务记录。GPT1代也是GPT系列的开山之作,往后的GPT2、GPT3乃至如今的ChatGPT都是采用的这一套核心架构逻辑。

81bc025b2dd842e9a9aaca9d82fb4fe8.png

译文:

        自然语言理解包含诸多不同的任务,例如文本蕴含、问答、语义相似度评估以及文档分类等。尽管大量未标注的文本语料十分丰富,但用于学习这些特定任务的标注数据却很稀缺,这使得经过判别式训练的模型难以充分发挥性能。我们证明,通过在多样化的未标注文本语料上对语言模型进行生成式预训练,然后针对每个特定任务进行判别式微调,能够在这些任务上取得显著的成效。与以往的方法不同,我们在微调过程中利用了任务感知的输入转换,在对模型架构只需做极少改动的情况下实现了有效的迁移。我们在众多自然语言理解的基准测试中证明了我们方法的有效性。我们这种通用的、与任务无关的模型,其性能优于那些使用为各任务专门设计架构的经过判别式训练的模型,在所研究的 12 项任务中的 9 项任务上显著超越了现有技术水平。例如,在常识推理(故事完形填空测试)任务上我们实现了 8.9% 的绝对提升,在问答(RACE)任务上实现了 5.7% 的提升,在文本蕴含(MultiNLI)任务上实现了 1.5% 的提升。

二、模型创新点

b1c4dba0418c4fa4b5a9f1079bff1783.png

        GPT模型的训练过程包含两个阶段:第一阶段是在大规模文本语料上学习一个高容量的语言模型,也就是我们所熟知的“预训练”。随后是“微调”阶段,在这个阶段可以根据不同的下游任务来设置对应的模型微调策略,从而实现在特定任务上的高性能表现。

1、无监督生成式预训练

        给定一个无监督的Token语料库eq?U%20%3D%20%5Cleft%20%5C%7B%20u_%7B1%7D%2Cu_%7B2%7D%2C...%2Cu_%7Bn%7D%20%5Cright%20%5C%7D,作者使用标准的语言建模目标来最大化以下似然函数:

eq?L_%7B1%7D%28U%29%20%3D%20%5Csum_%7Bi%7DlogP%28u_%7Bi%7D%7Cu_%7Bi-k%7D%2C...%2Cu_%7Bi-1%7D%3B%5CTheta%20%29

        其中k是上下文窗口的大小,条件概率P由具有eq?%5CTheta参数的神经网络建模。这些参数使用随机梯度下降法进行训练。

        在论文的实验中,作者使用了多层 Transformer 解码器作为语言模型。该模型对输入的上下文Token应用多头自注意力操作,接着是位置感知的前馈层(position-wise feedforward layers),以生成目标Token上的输出分布:

eq?h_%7B0%7D%20%3D%20UW_%7BE%7D+W_%7BP%7D

eq?h_%7Bl%7D%20%3D%20transformer%5C_block%28h_%7Bl-1%7D%29%5Cforall%20i%20%5Cin%20%5B1%2Cn%5D

eq?P_%7Bu%7D%20%3D%20softmax%28h_%7Bn%7DW_%7BE%7D%5E%7BT%7D%29

        其中,eq?U%20%3D%20%5Cleft%20%5C%7B%20u_%7B-k%7D%2C...%2Cu_%7B-1%7D%20%5Cright%20%5C%7D是Token的上下文向量,eq?W_%7BE%7D是Token的embedding矩阵,eq?W_%7BP%7D是位置嵌入矩阵,n是层数。

2、有监督微调

        在使用无监督生成式预训练完成对模型的初步训练后,作者提出将参数适配到有监督的目标任务中能够进一步提升模型在目标任务上的性能。设有一个带标签的数据集C,其中每个实例都由一系列输入Tokens(eq?x%5E%7B1%7D%2C...%2Cx%5E%7Bm%7D)以及一个标签y组成。输入Tokens会通过预训练模型来获得最后一个 Transformer 块的激活值eq?h_%7Bl%7D%5E%7Bm%7D,然后将其输入到一个具有参数eq?W_%7By%7D的线性输出层来预测标签y:

eq?P%28y%7Cx%5E%7B1%7D%2C...%2Cx%5E%7Bm%7D%29%20%3D%20softmax%28h_%7Bl%7D%5E%7Bm%7DW_%7By%7D%29

        这就得到了以下要最大化的目标:

eq?L_%7B2%7D%28C%29%20%3D%20%5Csum_%7B%28x%2Cy%29%7DlogP%28y%7Cx%5E%7B1%7D%2C...%2Cx%5E%7Bm%7D%29

        此外,作者还发现将语言建模作为微调的辅助目标有助于学习,具体表现为:(a)提高有监督模型的泛化能力;(b)加速收敛。具体来说,优化以下目标(权重为 eq?%5Clambda):

eq?L_%7B3%7D%28C%29%20%3D%20L_%7B2%7D%28C%29%20*%20%5Clambda%20L_%7B1%7D%28C%29

        总体而言,在微调期间所需的额外参数仅有eq?W_%7By%7D以及分隔符Tokens的embedding。

三、总结

        Transformer模型编码器-解码器的架构在机器翻译领域取得了很好的成效,而GPT仅使用解码器堆叠的架构使得了该模型能够用于多个自然语言处理任务,进一步扩大了Transformer系列模型变体的应用范围。GPT论文中提到的预训练+微调的模型训练方式,也在后来成为了预训练模型和的默认训练范式。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2262557.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

flutter 快速实现侧边栏

首先我们写一个侧边栏工具类&#xff0c;示例如下&#xff1a; import package:flutter/material.dart;class Sidebar extends StatelessWidget {overrideWidget build(BuildContext context) {return Drawer(child: ListView(padding: EdgeInsets.zero,children: <Widget&…

Odoo:免费开源ERP的AI技术赋能出海企业电子商务应用介绍

概述 伴随电子商务的持续演进&#xff0c;客户对于便利性、速度以及个性化服务的期许急剧攀升。企业务必要探寻创新之途径&#xff0c;以强化自身运营&#xff0c;并优化购物体验。达成此目标的最为行之有效的方式之一&#xff0c;便是将 AI 呼叫助手融入您的电子商务平台。我们…

[SZ901]FPGA程序固化工具使用方法

工具为脚本形式&#xff0c;前期需进行vivado版本&#xff0c;下载器端口配置 1&#xff0c;编辑 【SZ901程序固化工具.bat】&#xff0c;设置软件版本 修改软件版本和安装路径 2&#xff0c;设置下载器端口&#xff08;SZ901->USER_TCL->FlashBurn_Config.tcl&#x…

详解Redis的String类型及相关命令

目录 SET GET MGET MSET SETNX SET和SETNX和SETXX对比 INCR INCRBY DECR DECRBY INCRBYFLOAT APPEND GETRANGE SETRANGE STRLEN 内部编码 SET 将 string 类型的 value 设置到 key 中。如果 key 之前存在&#xff0c;则覆盖&#xff0c;⽆论原来的数据类型是什么…

【时间之外】IT人求职和创业应知【71】-专利费

目录 2025 ICT产业趋势年会召开&#xff0c;2024年度ICT十大新闻重磅揭晓 海纳致远数字科技申请定制化插件驱动的数据分析专利 阿波罗智联取得语音数据的处理方法、装置、设备和存储介质专利 心勿贪&#xff0c;贵知足。 感谢所有打开这个页面的朋友。人生不如意&#xff0…

生态学研究中,森林生态系统的结构、功能与稳定性是核心研究

在生态学研究中&#xff0c;森林生态系统的结构、功能与稳定性是核心研究内容之一。这些方面不仅关系到森林动态变化和物种多样性&#xff0c;还直接影响森林提供的生态服务功能及其应对环境变化的能力。森林生态系统的结构主要包括物种组成、树种多样性、树木的空间分布与密度…

MySQL追梦旅途之慢查询分析建议

一、找到慢查询 查询是否开启慢查询记录 show variables like "%slow%";log_slow_admin_statements&#xff1a; 决定是否将慢管理语句&#xff08;如 ALTER TABLE 等&#xff09;记录到慢查询日志中。 log_slow_extra &#xff1a; MySQL 和 MariaDB 中的一个系…

“AI应急管理系统:未来城市安全的守护者

大家好&#xff0c;今天我想和大家聊聊一个特别酷的话题——AI应急管理系统。想象一下&#xff0c;当城市遇到突发事件&#xff0c;比如火灾、洪水或者地震&#xff0c;我们能有一个智能系统迅速响应&#xff0c;那该多好啊&#xff01;这就是AI应急管理系统的魅力所在。 首先&…

12.9深度学习_经典神经网络_MobileNet V1V2

一、MobileNet V1 1. 铭记历史 传统的卷积神经网络参数量大&#xff0c;导致预测时算力大&#xff0c;对于手机、嵌入式等设备来讲是不行的&#xff0c;例如VGG16大概有490M&#xff0c;ResNet的152层模型有644M&#xff0c;这种是不能在移动端部署的时候不但慢还暂用空间&am…

Apache Tomcat RCE 稳定复现 保姆级!(CVE-2024-50379)附视频+POC

原文链接 Apache Tomcat 最新RCE 稳定复现分析 保姆级&#xff01;&#xff01;&#xff01;附复现视频POC 前言 最近爆出 Apache Tomcat条件竞争导致的RCE&#xff0c;影响范围当然是巨大的&#xff0c;公司也及时收到了相关情报&#xff0c;于是老大让我复现&#xff0c;以…

二、Jmeter Web压测

Jmeter Web压测 一、JMeter简介二、安装JMeter三、使用JMeter进行Web压测的基本步骤 &#xff08;一&#xff09;创建测试计划&#xff08;二&#xff09;添加HTTP请求&#xff08;三&#xff09;添加监听器&#xff08;四&#xff09;运行测试 四、高级应用 &#xff08;一&am…

【Python爬虫系列】_032.Scrapy_全站爬取

课 程 推 荐我 的 个 人 主 页:👉👉 失心疯的个人主页 👈👈入 门 教 程 推 荐 :👉👉 Python零基础入门教程合集 👈👈虚 拟 环 境 搭 建 :👉👉 Python项目虚拟环境(超详细讲解) 👈👈PyQt5 系 列 教 程:👉👉 Python GUI(PyQt5)教程合集 👈👈

[LeetCode-Python版] 定长滑动窗口——灵神思路(1)

思路 把问题拆解成三步&#xff1a;入-更新-出。 入&#xff1a;下标为 i 的元素进入窗口&#xff0c;更新相关统计量。如果 i<k−1 则重复第一步。更新&#xff1a;更新答案。一般是更新最大值/最小值。出&#xff1a;下标为 i−(k-1) 的元素离开窗口&#xff0c;更新相关…

紧固件设计之——开槽长圆柱端紧定螺钉结构仿真APP

按照产品形态分类&#xff0c;紧固件通常包括以下12类&#xff1a;螺栓、螺柱、螺钉、螺母、自攻螺钉、木螺钉、垫圈、挡圈、销、铆钉、焊钉、组合件与连接副&#xff0c;是一类用于连接和固定各种构件和零部件的重要机械零件&#xff0c;可确保机械装置或设备结构的牢固和稳定…

el-tabs标签过多

tab-position&#xff1a;top情况 .el-tabs__nav-wrap{overflow-x: auto ;width: 86% ;margin-left: 10px ; } 效果&#xff1a; tab-position&#xff1a;left情况 .el-tabs__nav-wrap{overflow-x: auto ;height: 高度 ;margin-top: 10px ; } 效果&#xff1a; 注意&…

Docker日志与监控

一、引言 随着容器技术在生产环境中被广泛应用&#xff0c;Docker容器的日志管理与监控变得尤为重要。在现代应用程序中&#xff0c;容器化的应用通常是由多个容器组成的服务&#xff0c;而容器中的日志与监控则是确保服务健康运行、诊断问题和优化性能的关键。通过日志和监控…

期权VIX指数构建与择时应用

芝加哥期权交易 所CBOE的波动率指数VIX 是反映 S&P 500 指数未来 30 天预测期波动率的指标&#xff0c;由于预期波动率多用于表征市场情绪&#xff0c;因此 VIX 也被称为“ 恐慌指数”。 VIX指数计算 VIX 反映了市场情绪和投资者的风险偏好&#xff0c; 对于欧美市场而言…

Centos创建共享文件夹拉取文件

1.打开VMware程序&#xff0c;鼠标右检你的虚拟机&#xff0c;打开设置 2.点击选项——共享文件夹——总是启用 点击添加&#xff0c;设置你想要共享的文件夹在pc上的路径&#xff08;我这里已经添加过了就不加了&#xff09; 注意不要中文&#xff0c;建议用share&#xff0c…

CSS|12 display属性

display display显示的意思&#xff0c;用来进行 行内元素与块级元素之间的相互转换&#xff01;将隐藏的元素显示或者是将显示的元素进行隐藏。 display这个属性的取值&#xff1a; inline 行内 当我们将一个行内元素的display属性的值设置为inline以后&#xff0c;那么这个…

启动打印服务提示:Http端口已被使用,请修改

分销AV 10.0.0及其以上版本启动打印服务提示&#xff1a;Http端口已被使用&#xff0c;请修改。该如何处理&#xff1f; 一、先将打印服务退出,电脑桌面右下角任我打印服务操作退出。 二、到打印管理器安装目录\print下找到CONFIG文件&#xff0c;用记事本打开后&#xff0c;将…