Re45:读论文 GPT-1 Improving Language Understanding by Generative Pre-Training

news2024/11/18 1:48:53

诸神缄默不语-个人CSDN博文目录
诸神缄默不语的论文阅读笔记和分类

论文全名:Improving Language Understanding by Generative Pre-Training
论文下载地址:https://www.mikecaptain.com/resources/pdf/GPT-1.pdf

本文是2018年OpenAI的工作,是初代GPT的原始论文。

先用无监督数据预训练语言模型(Transformer decoder),再在有监督数据上微调(加一层prediction head,同时优化语言模型和有监督任务的损失函数)
在这里插入图片描述

文章目录

  • 1. 简介
  • 2. GPT-1
    • 1. 无监督预训练语言模型
    • 2. 微调
  • 3. 实验
    • 1. 数据集
    • 2. 下游任务指标
    • 3. 模型分析

1. 简介

NLU任务包括textual entailment, question answering, semantic similarity assessment, and document classification等子任务,本文测试了NLI、QA、语义相似度和文本分类4个任务。
有监督数据稀少,本文的解决方案是在语言模型上用海量无标签数据上进行generative pre-training,然后再在特定子任务上discriminative fine-tuning。
(算半监督学习)

普遍的使用无监督方法来学习语言学知识的方法,是构建预训练词嵌入来提升NLP任务的效果,这种做法有两个问题:1. 在学习文本表征中使用什么优化目标对迁移最有效,不知道。至今没有绝对优秀的方法。2. 如何利用文本表征最有效,不知道。

2. GPT-1

1. 无监督预训练语言模型

标准语言模型目标,最大化文本的似然:
在这里插入图片描述

k k k是上下文窗口尺寸,条件概率 P P P,神经网络的参数 Θ \Theta Θ

本文用多层Transofmer decoder1(多头自注意力机制+position-wise前馈神经网络生成target token上的输出分布):
在这里插入图片描述
U U U是token, n n n是层数, W e W_e We是token嵌入矩阵, W p W_p Wp是position embedding矩阵

Transformer相比LSTM的优势体验在对长文本的处理上

2. 微调

通过输入(每个任务被转变成不同形式的输入,见figure 1)得到表征,喂进线性输出层来预测 y y y
在这里插入图片描述

新的优化目标:
在这里插入图片描述

事实上是将两个优化目标加起来:
在这里插入图片描述

3. 实验

1. 数据集

  1. 上游预训练数据:BooksCorpus和1B Word Benchmark
  2. 下游微调数据
    在这里插入图片描述

2. 下游任务指标

  1. NLI任务的实验结果在这里插入图片描述
  2. QA和常识推理的实验结果在这里插入图片描述
  3. 语义相似度和文本分类的实验结果在这里插入图片描述

3. 模型分析

  1. 层数对微调结果的影响(答案是越多越好)和预训练更新次数对zero-shot表现的影响在这里插入图片描述
    (数值是经规范化后得到的)
  2. ablation study
    在这里插入图片描述

  1. Generating Wikipedia by Summarizing Long Sequences ↩︎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/972312.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

智慧班牌全套源代码 智慧班牌人脸识别云平台源码

智慧校园云平台电子班牌系统源码,系统架构:Javavue2springbootMySQL elmentuiQuartzjpajwt 智慧校园建设在近年来已经形成主流,不少地区等级的学校都在不同程度地进行校园信息化建设优化,比如把人脸识别门禁应用到校门口、宿舍门口…

网站edge -- 油猴 -> IDM

一、百度网盘限速 未解决 软件:IDM 安装路径: 1.1如果:edge 出问题打不开其他网站, 解决方法: 以管理员的身份,右击载这个软件,就好了 1.2使用这个软件 应该是右击这个软件 以管理员的身…

VMware设置,降低Win11系统内存的使用

编辑虚拟机设置 设置处理器和内存,建议内存不大于4096 设置常规,选择客户机操作系统为Windows 高级选项,设置固件类型为UEFI

K8S 基础概念学习

1.K8S 通过Deployment 实现滚动发布,比如左边的ReplicatSet 的 pod 中 是V1版本的镜像,Deployment通过 再启动一个 ReplicatSet 中启动 pod中 镜像就是V2 2.每个pod 中都有一个pause 容器,他会连接本pod中的其他容器,实现互通。p…

Java 几个基本数据类型长度

对 Java 来说,我们通常会有下面几个基本数据类型。 需要了解的一个定义是,一个字节(byte) 是 8 位(Bit)。 针对 Java 的所有数据类型,最小的是 1 个字节,最多的是 8 个字节 数据长…

【Windows操作系统】Windows10升级时报VirtualBox错误导致升级失败

【背景】 明明已经卸载了VirtualBox,但是Win10升级时依然报错:VirtualBox阻止升级导致升级失败。 【分析】 说明电脑中存在VirtualBox残余,但是这些参与虽然能被升级程序检测到却不能在卸载VirtualBox时自动关联删除,需要找到…

Python实现Word、Excel、PPT批量转为PDF

今天看见了一个有意思的脚本Python批量实现Word、EXCLE、PPT转PDF文件。 因为我平时word用的比较的多,所以深有体会,具体怎么实现的我们就不讨论了,因为这个去学了也没什么提升,不然也不会当作脚本了。这里我将其放入了pyzjr库中…

如何移除 ONLYOFFICE 中的插件

如果您需要移除 ONLYOFFICE 编辑器中的某个甚至所有的插件,本文会向您介绍如何操作。如要详细了解,请阅读本文。 为什么会想移除插件 ONLYOFFICE 用户想知道如何删除插件,隐私问题是主要原因之一。有些插件(如照片编辑器&#xf…

C++零碎记录(四)

6. 深拷贝与浅拷贝 ① 浅拷贝:简单的赋值拷贝操作。 ② 深拷贝:在堆区重新申请空间,进行拷贝操作。 ③ 浅拷贝,如下图所示,带来的问题就是堆区的内存重复释放。 ④ 深拷贝,如下图所示,在堆区…

Cyber RT学习笔记---7、Component组件认知与实践

7、Component组件认知与实践 前言 本文是对Cyber RT的学习记录,文章可能存在不严谨、不完善、有缺漏的部分,还请大家多多指出。 课程地址: https://apollo.baidu.com/community/course/outline/329?activeId10200 更多还请参考: [1] Apollo星火计划学习笔记——第…

Latex引用总结-图片、公式、表格、参考文献

所有的引用思路都一样,在定义的时候加一个标签,引用的时候填那个标签即可。 其中图片、公式、表格的引用代码一摸一样,都是label{}加ref{},参考文献稍不同。 前提引用包: \usepackage{hyperref} \hypersetup{hypert…

CSS中如何实现文字跑马灯效果?

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐ 跑马灯⭐ 写在最后 ⭐ 专栏简介 前端入门之旅:探索Web开发的奇妙世界 记得点击上方或者右侧链接订阅本专栏哦 几何带你启航前端之旅 欢迎来到前端入门之旅!这个专栏是为那些对Web开发感兴趣、刚刚踏入前端领域的朋…

mac常见问题(三) macbook键盘溅上水怎么办?

多朋友在使用mac的时候难免会发生一些小意外,例如说本期要为大家说的macbook键盘溅上水或者其他的液体怎么办?不清楚的同学赶快get这项技能吧! 如果你不小心给你的MacBook键盘上溅了水或者其他液体,你需要超级快的把表面的液体清理…

远程访问公司局域网怎么设置

远程访问公司 LAN(局域网)计算机需要设置安全的远程访问方法,以确保数据的机密性和完整性。远程访问公司局域网计算机的步骤如下: 1、获得许可 确保您拥有远程访问公司 LAN 资源所需的权限和授权。这可能需要 IT 或网络管理员的…

SpringMVC基础入门及工作流程---全方面详细介绍

一,SpringMVC概念 Spring MVC是一个基于Java的实现了MVC设计模式的请求驱动类型的轻量级Web框架,通过把Model,View,Controller分离,将web层进行职责解耦,把复杂的web应用分成逻辑清晰的几部分,简…

【Seata】02 - Seata AT 模式 Demo 调用流程分析

文章目录 前言参考目录版本说明测试 Demo0、Demo XA / AT 模式切换1、模块说明2、调用逻辑说明3、分析流程说明4、注意事项 Seata AT 模式 Commit 调用流程分析1、调用流程图2、全局事务开启 Global Begin3、分支注册4、UndoLog5、全局事务提交 Commit6、分支提交处理 Seata AT…

KC705开发板——MGT IBERT测试记录

本文介绍使用KC705开发板进行MGT的IBERT测试。 KC705开发板 KC705开发板的图片如下图所示。FPGA芯片型号为XC7K325T-2FFG900C。 MGT MGT是 Multi-Gigabit Transceiver的缩写,是Multi-Gigabit Serializer/Deserializer (SERDES)的别称。MGT包含GTP、GTX、GTH、G…

通过 Keycloak 结合 OAuth2.0协议进行 Amazon API Gateway 鉴权

1. 简介 本文介绍了如何通过 Keycloak,并结合 Amazon API Gateway 内置的授权功能,完成对 Amazon 资源请求的鉴权过程。API Gateway 帮助开发者安全的的创建、发布、维护并管理 API 的访问。在中国区,由于Cognito 仍未上线,因此使…

windows 不能ping通虚拟机问题

先查看windows网卡 查看虚拟机种 对应VMnet8种的 nat (我用的是这种连接方式)设置 问题是不在同一个网段,修改windows VMnet8网卡的配置 保证网关、网段是一样的 现在ping问题解决,也能windows远程连接虚拟机

vue3请求成功后实现类似打字效果输出

要在 Vue 3 中实现请求成功后的类似打字效果输出,您可以使用 ​axios​ 或其他适合您的方法来发起异步请求。在请求成功后,您可以将返回的文本存储在响应式对象中,并使用一段时间间隔逐个字符地将文本输出到界面上。下面是一个示例代码&#…