#Paper Reading# Improving Language Understanding by Generative Pre-Training

#Paper Reading# Improving Language Understanding by Generative Pre-Training

news2025/4/9 15:56:56

论文题目: Improving Language Understanding by Generative Pre-Training
论文地址: https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf
论文发表于: OpenAI 2018
论文所属单位: OpenAI

论文大体内容：
本文主要提出了GPT（Generative Pre-Training）模型，通过大模型pre-train + 子任务fine-tune的方式，在NLU系列任务中取得收益。

Motivation
相对Word2Vec通读全文的方式，本文的GPT模型另辟蹊径，采用通过上文预测下文的方式，更符合人的方式。

Contribution
①使用半监督学习的方法（大模型pre-train + 子任务fine-tune）进行NLU任务；
②在12个task中的9个，取得state-of-art的成绩；
GPT的参数量是1.17亿个参数；

1. GPT的主体思想是无监督学习NN大模型，然后监督学习对具体任务进行fine-tune；

2. 与Word2Vec不一样的点，这里大模型pre-train用的是前k个word预测当前word，不会使用后面的word；

3. 无监督学习pre-train大模型，这里使用了12层的transformer，优化Loss如下：

4. 监督学习fine-tune，优化Loss如下：

5. 整体Loss使用上面2部分Loss直接线性相加，其中λ=0.5；

6. 本文发现使用pre-train大模型作为supervise learning的辅助，能够提升泛化性和加速收敛；

7. 整体的模型架构图如下，激活函数用了GELU[2]：

实验
8. Dataset

9. 实验结果

参考资料
[1] https://gluebenchmark.com/leaderboard
[2] GELU https://paperswithcode.com/method/gelu

以上均为个人见解，因本人水平有限，如发现有所错漏，敬请指出，谢谢！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/349794.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【SQL server】视图和索引的创建与管理

【SQL server】视图和索引的创建与管理

本实验数据来源课参照一下本专栏文章：【SQL server】进行简单查询分组、连接查询子查询和汇总（含teaching数据库创建及实验拓展）_Deep-sea shark的博客-CSDN博客_sql 分组汇总在SSMS中创建视图视图是一张虚表，数据库中只存储视图的…

阅读更多...

关于git仓库的一些使用

关于git仓库的一些使用

配置多个ssh-key 1.生成不同的key名如github key ssh-keygen -t rsa -C "exampleemail.com" -f ~/.ssh/github_id-rsa如gitlab key ssh-keygen -t rsa -C "examlpe企业邮箱.com" -f ~/.ssh/gitlab_id-rsa创建完成后的 macbookMacBookProdeMacBook-Pr…

阅读更多...

STL——容器适配器、deque

STL——容器适配器、deque

一、容器适配器 1.适配器适配器是一种设计模式（设计模式是一套被反复使用的、多数人所知晓的、经过分类编目的、代码设计经验的总结），该种模式是将一个类的接口转换成客户希望的另外一个接口。 2.STL标准库中stack和queue的底层结构 stack…

阅读更多...

数据结构与算法（Java版） | 就让我们来看看几个实际编程中遇到的问题吧！

数据结构与算法（Java版） | 就让我们来看看几个实际编程中遇到的问题吧！

上一讲，我给大家简单介绍了一下数据结构，以及数据结构与算法之间的关系，照理来说，接下来我就应该要给大家详细介绍线性结构和非线性结构了，但是在此之前，我决定还是先带着大家看几个实际编程中遇到的问题&a…

阅读更多...

UE4 编写着色器以及各种宏的理解

UE4 编写着色器以及各种宏的理解

参考链接：如何为 UE4 添加全局着色器（Global Shaders） - Unreal Enginehttps://docs.unrealengine.com/5.1/zh-CN/adding-global-shaders-to-unreal-engine/如何为 UE4 添加全局着色器（Global Shaders） - Unreal Engin…

阅读更多...

睡眠影响寿命，这几个睡眠习惯赶紧改掉！

睡眠影响寿命，这几个睡眠习惯赶紧改掉！

我们知道，现在睡眠不足已经成为普遍问题，但你知道睡眠的时长会影响寿命吗？熬夜对身体不好，已是老生常谈。但睡得过早，也可能影响寿命！2021年《睡眠医学》杂志一项针对21个国家11万名参与者的研究中发现&…

阅读更多...

重生之我是赏金猎人-SRC漏洞挖掘(十)-某大厂从废弃sso登陆口到多思路fuzz获取各地高管信息

重生之我是赏金猎人-SRC漏洞挖掘(十)-某大厂从废弃sso登陆口到多思路fuzz获取各地高管信息

0x01 前言 https://github.com/J0o1ey/BountyHunterInChina 欢迎亲们点个star 作者Catm78sec 前期通过灯塔 ffuf oneforall 等工具组合进行子域名收集，得到目标站点，漏洞挖掘中多次踩坑成功get腾讯某后台 0x02 渗透日常——单点登录目标URL&…

阅读更多...

【vcpkg】cpprestsdk之64位编译链接及踩坑

【vcpkg】cpprestsdk之64位编译链接及踩坑

▒ 目录 ▒🛫 问题描述1️⃣ 多版本vs报错指定VS路径2️⃣ error LNK2001: 问题排查通过IDA打开lib文件，确认导出内容查看源码增加参数--editable，重新编译3️⃣ error LNK2001: 外部符号__imp_?close_...去除__imp_🛬 结论vcpkg…

阅读更多...

$浅谈估值模型：从Grinold Kroner(GK)模型看投资的本质$

浅谈估值模型：从Grinold Kroner(GK)模型看投资的本质

摘要及声明 1：本文主要介绍Grinold Kroner(GK)模型的运用，并以上证指数为例实现一个GK模型； 2：本文主要为理念的讲解，模型也是笔者自建，文中假设与观点是基于笔者对模型及数据的一孔之见，若有…

阅读更多...

buffer和cache的区别

buffer和cache的区别

一，计算机硬件组成计算机硬件组成：CPU，存储器，输入输出设备（I/O），其他（主板，电源等） CPU：运算器，控制器存储器：内部存储…

阅读更多...

蓝桥云课-声网编程赛（声网编程竞赛7月专场）题解

蓝桥云课-声网编程赛（声网编程竞赛7月专场）题解

比赛题目快速链接：https://www.lanqiao.cn/contests/lqENT02/challenges/ 让时钟转起来（考点：css：transform） // index.js function main() {// 题解前理解一个东西：// 时针每过一小时，转30 原…

阅读更多...

博客等级说明

博客等级说明

CSDN 博客等级是按照用户的博客积分数量进行的设定，为 Lv1 至 Lv10 共 10 个等级，不同的等级创作者可以享受到不同的权益待遇。例如，皮肤奖励、自定义域名、客服优先处理、自定义文章标签等特权。您需要提高博客积分进一步提升等级&#xff0…

阅读更多...

矩阵理论复习（十二）

矩阵理论复习（十二）

已知方阵A的不变因子： 求谱半径求矩阵级数判断矩阵幂级数的收敛性若矩阵B的某个算子范数小于1，则I-B可逆。矩阵分析任何相容矩阵范数都存在与之相容的向量范数。盖尔圆盘定理一的证明椭圆范数的证明若||.||是Cm上的向量范数，A为…

阅读更多...

单元测试工具——JUnit的使用

单元测试工具——JUnit的使用

⭐️前言⭐️ 本篇文章主要介绍单元测试工具JUnit的使用。 🍉欢迎点赞 👍 收藏 ⭐留言评论 📝私信必回哟😁 🍉博主将持续更新学习记录收获，友友们有任何问题可以在评论区留言 🍉博客中涉及源码…

阅读更多...

C++11--lambda表达式

C++11--lambda表达式

目录 lambda表达式的概念 lambda表达式语法 lambda表达式的书写格式捕捉列表参数列表 mutable 返回值类型函数体 lambda表达式交换两个数函数对象与lambda表达式 lambda表达式的概念 lambda表达式是一个匿名函数它能让代码更加地简洁提高了代码可读性首先定义…

阅读更多...

2021年欧空局10米土地覆盖数据（分省/分市）

2021年欧空局10米土地覆盖数据（分省/分市）

土地覆盖数据是我们平时最常用的地理数据之一，土地覆盖数据的来源也有很多种，之前我们介绍共过两个的30米精度的土地覆盖数据，分别为GlobeLand30土地覆盖数据和CLCD土地覆盖数据，（可查看之前推送的文章）&am…

阅读更多...

佳能镜头EOS系统EF协议逆向工程（三）解码算法

佳能镜头EOS系统EF协议逆向工程（三）解码算法

目录数据结构解码算法解码效果这篇文章基于上两篇文章继续， 佳能镜头EOS系统EF协议逆向工程（一）转接环电路设计_佳能ef自动对焦协议_岬淢箫声的博客-CSDN博客本文属于专栏——工业相机。此专栏首先提供我人工翻译的法语文档部分&…

阅读更多...

$Python解题 - CSDN周赛第29期 - 争抢糖豆$

Python解题 - CSDN周赛第29期 - 争抢糖豆

本期问哥是志在必得，这本算法书我已经觊觎许久，而之前两次因为种种原因未能如愿。因此，问哥这几天花了不少时间，把所有之前在每日一练做过的题目重新梳理了一遍。苦心人，天不负，感谢官方大大！ 第…

阅读更多...

ChatGPT 人工智能革命从实验室走入公众生活

ChatGPT 人工智能革命从实验室走入公众生活

11 月底，人工智能研究实验室OpenAI 发布了 ChatGPT 聊天机器人首个测试版本，这是一款基于人工智能的新型聊天机器人，可以与人类进行对话，经过测试后，新款机器人便踏上了社交网站之旅，尤其是在推特平台上&am…

阅读更多...

机器学习+西瓜书笔记第2章【贝叶斯分类器】

机器学习+西瓜书笔记第2章【贝叶斯分类器】

机器学习笔记第2章【贝叶斯分类器】一、贝叶斯决策论1.相关知识补充2.生成模型与判别模型贝叶斯公式： 实际上，分母为全概率公式，分子为联合概率。在机器学习中，更常见的形式为贝叶斯公式的作用在于将P(B|A)的估计转化为估计P(A…

阅读更多...

推荐文章

最新文章