#Paper Reading# Improving Language Understanding by Generative Pre-Training

news2024/12/24 8:16:24

论文题目: Improving Language Understanding by Generative Pre-Training
论文地址: https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf
论文发表于: OpenAI 2018
论文所属单位: OpenAI

论文大体内容:
本文主要提出了GPT(Generative Pre-Training)模型,通过大模型pre-train + 子任务fine-tune的方式,在NLU系列任务中取得收益。

Motivation
相对Word2Vec通读全文的方式,本文的GPT模型另辟蹊径,采用通过上文预测下文的方式,更符合人的方式。

Contribution
①使用半监督学习的方法(大模型pre-train + 子任务fine-tune)进行NLU任务;
②在12个task中的9个,取得state-of-art的成绩;
GPT的参数量是1.17亿个参数;


1. GPT的主体思想是无监督学习NN大模型,然后监督学习对具体任务进行fine-tune;

2. 与Word2Vec不一样的点,这里大模型pre-train用的是前k个word预测当前word,不会使用后面的word;

3. 无监督学习pre-train大模型,这里使用了12层的transformer,优化Loss如下:

 

4. 监督学习fine-tune,优化Loss如下:

5. 整体Loss使用上面2部分Loss直接线性相加,其中λ=0.5;

6. 本文发现使用pre-train大模型作为supervise learning的辅助,能够提升泛化性和加速收敛;

7. 整体的模型架构图如下,激活函数用了GELU[2]:


实验
8. Dataset

9. 实验结果

 

 
参考资料
[1] https://gluebenchmark.com/leaderboard
[2] GELU https://paperswithcode.com/method/gelu


以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/349794.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【SQL server】视图和索引的创建与管理

本实验数据来源课参照一下本专栏文章:【SQL server】进行简单查询分组、连接查询子查询和汇总(含teaching数据库创建及实验拓展)_Deep-sea shark的博客-CSDN博客_sql 分组汇总在SSMS中创建视图视图是一张虚表,数据库中只存储视图的…

关于git仓库的一些使用

配置多个ssh-key 1.生成不同的key名 如github key ssh-keygen -t rsa -C "exampleemail.com" -f ~/.ssh/github_id-rsa如gitlab key ssh-keygen -t rsa -C "examlpe企业邮箱.com" -f ~/.ssh/gitlab_id-rsa创建完成后的 macbookMacBookProdeMacBook-Pr…

STL——容器适配器、deque

一、容器适配器 1.适配器 适配器是一种设计模式(设计模式是一套被反复使用的、多数人所知晓的、经过分类编目的、代码设计经验的总结),该种模式是将一个类的接口转换成客户希望的另外一个接口。 2.STL标准库中stack和queue的底层结构 stack…

数据结构与算法(Java版) | 就让我们来看看几个实际编程中遇到的问题吧!

上一讲,我给大家简单介绍了一下数据结构,以及数据结构与算法之间的关系,照理来说,接下来我就应该要给大家详细介绍线性结构和非线性结构了,但是在此之前,我决定还是先带着大家看几个实际编程中遇到的问题&a…

UE4 编写着色器以及各种宏的理解

参考链接:如何为 UE4 添加全局着色器(Global Shaders) - Unreal Enginehttps://docs.unrealengine.com/5.1/zh-CN/adding-global-shaders-to-unreal-engine/如何为 UE4 添加全局着色器(Global Shaders) - Unreal Engin…

睡眠影响寿命,这几个睡眠习惯赶紧改掉!

我们知道,现在睡眠不足已经成为普遍问题,但你知道睡眠的时长会影响寿命吗?熬夜对身体不好,已是老生常谈。但睡得过早,也可能影响寿命!2021年《睡眠医学》杂志一项针对21个国家11万名参与者的研究中发现&…

重生之我是赏金猎人-SRC漏洞挖掘(十)-某大厂从废弃sso登陆口到多思路fuzz获取各地高管信息

0x01 前言 https://github.com/J0o1ey/BountyHunterInChina 欢迎亲们点个star 作者Catm78sec 前期通过灯塔 ffuf oneforall 等工具组合进行子域名收集,得到目标站点,漏洞挖掘中多次踩坑成功get腾讯某后台 0x02 渗透日常——单点登录 目标URL&…

【vcpkg】cpprestsdk之64位编译链接及踩坑

▒ 目录 ▒🛫 问题描述1️⃣ 多版本vs报错指定VS路径2️⃣ error LNK2001: 问题排查通过IDA打开lib文件,确认导出内容查看源码增加参数--editable,重新编译3️⃣ error LNK2001: 外部符号__imp_?close_...去除__imp_🛬 结论vcpkg…

浅谈估值模型:从Grinold Kroner(GK)模型看投资的本质

摘要及声明 1:本文主要介绍Grinold Kroner(GK)模型的运用,并以上证指数为例实现一个GK模型; 2:本文主要为理念的讲解,模型也是笔者自建,文中假设与观点是基于笔者对模型及数据的一孔之见,若有…

buffer和cache的区别

一,计算机硬件组成 计算机硬件组成:CPU,存储器,输入输出设备(I/O),其他(主板,电源等) CPU:运算器,控制器 存储器:内部存储…

蓝桥云课-声网编程赛(声网编程竞赛7月专场)题解

比赛题目快速链接:https://www.lanqiao.cn/contests/lqENT02/challenges/ 让时钟转起来(考点:css:transform) // index.js function main() {// 题解前理解一个东西:// 时针每过一小时,转30 原…

博客等级说明

CSDN 博客等级是按照用户的博客积分数量进行的设定,为 Lv1 至 Lv10 共 10 个等级,不同的等级创作者可以享受到不同的权益待遇。例如,皮肤奖励、自定义域名、客服优先处理、自定义文章标签等特权。您需要提高博客积分进一步提升等级&#xff0…

矩阵理论复习(十二)

已知方阵A的不变因子: 求谱半径求矩阵级数判断矩阵幂级数的收敛性 若矩阵B的某个算子范数小于1,则I-B可逆。 矩阵分析 任何相容矩阵范数都存在与之相容的向量范数。 盖尔圆盘定理一的证明 椭圆范数的证明 若||.||是Cm上的向量范数,A为…

单元测试工具——JUnit的使用

⭐️前言⭐️ 本篇文章主要介绍单元测试工具JUnit的使用。 🍉欢迎点赞 👍 收藏 ⭐留言评论 📝私信必回哟😁 🍉博主将持续更新学习记录收获,友友们有任何问题可以在评论区留言 🍉博客中涉及源码…

C++11--lambda表达式

目录 lambda表达式的概念 lambda表达式语法 lambda表达式的书写格式 捕捉列表 参数列表 mutable 返回值类型 函数体 lambda表达式交换两个数 函数对象与lambda表达式 lambda表达式的概念 lambda表达式是一个匿名函数 它能让代码更加地简洁 提高了代码可读性 首先定义…

2021年欧空局10米土地覆盖数据(分省/分市)

土地覆盖数据是我们平时最常用的地理数据之一,土地覆盖数据的来源也有很多种,之前我们介绍共过两个的30米精度的土地覆盖数据,分别为GlobeLand30土地覆盖数据和CLCD土地覆盖数据,(可查看之前推送的文章)&am…

佳能镜头EOS系统EF协议逆向工程(三)解码算法

目录 数据结构 解码算法 解码效果 这篇文章基于上两篇文章继续, 佳能镜头EOS系统EF协议逆向工程(一)转接环电路设计_佳能ef自动对焦协议_岬淢箫声的博客-CSDN博客本文属于专栏——工业相机。此专栏首先提供我人工翻译的法语文档部分&…

Python解题 - CSDN周赛第29期 - 争抢糖豆

本期问哥是志在必得,这本算法书我已经觊觎许久,而之前两次因为种种原因未能如愿。因此,问哥这几天花了不少时间,把所有之前在每日一练做过的题目重新梳理了一遍。苦心人,天不负,感谢官方大大! 第…

ChatGPT 人工智能革命从实验室走入公众生活

11 月底,人工智能研究实验室OpenAI 发布了 ChatGPT 聊天机器人首个测试版本,这是一款基于人工智能的新型聊天机器人,可以与人类进行对话,经过测试后,新款机器人便踏上了社交网站之旅,尤其是在推特平台上&am…

机器学习+西瓜书笔记第2章【贝叶斯分类器】

机器学习笔记第2章【贝叶斯分类器】一、贝叶斯决策论1.相关知识补充2.生成模型与判别模型贝叶斯公式: 实际上,分母为全概率公式,分子为联合概率。在机器学习中,更常见的形式为 贝叶斯公式的作用在于将P(B|A)的估计转化为估计P(A…