文献阅读：Language Models are Unsupervised Multitask Learners

文献阅读：Language Models are Unsupervised Multitask Learners

news2026/2/15 19:20:19

文献阅读：Language Models are Unsupervised Multitask Learners
- 1. 内容介绍
- 2. 模型介绍
- 3. 实验结果
  - 1. 语言模型
  - 2. QA & 常识推断
  - 3. 生成任务
- 4. 总结 & 思考

文献链接：https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

1. 内容介绍

这篇文献就是OpenAI在2019年发表的大名鼎鼎的GPT2的文章，不过相较于GPT3，GPT2的影响力终究还是要小上不少，至少我印象中是这个样子。

而具体内容上来说，这篇文章整体上和GPT模型确实感觉好像没啥太大的差异，主要感觉还是改进了数据以及增大了模型参数量，没看出什么质上的区别……

不过这方面其实GPT3感觉也没啥太大的差别，可能真的就是more is different……

2. 模型介绍

下面，我们首先来看一下GPT2的整体模型以及训练数据。

如前所述，GPT2模型和GPT模型其实没啥本质上的差别，还是一个单向的Transformer Decoder模型，区别主要还是在训练数据以及模型的参数量上有了优化。

首先训练数据方面，这里使用WebText数据集，主要包括了800万个文件的共计40G的文本，而模型方面，其具体参数量详见下表：

在这里插入图片描述

3. 实验结果

下面，我们来考察一下GPT2的具体实验结果。

首先，我们给出整体的实验结果如下：

在这里插入图片描述

可以看到：

整体来说，随着参数量的增大，zero-shot的效果在各类任务上都是不断增加的。

下面，我们来分各个子任务对结果进行考察。

1. 语言模型

首先，我们来看一下GPT2的ppl效果：

在这里插入图片描述

在这里插入图片描述

可以看到：

GPT2的PPL在各类数据集当中基本都达到了SOTA的结果；
随着模型的增大，模型的PPL是在持续减小的。

2. QA & 常识推断

同样的，给出GPT2模型在常识推断任务当中的结果如下：

在这里插入图片描述

可以看到，其整体效果是很好的。

文中还给出了一些样例如下：

在这里插入图片描述

3. 生成任务

最后，文中还给出了生成任务的Rouge指标如下。

在这里插入图片描述

4. 总结 & 思考

综上，GPT2较之GPT模型其实没啥本质上的差别，感觉还是在优化训练数据以及扩展模型，在探索基于Transformer的LLM的极限。

从GPT2的实验来看，其结果还远没有达到极限，因此后续才会有进一步的GPT3等模型的提出。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/184390.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

python-布隆过滤器

python-布隆过滤器

在学习redis过程中提到一个缓存穿透的问题， 书中参考的解决方案之一是使用布隆过滤器， 那么就有必要来了解一下什么是布隆过滤器。在参考了许多博客之后， 写个总结记录一下。一、布隆过滤器简介什么是布隆过滤器？ 本质上布隆…

阅读更多...

橘子学docker01之基本玩法

橘子学docker01之基本玩法

docker docker镜像集成了最核心需要得环境，所以占空间小，运行快，启动秒级。 docker的几个概念： 注册中心：相当于超级码头，上面放的就是集装箱。镜像（image）：集装箱,好比…

阅读更多...

Spring Boot学习之Dubbo+Zookeeper初识

Spring Boot学习之Dubbo+Zookeeper初识

文章目录一分布式理论基础知识1.1 单一应用架构1.2 垂直应用架构1.3 分布式服务架构1.4 流动计算架构1.5 PRC[Remote Procedure Call]二 Dubbo2.1 Dubbo简介三 Dubbo环境搭建3.1 Zookeeper简介3.2 Zookeeper下载与安装3.3 解决问题3.3.1 错误一的分析和解决3.3.2 错误二的分析…

阅读更多...

JavaEE day8 初识HTTP

JavaEE day8 初识HTTP

HTTP协议 HTTP协议，又称超文本传输协议，是一种应用广泛的应用层协议。所谓超文本，其实就是除了文本还能传输其他资源。而HTTP本身是基于传输层的TCP协议实现的。目前HTTP协议3版本已经在完善中。本文采用1.1版本。它是一种请求--响应的工作…

阅读更多...

MyBatis 持久层框架详细解读：Mapper代理开发

MyBatis 持久层框架详细解读：Mapper代理开发

文章目录1. 前言2. Mapper 代理开发3. 过程剖析4. 总结1. 前言前面在 MyBatis 快速入门篇中，我们使用了 MyBatis 原生的开发方式操作数据库，解决了 JDBC 操作数据库时的硬编码和操作繁琐的问题。实际上，在 Java 项目中，我们更常…

阅读更多...

MVC和MVVM的区别

MVC和MVVM的区别

一、MVC mvc：是一种代码架构设计模式，前端中的mvc最主要的作用就是将视图和数据模型进行分离 （1） 为什么需要 MVC 简单理解：也就是为什么需要将视图和数据模型进行分离 <select id"drinkSelect">&…

阅读更多...

宕机后，如何避免 Redis 的数据丢失？

宕机后，如何避免 Redis 的数据丢失？

前言如果有人问你："你会把 Redis 用在什么业务场景下？" 我想你大概率会说："我会把它当作缓存使用，因为它把后端数据库中的数据存储在内存中，然后直接从内存中读取数据，响应速度会非常快。…

阅读更多...

Lua 文件I/O

Lua 文件I/O

Lua 文件I/O 参考至菜鸟教程。 Lua I/O 库用于读取和处理文件。分为简单模式（和C一样）、完全模式。简单模式（simple model）拥有一个当前输入文件和一个当前输出文件，并且提供针对这些文件相关的操作。完全模式&#…

阅读更多...

C++Primer13.6.2节练习

C++Primer13.6.2节练习

练习13.49： StrVec类的移动构造函数和移动赋值运算符 //移动构造函数 StrVec::StrVec(StrVec&& s)noexcept :elements(s.elements), first_free(s.first_free), cap(s.cap) {//令移后源对象进入状态-----对其运行析构函数是安全的s.elements s.first_fre…

阅读更多...

关于网络编程

关于网络编程

Socket套接字Socket API是网络编程最核心的部分。Socket套接字是由系统提供用于网络通信的技术，是基于TCP/IP协议的网络通信的基本操作单元。基于Socket套接字的网络程序开发就是网络编程。Socket API与传输层密切相关，由于传输层有UDP和TCP两种协议类型…

阅读更多...

使用Idea中将单个java类打包成jar包

使用Idea中将单个java类打包成jar包

开工第一天，正在暗自爽，领导让帮个忙，给一个工具类打成jar包，供其他项目组使用，这就开始了尝试。其实网上已经有好多人写过了，只是尝试了几篇，坑得不轻，自己做下笔记，留…

阅读更多...

表格控件Aspose.Cells for .NET 授权须知

表格控件Aspose.Cells for .NET 授权须知

支持的平台 Aspose.Cells 可作为 .NET、Java、C 和 Python 的四种不同产品使用， .NET Framework.NET Standard 2.0Xamarin.AndroidXamarin.iOSXamarin.MacCOMMonoWindows Azure Aspose.Cells 下载（qun：761297826）https://www.ev…

阅读更多...

python 高阶函数

python 高阶函数

传入函数要理解“函数本身也可以作为参数传入”，可以从Python内建的map/reduce函数入手。我们先看map。map()函数接收两个参数，一个是函数，一个是序列，map将传入的函数依次作用到序列的每个元素，并把结果作为新的l…

阅读更多...

Java：基于注解的Spring使用【AOP容器】和事务管理

Java：基于注解的Spring使用【AOP容器】和事务管理

目录第十五章 AOP前奏15.1 代理模式15.2 为什么需要代理【程序中】15.3 手动实现动态代理环境搭建15.4 手动实现动态代理关键步骤第十六章 Spring中AOP【重点】16.1 AspectJ框架【AOP框架】16.2 使用AspectJ步骤（入门）16.3 Spring中AOP概述16.4 Spring中…

阅读更多...

AMQP 0-9-1 模型解释

AMQP 0-9-1 模型解释

官方文档链接：https://www.rabbitmq.com/tutorials/amqp-concepts.html 文章目录1. AMQP协议是什么2. AMQP模型2.1 工作过程2.2 深入理解3. 交换机3.1 默认交换机3.2 直连交换机3.3 扇形交换机3.4 主题交换机3.5 头交换机3.6 交换机小结4. Queue队列队列属性队列创建…

阅读更多...

BM7 链表中环的入口结点

BM7 链表中环的入口结点

目录描述输入描述： 返回值描述： 示例1 示例2 示例3 思路： 代码描述给一个长度为n链表，若其中包含环，请找出该链表的环的入口结点，否则，返回null。例如，输入{1,…

阅读更多...

DW 2023年1月Free Excel 第九次打卡 Excel数据透视

DW 2023年1月Free Excel 第九次打卡 Excel数据透视

第九章 Excel数据透视数据下载地址与参考链接：https://d9ty988ekq.feishu.cn/docx/Wdqld1mVroyTJmxicTTcrfXYnDd 数据透视是Excel中个强大的数据处理和分析工具，能够快速实现数据的汇总与统计分析，本节重点讲解Excel数据透视的相关操作。 1…

阅读更多...

NSSCTF Round#7 Team ez_rce和0o0讲解

NSSCTF Round#7 Team ez_rce和0o0讲解

强烈建议NSSCTF延长时间，大过年的逛亲戚回来就剩两个小时了。。。。 ez_rce   <?PHPif(!isset($_POST["action"]) && !isset($_POST["data"]))show_s…

阅读更多...

MySQL8中jdbc的url设置

MySQL8中jdbc的url设置

JDBC spring.datasource.urljdbc:mysql://${MYSQL_HOST:localhost}:3306/xxxx?sslModeREQUIRED&characterEncodingUTF-8&connectionTimeZoneGMT%2B8&forceConnectionTimeZoneToSessiontruesslMode:设置为REQUIRED表示必须启用ssl加密传输；characterEn…

阅读更多...

svn客户端add无法添加上子文件夹及其子文件——解决办法

svn客户端add无法添加上子文件夹及其子文件——解决办法

1、问题描述 svn客户端add文件夹后，无法添加上子文件夹及其子文件，需要先add最外层文件夹，再逐层add子文件夹，最后add最里层子文件夹中的文件，很影响add速度啊。现象如下图所示： 正常情况下，add…

阅读更多...

推荐文章

最新文章