GPT-2:基于无监督多任务学习的语言模型

news2024/11/23 22:19:00

欢迎来到魔法宝库,传递AIGC的前沿知识,做有格调的分享❗

喜欢的话记得点个关注吧!


今天,我们将共同探索OpenAI的GPT-2,跟随论文深入理解其技术细节。

  • 论文:Language Models are Unsupervised Multitask Learners

  • 模型参数:15亿

  • 公司/机构:OpenAI

摘要

GPT-2是自然语言处理领域的重要里程碑作品,采用了Transformer模型,展现出强大的语言生成能力。作为OpenAI开发的杰出之作,GPT-2令人惊叹。它的模型规模达到了15亿,并通过在大规模语料库WebText 上进行自监督学习进行了训练。

GPT-2的设计思想是通过大量网络文本数据的学习,以无监督的方式掌握语言的模式和结构。在没有具体任务指导的情况下,GPT-2能够生成与人类书写风格相似且连贯的文本,并回答输入文本中提出的问题。

它在语言建模任务上表现出色,在多个自然语言处理任务中都取得了优秀的效果,例如文本生成、机器翻译、问答系统和生成摘要等。GPT-2的卓越之处在于其能够进行零样本迁移学习,即在未经过训练的任务上也能表现出良好的性能。

何为语言模型

GPT-2是一款经典的语言模型,关于什么是语言模型,我们来聊聊。

语言模型是针对语言序列进行建模和预测的统计模型或神经网络模型。它通过学习大量的文本数据,深化对语言规律和结构的理解,并以概率分布的形式表达字符序列的生成概率。 语言模型通常被定义为对一组样本(x1, x2, ..., xn) 进行无监督估计的分布模型,其中每个样本由可变长度的符号序列(s1, s2, ..., sn) 组成。由于语言具有内在的顺序性,通常将联合概率表示为符号的条件概率乘积:

图片

这种方法可以方便地从概率分布p(x)中进行抽样,同时也能够对形如下式的条件概率进行估计:

图片

其中,sn−k,...,sn表示当前待预估的符号序列,s1,...,sn-k-1表示给定的上下文序列,通过学习这些条件概率,模型可以更好地理解语言的上下文关系并生成合适的文本。

语言模型可以用于评估句子的合理性,也可以生成新的句子。它能够预测在给定上下文的情况下下一个词或字是什么,或者在给定一段文本的情况下预测接下来的文本是什么。语言模型可以捕捉到词语之间的依赖关系和句子的上下文信息,从而使生成的文本更加连贯和准确。

输入法中的联想功能是语言模型的一个典型应用,例如,当我们输入"你好"时,输入法会为我们提供下一个字或词的候选项供选择。

图片

GPT-2基本原理

语言建模是一项无监督学习任务,其目标是从一组包含可变长度符号的样本中学习符号出现的概率分布。

GPT-2旨在基于已观察到的输入序列来预测下一个符号。此外,GPT-2引入了多任务学习的概念,通过在语言建模过程中引入任务条件,使得模型能够执行多个不同的任务。具体而言,使用符号序列来表示任务、输入和输出,并利用条件概率p(output|input, task)进行建模。通过共享模型的参数,GPT-2能够推断和执行多样的任务。其中,output表示预测的输出符号,input表示模型的输入符号序列,task表示任务标识。

图片

GPT-2主要基于Transformer Decoder构建,利用Transformer架构中的自注意力机制来捕捉输入序列中的依赖关系,从而学习输入和输出之间的联系。

GPT-2在很大程度上继承了OpenAI GPT-1模型的细节,并进行了一些改进。GPT-2的模型结构图如下所示:

图片

为了更好地处理信息,GPT-2对每个子块的输入进行了Layer Normalization,即在处理之前对数据进行归一化,以便更好地进行处理。这类似于使用预激活残差网络的方法,可以提升模型性能。此外,GPT-2 在最后的自注意力块之后也添加了Layer Normalization

为了更好地初始化模型参数,GPT-2采用了一种改进的初始化方法,即将残差层的权重缩放因子设置为1/√N,其中N代表残差层的数量。这种初始化方法考虑了模型深度对残差路径上累积效应的影响。

为了增强模型的表达能力, GPT-2扩展了词汇表,使其包含50257个词汇,从而使模型能够更准确地理解和生成多样化的文本。此外,GPT-2还增加了上下文的大小,从原先的512个tokens扩大到1024 个tokens,这使得模型能够更好地理解更长的文本片段。批大小设置为512。

图片

总结

GPT-2的显著特点是它的零样本迁移学习能力,这使得它能够在处理新任务时不需要对其进行显式的训练。这是GPT-2模型的一个最为突出的特点,也是它在自然语言处理领域具有重要意义的原因之一。


如果对AIGC感兴趣,请关注我们的微信公众号“我有魔法WYMF”,我们会定期分享AIGC最新咨询和经典论文精读分享,让我们一起交流学习!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1180126.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ORACLE数据库初始化导入

ORACLE数据库初始化导入 文章目录 ORACLE数据库初始化导入创建表空间创建用户用户授权临时目录授权数据库目录授权导入dump文件 环境:linux 数据库:oracle 19c 创建表空间 -- 查询已创建目录 select directory_path,directory_name from all_directori…

Redis之与SSM集成Spring注解式缓存

🎉🎉欢迎来到我的CSDN主页!🎉🎉 🏅我是君易--鑨,一个在CSDN分享笔记的博主。📚📚 🌟推荐给大家我的博客专栏《Redis实战开发》。🎯🎯 …

大数据学习之Spark性能优化

文章目录 Spark三种任务提交模式宽依赖和窄依赖StageSpark Job的三种提交模式 Shuffle机制分析未优化的Hash Based Shuffle优化后的Hash Based ShuffleSort-Based Shuffle Spark之checkpointcheckpoint概述checkpoint与持久化的区别checkPoint的使用checkpoint源码分析 Spark程…

vue前端实现多个url下载并合并为zip文件

一、安装 npm install jszip npm install file-saver 二、引入 import axios from axios import JSZip from "jszip"; import FileSaver from "file-saver"; 三、核心代码 videoData:[/video/26519f026fc012521605563015227403.mp4,/video/f7b9cdae14…

聊聊芯片超净间的颗粒(particle)

在芯片制造领域,颗粒的存在可能对生产过程产生巨大影响。其中,每个微小的颗粒,无论是来自人员、设备,还是自然环境,都有可能在制程中引发故障,从而对产品性能产生负面影响。这就是为什么在芯片厂中&#xf…

【日积月累】SpringBoot 通过注解@CacheConfig @Cacheable @CacheEvict @CachePut @Caching使用缓存

目录 1.前言2.引入依赖3.启动类加入注解EnableCaching4.常用注解4.1CacheConfig4.2Cacheable4.3CacheEvict4.4CachePut4.5Caching 5.总结6.参考 文章所属专区 日积月累 1.前言 Spring在3.1版本,就提供了一条基于注解的缓存策略,实际使用起来还是很丝滑…

【内功修炼】详解函数栈帧的创建和销毁

文章目录 1. 什么是函数栈帧2. 理解函数栈帧能解决什么问题呢?3. 函数栈帧的创建和销毁解析3.1 什么是栈?3.2 认识相关寄存器和汇编指令常见寄存器常用汇编指令 3.3 详解函数栈帧的创建和销毁3.3.1 函数的调用堆栈(main函数也是被其它函数调用…

手握“发展密钥”,TCL科技或迎价值重估?

在高度竞争且快速变化的泛半导体产业,每一次周期性或结构性的变化,都会对企业经营策略带来深远的影响。 2023年前三季度,泛半导体产业迎来结构性复苏。其中,主流显示领域供需关系趋向健康化,半导体显示行业整体上量价…

C语言 每日一题 PTA 11.7 day13

1.求e的近似值 自然常数 e 可以用级数 1 1 / 1! 1 / 2! ⋯ 1 / n! ⋯ 来近似计算。 本题要求对给定的非负整数 n&#xff0c;求该级数的前 n 1 项和。 代码实现 #include<stdio.h> void main() {int a, i, j; double b 1; double c 1;printf("请输入一个数\n…

零信任安全:构建无懈可击的网络防护体系

随着网络技术的飞速发展&#xff0c;信息安全问题日益凸显&#xff0c;传统的安全防护手段已经无法满足复杂多变的安全需求。在此背景下&#xff0c;零信任安全模型逐渐受到广泛关注。本文将探讨零信任安全的概念、优势以及如何构建无懈可击的网络防护体系。 一、零信任安全概念…

Go语言用Colly库编写的图像爬虫程序

下面是一个使用Colly库编写的Go语言图像爬虫程序&#xff0c;该程序会爬取news.qq上的图片&#xff0c;并使用proxy_host:duoip和proxy_port:8000的爬虫IP服务器进行抓取。 package mainimport ("fmt""net/http""github.com/crawlab-collective/go-co…

511-0101-08B 5136-PFB-VME DCS是工厂级数字化的核心

511-0101-08B 5136-PFB-VME DCS是工厂级数字化的核心 在一个预计到2023年全球将达到174亿美元的不断增长的市场中&#xff0c;行业分析公司ARC Advisory Group的一份市场分析报告证实&#xff0c;ABB将其在分布式控制系统(DCS)市场的份额增加到20.0%&#xff0c;保持了其在20世…

木牛第三代4D成像雷达,为高速/城市级NOA的普及化提速

为助力中国汽车行业高速、高质量的发展&#xff0c;推动中国汽车行业智能化向纵深发展&#xff0c;由《证券日报》社与江西省金融控股集团主办、轩元资本与江西省金控投资集团协办的“2023汽车资本论坛”于2023年10月27日在江西南昌举办&#xff0c;本次论坛指导单位为中国经济…

那些年遇到过的问题与解决方案

目录 一、当我们想进行数据回显并且只是让用户查看信息不能编辑时&#xff0c;置灰处理 二、多选框初始化加载问题 三、时间处理 获取当前年月日 时间自定义格式化 时间脱敏处理&#xff0c;去掉秒 四、input输入框处理 input输入框设定为只能输入0与正整数 刚进页面…

macOS磁盘分区调整软件--Paragon Camptune X 中文

Paragon Camptune X是一款专为Mac用户设计的强大分区大小调整工具。通过它&#xff0c;用户可以简便地调整Mac硬盘上的分区大小&#xff0c;实现存储空间的高效管理。无论是需要在Mac和Windows系统之间切换的双系统用户&#xff0c;还是有其他特定存储需求的用户&#xff0c;Ca…

携手创新算网应用:英特尔助力中国移动“算启新程”

10月11日&#xff0c;以“算启新程 智享未来”为主题的2023中国移动全球合作伙伴大会在中国广州保利世贸博览馆拉开帷幕。 大会围绕“CT、IT、DT技术融合”、“连接、算力、能力服务融合”、“新一代信息技术与生产、生活、治理应用融合”三个融合&#xff0c;聚焦科技创新、行…

(11_06)函数计算 FC 3.0 发布,全面降价,最高幅度达93%,阶梯计费越用越便宜

作为国内最早布局 Serverless 的云厂商之一&#xff0c;阿里云在 2017 年推出函数计算 FC&#xff0c;开发者只需编写代码并上传&#xff0c;函数计算就会自动准备好相应的计算资源&#xff0c;大幅简化开发运维过程。阿里云函数计算持续在 Serverless GPU 方面投入研发&#x…

Cmasher颜色包--共53种--全平台可用

Cmasher颜色包–共53种–全平台可用 往期推荐&#xff1a; ColorCET颜色包–共99种–全平台可用 ColorCET颜色包–共35种–全平台可用 Scientific colour maps颜色包–共35种–全平台可用 SciCoMap颜色包_共180种–全平台可用 海洋专用cmocean颜色包_共22种–全平台可用 Python…

pytoch安装指定版本教程pytorch1.3安装笔记

一、先生成一个环境 如果电脑里安装了其他的torch版本&#xff0c;另外生成一个环境可以防止原先torch版本被替换掉。 打开conda的终端窗口输入以下命令就可以生成一个名为torch_1.3的环境&#xff1a; conda create -n torch_1.3 python3.6 输入以下命令进入到torch_1.3的…

工作记录---(Explain执行计划详解--基于HS)--每天都要保持学习状态和专注的状态啊!!!

Explain详细说明&#xff1a; id列 id列的编号是 select 的序列号&#xff0c;有几个 select 就有几个id&#xff0c;并且id的顺序是按 select 出现的顺序增长的。MySQL将 select 查询分为简单查询(SIMPLE)和复杂查询(PRIMARY)。 复杂查询分为三类&#xff1a;简单子查询、派…