【NLP相关】GPT-X合集:GPT类模型介绍(附相关论文和Github项目地址)

news2025/1/10 10:39:44

❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️

👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博相关......)👈

GPT-X

GPT-X:GPT类模型介绍(附相关论文和github项目)

1. GPT介绍

GPT(Generative Pre-trained Transformer)是一类基于Transformer架构的预训练语言模型。这一类模型采用自回归的方式进行训练,通过大规模的语料库预训练来学习语言的概率分布,从而能够用于各种自然语言处理任务。

GPT-3

2. GPT类模型介绍

(1)GPT-1

GPT-1是由OpenAI于2018年推出的第一代GPT模型,使用了12层Transformer架构,共有117M个参数。GPT-1在多项自然语言处理任务上均取得了较好的效果,例如文本生成、机器翻译、问答等。

论文:https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

github链接:https://github.com/karpathy/minGPT

(2)GPT-2

GPT-2是在GPT-1的基础上进一步扩展和优化的模型,使用了更大的数据集和更多的参数。GPT-2采用了48层Transformer架构,共有1.5B个参数。GPT-2在多项自然语言处理任务上取得了SOTA的效果,例如文本生成、文本分类、语言推理等。GPT-2还引起了广泛的社会讨论,因为它能够生成高度逼真的文本,包括假新闻和有害内容。

论文:https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

github链接:https://github.com/openai/gpt-2

(3)GPT-3

GPT-3是当前最大的预训练语言模型,由OpenAI于2020年推出。GPT-3使用了1750B个参数,比GPT-2大了一千倍以上。GPT-3在多项自然语言处理任务上取得了SOTA的效果,并能够完成一些常识推理和常识问答等任务。与GPT-2相比,GPT-3不仅参数更多,而且采用了更多的训练数据,以及更加复杂的预训练任务。

论文:https://arxiv.org/pdf/2005.14165.pdf

github链接:https://github.com/openai/gpt-3

(4)GPT-Neo

GPT-Neo是由EleutherAI推出的一个社区项目,旨在构建一个更加开放和透明的预训练语言模型。GPT-Neo使用了和GPT-3类似的训练数据和预训练任务,但是采用了更加分散的训练和模型分布式计算的方式,以此来避免依赖于单个GPU或TPU。GPT-Neo目前已经推出了多个版本,包括GPT-Neo 1.3B、2.7B和6B。

论文:https://pile.eleuther.ai/

github链接:https://github.com/EleutherAI/gpt-neo

(5)GShard-GPT

GShard-GPT是谷歌研究团队于2021年推出的一种基于GShard的高效分布式GPT预训练模型。与传统的GPT模型不同,GShard-GPT将Transformer架构的每个层都分割成了多个“分片”(Shard),并且每个分片都可以在不同的设备上并行处理。GShard-GPT使用了与GPT-3相同的训练数据和任务,并将模型的大小扩展到了600B个参数。

论文:https://arxiv.org/abs/2006.16668

(6)GPT-J

GPT-J是由EleutherAI团队于2021年推出的一个大型预训练语言模型,使用了6B个参数。GPT-J使用了和GPT-3类似的训练数据和预训练任务,并且采用了分布式的训练方式。GPT-J的主要目标是提供一个可访问、高质量的自然语言处理工具,以便开发人员和研究人员可以更容易地使用自然语言技术。

论文:https://arxiv.org/abs/2302.04761

github链接:https://github.com/kingoflolz/mesh-transformer-jax

(7)GPT-4

GPT-4是目前还未推出的一种预训练语言模型,但已经引起了广泛的关注。OpenAI的研究人员曾在2021年宣布正在研发GPT-4,而且计划将模型的大小扩展到数万亿个参数。但目前尚不清楚GPT-4何时推出以及具体的技术细节。

(8)PEGASUS

一种由谷歌研究团队开发的预训练模型,使用了Transformer架构,但不是采用自回归方式进行训练,而是采用了自编码器(autoencoder)架构。PEGASUS主要用于文本摘要任务。

论文:https://arxiv.org/pdf/1912.08777.pdf

github链接:https://github.com/google-research/pegasus

(9)T5

一种由谷歌研究团队推出的预训练模型,采用了与GPT类似的Transformer架构,但是可以用于多种自然语言处理任务,例如文本分类、命名实体识别等。T5也可以用于生成型任务,例如文本生成和文本摘要。

论文:https://arxiv.org/pdf/1910.10683.pdf

github链接:https://github.com/google-research/text-to-text-transfer-transformer

(10)GShard

一种由谷歌研究团队开发的分布式训练框架,可以用于训练大型的预训练语言模型。GShard的核心思想法是将模型分成多个分片(Shard),并且每个分片都可以在不同的设备上并行处理,从而加速模型训练。GShard已经应用于多个预训练模型中,例如T5和GPT-2。

论文:https://arxiv.org/pdf/2006.16668.pdf

(11)ELECTRA

一种由谷歌研究团队推出的预训练模型,采用了一种新的训练方式,称为“替代生成任务”(Replacing Token Detection),可以大大减少训练时间和计算资源的消耗。ELECTRA的性能与同等大小的BERT模型相当,但训练速度更快。

论文:https://arxiv.org/pdf/2003.10555.pdf

github链接:https://github.com/google-research/electra

(12)总结

GPT类模型是自然语言处理领域的重要突破之一,其在多项自然语言处理任务上取得了优异的表现。随着技术的不断发展和研究的不断深入,GPT类模型的规模也越来越大,性能也越来越强。同时,也涌现出了许多不同的GPT变种和改进版,以满足不同应用场景和需求。未来,GPT类模型还有很大的发展空间和潜力,我们可以期待更多的创新和突破。

3. GPT类模型的区别和联系

  • 模型规模:GPT、GPT-2和GPT-3的规模依次增大。GPT有117M个参数,GPT-2有1.5B个参数,GPT-3则有175B个参数。这意味着每个模型可以处理的任务和数据集越来越大。

  • 数据集和训练方式:这三个模型都使用了大量的无标注数据进行训练,其中包括了网络上的大量文本和语言数据。GPT使用的数据集是WebText,GPT-2使用的数据集包括了WebText、BooksCorpus、Common Crawl等多个数据集,而GPT-3则使用了更多的数据集,包括Common Crawl、Wikipedia、Books等。

  • 任务和应用:这三个模型都可以用于语言生成和相关的自然语言处理任务,如文本分类、摘要生成、对话系统等。但是,由于规模和训练数据集的不同,它们的性能和应用场景也有所不同。例如,GPT-3在机器翻译等任务上的表现要比GPT-2好得多,而GPT-2在文本生成方面则更加灵活和多样化。

  • 论文和代码:这三个模型的论文和代码都是公开的,研究者和开发者可以在自己的任务上进行改进和优化。此外,一些变种的代码和论文也已经发布,例如GPT-Neo、GShard、GPT-J等。

参考文献

[1] GPT-1/GPT-2/GPT-3简介 https://zhuanlan.zhihu.com/p/473001104
[2] 让ChatGPT长“手”!Meta爆火新论文,让语言模型学会自主使用工具 https://www.51cto.com/article/746420.html
[3] GPT-3没有亲自上手,不如展望一下GPT-4?https://baijiahao.baidu.com/s?id=1674342266465949516
[4] 帝国理工联手谷歌提出抽象文本摘要最佳模型|ICML 2020 https://baijiahao.baidu.com/s?id=1671531819242389224
[5] ICLR 2020|electra https://zhuanlan.zhihu.com/p/263010688


❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️

👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博相关......)👈

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/383689.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

哈希一致性算法(分布式服务器落点算法)

场景预设和一般hash算法: 先预设一个场景,有10000份文件,需要缓存到五台缓存服务器之上 那么按照最常规,每个服务器平均分配2000份文件 那么用一个取余操作就可以完成 比如说是第2513的图片,那么用一个公式 需要缓…

HTML概述与基本标签

🌟所属专栏:HTML只因变凤凰之路🐔作者简介:rchjr——五带信管菜只因一枚😮前言:该系列将持续更新HTML的相关学习笔记,欢迎和我一样的小白订阅,一起学习共同进步~👉文章简…

simplifyEnrichment | 让我来做你的富集结果的瘦身教练吧!~

1写在前面 最近真是烦心啊,事事不顺,找个日子我要找大师算一卦。😂 大家基本都会做富集分析,但有时候terms实在太多,读起来真是累,也搞不清到底谁是其中相对重要的。🥲 之前有一些R包通过计算基…

【告别篇】大家好,再见了,我转行了,在筹备创业

前言 相信大家也一直看到我的博客没有更新过了,我其实很久没有打开过博客了,也就意味着我很长一段时间都在停滞不前,没有了学习的动力。 现在我上来是想跟大家告个别 : 很多粉丝宝宝的私信我看了,但是没有回&#xf…

并查集结构

文章目录并查集特点构建过程查找两个元素是否是同一集合优化查找领头元素设置两个元素为同一集合构建结构应用场景并行计算集合问题并查集特点 对于使用并查集构建的结构,可以使得查询两个元素是否在同一集合,以及合并集合的操作无限接近O(1) 构建过程…

Intellij idea使用Statistic统计代码行数的方法

一、安装Statistic1、打开IDEA2、打开settings进行设置3、选择plugins,搜索Statistic并安装4、下载完成之后,重启IDEA,此时Statistic就安装好了二、使用Statistic1、安装好Statistic之后我们可以通过以下步骤 将Statistic插件的控制台展示出来…

2023年Dubbo常见面试题

2023年Dubbo常见面试题 Dubbo 中 zookeeper 做注册中心,如果注册中心集群都挂掉,发布者和订阅者之间还能通信么? 可以通信的,启动 dubbo 时,消费者会从 zk 拉取注册的生产者的地址接口等数据,缓存在本地。…

3/2考试总结

时间安排 7:30–7:50 读题,T1 貌似是个构造,T2 应该是个圆方树 dp 加上一些神秘的暴力,T3 不知道是啥。 7:50–9:00 T1,发现没法暴力。考虑能不能构造什么的,好像也不好构造。可能是个别的什么东西。手玩样例有一些结论&#xff…

【UE4 Cesium】加载离线地图

主体思路:先使用水经注软件下载瓦片数据,再使用Python转换瓦片数据格式(TMS),使用Nginx发布网络服务,最后将网络服务加载到UE中。步骤:使用水经注下载瓦片数据,这里下载的是全球七级…

JavaSE22-集合2-map

文章目录一、集合概念二、map集合1、Map集合的特点2、HashMap2.1 HashMap特点2.2 创建对象2.3 常用方法2.4 遍历2.4.1 使用entrySet遍历2.4.2 使用keySet遍历3、HashMap的key去重原理一、集合概念 集合就是用于存储多个数据的容器。相对于具有相同功能的数组来说,集…

神垕古镇景区三方背后的博弈,争夺许昌第一家5A景区主导权

钧 瓷 内 参 第37期(总第368期) 2023年3月2日 神垕古镇景区景域,建业,孔家三方背后的博弈,争夺许昌第一家5A景区主导权 在博弈论(Game Theory)经济学中,“智猪博弈”是一个著名的…

Delphi 中 FireDAC 数据库连接(脱线连接 )

参见:Delphi 中 FireDAC 数据库连接(总览)述了如何使用FireDAC离线模式,它允许你在没有与数据库持久连接的情况下处理数据。一、概述FireDAC的离线模式类似于多层客户端,大部分时间客户端与数据库断开连接。只有当客户…

给深度学习研究生的入门建议(未完待续ing)

诸神缄默不语-个人CSDN博文目录 本文将系统性介绍深度学习方向(准)研究生可供参考的入门建议。 我的背景是浙江大学人工智能专业在读硕士,研究方向是GNN、NLP、司法智能。 (我的CSDN博文基本涵盖了我所有的深度学习知识&#xff…

pytorch-多层感知机,最简单的深度学习模型,将非线性激活函数引入到模型中。

多层感知机,线性回归和softmax回归在内的单层神经网络。然而深度学习主要关注多层模型。在本节中,我们将以多层感知机(multilayer perceptron,MLP)为例,介绍多层神经网络的概念。 隐藏层 多层感知机在单层…

Vue环境的搭建和在vscode上的应用(Window10)

Vue环境的搭建 1.安装: 从官网下载安装包,解压到指定位置,就相当于安装完成了。 2.配置环境变量 找到node.js的文件夹,在里面找到src,把路径复制一下。 我在E盘建立了一个文件夹放node,如图找到bin的路径&…

vuecli3打包项目上线之后报错怎么使用本地的sourcemap文件定位调试?

问题 我们上线的时候一般都不会添加sourcemap文件&#xff0c;一方面为了加快构建速度&#xff0c;另一方面避免源码泄漏。所以有时出现报错的时候很难定位问题所在。 例子&#xff1a;比如我写了一个错误的代码&#xff0c;点击 <template><div class"hello&…

QT(58)-VS2010+QT4+QWT5+win32是适配的-其余版本基本不通。

正解&#xff1a; VS2010QT4QWT5win32是适配的。 其余的配置基本不通。 当我用VS2019底下的命令行编译QT库时&#xff1a; 1.编译QWT库。VS2019 QWT5源码 1.选择编译器&#xff1a;4种参数 2.到源码目录下 生成makefile 文件。 3.修改makefile 文件用于指定QT4还是QT5去编译&a…

自己动手打造一款React路由守卫

引言 用过vue的小伙伴都知道&#xff0c;vue自带路由守卫钩子并且巨他妈的好用&#xff0c;而对于react开发者来说&#xff0c;在需要路由权限校验时常常存在许多痛点问题。今天我将为大家打造一款属于我们reacter的路由守卫方法&#xff0c;希望可以为大家提供帮助。 react路…

JVM

HotSpot虚拟机结构概览 JVM是运行在操作系统之上的&#xff0c;并没有和硬件有直接的交互&#xff1b;正所谓Java代码一次编译,到处运行 方法区和堆区是所有线程共享的内存区域&#xff1b; 而java栈、本地方法栈和程序计数器是运行是线程私有的内存区域。Java栈又叫做jvm虚拟…

c语言指针怎么理解 第二部分

第四&#xff0c;指针有啥用。 比方说&#xff0c;我们有个函数&#xff0c;如下&#xff1a; int add&#xff08;int x){ return (x1); //把输入的值加1并返回结果。 } 好了&#xff0c;应用的时候是这样的&#xff1a; { int a1; aadd(a); //add函数返回的是a1 //现在 a等于…