从 ELMo 到 ChatGPT：历数 NLP 近 5 年必看大模型

news2026/2/16 18:50:37

目录

AI21 Labs
Alibaba
Allen Institute for AI
Amazon
Anthropic
BAAI
Baidu
BigScience
Cohere
DeepMind
EleutherAI
Google
Huggingface
iFLYTEK
Meta
Microsoft
NVidia
OpenAI
Salesforce
Tsinghua University
UC Berkeley
Yandex
持续更新中 ...
参考

团队博客: CSDN AI小组

先上 “万恶之源”：Transformer
在这里插入图片描述

按机构分类

AI21 Labs

发布时间	模型名称	参数量	机构	相关链接	开源
2021-09	Jurassic-1 (J1)	J1-Jumbo v1 (178B) J1-Large v1 (7.5B) J1-Grande v1 (17B)	AI21 Labs	论文官方文档技术报告	受限

Alibaba

发布时间	模型名称	参数量	机构	相关链接	开源
2019-08	StructBert	structbert.en.large(340M) structroberta.en.large(355M) structbert.ch.large(330M)	Alibaba Group Inc.	论文 GitHub	模型

Allen Institute for AI

发布时间	模型名称	参数量	机构	相关链接	开源
2018-02	ELMo	Small(13.6M) Medium(28.0M) Original(93.6M)	Allen Institute for AI	论文	模型

Amazon

发布时间	模型名称	参数量	机构	相关链接	开源
2022-03	DQ-BART	与标准BART相比，参数减少了30倍	Amazon	论文

Anthropic

发布时间	模型名称	参数量	机构	相关链接	开源
2021-12	Anthropic-LM	Anthropic-LM v4-s3 (52B)	Anthropic	论文1 论文2	未开源

BAAI

发布时间	模型名称	参数量	机构	相关链接	开源
2021-06	Wu Dao 2.0	1.75T	BAAI	官网	模型

Baidu

发布时间	模型名称	参数量	机构	相关链接	开源
2019-05	ERNIE	114M	Baidu	GitHub 论文	模型

BigScience

发布时间	模型名称	参数量	机构	相关链接	开源
2022-05	T0pp	11B	BigScience	论文	模型
2022-07	BLOOM	176B	BigScience	论文	模型
2022-11	BLOOMZ	176B	BigScience	论文	模型

Cohere

发布时间	模型名称	参数量	机构	相关链接	开源
2022-06	Cohere	Cohere xlarge v20220609 (52.4B) Cohere large v20220720 (13.1B) Cohere medium v20220720 (6.1B) Cohere small v20220720 (410M) Cohere xlarge v20221108 (52.4B) Cohere medium v20221108 (6.1B)	Cohere	官网	受限

DeepMind

发布时间	模型名称	参数量	机构	相关链接	开源
2021-07	AlphaFold	21M	DeepMind	论文
2021-12	Gopher	280B	DeepMind	论文官网	未开源
2022-03	Chincilla	70B	DeepMind	论文	未开源
2022-03	GopherCite	280B	Deepmind	论文
2022-09	Sparrow	70B	Deepmind	论文

EleutherAI

发布时间	模型名称	参数量	机构	相关链接	开源
2021-03	GPT-Neo	5B, 2.7B (XL)	EleutherAI	论文	模型
2021-06	GPT-J	GPT-J (6B)	EleutherAI	博客	模型
2021-12	StableDiffusion	890M	LMU Munich & Stability.ai & Eleuther.ai	论文	模型
2022-04	GPT-NeoX	GPT-NeoX (20B)	EleutherAI	论文	模型
2022-04	Flamingo	80B (largest)	Deepmind	论文	flamingo-mini模型
2022-05	Gato	1.2B	Deepmind	论文

Google

发布时间	模型名称	参数量	机构	相关链接	开源
2018-10	BERT	Base = 110M Large = 340M	Google	论文	模型
2019-01	Transformer XL	151M	CMU & Google	论文	模型
2019-05	XLNet	Base=117M Large=360M	Google AI Brain Team & CMU	论文	模型
2019-09	ALBERT	Base = 12M Large = 18M XLarge = 60M	Google Research	论文	模型
2019-10	T5	11B	Google	论文	模型
2019-12	Pegasus	Base = 223M Large = 568M	UCL & Google	论文	模型
2020-03	ELECTRA	Base = 110M Large = 330M	Google Brain & Stanford University	论文	模型
2020-07	BigBird	取决于整体架构	Google Research	论文	模型
2020-10	ViT	86M(Base) to 632M (Huge)	Google	论文	模型
2021-01	Switch	1T	Google	论文	模型
2021-06	Decision Transformers	117M	Google Brain & UC Berkeley & Facebook AI Research	论文	模型
2021-12	GLaM	1.2T覆盖64个专业领域，但只有96B被激活用于推理	Google	论文
2022-01	LAMDA	137B	Google	官网
2022-04	PaLM	PaLM (540B)	Google	论文官网	未开源
2022-05	UL2	UL2 (20B)	Google	论文	模型
2022-06	Imagen	2B	Google	官网
2022-06	Minerva	540B	Google	官网
2022-12	Flan-T5	Flan-T5 (11B)	Google	论文	模型

Huggingface

发布时间	模型名称	参数量	机构	相关链接	开源
2019-10	DistilBERT	66M	Huggingface	论文	模型

iFLYTEK

发布时间	模型名称	参数量	机构	相关链接	开源
2020-11	MacBert	MacBERT-large, Chinese(324M) MacBERT-base, Chinese(102M)	iFLYTEK AI Research & Harbin Institute of Technology	论文	模型

Meta

发布时间	模型名称	参数量	机构	相关链接	开源
2019-07	RoBERTa	356M	Facebook AI & UW	论文	模型
2019-10	BART	比 BERT 多 10%	Facebook AI	论文	模型
2019-10	XLM-RoBERTa	Base = 270M Large = 550M	Facebook	论文	模型
2020-01	mBART	与BART相同	Facebook	论文	模型
2021-03	Swin Transformer	29M-197M	Facebook	GitHub 论文	模型
2021-07	HTML	400M	Facebook	论文
2022-01	CM3	13B (largest)	Facebook AI Research	论文
2022-03	SeeKer	与基模型相同	Facebook	官网
2022-05	OPT	OPT (175B) OPT (66B)	Meta AI	论文官网	模型
2022-08	BlenderBot3	175B	Meta AI & Mila/McGill University	论文	blenderbot-3B模型模型
2022-11	Galatica	Galatica (120B)	Meta	论文	模型

Microsoft

发布时间	模型名称	参数量	机构	相关链接	开源
2019-05	UniLM	340M	Microsoft Research	论文 GitHub	模型
2019-10	DialoGPT	1.5B	Microsoft	论文	模型
2022-02	TNLG	TNLG v2 (530B) TNLG v2 (6.7B)	Microsoft/NVIDIA	论文官方博客	未开源

NVidia

发布时间	模型名称	参数量	机构	相关链接	开源
2021-10	MT-NLG (Megatron Touring NLG)	530B	NVidia	官方文档
2020-03	Megatron	8.3B (GPT-like), 3.9B (BERT-like)	NVidia	GitHub 论文1 论文2 论文3	模型
2022-06	Global Context ViT	90M	NVidia

OpenAI

发布时间	模型名称	参数量	机构	相关链接	开源
2018-06	GPT	117M	OpenAI	论文	模型
2019-02	GPT-2	1.5B	OpenAI	论文	模型
2020-05	GPT-3	GPT-3 davinci v1 (175B) GPT-3 curie v1 (6.7B) GPT-3 babbage v1 (1.3B) GPT-3 ada v1 (350M)	OpenAI	论文 GitHub	受限
2021-01	DALL-E	12B	OpenAI	官网论文 Demo
2021-02	CLIP	未知	OpenAI	论文 GitHub	模型
2021-07	Codex	Codex davinci v2 (Unknow) Codex davinci v1 (Unknow) Codex cushman v1 (Unknow)	OpenAI	论文	受限
2021-12	GLIDE	12B	OpenAI	论文 Demo
2022-01	InstructGPT	InstructGPT davinci v2 (175B) InstructGPT davinci v1 (175B) InstructGPT curie v1 (6.7B) InstructGPT babbage v1 (1.3B) InstructGPT ada v1 (350M*)	OpenAI	论文官网	受限
2022-04	DALL-E-2	3.5B	OpenAI	官网论文
2022-10	GPT-3.5	175B	OpenAI	官网	未开源
2022-10	ChatGPT	与 GPT3 相同	OpenAI	官网	未开源

Salesforce

发布时间	模型名称	参数量	机构	相关链接	开源
2019-09	CTRL	1.63B	Salesforce Research	论文	模型

Tsinghua University

发布时间	模型名称	参数量	机构	相关链接	开源
2020-10	GLM	GLM (130B)	Tsinghua University	论文 Demo	10B版模型

UC Berkeley

发布时间	模型名称	参数量	机构	相关链接	开源
2021-06	Trajectory Transformers	比 GPT 更小的架构	UC Berkeley	论文	模型

Yandex

发布时间	模型名称	参数量	机构	相关链接	开源
2022-06	YaLM	YaLM (100B)	Yandex	GitHub	模型

持续更新中 …

由于涉及到的模型较多，文中可能存在纰漏，还望指正，谢谢！

参考

[1] CRFM Benchmarking
[2] Transformer models: an introduction and catalog — 2023 Edition

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/354105.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

物联网在智慧农业中的应用

物联网在智慧农业中的应用

随看现代科技的不断发展，近年来我国农业的进步是显而易见的。从八九十年代农业生产以人力为主，到之后的机械渐渐代替人力，再到如今物联网技术在农业领域的应用，多种前沿技术应用于农业物联网，对智慧农业生产的各个环节…

阅读更多...

阿里云_山东鼎信短信的使用(云市场)

阿里云_山东鼎信短信的使用(云市场)

目录山东鼎信API工具类随机验证码工具类进行测试Pom依赖(可以先导入依赖)创建controllerSmsServiceSmsServiceImplswagger测试(也可以使用postman)山东鼎信API工具类山东鼎信短信官网找到java的Api，复制下来适当改了一下，为了调用(类名SmsUtils) p…

阅读更多...

GEE学习笔记七十二：【GEE之Python版教程六】命令行简介

GEE学习笔记七十二：【GEE之Python版教程六】命令行简介

这篇开始就要讲解GEE相关的内容，首先聊一下命令行的内容，这个在官方文档中有详细的介绍，这里我简单说一下常用的几个命令，剩余的大家在使用过程中如果又需要可以随时查看相关官方文档的介绍。官方文档地址：https://dev…

阅读更多...

pcie link training

pcie link training

有机会用瑞芯微做EP，X86做RC ，调试两者建立连接。环境配置如图所示，两块单板，期望瑞芯微做EP，X86做RC，两者能够互联。LINK 配置过程主要配置瑞芯微瑞芯微的芯片配置，在配置EP模式时，…

阅读更多...

5.2 BGP水平分割

5.2 BGP水平分割

5.2.2实验2：BGP水平分割 1. 实验目的熟悉BGP水平分割的应用场景掌握BGP水平分割的配置方法 2. 实验拓扑实验拓扑如图5-2所示： 图5-2：BGP水平分割 3. 实验步骤 （1）配置IP地址 R1的配置 <Huawei>…

阅读更多...

GEE学习笔记七十五：【GEE之Python版教程九】数值

GEE学习笔记七十五：【GEE之Python版教程九】数值

这章介绍一下数值类型，数值在python中可以分为：整型、浮点型、复数等，在GEE中我们常用的就是整形和浮点型数据。这段代码是在程序之前必须执行的，用来注册GEE。 import ee ee.Initialize() 1、数值的API 首先看一下GEE的pytho…

阅读更多...

一文读懂select、poll、epoll的用法

一文读懂select、poll、epoll的用法

select，poll，epoll都是IO多路复用的机制。I/O多路复用就通过一种机制，可以监视多个描述符，一旦某个描述符就绪（一般是读就绪或者写就绪），能够通知程序进行相应的读写操作。但select，…

阅读更多...

一些有用的shell命令盘点

一些有用的shell命令盘点

1、ssh 说明： ssh命令是经常用来连接服务器的，如何使用ssh命令连接服务器是一个后端开发必备的技能，当你需要查看服务器上日志等信息时，就需要使用该命令来登录到服务器进行查看。使用： ssh $USERNAME$IP例如&#…

阅读更多...

Python程序打包exe可执行软件教程

Python程序打包exe可执行软件教程

1、前言Python虽好，但是平时我们写的代码都是.py脚本文件，必须要在Python环境下才可以运行。如果一台电脑没有安装Python是无法运行我们的程序的。当然你也可以选择随身携带安装包。不过终究是有些麻烦。那么有没有什么办法，能把我们编写的…

阅读更多...

【扬尘监测系统】让扬尘管理迈向“智慧化”

【扬尘监测系统】让扬尘管理迈向“智慧化”

扬尘是指道路与管线施工、物料运输、物料堆放、植物栽种和养护等活动产生的粉尘颗粒物对大气造成的污染。治理扬尘污染，我们应该从源头出发，进行“防治”。扬尘监测系统是利用现代科学技术对扬尘的排放程度进行客观、科学、准确的量化和评价的设备&…

阅读更多...

零信任-易安联零信任介绍(11)

零信任-易安联零信任介绍(11)

目录易安联零信任公司介绍易安联零信任发展路线易安联零信任产品介绍易安联零信任架构易安联零信任解决方案易安联零信任发展展望易安联零信任公司介绍易安联是一家专业从事网络信息安全产品研发与销售，是行业内领先的“零信任”解决方案提供商&…

阅读更多...

ChatGPT或将引发新一轮失业潮？是真的吗？

ChatGPT或将引发新一轮失业潮？是真的吗？

最近，要说有什么热度不减的话题，那ChatGPT必然榜上有名。据悉是这是由美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型，它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，并协助人类…

阅读更多...

6.2 构建 RESTful 应用接口

6.2 构建 RESTful 应用接口

第6章构建 RESTful 服务 6.1 RESTful 简介 6.2 构建 RESTful 应用接口 6.3 使用 Swagger 生成 Web API 文档 6.4 实战：实现 Web API 版本控制 6.2 构建 RESTful 应用接口 6.2.1 Spring Boot 对 RESTful 的支持 Spring Boot 提供的spring-boot-starter-web组件完全…

阅读更多...

Pygame中画圆

Pygame中画圆

在Pygame中，可以通过draw模块下的circle()函数来进行画圆。1 准备工作的完成在画圆之前需要导入Pygame模块、初始化Pygame模块以及创建Surface对象。import pygame from pygame.locals import * pygame.init() screen pygame.display.set_mode((600,500))其中&…

阅读更多...

SpringBoot实现内置定时发送邮件功能

SpringBoot实现内置定时发送邮件功能

前段时间因为公司用了定时任务，所以写了2篇定时任务的文章，一篇是正常如何在Springboot 编程中如何去使用quartz ，第二篇就是正常业务性的增删改查，今天我们来看下如何使用 quartz 去定时给女朋友发邮件 ，结尾会放上完…

阅读更多...

智能电子办公标牌解决方案

智能电子办公标牌解决方案

一、WiFi智能电子标牌智能电子办公标牌将它放在任何地方，以可视化会议日程、约会信息、行动计划和协作任务，使团队能够更有效地工作并更好地利用空间。优势： ● 超低功耗，充一次电管用一年，支持Type-C接口充电 ●…

阅读更多...

Linux之进程

Linux之进程

一.冯诺依曼体系在计算机中，CPU（中央处理器）是不直接跟外部设备直接进行通信的，因为CPU处理速度太快了，而设备的数据读取和输入有太慢，而是CPU以及外设直接跟存储器（内存）打交道&am…

阅读更多...

Python 之 Matplotlib 柱状图（竖直柱状图和水平柱状图）、直方图和饼状图

Python 之 Matplotlib 柱状图（竖直柱状图和水平柱状图）、直方图和饼状图

文章目录一、柱状图二、竖直柱状图1. 基本的柱状图2. 同位置多柱状图3. 堆叠柱状图三、水平柱状图1. 基本的柱状图2. 同位置多柱状图3. 堆叠柱状图四、直方图 plt.hist()1. 返回值2. 添加折线直方图3. 不等距分组4. 多类型直方图5. 堆叠直方图五、饼状图 pie()1. 百分比显示 pe…

阅读更多...

初步使用MSYS2

初步使用MSYS2

在此镜像站点下载， https://mirror.tuna.tsinghua.edu.cn/help/msys2/ 根据资料， MSYS2 （Minimal SYStem 2） 是一个MSYS的独立改写版本，主要用于 shell 命令行开发环境。同时它也是一个在Cygwin （POSIX …

阅读更多...

FPGA 10M50DCF672C7G/10M50DCF672C8G/10M50DCF672I7G工业、汽车和消费应用

FPGA 10M50DCF672C7G/10M50DCF672C8G/10M50DCF672I7G工业、汽车和消费应用

FPGA现场可编程门阵列 10M50DCF672C7G/10M50DCF672C8G/10M50DCF672I7G 封装FBGA672FBGA672封装图（明佳达电子）描述MAX 10器件是单芯片、非易失性低成本可编程逻辑器件(pld)，用于集成最优的系统组件集。MAX 10设备的亮点包括:内部存储双配置闪…

阅读更多...

推荐文章

最新文章