从 ELMo 到 ChatGPT:历数 NLP 近 5 年必看大模型

news2024/12/27 14:04:55

目录

  • AI21 Labs
  • Alibaba
  • Allen Institute for AI
  • Amazon
  • Anthropic
  • BAAI
  • Baidu
  • BigScience
  • Cohere
  • DeepMind
  • EleutherAI
  • Google
  • Huggingface
  • iFLYTEK
  • Meta
  • Microsoft
  • NVidia
  • OpenAI
  • Salesforce
  • Tsinghua University
  • UC Berkeley
  • Yandex
  • 持续更新中 ...
  • 参考


团队博客: CSDN AI小组


先上 “万恶之源”:Transformer
在这里插入图片描述


按机构分类

AI21 Labs

发布时间模型名称参数量机构相关链接开源
2021-09Jurassic-1 (J1)J1-Jumbo v1 (178B)
J1-Large v1 (7.5B)
J1-Grande v1 (17B)
AI21 Labs论文
官方文档
技术报告
受限

Alibaba

发布时间模型名称参数量机构相关链接开源
2019-08StructBertstructbert.en.large(340M)
structroberta.en.large(355M)
structbert.ch.large(330M)
Alibaba Group Inc.论文
GitHub
模型

Allen Institute for AI

发布时间模型名称参数量机构相关链接开源
2018-02ELMoSmall(13.6M)
Medium(28.0M)
Original(93.6M)
Allen Institute for AI论文模型

Amazon

发布时间模型名称参数量机构相关链接开源
2022-03DQ-BART与标准BART相比,参数减少了30倍Amazon论文

Anthropic

发布时间模型名称参数量机构相关链接开源
2021-12Anthropic-LMAnthropic-LM v4-s3 (52B)Anthropic论文1
论文2
未开源

BAAI

发布时间模型名称参数量机构相关链接开源
2021-06Wu Dao 2.01.75TBAAI官网模型

Baidu

发布时间模型名称参数量机构相关链接开源
2019-05ERNIE114MBaiduGitHub
论文
模型

BigScience

发布时间模型名称参数量机构相关链接开源
2022-05T0pp11BBigScience论文模型
2022-07BLOOM176BBigScience论文模型
2022-11BLOOMZ176BBigScience论文模型

Cohere

发布时间模型名称参数量机构相关链接开源
2022-06CohereCohere xlarge v20220609 (52.4B)
Cohere large v20220720 (13.1B)
Cohere medium v20220720 (6.1B)
Cohere small v20220720 (410M)
Cohere xlarge v20221108 (52.4B)
Cohere medium v20221108 (6.1B)
Cohere官网受限

DeepMind

发布时间模型名称参数量机构相关链接开源
2021-07AlphaFold21MDeepMind论文
2021-12Gopher280BDeepMind论文
官网
未开源
2022-03Chincilla70BDeepMind论文未开源
2022-03GopherCite280BDeepmind论文
2022-09Sparrow70BDeepmind论文

EleutherAI

发布时间模型名称参数量机构相关链接开源
2021-03GPT-Neo5B, 2.7B (XL)EleutherAI论文模型
2021-06GPT-JGPT-J (6B)EleutherAI博客模型
2021-12StableDiffusion890MLMU Munich & Stability.ai & Eleuther.ai论文模型
2022-04GPT-NeoXGPT-NeoX (20B)EleutherAI论文模型
2022-04Flamingo80B (largest)Deepmind论文flamingo-mini模型
2022-05Gato1.2BDeepmind论文

Google

发布时间模型名称参数量机构相关链接开源
2018-10BERTBase = 110M
Large = 340M
Google论文模型
2019-01Transformer XL151MCMU & Google论文模型
2019-05XLNetBase=117M
Large=360M
Google AI Brain Team & CMU论文模型
2019-09ALBERTBase = 12M
Large = 18M
XLarge = 60M
Google Research论文模型
2019-10T511BGoogle论文模型
2019-12PegasusBase = 223M
Large = 568M
UCL & Google论文模型
2020-03ELECTRABase = 110M
Large = 330M
Google Brain & Stanford University论文模型
2020-07BigBird取决于整体架构Google Research论文模型
2020-10ViT86M(Base) to 632M (Huge)Google论文模型
2021-01Switch1TGoogle论文模型
2021-06Decision Transformers117MGoogle Brain & UC Berkeley & Facebook AI Research论文模型
2021-12GLaM1.2T覆盖64个专业领域,但只有96B被激活用于推理Google论文
2022-01LAMDA137BGoogle官网
2022-04PaLMPaLM (540B)Google论文
官网
未开源
2022-05UL2UL2 (20B)Google论文模型
2022-06Imagen2BGoogle官网
2022-06Minerva540BGoogle官网
2022-12Flan-T5Flan-T5 (11B)Google论文模型

Huggingface

发布时间模型名称参数量机构相关链接开源
2019-10DistilBERT66MHuggingface论文模型

iFLYTEK

发布时间模型名称参数量机构相关链接开源
2020-11MacBertMacBERT-large, Chinese(324M)
MacBERT-base, Chinese(102M)
iFLYTEK AI Research & Harbin Institute of Technology论文模型

Meta

发布时间模型名称参数量机构相关链接开源
2019-07RoBERTa356MFacebook AI & UW论文模型
2019-10BART比 BERT 多 10%Facebook AI论文模型
2019-10XLM-RoBERTaBase = 270M
Large = 550M
Facebook论文模型
2020-01mBART与BART相同Facebook论文模型
2021-03Swin Transformer29M-197MFacebookGitHub
论文
模型
2021-07HTML400MFacebook论文
2022-01CM313B (largest)Facebook AI Research论文
2022-03SeeKer与基模型相同Facebook官网
2022-05OPTOPT (175B)
OPT (66B)
Meta AI论文
官网
模型
2022-08BlenderBot3175BMeta AI & Mila/McGill University论文blenderbot-3B模型
模型
2022-11GalaticaGalatica (120B)Meta论文模型

Microsoft

发布时间模型名称参数量机构相关链接开源
2019-05UniLM340MMicrosoft Research论文
GitHub
模型
2019-10DialoGPT1.5BMicrosoft论文模型
2022-02TNLGTNLG v2 (530B)
TNLG v2 (6.7B)
Microsoft/NVIDIA论文
官方博客
未开源

NVidia

发布时间模型名称参数量机构相关链接开源
2021-10MT-NLG (Megatron Touring NLG)530BNVidia官方文档
2020-03Megatron8.3B (GPT-like), 3.9B (BERT-like)NVidiaGitHub
论文1
论文2
论文3
模型
2022-06Global Context ViT90MNVidia

OpenAI

发布时间模型名称参数量机构相关链接开源
2018-06GPT117MOpenAI论文模型
2019-02GPT-21.5BOpenAI论文模型
2020-05GPT-3GPT-3 davinci v1 (175B)
GPT-3 curie v1 (6.7B)
GPT-3 babbage v1 (1.3B)
GPT-3 ada v1 (350M)
OpenAI论文
GitHub
受限
2021-01DALL-E12BOpenAI官网
论文
Demo
2021-02CLIP未知OpenAI论文
GitHub
模型
2021-07CodexCodex davinci v2 (Unknow)
Codex davinci v1 (Unknow)
Codex cushman v1 (Unknow)
OpenAI论文受限
2021-12GLIDE12BOpenAI论文
Demo
2022-01InstructGPTInstructGPT davinci v2 (175B*)
InstructGPT davinci v1 (175B*)
InstructGPT curie v1 (6.7B*)
InstructGPT babbage v1 (1.3B*)
InstructGPT ada v1 (350M*)
OpenAI论文
官网
受限
2022-04DALL-E-23.5BOpenAI官网
论文
2022-10GPT-3.5175BOpenAI官网未开源
2022-10ChatGPT与 GPT3 相同OpenAI官网未开源

Salesforce

发布时间模型名称参数量机构相关链接开源
2019-09CTRL1.63BSalesforce Research论文模型

Tsinghua University

发布时间模型名称参数量机构相关链接开源
2020-10GLMGLM (130B)Tsinghua University论文
Demo
10B版模型

UC Berkeley

发布时间模型名称参数量机构相关链接开源
2021-06Trajectory Transformers比 GPT 更小的架构UC Berkeley论文模型

Yandex

发布时间模型名称参数量机构相关链接开源
2022-06YaLMYaLM (100B)YandexGitHub模型

持续更新中 …

由于涉及到的模型较多,文中可能存在纰漏,还望指正,谢谢!

参考

[1] CRFM Benchmarking
[2] Transformer models: an introduction and catalog — 2023 Edition

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/354105.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

物联网在智慧农业中的应用

随看现代科技的不断发展,近年来我国农业的进步是显而易见的。从八九十年代农业生产以人力为主,到之后的机械渐渐代替人力,再到如今物联网技术在农业领域的应用,多种前沿技术应用于农业物联网,对智慧农业生产的各个环节…

阿里云_山东鼎信短信的使用(云市场)

目录山东鼎信API工具类随机验证码工具类进行测试Pom依赖(可以先导入依赖)创建controllerSmsServiceSmsServiceImplswagger测试(也可以使用postman)山东鼎信API工具类 山东鼎信短信官网 找到java的Api,复制下来 适当改了一下,为了调用(类名SmsUtils) p…

GEE学习笔记 七十二:【GEE之Python版教程六】命令行简介

这篇开始就要讲解GEE相关的内容,首先聊一下命令行的内容,这个在官方文档中有详细的介绍,这里我简单说一下常用的几个命令,剩余的大家在使用过程中如果又需要可以随时查看相关官方文档的介绍。官方文档地址:https://dev…

pcie link training

有机会用瑞芯微做EP,X86做RC ,调试两者建立连接。环境配置如图所示,两块单板,期望瑞芯微做EP,X86做RC,两者能够互联。LINK 配置过程主要配置瑞芯微瑞芯微的芯片配置,在配置EP模式时,…

5.2 BGP水平分割

5.2.2实验2&#xff1a;BGP水平分割 1. 实验目的 熟悉BGP水平分割的应用场景掌握BGP水平分割的配置方法 2. 实验拓扑 实验拓扑如图5-2所示&#xff1a; 图5-2&#xff1a;BGP水平分割 3. 实验步骤 &#xff08;1&#xff09;配置IP地址 R1的配置 <Huawei>…

GEE学习笔记 七十五:【GEE之Python版教程九】数值

这章介绍一下数值类型&#xff0c;数值在python中可以分为&#xff1a;整型、浮点型、复数等&#xff0c;在GEE中我们常用的就是整形和浮点型数据。 这段代码是在程序之前必须执行的&#xff0c;用来注册GEE。 import ee ee.Initialize() 1、数值的API 首先看一下GEE的pytho…

一文读懂select、poll、epoll的用法

select&#xff0c;poll&#xff0c;epoll都是IO多路复用的机制。I/O多路复用就通过一种机制&#xff0c;可以监视多个描述符&#xff0c;一旦某个描述符就绪&#xff08;一般是读就绪或者写就绪&#xff09;&#xff0c;能够通知程序进行相应的读写操作。但select&#xff0c;…

一些有用的shell命令盘点

1、ssh 说明&#xff1a; ssh命令是经常用来连接服务器的&#xff0c;如何使用ssh命令连接服务器是一个后端开发必备的技能&#xff0c;当你需要查看服务器上日志等信息时&#xff0c;就需要使用该命令来登录到服务器进行查看。 使用&#xff1a; ssh $USERNAME$IP例如&#…

Python程序打包exe可执行软件教程

1、前言Python虽好&#xff0c;但是平时我们写的代码都是.py脚本文件&#xff0c;必须要在Python环境下 才可以运行。如果一台电脑没有安装Python是无法运行我们的程序的。当然你也可以选择随身携带安装包。 不过终究是有些麻烦。那么有没有什么办法&#xff0c;能把我们编写的…

【扬尘监测系统】让扬尘管理迈向“智慧化”

扬尘是指道路与管线施工、物料运输、物料堆放、植物栽种和养护等活动产生的粉尘颗粒物对大气造成的污染。 治理扬尘污染&#xff0c;我们应该从源头出发&#xff0c;进行“防治”。扬尘监测系统是利用现代科学技术对扬尘的排放程度进行客观、科学、准确的量化和评价的设备&…

零信任-易安联零信任介绍(11)

​目录 ​易安联零信任公司介绍 易安联零信任发展路线 易安联零信任产品介绍 易安联零信任架构 易安联零信任解决方案 易安联零信任发展展望 易安联零信任公司介绍 易安联是一家专业从事网络信息安全产品研发与销售&#xff0c;是行业内领先的“零信任”解决方案提供商&…

ChatGPT或将引发新一轮失业潮?是真的吗?

最近&#xff0c;要说有什么热度不减的话题&#xff0c;那ChatGPT必然榜上有名。据悉是这是由美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型&#xff0c;它能够通过学习和理解人类的语言来进行对话&#xff0c;还能根据聊天的上下文进行互动&#xff0c;并协助人类…

6.2 构建 RESTful 应用接口

第6章 构建 RESTful 服务 6.1 RESTful 简介 6.2 构建 RESTful 应用接口 6.3 使用 Swagger 生成 Web API 文档 6.4 实战&#xff1a;实现 Web API 版本控制 6.2 构建 RESTful 应用接口 6.2.1 Spring Boot 对 RESTful 的支持 Spring Boot 提供的spring-boot-starter-web组件完全…

Pygame中画圆

在Pygame中&#xff0c;可以通过draw模块下的circle()函数来进行画圆。1 准备工作的完成在画圆之前需要导入Pygame模块、初始化Pygame模块以及创建Surface对象。import pygame from pygame.locals import * pygame.init() screen pygame.display.set_mode((600,500))其中&…

SpringBoot实现 内置 定时 发送邮件功能

前段时间因为公司用了定时任务&#xff0c;所以写了2篇定时任务的文章&#xff0c;一篇是正常如何在Springboot 编程中如何去使用quartz &#xff0c;第二篇就是 正常业务性的增删改查&#xff0c;今天我们来看下如何使用 quartz 去定时给女朋友发邮件 &#xff0c;结尾会放上完…

智能电子办公标牌解决方案

一、WiFi智能电子标牌 智能电子办公标牌将它放在任何地方&#xff0c;以可视化会议日程、约会信息、行动计划和协作任务&#xff0c;使团队能够更有效地工作并更好地利用空间。 优势&#xff1a; ● 超低功耗&#xff0c;充一次电管用一年&#xff0c;支持Type-C接口充电 ●…

Linux之进程

一.冯诺依曼体系 在计算机中&#xff0c;CPU&#xff08;中央处理器&#xff09;是不直接跟外部设备直接进行通信的&#xff0c;因为CPU处理速度太快了&#xff0c;而设备的数据读取和输入有太慢&#xff0c;而是CPU以及外设直接跟存储器&#xff08;内存&#xff09;打交道&am…

Python 之 Matplotlib 柱状图(竖直柱状图和水平柱状图)、直方图和饼状图

文章目录一、柱状图二、竖直柱状图1. 基本的柱状图2. 同位置多柱状图3. 堆叠柱状图三、水平柱状图1. 基本的柱状图2. 同位置多柱状图3. 堆叠柱状图四、直方图 plt.hist()1. 返回值2. 添加折线直方图3. 不等距分组4. 多类型直方图5. 堆叠直方图五、饼状图 pie()1. 百分比显示 pe…

初步使用MSYS2

在此镜像站点下载&#xff0c; https://mirror.tuna.tsinghua.edu.cn/help/msys2/ 根据资料&#xff0c; MSYS2 &#xff08;Minimal SYStem 2&#xff09; 是一个MSYS的独立改写版本&#xff0c;主要用于 shell 命令行开发环境。同时它也是一个在Cygwin &#xff08;POSIX …

FPGA 10M50DCF672C7G/10M50DCF672C8G/10M50DCF672I7G工业、汽车和消费应用

FPGA现场可编程门阵列 10M50DCF672C7G/10M50DCF672C8G/10M50DCF672I7G 封装FBGA672FBGA672封装图&#xff08;明佳达电子&#xff09;描述MAX 10器件是单芯片、非易失性低成本可编程逻辑器件(pld)&#xff0c;用于集成最优的系统组件集。MAX 10设备的亮点包括:内部存储双配置闪…