Transformer 要占领地球了,大语言模型最全盘点!

news2024/7/6 17:42:54

随着最近半年 ChatGPT 火爆全球,基于 Transformer 架构的大语言模型(LLM)逐渐走入大众视野,可以说,Transformer 在AI 领域的影响力绝不亚于变形金刚在科幻领域的影响力。

Transformer 的核心思想是使用自注意力机制(Self-Attention Mechanism)来建立序列之间的依赖关系。就在2年前,很多模型主要还是基于长短期记忆(LSTM)和递归神经网络(RNN)的其他变体,而如今大语言模型都是基于 Transformer 的注意力机制。AI领域从传统机器学习,到神经网络,再到如今的 Transformer,正以井喷的势头快速发展。

图片

人工智能发展方向

当下大语言模型市场百(xuè)花(yǔ)齐(xīng)放(fēng),因此我们整理了一份可能是全网最全的大语言模型盘点,以期大家抓住 AIGC 的时代脉搏。

阅读和收藏本文,你将了解:

  • 全球大语言模型发展脉络和族谱矩阵

  • 谷歌、微软两大阵营大语言模型迭代历程

  • 全球和国内主要大语言模型盘点

  全球大语言模型发展脉络  

下图展示了 2019 年以来百亿参数规模的大语言模型发布的时间线,其中标黄的大模型已开源。可以看到,2022 年至今新模型层出不穷,同时 OpenAI 和 Google 大模型迭代速度明显高于其他厂商。

图片

大语言模型发展趋势

  全球大语言模型族谱矩阵  

下表展示了主要大语言模型的家族谱系,不同颜色代表不同的技术起源。横轴为时间线,纵轴为模型训练的参数规模。自 2018 年以来大语言模型训练规模不断膨胀,从参数规模来看 2022 年也是暴发的一年。

图片

大语言模型参数规模象限

图片

大语言模型技术路线族谱关系

  巨头对垒:谷歌与微软竞速持续升级  

22 年 11 月 OpenAI 发布基于 GPT-3.5 系列全新对话式 AI 模型 ChatGPT,此次迭代升级具备跨时代意义;今年 2 月微软将 ChatGPT 接入 Bing,重新定义搜索引擎;3 月多模态大型语言模型 GPT-4 发布,在“理解+创造”上展现出更强的能力。

面对 OpenAI 陆续推出的 GPT 系列,谷歌步步紧追,今年 2 月和 3 月分别推出对标 ChatGPT 的 Bard 和史上最大多模态具身视觉语言模型 PaLM-E;5 月 11 日谷歌正式打响“反击战”,发布大语言模型 PaLM2 直指 GPT-4 痛点,同时在 25 余款应用上接入 AI。

图片

微软vs.谷歌两大阵营发布升级

  大语言模型训练数据源  

通过大语言模型的训练数据源,我们可以发现这些模型主要还是通过抓取网页数据进行训练,GPT-3 在网页的基础上还加入了部分图书信息。有趣的是 DeepMind 开发的 AlphaCode 训练数据源全部是代码,可推测其在编程方面具备强大的能力。据了解,AlphaCode 在 2022 年参加了 Codeforces 举行的 10 场编程比赛,排名前 54.3%,击败了 46% 的参赛者,Elo 评分 1238。

图片

不同大语言模型训练数据源

  大语言模型训练硬件资源  

大规模语言训练对硬件资源消耗是十分巨大的,除了最早使用 GPU 作为训练芯片,现在不少大语言模型已经开始使用 TPU 作为主要训练芯片。一方面,硬件的高速发展无疑提高了大语言模型的迭代效率;另一方面,大语言模型的激烈竞争也导致了以芯片和服务器为主的硬件价格大涨。根据界面新闻,英伟达 AI 旗舰芯片 H100 售价在多个渠道炒至 4 万美元, 相比此前零售商报价 3.6 万美元明显提价,而 1 万枚英伟达 A100 芯片是开发大语言模型的算力门槛。

图片

大语言模型训练硬件资源比较

  全球主要大语言模型盘点  

从全球范围来看,大语言模型的主要发布机构有 Google、OpenAI、Facebook、Microsoft,以及 Deepmind 和 EleutherAI。模型参数规模以百亿级和千亿级为主,技术架构主要为 Encoder-Decoder。下表所列出的模型数量接近 100,实际上应该会更多一些。

图片

  全球主要大语言模型比较 

 

  国内大语言模型盘点  

当然,大语言模型这把火也点燃了国内科技公司对大语言模型的热情,凭借前期自研或者开源模型的基础,目前国内很多机构都推出了大语言模型,不完全统计已超20家。

图片

  国内大语言模型比较 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/820322.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

视频怎样分割成两段?分享几种视频分割方法

当需要制作长时间的视频时,将视频分割成几段可以帮助你更好地组织视频内容,使其更易于理解和学习。与此同时,将视频分割成多个小部分也可以在不影响整体视频质量的情况下将其上传到各种平台,并节省存储空间。此外,如果…

使用文心一言等智能工具指数级提升嵌入式/物联网(M5Atom/ESP32)和机器人操作系统(ROS1/ROS2)学习研究和开发效率

以M5AtomS3为例,博客撰写效率提升10倍以上: 0. Linux环境Arduino IDE中配置ATOM S3_zhangrelay的博客-CSDN博客 1. M5ATOMS3基础01按键_zhangrelay的博客-CSDN博客 2. M5ATOMS3基础02传感器MPU6886_zhangrelay的博客-CSDN博客 3. M5ATOMS3基础03给RO…

快速搭建单机RocketMQ服务(开发环境)

一、什么是RocketMQ ​ RocketMQ是阿里巴巴开源的一个消息中间件,在阿里内部历经了双十一等很多高并发场景的考验,能够处理亿万级别的消息。2016年开源后捐赠给Apache,现在是Apache的一个顶级项目。 早期阿里使用ActiveMQ&#xff0c…

SegNeXt:重新思考用于语义分割的卷积注意力

&原文信息 原文题目:《SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation》 原文引用:Guo M H, Lu C Z, Hou Q, et al. Segnext: Rethinking convolutional attention design for semantic segmentation[J]. Advance…

SQL从三个表中根据时间分别查询并汇总数量一行展示

需求:如果您要从三个表中根据时间分别查询并汇总数量,然后将结果以时间和数量一行展示,可以使用子查询和条件聚合。 入库主表 入库明细表 出库主表 出库明细表 退货主表 退货明细表 SQL代码 SELECT time,sum(a.inQty) as inQty,sum(a.outQty…

想写几个上位机,是选择学c#还是 c++ qt呢?

C#基本也就上位机开发开发,另外做做日常用的小工具很方便。 结合PLC,以太网做上位机,这个基本上控制这块都比较有需求。 另外我们用C#也做一些工具的二次开发,感觉还行。 C用qt框架其实学习起来可能稍微复杂些,但是…

<MyBatis>MyBatis把空字符串转换成0的问题处理方案

先看问题: Postman入参: MyBatis采用map循环插入: // Mapper接口层void addPar(Param(value "question") Map<String, Object> paramMap);<!-- 新增&#xff1a;参数 --><insert id"addPar" parameterType"map">INSERT IGNO…

linux 配置nacos遇见的问题及解决办法

本次的集群是启动一个服务的三个不同端口&#xff0c;配置如下&#xff1a; 一.application.properties 加上下列配置&#xff0c;目的是使用自己的mysql数据库&#xff1a; spring.datasource.platformmysql db.num1 db.url.0jdbc:mysql://127.0.0.1:3306/nacos_config?s…

【深度学习】InST,Inversion-Based Style Transfer with Diffusion Models,论文,风格迁移,实战

代码&#xff1a;https://github.com/zyxElsa/InST 论文&#xff1a;https://arxiv.org/abs/2211.13203 文章目录 AbstractIntroductionRelated WorkImage style transferText-to-image synthesisInversion of diffusion models MethodOverview ExperimentsComparison with Sty…

构建可靠的前端工程:自动化、代码质量与性能优化

文章目录 代码质量工具与实践1. 代码静态检查工具2. 单元测试和集成测试3. 自动化构建和持续集成4. 代码审查和Pull请求(PR)5. 代码规范和格式化6. Git工作流和版本控制管理 前端性能优化工具与技巧1. 使用压缩和合并2. 图片优化3. 延迟加载4. CDN加速5. 缓存优化6. 代码优化7.…

一个简单的登录功能,你真的会测试吗?

前段时间看了《测试工程师全栈技术进阶与实战》一书&#xff0c;收获颇丰。书中刚开始是以一个登录功能开始的&#xff0c;这个例子非常具有代表性。说到这个登录功能&#xff0c;人人认为很简单&#xff0c;但是要设计好的测试用例&#xff0c;还是要费一番功夫的。把书中的这…

花费7元训练自己的GPT 2模型

在上一篇博客中&#xff0c;我介绍了用Tensorflow来重现GPT 1的模型和训练的过程。这次我打算用Pytorch来重现GPT 2的模型并从头进行训练。 GPT 2的模型相比GPT 1的改进并不多&#xff0c;主要在以下方面&#xff1a; 1. GPT 2把layer normalization放在每个decoder block的前…

森林生物量(蓄积量)数据处理到随机森科估算全流程

python森林生物量&#xff08;蓄积量&#xff09;估算全流程 一.哨兵2号获取/处理/提取数据1.1 影像处理与下载采用云概率影像去云采用6S模型对1C级产品进行大气校正geemap下载数据到本地NDVI 1.2 各种参数计算&#xff08;生物物理变量、植被指数等&#xff09;LAI&#xff1a…

程序员面试金典17.*

文章目录 17.01 不用加号的加法17.04 消失的数字17.05字母与数字17.06 2出现的次数17.07 婴儿名字17.08 马戏团人塔17.09 第k个数17.10 主要元素17.11 单词距离17.12 BiNode17.13 恢复空格&#xff08;未做&#xff0c;字典树dp&#xff09;17.14 最小K个数17.15 最长单词17.16…

TIA Portal(博途)V15.0 安装教程

哈喽&#xff0c;大家好&#xff0c;我是雷工。 最近项目上用到博图15.0软件&#xff0c;在虚拟机安装博图软件。下面记录安装过程。 一、安装环境 虚拟机内的Win10系统专业版64位。 二、注意事项 1、安装文件的存放路径不能含中文字符&#xff0c;软件需安装在C盘。 2、操…

uniapp实现地图点聚合

点聚合的最重要的一个地方是在 markers 中添加 joinCluster true 这个重要的属性&#xff0c;否则将无法开启点聚合功能。 其实在uniapp的官方文档里体现的不是那么清楚&#xff0c;但是在小程序文档提示的就相当清楚。 实现效果如下&#xff1a; 重点&#xff1a;需要编译在小…

PySpark介绍与安装

Spark是什么 定义&#xff1a;Apache Spark是用于大规模数据&#xff08;large-scala data&#xff09;处理的统一&#xff08;unified&#xff09;分析引擎。 简单来说&#xff0c;Spark是一款分布式的计算框架&#xff0c;用于调度成百上千的服务器集群&#xff0c;计算TB、…

免费商城搭建之java版直播商城平台规划及常见的营销模式+电商源码+小程序+三级分销+二次开发

&#xfeff; 1. 涉及平台 平台管理、商家端&#xff08;PC端、手机端&#xff09;、买家平台&#xff08;H5/公众号、小程序、APP端&#xff08;IOS/Android&#xff09;、微服务平台&#xff08;业务服务&#xff09; 2. 核心架构 Spring Cloud、Spring Boot、Mybatis、R…

Linux 入侵痕迹清理技巧(仅限学习安全知识)

vim ~/.bash_history 查看历史操作命令&#xff1a;history history记录文件&#xff1a;more ~/.bash_history history -c #使用vim打开一个文件 vi test.txt # 设置vim不记录命令&#xff0c;Vim会将命令历史记录&#xff0c;保存在viminfo文件中。 :set history0 # 用vim的…

Qt之qml和widget混合编程调用

首先是创建一个widget项目 然后需要添加qml和quick的插件使用 QT quickwidgets qml 接着要在界面上创建一个quickwidget和按钮 创建一个c对象类 QObjectQml #ifndef QOBJECTQML_H #define QOBJECTQML_H#include <QObject> #include <QDebug> class QObjectQml …