【LLM系列之底座模型对比】LLaMA、Palm、GLM、BLOOM、GPT模型结构对比

news2024/12/26 11:00:26

LLama

  • [GPT3] 使用RMSNorm(即Root Mean square Layer
    Normalization)对输入数据进行标准化,RMSNorm可以参考论文:Root mean square layer
    normalization。
  • [PaLM]使用激活函数SwiGLU, 该函数可以参考PALM论文:Glu variants improve transformer。
  • [GPTNeo]使用Rotary Embeddings进行位置编码,该编码可以参考论文 Roformer: Enhanced
    transformer with rotary position embedding。
  • 使用了AdamW优化器,并使用cosine learning rate schedule,
  • 使用因果多头注意的有效实现来减少内存使用和运行时间。该实现可在xformers

Palm

  • 采用SwiGLU激活函数:用于 MLP 中间激活,采用SwiGLU激活函数:用于 MLP 中间激活,因为与标准 ReLU、GELU
    或 Swish 激活相比,《GLU Variants Improve Transformer》论文里提到:SwiGLU
    已被证明可以显著提高模型效果
  • 提出Parallel Layers:每个 Transformer 结构中的“并行”公式:与 GPT-J-6B
    中一样,使用的是标准“序列化”公式。并行公式使大规模训练速度提高了大约 15%。消融实验显示在 8B 参数量下模型效果下降很小,但在
    62B 参数量下没有模型效果下降的现象。
  • Multi-Query Attention:每个头共享键/值的映射,即“key”和“value”被投影到 [1,
    h],但“query”仍被投影到形状 [k, h],这种操作对模型质量和训练速度没有影响,但在自回归解码时间上有效节省了成本。
  • 使用RoPE embeddings:使用的不是绝对或相对位置嵌入,而是RoPE,是因为 RoPE 嵌入在长文本上具有更好的性能 ,
  • 采用Shared Input-Output Embeddings:输入和输出embedding矩阵是共享的,这个我理解类似于word2vec的输入W和输出W’:

GLM

  • Layer Normalization的顺序和残差连接被重新排列,
  • 用于输出标记预测的单个线性层;
  • ReLU s替换为GELU s
  • 二维位置编码

BLOOM

  • 使用 ALiBi 位置嵌入,它根据键和查询的距离直接衰减注意力分数。 与原始的 Transformer 和 Rotary 嵌入相比,它可以带来更流畅的训练和更好的下游性能。ALiBi不会在词嵌入中添加位置嵌入;相反,它会使用与其距离成比例的惩罚来偏向查询键的注意力评分。

  • Embedding Layer Norm 在第一个嵌入层之后立即使用,以避免训练不稳定。

  • 使用了 25 万个标记的词汇表。 使用字节级 BPE。 这样,标记化永远不会产生未知标记

  • 两个全连接层:

GPT

GPT 使用 Transformer 的 Decoder 结构,并对 Transformer Decoder 进行了一些改动,原本的 Decoder 包含了两个 Multi-Head Attention 结构,GPT 只保留了 Mask Multi-Head Attention,如下图所示:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/542445.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java:异常

异常:就是代表程序出现的问题 作用: 作用一:异常是用来查询bug的关键参考信息作用二:异常可以作为方法内部的一种特殊返回值,以便通知调用者底层的执行情况(抛异常) 1.Error:代表的系统级别错误 (属于严重问题) 2.…

Jetpack Compose中的列表控件LazyRow和LazyColumn详解

背景 如果你需要显示大量的条目(或一个未知长度的列表),使用像 Column 这样的布局会导致性能问题,因为所有的条目都会被组合和布局,无论它们是否可见。那么,在Compose中有没有像RecycleView的控件可以滑动…

python类的高级函数

类的高级函数 __str__ 如果定义了该函数,当print当前实例化对象的时候,会返回该函数的return信息 用法: def __str__(self): return str_type 参数:无 返回值:一般返回对于该类的描述信息 __getattr__ 当调用的…

C++类模板——嵌套使用

目录 类模板的嵌套分类 一、数组的成员是栈 (一)Vector大小为2,Stack大小为3;不对Vector进行扩展;(浅拷贝),只对C内置数据类型进行拷贝 1)代码 2)注意事…

代码随想录算法训练营第四十五天 | dp最小值题目

70. 爬楼梯 的改进版 改进条件 改为:一步一个台阶,两个台阶,三个台阶,…,直到 m个台阶。问有多少种不同的方法可以爬到楼顶呢? 文档讲解:代码随想录 (programmercarl.com) 状态:能…

IS420ESWBH3A DIN导轨或潜在面板安装

马克维耶斯IONet交换机IS420ESWBH3A由通用电气公司生产,工作在24/28 VDC,这种型号没有任何光纤端口,但有16个铜端口。IS420ESWBH3A开关在DIN导轨安装时需要安装夹,在面板安装时只需要螺钉。 IS420ESWBH3A技术规范 光纤端口数量没…

chatgpt赋能Python-python3_10安装numpy

Python3.10安装numpy:一步一步教你如何轻松完成 Python3.10虽然已经发布了,但是有些模块还需要手动安装,例如numpy。在这篇文章中,我们将会详细介绍如何安装numpy模块,以及为什么要使用numpy模块。 什么是numpy模块&…

Redis教程-基础篇

第一部分:入门 1.1 Redis简介 Redis(Remote Dictionary Server)是一个高性能的键值存储系统,它是一种开源、基于内存的数据结构服务器。Redis以其出色的性能和灵活的数据结构而受到广泛关注和应用。下面展开描述Redis的定义和特…

chatgpt赋能Python-python3gui

Python3 GUI- 让你的应用程序更酷炫 随着技术的发展,图形用户界面(Graphical User Interface, GUI)已经成为软件开发过程中不可或缺的一部分。Python3是一个用于快速开发应用程序的强大编程语言,支持多种GUI库。本文将为您介绍Python3 GUI的一些基本概念…

web安全第一天 ,域名,dns

第一天 什么是域名?域名就是网络地址 在hhtp之后的就是域名 域名在哪里注册呢 国内注册商有很多,在网络上搜索一下阿里云万网就可以注册 什么是二级域名和多级域名 域名通常都是www.开头 ,而www.被称为顶级域名,在搜索的时候…

【云计算与虚拟化】第五章 实验一 vCenter Server的高级功能—vMotion、虚拟内存、虚拟CPU、磁盘分配及资源池

实验一 vCenter Server的高级功能—vMotion、虚拟内存、虚拟CPU、磁盘分配及资源池 1.通过vSphere client 客户端登陆vCenter服务器 (1)再次新建一个共享存储,iSCSI类型的,大小60G,名称为iSCSI-2。 (2…

C++模板类与函数

目录 分类 一、普通函数,参数和返回值是模板类的实例化版本(只支持AA模板类的某一个具体化类) 1)代码 2)分析 3)运行结果 二、函数模板,参数和返回值是某种模板类(只支持AA模板…

chatgpt赋能Python-python31个关键词

Python 31个关键词: 了解Python编程的基础知识 Python是一种高级编程语言,首次推出于1991年。自那时以来,Python已经成为最受欢迎的编程语言之一,它具有易读性、易维护性和清晰的语法。在这篇文章中,我们将介绍Python的31个关键词…

python3.8 安装 ssl 模块 和 _ctypes 模块

文章目录 前情提要安装 openssl-1.1.1重新编译安装 python3.8-rpath 编译选项介绍python3.8 跟 python3.10 的区别 前情提要 在我成功给 python3.10 安装 ssl 模块后自以为是的写下了 “虽然我编译的是 python3.10,但是对于 python3.6、python3.8 应该同样适用。”…

chatgpt赋能Python-python3_0怎么安装

Python3.0怎么安装 Python3.0是一个优秀的编程语言,其简单易学,易用性强,且具有强大的功能和广泛的应用。如果您需要在您的电脑上使用Python3.0,本文将为您介绍如何进行安装。 下载Python3.0 首先,您需要从官方网站…

教育不得不改变,ChatGPT可以提供个性化学习

近日,OpenAI的首席执行官Sam Altman接受ABC新闻首席商业、技术和经济记者Rebecca Jarvis的独家采访。Sam Altman提到了对错误信息的担忧、探讨了人工智能与人类工作的关系、ChatGPT与教育的关系等。 ChatGPT今年1月面世后,在短短几个月内就达到了1亿月活…

代码随想录训练营Day43| 1049. 最后一块石头的重量 II 494. 目标和 474.一和零

目录 学习目标 学习内容 1049. 最后一块石头的重量 II 494. 目标和 474.一和零 学习目标 1049. 最后一块石头的重量 II 494. 目标和 474.一和零 学习内容 1049. 最后一块石头的重量 II 1049. 最后一块石头的重量 II - 力扣(LeetCode)https://l…

【云计算与虚拟化】第三章 实验二 在ESXi主机中安装操作系统

实验二 在ESXi主机中安装操作系统 为ESXi主机添加一块数据存储磁盘,大小为80G,磁盘名称为:ESXi-loc-80G(截图) 2.登录vSphere Client,加载新添加的数据存储磁盘,加载大小为60G,并将…

网络编程——嵌入式(驱动)软开基础(五)

1. 列举一下OSI协议的各种分层。说说你最熟悉的一层协议的功能。 (1)七层划分为:应用层、表示层、会话层、传输层、网络层、数据链路层、物理层。 (2)五层划分为:应用层、传输层、网络层、数据链路层、物理层。 (3)四层划分为:应用层、传输层、网络层、网络接口层。(…

springboot+java+jsp校园二手书旧书交易交换系统

前台功能:用户进入系统可以对首页、书籍信息、校园公告、个人中心、后台管理等功能进行操作; 后台主要是管理员,管理员功能包括主页、个人中心、学生管理、发布人管理、书籍分类管理、书籍信息管理、交易信息管理、交换信息管理、系统管理等&…