激活函数总结(八):基于Gate mechanism机制的激活函数补充(GLU、SwiGLU、GTU、Bilinear、ReGLU、GEGLU)

news2024/11/26 9:06:06

激活函数总结(八):基于Gate mechanism机制的激活函数补充

  • 1 引言
  • 2 激活函数
    • 2.1 GLU激活函数
    • 2.2 SwiGLU激活函数
    • 2.3 GTU激活函数
    • 2.4 Bilinear激活函数
    • 2.5 ReGLU激活函数
    • 2.6 GEGLU激活函数
  • 3. 总结

1 引言

在前面的文章中已经介绍了介绍了一系列激活函数 (SigmoidTanhReLULeaky ReLUPReLUSwishELUSELUGELUSoftmaxSoftplusMishMaxoutHardSigmoidHardTanhHardswishHardShrinkSoftShrinkTanhShrinkRReLUCELUReLU6)。在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家介绍关于最近大语言模型中较火的GLU模型。这里放一张激活函数的机理图:
在这里插入图片描述

最后,对于文章中没有提及到的激活函数,大家可以通过评论指出,作者会在后续的文章中进行添加补充。

2 激活函数

本章节主要介绍了基本结构GLU激活函数和最近特别火的SwiGLU激活函数,其余GLU变体激活函数只展示基本公式。

2.1 GLU激活函数

论文链接:Language Modeling with Gated Convolutional Networks

GLU是在语言建模论文中引入的,这是一个神经网络层,定义为输入的两个线性变换(矩阵乘法)的分量乘积,其中一个是Sigmoid激活的。这是在变压器出现之前,非循环方法第一次在一些大型语言任务上与强大的循环模型竞争。GLU的数学表达式如下所示:

G L U ( x ) = s i g m o i d ( x W + b ) ⊗ ( x V + c ) GLU(x) = sigmoid(xW+b) ⊗ (xV+c) GLU(x)=sigmoid(xW+b)(xV+c)

在这里,我们看到我们有两个可训练矩阵 W W W V V V,其中 V V V 用于计算门控单元。门在激活后提供了一个额外的过滤器,可以在训练期间学习,并取决于输入本身。 ⊗ ⊗ 运算是逐元素乘法。

根据矩阵运算可视化 GLU,而不使用偏置矩阵 b 和 c:
在这里插入图片描述
可以看到:上面最后一个操作中显示的重叠矩阵条目相乘,因此 x V + c xV+c xV+c 的输出充当另一半操作的过滤器。因此,根据过滤器中的矩阵值,这些相同的条目会变得突出或从 sigmoid 激活矩阵中减少

优点:

  • 稳定且高效:GLU比ReLU稳定得多,学习速度也比sigmoid快。
  • 缓解梯度消失:GLU还具有非线性功能,但具有梯度的线性路径,因此减少了梯度消失问题。

当前,GLU在自然语言处理架构中广泛使用,当然还有它的变体模型!!!!

2.2 SwiGLU激活函数

论文链接:GLU Variants Improve Transformer
SwiGLU是Swish和GLU激活函数的组合。在 SwiGLU 中,Swish 函数用于门控 GLU 的线性函数。这使得SwiGLU能够抓住Swish和GLU的优势,同时克服它们各自的缺点。SwiGLU已被证明在各种任务中优于Swish和GLU,包括图像分类语言建模机器翻译。SwiGLU的数学表达式如下所示:
S w i G L U ( x ) = S w i s h β ( x W + b ) ⊗ ( x V + c ) SwiGLU(x) = Swish_{\beta}(xW+b)⊗ (xV+c) SwiGLU(x)=Swishβ(xW+b)(xV+c)
其中 W W W V V V b b b c c c β \beta β 是可训练的参数。

优点:

  • 平滑度:SwiGLU比ReLU更平滑,可以带来更好的优化更快的收敛
  • 非单调性:SwiGLU是非单调性的,这使其能够捕获输入和输出之间的复杂非线性关系。
  • 门控机制:SwiGLU使用门控机制,允许它根据接收到的输入选择性地激活神经元。这有助于减少过度拟合并改善泛化。
  • 普遍性:SwiGLU已被证明在各种任务优于其他激活功能,包括SwishGLU

当前,SwiGLU是transformer领域的大火模型!!!!对于使用transformer的同学很适合进行尝试!!!!

2.3 GTU激活函数

论文链接:Language Modeling with Gated Convolutional Networks

GTU是一种GLU变体,它使用Tanh作为激活函数。GTU的数学表达式如下所示:
G T U ( x ) = T a n h ( x W + b ) ⊗ s i g m o i d ( x V + c ) GTU(x) = Tanh(xW+b)⊗ sigmoid(xV+c) GTU(x)=Tanh(xW+b)sigmoid(xV+c)

当前,虽然SwiGLU大火,但是GTU几乎没有使用环境。。。

2.4 Bilinear激活函数

论文链接:GLU Variants Improve Transformer

Bilinear激活函数是省略 sigmoid 函数的 GLU 变体。它是一个双线性变换,然后是逐元素乘积。Bilinear的数学表达式如下所示:
B i l i n e a r ( x ) = ( x W + b ) ⊗ ( x V + c ) Bilinear(x) = (xW+b)⊗ (xV+c) Bilinear(x)=(xW+b)(xV+c)

当前,虽然SwiGLU大火,但是Bilinear几乎没有使用环境。。。

2.5 ReGLU激活函数

论文链接:GLU Variants Improve Transformer

ReGLU是一种GLU变体,它使用ReLU作为激活函数。ReGLU的数学表达式如下所示:
R e G L U ( x ) = R e L U ( x W + b ) ⊗ ( x V + c ) ReGLU(x) = ReLU(xW+b)⊗ (xV+c) ReGLU(x)=ReLU(xW+b)(xV+c)

当前,虽然SwiGLU大火,但是ReGLU几乎没有使用环境。。。

2.6 GEGLU激活函数

论文链接:GLU Variants Improve Transformer

GEGLU是使用GELU作为激活函数的GLU变体。GEGLU的数学表达式如下所示:
G E G L U ( x ) = G E L U ( x W + b ) ⊗ ( x V + c ) GEGLU(x) = GELU(xW+b)⊗ (xV+c) GEGLU(x)=GELU(xW+b)(xV+c)

当前,虽然SwiGLU大火,但是GEGLU几乎没有使用环境。。。

3. 总结

到此,使用 激活函数总结(八) 已经介绍完毕了!!! 如果有什么疑问欢迎在评论区提出,对于共性问题可能会后续添加到文章介绍中。如果存在没有提及的激活函数也可以在评论区提出,后续会对其进行添加!!!!

如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦😄。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/875702.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【多视重建】从Zero-123到One-2-3-45:多视角生成

文章目录 摘要一、引言二、相关工作三、Zero-1-to-33.1.学习如何控制照相机的视角3.2.视角作为条件的扩散3.3三维重构3.4 数据集 四、One-2-3-454.1 Zero123: 视角条件的 2D Diffusion4.2 NeRF优化:将多视图预测提升到三维图像4.3 基于不完美多视图的 神经表面重建*…

Linux下在qtcreator中创建qt程序

目录 1、新建项目 2、单工程项目创建 3、多工程项目创建 4、添加子工程(基于多工程目录结构) 5、 .pro文件 1、新建项目 切换到“编辑”界面,点击菜单栏中的“文件”-“新建文件或项目” 2、单工程项目创建 只有一个工程的项目&#…

【自用】终端设备(ESP32-S3)连接云服务器 HomeAssistant + MQTT 物联网平台

总览 1.流程概述 2.开始搭建! 3. 一、流程概述 0.总体流程 二、开始搭建 1.下载 MQTTX 客户端( 在PC上 ) https://mqttx.app/zh/downloads 2.新建 MQTTX 连接 0.点击左侧的加号,开始新建连接。 一共需要填写几个参数&#…

合并图形并共享同一个图例的三种方法

简介 小编在科研中,需要将多个图形进行合并,并共享同一个图例。此时应该如何实现?关于图形合并的相关推文写了很多了:R可视乎|合并多幅图形、cowplot包,ggplot2图形排版R包。 但是对于今天这个问题&#x…

SpringBoot-Hello World

SpringBootWeb快速入门 创建Springboot工程,并勾选web开发相关依赖定义HelloController类,添加方法hello,并添加相关注释运行测试 创建新的SpringBoot项目 几个注意的点: Name:基本上不用管,会根据下面的Ar…

智能电动机保护控制器的应用与分析

安科瑞 华楠 分析了智能电动机保护器相比热继电器的优点,指出了在我公司成功应用的原因,提出了应用过程中需要注意的地方。 公司新建一车间中,当工程设计到电动机保护这一部分时,设计者出于对热继电器保护性能的不满意&#xff0c…

【数据库基础】Mysql下载安装及配置

下载 下载地址:https://downloads.mysql.com/archives/community/ 当前最新版本为 8.0版本,可以在Product Version中选择指定版本,在Operating System中选择安装平台,如下 安装 MySQL安装文件分两种 .msi和.zip [外链图片转存失…

红帽8.2版本CSA题库:第八题配置 autofs自动挂载

红帽8.2版本CSA题库:第八题配置 autofs自动挂载 yum -y install autofs #安装autofs vim /etc/auto.master #在…

Spring Boot业务代码中使用@Transactional事务失效踩坑点总结

1.概述 接着之前我们对Spring AOP以及基于AOP实现事务控制的上文,今天我们来看看平时在项目业务开发中使用声明式事务Transactional的失效场景,并分析其失效原因,从而帮助开发人员尽量避免踩坑。 我们知道 Spring 声明式事务功能提供了极其…

圆满收官丨“2023年度第一季万博智云云迁移架构师训练营”结营了

“2023年度第一季万博智云云迁移架构师训练营”于今日圆满落幕。百余名来自全国各地30企业的工程师报名参加学习,其中60工程师在忙碌工作中抽空参与考试,近40名工程师通过万博智云云迁移架构师OCCE认证。 为了帮助工程师们掌握云迁移基础知识&#xff0c…

基于UDS on CAN的bootloader

UDS (Unified Diagnostic Services)&#xff1a;汽车诊断标准协议 Tester(诊断方)<--------------------------------------->ECU(汽车电控单元&#xff09; 2.UDS的硬件实现&#xff1a;CAN总线和诊断接口 3.UDS的软件实现&#xff1a;协议栈(Core)和应用程序 UDS协议…

【数字图像处理】数字图像处理中的直方图相关操作

文章目录 前言一、直方图为什么可以进行图像处理&#xff1f;二、直方图处理怎么实现&#xff1f;直方图均衡化直方图匹配-规定化局部直方图处理直方图统计量增强图像 三、OpenCv提供的直方图基础操作直方图均衡化OpenCv中直方图的表示从数据创建直方图&#xff1a;cv::calcHis…

Kafka的下载安装以及使用

一、Kafka下载 下载地址&#xff1a;https://kafka.apache.org/downloads 二、Kafka安装 因为选择下载的是 .zip 文件&#xff0c;直接跳过安装&#xff0c;一步到位。 选择在任一磁盘创建空文件夹&#xff08;不要使用中文路径&#xff09;&#xff0c;解压之后把文件夹内容…

2014-2022年阿里淘宝村省市县数据

2009-2022年阿里淘宝村-省市县数据&#xff08;原始数据汇总&#xff09; 从萌芽到扩散&#xff0c;再到大规模、集群式增长&#xff0c;生机勃勃的“淘宝村”和“淘宝镇”已成为中国农村电商发展的典范。2022年&#xff0c;在全面推动乡村振兴的进程中&#xff0c;又有一批村…

ChatGPT收录

VSCode插件-ChatGPT 多磨助手 多磨助手 (domore.run) Steamship Steamship 免费合集 免费chatGPT - Ant Design Pro 免费AI聊天室 (xyys.one)

OceanMind海睿思受邀出席2023长三角数字化大会,斩获两项数字化转型年度大奖

8月10日&#xff0c;由江苏省工业和信息化厅指导&#xff0c;长三角首席信息官联盟主办&#xff0c;江苏省企业信息化协会承办的“2023年长三角数字化转型大会”在江苏南京成功召开。 本次大会以“工业互联智造未来”为主题&#xff0c;旨在促进产业互联网的发展&#xff0c;并…

JavaScript函数声明与函数表达式

在 JavaScript 中&#xff0c;可以通过两种方式来定义函数&#xff1a;函数声明和函数表达式。 函数声明使用 function 关键字进行定义&#xff0c;并且在整个作用域中都可用。 函数声明的方式&#xff1a; function calcAge1(birthYear) {return 2037 - birthYear; } const …

制造执行系统(MES)在新能源领域的应用

制造执行系统&#xff08;MES&#xff09;在新能源领域有许多应用&#xff0c;特别是在管理、监控和优化新能源生产过程方面。新能源包括太阳能、风能、生物质能、地热能等。以下是一些MES在新能源方面的应用领域&#xff1a; 生产计划与调度&#xff1a;MES可以协助规划和调度…

FiboSearch Pro – Ajax Search for WooCommerce 商城AJAX实时搜索插件

FiboSearch Pro是最受欢迎的WooCommerce 产品搜索插件。它为您的用户提供精心设计的高级 AJAX 搜索栏&#xff0c;并提供实时搜索建议。默认情况下&#xff0c;WooCommerce 提供非常简单的搜索解决方案&#xff0c;没有实时产品搜索&#xff0c;甚至没有 SKU 搜索。FiboSearch&…

多种求组合数算法

目录 求组合数Ⅰ&#xff08;递推&#xff09;核心理论理论推导典型例题代码实现 求组合数Ⅱ&#xff08;预处理&#xff09;核心理论典型例题代码实现 求组合数Ⅲ&#xff08;Lucas定理&#xff09;核心理论Lucas定理的证明1.证明Lucas定理的第一形式2.证明Lucas定理的第二形式…