激活函数总结(一):ReLU及其变体

news2025/1/19 8:07:11

激活函数介绍(一)

  • 1 引言
  • 2 常用激活函数介绍
    • 2.1 Sigmoid激活函数
    • 2.2 Tanh激活函数
    • 2.3 ReLU激活函数
    • 2.4 Leaky ReLU激活函数
    • 2.5 Parametric ReLU(PReLU)激活函数
    • 2.6 Swish激活函数
  • 3. 总结

介绍的激活函数都在目录中有所展示,如果找不到你想查看的激活函数,请去这里寻找:激活函数介绍(二)!!!

1 引言

激活函数是神经网络模型重要的组成部分。在神经网络模型中,激活函数提供了非线性建模能力(不带激活函数的感知元是线性的),进而帮助网络学习数据中的复杂模式
在这里插入图片描述

2 常用激活函数介绍

2.1 Sigmoid激活函数

Sigmoid激活函数将输入值压缩到0到1之间的范围,公式和数学图片分别如下所示:
f ( x ) = 1 / ( 1 + e − x ) f(x) = 1 / (1 + e^{-x}) f(x)=1/(1+ex)在这里插入图片描述Sigmoid函数在早期的神经网络中广泛使用。然而,它有一些问题,如梯度消失梯度爆炸,导致在深层网络中训练困难,因此现在使用较少。
当前更多的是用于二分类中。

2.2 Tanh激活函数

Tanh激活函数是Sigmoid的改进版,将输入值映射到一个范围在-1到1之间的值,公式和数学图像分别如下所示:
f ( x ) = ( 2 / ( 1 + e − 2 x ) ) − 1 f(x) = (2 / (1 + e^{-2x})) - 1 f(x)=(2/(1+e2x))1在这里插入图片描述相较于Sigmoid激活函数,Tanh激活函数的输出范围更广,因此在某些情况下,它能带来更好的表现。然而,类似于Sigmoid,Tanh仍然存在梯度消失问题,特别是对于较深的神经网络。
当前更多的是用于类似于LSTM网络结构的后面

2.3 ReLU激活函数

ReLU(Rectified Linear Unit)是目前使用最广泛的激活函数之一。ReLU函数在输入为正数时直接输出输入值,而在输入为负数时输出为0,公式和数学图像分别如下所示:
f ( x ) = m a x ( 0 , x ) f(x) = max(0, x) f(x)=max(0,x)在这里插入图片描述相比于SigmoidTanhReLU的梯度更大,且在深层网络中具有较快的训练速度。然而,ReLU也存在一个问题,当输入为负数时,梯度为0,导致对应的神经元无法更新权重,这被称为"神经元死亡"问题。
当前在各种任务下广泛使用(不包括多分类任务)。

2.4 Leaky ReLU激活函数

为了解决ReLU的"神经元死亡"问题,Leaky ReLU引入了一个小的斜率(通常为0.01)来保证在输入为负数时仍然有梯度。Leaky ReLU函数的定义和数学图像分别如下所示:
f ( x ) = m a x ( a x , x ) f(x) = max(ax, x) f(x)=max(ax,x)在这里插入图片描述其中,a是一个小于1的常数。这使得Leaky ReLU在某些场景下表现更好,但对于a的选择需要小心,过大的值可能导致函数失去非线性特性
当前已没有特定使用情况,同等情况下(PReLU 和Swish 激活函数可能会有更好的表现)。

2.5 Parametric ReLU(PReLU)激活函数

Parametric ReLU是Leaky ReLU的扩展版本,它允许斜率参数a成为可学习的参数,这样网络可以自动调整斜率。这一特性使得Parametric ReLU更加适应不同的数据分布和任务,减少了手动调整的需求。

2.6 Swish激活函数

Swish激活函数在近年来被提出,它是一个平滑的激活函数。Swish函数在输入为正数时与ReLU相似,在输入为负数时逐渐趋近于0。Swish函数的表现相对于ReLU在一些情况下更好,但在某些场景下可能受到影响,因此使用时需谨慎权衡。函数公式和数学图像分别如下所示:
f ( x ) = x ⋅ s i g m o i d ( β x ) f(x)=x⋅sigmoid(βx) f(x)=xsigmoid(βx)在这里插入图片描述 其中, β β β 是一个常量或一个可学习的参数。

  • β = 1 β = 1 β=1 f ( x ) = x ⋅ s i g m o i d ( x ) f(x)=x⋅sigmoid(x) f(x)=xsigmoid(x),相当于Sigmoid-weighted Linear Unit (SiL)
  • β = 0 β = 0 β=0,Swish 变成了缩放线性函数 f ( x ) = x / 2 f(x) = x/2 f(x)=x/2
  • β → ∞ β → ∞ β,sigmoid 分量接近 0-1 函数,因此 Swish 变得像 ReLU 函数

3. 总结

到此,使用 激活函数介绍(一) 已经介绍完毕了!!! 如果有什么疑问欢迎在评论区提出,对于共性问题可能会后续添加到文章介绍中。如果存在没有提及的激活函数也可以在评论区提出,后续会对其进行添加!!!!

如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦😄。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/843202.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

VLE基于预训练文本和图像编码器的图像-文本多模态理解模型:支持视觉问答、图文匹配、图片分类、常识推理等

项目设计集合(人工智能方向):助力新人快速实战掌握技能、自主完成项目设计升级,提升自身的硬实力(不仅限NLP、知识图谱、计算机视觉等领域):汇总有意义的项目设计集合,助力新人快速实…

DROP USER c##xyt CASCADE > ORA-01940: 无法删除当前连接的用户

多创建了一个用户,想要给它删除掉 一 上执行过程,确实删除成功了 Oracle Database 12c Enterprise Edition Release 12.1.0.2.0 - 64bit Production With the Partitioning, OLAP, Advanced Analytics and Real Application Testing optionsSQL> DR…

用excel格式书写的接口用例执行脚本

创建测试用例和测试结果集文件夹: excel编写的接口测试用例如下: 1 encoding 响应的编码格式。所测项目大部分是utf-8,有一个特殊项目是utf-8-sig 2 params 对应requests的params 3 data,对应requests的data 有些参数是动态的&a…

C#,数值计算——查找等价类(Find equivalence classes)的计算方法及其源程序

1 等价类的定义 2 Examples 3 Partitions 4 C#源代码 using System; namespace Legalsoft.Truffer { /// <summary> /// Find equivalence classes /// </summary> public class EClass { public EClass() { } pub…

有没有好用的在线画图工具推荐?

绘画是设计师最常见的工作之一&#xff0c;设计师对在线绘画工具的要求越来越高&#xff0c;市场上也出现了各种在线绘画工具&#xff0c;让设计师不知道如何选择高质量的在线绘画工具&#xff0c;一个好的在线绘画工具不仅可以让你轻松绘画&#xff0c;而且可以让你的工作效率…

android studio内存分析之Memory profiler的使用

目录 Android Studio中内存分析工具Memory profiler的使用1. 打开Memory Profiler2. 工具使用3. 内存选项说明4. 内存性能分析器概览5. 内存计算方式6. 查看内存分配7. 捕获java/kotlin方式查看内存分配8. 堆转储文件导入和导出 内存性能分析器中的泄漏检测 Android Studio中内…

带你了解—使用Ubuntu系统,公网环境下SSH远程树莓派

公网环境下Ubuntu系统SSH远程树莓派 文章目录 公网环境下Ubuntu系统SSH远程树莓派前言 1. 安装cpolar客户端2. 安装完成后输入指令3. ubuntu系统输入命令 前言 树莓派作为低功耗、小型化的硬件设备&#xff0c;其功能和运算能力并未过度缩水&#xff0c;在不少场景中&#xff…

UEditorPlus v3.3.0 图片上传压缩重构,UI优化,升级基础组件

UEditor是由百度开发的所见即所得的开源富文本编辑器&#xff0c;基于MIT开源协议&#xff0c;该富文本编辑器帮助不少网站开发者解决富文本编辑器的难点。 UEditorPlus 是有 ModStart 团队基于 UEditor 二次开发的富文本编辑器&#xff0c;主要做了样式的定制&#xff0c;更符…

基于spring boot的餐饮管理系统java酒店饭店菜谱 jsp源代码mysql

本项目为前几天收费帮学妹做的一个项目&#xff0c;Java EE JSP项目&#xff0c;在工作环境中基本使用不到&#xff0c;但是很多学校把这个当作编程入门的项目来做&#xff0c;故分享出本项目供初学者参考。 一、项目描述 基于spring boot的餐饮管理系统j 系统1权限&#xff…

Python实现GA遗传算法优化LightGBM分类模型(LGBMClassifier算法)项目实战

说明&#xff1a;这是一个机器学习实战项目&#xff08;附带数据代码文档视频讲解&#xff09;&#xff0c;如需数据代码文档视频讲解可以直接到文章最后获取。 1.项目背景 遗传算法&#xff08;Genetic Algorithm&#xff0c;GA&#xff09;最早是由美国的 John holland于20世…

利用Jmeter做接口测试全流程分析

利用Jmeter做接口测试怎么做呢&#xff1f;过程真的是超级简单。 明白了原理以后&#xff0c;把零碎的知识点填充进去就可以了。这篇文章就来介绍一下如何利用Jmeter做接口测试的流程&#xff0c;主要针对的是功能测试。暂不涉及到自动化测试和性能测试的内容。 一把来说&…

AIGC:【LLM(五)】——Faiss:高效的大规模相似度检索库

文章目录 一.简介1.1 什么是Faiss1.2 Faiss的安装 二.Faiss检索流程2.1 构建向量库2.2 构建索引2.3 top-k检索 三.Faiss构建索引的多种方式3.1 Flat &#xff1a;暴力检索3.2 IVFx Flat &#xff1a;倒排暴力检索3.3 IVFxPQy 倒排乘积量化3.4 LSH 局部敏感哈希3.5 HNSWx 一.简介…

企业工程项目管理系统源码(三控:进度组织、质量安全、预算资金成本、二平台:招采、设计管理)em

​ 工程项目管理软件&#xff08;工程项目管理系统&#xff09;对建设工程项目管理组织建设、项目策划决策、规划设计、施工建设到竣工交付、总结评估、运维运营&#xff0c;全过程、全方位的对项目进行综合管理 工程项目各模块及其功能点清单 一、系统管理 1、数据字典&#…

【Megatron-DeepSpeed】张量并行工具代码mpu详解(三):张量并行层的实现及测试

相关博客 【Megatron-DeepSpeed】张量并行工具代码mpu详解(三)&#xff1a;张量并行层的实现及测试 【Megatron-DeepSpeed】张量并行工具代码mpu详解(一)&#xff1a;并行环境初始化 【Megatron-DeepSpeed】张量并行工具代码mpu详解(二)&#xff1a;Collective通信操作的封装ma…

【FIFO IP系列】FIFO IP参数配置与使用示例

Vivado IP核提供了强大的FIFO生成器&#xff0c;可以通过图形化配置快速生成FIFO IP核。 本文将详细介绍如何在Vivado中配置一个FIFO IP核,以及如何调用这个FIFO IP核。 一、FIFO IP核的配置 1、新建FIFO IP 在Vivado的IP Catalog中找到FIFO Generator IP核&#xff0c;双击…

梳理日常开发涉及的负载均衡

负载均衡是当前分布式微服务时代最能提及的词之一&#xff0c;出于对分层、解耦、弱依赖、可配置、可靠性等概念的解读&#xff0c;一对一的模式变得不再可信赖&#xff0c;千变万化的网络环境中&#xff0c;冗余和备份显得格外重要&#xff0c;稍大型的系统就会存在大量微服务…

一百四十七、Kettle——Linux上安装的kettle8.2连接ClickHouse数据库

一、目标 kettle8.2在Linux安装好后&#xff0c;需要与ClickHouse数据库建立连接 二、前提准备 1、在Linux已经安装好kettle并可以启动kettle 2、kettle版本是8.2 3、已知Linux系统架构是64位 4、准备好ClickHouse的驱动包(借他人网盘链接一用) https://pan.baidu.com/s/…

Pytorch深度学习-----损失函数(L1Loss、MSELoss、CrossEntropyLoss)

系列文章目录 PyTorch深度学习——Anaconda和PyTorch安装 Pytorch深度学习-----数据模块Dataset类 Pytorch深度学习------TensorBoard的使用 Pytorch深度学习------Torchvision中Transforms的使用&#xff08;ToTensor&#xff0c;Normalize&#xff0c;Resize &#xff0c;Co…

编织人工智能:机器学习发展历史与关键技术全解析

文章目录 1. 引言1.1 机器学习的定义1.2 重要性和应用场景重要性应用场景 2. 机器学习的早期历史2.1 初期理论与算法感知机决策树 2.2 早期突破支持向量机神经网络初探 3. 21世纪初期的发展3.1 集成学习方法随机森林XGBoost 3.2 深度学习的崛起卷积神经网络&#xff08;CNN&…

ViLT:基于transformer模型的计算机视觉与自然语言处理多模态模型

transformer模型刚开始使用在NLP自然语言处理的机器翻译实例上,但是随着注意力机制的算法越来越火,根据transformer模型的魔改模型也越来越多,首先便是Google自己发布的VIT模型,把transformer注意力机制应用到计算机视觉任务上。那么transformer模型是否也同样适用于多模态…