神经网络中激活函数介绍、优缺点分析

news2025/1/4 18:37:25

本文主要介绍神经网络中的常用的激活函数

激活函数是神经网络中用于引入非线性模型,提升模型泛化能力的函数

非线性激活函数至关重要,它可以让神经网络学习复杂特征、提供模型复杂度

1、激活函数定义

激活函数是神经网络模型中的一种非线性函数,它将输入的加权和转换为输出值。激活函数通常被插入到神经元的计算中,以帮助网络模型学习非线性模式。

常见的激活函数有:

  1. Sigmoid函数(也称为逻辑函数):将输入压缩到0和1之间的连续输出。
  2. 双曲正切函数(tanh函数):将输入压缩到-1和1之间的连续输出。
  3. ReLU函数(修正线性单元):将负值置为0,保留正值。
  4. Leaky ReLU函数:与ReLU函数类似,但在负值上有一个小的斜率。
  5. Softmax函数:用于多分类问题,将一组值转换为概率分布。

选择适合的激活函数取决于具体的任务和数据集。不同的激活函数可以引入不同的非线性效果,有助于提高模型的表达能力和性能。

2、常见激活函数

这里介绍常见的激活函数

2.1 Sigmoid 

Sigmoid 激活函数是一种常用于神经网络中的激活函数,它将输入值映射到一个 (0, 1) 之间的范围内。

图像如下: 输入值越接近 ∞ ,它就越接近 +1 ,同样,输入值越接近 –∞ 它就越接近 0 。

优点

  • sigmoid 函数将任意输入值映射到 (0, 1) 之间,适合用来表示概率。因此,它常用于神经网络的输出层,尤其是在二分类问题中。

  • Sigmoid 函数是平滑且连续的,这意味着它在整个输入范围内都有定义和导数。这种性质使得它在优化过程中很容易计算梯度。

缺点容易造成梯度消失

sigmoid 函数的导数如下

 图像:

从图中可以看出,梯度值在一定范围(-5.0 到 5.0)之间显着,并且随着进一步增大,图形变得更加平坦。

这表明对于 > 5 或 < -5 的值,该函数将具有较小梯度并最终接近零。这就是神经网络停止学习的地方,因此得名梯度消失

2.2 Tanh

sigmoid 函数和 Tanh(双曲正切)函数的区别在于后者将输入值映射到 -1 和 1 之间的范围内

图像如下:

优点

  • Tanh 函数将输入值映射到 (-1, 1) 之间。这与 Sigmoid 函数的 (0, 1) 范围不同,有助于减少网络的偏置效应。

  • 它通常用在神经网络的隐藏层中,因为它的值在 -1 到 1 的范围内,因此数据的平均值接近 0。这有助于使数据居中并使下一层的学习更容易。

缺点容易造成梯度消失

tanh 函数的导数如下:

图像:

与 sigmoid 函数类似,Tanh 函数也面临着梯度消失的问题。

 

2.3 ReLU

ReLU 激活函数是现代深度学习中最常用的激活函数之一。

图像:

优点

  • ReLU 函数的计算非常简单,只需要比较输入值和 0 的大小,计算复杂度低,适合大规模神经网络的训练。

  • ReLU 在正半轴上的梯度恒为 1,避免了梯度消失问题,有助于深层网络的有效训练。这使得它比 Sigmoid 和 Tanh 函数更适合用于深层神经网络。

  • 由于 ReLU 会将负值部分截断为 0,导致很多神经元在给定的输入下不被激活。这种稀疏性有助于减少模型的复杂度和过拟合风险。

缺点:影响网络拟合

ReLU 函数的导数如下:

图像: 

如图,负数侧使梯度值为 0。

因此,某些神经元的权重和偏差在反向传播过程中不会更新。这会导致永远不会被激活的“死亡神经元”。

所有负输入值立即变为 0,这会影响网络拟合和训练数据的能力。

2.4 Leaky ReLU

Leaky ReLU 激活函数是 ReLU 函数的一个变体,用于解决 ReLU 函数的 “Dying ReLU” (死亡神经元)问题。

Leaky ReLU 在负半轴上引入了一个小的斜率,以确保神经元在接收到负输入时仍然有非零输出。

图像如下:

注意:这里的0.1可以是任何值α,被称为参数化 ReLU

参数化 ReLU(PReLU)是一种改进的 ReLU 激活函数,通过引入可学习的参数来调整负半轴的斜率,从而增强模型的表达能力。

它解决了图左半部分梯度减小到 0 的挑战。该函数在函数的负输入上添加斜率,即参数α 。参数 ReLU 中的反向传播涉及找出最合适的 α 值。

缺点:PReLU 为每个神经元引入一个额外的参数 α,这会增加模型的参数数量,特别是在大型神经网络中,可能导致模型过拟合的风险增加。如果训练数据不足,过多的参数可能会降低模型的泛化能力。

2.5 ELU

该激活函数也是 ReLU 激活函数的变体,其主要目标是修改函数负部分的斜率。

与 Leaky ReLU 和 参数化 ReLU 不同,ELU 使用对数曲线来转换负值。

图像如下: 

优点:

  • ELU 逐渐平滑,直到输出为 -α ,而 ReLU 则很尖锐。

  • 通过引入负值的对数曲线来消除死亡 ReLU 问题,从而帮助神经网络将权重和偏差引导到正确的路径上。

缺点:

  • 相比于 ReLU 和 Leaky ReLU 等简单激活函数,ELU 需要计算指数函数,这增加了计算复杂度和计算时间,特别是在深层网络和大规模数据集上。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2098971.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

教学能力知识

第一章课程理论知识 一、课程理念 二、课程目标 1.核心素养 2.课程总目标 三、教学建议 四、教学环节 第二章教学实施 第一节导入新课类 二.导入方法 第二节教学方法类 教学方法的选择依据 第三节教法实施原则类 设计意图 第四节设计意图类 1.教学目标 2.教学重难点 3.教学…

【安当产品应用案例100集】014-使用安当TDE实现达梦数据库实例文件的透明加密存储

随着数据安全重要性的不断提升&#xff0c;数据库文件的落盘加密已成为数据保护的一项基本要求。达梦数据库作为一款高性能的国产数据库管理系统&#xff0c;为用户提供了一种高效、安全的数据存储解决方案。本文将详细介绍如何利用安当KSP密钥管理平台及TDE透明加密组件来实现…

[数据集][目标检测]灭火器检测数据集VOC+YOLO格式3255张1类别

数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)&#xff1a;3255 标注数量(xml文件个数)&#xff1a;3255 标注数量(txt文件个数)&#xff1a;3255 标注…

c++多线程下崩溃一例分析 ACTIONABLE_HEAP_CORRUPTION heap failure block not busy DOUBLE

之前的三个代码接口使用了同一把锁&#xff0c;共享资源的访问是有序执行的没有问题。最近改成各个接口使用单独的锁&#xff0c;结果漏掉了共享资源的保护&#xff0c;于是出现了崩溃。最近与这个崩溃做斗争并定位找到的原因&#xff0c;成功复现了。这里总结下&#xff0c;后…

[YM]课设-C#-WebApi-Vue-员工管理系统 (六)前后端交互

Http状态码&#xff1a; 终于也是到了前端 上文提到http状态码 这里详细说一下 1xx 表示临时响应并需要请求者继续执行操作 2xx 成功&#xff0c;操作被成功接收并处理 3xx 表示要完成请求&#xff0c;需要进一步操作。 通常&#xff0c;这些状态代码用来重定向 4…

LiveQing视频点播流媒体RTMP推流服务用户手册-分屏展示:单分屏、四分屏、九分屏、十六分屏、轮巡播放、分组管理、记录加载

LiveQing视频点播流媒体RTMP推流服务用户手册-分屏展示:单分屏、四分屏、九分屏、十六分屏、轮巡播放、分组管理、记录加载 1、分屏展示1.1、分组管理1.1.1、新建分组1.1.2、选择资源1.1.3、编辑分组1.1.4、删除资源 1.2、多分屏1.2.1、选择资源1.2.2、单分屏1.2.3、四分屏1.2.…

【多模态大模型】的正确打开方式——图片

早期痛点 识别图片中的物体&#xff0c;早期可以使用Yolo 但是缺点也很明显&#xff1a; 训练时间长成本高泛华性能差通用识别领域覆盖有限 优点&#xff1a; 特殊领域识别 大模型出现 大模型出现后&#xff0c;一些大模型对接了图片识别相关的模型&#xff0c;实现了图片…

利用衍射进行材料分析--Muad

软件介绍 MAUD是一款免费软件&#xff0c;使用组合 Rietveld 方法分析衍射数据。其功能不仅限于衍射&#xff0c;还包括荧光和反射率。 它可以分析来自 X 射线源以及中子、TOF 和 TEM 电子的数据。相含量和晶体结构、微观结构特征&#xff08;如尺寸和应变&#xff09;、晶体…

沉浸式体验亚马逊云科技上私有化部署零一万物AI大模型

小李哥将继续带大家沉浸式体验亚马逊云科技上的国产AI大模型。最近亚马逊云科技的机器学习模型管理平台Amazon SageMaker JumpStart 上线了由零一万物提供的基础模型 Yi-1.5 6B/9B/34B&#xff0c;这也是首批登陆中国区 Amazon SageMaker JumpStart 的中文基础模型&#xff0c;…

【多线程】并发编程wait和sleep的区别

notyfy、notifyAll、wait的使用&#xff1a;sleep/wait/notify/notifyAll分别有什么作用 背景&#xff1a;之前的博客讲解到了notify的使用&#xff0c;那并发编程的时候&#xff0c;到底该用 sleep还是notify呢&#xff1f;本篇我们来一起梳理一下区别 所属类与方法类型 wait…

vscode+django开发后端快速测试接口(轻量版,免postman安装)

目录 背景 步骤 安装插件 编写测试文件 示例一&#xff1a;get接口类型 示例二&#xff1a;post接口类型 示例三&#xff1a;delete接口类型 如何运行test.http测试文件 背景 在最近工作中涉及到使用Django框架开发后端&#xff0c;写完接口后&#xff0c;不可避免需要…

php法律事务综合管理系统Java律师事务所业务流程管理平台python法律服务与案件管理系统(源码、调试、LW、开题、PPT)

&#x1f495;&#x1f495;作者&#xff1a;计算机源码社 &#x1f495;&#x1f495;个人简介&#xff1a;本人 八年开发经验&#xff0c;擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等&#xff0c;大家有这一块的问题可以一起交流&…

Java八股文总结一

Java基础 一、JDK、JRE、JVM之间的关系&#xff1f; 1、JDK(Java Development Kit):Java开发工具包&#xff0c;提供给Java程序员使用&#xff0c;包含了JRE&#xff0c;同时还包含了编译器javac与自带的调试工具Jconsole、jstack等。 2、JRE(Java Runtime Environment):Ja…

蔡司小乐圆镜片:自由环面与微柱镜排布助力兼顾舒适与效果

从学习到休闲娱乐&#xff0c;孩子们的日常生活已与电子设备密不可分&#xff0c;视力面临日益严峻的挑战。为了让孩子拥有全视野清晰视觉体验的同时&#xff0c;更有效管理孩子的近视发展&#xff0c;让孩子佩戴蔡司小乐圆镜片&#xff0c;也成为不少家长的首选。 数据统计&am…

opencv图像形态学(边缘检测算法实例)

引言 图像形态学是一种基于数学形态学的图像处理技术&#xff0c;它主要用于分析和修改图像的形状和结构。在OpenCV中&#xff0c;图像形态学操作通过一系列的数学运算来实现&#xff0c;如腐蚀、膨胀、开运算、闭运算等。这些操作在图像处理、计算机视觉和模式识别等领域有着…

Python自动化必会技能-Excel文件读取

01 重点 在自动化测试过程中&#xff0c;经常需要使用excel文件来存储测试用例&#xff0c;那么在表格内设计好了测试用例数据后&#xff0c;如何通过自动化读取呢&#xff1f;此时就需要测试小姐姐动手写“代码”了~ 本文主要介绍通过python来读取表格数据。Python读取表格的…

C语言的函数递归

目录 前言 一、递归是什么&#xff1f; 1. 递归的思想 2. 递归的限制条件 二、递归举例 1. 求n的阶乘 1.1 思路分析 1.2 画图推演 2. 顺序打印⼀个整数的每⼀位 2.1 思路分析 2.2 画图推演 三、递归与迭代 四、求第n个斐波那契数 总结 前言 我们在函数上已经非常…

《父母爱情》:找结婚对象,别只看有房有车有颜,这4个特点更重要!

点击上方△腾阳 关注 转载请联系授权 你好&#xff0c;我是腾阳。 最近&#xff0c;我重温了电视剧《父母爱情》&#xff0c;不禁被剧中人物的情感纠葛和生活琐事深深吸引。 在当今社会&#xff0c;许多人在选择结婚对象时&#xff0c;往往只关注房子、车子、颜值&#xff0…

2020年B题高穿越沙漠教社杯全国大学生数学建模竞赛题目与分析

↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ​ ↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓…

DHECDH密钥交互算法

1. 引言 在现代通信中&#xff0c;数据的安全性至关重要。无论是网络浏览、电子邮件&#xff0c;还是移动支付&#xff0c;保护数据不被窃听和篡改都是首要任务。密钥交换是保障通信安全的关键技术之一&#xff0c;其中最著名的两个算法是 Diffie-Hellman (DH) 和 椭圆曲线 Di…