【深度学习】—激活函数、ReLU 函数、 Sigmoid 函数、Tanh 函数

news2024/10/9 14:58:18

【深度学习】—激活函数、ReLU 函数、 Sigmoid 函数、Tanh 函数

  • 4.1.2 激活函数
    • ReLU 函数
      • 参数化 ReLU
    • Sigmoid 函数
      • 背景
      • 绘制 sigmoid 函数
      • Sigmoid 函数的导数
    • Tanh 函数
      • Tanh 函数的导数
      • 总结

4.1.2 激活函数

激活函数(activation function)用于计算加权和并加上偏置,决定神经元是否被激活。它将输入信号转化为可微的输出,大多数激活函数是非线性的。激活函数是深度学习的基础,下面介绍几种常见的激活函数。

ReLU 函数

最受欢迎的激活函数是修正线性单元(Rectified Linear Unit, ReLU),它实现简单且在各种预测任务中表现优异。ReLU 提供了一种非常简单的非线性变换,定义为:


(4.1.4)

通俗地说,ReLU 通过将负值设为 0,仅保留正数。我们可以通过下列代码绘制 ReLU 函数的曲线来直观感受其行为。正如图中所示,ReLU 是分段线性的。

import torch
from d2l import torch as d2l

x = torch.arange(-8.0, 8.0, 0.1, requires_grad=True)
y = torch.relu(x)
d2l.plot(x.detach(), y.detach(), 'x', 'relu(x)', figsize=(5, 2.5))

在这里插入图片描述

当输入为负时,ReLU 的导数为 0;当输入为正时,导数为 1。当输入值精确等于 0 时,ReLU 不可导,但我们通常忽略这种情况,假设导数为 0。我们可以绘制 ReLU 函数的导数曲线。

y.backward(torch.ones_like(x), retain_graph=True)
d2l.plot(x.detach(), x.grad, 'x', 'grad of relu', figsize=(5, 2.5))

在这里插入图片描述

ReLU 的求导性质使得参数要么消失,要么通过,从而优化效果更好,缓解了神经网络中常见的梯度消失问题(将在后续章节介绍)。

参数化 ReLU

ReLU 有许多变体,其中包括参数化 ReLU(Parameterized ReLU, pReLU)。pReLU 为 ReLU 添加了一个线性项,使得即使输入为负,仍有信息可以传递:

pReLU ( x ) = max ⁡ ( 0 , x ) + α min ⁡ ( 0 , x ) . \text{pReLU}(x) = \max(0, x) + \alpha \min(0, x). pReLU(x)=max(0,x)+αmin(0,x).

Sigmoid 函数

对于定义域在 R \mathbb{R} R 中的输入,sigmoid 函数将输入变换为区间 ( 0 , 1 ) (0, 1) (0,1) 上的输出,因此 sigmoid 通常称为挤压函数(squashing function)。它将任意输入压缩到区间 ( 0 , 1 ) (0, 1) (0,1) 中的某个值,定义如下:


(4.1.6)

背景

在早期的神经网络中,科学家们通过 sigmoid 函数模拟生物神经元的激发和非激发。它是阈值单元的平滑可微近似,当输入低于某个阈值时输出接近 0,超过阈值时输出接近 1。由于 sigmoid 的平滑性和可导性,它在基于梯度的学习中得到广泛应用,特别是在将输出视为二元分类问题的概率时,仍然使用 sigmoid 作为输出层的激活函数。

然而,随着 ReLU 函数的引入,sigmoid 在隐藏层中的应用逐渐减少,因为 ReLU 更简单且更易于训练。在后续关于循环神经网络的章节中,我们将探讨如何使用 sigmoid 来控制时序信息流。

绘制 sigmoid 函数

我们可以通过代码绘制 sigmoid 函数曲线。注意,当输入接近 0 时,sigmoid 函数近似线性。

y = torch.sigmoid(x)
d2l.plot(x.detach(), y.detach(), 'x', 'sigmoid(x)', figsize=(5, 2.5))

在这里插入图片描述

Sigmoid 函数的导数

sigmoid 函数的导数公式如下:


(4.1.7)

我们可以通过代码绘制 sigmoid 函数的导数曲线。注意,当输入为 0 时,sigmoid 函数的导数达到最大值 0.25;而当输入远离 0 时,导数逐渐趋近于 0。

# 清除以前的梯度
x.grad.data.zero_()
y.backward(torch.ones_like(x), retain_graph=True)
d2l.plot(x.detach(), x.grad, 'x', 'grad of sigmoid', figsize=(5, 2.5))

在这里插入图片描述

这表明 sigmoid 函数在输入较大或较小时的梯度非常小,这导致在深层网络中可能会出现梯度消失问题。

Tanh 函数

与 sigmoid 函数类似,tanh(双曲正切)函数也可以将输入压缩到区间 ( − 1 , 1 ) (-1, 1) (1,1) 上。tanh 函数的公式如下:


(4.1.8)

我们可以通过代码绘制 tanh 函数。注意,当输入在 0 附近时,tanh 函数接近线性,且函数关于原点对称。

y = torch.tanh(x)
d2l.plot(x.detach(), y.detach(), 'x', 'tanh(x)', figsize=(5, 2.5))

在这里插入图片描述

Tanh 函数的导数

tanh 函数的导数为:


(4.1.9)

当输入接近 0 时,tanh 函数的导数接近最大值 1。类似于 sigmoid 函数,当输入远离 0 时,导数逐渐趋近于 0。我们可以绘制 tanh 函数的导数图像。

# 清除以前的梯度
x.grad.data.zero_()
y.backward(torch.ones_like(x), retain_graph=True)
d2l.plot(x.detach(), x.grad, 'x', 'grad of tanh', figsize=(5, 2.5))

在这里插入图片描述

总结

我们已经了解了如何使用非线性激活函数(如 ReLU、sigmoid 和 tanh)来构建具有更强表达能力的多层神经网络。值得一提的是,如今借助开源的深度学习框架,只需几行代码即可快速构建模型,而在 20 世纪 90 年代,训练这些网络可能需要数千行 C 或 Fortran 代码。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2199301.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【有啥问啥】逆向工程(Reverse Engineering,RE):深度解析与技术方法

逆向工程(Reverse Engineering,RE):深度解析与技术方法 引言 逆向工程(Reverse Engineering,简称RE),作为现代科技领域中的一项重要技术,其影响力已远远超越了传统的硬…

“聪明车”上线“智慧路”!批量苏州金龙海格公交甘肃静宁投运

近日,甘肃省静宁县智慧公交系统正式上线,20台苏州金龙海格蔚蓝新能源公交车正式投入使用,大大提升了当地城市公共交通的智能水平以及城市形象。 智慧交通,势在必行 随着公共交通出行需求的不断升级,客运市场对于智能化…

爬虫请求响应以及提取数据

爬虫请求响应以及提取数据 回顾: 网页给客户端响应数据, 有哪些写法(在爬虫入门之爬虫原理以及请求响应这篇博客咯嘛有提到)? 1.响应对象.text(获取网页数据的时候会用到) 2.响应对象.content(将图片, 音频或视频等数据存放到文件的时候会用到) 那这一篇文章, 介绍一个新的写法…

小白打造爆款必备:速卖通平台测评与买家号培养全解析

随着亚马逊平台风控的持续升级,众多卖家面临着封店、侵权等诸多挑战,迫使许多商家开始探索其他市场,如速卖通、Temu等平台,这些平台对新入驻的卖家提供了显著的流量扶持。在速卖通平台的运营中,如何迅速且有效地提升店…

动态规划11:面试题 17.16. 按摩师

动态规划解题步骤: 1.确定状态表示:dp[i]是什么 2.确定状态转移方程:dp[i]等于什么 3.初始化:确保状态转移方程不越界 4.确定填表顺序:根据状态转移方程即可确定填表顺序 5.确定返回值 题目链接:面试…

论文翻译 | Language Models are Few-Shot Learners 语言模型是少样本学习者(上)

摘要 最近的工作表明,通过在大规模文本语料库上进行预训练,然后在特定任务上进行微调,许多自然语言处理(NLP)任务和基准测试都取得了显著的提升。尽管这种方法在架构上通常是任务无关的,但它仍然需要成千上…

【vue2.7.16系列】手把手教你搭建后台系统__配置路由(3)

新建页面 我们把 components 改名为 views,并在 views 目录下添加三个页面,Login.vue,Home.vue,404.vue。 三个页面内容简单相似,只有简单的页面标识,如首页页面是 “Home Page”。 Home.vue,…

windows客户端SSH连接ubuntu/linux服务器,三种网络连接:局域网,内网穿透(sakuraftp),虚拟局域网(zerotier)

windows客户端SSH连接ubuntu/linux服务器,三种网络连接:局域网,内网穿透(sakuraftp),虚拟局域网(zerotier) 目录 SSH简述、三种网络连接特点SSH简述局域网内连接内网穿透&#xff08…

SpringBoot助力校园资料分享:快速上手指南

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多学生、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统,它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等,非常适…

LabVIEW提高开发效率技巧----队列使用

在LabVIEW开发中,队列是实现并行处理、数据传递和任务调度的关键机制之一,合理使用队列可以有效提高程序性能并避免内存问题。结合队列长度限制和其他队列相关技巧,以下是队列使用的详细说明: 1. 队列长度限制 限制队列的长度可以…

maven打包常用命令

跳过tset打包 mvn package -Dmaven.test.skiptrue

构建高效水果购物平台:SpringBoot飘香网站案例

1系统概述 1.1 研究背景 如今互联网高速发展,网络遍布全球,通过互联网发布的消息能快而方便的传播到世界每个角落,并且互联网上能传播的信息也很广,比如文字、图片、声音、视频等。从而,这种种好处使得互联网成了信息传…

入门级攻略:如何容器化部署微服务?

如何容器化部署微服务?第一步理解容器化基础,第二步创建Dockerfile,第三步构建推送镜像,第四步部署微服务,第五步管理微服务、第六步优化更新。容器化部署微服务是现代软件开发中的一种高效方法,可提供良好…

55页可编辑PPT | 制造企业数字化转型顶层规划案例

基于集团的战略和运营特点,数字化转型应如何考虑? 在集团的战略和运营特点基础上进行数字化转型,需要实现业务多元化,整合资源和流程,推动国际化拓展,实施差异化战略,并通过数据驱动决策&#…

3D图形学新手简明教程

如今,3D 计算机图形 (CG) 无处不在。从视频游戏到医疗应用。 电影行业由计算机主导,而不仅仅是科幻和动画。在拍摄《爱尔兰人》时,马丁斯科塞斯使用计算机特效让演员罗伯特德尼罗、乔佩西和阿尔帕西诺变年轻。 当你意识到第一部采用计算机生…

国产长芯微LUM6100高可靠性双通道双向I2C数字隔离器P2P替代ADUM1250 ADUM1251替代ISO1540 ISO1541

描述 LUM6100系列是高可靠性的双向l2C数字隔离器。提供符合UL1577的多种电气隔离耐压(3.75kVrms, 5kVrms),且具有高电磁抗扰度和低辐射的特性。支持I2C时钟高达2MHZ,共模瞬态抗干扰度(CMTI)高达150kV/μs。宽供电范围可直接对接大多数MCU等数字接口,并且…

Python笔记之识别到当前python脚本所在的目录,而不是执行python命令的目录

Python笔记之识别到当前python脚本所在的目录,而不是执行python命令的目录 code review! 文章目录 Python笔记之识别到当前python脚本所在的目录,而不是执行python命令的目录1.题解2.在脚本所在的目录后面拼接下一层目录 1.题解 要在Python脚本中识别到…

Vue3中Watch的同步和异步

在 Vue 3 中&#xff0c;watch 是一个强大的工具&#xff0c;适合监视响应式数据的变化并处理副作用逻辑。最近在做CodeReview的时候&#xff0c;发现了一些对watch使用上不太合理的地方&#xff0c;整理了一个类似的例子。 案例分析 先来看看例子&#xff1a; <template>…

2024年10月13日(星期天)骑行知青堂

2024年10月13日 (星期天&#xff09;骑行知青堂&#xff0c;早8:30到9:00&#xff0c; 金殿水库大坝集合&#xff0c;9:00准时出发【因迟到者&#xff0c;骑行速度快者&#xff0c;可自行追赶偶遇。】 偶遇地点:金殿水库大坝集合 &#xff0c;家住东&#xff0c;南&#xff0…

华为Datacom考什么?要考几门?

华为认证细致地分为 HCIA、HCIP 和 HCIE 这三个具有显著差异的级别。 就在今天&#xff0c;让咱们一同分别针对改版后三个级别的 Datacom 考试展开全面且深入的介绍。 细致探讨看看它们各自具体考查哪些内容&#xff0c;究竟要通过考几门课程才能成功获取证书。 01、HCIA-Dat…