【深度学习】激活函数

news2025/1/10 19:07:41

上一章——认识神经网络

新课P54介绍了强人工智能概念,P55到P58解读了矩阵乘法在代码中的应用,P59,P60介绍了在Tensflow中实现神经网络的代码及细节,详细的内容可以自行观看2022吴恩达机器学习Deeplearning.ai课程,专栏中就不再赘述。

文章目录

  • 激活函数的替代方案
    • Sigmoid函数
    • ReLU函数
    • 线性函数
  • 激活函数的选择
    • Output层
    • 隐藏层
  • 为什么模型需要激活函数


激活函数的替代方案

Sigmoid函数

在这里插入图片描述
在逻辑回归中,我们使用的激活函数是Sigmoid函数,又称逻辑函数,它能预测(0,1)区间内的值,因此我们常常会在二分问题中使用。

ReLU函数

在这里插入图片描述
如果我们想要取到更大的正值,我们可以使用这个激活函数来代替,如图右边所示。
这个函数称为ReLU函数(Rectified Linear Unit),即修正线性单元, R e L U : g ( z ) = m a x ( 0 , z ) ReLU:g(z)=max(0,z) ReLU:g(z)=max(0,z)
其中当 z < 0 z<0 z<0时, g ( z ) = 0 g(z)=0 g(z)=0, z > 0 z>0 z>0时, g ( z ) = z g(z)=z g(z)=z
在实际工作中,ReLU函数的使用会更加广泛一些,

线性函数

在这里插入图片描述
线性激活函数 g ( z ) = z g(z)=z g(z)=z,我们也可以称它没有使用任何激活函数,因为输入量为z,输出激活量 a = g ( z ) = z a=g(z)=z a=g(z)=z,实际上没有任何变化。


激活函数的选择

激活函数如何选择取决于你需要一个什么样的输出量,我们以上面提到的几种激活函数为例

Output层

在这里插入图片描述

如果你要选择输出层的激活函数,那么最后得到的就是想要预测的结果,假如你想要预测的结果是一个二分问题,那么其预测值应当是处于0,1之间的,我们会选择逻辑函数;
假如你是要预测股票的涨跌,那么股票的跌可以视为负数,涨视为正数,因此你的输出层激活函数需要有正有负,我们就会选择线性激活函数,使得它有负值。
假设你要预测房价,那么房价一定不会是负数,我们不接受负值的出现,因此你可以选择ReLU函数来进行预测。
以上只是举我们讲过的几种激活函数为例,总而言之需要根据实际要求来选择激活函数,
以上仅是针对输出层,并不对隐藏层适用。

隐藏层

在这里插入图片描述在上一节介绍神经网络的时候,隐藏层使用的是Sigmoid函数,然而实际上ReLU或者其他函数更好,

  • ReLU函数的计算比Sigmoid更简单,更快速
  • ReLU函数的梯度下降速度比Sigmoid更快

如果仔细观察Sigmoid函数的代价函数(上图蓝色部分函数),会发现Sigmoid的函数形状并不是很适合梯度下降,并且随着Z的增大或缩小,Sigmoid函数的图像会趋于平坦,这就导致了 d J d w ≈ 0 \frac{dJ}{dw}≈0 dwdJ0,从而导致了梯度下降速度会越来越慢,而ReLU函数不会有这样的问题。一般来说,大部分情况下在隐藏层用ReLU函数都会更好。


为什么模型需要激活函数

我们的模型能不能不使用任何激活函数(仅线性激活函数)?答案是否定的,首先,从建立神经网络的目的来看,设置激活函数的目的就是为了向神经元添加非线性的输入来实现更复杂的计算,如果不使用激活函数,那么也没必要使用神经网络。

如果神经网络不使用激活函数,会发生什么情况?如下图所示
在这里插入图片描述

假设我们的神经网络的隐藏层和输出层使用的全部都是线性激活函数,那么
a [ 1 ] = w 1 [ 1 ] x + b 1 [ 1 ] a^{[1]}=w^{[1]}_1x +b^{[1]}_1 a[1]=w1[1]x+b1[1], a [ 2 ] = w 1 [ 2 ] a [ 1 ] + b 1 [ 2 ] a^{[2]}=w^{[2]}_1a^{[1]} +b^{[2]}_1 a[2]=w1[2]a[1]+b1[2]
我们将 a [ 2 ] a^{[2]} a[2]式子中的 a [ 1 ] a^{[1]} a[1]替换,就能得到 a [ 2 ] = w 1 [ 2 ] ( w 1 [ 1 ] x + b 1 [ 1 ] ) + b 1 [ 2 ] a^{[2]}=w^{[2]}_1(w^{[1]}_1x +b^{[1]}_1) +b^{[2]}_1 a[2]=w1[2](w1[1]x+b1[1])+b1[2]
展开后得到 a [ 2 ] = ( w 1 [ 2 ] w 1 [ 1 ] ) x + w 1 [ 2 ] b 1 [ 1 ] + b 1 [ 2 ] a^{[2]}=(w^{[2]}_1w^{[1]}_1)x +w^{[2]}_1b^{[1]}_1 +b^{[2]}_1 a[2]=(w1[2]w1[1])x+w1[2]b1[1]+b1[2],将 ( w 1 [ 2 ] w 1 [ 1 ] ) 设为 w , ( w 1 [ 2 ] b 1 [ 1 ] + b 1 [ 2 ] ) 设为 b 就得到了 a [ 2 ] = w x + b (w^{[2]}_1w^{[1]}_1)设为w,(w^{[2]}_1b^{[1]}_1 +b^{[2]}_1)设为b就得到了 a^{[2]}=wx +b (w1[2]w1[1])设为w(w1[2]b1[1]+b1[2])设为b就得到了a[2]=wx+b
也就是说,经过了两层的线性函数的计算,实际上也就相当于进行一次线性函数计算,那么n层线性激活函数的神经网络实际只相当于进行一次线性函数计算。也就是说如果不采用任何激活函数,整个神经网络和线性函数没有差别。所以,如果不使用激活函数,神经网络并不能提升进行复杂计算的能力,整个模型相当于逻辑回归。

在未来的学习中,我们也会接触到其他的激活函数,理解激活函数的作用,选择适宜的激活函数,将对我们神经网络的搭建具有重大意义。


下一章——多分类问题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/350151.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

NVIDIA Tesla V100部署与使用

在先前的实验过程中&#xff0c;使用了腾讯云提供的nvidia T4GPU&#xff0c;尽管其性能较博主的笔记本有了极大提升&#xff0c;但总感觉仍有些美中不足&#xff0c;因此本次博主租赁了nvidia V100 GPU&#xff0c;看看它的性能表现如何。 和先前一样&#xff0c;只需要将服务…

2023美赛A题思路数据代码分享

文章目录赛题思路2023年美国大学生数学建模竞赛选题&论文一、关于选题二、关于论文格式三、关于论文提交四、论文提交流程注意不要手滑美赛A题思路数据代码【最新】赛题思路 (赛题出来以后第一时间在CSDN分享) 最新进度在文章最下方卡片&#xff0c;加入获取一手资源 202…

医学图象分割常用损失函数(附Pytorch和Keras代码)

对损失函数没有太大的了解&#xff0c;就是知道它很重要&#xff0c;搜集了一些常用的医学图象分割损失函数&#xff0c;学习一下&#xff01; 医学图象分割常见损失函数前言1 Dice Loss2 BCE-Dice Loss3 Jaccard/Intersection over Union (IoU) Loss4 Focal Loss5 Tvesky Loss…

学生投票系统-课后程序(JAVA基础案例教程-黑马程序员编著-第三章-课后作业)

【案例3-4】学生投票系统 记得 关注&#xff0c;收藏&#xff0c;评论哦&#xff0c;作者将持续更新。。。。 【案例介绍】 案例描述 某班级投票竞选班干部&#xff0c;班级学生人数为100人&#xff0c;每个学生只能投一票。 本任务要求&#xff0c;编程实现一个投票程序&…

2023美赛赛题和数据公布啦~【附中文翻译版】

2023美赛赛题和数据公布啦~ 加2023年的美国大学生数学建模竞赛 数学建模竞赛是一项在全球范围内非常受欢迎的竞赛&#xff0c;旨在鼓励学生运用数学知识和建模技能解决实际问题。这项竞赛不仅对学生的数学能力提出了很高的要求&#xff0c;还对他们的创造性、团队协作和沟通能…

经典算法题---链表奇偶重排(好题)双指针系列

我听别人说这世界上有一种鸟是没有脚的&#xff0c;它只能够一直的飞呀飞呀&#xff0c;飞累了就在风里面睡觉&#xff0c;这种鸟一辈子只能下地一次&#xff0c;那一次就是它死亡的时候。——《阿甘正传》这一文章讲解链表的奇偶排序问题&#xff0c;这是一道不难但是挺好的链…

凹凸贴图(Bump Mapping)

凹凸贴图是什么&#xff1f; 我们首先来看low-poly&#xff08;多边形数较少&#xff09;mesh和high-poly&#xff08;多边形数量较多&#xff09;mesh之间的不同。首先&#xff0c;最明显的不同就是high-poly能够表现出更多细节&#xff0c;但high-poly有比较大的性能开销。有…

springboot下@transcation使用基本介绍

springboot下transcation基本使用的几种可能 普通常使用的几种可能&#xff08;事务的传播行为默认值Propagation.REQUIRED&#xff09;&#xff1a; transcation只在使用方法A上&#xff0c;A内无调用其他方法&#xff0c;事务正常方法A和方法B在同一个类下&#xff0c;transc…

net6中使用FluentValidation做实体验证(批量注册)

实体验证-FluentValidation 首先明白两个概念 自动验证&#xff1a;就是在请求进入到控制器前FluentValidation就自行完成实体的验证并做错误返回&#xff0c; 优点&#xff1a;简单 少一些手动调用的代码缺点&#xff1a;灵活性差&#xff0c;不好控制&#xff0c;不支持异步…

智慧校园电子班牌系统

智慧电子班牌区别于传统电子班牌&#xff0c;智慧校园电子班牌系统更加注重老师和学生的沟通交流和及时数据交互。学校为每个教室配置一台智能电子班牌&#xff0c;一般安装于教室门口&#xff0c;用来实时显示学校通知、班级通知&#xff0c;可设置集中分布式管理&#xff0c;…

RSA加解密简单实现

目录 浅谈加解密实现方式 MD5加密 DES加密 AES加密 RSA加密 SSL加密认证 关于RSA加解密实现 简单数据加解密的实现 分块加解密实现 附录 浅谈加解密实现方式 关于数据加解密方式&#xff0c;我们一般分为不可逆加密、对称可逆加密、非对称加密、综合加密应用等&…

魔改并封装 YoloV5 Version7 的 detect.py 成 API接口以供 python 程序使用

文章目录IntroductionSection 1 起因Section 2 魔改的思路Section 3 代码Part 1 参数部分Part 2 识别 APIPart 3 完整的 DetectAPI.pyPart 4 修改 dataloaders.pySection 4 调用ReferenceIntroduction YoloV5 作为 YoloV4 之后的改进型&#xff0c;在算法上做出了优化&#xf…

errgroup 原理简析

golang.org/x/sync/errgroup errgroup提供了一组并行任务中错误采集的方案。 先看注释 Package errgroup provides synchronization, error propagation, and Context cancelation for groups of goroutines working on subtasks of a common task. Group 结构体 // A Gro…

Sphinx : 高性能SQL全文检索引擎

Sphinx是一款基于SQL的高性能全文检索引擎&#xff0c;Sphinx的性能在众多全文检索引擎中也是数一数二的&#xff0c;利用Sphinx&#xff0c;我们可以完成比数据库本身更专业的搜索功能&#xff0c;而且可以有很多针对性的性能优化。 Sphinx的特点 快速创建索引&#xff1a;3分…

Barra模型因子的构建及应用系列三之Momentum因子

一、摘要 在之前的Barra模型系列文章中&#xff0c;我们已经初步讲解、构建了Size因子和Beta因子&#xff0c;并分别创建了对应的单因子策略。通过回测发现&#xff0c;其中Size因子的小市值效应具有很强的收益能力。而本篇文章将在该系列下进一步构建Momentum因子。 二、模型…

90%企业在探索的敏捷开发怎么做?极狐GitLab总结了这些逻辑与流程

本文来自&#xff1a; 彭亮 极狐(GitLab) 高级产品经理 毛超 极狐(GitLab) 研发工程师 极狐(GitLab) 市场部内容团队 “敏捷” 是指能够驾驭变化&#xff0c;保持组织竞争优势的一种能力。自 2001 年《敏捷宣言》以来&#xff0c;敏捷及敏捷开发理念逐渐席卷全球。中国信通院《…

面试已上岸,成功拿到阿里和腾讯的入职offer,Java程序员面经全在这了,希望能帮到你!

前言 一开始的时候简历海投大多数都被拒绝了&#xff0c;后来自己找在腾讯上班的朋友帮忙改了一下简历&#xff0c;果然不一样了大多都能拿到面试机会&#xff0c;当然拿到后也没有那么顺利&#xff0c;面了差不多有十几家公司的样子&#xff0c;大大小小的都有&#xff0c;其中…

C++和QML混合编程_QML发送信号到C++端(信号和槽绑定)

C和QML混合编程_QML发送信号到C端&#xff08;信号和槽绑定&#xff09; 前言&#xff1a; 下面是之前讲解过的三种方法 1、使用Q_INVOKABLE声明一下普通函数&#xff0c;在QML端可以直接调用 2、使用Connections绑定QML的信号和C端的槽函数 3、使用connect绑定QML的信号和C端的…

通俗易懂理解——布隆过滤器

文章目录概述本质优缺点优点&#xff1a;缺点&#xff1a;实际应用解决redis缓存穿透问题&#xff1a;概述 本质 本质&#xff1a;很长的二进制向量&#xff08;数组&#xff09; 主要作用&#xff1a;判断一个数据在这个数组中是否存在&#xff0c;如果不存在为0&#xff0c…

NR PDCP duplication

欢迎关注同名微信公众号“modem协议笔记”。 PDCP duplication 是PDCP 的一个功能&#xff0c;主要是为满足URLLC 场景的可靠性/延迟要求&#xff0c;而产生的一种提高传输可靠性的机制&#xff0c;具体就是在信号状况比较差的情况下&#xff0c;网络侧通过配置PDCP duplicati…