第四章:人工智能深度学习教程-激活函数(第四节-深入理解激活函数)

news2024/11/24 10:57:11

什么是激活函数
在人工神经网络中,节点的激活函数定义了该节点或神经元对于给定输入或一组输入的输出。然后将该输出用作下一个节点的输入,依此类推,直到找到原始问题的所需解决方案。

它将结果值映射到所需的范围,例如 0 到 1-1 到 1 等。这取决于激活函数的选择。例如,使用逻辑激活函数会将实数域中的所有输入映射到 0 到 1 的范围内。

二元分类问题的示例:
在二元分类问题中,我们有一个输入 x,比如一张图像,我们必须将其分类为是否具有正确的对象。如果它是正确的对象,我们将为其分配 1,否则为 0。因此,这里我们只有两个输出 - 图像要么包含有效对象,要么不包含。这是二元分类问题的示例。

当我们将每个特征与权重(w1,w2,...,wm)相乘并将它们全部加在一起时,
节点输出 = 激活(输入的加权和)。

(1) 

`
 
一些重要的术语和数学概念 –

  • 传播是反复调整权重以最小化实际输出和期望输出之间的差异的过程。
  • 隐藏层是堆叠在输入和输出之间的神经元节点,允许神经网络学习更复杂的特征(例如异或逻辑)。
  • 反向传播是反复调整权重以最小化实际输出和期望输出之间的差异的过程。

    它允许信息通过网络从成本向后返回,以计算梯度。因此,以逆拓扑顺序从最终节点开始循环节点,以计算最终节点输出的导数。这样做将帮助我们了解谁对最多的错误负责,并朝该方向适当更改参数。

  • 训练机器学习模型时使用梯度下降。它是一种基于凸函数的优化算法,迭代地调整其参数以将给定函数最小化至局部最小值。梯度测量的是如果稍微改变输入,函数的输出会发生多少变化。

    注意:如果梯度下降正常工作,成本函数应该在每次迭代后减小。

激活功能的类型:

激活函数基本上有两种类型:

1. 线性激活函数 –

方程:f(x) = x
范围:(-无穷大到无穷大)

2. 非线性激活函数——
它使模型可以轻松地概括各种数据并区分输出。通过仿真发现,对于较大的网络,ReLU 的速度要快得多。事实证明,ReLU 可以大大加快大型网络的训练速度。非线性意味着输出不能从输入的线性组合中再现。

非线性函数需要理解的主要术语是:

1. 导数: y 轴的变化相对于 x 轴的变化。它也被称为坡度。
2. 单调函数:完全不增或不减的函数。

非线性激活函数主要根据其范围或曲线划分如下:

让我们更深入地了解每个激活函数 -

1.乙状结肠:

它也称为二元分类器逻辑激活函数,因为函数始终选择 0(假)或 1(真)值。

sigmoid 函数产生与阶跃函数类似的结果,输出在 0 和 1 之间。曲线在 z=0 处与 0.5 相交,我们可以为激活函数设置规则,例如:如果 sigmoid 神经元的输出大于或等于0.5,输出1;如果输出小于0.5,则输出0。

sigmoid 函数的曲线没有急动。它是平滑的,并且有一个非常好的和简单的导数,它在曲线上的任何地方都是可微的。

Sigmoid 的推导:

  

S 型函数会饱和并杀死梯度。sigmoid 的一个非常常见的属性是,当神经元的激活在 0 或 1 处饱和时,这些区域的梯度几乎为零。回想一下,在反向传播期间,该局部梯度将乘以整个目标的该门输出的梯度。因此,如果局部梯度非常小,它将有效地“杀死”梯度,几乎没有信号会通过神经元流向其权重并递归至其数据。此外,还会添加额外的惩罚来初始化 S 形神经元的权重,以防止饱和。例如,如果初始权重太大,那么大多数神经元将变得饱和,网络几乎无法学习。
 
2.ReLU(修正线性单元):

它是使用最广泛的激活函数。因为几乎所有的卷积神经网络都使用它。ReLU是从底部开始进行半整流的。该函数及其导数都是单调的。

f(x) = 最大值(0, x)

接近线性的模型很容易优化。由于 ReLU 具有线性函数的许多属性,因此它往往可以很好地解决大多数问题。唯一的问题是导数没有在 z = 0 处定义,我们可以通过将 z = 0 处的导数分配给 0 来克服这个问题。然而,这意味着对于 z <= 0 梯度为零,并且再次无法学习。

3. 泄漏 ReLU:

Leaky ReLU 是 ReLU 函数的改进版本。ReLU 函数,当 x<0 时梯度为 0,这使得神经元因该区域的激活而死亡。Leaky ReLU 就是为了解决这个问题而定义的。我们不是将 Relu 函数定义为 x 小于 0 时的 0,而是将其定义为 x 的一个小的线性分量。Leaky ReLU 是解决 Dying ReLU 问题的一种尝试。当 x < 0 时,函数不会为零,而是泄漏 ReLU 将具有较小的负斜率(0.01 左右)。也就是说,该函数计算:

(2) 4. Tanh 或双曲正切:

它将实数值压缩到 [-1, 1] 范围内。与 S 型神经元一样,它的激活会饱和,但与 S 型神经元不同的是,它的输出是以零为中心的。因此,tanh 非线性始终优于 sigmoid 非线性。tanh 神经元只是一个缩放的 s 形神经元。
Tanh 也类似于逻辑 sigmoid,但更好。优点是负输入将映射为强负值,零输入将映射为 tanh 图中接近零的值。

该函数是可微单调的,但其导数不是单调的。tanh 和逻辑 Sigmoid 激活函数都用于前馈网络。
它实际上只是 sigmoid 函数的缩放版本。

tanh(x)=2 sigmoid(2x)-1

 
5.Softmax:

sigmoid 函数可以轻松应用,ReLU 不会在您的训练过程中消除效果。然而,当你想要处理分类问题时,它们就没有多大帮助了。sigmoid 函数只能处理两个类,这不是我们所期望的,但我们想要更多。softmax 函数将每个单元的输出压缩到 0 到 1 之间,就像 sigmoid 函数一样。它还对每个输出进行除法,使输出的总和等于 1。

softmax 函数的输出相当于分类概率分布,它告诉您任何类别为真的概率。

其中0是输出层输入的向量(如果有 10 个输出单元,则 z 中有 10 个元素)。同样,j 对输出单位进行索引,因此 j = 1, 2, …, K。

Softmax 函数的属性 –

1.计算的概率将在 0 到 1 的范围内。
2.所有概率的总和等于 1。

Softmax 函数用法 –
1.用于多分类逻辑回归模型。
2.在构建神经网络时,softmax 函数用于不同层和多层感知器。

例子:

(3) 

Softmax 函数将 logits [1.2, 0.9, 0.4] 转换为概率 [0.46, 0.34, 0.20],并且概率之和为 1。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1189455.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

渲染管线详解

光栅化的渲染管线一般分为三大阶段&#xff1a;应用程序阶段->几何阶段->光栅化阶段 也可以四大阶段&#xff1a; 应用程序阶段->几何阶段->光栅化阶段->逐片元操作阶段 更详细的流程如下&#xff1a; Vertex Specification&#xff08;顶点规范化&#xff09…

GPTZero:论文打假神器

记住这张脸他是全美学生的公敌。 别的学生在AI大浪潮间翻云覆雨&#xff0c;有的用GPT代写作业&#xff0c;有的用GPT代工论文&#xff0c;大家都忙的不亦乐乎。 正在大家都在欢呼雀跃跟作业拜拜时&#xff0c;就是这个小伙&#xff0c;普林斯顿大学的华裔小天才Edward Tian…

Git入门---简介,常用命令

&#x1f3ac; 艳艳耶✌️&#xff1a;个人主页 &#x1f525; 个人专栏 &#xff1a;《Spring与Mybatis集成整合》《Vue.js使用》 ⛺️ 越努力 &#xff0c;越幸运。 1.Git 的简介 1.1. 介绍 Git是一个开源的分布式版本控制系统&#xff0c;最初由Linus Torvalds于2005年创…

Adobe Illustrator 2021 下载及安装教程

目录 下载地址&#xff1a; 安装教程&#xff1a; 下载地址&#xff1a; Adobe Illustrator 2021安装包 链接&#xff1a;https://pan.baidu.com/s/1UIzjbS5pRuL7Zpt9RrU5lQ 提取码&#xff1a;lxwj 安装教程&#xff1a; 1、下载压缩包,解压文件 2、双击Set_up.exe&#…

数据分析实战 | 线性回归——女性身高与体重数据分析

目录 一、数据集及分析对象 二、目的及分析任务 三、方法及工具 四、数据读入 五、数据理解 六、数据准备 七、模型训练 八、模型评价 九、模型调参 十、模型预测 实现回归分析类算法的Python第三方工具包比较常用的有statsmodels、statistics、scikit-learn等&#…

刚接触银行新业务测试的一些问题

在银行金融领域的测试工作&#xff0c;相信很多测试工程师都会遇到自己不熟悉的业务。然后开始看文档&#xff0c;问开发或者需求人员。搞懂了大概的流程&#xff0c;然后开始进行测试。 不过遇到复杂的业务情况时&#xff0c;真的很需要时间去梳理。而且测试环境的配置问题、不…

ruoyi前后端分离版本开发框架解读---让你快速入门

后端结构 com.ruoyi ├── common // 工具类 │ └── annotation // 自定义注解 │ └── config // 全局配置 │ └── constant // 通用常量 │ └── core …

【Linux】第十四站:进程优先级

文章目录 一、Linux内核怎么设计各种结构二、进程优先级1.基本概念2.是什么3.为什么要有优先级4.批量化注释操作5.查看优先级6.PRI and NI 三、位图与优先级 一、Linux内核怎么设计各种结构 我们前面所写的数据结构都是比较单纯的。 而linux中就比较复杂了&#xff0c;同一个…

深入分析MySQL索引与磁盘读取原理

索引 索引是对数据库表中一列或者多列数据检索时&#xff0c;为了加速查询而创建的一种结构。可以在建表的时候创建&#xff0c;也可以在后期添加。 USER表中有100万条数据&#xff0c;现在要执行一个查询"SELECT * FROM USER where ID999999"&#xff0c;如果没有索…

数据结构与算法C语言版学习笔记(5)-串,匹配算法、KMP算法

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、串的定义二、串的存储结构1.顺序结构2.链式结构 三、串的朴素的模式匹配算法&#xff08;暴力匹配算法&#xff09;1.背景2.假设我们要从下面的主串 S"…

VS Code+DevChat助力非专业开发也能玩转代码编程

一、前言 偶然间网上瞎逛&#xff0c;看到DevChat 发布了一款 VS Code 插件&#xff0c;可提供类似chatgpt一样的“一站式 AI 辅助编程”体验。据说&#xff0c; DevChat 直接对接 GPT-4 还让免费用&#xff0c;目前免费注册收邮件即可获取key&#xff0c;再也不用麻烦的外部手…

人工智能在汽车业应用的五项挑战

在汽车行业扩展人工智能应用时需要注意的问题 随着更多企业投资于汽车人工智能 (AI) 解决方案&#xff0c;我们也愈加接近大规模部署 5 级全自动驾驶汽车。汽车行业的组织如果希望加入这场 AI 带来的颠覆性变革&#xff0c;就应该已提前考虑如何成功和大规模地将人工智能部署到…

商人宝:收银系统一般多少钱

推荐方案基于来自各大电商平台的用户评价数据&#xff0c;为您推荐以下收银系统数据&#xff1a; 1.硬件方面 小票打印机、扫码枪、收银盒等硬件终端设备都是不可或缺的。一般小票打印机、扫码枪、收银盒&#xff0c;价格在2-500元之间&#xff0c;性能稳定、使用寿命长、使用…

记录第一次银行测试岗面试【总结几点面试不要犯得错误】

LZ在一个18线小城市做测试&#xff0c;近来想走出自己的舒适区&#xff0c;去做一点不一样的测试工作。 18线地区&#xff0c;测试工作并不多。最好的差不多就是LZ目前待着的公司了。遂决定去魔都闯荡几年&#xff0c;对一个在魔都无房无车无户口的人来讲&#xff0c;这意味着…

循环链表的设计与基本操作的实现

目录 一.循环链表的设计 二.循环链表的实现 三.循环链表的总结 一.循环链表的设计 1.循环链表的结构设计: typedef struct CNode{int data;struct CNode* next;}CNode ,*CList; 2.循环链表的示意图: 3.循环链表和单链表的区别: 唯一区别,没有空指针,尾节点的后继为头,为循…

订水商城实战教程09-跑马灯

目录 1 跑马灯效果2 创建数据源3 创建变量4 搭建组件5 数据绑定6 录入测试数据总结 上一篇我们介绍了轮播图如何开发&#xff0c;本节我们介绍一下跑马灯的效果开发。 1 跑马灯效果 通常小程序会增加一点动画的效果来让页面显得不那么死板&#xff0c;我们这里增加了一个跑马灯…

软件测试|测试方法论—边界值

边界值分析法是一种很实用的黑盒测试用例方法&#xff0c;它具有很强的发现故障的能力。边界值分析法也是作为对等价类划分法的补充&#xff0c;测试用例来自等价类的边界。 这个方法其实是在测试实践当中发现&#xff0c;Bug 往往出现在定义域或值域的边界上&#xff0c;而不…

深度学习4:BatchNormalization(批规范化)

一、起源 训练深度网络的时候经常发生训练困难的问题&#xff0c;因为&#xff0c;每一次参数迭代更新后&#xff0c;上一层网络的输出数据经过这一层网络计算后&#xff0c;数据的分布会发生变化&#xff0c;为下一层网络的学习带来困难。 Batch Normalizatoin 之前的解决方…

【小黑送书—第四期】>>用“价值”的视角来看安全:《构建新型网络形态下的网络空间安全体系》

经过30多年的发展&#xff0c;安全已经深入到信息化的方方面面&#xff0c;形成了一个庞大的产业和复杂的理论、技术和产品体系。 因此&#xff0c;需要站在网络空间的高度看待安全与网络的关系&#xff0c;站在安全产业的高度看待安全厂商与客户的关系&#xff0c;站在企业的高…