激活函数与loss的梯度

news2024/11/23 12:22:25

激活函数:
最开始由生物学家对青蛙的神经元机制进行研究发现,青蛙的神经元有多个输入x0、x1、x2,响应值是他们加权后的结果,但响应值如果小于阈值,则不会响应,而只有大于阈值时,才会有固定的响应。
在这里插入图片描述
这就类似于阶梯函数
在这里插入图片描述
但阶梯函数由于不连续,故不可导。科学家提出了连续光滑的激活函数:sigmoid / logistic

sigmoid

使用的范围比较广,因为它能把输出值的范围压缩在0-1之间,如概率,还有像素值RGB都是0-1的大小。
在这里插入图片描述
当输入很小的时候,响应接近于0,当输入很大的时候,响应接近于1。

对sigmoid函数进行求导
在这里插入图片描述
但sigmoid函数有缺陷:
在趋近于正无穷的地方,σ的导数接近于0,则参数θ更新后仍为θ,长时间参数得不到更新这个情况也叫做梯度离散。
在这里插入图片描述
sigmoid在pytorch上的实现

import torch
a = torch.linspace(-100, 100, 10)
a

torch.sigmoid(a)
# 也可以用F.sigmoid(a)
# from torch.nn import function as F

在这里插入图片描述
在这里插入图片描述

tanh

该激活函数在RNN中用的较多

由sigmoid变换得到,值的区间为 -1~1
在这里插入图片描述
将tanh进行求导:
在这里插入图片描述
与sigmoid相似之处是,只要有激活函数的值,导数的值也可直接得到。

a = torch.linspace(-1, 1, 10)

torch.tanh(a)

在这里插入图片描述

ReLU

深度学习的经典激活函数,比较简单基础
在这里插入图片描述
在x<0时,梯度为0,在x>=0时,梯度为1,在向后传播时梯度计算非常方便,且不会放大和缩小梯度,避免梯度离散和梯度爆炸。

a = torch.linspace(-1, 1, 10)

torch.relu(a)

F.relu(a)

在这里插入图片描述

MSE_LOSS

一般用的是均方误差MSE,还有一种用于分类问题的误差留到之后学习。

MSE的基本形式,以线性感知机xw+b为例:
在这里插入图片描述
在这里插入图片描述在torch用L2-norm实现再加平方即为loss
在这里插入图片描述
loss求导:
在这里插入图片描述
使用pytorch自动求导
先计算mse
使用的是最简单的线性感知机,且此时b=0,x初始化为1,w的dim=1,初始化为2
在这里插入图片描述
在这里插入图片描述
自动求导

直接求导会报错
在这里插入图片描述
w初始化没有设置为需要导数信息,直接求导会报错,故要对w信息进行更新。
在这里插入图片描述
w更新后图也要进行更新,故mse也要进行更新,否则还是报错
在这里插入图片描述
在这里插入图片描述

w.requires_grad_()

mse = F.mse_loss(torch.ones(1), x*w)

torch.autograd.grad(mse, [w])

在这里插入图片描述
loss = (1-2)**2 = 1
grad 是 loss对w的求导:
2(1 - x*w) * (-x) = 2 (1-2) (-1) = 2

补充:
在loss上调用backward(),会从后往前完成这条路径上的梯度计算,然后再手动查看如:w.grad

#同样需要更新w和图
w.requires_grad_()

mse = F.mse_loss(torch.ones(1), x*w)

mse.backward()

w.grad

在这里插入图片描述

autograd方法与backward方法对比:

在这里插入图片描述

Cross Entropy Loss

是用于分类中的误差,之后再深入了解。这次主要了解与它紧密结合使用的激活函数–softmax。

作用:以模型最终输出三个结果值为例,将他们转化为概率值,且和为1,可以发现,转化后的结果相较于转化前,较大值与较小值相差倍数更大,金字塔效应。
在这里插入图片描述
softmax函数求导:
在这里插入图片描述

在这里插入图片描述
其中i和j取值范围一样,分别表示第几个概率值和第几个输入

两种情况
1、 i = j时
导数结果为正数 Pi(1-Pj)
在这里插入图片描述
2、i ≠ j时
导数结果为负数 -PiPj
在这里插入图片描述
总结:
在这里插入图片描述
pytorch实现

a = torch.rand(3)
a.requires_grad_()

p = F.softmax(a, dim=0)

torch.autograd.grad(p[0], [a], retain_graph=True)
							#保留图,若没有保留,下次还有重新更新求导信息
torch.autograd.grad(p[1], [a])							

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1069492.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LeetCode 1277. 统计全为 1 的正方形子矩阵【动态规划】1613

本文属于「征服LeetCode」系列文章之一&#xff0c;这一系列正式开始于2021/08/12。由于LeetCode上部分题目有锁&#xff0c;本系列将至少持续到刷完所有无锁题之日为止&#xff1b;由于LeetCode还在不断地创建新题&#xff0c;本系列的终止日期可能是永远。在这一系列刷题文章…

紫光 DDR3 IP核调试

1. IP核简介 直接编写DDR2/DDR3的逻辑工作量不太大&#xff0c;但是涉及到双边延、高速率的读取&#xff0c;时序很复杂。因此一般抖采用IP核实现。紫光的SDRAM IP核为HMIC_H IP。 HMIC_H IP 包括了 DDR Controller、DDR PHY 和 PLL&#xff0c;用户通过 AXI4 接口实现数据的读…

十三、MySQL 主从复制

一、MySQL 主从复制 1. 主从复制原理 主库 有一个 工作线程 I/O dump thread&#xff08;转储线程&#xff09;。从库 有两个工作线程 I/O thread 和 SQL thread。主库 通过 I/O dump thread 给 从库 I/O thread 传送 binlog 日志。 主从同步过程中&#xff1a; 主库 把接收的…

大厂笔试真题【栈】美团2023春招-火车迷【欧弟算法】全网最全大厂秋招题解

文章目录 题目描述与示例题目描述输入描述输出描述示例一输入输出 示例二输入输出 解题思路代码pythonJavaC时空复杂度 华为OD算法/大厂面试高频题算法练习冲刺训练 题目描述与示例 题目描述 小美是一个火车迷。最近她在观察家附近火车站的火车驶入和驶出情况&#xff0c;发现…

C/C++学习 -- Base64算法

Base64算法概述 Base64是一种用于将二进制数据表示为ASCII字符集中的可打印字符的编码方法。它由64个不同的字符组成&#xff0c;通常包括26个大写字母、26个小写字母、10个数字以及两个特殊字符&#xff08;通常是""和"/"&#xff09;。Base64编码的目的…

【Vue基础-数字大屏】地图标记涟漪效果设置

一、需求说明 将地图中北京市、陕西市、南宁市分别以实心圆、涟漪圆、涟漪圆标记出来 二、代码实践 涉及三个文件 1、App.vue: <template><Screen1/> </template> <script> import Screen1 from "./components/Screen1.vue"; export def…

如何应对数据安全四大挑战?亚马逊云科技打出“组合拳”

数字经济时代&#xff0c;数据被公认为继土地、劳动力、资本、 技术之后的又一重要生产要素。对于企业而言&#xff0c;数据则是一切创新与关键决策的根源。 然而&#xff0c;企业在发挥数据资产的商业价值方面&#xff0c;却面临诸多挑战&#xff0c;比如敏感数据识别、跨组织…

【高阶数据结构】图详解第一篇:图的基本概念及其存储结构(邻接矩阵和邻接表)

文章目录 1. 图的基本概念1.1 什么是图1.2 有向图和无向图1.3 完全图1.4 邻接顶点1.5 顶点的度1.6 路径1.7 路径长度1.8 简单路径与回路1.9 子图1.10 连通图1.11 强连通图1.12 生成树 2. 图的存储结构2.1 邻接矩阵2.2 邻接矩阵代码实现结构定义构造函数添加边打印图测试 2.3 邻…

leetCode 718.最长重复子数组 动态规划 + 优化(滚动数组)

718. 最长重复子数组 - 力扣&#xff08;LeetCode&#xff09; 给两个整数数组 nums1 和 nums2 &#xff0c;返回 两个数组中 公共的 、长度最长的子数组的长度 。 示例 1&#xff1a; 输入&#xff1a;nums1 [1,2,3,2,1], nums2 [3,2,1,4,7] 输出&#xff1a;3 解释&…

2023年台州市第三届网络安全技能大赛(MISC)这是神马

这是神马 考点&#xff1a;冰蝎流量特征数据包&#xff0c;需要解密 emoj解密 冰蝎之前做过 特征就是先base64编码在AES编码 我们在数据包里面找到了密钥&#xff1a;144a6b2296333602 这里我们知道了密钥我们就去解密 先筛选HTTP协议 导出HTTP数据流可以看到传了shell.php 随…

美容美甲小程序商城的作用是什么

美容院往往有很高需求&#xff0c;女性悦己经济崛起&#xff0c;加之爱美化程度提升&#xff0c;无论线下环境还是线上互联网信息冲击&#xff0c;美容服务、化妆产品等市场规格一直稳增不减。 通过【雨科】平台制作美容美甲商城&#xff0c;售卖相关服务/产品&#xff0c;模块…

记两次内网入侵溯源

1.1、入侵告警 1、某天深夜主机防护突然爆出CS木马后门&#xff0c;这攻击队不讲武德呀&#xff0c;还好没睡着2、赶紧叫醒旁边看流量设备的哥们儿&#xff0c;尝试Shiro 反序列漏洞攻击成功3、测试目标网站存在shiro反序列化漏洞1.2、上机排查 1、上机将CS木马下载下来&…

Vue3 reactive和ref详解

reactive Vue3.0中的reactive reactive 是 Vue3 中提供的实现响应式数据的方法。在 Vue2 中响应式数据是通过 defineProperty 来实现的&#xff0c;在 Vue3 中响应式数据是通过 ES6 的 Proxy来实现的。reactive 参数必须是对象 (json / arr)如果给 reactive 传递了其它对象 默…

基于JavaWeb的家用电器信息管理系统

本系统采用基于JAVA语言实现、架构模式选择B/S架构&#xff0c;Tomcat7.0及以上作为运行服务器支持&#xff0c;基于JAVA等主要技术和框架设计&#xff0c;idea作为开发环境&#xff0c;数据库采用MYSQL5.7以上。 开发环境&#xff1a; JDK版本&#xff1a;JDK1.8 服务器&…

intel深度相机 D455及D4系列入门教程(逐行代码讲解)

1.介绍 Intel RealSense D435、D455等D4系列&#xff1a; Intel D4系列深度相机是由英特尔&#xff08;Intel&#xff09;公司推出的一款深度感知摄像头&#xff0c;专为实现计算机视觉和深度学习应用而设计。这款相机使用了英特尔的深度感知技术&#xff0c;结合了摄像头和红…

三极管及继电器的使用(单片机如何控制灯泡等大型电器)

1.对于初入硬件的小伙伴一定会用到三极管和继电器&#xff0c;如下图&#xff08;三极管&#xff09; 如下图&#xff08;继电器&#xff09; 当然上述三极管和继电器&#xff0c;只是众多的其中一种&#xff0c;而且继电器是包装好了的&#xff0c;这个应该叫继电器模块&#…

opencv图像的直方图,二维直方图,直方图均衡化

文章目录 opencv图像的直方图&#xff0c;二维直方图&#xff0c;直方图均衡化一、图像的直方图1、什么是图像的直方图&#xff1a;2、直方图的作用&#xff1a;3、如何绘制图像的直方图&#xff1a;&#xff08;1&#xff09;cv::calcHist()函数原型&#xff1a;&#xff08;2…

土地证、工程规划许可证、建设用地规划许可证

土地证、工程规划许可证、建设用地规划许可证办理是房地产开发最基础和初开始的工作流程。 一、土地证是简称&#xff0c;全称为《中华人民共和国国有土地使用证》&#xff0c;发证部门是当地国有土地资源局。 申办单位经当地规划部门审批通过某项目备案审批&#xff0c;在办理…

想要精通算法和SQL的成长之路 - 简化路径

想要精通算法和SQL的成长之路 - 简化路径 前言一. 简化路径 前言 想要精通算法和SQL的成长之路 - 系列导航 一. 简化路径 原题连接 思路如下&#xff1a; 我们根据 "/" 去拆分字符串&#xff0c;得到每个子目录。这里拿到的子目录可能是空字符串&#xff0c;需要…

【Vue2.0源码学习】生命周期篇-销毁阶段(destroy)

文章目录 1. 前言2. 销毁阶段分析3. 总结 1. 前言 接下来到了生命周期流程的最后一个阶段——销毁阶段。从官方文档给出的生命周期流程图中可以看到&#xff0c;当调用了vm.$destroy方法&#xff0c;Vue实例就进入了销毁阶段&#xff0c;该阶段所做的主要工作是将当前的Vue实例…