深度学习-自动求导

news2024/10/6 0:32:05

目录

  • 向量链式法则
    • 标量链式法则
  • 拓展到向量
    • 例题1
    • 例题2
  • 符号求导
  • 数值求导
  • 自动求导
    • 计算图
    • 自动求导的两种模式
      • 链式法则
      • 正向累积(从x出发)
      • 反向累积(反向传递--先计算最终的函数即y)
      • 反向累积总结
  • 自动求导
  • 计算y关于x的梯度,使用requires_grad(True)
    • 计算y
  • 通过调用反向传播函数来自动计算y关于x每个分量的梯度
  • PyTorch会累积梯度,使用zero_()函数清除梯度
  • 批量中每个样本单独计算的偏导数之和
  • 将某些计算移动到记录的计算图之外
  • 即使构建函数的计算图通过Python控制流仍可以计算变量的梯度
  • 问题
    • 多个loss(损失函数)分别反向的时候是不是需要累积梯度?
    • 需要正向和反向都要算一遍吗?
    • 为什么Pytorch会默认累积梯度?
    • 为什么获取.grad前需要backward?

向量链式法则

标量链式法则

在这里插入图片描述




拓展到向量

在这里插入图片描述




例题1

在这里插入图片描述

过程:
在这里插入图片描述


在这里插入图片描述


在这里插入图片描述





例题2

在这里插入图片描述

过程:
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
然后将分解的回代




符号求导

在这里插入图片描述

数值求导

在这里插入图片描述

自动求导

自动求导计算一个函数在指定值上的导数

计算图

将代码分解为操作子
将计算表示成一个无环图
在这里插入图片描述
显示构造
在这里插入图片描述
隐式构造
在这里插入图片描述




自动求导的两种模式

链式法则

在这里插入图片描述

正向累积(从x出发)

在这里插入图片描述

反向累积(反向传递–先计算最终的函数即y)

在这里插入图片描述

这里的反向先计算z的函数
在这里插入图片描述




反向累积总结

构造计算图
前向:执行图,存储中间结果
反向:从相反方向执行图
去除不需要的枝

在这里插入图片描述

计算复杂度:O(n),n是操作子个数
通常正向和方向的代价类似
内存复杂度:O(n),因为需要存储正向的所有中间结果

正向累积:
它的内存复杂度是O(1),即不管多深我不需要存储它的结果,而反向累积则需要存储。

反向从根节点向下扫,可以保证每个节点只扫一次;
正向从叶节点向上扫,会导致上层节点可能需要被重复扫多次。

(正向中 子节点比父节点先计算,因此也无法像反向那样把本节点的计算结果传给每个子节点。)




自动求导

假设我们对函数 y=2 x T x^T xTx 求导

import torch
x = torch.arange(4.0)
print(x)

结果:在这里插入图片描述




计算y关于x的梯度,使用requires_grad(True)

import torch
x = torch.arange(4.0, requires_grad=True)
print(x.grad)

结果:在这里插入图片描述

计算y

import torch
x = torch.arange(4.0, requires_grad=True)
y = 2 * torch.dot(x, x)
print(y)

结果:在这里插入图片描述




通过调用反向传播函数来自动计算y关于x每个分量的梯度

import torch
x = torch.arange(4.0, requires_grad=True)
print(x)
y = 2 * torch.dot(x, x)
y.backward() #求导
print(x.grad) #x.grad访问导数

结果:在这里插入图片描述
y=2 x 2 x^2 x2然后使用求导函数backward()实质是y导=4x(下面验证)。

import torch
x = torch.arange(4.0, requires_grad=True)
y = 2 * torch.dot(x, x)
y.backward() #求导
print(x.grad == 4*x)

结果:在这里插入图片描述




PyTorch会累积梯度,使用zero_()函数清除梯度

import torch
x = torch.arange(4.0, dtype=torch.float32, requires_grad=True)
y = 2 * torch.dot(x, x)
y.backward()
print(x.grad)

x.grad.zero_() #梯度清零
y = x.sum()
y.backward() #求导
print(x.grad)

因为求向量的sum()所以梯度是全1
y是标量
y是对x的的求和:y= x 1 x_1 x1+ x 2 x_2 x2+ x 3 x_3 x3+ x 4 x_4 x4
对y进行x的偏导:dy/ d x 1 dx_1 dx1,dy/ d x 2 dx_2 dx2,dy/ d x 3 dx_3 dx3,dy/ d x 4 dx_4 dx4

在这里插入图片描述




批量中每个样本单独计算的偏导数之和

import torch
x = torch.arange(4.0, dtype=torch.float32, requires_grad=True)
y = 2 * torch.dot(x, x)
y.backward()
print(x.grad)

x.grad.zero_() #梯度清零,如果不清零执行y=x*x然后对y求和再求导可以通过x.grad查看得[0.,1.,4.,*.]
y = x*x #x是向量,y即向量
print(y) #输出查看
y.sum().backward() #求导
print(x.grad)

梯度(求导)清零:必须先存在梯度,如果没有y.backward()则x.grad.zero_()会报错。
结果:在这里插入图片描述




将某些计算移动到记录的计算图之外

import torch
x = torch.arange(4.0, dtype=torch.float32, requires_grad=True)
y = 2 * torch.dot(x, x)
y.backward()
print(x.grad)

x.grad.zero_() #梯度清零,如果不清零执行y=x*x然后对y求和再求导可以通过x.grad查看得[0.,1.,4.,*.]
y = x * x #x是向量,y即向量
print(y) #输出查看
u = y.detach()#把y当作一个常数,而不是关于x的函数,把它做成u
z = u * x #相当于z=常数*x
z.sum().backward()
print(x.grad == u)

结果:这里的z就是为了后续求导检查是否与detach()后一致。
在这里插入图片描述


import torch
x = torch.arange(4.0, dtype=torch.float32, requires_grad=True)
y = 2 * torch.dot(x, x)
y.backward()
print(x.grad)

x.grad.zero_() #梯度清零,如果不清零执行y=x*x然后对y求和再求导可以通过x.grad查看得[0.,1.,4.,*.]
y = x * x #x是向量,y即向量
y.sum().backward()
print(x.grad == 2 * x)

结果:
在这里插入图片描述




即使构建函数的计算图通过Python控制流仍可以计算变量的梯度

import torch


def f(a):
    b = a * 2
    while b.norm() < 1000:#norm()计算张量的范数, 计算了张量 b 的L2范数
        b = b * 2
    if b.sum(): #检查 b 所有元素的总和是否非零
        c = b #非0的时候的操作
    else:
        c = 100 * b
    return c


a = torch.randn(size=(), requires_grad=True)
d = f(a)
d.backward()
print(a.grad == d / a) #梯度验证

结果:在这里插入图片描述




问题

多个loss(损失函数)分别反向的时候是不是需要累积梯度?

是的

需要正向和反向都要算一遍吗?

是的

为什么Pytorch会默认累积梯度?

设计上的理念,通常一个大的批量无法一次计算出,所以分为多次,然后累加起来。

为什么获取.grad前需要backward?

不进行backward时不会计算梯度,因为计算梯度是一个很“贵”的事情

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1632845.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Virtualbox7.0.10--创建虚拟机

前言 下载Virtualbox7.0.10&#xff0c;可参考《Virtualbox–下载指定版本》 Virtualbox7.0.10具体安装步骤&#xff0c;可参考《Virtualbox7.0.10的安装步骤》 Virtualbox7.0.10创建虚拟机&#xff0c;可参考《Virtualbox7.0.10–创建虚拟机》 Virtualbox7.0.10安装Ubuntu20.0…

校园安全升级:AR实景监测场景方案

在教育领域&#xff0c;随着校园的逐步对外开放&#xff0c;学校正面临着前所未有的管理挑战。社会人员的大量涌入不仅带来了文化的交流和知识的分享&#xff0c;也给校园安全带来了诸多隐患。新闻报道中不断出现的校园安全事件&#xff0c;如入室伤人、盗窃和非法传销等&#…

7.19 下午题典型考点

一、安全防护体系 &#xff08;一&#xff09;来由 安全保护等级&#xff08;5个&#xff09;&#xff1a;用户自主、系统审计、安全标记、结构化、访问验证&#xff08;自己全借问&#xff09; 为了对信息系统从不同角度做安全保护&#xff1b; 有利于从不同角度去加强信息系…

提示词工程入门-使用文心一言4.0-通义千问-GPT4-Claude3通用提示技巧测试

提示词工程基础&#x1f680; 在了解完了大语模型的基本知识&#xff0c;例如API的使用多轮对话&#xff0c;流式输出&#xff0c;微调&#xff0c;知识向量库等知识之后&#xff0c;接下来需要进一步补足的一个大块就是提示词工程&#xff0c;学习和了解提示词工程除了基本的提…

【逆向百例】百度翻译js逆向

关注它&#xff0c;不迷路。 本文章中所有内容仅供学习交流&#xff0c;不可用于任何商业用途和非法用途&#xff0c;否则后果自负&#xff01; 前言 目标 分析某度翻译接口&#xff0c;使用python获取翻译结果&#xff0c;并用pyinstaller打包成单文件可执行程序。 工具 ch…

云端飞翔,一触即达 —— 100G网卡,连接未来

关于100G网卡&#xff0c;这是一种高速网络接口控制器&#xff0c;主要用于数据中心和高性能计算环境&#xff0c;以支持更快的数据传输速率。100G网卡可以提供每秒100吉比特的传输速率&#xff0c;适用于需要处理大量数据和高速网络通信的场合。 在选择100G网卡时&#xff0c;…

排序算法(2)快排

交换排序 思想&#xff1a;所谓交换&#xff0c;就是根据序列中两个记录键值的比较结果来对换这两个记录在序列中的位置&#xff0c;交换排序的特点是&#xff1a;将键值较大的记录向序列的尾部移动&#xff0c;键值较小的记录向序列的前部移动。 一、冒泡排序 public static…

【C++】stack queue的介绍使用以及模拟实现

目录 01.容器适配器 02.栈&#xff08;stack&#xff09; 1.stack的介绍 2.stack的使用 3.stack的模拟实现 03.队列&#xff08;queue&#xff09; 1.queue的介绍&#xff1a; 2.queue的使用 3.queue的模拟实现 04.双端队列&#xff08;deque&#xff09; 1.介绍 2.…

LeetCode1017题:负二进制转换(原创)

【题目描述】 给你一个整数 n &#xff0c;以二进制字符串的形式返回该整数的 负二进制&#xff08;base -2&#xff09;表示。注意&#xff0c;除非字符串就是 "0"&#xff0c;否则返回的字符串中不能含有前导零。 示例 1&#xff1a; 输入&#xff1a;n 2 输出&…

深度学习-N维数组和访问元素

目录 N维数组访问元素 N维数组 N维数组是机器学习和神经网络的主要数据结构 访问元素 最后一个子区域中的::是跳的意思&#xff0c;这个区域说明的是从第一个元素&#xff08;即第一行第一列那个&#xff09;对行开始跳3下循环下去直到行结束、对列开始跳2下循环下去直到列…

springboot拦载器

1、拦载器 package com.Interceptor;import com.alibaba.fastjson.JSON; import com.alibaba.fastjson.JSONObject; import org.springframework.web.servlet.HandlerInterceptor; import org.springframework.web.servlet.ModelAndView;import javax.security.auth.login.Log…

如何快速申请SSL证书实现HTTPS访问?

申请SSL证书最简单的方法通常涉及以下几个步骤&#xff0c;尽量简化了操作流程和所需专业知识&#xff1a; 步骤一&#xff1a;选择适合的SSL证书类型 根据您的网站需求&#xff0c;选择最基础的域名验证型&#xff08;DV SSL&#xff09;证书&#xff0c;它通常只需验证域名所…

技术融合与创新大象机器人水星Mercury X1人形机器人案例研究!

引言 在科技迅速发展的当下&#xff0c;人形机器人正变得日益重要&#xff0c;其应用范围从工业自动化到服务业不断扩展。本文将通过Mercury X1大象人形机器人的案例&#xff0c;探讨如何利用尖端技术如大型语言模型&#xff08;LLM&#xff09;、同时定位与映射&#xff08;SL…

雅思(IELTS)优秀小作文分享

IELTS优秀小作文分享 柱状图 本篇范文个人评分是8分或者8.5分&#xff0c;属于能找到的最优质的范文了 题目如下: The two sets of bar charts illustrate the amount of time that teenagers (boys, girls, and all) in the UK spend chatting online and playing game c…

2024 java使用Graceful Response,告别自己去封装响应,可以接收数据异常,快看我这一篇,足够你用!

参考官网手册地址&#xff1a;快速入门 | Docs 一、导入依赖&#xff08;根据springboot查看对应依赖版本&#xff09; <!-- Graceful --><dependency><groupId>com.feiniaojin</groupId><artifactId>graceful-response</artifactId&g…

GaussDB数据库事务管理

一、引言 事务管理是数据库系统中至关重要的一部分&#xff0c;它确保了数据库的一致性和可靠性。在GaussDB数据库中&#xff0c;事务管理不仅遵循传统的ACID特性&#xff0c;还提供了一些高级功能。本文将深入探讨GaussDB数据库事务管理的各个方面。 二、事务的基本概念 2.1…

CSS Position定位(详解网页中的定位属性)

目录 一、Position介绍 1.概念 2.特点 3.作用 4.应用 二、Position用法 1.position属性 2.static定位 3.fixed定位 4.relative定位 5.absolute定位 6.sticky定位 7.重叠的元素 三、CSS定位属性 四、总结 一、Position介绍 1.概念 文档流&#xff08;Document Fl…

C++ 之 string类的模拟实现

这学习我有三不学 昨天不学&#xff0c;因为昨天是个过去 明天不学&#xff0c;因为明天还是个未知数 今天不学&#xff0c;因为我们要活在当下&#xff0c;我就是玩嘿嘿~ –❀–❀–❀–❀–❀–❀–❀–❀–❀–❀–❀–❀–❀–❀–❀–❀–❀–❀–❀-正文开始-❀–❀–…

springboot笔记一:idea社区版本创建springboot项目的方式

社区idea 手动maven 创建springboot项目 创建之后修改pom.xml <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:sc…

Microsoft Edge浏览器:高效、简洁、个性化的网页浏览体验

Microsoft Edge是微软公司推出的一款网络浏览器&#xff0c;它是基于Chromium开源项目开发的&#xff0c;因此与Google Chrome有很多相似之处。以下是一些使用Microsoft Edge的心得体会&#xff1a; 1. 界面简洁&#xff1a;Microsoft Edge的界面设计非常简洁&#xff0c;用户…