Day9 神经网络的偏导数基础

news2024/12/18 8:52:39

多变量函数与神经网络

在神经网络中,我们经常遇到多变量函数。这些函数通常描述了网络的输入、权重、偏置与输出之间的关系。例如,一个简单的神经元输出可以表示为:

z = f ( w 1 x 1 + w 2 x 2 + … + w n x n + b ) z = f(w_1x_1 + w_2x_2 + \ldots + w_nx_n + b) z=f(w1x1+w2x2++wnxn+b)

其中, x 1 , x 2 , … , x n x_1, x_2, \ldots, x_n x1,x2,,xn 是输入, w 1 , w 2 , … , w n w_1, w_2, \ldots, w_n w1,w2,,wn 是权重, b b b 是偏置, f f f 是激活函数, z z z 是输出。这是一个典型的多变量函数,其自变量包括输入 x i x_i xi、权重 w i w_i wi和偏置 b b b


偏导数的概念与计算

偏导数是多元函数相对于其某一个自变量的导数,求导时保持其他自变量不变。对于函数 z = f ( x , y ) z = f(x, y) z=f(x,y),其关于 x x x的偏导数定义为:

∂ z ∂ x = lim ⁡ Δ x → 0 f ( x + Δ x , y ) − f ( x , y ) Δ x \frac{\partial z}{\partial x} = \lim_{\Delta x \to 0} \frac{f(x + \Delta x, y) - f(x, y)}{\Delta x} xz=Δx0limΔxf(x+Δx,y)f(x,y)

类似地,关于 y y y的偏导数定义为:

∂ z ∂ y = lim ⁡ Δ y → 0 f ( x , y + Δ y ) − f ( x , y ) Δ y \frac{\partial z}{\partial y} = \lim_{\Delta y \to 0} \frac{f(x, y + \Delta y) - f(x, y)}{\Delta y} yz=Δy0limΔyf(x,y+Δy)f(x,y)

偏导数反映了函数在某一特定方向上的变化率。在神经网络中,我们特别关心损失函数 L L L关于权重 w i w_i wi和偏置 b b b的偏导数,因为它们指导了参数的更新。

偏导数的计算示例

考虑函数 f ( x , y ) = x 2 + x y + y 2 f(x, y) = x^2 + xy + y^2 f(x,y)=x2+xy+y2,我们可以分别计算其关于 x x x y y y的偏导数:

∂ f ∂ x = 2 x + y \frac{\partial f}{\partial x} = 2x + y xf=2x+y
∂ f ∂ y = x + 2 y \frac{\partial f}{\partial y} = x + 2y yf=x+2y

这两个偏导数描述了函数在 x x x y y y方向上的变化率。


多变量函数的最小值条件

对于多变量函数 f ( x 1 , x 2 , … , x n ) f(x_1, x_2, \ldots, x_n) f(x1,x2,,xn),取得最小值的必要条件是该函数在该点的所有偏导数都为零。即,如果存在一个点 ( x 1 ∗ , x 2 ∗ , … , x n ∗ ) (x_1^*, x_2^*, \ldots, x_n^*) (x1,x2,,xn)使得函数 f f f取得最小值,那么必须满足以下条件:

∂ f ∂ x 1 ( x 1 ∗ , x 2 ∗ , … , x n ∗ ) = 0 \frac{\partial f}{\partial x_1}(x_1^*, x_2^*, \ldots, x_n^*) = 0 x1f(x1,x2,,xn)=0
∂ f ∂ x 2 ( x 1 ∗ , x 2 ∗ , … , x n ∗ ) = 0 \frac{\partial f}{\partial x_2}(x_1^*, x_2^*, \ldots, x_n^*) = 0 x2f(x1,x2,,xn)=0
⋮ \vdots
∂ f ∂ x n ( x 1 ∗ , x 2 ∗ , … , x n ∗ ) = 0 \frac{\partial f}{\partial x_n}(x_1^*, x_2^*, \ldots, x_n^*) = 0 xnf(x1,x2,,xn)=0

这些条件表明,在函数的最小值点处,函数沿任何方向的变化率都是零。换句话说,从该点出发,无论我们朝哪个方向移动,函数值都不会下降。

必要条件与充分条件

需要注意的是,上述条件只是取得最小值的必要条件,而不是充分条件。也就是说,满足这些条件的点可能是最小值点,但也可能是最大值点或鞍点。为了确定一个点是否是最小值点,我们需要进一步分析函数的二阶导数或Hessian矩阵。

  • 二阶导数测试:对于二维函数,我们可以通过计算二阶偏导数并检查它们的符号来判断一个临界点(即所有一阶偏导数为零的点)是局部最大值、局部最小值还是鞍点。对于更高维度的函数,我们需要计算Hessian矩阵并分析其特征值。
  • Hessian矩阵:Hessian矩阵是一个由函数二阶偏导数组成的方阵。如果Hessian矩阵在临界点处是正定的(即所有特征值都大于零),则该点是局部最小值点;如果是负定的(即所有特征值都小于零),则该点是局部最大值点;如果是不定的(即既有正特征值又有负特征值),则该点是鞍点。

鞍点是一个数学概念,它指的是在函数图像上,一个点在某一方向上是局部最大值,而在另一方向上却是局部最小值,形状类似马鞍,因此得名。在数学中,如果一个函数在某点的梯度为零,且在该点附近函数的Hessian矩阵(描述函数局部曲率的矩阵)具有正的和负的特征值,则该点就是鞍点。

在神经网络中,鞍点的作用和存在是一个重要的挑战。神经网络训练的目标通常是找到损失函数的全局最小值,但鞍点却可能阻碍这一目标的实现。由于鞍点处的梯度为零,优化算法(如梯度下降法)在到达鞍点时可能会停滞不前,导致训练过程缓慢或无法收敛到全局最优解。此外,高维参数空间中的鞍点比局部最小值更为常见,这进一步增加了神经网络训练的难度。

因此,研究如何有效地识别和逃离鞍点,对于提高神经网络训练效率和性能具有重要意义。一些优化算法和技巧,如动量法、Adam优化器等,已经被提出用于应对鞍点问题,并帮助神经网络在训练过程中更好地找到全局最优解。

找了最具代表性的"鞍点"发源图,大家可以直观的体验一下“鞍点(Saddle Point)”

在这里插入图片描述

​ 上图这个图像是 z = x 2 − y 2 z = x^2 − y^2 z=x2y2,图中的小红点就是一个鞍点 (A saddle point (in red) on the graph of z = x 2 − y 2 z = x^2 − y^2 z=x2y2)

给大家看一下真实的马鞍对比:

在这里插入图片描述

实际应用中的挑战

在实际应用中,找到多变量函数的最小值点可能面临一些挑战:

  • 局部最小值:对于非凸函数,可能存在多个局部最小值点。梯度下降法可能会陷入其中某个局部最小值点而无法找到全局最小值点。
  • 鞍点:在高维空间中,鞍点比局部最小值点更常见。梯度下降法在鞍点附近可能会变得非常缓慢甚至停滞不前。
  • 计算复杂性:对于大规模神经网络和复杂损失函数,计算梯度和Hessian矩阵可能非常耗时和占用大量计算资源。

为了解决这些问题,研究人员提出了许多优化算法和技巧,如随机梯度下降法、动量法、Adam优化器等。这些算法通过不同的方式来加速收敛、逃离局部最小值点和鞍点以及降低计算复杂度。

直观理解最小值

考虑函数 f ( x , y ) = x 2 + y 2 f(x, y) = x^2 + y^2 f(x,y)=x2+y2的图像:

在这里插入图片描述

在这个图像中,我们可以看到函数 f ( x , y ) = x 2 + y 2 f(x, y) = x^2 + y^2 f(x,y)=x2+y2形成了一个开口向上的抛物面。抛物面的顶点位于原点 ( 0 , 0 ) (0,0) (0,0),这正是函数取得最小值的点。通过计算偏导数并设为零(即 ∂ f ∂ x = 2 x = 0 \frac{\partial f}{\partial x} = 2x = 0 xf=2x=0 ∂ f ∂ y = 2 y = 0 \frac{\partial f}{\partial y} = 2y = 0 yf=2y=0),我们就可以找到这个点。


扩展内容:拉格朗日乘数法

拉格朗日乘数法是一种用于解决约束优化问题的方法。它通过引入拉格朗日乘数将有约束的优化问题转化为无约束的优化问题,从而简化求解过程。以下是拉格朗日乘数法的基本步骤以及在实际求最小值问题中的应用:

示例:最小化函数 f ( x , y ) = x 2 + y 2 f(x, y) = x^2 + y^2 f(x,y)=x2+y2,在约束条件 g ( x , y ) = x + y − 1 = 0 g(x, y) = x + y - 1 = 0 g(x,y)=x+y1=0 下。
  1. 构造拉格朗日函数
    L ( x , y , λ ) = f ( x , y ) + λ g ( x , y ) L(x, y, \lambda) = f(x, y) + \lambda g(x, y) L(x,y,λ)=f(x,y)+λg(x,y) ,其中, λ \lambda λ就是拉格朗日数

  2. 求偏导数并设为零
    ∂ L ∂ x = ∂ f ∂ x + λ ∂ g ∂ x = 0 \frac{\partial L}{\partial x} = \frac{\partial f}{\partial x} + \lambda \frac{\partial g}{\partial x} = 0 xL=xf+λxg=0

    ∂ L ∂ y = ∂ f ∂ y + λ ∂ g ∂ y = 0 \frac{\partial L}{\partial y} = \frac{\partial f}{\partial y} + \lambda \frac{\partial g}{\partial y} = 0 yL=yf+λyg=0

    ∂ L ∂ λ = g ( x , y ) = 0 \frac{\partial L}{\partial \lambda} = g(x, y) = 0 λL=g(x,y)=0

  3. 解方程组

    从第一个和第二个偏导数方程中,我们有:

    • − 2 x = − 2 y ⇒ x = y -2x = -2y \quad \Rightarrow \quad x = y 2x=2yx=y
      将这个结果代入约束条件方程: x + x − 1 = 0 ⇒ 2 x = 1 ⇒ x = 1 2 x + x - 1 = 0 \quad \Rightarrow \quad 2x = 1 \quad \Rightarrow \quad x = \frac{1}{2} x+x1=02x=1x=21
      • 因此, y = 1 2 y = \frac{1}{2} y=21 也成立。
  • 所以,最优解是 x = 1 2 x = \frac{1}{2} x=21, y = 1 2 y = \frac{1}{2} y=21
  1. 验证结果
  • 检查是否满足约束条件:
    g ( 1 2 , 1 2 ) = 1 2 + 1 2 − 1 = 0 g(\frac{1}{2}, \frac{1}{2}) = \frac{1}{2} + \frac{1}{2} - 1 = 0 g(21,21)=21+211=0

    • 满足约束条件。将 x = 1 2 x = \frac{1}{2} x=21, y = 1 2 y = \frac{1}{2} y=21 代入原函数 f ( x , y ) f(x, y) f(x,y)

f ( 1 2 ) = 1 2 + 1 2 − 1 = 0 f(\frac{1}{2}) = \frac{1}{2} + \frac{1}{2} - 1 = 0 f(21)=21+211=0

  • 满足约束条件。将 x = 1 2 x = \frac{1}{2} x=21, y = 1 2 y = \frac{1}{2} y=21 代入原函数 f ( x , y ) f(x, y) f(x,y)

  • f ( 1 2 , 1 2 ) = ( 1 2 ) 2 + ( 1 2 ) 2 = 1 4 + 1 4 = 1 2 f(\frac{1}{2}, \frac{1}{2}) = (\frac{1}{2})^2 + (\frac{1}{2})^2 = \frac{1}{4} + \frac{1}{4} = \frac{1}{2} f(21,21)=(21)2+(21)2=41+41=21这是函数在约束条件下的最小值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2261502.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

windows和LINUX下校验文件的哈希值(MD5、SHA256)

可以通过两个文件的哈希值来对比两个文件是不是一模一样,有没有缺失 1、windows CertUtil -hashfile 文件路径 MD5 CertUtil -hashfile 文件路径 SHA256 2、Liunx 校验当前目录下所有文件 sha256sum . 校验指定文件名 sha256sum 文件名

使用beego操作数据库的简单web项目

1、beego介绍 Beego 是一个开源的、高性能的Go语言框架,用于快速开发RESTful API、Web应用、后端服务等各种类型的软件。它由国人Asta Xie创建,并得到了广泛的社区支持。Beego的设计理念是让开发者能够以最少的时间和代码量来完成Web应用的开发。 以下是…

IS-IS协议

IS-IS协议介绍 IS-IS(Intermediate System to Intermediate System)协议是一种链路状态的内部网关协议(IGP),用于在同一个自治系统(Autonomous System, AS)内部的路由器之间交换路由信息。IS-I…

不良人系列-复兴数据结构(栈和队列)

个人主页:爱编程的小新☆ 不良人经典语录:“相呴相济 玉汝于成 勿念 心安” 目录 一. 栈(stack) 1. 栈的概念 2. 栈的常见方法 3.栈的模拟实现 ​编辑 二. 队列 1. 队列的概念 2. 队列的使用 2.1 队列的常见方法 2.2 队列的模拟实现 2.3 队列…

机器学习04-为什么Relu函数

机器学习0-为什么Relu函数 文章目录 机器学习0-为什么Relu函数 [toc]1-手搓神经网络步骤总结2-为什么要用Relu函数3-进行L1正则化修改后的代码解释 4-进行L2正则化解释注意事项 5-Relu激活函数多有夸张1-细数Relu函数的5宗罪2-Relu函数5宗罪详述 6-那为什么要用这个Relu函数7-文…

win服务器的架设、windows server 2012 R2 系统的下载与安装使用

文章目录 windows server 2012 R2 系统的下载与安装使用1 windows server 2012 的下载2 打开 VMware 虚拟机软件(1)新建虚拟机(2)设置虚拟机(3)打开虚拟机 windows server 2012(4)进…

241217-解决Ollama无法通过配置文件修改模型下载路径的方法

A. 常规修改下载模型路径的方法 Linux怎样设置ollama保存模型的路径? - 南门子的回答 - 知乎 B. 上述方法失效时的解决方案 Is there a way to change the download/run directory? Issue #680 ollama/ollama 具体来说也就是在ollama serve 启动之前&#xff…

戴森球计划新玩法!利用MOD和cpolar实现公网环境多人游戏

文章目录 前言1. 下载MOD2.配置cpolar内网穿透3. 主机开启联机3.1 玩家加入游戏 4. 配置固定的TCP端口5. 游玩体验 前言 《戴森球计划》不仅是一款融合了科幻冒险与经营管理元素的游戏,更是一个让玩家在浩瀚宇宙中尽情探索和创造的平台。在这个游戏中,你…

农田“智能管家”:道品科技农业移动式水肥一体机

一、农业移动式水肥一体机的兴起背景 (一)现代农业面临的挑战 在全球人口持续增长的大背景下,如今的粮食需求较以往有了大幅度增加。据相关统计数据显示,预计到 2030 年,全世界仍有近 6 亿人口长期食物不足。为了保障…

计算机进制的介绍

一.进制介绍 对于整数,有四种表示方式: 1)二进制:0,1,满2进1。 在golang中,不能直接使用二进制来表示一个整数,它沿用了c的特点。 参考:Go语言标准库文档中文版 | Go语言中文网 | Golang中文社区 | Golang中国 //赋值…

3D Gaussian Splatting for Real-Time Radiance Field Rendering-简洁版

1. 研究背景与问题 传统的3D场景表示方法,如网格和点云,适合GPU加速的光栅化操作,但缺乏灵活性。而基于神经辐射场(NeRF)的表示方式,尽管质量高,但需要高成本的训练和渲染时间。此外&#xff0…

用ue5打开网址链接

需要用到 Launch URL 这个函数 字面意思就是打开填写的链接网页 这里填写的是百度,按下Tab键后就会打开百度的网页

电脑为什么会提示“msvcr120.dll缺失”?“找不到msvcr120.dll文件”要怎么解决?

电脑故障排查指南:揭秘“msvcr120.dll缺失”的真相与解决方案 在软件开发与日常维护的广阔天地里,遇到系统报错或文件缺失的情况可谓家常便饭。今天,我将带领大家深入探讨一个常见的系统提示——“msvcr120.dll缺失”,并揭秘其背…

Java:集合(List、Map、Set)

文章目录 1. Collection集合1-1. 迭代器遍历方式1-2. 通过for循环进行遍历1-3. forEach遍历 2. List集合2-1. ArrayList底层实现原理2-2. LinkedList底层实现原理 3. Set集合3-1. HashSet 底层实现3-2. LinkedHashSet 底层实现3-3. TreeSet 4. Collection集合->总结5. Map集…

4_使用 HTML5 Canvas API (3) --[HTML5 API 学习之旅]

4_使用 HTML5 Canvas API (3) --[HTML5 API 学习之旅] 1.缩放 canvas 对象 在 <canvas> 中缩放对象可以通过 scale 方法来实现。这个方法会根据提供的参数对之后绘制的所有内容进行缩放。下面是两个具体的示例&#xff0c;展示如何使用 scale 方法来缩放 canvas 上的对…

嵌入式驱动开发详解18(USB驱动开发)

文章目录 前言USBUSB简介USB信号线USB控制规格 USB—HUBUSB—HUB原理USB—HUB电路 USB—OTGUSB—OTG原理USB—OTG电路 USB协议后续参考文献 前言 该专栏主要是讲解嵌入式相关的驱动开发&#xff0c;但是由于部分模块的驱动框架过于复杂&#xff0c;其内容量不是一个人能完成的…

ubuntu监测硬盘状态

安装smartmontools smartctl -l error /dev/sdk smartctl -i /dev/sda lshw -class disk smartctl -H /dev/sd 结果1&#xff1a; 结果2&#xff1a;PASSED&#xff0c;这表示硬盘健康状态良好 smartctl -a /dev/sdb sdk lsblk blkid 测试写入速度 time dd if/dev/zero of…

华为云联合中国信通院发布首个云计算智能化可观测性能力成熟度模型标准

2024年12月3日&#xff0c;由全球数字经济大会组委会主办&#xff0c;中国信息通信研究院&#xff08;以下简称“中国信通院”&#xff09;、中国通信企业协会承办的2024全球数字经济大会云AI计算国际合作论坛在北京成功召开。本次会议中&#xff0c;华为云联合中国信通院等单位…

Stable Diffusion 提示词语法

1.提示词基础 1.提示词之间用英文逗号,分隔 2.提示词之间是可以换行的 3.权重默认为1,越靠前权重越高 4.数量控制在75个单位以内 2.提示词各种符号的意义 2.1 ()、[]、{}符号 权重值()小括号[]中括号{}大括号默认1111层()1.1[]0.9{}1.052层(()) 1.121.21[[]]0.920.81{{}}1.…

CMake 保姆级教程(上)

整理自 视频 【CMake 保姆级教程【C/C】】 https://www.bilibili.com/video/BV14s4y1g7Zj/?p5&share_sourcecopy_web&vd_source6eb8f46d194c5ef9f89d3331f623a9c3 1、cmake简介 源文件&#xff08;.cpp / .c&#xff09;要经过 工具链 1.1 工具链 1、预处理&#…