P8第一讲（选修）：反向传播Backpropagation

news2025/4/27 15:45:53

8. 第 1 讲（选修）：反向传播_哔哩哔哩_bilibili

Gradient Descent

neual work基本架构已经学过了

backpropagation(反向传播)可以帮助我们有效的进行渐变迭代计算(帮助计算梯度)。

假设网络有一大堆参数：

首先选一个初始的参数 $\theta ^{^{0}}$ ，

然后计算 $\theta ^{^{0}}$ 对 Loss function的gradient

也就是计算每一个loss function中的参数，如下：

计算出这个vector之后更新参数：

如何有效的计算出 $\Delta L(\theta )$ vector，就是用backpropagation。

唯一有效的是backparopagation，它其中比较高深的就是数学Chain Rule。

Chain Rule

case1 假设有2个function，y=g（x)，z=h(y)， x会影响y，y会影响z

case2 如图三个函数，其中s的变化影响x和y,x和y的变化影响z。

第一种情况下，一元复合函数求导，内部求导与外部求导的乘积。

第二种情况下，多元复合函数求导，划分求导路径，不同路径求导后加和就行了。

回到neual work training

定义一个loss，看图中的Loss Function，是求和所有trainning data的某一个loss值c，

j将 $x^{n}$ 带到 neual network中得到一个 $y^{^{n}}$ , neual network的希望得到值 $y\widehat{}^{^{n}}$ 就是最正确的,

定义 $y^{^{n}}$ 和 $y\widehat{}^{^{n}}$ 之间的距离就是 $C^{^{n}}$ ,然后L对w偏微分

如何计算 $\frac{\partial L}{\partial w}=\sum_{n=1}^{N}\frac{\partial C^{n}(\theta )}{\partial w}$ ,先求每一个c对w偏微分，再求和。

先考虑某一个neual，

在计算损失函数函数的时候，总的损失函数可以写成每一个训练样本所构成的损失函数之和。而每一个样本所构成的损失函数为这个样本经模型输出后，模型的预测值与样本实际值之间的差距。不管是交叉熵还是均方误差都是在衡量这个差距。

那么为了分析总的损失函数，对总的损失函数求导，我们可以对每个样本的损失函数进行求导进行分析，之后进行求和分析就行了。先对上图中红色三角形的一个小的逻辑回归进行分析。

第一个layer的neual

拿w作为例子计算：计算 $\frac{\partial C}{\partial w}$ ,就是转化为求 $\frac{\partial z}{\partial w}\frac{\partial C}{\partial z}$ .

Forward pass :计算 $\frac{\partial z}{\partial w}$

对一个逻辑回归进行分析，每个逻辑回归先进行一个线性的运算过程，在进行一个sigmoid函数处理过程，当然激活函数也是可以选择其他激活函数的。

那么对损失函数求导就可以拆成两项分布求导的积，如图，一项是损失函数对z求导（z为逻辑回归中的线性方程），一项是z对我们需要梯度下降的参数w的求导。

z对w求导称为前向传播，损失函数对z求导称为反向传播。

Backpropagation-Forward pass

先看如何计算 $\frac{\partial z}{\partial w^{_{1}}}$ ,

规律是看w前面接的是什么，w1再上图中接的是x1，w2接的是x2；也就是看它的input，input是什么偏微分就是什么。

最后得到的是：

那么我们就能够很容易理解前向传播了，对于前向传播中的偏微分，这个值应该是上一级的输出值，这也代表了前向传播中某一个参数的权重。

Backpropagation-Backward pass

求 $\frac{\partial C}{\partial z}$ ,

接下来对反向传播进行求解分析，如上图。从这一节神经元向之后的神经元看过去，对z需要进行一个激活函数的运算（这个例子假设是sigmoid函数），后作为下一级的输入。那我们的反向传播的偏微分就可以写成图中的相乘的形式，由损失函数对激活函数偏导乘激活函数对z偏导。

那么另一部分怎么求解呢？假设我们这个模型是下一级只连接了两个神经元（更多神经元如果理解这个后也就明白了），那么我们的输出结果就会对之后的两个神经元产生影响，那么我们可以用求导的链式法则去表示出上一步我们需要求解的部分，如上图。我们发现图中的两个部分还是没有求解出来。

另外一个neural，

换一种思路去更好的理解反向传播，如上图。可以看成是一个新的网络，这个网络是和我们刚才的网络输入输出是相反的。这个网络输入了下图中的偏导数，经过上文中介绍的处理方式，得到了之前一级的偏导数，这就是一种反向传播。

而对于σ(z)函数的偏导，z在输入的时候就已经确定了具体的大小，所以σ(z)函数的偏导也就是确定的常数了

最终计算下图中的红方块值

如上图，当下一层为输出层的时候，由于我们在输入样本时是可以计算出输出值y1和y2，所以这部分的偏导数也是可以很容易做出来的。

这种情况下，我们很容易想到，如果知道下一层的微分值，那么不是可以很容易求解出这一层的微分值嘛？

这时大家肯定想到了递归的思想，不断的递归就可以推到输出层从而计算出我们想要的结果。

一直推到outputlayer。

从后往前比从前往后更加有效率

建立一个新的反向的neual work运算

最后在这个部分总结下bp，bp是为了简化对神经网络做梯度下降时带来的运算量巨大的问题。bp主要分为反向传播和前向传播。

前向传播很容易，主要传播的就是神经网络的输入。这个每一级的输入都会作为我们的偏导数来供我们去做梯度下降。

反向传播传播的是损失函数对z的偏导（z是每一级线性方程的输出），这个偏导数可以通过，从输出层到输入层的反向求解，使得运算达到进一步的简化。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/141903.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

P8第一讲（选修）：反向传播Backpropagation

Gradient Descent

Chain Rule

Backpropagation-Forward pass

Backpropagation-Backward pass

相关文章

零基础多图详解图神经网络（GNN/GCN）【论文精读】

uni-app打开第三方地图软件进行导航

数据结构与算法基础——算法分析（1）

CSS3 弹性盒子(flex、flex-direction属性、flex-wrap属性、align-items属性、align-content属性)详解

Linux traceroute 原理及使用

【C++】函数重载

通信原理 | 基本概念

无刷电机高压与低压的选择与未来发展前景

2023我的前端面试小结

Elasticsearch：利用搜索提高医疗保健公平 - 用多语言 NLP 模型和分析来改善最终用户体验

【High 翻天】Higer-order Networks with Battiston Federico （5）

课题-基于安卓androidstudio的校园外卖app

SAP FICO 财务月结--自动清账

人脸清晰化神器codeFormer图形界面包GUI

Python数组存储方式与向量化、按行按列展平/展开

Redis缓存雪崩缓存击穿缓存穿透

【云原生进阶之容器】第二章Controller Manager原理2.4节--Informer机制剖析

MySQL8.0锁情况排查

【C语言】-关于指针的知识你真的都知道了？？快进来看看这里面的指针会让你眼前一亮

MYSQL 数据行列交换（交换数据）存储过程实现