【机器学习】反向传播算法的直观解释、微积分原理以及反向传播中的链式法则

news2025/10/19 18:34:15

引言

正如有句话说的好，neurons-that-fire-together-wire-together（一同激活的神经元关联在一起）

想象一下，正在组装一个复杂的装置，这个装置由许多组件组成，每个组件都对最终的输出有影响。现在，如果发现输出不正确，需要找出哪些组件导致了这个问题，并相应地调整它们

一旦你知道了每个组件的影响，你就可以调整它们，使得下次输入相同的信号时，输出更接近期望值
你根据每个组件对误差的贡献来调整其设置（在神经网络中，这些设置就是权重）
这个过程需要反复进行，每次输入信号后，你都要计算误差，然后反向传播这个误差，并更新组件的设置

反向传播算法的数学基础是微积分中的链式法则。以下是链式法则在反向传播中的应用：

假设神经网络有一个输出层和一个隐藏层。输出层的激活函数为 $f$ ，隐藏层的激活函数为 $g$
根据链式法则，损失函数 $L$ 对隐藏层输出的导数可以表示为：
$\frac{\partial L}{\partial g} = \frac{\partial L}{\partial f} \cdot \frac{\partial f}{\partial g}$
这意味着，为了计算损失函数对隐藏层输出的导数，我们需要知道损失函数对输出层输出的导数（输出层的梯度），以及输出层输出对隐藏层输出的导数（隐藏层到输出层的权重）

对于输出层，我们可以直接计算损失函数对输出层激活值的导数
对于隐藏层，我们需要将输出层的梯度与输出层和隐藏层之间的权重相乘，然后乘以隐藏层激活函数的导数（即 $\frac{\partial g}{\partial z}$ ，其中 $z$ 是隐藏层的线性组合）

最后，我们计算损失函数对每个权重的导数。这涉及到将损失函数对激活值的导数与激活值对权重的导数相乘
对于权重 $w$ 来说，其梯度可以表示为：
$\frac{\partial L}{\partial w} = \frac{\partial L}{\partial g} \cdot \frac{\partial g}{\partial z} \cdot \frac{\partial z}{\partial w}$
其中， $\frac{\partial z}{\partial w}$ 就是隐藏层的输入。

通过这种方式，反向传播算法能够计算出损失函数对每个权重的梯度，然后我们可以使用这些梯度来更新权重，以减少损失函数的值。这个过程不断重复，直到网络性能达到一个满意的水平。

在这里插入图片描述

链式法则是微积分中的基本法则，用于计算复合函数的导数。假设我们有两个函数 $f (x)$ 和 $g (x)$ ，它们复合成一个新函数 $h (x) = f (g (x))$ 。链式法则告诉我们如何计算 $h$ 对 $x$ 的导数：
$\cdot g'(x)$

换句话说，复合函数的导数等于内函数的导数乘以外函数的导数

在神经网络中，每一层的输出都是下一层的输入，这形成了一个复杂的函数复合结构。反向传播算法通过链式法则来计算损失函数 $L$ 对网络中每个参数的梯度

以下是反向传播中链式法则的应用步骤：

从输出层开始，使用链式法则计算损失函数对每个参数的梯度。
对于网络中的每一层 $l$ ，假设其输入是 $z^{(l)}$ ，激活函数是 $a^{(l)} = \sigma(z^{(l)})$ ，那么链式法则可以表示为：
$\frac{\partial L}{\partial z^{(l)}} = \frac{\partial L}{\partial a^{(l)}} \cdot \frac{\partial a^{(l)}}{\partial z^{(l)}}$
其中， $frac{\partial L}{\partial a^{(l)}}$ 是从下一层传递回来的梯度， $\frac{\partial a^{(l)}}{\partial z^{(l)}}$ 是激活函数的导数

对于层 $l$ 中的每个权重 $w^{(l)}$ ，其梯度可以表示为：
$\frac{\partial L}{\partial w^{(l)}} = \frac{\partial L}{\partial z^{(l)}} \cdot \frac{\partial z^{(l)}}{\partial w^{(l)}}$
其中， $\frac{\partial z^{(l)}}{\partial w^{(l)}}$ 是输入 $x^{(l)}$ 或前一层的激活 $a^{(l-1)}$