深度学习：（八）深层神经网络参数与流程

news2026/2/14 19:27:48

深层神经网络

符号规定

$L$ ：表示神经网络的层数；
$l$ ：表示第几层；
$n^{[~l~]}$ ：表示第 $l$ 层的节点数；
$a^{[~l~]}$ ：表示第 $l$ 层中的激活函数（泛指）；
$a^{[~l~]}=g^{[~l~]}(z^{[~l~]})$ ：表示第 $l$ 层中的激活函数（泛指）；
$W^{[~l~]}$ ：表示第 $l$ 层的参数 $w$ 的集合；
$b^{[~l~]}$ ：表示第 $l$ 层的参数 $b$ 的集合。

前向传播和反向传播都类似之前的笔记。

流程图

在这里插入图片描述

前向传播有输入数据 $x$ ，反向传播的输入数据是 $da^{[~L~]}$ ，即输出层（第 $L$ 层）的输出，在向量化代码中，直接展示出来的结果是损失函数 $L(\widehat{y},y)$ ，

因为 $da^{[~L~]}=-\frac{y}{a}+\frac{1-y}{1-a}$ ，而 $L(\widehat{y},y)$ 对 $\widehat{y}$ （ $a$ ）的导数，正好等于这个结果。因此将损失函数对 $\widehat{y}$ （ $a$ ）求导，可得出 $da^{[~L~]}$ ，然后代入反向传播链的输入，开始迭代，如上图所示。

向量化时 $da^{[~L~]}$ 需改为 $dA^{[~L~]}$ ， $dA^{[~L~]}=(da^{[~1~]},da^{[~2~]},...,da^{[~m~]})$ 。

为何 $z^{[~l~]}$ 是反向传播的一个输入参数

$\begin{align*} ∵a^{[~l~]}=\sigma&(z^{[~l~]})=\sigma(W^{[~l~]}a^{[~l-1~]}+b^{[~l~]})\\ ∵\frac{dL}{da^{[~l-1~]}}&=\frac{dL}{da^{[~l~]}}·\frac{da^{[~l~]}}{da^{[~l-1~]}}\\ &=da^{[~l~]}·\sigma^{'}(W^{[~l~]}a^{[~l-1~]}+b^{[~l~]})W^{[~l~]}·da^{[~l-1~]}\\ ∴da^{[~l-1~]}&=da^{[~l~]}·\sigma^{'}(z^{[~l~]})W^{[~l~]}·da^{[~l-1~]} \end{align*}$

核对矩阵的维度

向量化前的单个样本

前向传播：

$W^{[~l~]}$ ：维度为 $n^{[~l~]},n^{[~l-1~]})$ ；

$z^{[~l~]}$ ：维度为 $n^{[~l~]},1)$ ；

$a^{[~l~]}$ ：维度为 $n^{[~l~]},1)$ ；

$b^{[~l~]}$ ：维度为 $n^{[~l~]},1)$ 。
反向传播：

$dW^{[~l~]}$ 和 $W^{[~l~]}$ 同维度；

$db^{[~l~]}$ 和 $b^{[~l~]}$ 同维度。

向量化后的整个训练集

前向传播：

$X(A^{[~0~]})$ ：维度为 $n^{[~0~]},m)$ ；

$W^{[~l~]}$ ：维度为 $n^{[~l~]},n^{[~l-1~]})$ ；

$b^{[~l~]}$ ：维度为 $n^{[~l~]},1)$ ；# 要广播

$Z^{[~l~]}$ ：维度为 $n^{[~l~]},m)$ ；

$A^{[~l~]}$ ：维度为 $n^{[~l~]},m)$ 。
反向传播：

$dW^{[~l~]}$ 和 $W^{[~l~]}$ 同维度；

$db^{[~l~]}$ 和 $b^{[~l~]}$ 同维度；

$dZ^{[~l~]}$ 和 $Z^{[~l~]}$ 同维度；

$dA^{[~l~]}$ 和 $A^{[~l~]}$ 同维度。