深度学习：（五）初识神经网络

news2026/2/8 5:26:11

（一）神经网络的层数

除去输入层，但包括输出层，每一层都有自己的参数。

输入层称为第零层。

（二）最简单的神经网络（逻辑回归）

下图中的小圆圈，代表了一种运算。且一个小圆圈表示一个节点。

在这里插入图片描述

（三）进阶神经网络（双层，多节点）

为了统一和美观，作如下规定：

层数用上标 $[l]$ 表示。
层中的节点用脚标 $i$ 表示。
层的输出用 $a$ 表示。

则有 $a_i^{[~l~]}$ 表示第 $l$ 层的第 $i$ 个节点的输出值（激活值）。

有以下双层神经网络：

在这里插入图片描述

注解：

“隐藏层”的含义是：在训练集中，这些中间节点的真正数值，我们并不知道。
对于隐藏层1：
- 每个节点都有不同的参数 $w$ 和 $b$ ；
- 输入为向量 $x$ ；
- 执行 $z=w^Tx+b$ 和 $a=\sigma(z)$ 两个计算步骤。
对于输出层：
- 也有对应的参数 $w$ 和 $b$ ；
- 输入为隐藏层 $1$ 的输出值；
- 执行 $z=w^Tx+b$ 和 $a=\sigma(z)$ 两个计算步骤。

参数矩阵：

第一层（隐藏层1）：
- $w_1^{[1]T},w_2^{[1]T},w_3^{[1]T},w_4^{[1]T}$ 组成了矩阵 $W^{[1]}$ ，即 $W^{[1]}=\left[ \begin{matrix} — & w_1^{[1]T} & —\\ — & w_2^{[1]T} & — \\ — & w_3^{[1]T} & — \\ — & w_4^{[1]T} & — \\ \end{matrix} \right]$ ，维度为 $4 \times 3$ ，表示 $4$ 个节点， $3$ 个输入特征。
- $b_1^{[1]},b_2^{[1]},b_3^{[1]},b_4^{[1]}$ 组成了列向量 $b^{[1]}$ ，即 $b^{[1]}=\left[ \begin{matrix} b_1^{[1]}\\ b_2^{[1]}\\ b_3^{[1]}\\ b_4^{[1]}\\ \end{matrix} \right]$ ，维度为 $4 \times 1$ 。
第二层（输出层）：
- $w_1^{[2]T}$ 组成了矩阵 $W^{[2]}$ ，即 $W^{[2]}=\left[ \begin{matrix} — & w_1^{[2]T} & —\\ \end{matrix} \right]$ ，维度为 $1 \times 4$ ，表示 $1$ 个节点， $4$ 个输入特征（！！！！）。
- $b_1^{[2]}$ 组成了 $b^{[2]}$ （常数），维度为 $1 \times 1$ 。

用 $a_i^{[~l~]}$ 表示每层的输出：

在这里插入图片描述

整体计算流程：

在这里插入图片描述

（四）向量化神经网络

单个训练样本

针对上述双层网络，计算代码及步骤如下：
$\begin{align*} &Given~~input~~x:\\ &~~~~~~~~a^{[0]}=x\\ &~~~~~~~~z^{[1]}=W^{[1]}a^{[0]}+b^{[1]}\\ &~~~~~~~~a^{[1]}=\sigma(z^{[1]})\\ &~~~~~~~~z^{[2]}=W^{[2]}a^{[1]}+b^{[2]}\\ &~~~~~~~~a^{[2]}=\sigma(z^{[2]}) \end{align*}$

整个训练集（多个样本）

前情提要： $x^{(i)}$ 表示第 $i$ 个训练样本，共有 $m$ 个样本。

原代码如下：
向量化代码：

将多个训练样本 $x^{(i)}$ ，按列堆叠为 $X=\left[ \begin{matrix} | & | & & |\\ x^{(1)} & x^{(2)} &··· & x^{(m)} \\ | & | & & | \\ \end{matrix} \right]$ ，维度为 $n_x×m$ 。

可得新代码为：
$\begin{align*} &A^{[0]}=X\\ &Z^{[1]}=W^{[1]}A^{[0]}+b^{[1]}\\ &A^{[1]}=\sigma(Z^{[1]})\\ &Z^{[2]}=W^{[2]}A^{[1]}+b^{[2]}\\ &A^{[2]}=\sigma(Z^{[2]}) \end{align*}$
其中： $Z^{[1]}=\left[ \begin{matrix} | & | & & |\\ z^{[1](1)} & z^{[1](2)} &··· & z^{[1](m)} \\ | & | & & | \\ \end{matrix} \right]$ ， $A^{[1]}=\left[ \begin{matrix} | & | & & |\\ a^{[1](1)} & a^{[1](2)} &··· & a^{[1](m)} \\ | & | & & | \\ \end{matrix} \right]$ ， $Z^{[2]}$ 与 $A^{[2]}$ 同理。