【AI】深度学习——前馈神经网络—

文章目录

- 1.1 全连接前馈神经网络
- - 1.1.1 符号说明
  - - 超参数
    - 参数
    - 活性值
  - 1.1.2 信息传播公式
  - - 通用近似定理
  - 1.1.3 神经网络与机器学习结合
  - - 二分类问题
    - 多分类问题
  - 1.1.4 参数学习
  - - 矩阵求导
    - 链式法则
    - 更为高效的参数学习
    - 反向传播算法
    - - 目标
      - 计算 $\frac{\partial z^{(l)}}{\partial w^{(l)}_{ij}}$
      - 计算 $\frac{\partial z^{(l)}}{\partial b^{(l)}}$
      - 计算 $\frac{\partial \mathcal{L}(y_i,\hat{y}_i)}{\partial z^{(l)}}$
      - 合并求梯度
      - 误差的反向传播
      - 算法过程
    - 自动梯度计算
    - - 数值微分
      - 符号微分
      - 自动微分
      - 自动微分与符号微分区别
    - 优化问题
    - - 非凸优化问题
      - 梯度消失问题
  - 1.1.5 全连接的前馈神经网络问题
  - - 参数太多
    - 局部不变性

1.1 全连接前馈神经网络

前馈神经网络（Feedforward Neural Network,FNN）也称为多层感知器（实际上前馈神经网络由多层Logistic回归模型组成）

在这里插入图片描述

前馈神经网络中，各个神经元属于不同的层

每层神经元接收前一层神经元的信号，并输出到下一层

输入层：第0层
输出层：最后一层
隐藏层：其他中间层

整个网络中无反馈，信号从输入层向输出层单向传播，可用一个有向无环图表示

1.1.1 符号说明

超参数

符号	含义
$L$	神经网络层数
$M_l$	第 $l$ 层神经元个数
$f_l(\cdot)$	第 $l$ 层神经元的激活函数

参数

符号	含义
$W^{(l)}\in \R^{M_l\times M_{l-1}}$	第 $l - 1$ 层到第 $l$ 层的权重矩阵
$b^{(l)}\in \R^{M_l\times M_{l-1}}$	第 $l - 1$ 层到第 $l$ 层的偏置

活性值

符号	含义
$z^{(l)}\in\R^{M_l}$	第 $l$ 层神经元的净输入（净活性值）
$a^{(l)}\in \R^{M_{l}}$	第 $l$ 层神经元的输出（活性值）

1.1.2 信息传播公式

神经网络的第 $l$ 层有 $M_l$ 个神经元，相应的有 $M_l$ 个净输入和活性值，所以二者需要由 $R^{M_l}$ 向量来表示

第 $l$ 层的输入为第 $l - 1$ 层的活性值，相应的为 $R^{M_{l-1}}$ 向量，即 $z^{(l-1)},a^{(l-1)}\in \R^{M_{l-1}}$

故第 $l$ 层神经元的净输入需要经过一个 仿射变换，即
$\begin{aligned} z^{(l)}&=W^{(l)}a^{(l-1)}+b^{(l)}，其中 W^{(l)}\in \R^{M_l\times M_{l-1}}\\ &=W^{(l-1)}f_{l-1}(z^{(l-1)})+b^{(l)} \end{aligned}$
活性值 $a^{(l)}$ 需要经过一个 非线性变换
$\begin{aligned} a^{(l)}&=f_l(z^{(l)})\\ &=f_l(W^{(l)}a^{(l-1)}+b^{(l)}) \end{aligned}$
进而可知，由输入到网络最后的输出 $a^{(L)}$
$x=a^{(0)}\xrightarrow{W_1}z^{(1)}\xrightarrow{f_1()}a^{(1)}\cdots\xrightarrow{f_{L-1}()}a^{(L-1)}\xrightarrow{W_{L}}z^{(L)}\xrightarrow{f_L()}a^{(L)}=\phi(x;W;b)$
其中 $W, b$ 表示网络中所有层的连接权重和偏置

前馈神经网络可以通过逐层的信息传递，整个网络可以看做一个复合函数 $\phi(x;W;b)$

通用近似定理

在这里插入图片描述

根据通用近似定理，对于具有 线性输出层 $z^{(l)}$ 和至少一个 具有挤压性质的激活函数 $\phi(\cdot)$ 的隐藏层组成的前馈神经网络，只要隐藏层的神经元数量足够，就可以以任意精度来近似任何一个定义在实数空间中的有界闭函数

1.1.3 神经网络与机器学习结合

神经网络可以作为一个万能函数，用于进行复杂的特征转换或逼近一个条件分布

在机器学习中，输入样本的特征对分类器性能的影响很大

若要获得很好的分类效果，需要将样本的原始特征向量 $x$ 转换到更有效的特征向量 $\phi(x)$ ——特征抽取

多层前馈神经网络恰好可以看做一个非线性函数 $\phi(\cdot)$ ，将输入 $x\in \R^D$ 映射到输出 $\phi(x)\in \R^{D'}$ ，因此可将多层前馈神经网络看作一种特殊的特征转换方法，其输出 $\phi(x)$ 作为分类器的输入
$\hat{y}=g(\phi(x);\theta)$

$g(\cdot)$ 为线性或非线性分类器
$\theta$ 为分类器 $g(\cdot)$ 的参数
$\hat{y}$ 为分类器输出

若分类器 $g(\cdot)$ 为 $L o g i s t i c 回归$ 或 $S o f t ma x 回归$ ，则相当于在输出层引入分类器，神经网络直接输出在不同类别的条件概率 $p(y\vert x)$

二分类问题

对于二分类问题 $y\in \{0,1\}$ ，且采用 $L o g i s t i c 回归$ ，那么 $L o g i s t i c$ 相当与神经网络的输出层，只需要一个神经元，其激活函数就是 $L o g i s t i c 函数$ ，可直接作为类别 $y = 1$ 的条件概率
$p(y=1\vert x)=a^{(L)}\in \R$

多分类问题

对于多分类问题 $y\in \{1,\cdots,C\}$ ，如果使用 $S o f t ma x 回归$ ，相当于网络最后一层设置 $C$ 个神经元，其激活函数为 $S o f t ma x 函数$ ，网络最后一层的输出可以作为每个类的条件概率
$\hat{y}=softmax(z^{(l)})$
其中， $z^{(L)}\in \R^C$ 为第 $L$ 层神经元的净输入

$\hat{y}\in\R^C$ 为第 $L$ 层神经元的活性值，每一维分别表示不同类别标签的预测条件概率

1.1.4 参数学习

如果采用交叉熵损失函数，对于样本 $(x, y)$ ，其损失函数为
$\mathcal{L}(y,\hat{y})=-y\log \hat{y},y\in \{0,1\}^C$
给定训练集 $\mathcal{D}=\{(x_i,y_i)\}_{i=1}^N$ ，将每个样本 $x_i$ 输入给前馈网络得到 $\hat{y}_i$ ，其结构化风险函数为
$\mathcal{R}(W,b)=\frac{1}{N}\sum\limits_{i=1}^N\mathcal{L}(y_i,\hat{y}_i)+\frac{1}{2}\lambda\Vert W\Vert_F^2$

$\lambda$ 为超参数， $\lambda$ 越大， $W$ 越接近于0
一般用 $F ro b e ni u s$ 范数（F范数）作为惩罚项
$\Vert W\Vert_F^2=\sum\limits_{l=1}^L\sum\limits_{i=1}^{M_l}\sum\limits_{j=1}^{M_{l-1}}\left(\omega_{ij}^{(l)}\right)^2$

对于网络参数，可以通过梯度下降的方法学习
$\begin{aligned} W^{(l)}&\leftarrow W^{(l)}-\alpha\frac{\partial \mathcal{R}(W,b)}{\partial W^{(l)}}\\ &\leftarrow W^{(l)}-\alpha\left(\frac{1}{N}\sum\limits_{i=1}^N\frac{\partial \mathcal{L}(y_i,\hat{y}_i)}{\partial W^{(l)}}+\lambda W^{(l)}\right)\\ b^{(l)}&\leftarrow b^{(l)}-\alpha\frac{\partial \mathcal{R}(W,b)}{\partial b^{(l)}}\\ &\leftarrow b^{(l)}-\alpha\left(\frac{1}{N}\sum\limits_{i=1}^N\frac{\partial \mathcal{L}(y_i,\hat{y}_i)}{\partial b^{(l)}}\right) \end{aligned}$

矩阵求导

根据求导的自变量和因变量是标量， $列向量$ 还是矩阵，我们有9种可能的矩阵求导定义：

在这里插入图片描述

含标量情况：

$\frac{\partial 标量}{\partial 标量}=标量$
$\frac{\partial 标量}{\partial 向量}=向量$ ， $\frac{\partial 标量}{\partial 矩阵}=矩阵$
$\frac{\partial 向量}{\partial 标量}=向量$ ， $\frac{\partial 矩阵}{\partial 标量}=矩阵$

标量情况，第2种和第3种情况，引出信息的两种布局方式

分子布局：结果的行维度与分子行维度相同
分母布局：结果的行维度与分母行维度相同

不论是向量也好，矩阵也好，对向量求导也好，对矩阵求导也好，结果都可以转化成标量之间的求导，最后把结果按照一定的方式拼接起来，以向量或者矩阵的形式表达出来。

在这里插入图片描述

分子布局和分母布局的结果相差一个转置

在机器学习的算法推导中，通常遵循以下布局规则：

如果向量或矩阵对标量求导，则以分子布局为主
如果标量对向量或矩阵求导，则以分母布局为主
向量对向量求导，有些分歧，一般以分子布局的雅克比矩阵为主。

本文沿用nndl的思路，以分母布局为主

若 $x^{(i)}\in \R$ ，向量 $x=\left[\begin{matrix}x^{(1)}\\x^{(2)}\\\vdots\\x^{(M)}\end{matrix}\right]\in \R^{M\times 1}$

若 $y=g(x)\in\R^{1\times 1}$ ，则
$\frac{\partial y}{\partial x}=\left[\begin{matrix} \frac{\partial y}{\partial x^{(1)}}\\ \frac{\partial y}{\partial x^{(2)}}\\ \vdots\\ \frac{\partial y}{\partial x^{(M)}} \end{matrix} \right]\in \R^{M\times 1}$
若 $y_i=g_i(x)$ ， $y=\left[\begin{matrix}y_1\\y_2\\\vdots\\y_N\end{matrix}\right]\in \R^{N\times 1}$ ，则
$\frac{\partial y}{\partial x}=\left[ \begin{matrix} \frac{\partial y_1}{\partial x},\frac{\partial y_2}{\partial x},\cdots,\frac{\partial y_N}{\partial x} \end{matrix} \right]=\left[ \begin{matrix} \frac{\partial y_1}{\partial x_1}&\frac{\partial y_2}{\partial x_1}&\cdots&\frac{\partial y_N}{\partial x_1}\\ \frac{\partial y_1}{\partial x_2}&\frac{\partial y_2}{\partial x_2}&\cdots&\frac{\partial y_N}{\partial x_2}\\ \vdots&\vdots&\ddots&\vdots\\ \frac{\partial y_1}{\partial x_M}&\frac{\partial y_2}{\partial x_M}&\cdots&\frac{\partial y_N}{\partial x_M}\\ \end{matrix} \right]\in \R^{M\times N}$

链式法则

$y=f_5(f_4(f_3(f_2(f_1(x)))))\rightarrow \frac{\partial y}{\partial x}=\frac{\partial f_5}{\partial f_4}\frac{\partial f_4}{\partial f_3}\frac{\partial f_3}{\partial f_2}\frac{\partial f_2}{\partial f_1}\frac{\partial f_1}{\partial x}$

若 $x\in \R$ ，
$\begin{cases} y_i=g_i(x)&y=[g_1(x),g_2(x),\cdots,g_M(x)]\in \R^{M}\\ z_i=f_i(y)&z=\left[f_1(y),f_2(y),\cdots,f_N(y)\right]\in \R^{N} \end{cases}$
则有
$\frac{\partial z}{\partial x}=\frac{\partial y}{\partial x}_{1\times M}\frac{\partial z}{\partial y}_{M\times N}\in\R^{1\times N}$

若 $x\in \R^{M}$
$\begin{cases} y_i=g_i(x)&y=[g_1(x),g_2(x),\cdots,g_K(x)]\in \R^{K}\\ z_i=f_i(y)&z=\left[f_1(y),f_2(y),\cdots,f_N(y)\right]\in \R^{N} \end{cases}$
则有
$\frac{\partial z}{\partial x}=\frac{\partial y}{\partial x}_{M\times K}\frac{\partial z}{\partial y}_{K\times N}\in \R^{M\times N}$

若 $X\in R^{M\times N}$ ，
$\begin{cases} y_i=g_i(X)&y=[g_1(X),g_2(X),\cdots,g_K(X)]\in \R^{K}\\ z_i=f(y)\in \R \end{cases}$
则有
$\frac{\partial z}{\partial x_{ij}}=\frac{\partial y}{\partial x_{ij}}_{1\times K}\frac{\partial z}{\partial y}_{K\times 1}\in \R$

更为高效的参数学习

梯度下降法需要计算损失函数对参数的偏导数，如果通过链式法则逐一对每个参数求偏导，会很低效

反向传播算法
自动梯度计算

反向传播算法

目标

求解
$\begin{aligned} W^{(l)}&\leftarrow W^{(l)}-\alpha\frac{\partial \mathcal{R}(W,b)}{\partial W^{(l)}}\\ &\leftarrow W^{(l)}-\alpha\left(\frac{1}{N}\sum\limits_{i=1}^N\frac{\partial \mathcal{L}(y_i,\hat{y}_i)}{\partial W^{(l)}}+\lambda W^{(l)}\right)\\ b^{(l)}&\leftarrow b^{(l)}-\alpha\frac{\partial \mathcal{R}(W,b)}{\partial b^{(l)}}\\ &\leftarrow b^{(l)}-\alpha\left(\frac{1}{N}\sum\limits_{i=1}^N\frac{\partial \mathcal{L}(y_i,\hat{y}_i)}{\partial b^{(l)}}\right) \end{aligned}$
可见参数求解的核心部分为 $\frac{\partial \mathcal{L}(y_i,\hat{y}_i)}{\partial W^{(l)}}$ ，对于矩阵求导，可以对逐个元素求导，再排列为矩阵形式，根据链式法则
$\frac{\partial \mathcal{L}(y_i,\hat{y}_i)}{\partial w_{ij}^{(l)}}=\frac{\partial z^{(l)}}{\partial w^{(l)}_{ij}}\frac{\partial \mathcal{L}(y_i,\hat{y}_i)}{\partial z^{(l)}}\\ \frac{\partial \mathcal{L}(y_i,\hat{y}_i)}{\partial b^{(l)}}=\frac{\partial z^{(l)}}{\partial b^{(l)}}\frac{\partial \mathcal{L}(y_i,\hat{y}_i)}{\partial z^{(l)}}$

计算 $\frac{\partial z^{(l)}}{\partial w^{(l)}_{ij}}$

因 $z^{(l)}_{M_l\times 1}=W^{(l)}_{M_{l}\times M_{l-1}}a^{(l-1)}_{M_{l-1}\times 1}+b^{(l)}_{M_{l}}$

在这里插入图片描述

分母布局，故需要将 $z^{(l)}$ 转置求偏导，第 $i$ 个元素为 $a_j^{(l-1)}$

计算 $\frac{\partial z^{(l)}}{\partial b^{(l)}}$

在这里插入图片描述

计算 $\frac{\partial \mathcal{L}(y_i,\hat{y}_i)}{\partial z^{(l)}}$

计算误差项 $\frac{\partial \mathcal{L}(y_i,\hat{y}_i)}{\partial z^{(l)}}$ 表示第 $l$ 层神经元对最终损失的影响，也反映了最终损失对第 $l$ 层神经元的敏感程度，不同神经元对网络能力的贡献程度，从而比较好地解决了贡献度分配问题
$\delta^{(l)}\overset{\Delta}{=}\frac{\partial \mathcal{L}(y_i,\hat{y}_i)}{\partial z^{(l)}}=\left[ \begin{matrix} \frac{\partial \mathcal{L}(y_i,\hat{y}_i)}{\partial z_1^{(l)}}\\ \frac{\partial \mathcal{L}(y_i,\hat{y}_i)}{\partial z_2^{(l)}}\\ \vdots\\ \frac{\partial \mathcal{L}(y_i,\hat{y}_i)}{\partial z_{M_l}^{(l)}} \end{matrix} \right]\overset{\Delta}{=}\left[ \begin{matrix} \delta_1^{(l)}\\ \delta_2^{(l)}\\ \vdots\\ \delta_{M_l}^{(l)} \end{matrix} \right]\in \R^{M_l\times 1}$

在这里插入图片描述

$z^{(l+1)}\in \R^{M_{l+1}}$ ， $a^{(l)}\in \R^{M_l}$ ，所以
$\frac{z^{(l+1)}}{a^{(l)}}\xlongequal{分母布局}\left[ \begin{matrix} w_{11}&w_{21}&\cdots &w_{M_{l+1}1}\\ w_{12}&w_{22}&\cdots &w_{M_{l+1}2}\\ \vdots&\vdots&\ddots&\vdots\\ w_{1M_l}&w_{2M_l}&\cdots &w_{M_{l+1}M_l}\\ \end{matrix} \right]\in \R^{M_l\times M_{l+1}}$

根据 $a^{(l)}=f_l(z^{(l)})=\left(\begin{matrix}f_l(z_1^{(l)})\\f_l(z_2^{(l)})\\\vdots\\f_l(z_{M_l}^{(l)})\\\end{matrix}\right)$ ， $z^{(l)}=\left(\begin{matrix}z_1^{(l)}\\z^{(l)}_2\\\vdots\\z_{M_l}^{(l)}\end{matrix}\right)$ ，分母布局
$\begin{aligned} \frac{\partial a^{(l)}}{\partial z^{(l)}}&=\frac{\partial f_l(z^{(l)})}{\partial z^{(l)}}\\ &=\left[ \begin{matrix} \frac{\partial f_l(z_1^{(l)})}{\partial z_1^{(l)}}&\frac{\partial f_l(z_2^{(l)})}{\partial z_1^{(l)}}&\cdots&\frac{\partial f_l(z_{M_l}^{(l)})}{\partial z_{1}^{(l)}}\\ \frac{\partial f_l(z_1^{(l)})}{\partial z_2^{(l)}}&\frac{\partial f_l(z_2^{(l)})}{\partial z_2^{(l)}}&\cdots&\frac{\partial f_l(z_{M_l}^{(l)})}{\partial z_{2}^{(l)}}\\ \vdots&\vdots&\ddots&\vdots\\ \frac{\partial f_l(z_1^{(l)})}{\partial z_{M_l}}&\frac{\partial f_l(z_2^{(l)})}{\partial z_{M_l}^{(l)}}&\cdots&\frac{\partial f_l(z_{M_l}^{(l)})}{\partial z_{M_l}^{(l)}}\\ \end{matrix} \right]=\left[ \begin{matrix} \frac{\partial f_l(z_1^{(l)})}{\partial z_1^{(l)}}&0&\cdots&0\\ 0&\frac{\partial f_l(z_2^{(l)})}{\partial z_2^{(l)}}&\cdots&0\\ \vdots&\vdots&\ddots&\vdots\\ 0&0&\cdots&\frac{\partial f_l(z_{M_l}^{(l)})}{\partial z_{M_l}^{(l)}}\\ \end{matrix} \right]\\ &=diag \left(\frac{\partial f_l(z^{(l)}_i)}{\partial z_i^{(l)}}\right)\in \R^{M_l\times M_l},i=1,\cdots,M_l \end{aligned}$

在这里插入图片描述

$\begin{aligned} \left[W^{(l+1)}\right]^T\cdot \delta^{(l+1)}&=\left[ \begin{matrix} w_{11}&w_{21}&\cdots &w_{M_{l+1}1}\\ w_{12}&w_{22}&\cdots &w_{M_{l+1}2}\\ \vdots&\vdots&\ddots&\vdots\\ w_{1M_l}&w_{2M_l}&\cdots &w_{M_{l+1}M_l}\\ \end{matrix} \right]\left[ \begin{matrix} \delta_1^{(l+1)}\\ \delta_2^{(l+1)}\\ \vdots\\ \delta_{M_{l+1}}^{(l+1)} \end{matrix} \right]\\ &=\left[ \begin{matrix} \sum\limits_{t=1}^{M_{l+1}}w_{t1}\delta_t^{(l+1)}\\ \sum\limits_{t=1}^{M_{l+1}}w_{t2}\delta_t^{(l+1)}\\ \vdots\\ \sum\limits_{t=1}^{M_{l+1}}w_{tM_{l+1}}\delta_t^{(l+1)}\\ \end{matrix} \right]\in\R^{M_l}\\ diag \left(\frac{\partial f_l(z^{(l)}_i)}{\partial z_i^{(l)}}\right)\left[W^{(l+1)}\right]^T\cdot \delta^{(l+1)}&=\left[ \begin{matrix} \frac{\partial f_l(z_1^{(l)})}{\partial z_1^{(l)}}&0&\cdots&0\\ 0&\frac{\partial f_l(z_2^{(l)})}{\partial z_2^{(l)}}&\cdots&0\\ \vdots&\vdots&\ddots&\vdots\\ 0&0&\cdots&\frac{\partial f_l(z_{M_l}^{(l)})}{\partial z_{M_l}^{(l)}}\\ \end{matrix} \right]\left[ \begin{matrix} \sum\limits_{t=1}^{M_{l+1}}w_{t1}\delta_t^{(l+1)}\\ \sum\limits_{t=1}^{M_{l+1}}w_{t2}\delta_t^{(l+1)}\\ \vdots\\ \sum\limits_{t=1}^{M_{l+1}}w_{tM_{l+1}}\delta_t^{(l+1)}\\ \end{matrix} \right]\\ &=\left[\begin{matrix} \frac{\partial f_l(z_1^{(l)})}{\partial z_1^{(l)}}\sum\limits_{t=1}^{M_{l+1}}w_{t1}\delta_t^{(l+1)}\\ \vdots\\ \frac{\partial f_l(z_i^{(l)})}{\partial z_i^{(l)}}\sum\limits_{t=1}^{M_{l+1}}w_{ti}\delta_t^{(l+1)}\\ \vdots\\ \frac{\partial f_l(z_{M_l}^{(l)})}{\partial z_{M_l}^{(l)}}\sum\limits_{t=1}^{M_{l+1}}w_{tM_{l}}\delta_t^{(l+1)} \end{matrix} \right]\overset{\Delta}{=}\left[\begin{matrix} \delta^{(l)}_1\\ \vdots\\ \delta^{(l)}_i\\ \vdots\\ \delta^{(l)}_{M_l}\\ \end{matrix} \right] \end{aligned}$

合并求梯度

在这里插入图片描述

$\begin{aligned} \frac{\partial \mathcal{L}(y_i,\hat{y}_i)}{\partial w_{ij}^{(l)}}&=\left[0,\cdots,a_j^{(l-1)},\cdots 0\right]\left[\begin{matrix} \delta^{(l)}_1\\ \vdots\\ \delta^{(l)}_i\\ \vdots\\ \delta^{(l)}_{M_l}\\ \end{matrix} \right]\\ &=a_j^{(l-1)}\delta^{(l)}_i=a^{(l-1)}_j\frac{\partial f_l(z_i^{(l)})}{\partial z_i^{(l)}}\sum\limits_{t=1}^{M_{l+1}}w_{ti}\delta_t^{(l+1)}\\ &\iff \left[\delta^{(l)}\cdot a^{(l-1)}\right]_{ij}\\ 即\left[\frac{\partial \mathcal{L}(y_i,\hat{y}_i)}{\partial W^{(l)}}\right]_{ij}&=\left[\delta^{(l)}\cdot a^{(l-1)}\right]_{ij} \end{aligned}$
故梯度 $\frac{\partial \mathcal{L}(y_i,\hat{y}_i)}{\partial W^{(l)}}$ 关于第 $l$ 层权重 $W^{(l)}$ 的梯度为
$\frac{\partial \mathcal{L}(y_i,\hat{y}_i)}{\partial W^{(l)}}=\delta^{(l)}\cdot a^{(l-1)}\in \R^{M_l\times M_{l-1}}$
同理， $\mathcal{L}(y,\hat{y})$ 关于第 $l$ 层偏置 $b^{(l)}$ 的梯度为
$\frac{\partial \mathcal{L}(y_i,\hat{y}_i)}{\partial b^{(l)}}=\delta^{(l)}\in \R^{M_l}$
其中
$\delta^{(l)}=\left[\begin{matrix} \frac{\partial f_l(z_1^{(l)})}{\partial z_1^{(l)}}\sum\limits_{t=1}^{M_{l+1}}w_{t1}\delta_t^{(l+1)}\\ \vdots\\ \frac{\partial f_l(z_i^{(l)})}{\partial z_i^{(l)}}\sum\limits_{t=1}^{M_{l+1}}w_{ti}\delta_t^{(l+1)}\\ \vdots\\ \frac{\partial f_l(z_{M_l}^{(l)})}{\partial z_{M_l}^{(l)}}\sum\limits_{t=1}^{M_{l+1}}w_{tM_{l}}\delta_t^{(l+1)} \end{matrix} \right]=f'_l(z^{(l)})\odot \left[\left(W^{(l+1)}\right)^T\delta^{(l+1)}\right]$

误差的反向传播

第 $l$ 层的误差项可以通过第 $l + 1$ 层的误差项计算得到，这就是 误差的反向传播

第 $l$ 层的一个神经元的误差项是与该神经元相连的第 $l + 1$ 层的神经元的误差项的权重和，然后，再乘上该神经元激活函数的梯度。

算法过程

在计算出每一层的误差项后，就可以求得本层的梯度，可以用随机梯度下降法来训练前馈神经网络

前馈计算每一层的净输入 $z^{(l)}$ 和净激活值 $a^{(l)}$ ，直至最后一层
反向传播计算每一层的误差项 $\delta^{(l)}$
计算每一层的偏导数，并更新参数

在这里插入图片描述

自动梯度计算

神经网络的参数主要通过梯度下降来优化，需要手动用链式求导来计算风险函数对每个参数的梯度，并转换为计算机程序。

手动计算并转换为计算机程序的过程容易出错

目前，主流的深度学习框架都包含了自动梯度计算功能，只需要考虑网络结构并用代码实现，大大提高了开发效率

数值微分

用数值方法计算函数 $f (x)$ 的导数
$f'(x)=\lim\limits_{\Delta x\rightarrow 0}\frac{f(x+\Delta x)-f(x)}{\Delta x}$

找到一个合适的 $\Delta x$ 十分困难
- $\Delta x$ 过小，会引起数值计算问题，舍入误差
- $\Delta x$ 过大，会增加截断误差（受模型影响的理论值与数值解之间的误差）
在实际应用中，经常使用以下公式计算梯度，减少截断误差
$f'(x)=\lim\limits_{\Delta x\rightarrow 0} \frac{f(x+\Delta x)-f(x+\Delta x)}{2\Delta x}$
数值微分另一个问题是计算复杂度

假设参数数量为 $N$ ，则每个参数都需要单独施加扰动，并计算梯度。假设每次正向传播的计算复杂度为 $O (N)$ ，则计算数值微分的总体时间复杂度为 $O(N^2)$

符号微分

符号计算一般来讲是对输入的表达式，用计算机来通过迭代或递归使用一些事先定义的规则进行转换．当转换结果不能再继续使用变换规则时，便停止计算．

一般包括对数学表达式的化简、因式分解、微分、积分、解代数方程、求解常微分方程等运算

符号微分可以在编译时就计算梯度的数学表示，并进一步利用符号计算方法进行优化

且符号计算与平台无关，可在CPU或GPU上运行

缺点：

编译时间较长，特别是对于循环，需要很长时间进行编译
为了进行符号微分，一般需要设计一种专门的语言来表示数学表达式，并且要对变量（符号）进行预先声明
很难对程序进行调试

自动微分

符号微分：处理数学表达式

自动微分：处理一个函数或一段程序

基本原理：所欲偶的数值计算可以分解为一些基本操作，包含+, −, ×, / 和一些初等函数exp, log, sin, cos 等，然后利用链式法则来自动计算一个复合函数的梯度

以 $f(x;w,b)=\frac{1}{exp(-(wx+b))+1}$ 为例，其中 $x$ 为输入标量， $w, b$ 为权重和偏置

计算图

在这里插入图片描述

复合函数关于参数的导数可以通过计算图路径上节点的所有导数连乘法得到

在这里插入图片描述

如果函数与参数之间有多条路径，则将这些路径上的导数相加，可以得到最终的梯度

根据计算导数的顺序，自动微分可以分为：前向模式和反向模式

前向模式：按照计算图中与参数计算方向相同的方向来递归计算梯度
反向模式：按照计算图中与参数计算方向相反的方向来计算梯度

反向模式与反向传播的梯度计算方式相同

准则：

当输入变量的数量大于输出变量的数量，用反向模式

前向模式需要对每一个输入都进行遍历
反向模式需要对每一个输出都进行遍历

在前馈神经网络中，风险函数为 $f:\R^{N}\rightarrow \R$ 输出为标量，采用反向模式，内存占用小，只需要计算一遍

静态计算图和动态计算图

静态计算图：在编译时构建计算图，运行过程中不可修改

在构建时可以进行优化，并行能力强
灵活性差

动态计算图：在程序运行时构建计算图

不容易优化，输入不同结构的网络，难以并行计算
灵活性高

自动微分与符号微分区别

在这里插入图片描述

符号微分和自动微分都用计算图和链式法则自动求导

符号微分：

符号微分在编译阶段先构造一个符合函数的计算图，通过符号计算得到导数表达式，并对表达式进行优化
在程序运行运行阶段才代入变量数值计算导数

自动微分：

无需事先编译，程序运行阶段，边计算边记录计算图
计算图上的局部梯度都直接代入数值进行计算，然后用前向或反向模式计算最终梯度

优化问题

神经网络的参数学习比线性模型更加困难

非凸优化问题
梯度消失问题

非凸优化问题

神经网络的优化问题是一个非凸优化问题
$y=\sigma(w_2\sigma(w_1x))$
在这里插入图片描述

梯度消失问题

在神经网络中，误差反向传播的迭代公式为
$\delta^{(l)}=f'_l(z^{(l)})\odot \left[\left(W^{(l+1)}\right)^T\delta^{(l+1)}\right]$
误差在反向传播时，在每一层都要乘以该层激活函数的导数

在这里插入图片描述

$S$ 型激活函数的导数值域都 $\le 1$

在这里插入图片描述

在饱和区导数接近于0，这样误差经过每一层传递会不断衰减，当网络层数很深时，梯度就会不断衰减，甚至消失，这就是梯度消失问题

可以采用导数比较大的激活函数，ReLU函数

1.1.5 全连接的前馈神经网络问题

参数太多

应用于图像处理领域，如果输入图像的像素为 $100\times 100\times 3$ ，在全连接网络中，第一层隐藏层的每个神经元到输入层都有 $100\times 100\times3=30000$ 个互相独立的连接，相应的有 $30000$ 个权重参数，随着隐藏层的神经元数量增多，参数的规模也会急剧增加