AI基础知识

1.激活函数
- :one: 激活函数的作用
- :two: sigmoid函数
- :three: tanh函数
- :four: ReLu
- :five: Leaky ReLU
2.Softmax函数
3.优化器
- :one: 优化器的作用
- :two: BGD（批梯度下降）
- :three: SGD（随机梯度下降）
- :four: MBGD（Mini Batch梯度下降）
- :five: AdaGrad（自适应学习率优化器）
- :six: RMSProp（Root Mean Square Propagation）
- :seven: Adam（Adaptive Momen Estimation，自适应动量估计）
4.梯度消失和爆炸
- :one: 梯度消失
- :two: 梯度爆炸
5.输入数据的归一化
- :one: 标准化
- :two:最小-最大归一化
6.神经网络层内部的归一化
- :one: 批量归一化
- :two: 层归一化
7.如何处理过拟合？
- :one: Dropout
- :two: 增大数据量
- :three:Early Stop。
- :four:Batch Normalization
- :five: L1正则化
- :six: L2正则化
8.全连接层的作用
9.池化
- :one: 平均池化
- :two: 最大池化
10.卷积的感受野
- :one:
- :two:
- :three:
- :four:
- :five:
- :six:
- :seven:

1.激活函数

1️⃣ 激活函数的作用

激活函数为神经网络引入非线性，如果没有激活函数，即使网络层数再多，也只能处理线性可分问题。

2️⃣ sigmoid函数

sigmoid函数将输入变换为(0,1)上的输出。它将范围(-inf,inf)中的任意输入压缩到区间(0,1)中，函数表示为：
$sigmoid(x)=\frac1{1+e^{-x}}$
在这里插入图片描述
其梯度可以表示为：
$\frac d{dx}sigmoid(x)=\frac{e^{-x}}{(1+e^{-x})^2}=sigmoid(x)[1-sigmoid(x)]$

可以发现，sigmoid函数的梯度在0到0.25之间。输入很大或很小时会趋于0，当网络变得越来越深时，会出现梯度消失问题。

优点：

能够将自变量的值全部压缩到(0,1)之间
连续可导

缺点：

输入趋于无穷大或无穷小时会出现梯度消失问题
存在幂运算，计算复杂度大

3️⃣ tanh函数

tanh函数将其输入压缩转换到区间(-1,1)上，公式如下：
$tanh(x)=\frac{1-e^{-2x}}{1+e^{-2x}}$
在这里插入图片描述
tanh函数的梯度是：
$\frac d{dx}tanh(x)=1-tanh^2(x)$

可以发现当输入接近0时，tanh函数的梯度接近最大值1。与sigmoid函数的梯度类似，输入在任一方向上远离0点，梯度越接近0，因此也存在梯度消失问题。

优点

相比于Sigmoid，tanh在输入靠近0的区域，梯度为1，有助于收敛。但输入趋于无穷大或无穷小时会出现梯度消失问题

缺点

和sigmoid函数一样，输入趋于无穷大或无穷小时会出现梯度消失问题
同样存在幂运算，计算复杂度大

4️⃣ ReLu

线性整流单元（ReLU）提供了一种非常简单的非线性变换，被定义为：
$R e Lu (x) = ma x (x, 0)$
在这里插入图片描述
其梯度可以表示为：
$f^{^{\prime}}(x)=\begin{cases}1,\quad\text{x}>0\\0,\quad\text{x}<0&\end{cases}$

当输入为正时，ReLU函数的梯度为1；当输入值等于0时，梯度可以当成1也可以当成0，实际应用中并不影响；输入小于0时，梯度直接为0，但在神经网络训练过程中，输入小于0的神经元占比很少。因此ReLu函数可以有效缓解梯度消失问题。

优点

相较于sigmoid和tanh，relu在输入大于0时，梯度恒为1，不会出现梯度消失问题
线性函数，收敛快

缺点：

dead relu问题：当输入小于0时，梯度为0，导致参数无法更新

5️⃣ Leaky ReLU

在小于0的部分引入一个斜率，使得小于0的取值不再是0（通常a的值为0.01左右）：
$f(x)=\begin{cases}a\cdot x&\text{ x <=0}\\x&\text{ x>0}&\end{cases}$
其梯度可以表示为：
$f^{\prime}(x)=\begin{cases}a&\text{ x <=0}\\1&\text{ x>0}&\end{cases}$
优点：

解决了dead relu问题

缺点：

负斜率需要预先设定，但不同任务的斜率可能不同

2.Softmax函数

softmax函数常用于多分类任务，将输入映射成一个0到1范围的概率，且所有的输出和为1

假设输入为 $z=[z_1,z_2,\ldots,z_n]$ ,Softmax 函数的输出为：
$\mathrm{softmax}(z_i)=\frac{e^{z_i}}{\sum_{j=1}^ne^{z_j}}$

3.优化器

1️⃣ 优化器的作用

优化器的作用是调整模型参数，以最小化损失函数

2️⃣ BGD（批梯度下降）

在更新参数时使用所有样本进行更新，假设样本总数为N：
$\theta'=\theta-\eta\cdot\frac1N\sum_{i=1}^N\nabla_\theta J(\theta)$
其中， $\eta$ 为学习率， $\nabla_\theta J(\theta)$ 是损失函数对网络参数 $\theta$ 的梯度。