05有监督学习——神经网络

news2026/2/9 14:44:49

优点:

1.能够自适应、自主学习。BP可以根据预设参数更新规则，通过不断调整神经网络中的参数，已达到最符合期望的输出。

2.拥有很强的非线性映射能力。

3.误差的反向传播采用的是成熟的链式法则，推导过程严谨且科学。

4.算法泛化能力很强。

缺点:

1.BP神经网络参数众多，每次迭代需要更新较多数量的阈值和权值，故收敛速度比较慢。

2.网络中隐层含有的节点数目没有明确的准则，需要不断设置节点数字试凑，根据网络误差
结果最终确定隐层节点个数

3.BP算法是一种速度较快的梯度下降算法，容易陷入局部极小值的问题。

在深度学习模型中，我们一般习惯在每层神经网络的计算结果送入下一层神经网络之前先经过一个激活函数。

（1）Sigmod函数： $\over {1 + {{\rm{e}}^{ - x}}}}$

在这里插入图片描述

(2)Tanh函数： $\tanh (x) = {{{e^x} - {e^{ - x}}} \over {({e^x} + {e^{ - x}})}} = 2*sig\bmod (2x) - 1$

在这里插入图片描述

（3）relu函数： $\max (0,x)$

在这里插入图片描述

神经网络模型可以非常方便地对数据进行升降维，随着特征数量的增多，样本的密度就下降了，继续升维度，就会过拟合，不适用于真实情况

深度学习中的正则可以看作通过约束模型复杂度来防止过拟合现象的一些手段。首先，模型复杂度是由模型的参数量大小和参数的可取值范围一起决定的。因此正则方法也大致分为两个方向:
一个方向致力于约束模型参数量，例如Dropout;
一个方向致力于约束模型参数的取值范围，例如weight decay。

权重衰减方法：
（1）使用均方范数作为硬性限制
通过限制参数值的选择范围来控制模型容量：
$\min \ell (w,b)$ subject to ${\left\| {\rm{w}} \right\|^2} \le \theta$
通常不限制b

（2）使用均方范数作为柔性限制

对于每个 $\theta$ ,都可以找到 $\lambda$ ，使得之前的目标函数等价于下面式子：

$\min \ell (w,b) + {\lambda \over 2}{\left\| w \right\|^2}$

超参数 $\lambda$ 控制了正则项的重要程度：

这种数值不稳定性问题再深度学习训练过程中被称作梯度消失和梯度爆炸。

梯度消失:由于累乘导致的梯度接近0的现象，此时训练没有进展。

梯度爆炸:由于累乘导致计算结果超出数据类型能记录的数据范围，导致报错。防止出现数值不稳定原因的方法是进行数据归一化处理。

数据归一化处理：

(1)归一化（最大-最小规范化）——将数据映射到【0,1】区间

${x_{\min }}} \over {{x_{\max }} - {x_{\min }}}}$

数据归一化的目的是使得各特征对目标变量的影响一致，会将特征数据进行伸缩变化，所以数据归一化是会改变特征数据分布的。

(2)Z-Score标准化——处理后的数据均值为0，方差为1

$\mu } \over \sigma }$

数据标准化为了不同特征之间具备可比性，经过标准化变换之后的特征数据分布没有发生改变。
就是当数据特征取值范围或单位差异较大时，最好是做一下标准化处理。