【人工智能 | 机器学习】神经网络

news2025/3/31 17:42:43

文章目录

1. 神经元模型
2. 感知机与多层网络
3. 误差逆传播算法（BP)
4. 全局最小与局部极小
5. 其他常见神经网络
6. 深度学习

1. 神经元模型

神经网络：具有适应性的简单单元（神经元）组成的广泛并行互连的网络，其组织能够模拟生物神经系统对真实世界物体作出的交互反应

M-P神经元模型：每个神经元与其他神经元相连。当神经元接收到来自 n 个其他神经元传递过来的 输入信号 ，信号通过 带权重的连接 进行传递，神经元接收到的总输入值与神经元的阈值进行比较，通过 激活函数 处理神经元输出
在这里插入图片描述

a 为理想激活函数。将输入值映射为输出值 0 或 1，0 对应神经元抑制，1 对应兴奋。
阶路函数不连续、不光滑，因此常用 Sigmoid 函数 作为激活函数。
b 为典型的 Sigmoid 函数，把可能在较大范围内变化的输入值挤压到（0，1）输出范围内，因此也称为 挤压函数
将许多个这样的神经元按一定层次结构连接，得到神经网络
在这里插入图片描述

2. 感知机与多层网络

感知机 (Perceptron)：也称 阈值逻辑单元 (threshold logic unit)。由两层神经元组成。输入层接收外界输入信号后传递给输出层，输出层是 M-P神经元
在这里插入图片描述

x1，x2 可能是上一层神经元传递过来的，也可能是从数据集中获取的。取值范围为 0到1。由 Sigmoid 函数可知
$\leftarrow \Sigma_iw_ix_i-\theta \geq 0 \newline y = 0 \leftarrow \Sigma_iw_ix_i-\theta \leq 0$

在这里插入图片描述

线性可分问题：
在这里插入图片描述

非线性可分问题：使用多层功能神经元，中间层称为隐层（隐含层）。隐含层与输出层神经元都是拥有激活函数的功能神经元

简单的两层神经元构成的感知机 多层前馈神经网络 (multi-layer feedforward neural networks)。常见神经网络的层级结构。每层神经元与下一层神经元全互连，同层级之间神经元不存在连接，也不跨层连接
在这里插入图片描述

输出层神经元：接收外界输入
隐层与输出层神经元：处理加工信号
输出层神经元：输出结果
神经网络的学习过程，就是根据训练数据调整神经元之间的 连接权（connection weight），经及每个功能神经元的 阈值

3. 误差逆传播算法（BP)

多层网络的学习能力比单层感知机强。要训练多层网络，需要更强大的学习算法。

误差逆传播算法（error BackPropagation，BP）：用于多层前馈神经网络训练（BP网络通常指），也可用于例如递归神经网络。

数学流程
在这里插入图片描述

$E_k$ 要剩 $\frac{1}{2}$ 是为了后面方便求导
感知机学习算法的权重 $\Delta w_i$ 与 BP算法不同。
权重更新的方向 是 损失函数梯度的负方向，可以 最小化损失。在多层神经网络中，误差的传播需要使用 链式法则 来计算每个权重对最终输出误差的贡献。这涉及到对损失函数进行求导，得到每个权重的梯度。通过使用损失函数的梯度，BP算法可以更好地 泛化到未见过的数据 上，因为它 考虑了整个训练集的误差，而不仅仅是单个样本的误差。在 多层网络中，误差不是线性可分的，非线性激活函数的使用使得直接使用误差更新权重不适用。

在这里插入图片描述

通常学习率设为 0.1

BP 算法工作流程
在这里插入图片描述

累积BP算法与标准BP算法：标准 BP 针对单个样例 $E_k$ 推导。累积 BP 先读取整个训练集一遍再对参数更新。
累积 BP 更新频率低，但很多任务累积误差达到一定程度后再进步会很慢。标准 BP 更新频率高，但不同样例 $E_k$ 之间可能出现更新效果相互抵消的情况

万能近似定理（universal approximation theorem） (Hornik et al., 1989;Cybenko, 1989) 证明，只需要一个包含足够多神经元隐层，多层前馈网络就能以任意精度逼近任意复杂度的连续函数。但是隐层的个数未明确得出，通常只能试错调整

由于 BP 算法太过强大，因此经常导致过拟合。训练误差持续降低，测试误差却可能上升。

通常用早停或 正则化 缓解过拟合
早停（early stopping）：将数据分成训练集和验证集。用验证集估计训练。若训练集误差降低但验证集误差升高，则停止训练，返回最小验证集误差的连接权的阈值
正则化（regularization）:
在这里插入图片描述

4. 全局最小与局部极小

$E$ 表示神经网络在训练集上的误差，是关于连接权 $w$ 和阈值 $\theta$ 的函数。神经网络的训练可看作参数寻优过程。

两种最优：局部极小，全局最小
在这里插入图片描述我们要找的是全局最小。基于梯度的搜索，从某些初始解出发，迭代找局部极小。每次迭代都沿负梯度方向搜索找最优解。若误差函数只有一个局部极小，则局部极小为全局最小；若误差函数有多个局部极小，不能保证找到的解是全局最小。
通常用以下策略试图找到全局最小：

多组不同参数值初始化多个神经网络，取误差最小的解作为最终参数，从中进行选择
模拟退火。以一定的概率接受比当前解更差的 “次优解”。站在初始条件找另一组解。若新解比当前解更优，选择新解。若新解比当前解更差，温度高时，以一定概率接受更差的解。随时间推移，搜索范围变窄，减少接受更差解的概率。最终找到全局最优更近似最优解。模拟退火找到的不一定是全局最优，只是多次尝试增加了找到更优解的概率
随机梯度下降。计算梯度时加入随机因素，即使陷入局部极小点，计算出的梯度仍可能不为零，有机会跳出局部极小继续搜索

上述方式理论上尚缺乏保障