# [0624] Task03 深度学习基础

news2025/7/15 11:47:24

joyrl P6

参考链接：https://datawhalechina.github.io/joyrl-book/
——————
5、深度强化学习基础 ⭐️
开源内容：https://linklearner.com/learn/summary/11
——————————

高维度复杂问题

深度学习 + 强化学习

根据环境的状态和动作 预测状态值和动作值。
根据状态值和动作值 选择动作。

训练：基于大量样本对算法进行迭代更新

强化学习序列决策
深度学习打标签

线性问题： $f^\theta(\bm x)=\bm \theta^T\bm x$

拟合

动量法：考虑当前的梯度和之前的梯度。

加快梯度下降的速度，减少梯度下降过程中的震荡。

Adam：当前梯度和之前梯度的平方。

批量梯度下降
小批量梯度下降 √
随机梯度下降

线性回归均方差损失
逻辑回归交叉熵损失

全连接网络/多层感知机 (multi-layer perceptron，MLP)

神经网络近似动作值函数：
输入：状态
输出：动作值

连续动作，汽车方向盘转动角度， tanh 激活函数
输出为正， ReLU

基于线性模型的神经网络已经足够适用于大部分的强化学习问题。

卷积神经网络 CNN 网格结构 (图像、时间序列数据)
局部感受野、权重共享、池化层、归一化和 Dropout。

循环神经网络 RNN 序列数据
梯度消失、梯度爆炸
LSTM (输入门、遗忘门、输出门)、GRU(更新门、重置门)

Transformer 序列数据。
自注意力。

逻辑回归：
$z=x^Tw+b$
${\rm sigmoid}(z)=\frac{1}{1+\exp(-z)}$

$l$ 层神经网络：
第 1 层： ${\bm x}^{(1)}=\sigma_1(\bm W^{(1)}{\bm x}^{(0)}+{\bm b}^{(1)})$
第 2 层： ${\bm x}^{(2)}=\sigma_2(\bm W^{(2)}{\bm x}^{(1)}+{\bm b}^{(2)})$
$\vdots$
第 $l$ 层： ${\bm x}^{(l)}=\sigma_l(\bm W^{(l)}{\bm x}^{(l-1)}+{\bm b}^{(l)})$

其中 $\sigma_i$ 为激活函数，一般有 sigmoid， softmax，ReLU，tanh 等
权重矩阵 $\bm W$ ，偏置矩阵 $\bm b$