深度学习——神经网络（neural network）详解（二）. 带手算步骤，步骤清晰0基础可看

news2025/4/16 18:13:56

深度学习——神经网络（neural network）详解（二）. 手算步骤，步骤清晰0基础可看

前文如下：深度学习——神经网络（neural network）详解（一）. 带手算步骤，步骤清晰0基础可看

运用神经网络模型进行房价预测具体手算过程，具体示例

假设我们有一个简单的神经网络，还是之前这个神经网络，输入层2个节点，隐藏层3个节点，输出层1个节点。我们使用以下简化的示例数据：
简单神经网络结构

(一)函数介绍

Sigmoid 函数：我们把Sigmoid 函数作为激活函数，用于数组的映射转换，公式为：
$\sigma(z) = \frac{1}{1 + e^{-z}}$
Sigmoid 函数的导数：反向传播中计算梯度所需的导数，公式为：
$\sigma'(z) = \sigma(z)(1 - \sigma(z))$
均方误差（MSE）损失函数：衡量预测值与实际值差异的指标，公式为：
$\frac{1}{n} \sum_{i=1}^{n}(y_i - \hat{y}_i)^2$
在单样本情况下简化为：
$\hat{y})^2$
均方误差（MSE）损失函数的导数：
在单样本情况下简化为：
$\frac{\partial L}{\partial \hat{y}} = -2(y-\hat{y})$

4.权重的梯度
涉及到 $w_{1}$ 的公式如下:
$\hat{y})^2$
$\hat{y} = \sigma(w_7 h_1 + w_8 h_2 + w_9 h_3)$
$h_1 = \sigma(w_{1}x_1 + b_1+ w_{4}x_2 + b_4)$

比如对于 $w_{1}$ ，其求梯度公式为：
$\frac{dL}{dw_{1}} = \frac{dL}{d\hat{y}} \cdot \frac{d\hat{y}}{dh_{1}} \cdot \frac{dh_{1}}{dw_{1}}$
（1） $\frac{dL}{d\hat{y}}=-2(y-\hat{y})$
（2）计算 $\frac{d\hat{y}}{dh_{1}}$
令 $z=w_7 h_1 + w_8 h_2 + w_9 h_3$ ，
则 $\hat{y}=\sigma(z)=\sigma(w_7 h_1 + w_8 h_2 + w_9 h_3)$ ，
而 $\sigma'(z) = \sigma(z)(1 - \sigma(z))$
所以
$\frac{d\hat{y}}{dh_{1}}=\sigma(z)\cdot(1 - \sigma(z))\cdot\frac{dz}{dh_{1}}$
$\frac{d\hat{y}}{dh_{1}}=(w_7 h_1 + w_8 h_2 + w_9 h_3)\cdot(1 - (w_7 h_1 + w_8 h_2 + w_9 h_3))\cdot w_7$

(3)同理计算 $\frac{dh_{1}}{dw_{1}}$
$h_1 = \sigma(w_{1}x_1 + b_1+ w_{4}x_2 + b_4)$
$\frac{dh_{1}}{dw_{1}}=(w_{1}x_1 + b_1+ w_{4}x_2 + b_4)\cdot(1 - (w_{1}x_1 + b_1+ w_{4}x_2 + b_4))\cdot x_1$

所以
$\frac{dL}{dw_{1}} = \frac{dL}{d\hat{y}} \cdot \frac{d\hat{y}}{dh_{1}} \cdot \frac{dh_{1}}{dw_{1}}=-2(y-\hat{y}) \cdot (w_7 h_1 + w_8 h_2 + w_9 h_3) (1 - (w_7 h_1 + w_8 h_2 + w_9 h_3)) w_7 \cdot (w_{1}x_1 + b_1+ w_{4}x_2 + b_4) (1 - (w_{1}x_1 + b_1+ w_{4}x_2 + b_4)) x_1$

(二)参数更新过程

1.输入数据（样本）

输入特征： $X = [120, 1]$ （面积120平方米，市中心位置）
目标值： $y = 300, 000$ （房价300,000元）

2.输入到隐藏层的权重和偏置随机初始化

权重 $W_h = [w_1, w_2, w_3, w_4, w_5, w_6] = [0.2, 0.3, 0.4, 0.5, 0.6, 0.7]$
偏置 $b_h = [b_1, b_2, b_3,b_4, b_5, b_6,b_7, b_8, b_9] = [0, 0, 0,0, 0, 0,0, 0, 0]$ （假设偏置为0）

3.激活函数输出

$h_1 = \sigma(w_1 \cdot x_1 + w_4 \cdot x_2)$
$h_2 = \sigma(w_2 \cdot x_1 + w_5 \cdot x_2)$
$h_3 = \sigma(w_3 \cdot x_1 + w_6 \cdot x_2)$

4.具体计算

$h_1 = \sigma(0.2 \times 120 + 0.5 \times 1)=\sigma(24.2)$
$h_2 = \sigma(0.3 \times 120 + 0.6 \times 1)=\sigma(37.8)$
$h_3 = \sigma(0.4 \times 120 - 0.7 \times 1)=\sigma(46.3)$