【AI】深度学习的数学--核心公式

news2025/7/15 19:32:35

1 梯度下降

$f(x+\Delta x,y+\Delta y) \simeq f(x,y)+\frac{\partial f(x,y)}{\partial x}\Delta x+\frac{\partial f(x,y)}{\partial y}\Delta y$

$\Delta z =f(x+\Delta x,y+\Delta y)-f(x,y) \simeq \frac{\partial f(x,y)}{\partial x}\Delta x+\frac{\partial f(x,y)}{\partial y}\Delta y$

$\Delta z \simeq \frac{\partial f(x,y)}{\partial x}\Delta x+\frac{\partial f(x,y)}{\partial y}\Delta y$

$\Delta z \simeq (\frac{\partial f(x,y)}{\partial x},\frac{\partial f(x,y)}{\partial y})(\Delta x,\Delta y)$

$\Delta z \simeq (\frac{\partial z}{\partial x},\frac{\partial z}{\partial y})\cdot (\Delta x,\Delta y)=\nabla z \cdot (\Delta x,\Delta y)$

如果想要让z的下降速度最快就要保证两个向量方向完全相反，也就是要保证如下公式成立

$(\Delta x,\Delta y) = -\eta \nabla z$

2 NN误差反向传播

参数w和b的梯度表示

$\frac{\partial C}{\partial w^{l}_{ji}}=\delta ^l_j a^{l-1}_i,\frac{\partial C}{\partial b^{l}_{j}}=\delta ^l_j(l=2,3...)$

δ的计算方法

输出层的误差反向传播计算方法，此处L代表输出层

$\delta^L_j=\frac{\partial C}{\partial a^L_j}a'(z^L_j)$

$C=\frac{1}{2}\{ (t_1-a^L_1)^2+(t_2-a^L_2)^2 \}$

$\delta^L_j=\frac{\partial C}{\partial a^L_j}a'(z^L_j)=(a^L_j-t_j)a'(z^L_j)$

隐藏层的误差反向传播计算方法，层l和下一层l+1的递推关系，m为层l+1的神经单元个数，l为大于等于2的整数

$\delta ^l _i = (\delta ^{l+1} _1 w ^{l+1} _{1i} + \delta ^{l+1} _2 w^{l+1} _{2i}+...+ \delta ^{l+1} _m w^{l+1} _{mi})a'(z^l _i)$

输出层的神经单元误差

$\delta^3_j = \frac{\partial C}{\partial z^3_j}=\frac{\partial C}{\partial a^3_j} \frac{\partial a^3_j}{\partial z^3_j}=\frac{\partial C}{\partial a^3_j}a'(z^3_j)$

隐藏层的神经单元误差
在这里插入图片描述

$\delta ^2 _i = (\delta ^3 _1 w ^3 _{1i} + \delta ^3 _2 w^3 _{2i})a'(z^2 _i)(i=1,2,3)$

3 CNN误差反向传播

在这里插入图片描述

输出层的梯度分量

在这里插入图片描述

$\frac{\partial C}{\partial w ^{On}}_{k-ij}=\delta ^O _n a^{Pk}_{ij},\frac{\partial C}{\partial b ^{O}}_{n}=\delta ^O _n$

n为输出层神经单元的编号，k为池化层子层编号，ij为池化子层神经单元行列编号(i,j=1,2)

卷积层的梯度分量

在这里插入图片描述

$\frac{\partial C}{\partial w^{Fk}_{ij}}=\delta ^{Fk}_{11}x_{ij}+\delta ^{Fk}_{12}x_{ij+1}+...+\delta ^{Fk}_{44}x_{i+3j+3}$

k为过滤器的编号，ij为过滤器行列的编号（i,j=1,2,3）
在这里插入图片描述

$\frac{\partial C}{\partial b^{Fk}}=\delta ^{Fk}_{11}+\delta ^{Fk}_{12}+...+\delta ^{Fk}_{44}$

k为过滤器的编号

输出层δ的计算方法

$\delta ^O_n=\frac{\partial C}{\partial z^O_n}=\frac{\partial C}{\partial a^O_n}\frac{\partial a^O_n}{\partial z^O_n}=\frac{\partial C}{\partial a^O_n}a'(z^O_n)$

n为输出层神经单元的编号

$C=\frac{1}{2}\{ (t_1-a^O_1)^2+(t_2-a^O_2)^2+(t_3-a^O_3)^2 \}$

$\delta ^O_n=(a_n^O-t_n)a'(z_n^O)$

以上为代价函数示例及其导数，带入δ式可得

$\frac{\partial C}{\partial a^O_n}=a_n^O-t_n（n=1,2,3）$

求导数得

卷积层δ的计算方法

$\delta ^{Fk}_{ij}=\{\delta ^{O}_{1}w^{O1}_{k-i'j'}+\delta ^{O}_{2}w^{O2}_{k-i'j'}+\delta ^{O}_{3}w^{O3}_{k-i'j'}\}\times(当a^{Fk}_{ij}在区块中为最大值时为1否则为0)\times a'(z^{Fk}_{ij})$