深度学习 Pytorch 动态计算图与梯度下降入门

news2025/1/25 3:22:43

在上节末尾我们发现autograd.grad函数可以灵活进行函数某一点的导数和偏导数的运算,但微分运算只是AutoGrad模块中的一小部分功能,本节将继续讲解这个模块的其他常用功能,并在此基础上介绍另一个常用优化算法:梯度下降算法

import numpy as np
import torch

23 AutoGrad的回溯机制与动态计算图

23.1 可微分性相关属性

新版pytorch中的张量已经不仅仅是一个纯计算的载体,本身也可支持微分运算。


requires_grad属性:可微分性

# 构建可微分张量
x = torch.tensor(1., requires_grad = True)
x
# output :
tensor(1., requires_grad=True)
# 构建函数关系
y = x ** 2

grad_fn属性:存储Tensor微分函数

y
# output :
tensor(1., grad_fn=<PowBackward0>)

可以发现此时张量y具有了一个grad_fn属性,并且取值为<PowBackward0>,我们可以查看该属性

y.grad_fn
# output :
<PowBackward0 object at 0x00000265A58D7580>

grad_fn其实是存储了Tensor的微分函数,或者说存储了可微分张量在进行计算过程中的函数关系,此处xy就是进行了幂运算。

# 但x作为初始张量,并没有grad_fn属性
x.grad_fn

值得注意的是,y不仅和x存在幂运算关系(y = x**2),更重要的是,y本身还是一个由x张量计算得出的一个张量。

而对于一个可微分张量生成的张量,也是可微分的:

y.requires_grad
# output :
True

也就是相比于xy不仅同样拥有张量的取值,并且同样可微,还额外存储了x到y的函数计算信息

我们再尝试围绕y创建新的函数关系:z = y + 1

z = y + 1
z
# output :
tensor(2., grad_fn=<AddBackward0>)
z.requires_grad
# output :
True
z.grad_fn
# output :
<AddBackward0 object at 0x00000246CD81B4C0>

不难发现,z也同时存储了张量计算数值、也是可微的,并且还存储了和y的计算关系(add)

至此我们知道,如果设置初始张量是可微的,则在张量计算过程中,每一个由原张量计算出来的新张量都是可微的,并且还会保存此前一步的函数关系,这也就是所谓的回溯机制。

而根据这个回溯机制,我们就能非常清楚张量的每一步计算,并据此绘制张量计算图。


23.2 张量计算图

借助回溯机制,我们就能将张量的复杂计算过程抽象为一张图(Graph),例如此前我们定义的x、y、z三个张量三者的计算关系就可以由下图进行表示。

在这里插入图片描述


计算图的定义

图由节点有向边构成,其中节点表示张量,边表示函数计算关系,方向则表示实际运算方向,张量计算图本质是有向无环图


节点类型

在张量计算图中,虽然每个节点都表示可微分张量,但节点和节点之间略有不同。

在前例中,y和z保存了函数计算关系,但x没有。

此处可以将节点分为三类,分别是:

  • 叶节点 :也就是初始输入的可微分张量,例如x
  • 输出节点 :也就是最后计算得出的张量,例如z
  • 中间节点 :在一张计算图中除了叶子节点和输出节点其他都是中间节点,例如y

在一张计算图中可以有多个叶节点和中间节点,但大多数情况下只有一个输出节点。若存在多个输出结果,我们也往往会将其保存在一个张量中。


23.3 计算图的动态性

pytorch的计算图是动态计算图,会根据可微分张量的计算过程自动生成,并且伴随新张量或运算的加入不断更新,使得pytorch的计算图更加灵活高效,更加易于构建,相比于先构图后执行计算的部分框架(如老版本的TensorFlow),动态图也更加适用于面向对象编程。


24 反向传播与梯度计算

24.1 方向传播的基本过程

在上节,我们曾使用autograd.grad进行函数某一点的导数计算,除使用函数以外,我们还有另外一种方法:反向传播,此时导数运算结果也可以有另一种解读:计算梯度结果。

此处我们暂时不区分微分运算结果、导数值、梯度值三者区别。目前为止三个概念相同,后续讲解梯度下降时再进行区分。


首先,对于某一个可微分张量的导数值(梯度值),存储在grad属性中。

x.grad
# output :
None

在最初,x.grad属性是空值,不会返回任何结果。因为我们虽然已经构建了x、y、z三者之间的函数关系,x也有具体取值,但要计算x点导数,还需要进行具体的求导运算,也就是执行反向传播。

所谓的反向传播,可以简单理解为,在此前记录的函数关系基础上,反向传播函数关系,进而求得叶节点的导数值。在必要时求导,也是节省计算资源和存储空间的必要规定。

z
# output :
tensor(2., grad_fn=<AddBackward0>)
z.grad_fn
# output :
<AddBackward0 object at 0x00000225FFDB7640>
# 执行反向传播
z.backward()

反向传播结束后,即可查看叶节点的导数值

x
# output :
tensor(1., requires_grad=True)
# 在z = y + 1 = x ** 2 + 1函数关系基础上,x取值为1时的导数值
x.grad
# output :
tensor(2.)

注: 在默认情况下,一张计算图只能执行反向传播一次,再次调用backward方法将报错

z.backward()
# output :
RuntimeError: Trying to backward through the graph a second time (or directly access saved tensors after they have already been freed). Saved intermediate values of the graph are freed when you call .backward() or autograd.grad(). Specify retain_graph=True if you need to backward through the graph a second time or if you need to access saved tensors after calling backward.

当然,在y上也能执行反向传播

x = torch.tensor(1., requires_grad = True)
y = x ** 2
z = y + 1
y.backward()
x.grad
# output :
tensor(2.)

第二次执行时也会报错

y.backward()
# output :
RuntimeError: Trying to backward through the graph a second time (or directly access saved tensors after they have already been freed). Saved intermediate values of the graph are freed when you call .backward() or autograd.grad(). Specify retain_graph=True if you need to backward through the graph a second time or if you need to access saved tensors after calling backward.

而且无论何时,我们只能计算叶节点的导数值

y.grad
# output :
UserWarning: The .grad attribute of a Tensor that is not a leaf Tensor is being accessed. Its .grad attribute won't be populated during autograd.backward(). If you indeed want the .grad field to be populated for a non-leaf Tensor, use .retain_grad() on the non-leaf Tensor. If you access the non-leaf Tensor by mistake, make sure you access the leaf Tensor instead. See github.com/pytorch/pytorch/pull/30531 for more informations. (Triggered internally at C:\actions-runner\_work\pytorch\pytorch\builder\windows\pytorch\build\aten\src\ATen/core/TensorBody.h:494.)

至此,我们就了解了反向传播的基本概念和使用方法:

  • 反向传播的本质:函数关系的反向传播(不是反函数)
  • 反向传播的执行条件:拥有函数关系的可微分张量(计算图中除了叶节点的其他节点)
  • 反向传播的函数作用:计算叶节点的导数/微分/梯度运算结果

24.2 反向传播运算注意事项

中间节点反向传播和输出节点反向传播区别

尽管中间节点也可进行反向传播,但很多时候由于存在复合函数关系,中间节点反向传播的计算结果和输出节点反向传播的计算结果并不相同。

x = torch.tensor(1., requires_grad = True)
y = x ** 2
z = y ** 2
z.backward()
x.grad
# output :
tensor(4.)
x = torch.tensor(1., requires_grad = True)
y = x ** 2
z = y ** 2
y.backward()
x.grad
# output :
tensor(2.)

中间节点的梯度保存

默认情况下,在反向传播过程中,中间节点并不会保存梯度

x = torch.tensor(1., requires_grad = True)
y = x ** 2
z = y ** 2
z.backward()
y.grad
# output :
UserWarning: The .grad attribute of a Tensor that is not a leaf Tensor is being accessed. Its .grad attribute won't be populated during autograd.backward(). If you indeed want the .grad field to be populated for a non-leaf Tensor, use .retain_grad() on the non-leaf Tensor. If you access the non-leaf Tensor by mistake, make sure you access the leaf Tensor instead. See github.com/pytorch/pytorch/pull/30531 for more informations. (Triggered internally at C:\actions-runner\_work\pytorch\pytorch\builder\windows\pytorch\build\aten\src\ATen/core/TensorBody.h:494.)

若想计算中间节点的梯度,可以使用 retain_grad() 方法

x = torch.tensor(1., requires_grad = True)
y = x ** 2
y.retain_grad()
z = y ** 2
z.backward()
y
# output :
tensor(1., grad_fn=<PowBackward0>)
y.grad
# output :
tensor(2.)
x.grad
# output :
tensor(4.)

24.3 阻止计算图追踪

在默认情况下,只要初始张量是可微分张量,系统就会自动追踪其相关运算,并保存在计算图关系中,我们也可通过grad_fn来查看记录的函数关系。

但在特殊的情况下,我们并不希望可微张量从创建到运算结果输出都别记录,此时就可以使用一些方法来阻止部分运算被记录。


with torch.no_grad():阻止计算图记录

例如,我们希望x,y的函数关系被记录,而y的后续其他运算不被记录,可以使用with torch no_grad()来组织部分y的运算不被记录。

x = torch.tensor(1., requires_grad = True)
y = x ** 2
with torch.no_grad():
	z = y ** 2

with相当于是一个上下文管理器,with torch.no_grad内部代码“屏蔽”了计算图的追踪记录。

z
# output :
tensor(1.)
z.requires_grad
# output :
False
y
# output :
tensor(1., grad_fn=<PowBackward0>)

.detach()方法:创建一个不可导的相同张量

x = torch.tensor(1., requires_grad = True)
y = x ** 2
y1 = d.detach()
z = y1 ** 2
y
# output :
tensor(1., grad_fn=<PowBackward0>)
y1
# output :
tensor(1.)
z
# output :
tensor(1.)

24.4 识别叶节点

可以使用is_leaf属性来查看张量是否是叶节点。

x.is_leaf
# output :
True
y.is_leaf
# output :
False

容易混淆的是,对于任何一个新创建的张量,无论是否可导、是否加入计算图,都可以是叶节点,这些节点距离真正的叶节点,只差一个requires_grad属性调整。

torch.tensor([1]).is_leaf
# output :
True
# 经过detach的张量,也可以是叶节点
y1
# output :
tensor(1.)
y1.is_leaf
# output :
True

25 梯度下降基本思想

有了autograd模块中各函数方法的支持,接下来,就能尝试手动构建另一个优化算法:梯度下降算法。

25.1 最小二乘法的局限与优化

在上节中,我们尝试使用最小二乘法求解简单线性回归的目标函数,并顺利的求得了全域最优解。但正如上节所说,在所有的优化算法中最小二乘法虽然高效并且结果精确,但也有不完美的地方,核心就在于最小二乘法的使用条件较为苛刻,要求特征张量的交叉乘积结果必须是满秩矩阵,才能进行求解。而在实际情况中,很多数据的特征张量并不能满足条件,此时就无法使用最小二乘法进行求解。

最小二乘法结果:
w ^ T = ( X T X ) − 1 X T y \hat w ^T = (X^TX)^{-1}X^Ty w^T=(XTX)1XTy
当最小二乘法失效的情况时,其实往往也就代表原目标函数没有最优解或最优解不唯一。针对这样的情况,有很多中解决方案,例如,我们可以在原矩阵方程中加入一个扰动项 λ I \lambda I λI,修改后表达式如下:
w ^ T ∗ = ( X T X + λ I ) − 1 X T y \hat w ^{T*} = (X^TX + \lambda I)^{-1}X^Ty w^T=(XTX+λI)1XTy
其中, λ \lambda λ是扰动项系数, I I I是单元矩阵。由矩阵性质可知,加入单位矩阵后, ( X T X + λ I ) (X^TX + \lambda I) (XTX+λI)部分一定可逆,而后即可直接求解 w ^ T ∗ \hat w^{T*} w^T,这也就是岭回归的一般做法。

当然,上式修改后求得的结果就不再是全域最小值,而是一个接近最小值的点。鉴于许多目标函数本身也并不存在最小值或者唯一最小值,在优化的过程中略有偏差也是可以接受的。当然,伴随着深度学习的逐渐深入,我们会发现,最小值并不唯一存在才是目标函数的常态。基于此情况,很多根据等式形变得到的精确的求解析解的优化方法(如最小二乘)就无法适用,此时我们需要寻找一种更加通用的,能够高效、快速逼近目标函数优化目标的最优化方法。在机器学习领域,最通用的求解目标函数的最优化方法就是著名的梯度下降算法

值得一提的是,我们通常指的梯度下降算法,并不是某一个算法,而是某一类依照梯度下降基本理论基础展开的算法簇,包括梯度下降算法、随机梯度下降算法、小批量梯度下降算法等等。接下来,我们就从最简单的梯度下降入手,讲解梯度下降的核心思想和一般使用方法。


25.2 梯度下降核心思想

梯度下降的基本思想其实并不复杂,其核心是通过数学意义上的迭代运算,从一个随机点除法,一步步逼近最优解。

例如,在上节求解简单线性回归方程的过程中,我们曾查看SSE的三维函数图像如下:

在这里插入图片描述

而梯度下降,作为最优化算法,核心目标也是找到或者逼近最小值点,其基本过程:

  • 在目标函数上随机找到一个初始点
  • 通过迭代运算,一步步逼近最小值点

数学意义上的迭代运算,指的是上一次计算的结果作为下一次运算的初始条件带入运算


25.3 梯度下降的方向和步长

当然,梯度下降的基本思想好理解,但实现起来并不容易(这也是大多数机器学习算法的常态)。

在实际沿着目标函数下降的过程中,我们核心需要解决两个问题,其一是往哪个方向走,其二是每一步走多远

以上述简单线性回归的目标函数为例,在三维空间中,目标函数上的每个点理论上都有无数个移动的方向,每次移动多远的物理距离也没有明显的约束,而这些梯度下降算法核心需要解决的问题,也就是所谓的方向和步长

首先是关于方向的讨论,梯度下降是采用了一种局部最优推导全域最优的思路,我们首先是希望能够找到让目标函数变化最快的方向作为移动的方向,而这个方向就是梯度


导数与梯度

函数上某一点的导数值的几何含义就是函数在该点上切线的斜率。

例如y = x2中,x在1点处的导数就是函数在1点处的切线斜率

from matplotlib import pyplot as plt
x = np.arange(-10,10,0.1)
y = x ** 2                          # y = 2x
z = 2 * x - 1                       # 在(1,1)点的切线方程
plt.plot(x, y, '-')
plt.plot(x, z, 'r-')
plt.plot(1, 1, 'bo')
plt.show()
# output :

在这里插入图片描述

梯度的值(grad)和导数相同,而梯度的概念可以视为导数概念的延申,只不过梯度更侧重方向的概念,也就是从梯度角度解读导数值,就代表着当前这个点是可以使y值增加最快的移动方向。

梯度的正方向表示函数值增长最快的方向,负方向表示函数减少最快的方向


梯度与方向

为了更好解读梯度与方向之间的关系,以上节中简单线性回归损失函数为例进行查看。

我们有目标函数及其图像如下:
S S E ( a , b ) = ( 2 − a − b ) 2 + ( 4 − 3 a − b ) 2 SSE_{(a, b)} = (2 - a - b)^2 + (4 - 3a - b)^2 SSE(a,b)=(2ab)2+(43ab)2

fig = plt.figure()  
ax = plt.axes(projection='3d')
ax.plot_surface(a, b, SSE, cmap='rainbow')
ax.contour(a, b, SSE, zdir='z', offset=0, cmap="rainbow")  #生成z方向投影,投到x-y平面
plt.show()
# output :

在这里插入图片描述

此时a、b是在实数域上取值。假设二者初始值为0,也就是初始随机点为原点。

对于(0, 0),有梯度计算如下

a = torch.tensor(0., requires_grad = True)
a
# output :
tensor(0., requires_grad=True)
b = torch.tensor(0., requires_grad = True)
b
# output :
tensor(0., requires_grad=True)
s0 = torch.pow((2 - a - b), 2) + torch.pow((4 - 3 * a - b), 2)
s0
# output :
tensor(20., grad_fn=<AddBackward0>)
s0.backward()
a.grad, b.grad
# output :
(tensor(-28.), tensor(-12.))

也就是原点和(-28, -12)这个点之间连成的直线的方向,就是能够使得SSE变化最快的方向。

并且朝向(-28, -12)方向就是使得SSE增加最快的方向,反方向则是令SSE减少最快的方向。

在二元函数中,某点(x, y)与该点所对应的导数值(x1, y1)连成的方向就是导数方向。

# 通过绘制直线,确定原点的移动方向
x = np.arange(-30,30,0.1)
y = (12/28) * x                     
plt.plot(x, y, '-')
plt.plot(0, 0, 'ro')
plt.plot(-28, -12, 'ro')
# output :

在这里插入图片描述

这里有关于方向的两点讨论:

  • 方向没有大小,当我们说朝着(-28, -12)方向移动,只是说沿着直线移动,并非一步移动到(-28, -12)上。
  • 方向跟随梯度随时在变化。而且一旦点发生移动,梯度就会随之发生变化,也就是说,哪怕是沿着让sse变化最快的方向移动,一旦沿着方向移动了一小步,这个方向就不再是最优方向了。

当然,逆梯度值的方向变化是使得sse变小的最快方向,我们尝试移动“一小步”。一步移动到(28,12)是没有意义的,梯度各分量数值的绝对值本身也没有距离这个层面的数学含义。由于a和b的取值要按照(28,12)等比例变化,因此我们不妨采用如下方法进行移动:
[ 0 0 ] + 0.01 ∗ [ 28 12 ] = [ 0.28 0.12 ] \left [\begin{array}{cccc} 0 \\ 0 \\ \end{array}\right] + 0.01 * \left [\begin{array}{cccc} 28 \\ 12 \\ \end{array}\right] = \left [\begin{array}{cccc} 0.28 \\ 0.12 \\ \end{array}\right] [00]+0.01[2812]=[0.280.12]

s0
# output :
tensor(20., grad_fn=<AddBackward0>)
a = torch.tensor(0.28, requires_grad = True)
b = torch.tensor(0.12, requires_grad = True)
s1 = (2 - a - b) ** 2 + (4 - 3 * a - b) ** 2
s1
# output :
tensor(11.8016, grad_fn=<AddBackward0>)

确实有所下降,继续求解新的点的梯度

s1.backward()
a.grad, b.grad
# output :
(tensor(-21.4400), tensor(-9.2800))

不难看出,方向已经发生变化。其实无论移动“多小”一步,只要移动,方向就需要重新计算。如果每个点的梯度提供了移动方向的最优解,那移动多长,其实并没有统一的规定。这里,我们将上述0.01称作学习率,而学习率乘以梯度,则是原点移动的“长度”

当然,在移动到(0.28,0.12)之后,还没有取到全域最优解,因此还需要继续移动,当然我们还可以继续按照0.01这个学习率继续移动,此时,新的梯度为(-21.44,-9.28),则有
[ 0.28 0.12 ] + 0.01 ∗ [ 21.44 9.28 ] = [ 0.4944 0.2128 ] \left [\begin{array}{cccc} 0.28 \\ 0.12 \\ \end{array}\right] + 0.01 * \left [\begin{array}{cccc} 21.44 \\ 9.28 \\ \end{array}\right] = \left [\begin{array}{cccc} 0.4944 \\ 0.2128 \\ \end{array}\right] [0.280.12]+0.01[21.449.28]=[0.49440.2128]
接下来,我们可以继续计算新的(0.94,0.148)这个点的梯度,然后继续按照学习率0.01继续移动,在移动若干次之后,就将得到非常接近于(1,1)的结果。


26 梯度下降的数学表示

26.1 梯度下降的代数表示

根据上述描述过程,我们可以通过代数运算方式总结梯度下降运算的一般过程

令多元线性回归方程为
f ( x ) = w 1 x 1 + w 2 x 2 + . . . + w d x d + b f(x) = w_1x_1+w_2x_2+...+w_dx_d+b f(x)=w1x1+w2x2+...+wdxd+b

w = ( w 1 , w 2 , . . . , w d , b ) w = (w_1,w_2,...,w_d,b) w=(w1,w2,...,wd,b)

x = ( x 1 , x 2 , . . . , x d , 1 ) x = (x_1,x_2,...,x_d,1) x=(x1,x2,...,xd,1)

出于加快迭代收敛速度的目标,我们在定义梯度下降的损失函数L时,在原SSE基础上进行比例修正,新的损失函数 L ( w 1 , w 2 , . . . , w d , b ) = 1 2 m S S E L(w_1,w_2,...,w_d,b) = \frac{1}{2m}SSE L(w1,w2,...,wd,b)=2m1SSE,其中,m为样本个数。

损失函数有:
L ( w 1 , w 2 , . . . , w d , b ) = 1 2 m ∑ j = 0 m ( f ( x 1 ( j ) , x 2 ( j ) , . . . 1 ) − y j ) 2 L(w_1,w_2,...,w_d,b) = \frac{1}{2m}\sum_{j=0}^{m}(f(x_1^{(j)}, x_2^{(j)}, ...1) - y_j)^2 L(w1,w2,...,wd,b)=2m1j=0m(f(x1(j),x2(j),...1)yj)2
并且,根据此前描述过程,在开始梯度下降求解参数之前,我们首先需要设置一组参数的初始取值 ( w 1 , w 2 . . . , w d , b ) (w_1, w_2..., w_d, b) (w1,w2...,wd,b),以及学习率 α \alpha α,然后即可执行迭代运算,其中每一轮迭代过程需要执行以下三步

Step 1.计算梯度表达式

对于任意一个参数 w i w_i wi,其梯度计算表达式如下:
∂ ∂ w i L ( w 1 , w 2 . . . , w d , b ) \frac{\partial}{\partial w_i}L(w_1, w_2..., w_d, b) wiL(w1,w2...,wd,b)
Step 2.用学习率乘以损失函数梯度,得到迭代移动距离
α ∂ ∂ w i L ( w 1 , w 2 . . . , w d , b ) \alpha \frac{\partial}{\partial w_i}L(w_1, w_2..., w_d, b) αwiL(w1,w2...,wd,b)
Step 3.用原参数减Step 2中计算得到的距离,更新所有的参数w
w i = w i − α ∂ ∂ w i L ( w 1 , w 2 . . . , w d , b ) w_i = w_i - \alpha \frac{\partial}{\partial w_i}L(w_1, w_2..., w_d, b) wi=wiαwiL(w1,w2...,wd,b)
更新完所有参数,即完成了一轮的迭代,接下来就能以新的一组 w i w_i wi参与下一轮迭代。

上一轮计算结果作为下一轮计算的初始值,就是所谓的迭代。

而何时停止迭代,一般来说有两种情况,其一是设置迭代次数,到达迭代次数即停止迭代;其二则是设置收敛区间,即当某两次迭代过程中,每个 w i w_i wi更新的数值都小于某个预设的值,则停止迭代。


26.2 再次理解步长

根据梯度下降的线性代数表示方法,我们可以通过某个实例来强化理解步长这一概念。

有数据集表示如下:

xy
12
24
36

假设,我们使用 y = w x y = wx y=wx进行拟合,则SSE为
S S E = ( 2 − 1 ∗ w ) 2 + ( 4 − 2 ∗ w ) 2 + ( 6 − 3 ∗ w ) 2 = w 2 − 4 w + 4 + 4 w 2 − 16 w + 16 + 9 w 2 − 36 w + 36 = 14 w 2 − 56 w + 56 = 14 ( w 2 − 4 w + 4 ) \begin{align} SSE & = (2-1*w)^2 + (4-2*w)^2 + (6-3*w)^2 \\ & = w^2-4w+4+4w^2-16w+16+9w^2-36w+36 \\ & = 14w^2-56w+56 \\ & = 14(w^2-4w+4) \end{align} SSE=(21w)2+(42w)2+(63w)2=w24w+4+4w216w+16+9w236w+36=14w256w+56=14(w24w+4)
此时,SSE就是一个关于w的一元函数。当使用最小二乘法进行求解时,SSE就是损失函数,并且SSE对于w求导为0的点就是最小值点,因此有:
∂ S S E ( a ) ∂ ( a ) = 14 ( 2 w − 4 ) = 28 ( w − 2 ) = 0 \begin{align} \frac{\partial{SSE_{(a)}}}{\partial{(a)}} & = 14(2w-4)\\ & = 28(w-2) \\ & = 0 \end{align} (a)SSE(a)=14(2w4)=28(w2)=0

w = 2 w=2 w=2

但我们使用梯度下降求解时
g r a d ∗ = ∂ S S E ( a ) ∂ ( a ) = 14 ( 2 w − 4 ) = 28 ( w − 2 ) \begin{align} grad^* & = \frac{\partial{SSE_{(a)}}}{\partial{(a)}} \\ & = 14(2w-4) \\ & = 28(w-2) \\ \end{align} grad=(a)SSE(a)=14(2w4)=28(w2)
由于梯度表示方向,在某些情况下我们可以对其绝对数值进行一定程度上的“缩放”,此时我们规定有效梯度是原梯度的1/28,则有
g r a d = w − 2 grad = w-2 grad=w2
设步长$\alpha= 0.5 ,初始值点取为 0.5,初始值点取为 0.5,初始值点取为w_0=0$,则迭代过程如下:

第一轮迭代:
g r a d ( w 0 ) = g r a d ( 0 ) = − 2 , w 0 = 0 , w 1 = w 0 − α ∗ g r a d ( w 0 ) = 0 − 1 2 ( − 2 ) = 1 grad(w_0)=grad(0)=-2,w_0=0,w_1=w_0-\alpha*grad(w_0)=0-\frac{1}{2}(-2)=1 grad(w0)=grad(0)=2,w0=0,w1=w0αgrad(w0)=021(2)=1
第二轮迭代:
g r a d ( w 1 ) = g r a d ( 1 ) = − 1 , w 1 = 1 , w 2 = w 1 − α ∗ g r a d ( w 1 ) = 1 − 1 2 ( − 1 ) = 3 2 grad(w_1)=grad(1)=-1,w_1=1,w_2=w_1-\alpha*grad(w_1)=1-\frac{1}{2}(-1)=\frac{3}{2} grad(w1)=grad(1)=1,w1=1,w2=w1αgrad(w1)=121(1)=23
第三轮迭代:
g r a d ( w 2 ) = g r a d ( 3 2 ) = − 1 2 , w 2 = 3 2 , w 3 = w 2 − α ∗ g r a d ( w 2 ) = 3 2 − 1 2 ( − 1 2 ) = 7 4 grad(w_2)=grad(\frac{3}{2})=-\frac{1}{2},w_2=\frac{3}{2},w_3=w_2-\alpha*grad(w_2)=\frac{3}{2}-\frac{1}{2}(-\frac{1}{2})=\frac{7}{4} grad(w2)=grad(23)=21,w2=23,w3=w2αgrad(w2)=2321(21)=47
第四轮迭代:
g r a d ( w 3 ) = g r a d ( 7 4 ) = − 1 4 , w 3 = 7 4 , w 4 = w 3 − α ∗ g r a d ( w 3 ) = 7 4 − 1 2 ( − 1 4 ) = 15 8 grad(w_3)=grad(\frac{7}{4})=-\frac{1}{4},w_3=\frac{7}{4},w_4=w_3-\alpha*grad(w_3)=\frac{7}{4}-\frac{1}{2}(-\frac{1}{4})=\frac{15}{8} grad(w3)=grad(47)=41,w3=47,w4=w3αgrad(w3)=4721(41)=815
依次类推:
w 5 = 15 8 + 1 16 = 31 16 ; w 6 = 31 16 + 1 32 = 63 32 ; w 7 = 63 32 + 1 64 = 127 64 ; . . . w_5 = \frac{15}{8}+\frac{1}{16} = \frac{31}{16}; w_6 = \frac{31}{16}+\frac{1}{32} = \frac{63}{32}; w_7 = \frac{63}{32}+\frac{1}{64} = \frac{127}{64}; ... w5=815+161=1631;w6=1631+321=3263;w7=3263+641=64127;...

w n = 2 n − 1 2 n − 1 = 2 − 1 2 n − 1 w_n=\frac{2^n-1}{2^{n-1}} = 2-\frac{1}{2^{n-1}} wn=2n12n1=22n11

lim ⁡ n → ∞ ( w n ) = lim ⁡ n → ∞ ( 2 − 1 2 n − 1 ) = 2 \lim_{n→\infty} (w_n) = \lim_{n→\infty} (2-\frac{1}{2^{n-1}}) = 2 nlim(wn)=nlim(22n11)=2

我们不难发现,如果损失函数是凸函数,并且全域最小值存在,则步长可以表示当前点和最小值点之间距离的比例关系。但总的来说,对于步长的设置,我们有如下初步结论:

  • 步长太短:会极大的影响迭代收敛的时间,整体计算效率会非常低;

  • 步长太长:容易跳过最优解,导致结果震荡。

    关于步长的设置,其实更多的会和实际使用情况相关,和实际损失函数特性相关,因此我们会在后续使用梯度下降求解目标函数时根据实际情况,讲解步长的实际调整策略。


26.3 梯度下降的矩阵表示

和最小二乘法一样,代数表示形式易于理解但不易与代码操作,在实际编程实现梯度下降的过程中,我们还是更倾向于使用矩阵来表示梯度下降计算过程。
f ( x ) = w 1 x 1 + w 2 x 2 + . . . + w d x d + b f(x) = w_1x_1+w_2x_2+...+w_dx_d+b f(x)=w1x1+w2x2+...+wdxd+b

w ^ = ( w 1 , w 2 , . . . , w d , b ) \hat w = (w_1,w_2,...,w_d,b) w^=(w1,w2,...,wd,b)

x ^ = ( x 1 , x 2 , . . . , x d , 1 ) \hat x = (x_1,x_2,...,x_d,1) x^=(x1,x2,...,xd,1)

  • w ^ \hat w w^:方程系数所组成的向量,并且我们将自变量系数和截距放到了一个向量中,此处 w ^ \hat w w^就相当于前例中的a、b组成的向量(a,b);
  • x ^ \hat x x^:方程自变量和1共同组成的向量;

因此,方程可表示为
f ( x ) = w ^ ∗ x ^ T f(x) = \hat w * \hat x^T f(x)=w^x^T
另外,我们将所有自变量的值放在一个矩阵中,并且和此前A矩阵类似,为了捕捉截距,添加一列全为1的列在矩阵的末尾,设总共有m组取值,则
X = [ x 11 x 12 . . . x 1 d 1 x 21 x 22 . . . x 2 d 1 . . . . . . . . . . . . 1 x m 1 x 12 . . . x m d 1 ] X = \left [\begin{array}{cccc} x_{11} &x_{12} &... &x_{1d} &1 \\ x_{21} &x_{22} &... &x_{2d} &1 \\ ... &... &... &... &1 \\ x_{m1} &x_{12} &... &x_{md} &1 \\ \end{array}\right] X= x11x21...xm1x12x22...x12............x1dx2d...xmd1111
对应到前例中的A矩阵,A矩阵就是拥有一个自变量、两个取值的X矩阵。令y为自变量的取值,则有
y = [ y 1 y 2 . . . y m ] y = \left [\begin{array}{cccc} y_1 \\ y_2 \\ . \\ . \\ . \\ y_m \\ \end{array}\right] y= y1y2...ym
此时,SSE可表示为:
S S E = ∣ ∣ y − X w ^ T ∣ ∣ 2 2 = ( y − X w ^ T ) T ( y − X w ^ T ) = E ( w ^ ) SSE = ||y - X\hat w^T||_2^2 = (y - X\hat w^T)^T(y - X\hat w^T) = E(\hat w) SSE=∣∣yXw^T22=(yXw^T)T(yXw^T)=E(w^)
梯度下降损失函数为:
L ( w ^ ) = 1 2 m S S E = 1 2 m ( y − X w ^ T ) T ( y − X w ^ T ) L(\hat w) = \frac{1}{2m} SSE =\frac{1}{2m} (y - X\hat w^T)^T(y - X\hat w^T) L(w^)=2m1SSE=2m1(yXw^T)T(yXw^T)
同样,我们需要设置初始化参数 ( w 1 , w 2 . . . , w d , b ) (w_1, w_2..., w_d, b) (w1,w2...,wd,b),以及学习率 α \alpha α,然后即可开始执行迭代过程,同样,每一轮迭代需要有三步计算:

Step 1.计算梯度表达式

对于参数向量 w ^ \hat w w^,其梯度计算表达式如下:
∂ ∂ w ^ L ( w ^ ) = 1 m X T ( X w ^ T − Y ) \frac{\partial}{\partial \hat w}L(\hat w) = \frac{1}{m}X^T(X\hat w ^T - Y) w^L(w^)=m1XT(Xw^TY)
Step 2.用学习率乘以损失函数梯度,得到迭代移动距离
α ∂ ∂ w ^ L ( w ^ ) \alpha \frac{\partial}{\partial \hat w}L(\hat w) αw^L(w^)
Step 3.用原参数减Step 2中计算得到的距离,更新所有的参数w
w ^ = w ^ − α ∂ ∂ w ^ L ( w ^ ) = w ^ − α m X T ( X w ^ T − Y ) \hat w = \hat w - \alpha \frac{\partial}{\partial \hat w}L(\hat w) = \hat w - \frac{\alpha}{m}X^T(X\hat w ^T - Y) w^=w^αw^L(w^)=w^mαXT(Xw^TY)
更新完所有参数,即完成了一轮的迭代,接下来就能以新的 w ^ \hat w w^参与下一轮迭代。


27 手动实现梯度下降

接下来,我们使用上述矩阵表示的梯度下降公式,围绕此前的简单线性回归的目标函数,利用此前介绍的AutoGrad模块中的梯度计算功能,来进行手动求解梯度下降。
1 ∗ a + b = 2 1*a + b = 2 1a+b=2

3 ∗ a + b = 4 3*a + b = 4 3a+b=4

在转化为矩阵表示的过程中,我们令
X = [ 1 1 3 1 ] X = \left [\begin{array}{cccc} 1 &1 \\ 3 &1 \\ \end{array}\right] X=[1311]

y = [ 2 4 ] y = \left [\begin{array}{cccc} 2 \\ 4 \\ \end{array}\right] y=[24]

w ^ = [ a b ] \hat w = \left [\begin{array}{cccc} a \\ b \\ \end{array}\right] w^=[ab]


手动尝试实现一轮迭代

# 设置初始参数
weights = torch.zeros(2, 1, requires_grad = True)
# 特征张量
X = torch.tensor([[1.,1],[3, 1]], requires_grad = True)

y = torch.tensor([2.,4], requires_grad = True).reshape(2,1)
# 设置步长
eps = torch.tensor(0.01, requires_grad = True)
# 梯度计算公式
grad = torch.mm(X.t(), (torch.mm(X, weights) - y))/2
grad
# output :
tensor([[-7.],
        [-3.]], grad_fn=<DivBackward0>)

注意对比代数方程计算结果,初始梯度为(-28,-12),此处相差4,也就是2m,m是样本个数。

weights = weights - eps * grad
weights
tensor([[0.0700],
        [0.0300]], grad_fn=<SubBackward0>)

迭代三轮

for k in range(3):
    grad = torch.mm(X.t(), (torch.mm(X, weights) - y))/2
    weights = weights - eps * grad
weights
# output :
tensor([[0.2563],
        [0.1102]], grad_fn=<SubBackward0>)

编写函数进行迭代运算

def gradDescent(X, y, eps = torch.tensor(0.01, requires_grad = True), numIt = 1000):
    m, n = X.shape
    weights = torch.zeros(n, 1, requires_grad = True)
    for k in range(numIt):
        grad = torch.mm(X.t(), (torch.mm(X, weights) - y))/2
        weights = weights - eps * grad
    return weights
X = torch.tensor([[1.,1],[3, 1]], requires_grad = True)
X
# output :
tensor([[1., 1.],
        [3., 1.]], requires_grad=True)
y = torch.tensor([2.,4], requires_grad = True).reshape(2,1)
y
# output :
tensor([[2.],
        [4.]], grad_fn=<ViewBackward>)
gradDescent(X, y)
# output :
tensor([[1.0372],
        [0.9102]], grad_fn=<SubBackward0>)
weights = gradDescent(X, y, numIt = 10000)
weights
# output :
tensor([[1.0000],
        [1.0000]], grad_fn=<SubBackward0>)

S S E = ( y − X w ^ T ) T ( y − X w ^ T ) SSE =(y - X\hat w^T)^T(y - X\hat w^T) SSE=(yXw^T)T(yXw^T)

torch.mm((torch.mm(X,weights)-y).t(), torch.mm(X,weights)-y)
# output :
tensor([[2.8518e-10]], grad_fn=<MmBackward>)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2281748.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

gitlab使用多数据库

1. 说明 默认情况下&#xff0c;GitLab 使用一个单一的应用数据库&#xff0c;称为主数据库。为了扩展 GitLab&#xff0c;您可以将 GitLab 配置为使用多个应用数据库。 设置多个数据库后&#xff0c;GitLab 将使用第二个应用数据库用于 CI/CD 功能&#xff0c;称为 CI 数据库…

Docker网段和服务器ip冲突导致无法访问网络的解决方法

若宿主机所在网络的网段为172.[17-31].xx.xx&#xff0c;则会与Docker本身内部网络间出现冲突&#xff0c;此时需要重新配置Docker默认地址池 一&#xff1a;查看docker的默认网段 route 二&#xff1a;修改docker的默认网段 etc/docker/daemon.json文件增加修改网段信息 {…

HTML<img>标签

例子 如何插入图片&#xff1a; <img src"img_girl.jpg" alt"Girl in a jacket" width"500" height"600"> 下面有更多“自己尝试”的示例。 定义和用法 该<img>标签用于在 HTML 页面中嵌入图像。 从技术上讲&#x…

leetcode_3092. 最高频率的 ID

https://leetcode.cn/problems/most-frequent-ids/description/ 看到这个数据范围 最极端情况 如果nums全为一个数 并且数量取到最大 那么范围是10的10次方 需要longlong储存 这题主要运用了哈希表配合multiset实现 哈希表主要用作存储某个数的出现次数 mst则用于记录出现次…

01学习nodejs的准备工作

01学习nodejs的准备工作 1.回顾与思考1.1为什么JavaScript可以在浏览器中被执行1.2为什么JavaScript可以操作DOM和BOM&#xff1f;1.3浏览器中的JavaScript运行环境1.4JavaScript 能否做后端开发 2.Nodejs简介2.1什么是nodejs2.2 Node.js中的 JavaScript 运行环境2.3 Node.js可…

2024年度总结-CSDN

2024年CSDN年度总结 Author&#xff1a;OnceDay Date&#xff1a;2025年1月21日 一位热衷于Linux学习和开发的菜鸟&#xff0c;试图谱写一场冒险之旅&#xff0c;也许终点只是一场白日梦… 漫漫长路&#xff0c;有人对你微笑过嘛… 文章目录 2024年CSDN年度总结1. 整体回顾2…

2024年度技术总结——MCU与MEMS和TOF应用实践

引言 2024年对我来说是技术成长与突破的一年。在这一年里&#xff0c;我不仅在技术领域拓展了深度和广度&#xff0c;还通过与客户合作的实际项目&#xff0c;成功实现了从单一MCU到MCU、MEMS与TOF技术融合的跨越。这一过程中&#xff0c;我深刻认识到&#xff0c;技术的进步不…

五、深入了解IoC

IoC控制反转&#xff0c;就是将对象的控制权交给Spring的IOC容器&#xff0c;由IOC容器创建及管理对象。也就是bean的存储。 5.1Bean的存储 共有两类注解类型可以实现&#xff1a; 1.类注解&#xff1a;Controller、Service、Repository、Component、Configuration. 2.方法注…

python-leetcode-有效的字母异位词

242. 有效的字母异位词 - 力扣&#xff08;LeetCode&#xff09; class Solution:def isAnagram(self, s: str, t: str) -> bool:return sorted(s) sorted(t)

RHCE实验详解

目录 实验分析 环境拓扑结构 项目需求 主机环境描述 实验步骤 一、密钥互信和主机名更改 二、DNS 三、NGINX 四、MARIADB 五、NFS 六、NTP 七、论坛服务 结果展示及痛点解答 实验分析 环境拓扑结构 项目需求 1. 172.25.250.101 主机上的 Web 服务要求提供 www.ex…

【Unity】ScrollViewContent适配问题(Contentsizefilter不刷新、ContentSizeFilter失效问题)

最近做了一个项目&#xff0c;菜单栏读取数据后自动生成&#xff0c;结果用到了双重布局 父物体 尝试了很多方式&#xff0c;也看过很多大佬的文章&#xff0c;后来自己琢磨了一下&#xff0c;当子物体组件自动生成之后&#xff0c;使用以下以下代码效果会好一些&#xff1a; …

linux如何修改密码,要在CentOS 7系统中修改密码

要在CentOS 7系统中修改密码&#xff0c;你可以按照以下步骤操作&#xff1a; 步骤 1: 登录到系统 在登录提示符 localhost login: 后输入你的用户名。输入密码并按回车键。 步骤 2: 修改密码 登录后&#xff0c;使用 passwd 命令来修改密码&#xff1a; passwd 系统会提…

Qt Creator 15.0.0如何更换主题和字体

1.打开Qt Creator 15.0.0 (Community)&#xff0c; 2.点击编辑栏3.点击Preferences... 4.修改主题&#xff0c;点击环境&#xff0c;修改Theme:栏 5.修改字体大小&#xff0c;点击文本编辑器&#xff0c;修改字号栏。&#xff0c;修改Theme:栏

Java 日志技术、Logback日志框架、日志级别

一. 日志 1. 日志&#xff1a;程序中的日志&#xff0c;通常就是一个文件&#xff0c;里面记录的是程序运行过程中的各种信息。 二. 日志技术 1. 日志技术&#xff1a;可以将系统执行的信息&#xff0c;方便的记录到指定的位置(控制台、文件中、数据库中) 2. 可以随时以开关的…

【多视图学习】显式视图-标签问题:多视图聚类的多方面互补性研究

Explicit View-labels Matter:A Multifacet Complementarity Study of Multi-view Clustering TPAMI 2024 论文链接 代码链接 0.论文摘要 摘要-一致性和互补性是促进多视图聚类&#xff08;MVC&#xff09;的两个关键因素。最近&#xff0c;随着流行的对比学习的引入&#…

Datax可视化工具Datax-web安装部署

文章目录 一、Datax-web官网二、Datax-web介绍 1、Datax-web概述2、架构图3、系统环境要求4、特性支持 三、安装部署 1、环境准备2、Datax-web安装包准备 一、Datax-web官网 github&#xff1a;Datax-web gitee: Datax-web 二、Datax-web介绍 1、Datax-web概述 DataX Web…

Spark Streaming编程基础

文章目录 1. 流式词频统计1.1 Spark Streaming编程步骤1.2 流式词频统计项目1.2.1 创建项目1.2.2 添加项目依赖1.2.3 修改源目录1.2.4 添加scala-sdk库1.2.5 创建日志属性文件 1.3 创建词频统计对象1.4 利用nc发送数据1.5 启动应用&#xff0c;查看结果 2. 编程模型的基本概念3…

最新-CentOS 7 基于1 Panel面板安装 JumpServer 堡垒机

CentOS 7 基于1 Panel面板安装 JumpServer 堡垒机 一、前言二、设备要求三、环境要求四、安装4.1 环境安装4.2 JumpServer安装4.3 访问JumpServerWeb端&#xff0c;进行登录 五、登录Web控制台 一、前言 JumpServer是广受欢迎的开源堡垒机。运维必备神器&#xff01;JumpServe…

【电脑无法通过鼠标和键盘唤醒应该怎么办】

【电脑无法通过鼠标和键盘唤醒应该怎么办】 方法一(有时候不起作用):方法二(方法一无效时,使用方法二): 方法一(有时候不起作用): 方法二(方法一无效时,使用方法二):