线性代数|机器学习-P24加速梯度下降(动量法)

news2024/11/14 3:31:01

文章目录

  • 1. 概述
  • 2. 引入
  • 3. 动量法梯度下降

1. 概述

我们之前学的最速梯度下降[线搜索方法] 公式如下:
x k + 1 = x k − s k ∇ f ( x k ) \begin{equation} x_{k+1}=x_k-s_k\nabla f(x_k) \end{equation} xk+1=xkskf(xk)
但对于这种方法来说,步长 s k s_k sk 的选择是固定的,因为模型的参数太大,其损失函数具有不确定性,这样我们很难选择合适的步长 s k s_k sk

  • 当我们的步长 s k s_k sk太小,会导致需要很长的时间才能够找到极小值点或者最小值点
  • 当我们的步长 s k s_k sk太大,会导致我们迭代的点 P k + 1 P_{k+1} Pk+1在目标点 P ∗ P^* P附件来回跳动。无法收敛。

根据上面的问题,我们今天研究下加速梯度下降的两种方法:

  • Momentum 动量梯度下降法[这节主要内容]
  • Nesterov 法[Momentum的变种]
  • SGD[Stochastic gradient descent]随机梯度下降法
  • mini-batch SGD [小批量随机梯度下降]

2. 引入

假设我们有如下函数 f ( x ) f(x) f(x)
f ( x ) = 1 2 X T S X = 1 2 ( x 2 + b y 2 ) , X = [ x y ] S = [ 1 0 0 b ] \begin{equation} f(x)=\frac{1}{2}X^TSX=\frac{1}{2}(x^2+by^2),X=\begin{bmatrix}x\\\\y\end{bmatrix}S=\begin{bmatrix}1&0\\\\0&b\end{bmatrix} \end{equation} f(x)=21XTSX=21(x2+by2),X= xy S= 100b

  • 一次导数和二次导数如下:
    ∇ f ( x ) = ∂ 1 2 X T S X ∂ X = S X = [ x b y ] ; ∇ 2 f ( x ) = S = [ 1 0 0 b ] \begin{equation} \nabla f(x)=\frac{\partial \frac{1}{2}X^TSX}{\partial X}=SX=\begin{bmatrix}x\\\\by\end{bmatrix};\nabla^2 f(x)=S=\begin{bmatrix}1&0\\\\0&b\end{bmatrix} \end{equation} f(x)=X21XTSX=SX= xby 2f(x)=S= 100b
  • 通过上面的函数可以看出,我们每次求的值可以表示如下:
    f ( x ) = 1 2 ( x 2 + b y 2 ) = c \begin{equation} f(x)= \frac{1}{2}(x^2+by^2)=c \end{equation} f(x)=21(x2+by2)=c
  • 此函数为一个椭圆,也就是说,我们是在不断地寻找最小的椭圆,如图所述:

在这里插入图片描述

  • 假设我们定义初始点 p 0 = ( x 0 , y 0 ) = ( b , 1 ) p_0=(x_0,y_0)=(b,1) p0=(x0,y0)=(b,1)
  • 步长 s k = 1 x 0 + y 0 = 1 b + 1 s_k=\frac{1}{x_0+y_0}=\frac{1}{b+1} sk=x0+y01=b+11最后给出原因
    x k = b ( b − 1 b + 1 ) k , y k = ( 1 − b 1 + b ) k , f k = ( 1 − b 1 + b ) 2 k f 0 \begin{equation} x_k=b(\frac{b-1}{b+1})^k,y_k=(\frac{1-b}{1+b})^k,f_k=(\frac{1-b}{1+b})^{2k}f_0 \end{equation} xk=b(b+1b1)k,yk=(1+b1b)k,fk=(1+b1b)2kf0
  • 梯度下降图解
    第一步我们是垂直于当前点 x 1 x_1 x1的负数切线方向 ( − ∇ f ( x 1 ) ) (-\nabla f(x_1)) (f(x1))进行迭代,计算值后,到达第二个点 x 2 x_2 x2,我们再找到垂直于第二个点的负切线方向 ( − ∇ f ( x 2 ) ) (-\nabla f(x_2)) (f(x2)),这样不断地迭代,就形成了如下图所示的Z字型的锯齿状迭代方向。
    在这里插入图片描述
  • 动量变化:
    b 1 = ( 1 − b 1 + b ) 2 → b 2 = ( 1 − b 1 + b ) 2 \begin{equation} b_1= ( \frac{1-b}{1+b})^2\to b_2= ( \frac{1-\sqrt{b}}{1+\sqrt{b}})^2 \end{equation} b1=(1+b1b)2b2=(1+b 1b )2
  • 当b=1/100时,可得:
    b 1 = ( 99 101 ) 2 ; b 2 = ( 9 11 ) 2 ; → b 1 > b 2 \begin{equation} b_1=(\frac{99}{101})^2; b_2=(\frac{9}{11})^2;\to b_1>b_2 \end{equation} b1=(10199)2;b2=(119)2;b1>b2

3. 动量法梯度下降

  • 迭代方程: s k s_k sk:步长, z k z_k zk:速度, 0 < β < 1 0<\beta<1 0<β<1:惯量系数
    x k + 1 = x k − S z k ; z k = ∇ f k + β z k − 1 ; \begin{equation} \begin{align*} x_{k+1}=x_k - Sz_k;\\ z_k=\nabla f_k+\beta z_{k-1}; \end{align*} \end{equation} xk+1=xkSzkzk=fk+βzk1;

  • 我们之前算过 ∇ f k = S X \nabla f_k=SX fk=SX,将 z k z_k zk改为 z k + 1 z_{k+1} zk+1

  • 我们定义矩阵S的特征向量为q,特征值为 λ \lambda λ,整理可得:
    x k + 1 = x k − S z k ; z k + 1 − S x k + 1 = β z k ; \begin{equation} \begin{align*} x_{k+1}=x_k - Sz_k;\\ z_{k+1}-Sx_{k+1}=\beta z_{k}; \end{align*} \end{equation} xk+1=xkSzkzk+1Sxk+1=βzk;

  • 矩阵化上述公式可得:
    [ 1 0 − S 1 ] [ x k + 1 z k + 1 ] = [ 1 − S 0 β ] [ x k z k ] \begin{equation} \begin{bmatrix} 1&0\\\\ -S&1 \end{bmatrix} \begin{bmatrix} x_{k+1}\\\\ z_{k+1} \end{bmatrix}=\begin{bmatrix} 1&-S\\\\ 0&\beta \end{bmatrix} \begin{bmatrix} x_{k}\\\\ z_{k} \end{bmatrix}\end{equation} 1S01 xk+1zk+1 = 10Sβ xkzk

  • 我们可以定义如下特征值和特征向量如下:
    S q = λ q , x k = c k q , x k + 1 = c k + 1 q , z k = d k q , z k + 1 = d k + 1 q ; \begin{equation} Sq=\lambda q,x_k=c_kq,x_{k+1}=c_{k+1}q,z_k=d_kq,z_{k+1}=d_{k+1}q; \end{equation} Sq=λq,xk=ckq,xk+1=ck+1q,zk=dkq,zk+1=dk+1q;

  • 代入矩阵可得:
    [ 1 0 − S 1 ] [ c k + 1 q d k + 1 q ] = [ 1 − S 0 β ] [ c k q d k q ] \begin{equation} \begin{bmatrix} 1&0\\\\ -S&1 \end{bmatrix} \begin{bmatrix} c_{k+1}q\\\\ d_{k+1}q \end{bmatrix}=\begin{bmatrix} 1&-S\\\\ 0&\beta \end{bmatrix} \begin{bmatrix} c_kq\\\\ d_kq \end{bmatrix}\end{equation} 1S01 ck+1qdk+1q = 10Sβ ckqdkq

  • 整理可得:
    [ 1 0 − λ 1 ] [ c k + 1 d k + 1 ] = [ 1 − S 0 β ] [ c k q d k q ] \begin{equation} \begin{bmatrix} 1&0\\\\ -\lambda&1 \end{bmatrix} \begin{bmatrix} c_{k+1}\\\\ d_{k+1} \end{bmatrix}=\begin{bmatrix} 1&-S\\\\ 0&\beta \end{bmatrix} \begin{bmatrix} c_kq\\\\ d_kq \end{bmatrix}\end{equation} 1λ01 ck+1dk+1 = 10Sβ ckqdkq

  • 整理可得:
    [ c k + 1 d k + 1 ] = [ 1 0 λ 1 ] [ 1 − S 0 β ] [ c k q d k q ] \begin{equation} \begin{bmatrix} c_{k+1}\\\\ d_{k+1} \end{bmatrix}=\begin{bmatrix} 1&0\\\\ \lambda&1 \end{bmatrix}\begin{bmatrix} 1&-S\\\\ 0&\beta \end{bmatrix} \begin{bmatrix} c_kq\\\\ d_kq \end{bmatrix}\end{equation} ck+1dk+1 = 1λ01 10Sβ ckqdkq

  • 整理可得:
    [ c k + 1 d k + 1 ] = [ 1 − S λ − λ S + β ] [ c k d k ] \begin{equation} \begin{bmatrix} c_{k+1}\\\\ d_{k+1} \end{bmatrix}=\begin{bmatrix} 1&-S\\\\ \lambda&-\lambda S+\beta \end{bmatrix} \begin{bmatrix} c_k\\\\ d_k \end{bmatrix}\end{equation} ck+1dk+1 = 1λSλS+β ckdk

  • 将系数矩阵为R矩阵可得:
    [ c k + 1 d k + 1 ] = R [ c k d k ] \begin{equation} \begin{bmatrix} c_{k+1}\\\\ d_{k+1} \end{bmatrix}=R \begin{bmatrix} c_k\\\\ d_k \end{bmatrix}\end{equation} ck+1dk+1 =R ckdk R = [ 1 − S λ − λ S + β ] \begin{equation} R=\begin{bmatrix} 1&-S\\\\ \lambda&-\lambda S+\beta \end{bmatrix} \end{equation} R= 1λSλS+β

  • 综上所示,对于迭代方程来说,S, β \beta β的选择直接会影响到矩阵R的大小,我们希望的是选择合适的S, β \beta β使得矩阵R的最大的特征值尽可能达到最小,假设矩阵R的特征值为 e 1 , e 2 e_1,e_2 e1,e2,则可得如下:
    ( S , β ) = arg min ⁡ S , β { max ⁡ ( ∣ e 1 ( λ ) ∣ , ∣ e 2 ( λ ) ∣ ) } , s t : λ min ⁡ ( S ) ≤ λ ≤ λ max ⁡ ( S ) \begin{equation} (S,\beta)=\argmin\limits_{S,\beta}\{\max(|e_1(\lambda)|,|e_2(\lambda)|)\} ,st:\lambda_{\min}(S)\le\lambda\le\lambda_{\max}(S) \end{equation} (S,β)=S,βargmin{max(e1(λ),e2(λ))},st:λmin(S)λλmax(S)

  • 这里只给结论最好的 S , β S,\beta S,β,后续研究:
    s = ( 2 λ max ⁡ + λ min ⁡ ) 2 ; β = ( λ max ⁡ − λ min ⁡ λ max ⁡ + λ min ⁡ ) 2 ; \begin{equation} s=(\frac{2}{\sqrt{\lambda_{\max}}+\sqrt{\lambda_{\min}}})^2; \beta=(\frac{\sqrt{\lambda_{\max}}-\sqrt{\lambda_{\min}}}{\sqrt{\lambda_{\max}}+\sqrt{\lambda_{\min}}})^2; \end{equation} s=(λmax +λmin 2)2;β=(λmax +λmin λmax λmin )2;

  • 之前我们的函数 f ( x ) = 1 2 X T S X = 1 2 ( x 2 + b y 2 ) f(x)=\frac{1}{2}X^TSX=\frac{1}{2}(x^2+by^2) f(x)=21XTSX=21(x2+by2)中矩阵S, b < 1
    λ max ⁡ = 1 , λ min ⁡ = b \begin{equation} \lambda_{\max}=1, \lambda_{\min}=b \end{equation} λmax=1,λmin=b

  • 代入可得:
    s = ( 2 1 + b ) 2 ; β = ( 1 − b 1 + b ) 2 ; \begin{equation} s=(\frac{2}{1+b})^2; \beta=(\frac{1-\sqrt{b}}{1+\sqrt{b}})^2; \end{equation} s=(1+b2)2;β=(1+b 1b )2;

  • 我们来看之前的梯度下降Ordinary descent factor
    β 1 = ( 1 − b 1 + b ) 2 ; \begin{equation} \beta_1=(\frac{1-b}{1+b})^2; \end{equation} β1=(1+b1b)2;

  • 动量法梯度下降 Accelerated descent factor
    β 2 = ( 1 − b 1 + b ) 2 ; \begin{equation} \beta_2=(\frac{1-\sqrt{b}}{1+\sqrt{b}})^2; \end{equation} β2=(1+b 1b )2;

  • 也就是当同等b时,动量法给的值更好!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1927353.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

debian固定ip

debian固定ip 前言 安装好的Debian系统后&#xff0c;为了确保每次登陆的ip不变&#xff0c;需要固定 方法 命令如下 ip addr | grep inet因为有有线网和无线网 2 种连接方式&#xff0c;因此需要区别。 其中 enp 的是有线&#xff0c;wlp 的是无线 查看网关 IP 命令如下 …

蓝牙BLE广播

这里只讨论蓝牙BLE广播 这部分可以看蓝牙标准Core Specification V5.3的卷3 Host part C。当然广播参数那一块和“控制器”层有关&#xff0c;只需要了解广播参数的含义和设置方法就行&#xff0c;控制器的细节不太容易理解。 主要目标 广播参数&#xff08;广播间隔、TX 功…

MySQL学习记录 —— 이십일 MySQL服务器配置与管理(1)

文章目录 1、配置和默认值2、系统变量和选项1、介绍2、常用选项3、使用系统变量 3、常用服务器配置4、查看状态变量5、MySQL数据目录 mysql的服务端就是mysqld&#xff0c;d就是daemon&#xff0c;守护进程的意思。 配置文件中[mysqld]部分时服务器支持的启动选项。服务器的部…

flv文件转换成mp4?这四种转换方法肯定可以帮到你!

flv文件转换成mp4&#xff1f;FLV格式曾一度以其独特的地位&#xff0c;为视频传输领域注入了新的活力&#xff0c;然而&#xff0c;随着时间的流逝和技术的进步&#xff0c;这种格式也出现了很多问题&#xff0c;其最大的困扰在于兼容性的局限&#xff0c;尽管在某些特定场合下…

客户管理必备:快速学会群发微信信息新技能!

当我们用微信向客户传递祝福、福利等重要信息时&#xff0c;随着微信好友人数不断增加&#xff0c;在微信里挑选好友发送信息&#xff0c;既费时又费力&#xff0c;还容易因个人疏忽导致重要客户遗漏。 为了有效地解决上述问题&#xff0c;企业可以借助微信管理系统中群发管理功…

卸载wps office的几种方法收录

​ 第一种方法: 1.打开【任务管理器】&#xff0c;找到相关程序&#xff0c;点击【结束任务】。任务管理器可以通过左下角搜索找到。 2.点击【开始】&#xff0d;【设置】&#xff0d;【应用】&#xff0d;下拉找到WPS应用&#xff0c;右键卸载&#xff0c;不保留软件配置 …

不会用电子商务知识库?五项基本方法让你业务增长100%

电子商务公司正努力增加利润并减少支出。该行业正在不断发展&#xff0c;预计到 2040 年&#xff0c;95% 的所有购买行为都将通过电子商务进行。话虽如此&#xff0c;竞争依然激烈——95% 的客户表示&#xff0c;客户服务是决定是否与公司开展业务的关键因素。在购买过程中更快…

tomcat搭建

目录 1 Tomcat简介 2 Tomcat安装 2.1 安装JDK 2.2 安装Tomcat 3 Tomcat目录结构 3.1 tomcat主目录介绍 3.2 Tomcat配置文件目录介绍 3.3 Tomcat web管理功能 1 Tomcat简介 Tomcat是Apache软件基金会&#xff08;Apache Software Foundation&#xff09;的Jakarta 项目中的一个…

1985年-2020年中国历年私人汽车保有量统计报告

数据来源于国家统计局&#xff0c;为1985年到2020年中国每年私人汽车拥有量&#xff08;包括客车、货车和其他汽车&#xff09;。2020年&#xff0c;中国私人汽车拥有量为2.43亿辆。 数据统计单位为&#xff1a;万辆 数据说明&#xff1a; 私人汽车包括私人载客汽车和私人载…

如何预防最新的baxia变种勒索病毒感染您的计算机?

引言 在当今数字化时代&#xff0c;网络安全威胁层出不穷&#xff0c;其中勒索病毒已成为企业和个人面临的重大挑战之一。近期&#xff0c;.baxia勒索病毒以其高隐蔽性和破坏性引起了广泛关注。本文将详细介绍.baxia勒索病毒的特点、传播方式&#xff0c;并给出相应的应对策略…

超时导致SparkContext构造失败的问题探究

文章目录 1.前言2. 基于事故现场对问题进行分析2.1 日志分析2.2 单独测试Topology代码试图重现问题 3. 源码解析3.1 Client模式和Cluster模式下客户端的提交和启动过程客户端提交时在两种模式下的处理逻辑ApplicationMaster启动时在两种模式下的处理逻辑 3.2 两种模式下的下层角…

谷粒商城P85发布商品时规格参数不显示问题

P85讲&#xff0c;发布商品&#xff0c;点击下一步之后&#xff0c;发现规格参数不显示 打开控制台发现报错forEach...错误 查了问题原因&#xff0c;发现返回的分组中个别组的关联属性(attrs)可能为null 所以这个时候&#xff0c;需要确保后端返回的attrs不能为null 方式1…

【可视化大屏系列】Echarts之饼图绘制

本文为个人近期学习总结,若有错误之处,欢迎指出! Echarts之饼图绘制 前言1.需求2.实现效果3.大概思路4.代码实现子组件写法父组件写法5.附加(1)圆环饼图的绘制(2)南丁格尔玫瑰饼图A.半径展示数据的大小B.面积展示数据的大小前言 在前文页面布局、DataV 的使用、Echarts…

低代码:企业数字化转型的核心工具

在全球数字化浪潮风起云涌的当下&#xff0c;企业面临着前所未有的市场挑战与内部需求变化&#xff0c;急需以更快速、更灵活的方式响应。在这一关键时期&#xff0c;JNPF快速开发平台以其卓越的性能和广泛的功能覆盖&#xff0c;逐渐成为企业数字化转型的核心工具。 JNPF深度…

使用Godot4组件制作竖版太空射击游戏_2D卷轴飞机射击-最高分和数据记录(十一)

文章目录 得分界面修改数据显示数据记录资源 使用Godot4组件制作竖版太空射击游戏_2D卷轴飞机射击&#xff08;一&#xff09; 使用Godot4组件制作竖版太空射击游戏_2D卷轴飞机射击-激光组件&#xff08;二&#xff09; 使用Godot4组件制作竖版太空射击游戏_2D卷轴飞机射击-飞船…

贪心算法案例

1.买卖股票的最佳时机 给定一个数组 prices &#xff0c;它的第 i 个元素 prices[i] 表示一支给定股票第 i 天的价格。 你只能选择 某一天 买入这只股票&#xff0c;并选择在 未来的某一个不同的日子 卖出该股票。设计一个算法来计算你所能获取的最大利润。 返回你可以从这笔…

机器学习开源分子生成系列(2)-基于三维形状和静电相似性的DeepFMPO v3D安装及使用

前言 本文是基于 3D 的分子生成方法DeepFMPO v3D的介绍及安装使用。 一、DeepFMPO v3D是什么&#xff1f; github代码介绍文章 在药物发现中&#xff0c;如何寻找具新颖性和结构多样性的候选分子是颇受药物设计科学家关注的问题。通过虚拟筛选的化学空间搜索往往会受限于筛选…

嵌入式linux相机 框图

摄像头读取数据显示到LCD流程 重点&#xff1a;摄像头数据&#xff08;yuyv&#xff0c;mjpeg&#xff0c;rgb&#xff09;&#xff08;640,320&#xff09;与LCD显示数据&#xff08;RGB&#xff09;&#xff08;480&#xff0c;240&#xff09;不同&#xff1b;需要转换&…

JVM:运行时数据区

文章目录 一、总览二、程序计数器1、介绍2、程序计数器在运行中会出现内存溢出吗&#xff1f; 三、栈1、介绍2、栈帧的组成部分&#xff08;1&#xff09;局部变量表&#xff08;2&#xff09;操作数栈&#xff08;3&#xff09;帧数据&#xff08;3&#xff09;栈内存溢出&…

js中使用原型链增加方法后,遍历对象的key-value时会遍历出方法

原因&#xff1a;js使用原型链实现方法时&#xff0c;这个方法默认是可迭代的&#xff0c;所以在遍历时就会被遍历出来&#xff0c; 例&#xff1a; Array.prototype.remove function(n){return this.slice(0,n).concat(this.slice(n1,this.length));}var cc ["cccaaaa…