牛顿法、梯度下降法与拟牛顿法

news2024/9/21 19:02:31

牛顿法、梯度下降法与拟牛顿法

  • 0 引言
  • 1 关于泰勒展开式
    • 1.1 原理
    • 1.2 例子
  • 2 牛顿法
    • 2.1 x 为一维
    • 2.2 x 为多维
  • 3 梯度下降法
  • 4 拟牛顿法
    • 4.1 拟牛顿条件
    • 4.2 DFP 算法
    • 4.3 BFGS 算法
    • 4.4 L-BFGS 算法

0 引言

机器学习中在求解非线性优化问题时,常用的是梯度下降法和拟牛顿法,梯度下降法和拟牛顿法都是牛顿法的一种简化

牛顿法是在一个初始极小值点做二阶泰勒展开,然后对二阶泰勒展开式求极值点,通过迭代的方式逼近原函数极值点

在牛顿法迭代公式中,需要求二阶导数,而梯度下降法将二阶导数简化为一个固定正数方便求解

拟牛顿法也是在求解过程中做了一些简化,不用直接求二阶导数矩阵和它的逆

1 关于泰勒展开式

1.1 原理

如果我们有一个复杂函数 f ( x ) f(x) f(x), 对这个复杂函数我们想使用 n 次多项式(多项式具有好计算,易求导,且好积分等一系列的优良性质)去拟合这个函数,这时就可以对 f ( x ) f(x) f(x)进行泰勒展开,求某一点 x 0 x_0 x0附近的 n 次多项式:
在这里插入图片描述
注意:
n 次多项式只是在 x 0 x_0 x0 较小的邻域内能较好拟合 f ( x ) f(x) f(x),也就是说,泰勒展开式其实是一种局部近似的方法,只近似 x = x 0 x=x_0 x=x0那一点的函数性

1.2 例子

现在要求 f ( x ) = c o s ( x ) f(x)=cos(x) f(x)=cos(x) x 0 = 0 x_0=0 x0=0 处的二阶泰勒展开,因为我们去掉了高阶项,所以只是近似

直接套用公式
f ( x 0 ) = f ( 0 ) = c o s ( 0 ) = 1 f(x_0)=f(0)=cos(0)=1 f(x0)=f(0)=cos(0)=1
f ′ ( x 0 ) = f ′ ( 0 ) = − s i n ( 0 ) = 0 f'(x_0)=f'(0)=-sin(0)=0 f(x0)=f(0)=sin(0)=0
f ′ ′ ( x 0 ) = f ′ ′ ( 0 ) = − c o s ( 0 ) = − 1 f''(x_0)=f''(0)=-cos(0)=-1 f′′(x0)=f′′(0)=cos(0)=1
所以展开后的公式为
f ( x ) ≈ f ( x 0 ) + f ′ ( x 0 ) ∗ x + f ′ ′ ( x 0 ) ∗ x 2 / 2 = 1 − 0.5 ∗ x 2 f(x)≈f(x_0)+f'(x_0)*x+f''(x_0)*x^2/2=1-0.5*x^2 f(x)f(x0)+f(x0)x+f′′(x0)x2/2=10.5x2
在这里插入图片描述
从下方运行程序可以看出,离展开点越近的点,拟合程度越高,越远的点,越离谱
在这里插入图片描述

2 牛顿法

2.1 x 为一维

现在假设我们有目标函数 f ( x ) f(x) f(x),我们希望求此函数的极小值,牛顿法的基本思想是:随机找到一个点设为当前极值点 x k x_k xk,在这个点对 f ( x ) f(x) f(x) 做二次泰勒展开,进而找到极小点的下一个估计值。在 x k x_k xk 附近的二阶泰勒展开为:
在这里插入图片描述
现在想求 φ ( x ) \varphi(x) φ(x) 的极值点,由极值的必要条件可知, φ ( x ) \varphi(x) φ(x) 应满足导数为 0,即:
φ ′ ( x ) = 0 \varphi'(x)=0 φ(x)=0

φ ′ ( x ) = f ′ ( x k ) + f ′ ′ ( x k ) ( x − x k ) = 0 \varphi'(x)=f'(x_k)+f''(x_k)(x-x_k)=0 φ(x)=f(xk)+f′′(xk)(xxk)=0
这样就可以求得 x 的值
x = x k − f ′ ( x k ) f ′ ′ ( x k ) x=x_k-\frac{f'(x_k)}{f''(x_k)} x=xkf′′(xk)f(xk)
于是给定初始值 x 0 x_0 x0,就可以通过迭代的方式逼近 f ( x ) f(x) f(x)的极值点:
x k + 1 = x k − f ′ ( x k ) f ′ ′ ( x k ) x_{k+1}=x_k-\frac{f'(x_k)}{f''(x_k)} xk+1=xkf′′(xk)f(xk)

如下图,首先在 x n x_n xn 处泰勒展开,得到 f ( x ) f(x) f(x) 的近似函数 g n ( x ) g_n(x) gn(x) ,求得 g n ( x ) g_n(x) gn(x) 的极值点 x n + 1 x_{n+1} xn+1

随后在 x n + 1 x_{n+1} xn+1 出泰勒展开,得到 g n + 1 ( x ) g_{n+1}(x) gn+1(x) 函数,继续求 g n + 1 ( x ) g_{n+1}(x) gn+1(x) 的极值点

一直迭代最后就会逼近 f ( x ) f(x) f(x) 的极值点
在这里插入图片描述

2.2 x 为多维

上面讨论的是参数 x 为一维的情况,当 x 有多维时,二阶泰勒展开式可以做推广,此时:
φ ( x ) = f ( x k ) + ∇ f ( x k ) ∗ ( x − x k ) + 1 2 ∗ ( x − x k ) T ∗ ∇ 2 f ( x k ) ∗ ( x − x k ) \varphi(x)=f(x_k)+\nabla{f(x_k)}*(x-x_k)+ \frac{1}{2}*(x-x_k)^T*\nabla^2{f(x_k)}*(x-x_k) φ(x)=f(xk)+f(xk)(xxk)+21(xxk)T2f(xk)(xxk)
其中 ∇ f \nabla{f} f f f f 的梯度向量, ∇ 2 f \nabla^2{f} 2f f f f的海森矩阵(Hessian matrix),其定义为:
在这里插入图片描述
φ ( x ) \varphi(x) φ(x)对 x 向量求导并令其为 0 有:
∇ f ( x k ) + ∇ 2 f ( x k ) ∗ ( x − x k ) = 0 \nabla{f(x_k)}+\nabla^2{f(x_k)}*(x-x_k)=0 f(xk)+2f(xk)(xxk)=0
于是有:
x = x k − [ ∇ 2 f ( x k ) ] − 1 ∇ f ( x k ) x=x_k-[\nabla^2{f(x_k)}]^{-1}\nabla{f(x_k)} x=xk[2f(xk)]1f(xk)
通过迭代的方式能找到函数的极值点
牛顿法缺点:

  • 函数必须具有一二阶偏导数,海森矩阵必须正定
  • 计算相当复杂,除梯度外还需要计算二阶偏导数和逆矩阵

3 梯度下降法

在一维牛顿法中,迭代公式为:
x k + 1 = x k − f ′ ( x k ) f ′ ′ ( x k ) x_{k+1}=x_k-\frac{f'(x_k)}{f''(x_k)} xk+1=xkf′′(xk)f(xk)
这个公式缺点:

  • 需要求二阶导数,有些函数求二阶导数之后就相当复杂了;
  • 因为 f ′ ′ ( x n ) f''(x_n) f′′(xn)的大小不定,所以 g ( x ) g(x) g(x)开口方向不定,我们无法确定最后得到的结果究竟是极大值还是极小值

为了解决这两个问题,我们放弃二阶精度,即去掉 f ′ ′ ( x n ) f''(x_n) f′′(xn),改为一个固定的正数1/h:
φ ( x ) = f ( x k ) + f ′ ( x k ) ( x − x k ) + 1 2 h ( x − x k ) 2 \varphi(x)=f(x_k)+f'(x_k)(x-x_k)+\frac{1}{2h}(x-x_k)^2 φ(x)=f(xk)+f(xk)(xxk)+2h1(xxk)2
该抛物线是一条开口向上的抛物线,通过求它的极值可以保证得到的是极小值。 φ ( x ) \varphi(x) φ(x) 的极小值点为
x k − h f ′ ( x k ) x_k-hf'(x_k) xkhf(xk)
迭代公式为
x k + 1 = x k − h f ′ ( x k ) x_{k+1} = x_k-hf'(x_k) xk+1=xkhf(xk)
对于高维空间就是
x k + 1 = x k − h ∇ ( x k ) x_{k+1} = x_k-h\nabla(x_k) xk+1=xkh(xk)

4 拟牛顿法

拟牛顿法的基本思想是:不用二阶偏导数而构造出可以近似海森矩阵的正定对称阵,在“拟牛顿”的条件下优化目标函数。不同的构造方法就产生了不同的拟牛顿法。

一些记号:
∇ f \nabla{f} f 记为 g 表示梯度, g k g_k gk表示 ∇ f ( x k ) \nabla{f(x_k)} f(xk)

∇ 2 f \nabla^2{f} 2f 海森矩阵,记为 H, K k K_k Kk表示 ∇ 2 f ( x k ) \nabla^2{f(x_k)} 2f(xk)

用 B 表示对海森矩阵 H 本身的近似,D表示对海森矩阵的逆 H − 1 H^{-1} H1的近似, 即 B ≈ H , D ≈ H − 1 B≈H, D≈H^{-1} BH,DH1

4.1 拟牛顿条件

在经过 k+1 次迭代后得到 x k + 1 x_{k+1} xk+1,此时目标函数 f ( x ) f(x) f(x) x k + 1 x_{k+1} xk+1处作泰勒二阶展开,得到:
f ( x ) ≈ f ( x k + 1 ) + ∇ f ( x k + 1 ) ∗ ( x − x k + 1 ) + 1 2 ∗ ( x − x k + 1 ) T ∗ ∇ 2 f ( x k + 1 ) ∗ ( x − x k + 1 ) f(x)≈f(x_{k+1})+\nabla{f(x_{k+1})}*(x-x_{k+1})+ \frac{1}{2}*(x-x_{k+1})^T*\nabla^2{f(x_{k+1})}*(x-x_{k+1}) f(x)f(xk+1)+f(xk+1)(xxk+1)+21(xxk+1)T2f(xk+1)(xxk+1)

两边对 x 求梯度有:
∇ f ( x ) ≈ ∇ f ( x k + 1 ) + H k + 1 ∗ ( x − x k + 1 ) (1) \nabla{f(x)} ≈ \nabla{f(x_{k+1})}+H_{k+1}*(x-x_{k+1}) \tag{1} f(x)f(xk+1)+Hk+1(xxk+1)(1)
在式(1)中取 x = x k x=x_k x=xk ,整理可得:
g k + 1 − g k ≈ H k + 1 ∗ ( x k + 1 − x k ) (2) g_{k+1}-g_{k}≈H_{k+1}*(x_{k+1}-x_k)\tag{2} gk+1gkHk+1(xk+1xk(2)
引入记号:
s k = x k + 1 − x k , y k = g k + 1 − g k s_k=x_{k+1}-x_k,y_k=g_{k+1}-g_{k} sk=xk+1xk,yk=gk+1gk
式 (2) 可以写为:
y k ≈ H k + 1 ∗ s k = > 简记为: y k ≈ B k + 1 ∗ s k y_k≈H_{k+1}*s_k =>简记为:y_k≈B_{k+1}*s_k ykHk+1sk=>简记为:ykBk+1sk
或者
s k ≈ H k + 1 − 1 ∗ g k = > 简记为: s k ≈ D k + 1 ∗ y k s_k≈H^{-1}_{k+1}*g_k=>简记为:s_k≈D_{k+1}*y_k skHk+11gk=>简记为:skDk+1yk
这就是所谓的拟牛顿条件,它对迭代过程中的海森矩阵做约束。

4.2 DFP 算法

参考:牛顿法与拟牛顿法学习笔记(三)DFP 算法

4.3 BFGS 算法

参考:牛顿法与拟牛顿法学习笔记(四)BFGS 算法

4.4 L-BFGS 算法

牛顿法与拟牛顿法学习笔记(五)L-BFGS 算法
参考:
泰勒展开式的理解
牛顿法与拟牛顿法学习笔记(一)牛顿法
梯度下降和EM算法:系出同源,一脉相承
Markdown公式、特殊字符、上下标、求和/积分、分式/根式、字体

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/440721.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据结构入门(C语言版)二叉树概念及结构(入门)

二叉树概念及结构(入门) 树的概念及结构1.树的概念及结构1.1 树的概念1.2 树的相关知识1.3 树的结构体表示1.4 树的实际运用 2.二叉树概念及结构2.1 二叉树的概念2.2 现实中的二叉树2.3 特殊的二叉树2.4 二叉树的性质2.5 二叉树的存储结构 结语 树的概念…

【SpringCloud】3、使用Nacos作为服务配置中心

1、增加 maven 依赖 <!-- SpringCloud Alibaba Nacos Config --> <dependency><groupId>com.alibaba.cloud</groupId><artifactId>spring-cloud-starter-alibaba-nacos-config</artifactId> </dependency>2、添加配置中心配置 spr…

(数字图像处理MATLAB+Python)第四章图像正交变换-第四、五节:Radon变换和小波变换

文章目录 一&#xff1a;Radon变换&#xff08;1&#xff09;Radon变换原理&#xff08;2&#xff09;Radon变换实现&#xff08;3&#xff09;Radon变换性质&#xff08;4&#xff09;Radon变换应用 二&#xff1a;小波变换&#xff08;1&#xff09;小波A&#xff1a;定义B&a…

【PyQt】PyQt5进阶——串口上位机及实时数据显示

文章目录 0 前期教程1 前言2 串口部分——QtSerialPort3 绘图部分3.1 QCustomPlot3.2 QtChart3.3 QWT3.4 Qt Designer中如何使用 参考链接 0 前期教程 【Python】PyQt5入门 1 前言 最近在用PyQt做一个串口上位机&#xff0c;需要串口通信和实时显示曲线。这里简单记录一些关键…

【已解决】最简单便捷的方法将多html合并为pdf

一、单页面转pdf 可以使用pdf24&#xff0c;https://tools.pdf24.org/zh/webpage-to-pdf。 也可以直接打印 二、多页面转pdf&#xff08;wkhtmltopdf方案&#xff09; 1、安装配置pdfkit&#xff1a;[https://blog.csdn.net/xc_zhou/article/details/80952168(https://blog.…

Charles安装及使用教程

一. 简介及安装 一、charles的使用 1.1 charles的说明 Charles其实是一款代理服务器&#xff0c;通过过将自己设置成系统&#xff08;电脑或者浏览器&#xff09;的网络访问代理服务器&#xff0c;然后截取请求和请求结果达到分析抓包的目的。该软件是用Java写的&#xff0…

Nestjs全网最佳翻译-概况-管道-Pipes

管道 带上装饰器 Injectable() 并实现了 PipeTransform 接口的类&#xff0c;就是管道。 管道有 2 个典型的应用场景&#xff1a; 数值转换&#xff1a;将输入的参数转换成目标类型&#xff0c;例如&#xff0c;string to number。 数值校验&#xff1a;对输入的参数进行校验…

cocos creator v3.6版本使用Intersection2D模块的circleCircle方法

在cocos creator v3版本中Intersection2D模块的circleCircle方法可以用来检测两个圆形是否相交 该方法可以实现的功能有&#xff1a; cocos creator吸铁石实现、cocos creator物体在固定位置吸附、cocos creator物体吸附效果、cocos creator吸铁石实现、cocos creator两个物体时…

统计软件与数据分析Lesson9----爬虫解析库Beautiful Soup

统计软件与数据分析Lesson9----爬虫解析库Beautiful Soup知识点总结 1.requests 模块1.1 查看requests功能函数1.2 发送请求1.3 传递URL参数1.4 获取响应内容 2.Beautiful Soup模块2.1 解析器2.2 对象类型2.2.1 Beautiful Soup2.2.2 标签Tag2.2.3 可遍历的字符串NavigableStrin…

Java——包含min函数的栈

题目链接 牛客在线oj题——包含min函数的栈 题目描述 定义栈的数据结构&#xff0c;请在该类型中实现一个能够得到栈中所含最小元素的 min 函数&#xff0c;输入操作时保证 pop、top 和 min 函数操作时&#xff0c;栈中一定有元素。 此栈包含的方法有&#xff1a; push(va…

SRv6实践项目(六):控制面完成链路和主机的发现

在本次实验中&#xff0c;我们需要利用ONOS完成对数据面的控制 1.使能packet的IO功能&#xff0c;验证链路发现 main.p4提供了和P4Runtime的通信的消息的定义格式&#xff0c;分别是PacketIn和PacketOut&#xff0c;他们都被加上了一个注解&#xff0c;表示这是一个控制器交互…

c++篇---缺省参数

文章目录 一、缺省参数概念二、缺省参数实例三、缺省参数声明和定义四、全缺省和半缺省 一、缺省参数概念 缺省参数 在调用该函数时&#xff0c;如果实参没有指定传内容&#xff0c;那么在函数中用形参时&#xff0c;就采用为函数参数指定的这个缺省值 但是如果在调用该函数时…

【Qt 实现一个画板,基于QWidget,可以绘制直线和矩形】

【Qt 实现一个画板&#xff0c;基于QWidget,可以绘制直线和矩形】 简介效果展示源码mainwindow.hmainwindow.cpppainterwidget.hpainterwidget.cppshape.h &#xff08;管理&#xff09;line.hline.cpprect.hrect.cpp 结 &#x1f649;&#x1f649;更多内容 点击&#xff1a;Q…

力扣sql中等篇练习(七)

力扣sql中等篇练习(七) 1 查询活跃业务 1.1 题目内容 1.1.1 基本题目信息 1.1.2 示例输入输出 1.2 示例sql语句 # Write your MySQL query statement below # 先求出所有业务的平均发生次数 SELECT t2.business_id FROM (SELECT e.*,IF(e.occurences>t1.A_NUM,1,0) tota…

【C++】vector的简化模拟实现

文章目录 1. 主要结构2. 默认成员函数3. 迭代器4. 容量相关1. size和capacity2. reserve3. resize 5. 数据访问6. 数据修改1. push_back2.pop_back3. insert4.erase5.swap6.clear 1. 主要结构 参照SGI版本的vector实现&#xff0c;使用三个指针来维护这样一段内存空间 templa…

ACL访问控制列表简介和配置演示

一.ACL功能和特点 1.功能 2.特点 二.ACL种类 1.基础ACL&#xff1a; 2.增强ACL&#xff1a; 三.配置演示 1.基础ACL&#xff1a; 2.增强ACL&#xff1a; 一.ACL功能和特点 1.功能 对感兴趣的路由 (控制层面)进行设置策略 对感兴趣的流量 (数据层面)进行设置策略 2.…

Activity启动模式的生命周期

四种启动模式 1.standard android:launchMode"standard" 默认的标准启动模式&#xff0c;每次启动当前Activity&#xff0c;任务栈中都添加一个当前Activity的实例。按返回键时&#xff0c;表现出退出多个当前Activity的现象。 MainActivityOne和MainActivityTwo都…

DPText-DETR原理及源码解读

一、原理 发展脉络&#xff1a;DETR是FACEBOOK基于transformer做检测开山之作&#xff0c;Deformable DETR加速收敛并对小目标改进&#xff0c;TESTR实现了端到端的文本检测识别&#xff0c;DPText-DETR做了精度更高的文字检测。 DETR 2020 FACEBOOK&#xff1a; 原理 https://…

c/c++:函数的作用,分类,随机数,函数定义,调用,申明,exit()函数,多文件编程,防止头文件重复

c/c&#xff1a;函数的作用&#xff0c;分类&#xff0c;随机数&#xff0c;函数定义&#xff0c;调用&#xff0c;申明&#xff0c;exit()函数&#xff0c;多文件编程&#xff0c;防止头文件重复 2022找工作是学历、能力和运气的超强结合体&#xff0c;遇到寒冬&#xff0c;大…

Spring启动及Bean实例化过程来看经典扩展接口

目录 一、Spring启动及Bean实例化过程 二、分析其对应经典扩展接口 三、对开发的指导意义 备注&#xff1a;以下总结只是一些基本的总结思路&#xff0c;具体每个扩展接口的应用后续进行分析总结。 一、Spring启动及Bean实例化过程 Spring启动及Bean实例化的过程&#xff0…