Stochastic Approximation 随机近似方法的详解之(二)Robbins-Monro Algorithm

news2025/1/12 4:02:03

6.2 Robbins-Monro Algorithm

RM算法是随机近似领域的先驱性工作。众所周知的随机梯度下降算法是RM算法的一种特殊情况。后面我们再介绍具体的细节。

先看一个例子:

我们想要去求下面这个等式的根,
在这里插入图片描述

BTW,很多问题可以被转化为求根问题。比如, J ( w ) J(w) J(w) 是我们要最小化的目标函数。它其实可以被等价转化为下面这个等式的求根问题:
在这里插入图片描述

当函数g的表达式已知或者它的导数已知的时候,求解当然很简单。但是当g未知的时候(比如是一个神经网络或者g不能被精确观察到的时候),问题就困难起来了。这个时候我们知道的是什么呢?

只有输入 w w w 和带有噪声的输出 g ~ ( w , η ) \tilde{g}(w, \eta) g~(w,η),我们要根据他们两个来解这个 g ( w ) = 0 g(w)=0 g(w)=0的方程。

RM 算法如下:
在这里插入图片描述

其中 w k w_k wk是第k次对根的估测, g ~ ( w , η ) \tilde{g}(w, \eta) g~(w,η) 是第 k k k 个有噪声的观测。 a k a_k ak是一个正的系数。

下面我们来看一个应用RM算法的例子:
在这里插入图片描述

在这里插入图片描述

我们再看另一个例子:
g ( w ) = tanh ⁡ ( w − 1 ) g(w)=\tanh (w-1) g(w)=tanh(w1) ,我们知道 g ( w ) = 0 g(w)=0 g(w)=0的根为1,我们从 w 1 = 3 w_1=3 w1=3开始迭代,并且设定 a k = 1 / k a_k=1/k ak=1/k,结果是什么呢?下图展示了 w i w_i wi的动态更新过程。

在这里插入图片描述

RM算法的收敛特性怎么去证明呢?
见《Mathematical Foundation of Reinforcement Learning》Shiyu Zhao P107

应用RM到均值估测上面

均值估计的原始问题为:
在这里插入图片描述

我们提到,在 α k \alpha_k αk满足一些温和的条件的时候,w是会收敛到 E [ X ] \mathbb{E}[X] E[X] 的。
我们接下来说明它是特殊的RM算法。

建立如下函数,求解w的问题就变成了求 g ( w ) = 0 g(w)=0 g(w)=0的问题。
在这里插入图片描述
下面是我们观测到的输出:
在这里插入图片描述

如何去解释这个输出呢?其实它可以拆分为 g ~ ( w ) + η \tilde{g}(w)+\eta g~(w)+η 这就符合了RM算法的设定。可以使用RM方法求解了。
在这里插入图片描述
其实我们发现了,在 g ~ ( w k , η k ) \tilde{g}(w_k,\eta_k) g~(wk,ηk)展开之后,和前面用迭代更新方法求均值是一模一样的。

对RM算法的收敛性感兴趣的朋友可以参考我的下一篇搬运:
Dvoretzky’s convergence theorem

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/383246.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

嵌入式学习笔记——基于Cortex-M的单片机介绍

基于Cortex-M的单片机介绍前言生产厂商及其产品线ARM单片机的产品线命名规则留个作业习单片机的资料准备STM32开发所需手册1.芯片的数据手册作业2前言 本文继续接着上一篇中关于Cortex-M的介绍,来记录一些关于ARM系单片机的知识。 生产厂商及其产品线 芯片厂商在…

论坛性能测试难点有哪些?

1 测试工具方面 用户和业务模型分析搭建合适的脚本开发(不根据用户和业务的模型来开发脚本,认为要回归成功即可)合适的需求分析转化为场景设计(不知道如何根据需求进行场景设计)大容量系统的数据生成和使用大型系统的…

金蝶国产化中间件和人大金仓数据库

金蝶Apusic分布式消息队列不需要配置用户名密码rabbitmq:enable: truehost: 192.168.1.233port: 5672<!-- Spring Boot RabbitMQ 依赖 --><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-amqp</ar…

webrtc音频系列——4、RTP与RTCP协议

如果让你从0开发一套实时互动直播系统&#xff0c;你首先要选择网络传输协议。UDP 还是 TCP&#xff1f;答案是&#xff1a;UDP。为什么实时传输不能用 TCP &#xff1f;TCP 的目的就是实现数据的可靠传输&#xff0c;因此他有一套 握手&#xff0c;发送 -> 确认&#xff0c…

linux下安装jenkins

1.初始化Jenkins安装环境 系统版本&#xff1a;Red Hat Enterprise Linux 8.7 将脚本文件jenkins_install_env.sh 、 jenkins_install.sh和apache-maven-3.6.2-bin.tar.gz、jdk-8u251-linux-x64.tar.gz都上传到/usr/local/src目录下执行jenkins_install_env.sh脚本初始化Jenki…

嵌入式开发工具箱【持续更新中】【VMware、Ubuntutftp、nfs、SecureCRT、XShell、Source Insight 4.0】

一、概述 本文主要介绍嵌入式开发过程中需要用到的工具及简单的使用方法。避免在搭建嵌入式开发环境时&#xff0c;需要四处寻找文档&#xff0c;收藏此文章&#xff0c;一文搞定。 大多数嵌入式开发环境是使用Linux作为目标开发系统&#xff0c;所以开发主机一般都是Linux系统…

若依学习(前后端分离版)——启动时发生了啥?(@PostConstruct)(mybatis log free)

我们可以发现若依启动时执行了一些sql我们可以安装一个插件mybatis log free 来更好的进行sql查看 &#xff0c;安装后需要修改一下若依的日志配置如下查看日志&#xff0c;我们发现执行了三个方法&#xff08;&#xff09;&#xff0c;分别查询了一些数据。以第二个方法为例子…

python 如何存储数据 (python 的文件和异常)

文章目录存储数据1. 使用 json.dump() 和 json.load()json.dump()2. 保存和读取用户生成的数据存储数据 很多程序都要求用户输入某种信息&#xff0c;如让用户存储游戏首选项或提供要可视化的数据。不管专注的是什么&#xff0c;程序都把用户提供的信息存储在列表和字典等数据结…

这些个 axios 工具函数,你都掌握了吗

前言 周末过得真快&#xff0c;看个源码时间就过去了&#x1f440;。 在上周看做项目的时候看到了项目里封装的 axios&#xff0c;对其封装的原理没有弄清楚&#xff0c;于是周末的时候便抽了点空闲时间来看了看 axios 的源码&#xff0c;将其研究研究。 源码阅读 这里就不…

实战:一天开发一款内置游戏直播的国产版Discord应用【附源码】

游戏直播是Discord产品的核心功能之一&#xff0c;本教程教大家如何1天内开发一款内置游戏直播的国产版Discord应用&#xff0c;用户不仅可以通过IM聊天&#xff0c;也可以进行语聊&#xff0c;看游戏直播&#xff0c;甚至自己进行游戏直播&#xff0c;无任何实时音视频底层技术…

数据增广真有那么神奇吗?

作者&#xff1a;皮皮雷 来源&#xff1a;投稿 编辑&#xff1a;学姐 论文题目 How Effective is Task-Agnostic Data Augmentation for Pretrained Transformers? 论文作者 S. Longpre, Y. Wang, and C. DuBois 论文发表于 2020 EMNLP findings 摘要 任务无关的数据增广…

chatgpt功能展示

Chatgpt 不知道大家刷抖音的时候是否刷到了人工智能要取代人类的一些短视频&#xff0c;他们所提到的主角就是一个AGI模型——chatgpt&#xff0c;资本对其的追求程度可以用火爆&#x1f525;来形容了吧&#xff0c;先给大家讲一下chatgpt吧&#xff0c;如果没兴趣看我扯犊子可…

网络安全入门学习:社会工程学

在电影《我是谁&#xff1a;没有绝对安全的系统》中&#xff0c;主角本杰明充分利用自己高超的黑客技术&#xff0c;非法入侵国际安全系统&#xff0c;并在最后逃之夭夭。在电影中&#xff0c;有一句经典的台词&#xff1a; 所有黑客手段中最有效的、最伟大的幻想艺术——社会…

windows10安装ubantu双系统

windows10安装ubantu双系统 文章目录windows10安装ubantu双系统一、安装前准备1.前期说明2.制作U盘启动器3.设置硬盘分区相关4.设置给ubantu系统的硬盘大小&#xff0c;设置为未分配&#xff08;删除卷&#xff09;二、进行安装1.设置bios相关2.进入bios启动界面选择U盘安装3.进…

快速入门 Python 数据分析实用指南

Python 现如今已成为数据分析和数据科学使用上的标准语言和标准平台之一。那么作为一个新手小白&#xff0c;该如何快速入门 Python 数据分析呢&#xff1f; 下面根据数据分析的一般工作流程&#xff0c;梳理了相关知识技能以及学习指南。 数据分析一般工作流程如下&#xff…

北京移动CM311-5s-ZG_GK6323V100C_2+8_免拆一键卡刷固件包

北京移动CM311-5s-ZG_GK6323V100C_28_免拆一键卡刷固件包 特点&#xff1a; 1、适用于对应型号的电视盒子刷机&#xff1b; 2、开放原厂固件屏蔽的市场安装和u盘安装apk&#xff1b; 3、修改dns&#xff0c;三网通用&#xff1b; 4、大量精简内置的没用的软件&#xff0c;…

【蓝桥杯试题】递归实现排列型枚举

&#x1f483;&#x1f3fc; 本人简介&#xff1a;男 &#x1f476;&#x1f3fc; 年龄&#xff1a;18 &#x1f91e; 作者&#xff1a;那就叫我亮亮叭 &#x1f4d5; 专栏&#xff1a;蓝桥杯试题 文章目录1. 题目描述2. 代码展示法一&#xff1a;dfs法二&#xff1a;next_perm…

Android开发如何自定义View实现圆弧进度效果

在Android开发中&#xff0c;通过自定义View实现自己想要的效果是作为android开发程序员的一项必备技能&#xff0c;自定义View对于android开发来说也是比较难的一项技术。 涉及到的知识Canvas&#xff08;画布&#xff09;,Paint&#xff08;画笔&#xff09;&#xff0c;自定…

​35岁+的年龄不仅能进入大厂,还能年收入百万+,原来吃透这些才是关键

本人985院校毕业&#xff0c;华为工作10年&#xff0c;创业3年&#xff0c;现在另一大厂&#xff0c;年收入百万 华为期间岗位从测试工程师&#xff0c;到测试经理&#xff0c;再到项目经理&#xff0c;现35岁的年龄进入另一个大厂。这期间面试过上千人&#xff0c;也管理过几…

Qt QMessageBox详解

文章目录一.QMessageBox介绍枚举属性函数二.QMessageBox的用法1.导入QMessage库2.弹窗提示3.提供选项的弹窗提示4.作为提示&#xff0c;报警&#xff0c;报错提示窗口一.QMessageBox介绍 文本消息显示框(message box)向用户发出情况警报信息并进一步解释警报或向用户提问&…