神经网络学习率指数衰减ExponentialDecay策略的参数含义与使用方法详解

news2024/11/27 11:41:52

  本文介绍在tensorflow库中,用于动态调整神经网络的学习率的一种方法——指数衰减ExponentialDecay()策略的参数含义及其具体用法。

  在进行神经网络训练时,我们经常需要用到动态变化的学习率,其中指数衰减ExponentialDecay()策略是我们常用的一种策略。在tensorflow库中,其完整的用法是tf.keras.optimizers.schedules.ExponentialDecay(),其中的具体参数如下所示。

tf.keras.optimizers.schedules.ExponentialDecay(
    initial_learning_rate, decay_steps, decay_rate, staircase=False, name=None
)

  首先,我们需要知道,在用了ExponentialDecay()策略后,程序将动态调整神经网络训练过程中的学习率,且这一调整是与我们当前训练的step有关的。具体关于step的解释,大家可以参考文章神经网络epoch、batch、batch size、step与iteration的具体含义介绍(https://blog.csdn.net/zhebushibiaoshifu/article/details/131086145),本文就不再赘述。

  如以下代码所示,使用ExponentialDecay()策略后,程序将依据如下的规律,基于当前训练的step,以及我们自行设定的几个参数,从而计算得到当前的学习率。其中,函数的返回值就是当前的学习率。

def decayed_learning_rate(step):
  return initial_learning_rate * decay_rate ^ (step / decay_steps)

  其中,initial_learning_rate * decay_rate ^ (step / decay_steps)就是当前学习率的计算公式。这里的initial_learning_ratedecay_rate以及decay_steps,就是我们前面提到的ExponentialDecay()函数的前3个参数。其中,initial_learning_rate是我们的初始学习率,decay_rate是学习率下降的速率,而decay_steps则是学习率下降的位置(具体含义我们稍后介绍)。此外,ExponentialDecay()策略还有两个参数,staircase表示我们在计算(step / decay_steps)时,是对结果向下取整还是取小数,默认为False,即取小数结果(具体含义我们稍后介绍);最后一个name参数,只是对当前这一学习率下降的策略加以命名,一般用不上这个参数,我们就不再介绍了。

  由此,我们可以初步知道,ExponentialDecay()函数的前4个参数都是用来计算当前的学习率的;且结合我们前面的公式initial_learning_rate * decay_rate ^ (step / decay_steps),我们可以知道,随着当前的step不断增加,decay_rate ^ (step / decay_steps)是降低的。

  接下来,我们直接带入具体的数据,来看一下这几个参数的具体作用。

  如下图所示,我们这里有一个训练数据集,其中共有193608个样本。

  同时,我设置了神经网络的batch size2048,那么基于前述提及的文章神经网络epoch、batch、batch size、step与iteration的具体含义介绍(https://blog.csdn.net/zhebushibiaoshifu/article/details/131086145),可知在1epoch中,我们对这193608个样本加以训练,共需要的batch数目为193608 / 2048,也就是94.54,向上取整为95,相当于需要95step。此外,我设置initial_learning_ratedecay_rate以及decay_steps分别为0.10.95以及95,且设置staircaseTrue。如下图所示。

  此时,我们就可以对每一个参数的具体含义与作用加以介绍了。首先,我们开始训练神经网络模型,即step开始从0逐步增加;但是由于我的staircaseTrue,因此只要指数(step / decay_steps)是小于1的,那么都视作0(因为当前参数设置是对结果向下取整);而由于除了0以外任何数的0次方都是1,因此此时的公式initial_learning_rate * decay_rate ^ (step / decay_steps)始终等于initial_learning_rate,也就是一直保持0.1;只有当step到达我们设置的decay_steps之后,指数(step / decay_steps)才可以成为1,使得decay_rate终于产生了效果。而在这里,由于我故意设置decay_steps95,因此按道理只要经过1epoch之后,学习率就会下降——因为前面我们计算过了,在1epoch中需要95step。那么此时,学习率就变为了0.1 * 0.95

  接下来,我们运行上述代码,训练6epoch,来验证一下学习率的变化是否如同我们的设想。

  下图为TensorBoard中,学习率随着epoch的变化。这里需要注意,我这里截图的时候开了曲线图的平滑选项,因此应该以浅色的线为准。

  上面的图因为不太全,所以或许看不出什么;我们直接将学习率变化情况导出,如下图所示。

  其中,图中的step实际上表示的是epoch,大家这里理解即可。可以看到,在epoch0时(也就是进行第一个epoch时),学习率一直为0.1;而进行到第二个epoch时——此时我们训练过程的step就应该是从95开始,但还不到190,因此(step / decay_steps)始终为1,学习率就是0.1 * 0.95 = 0.095了(因为数据格式问题,精度稍有差距);随后,进行到第三个epoch时——此时我们训练过程的step就应该是从190开始,但还不到285,因此(step / decay_steps)始终为2,学习率就已经是0.1 * 0.95 * 0.95 = 0.09025了。

  由此可知,假如我将decay_steps扩大10倍,使得其为950,那么在前10epoch时,学习率都不会发生改变,而从第11epoch开始,学习率才会开始衰减。

  这里我的参数staircase设置为True,因此会出现上述结果;相反的,如果设置为False,那么计算(step / decay_steps)时,是对结果取小数,换句话说只要step发生变化,那么当前对应的学习率也会发生变化,只不过变化的幅度会稍小一些。

  由此看到,上述学习率的变化,是符合我们的预期的。当然,上图中最后两个epoch对应的学习率没有发生变化,这个具体原因我暂时也没搞清楚;不过学习率下降作为一种策略,我们通过上述代码,还是达到了动态调整学习率的需求的。

  至此,大功告成。

欢迎关注:疯狂学习GIS

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/620840.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【鲁棒优化】具有可再生能源和储能的区域微电网的最优运行:针对不确定性的鲁棒性和非预测性解决方案(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

【Python 类方法和静态方法】零基础也能轻松掌握的学习路线与参考资料

一、Python类方法和静态方法的概念 在Python中,类方法和静态方法是常见的两种方法。两者都是Python中的函数,可以在类和实例上调用。但是,它们的作用和用法有所不同。 类方法是绑定到类而不是实例的方法,它们可以在实例和类上运…

高性能软件负载OpenResty常用命令

目录 1 案例介绍2 中小公司的详情页方案2.1 缺点 3 大型公司的商品详情页的核心思想3.1 生成静态页3.2 推送到文件服务器3.3 布隆过滤器过滤请求3.4 lua直连Redis读取数据3.5 OpenResty 渲染数据 4 环境准备4.1 配置文件服务器4.2 配置资源反向代理4.3 访问测试 1 案例介绍 商品…

【Unity100个实用小技巧】Git报错:error: some local refs could not be updated;

☀️博客主页:CSDN博客主页 💨本文由 我是小狼君 原创,首发于 CSDN💢 🔥学习专栏推荐:面试汇总 ❗️游戏框架专栏推荐:游戏实用框架专栏 ⛅️点赞 👍 收藏 ⭐留言 📝&…

SpringBoot+Mybatis+Thymeleaf实现的疫情防控物资管理系统

本系统具体使用的技术是:后端使用SpringBootMybatis,前端使用了Thymeleaf框架,数据库使用的是MySql 8.0。开发工具使用的是IDEA。 本系统前端是使用了前辈的管理系统模板,具体的系统模块功能如下图所示: 一、系统首页…

《环信开发者技术等级考试》有奖问答正在进行中。。。

欢迎参加《环信开发者技术等级考试》,希望大家凝神静气,考出水平。 值此环信十周年,参与本次考试所有考生均可凭实力获得周年大礼包。 考场设置 本次考试主要考察大家对集成环信IM以及环信开通服务的熟悉度。 题型包含单选和多选&#xff…

算法修炼之筑基篇——筑基一层初期(解决01背包问题)

✨博主:命运之光 ✨专栏:算法修炼之练气篇​​​​​ ✨博主的其他文章:点击进入博主的主页 前言:学习了算法修炼之练气篇想必各位蒟蒻们的基础已经非常的扎实了,下来我们进阶到算法修炼之筑基篇的学习。筑基期和练气期…

物联网网关,原来是这么回事,感谢!

《高并发系统实战派》-- 你值得拥有 文章目录 物联网网关是什么?为什么要搞物联网网关?物联网网关作用? 物联网网关技术原理物联网网关实战开发边缘计算与物联网网关的碰撞边缘计算的理解物联网网关结合边缘计算 物联网网关是什么&#xff1f…

Windows10下docker安装及遇到的问题并且在docker快速部署onlyoffice

docker安装官网地址 docker安装超链接点击进入下载 这里下载的是window版的docker,你们根据自身实际情况下载; 安装docker遇到的问题: 第一个问题 : 启动遇到Docker Desktop is unable to detect a Hypervisor 虚拟化技术没打开,需要打开…

有哪些你觉得非常好用的软件?

以下是我认为非常好用的软件: 1. 金鸣表格文字识别:由深圳市金鸣科技有限公司开发,系统采用超前AI,经深度学习,识别精准,可将图片、PDF等转为excel、word,同时支持证件、票据等批量合并转为结构…

“好不容易进的腾讯,你凭什么要离开?”

前几天,我在网上看到一个故事。 故事的主人翁是18届的校招生,目前入职腾讯,工作了一个月。这一个月给他的感受是大量的写测试用例,感觉自己写测试用例的能力熟练了不少,测试技能倒是没有多大的提高,真正需…

vue使用纪要

一、基础总结 1、构成 1)位置目录 如下图所示: 一个页面一个vue文件,位置在src下边的views里边; 如下图: 一个vue文件,对应一个或多个js文件,js放在src下边的api中; 2&#xf…

开源杀毒引擎库libclamav的使用方法

《开源杀毒引擎ClamAV的源码编译安装》中我们讲了ClamAV的安装和使用方法,可以很方便的使用ClamAV提供的工具进行病毒扫描,当然我们也可以在我们的程序中集成它提供的libclamav开发库来实现病毒扫描,libclamav是一个功能强大的病毒扫描库&…

代码随想录刷题第46天|LeetCode139单词拆分、多重背包

1、LeetCode139单词拆分 题目链接:139单词拆分 1、dp[i] : 字符串长度为i的话,dp[i]为true,表示可以拆分为一个或多个在字典中出现的单词。 2、递推公式:如果确定dp[j] 是true,且 [j, i] 这个区间的子串出现在字典里…

Using index Using where和 Using where Using index有何区别

先把结论呈现出来: 1、Using index : 查询的列被索引覆盖,并且where筛选条件是索引的是前导列,Extra中为Using index 2、 Using index ,Using where:查询的列被索引覆盖,数据都是先通过索引查询出来的…

语法篇JS基础

一、初识JavaScript 1.1前景 CSS 预处理器 CSS 预处理器定义了一种新的语言,其基本思想是,用一种专门的编程语言,为 CSS 增加了一些 编程的特性,将 CSS 作为目标生成文件,然后开发者就只要使用这种语言进行 CSS 的编码…

cookies介绍

cookies介绍 Cookies概述 Cookies是网络浏览器中用于存储用户信息的小文本文件。Cookie的大小通常限制在4KB以内(不同浏览器内核可能有细微差异或有单域名更高的限制)。当你访问某个网站时,该网站可能会在你的计算机上创建一个cookie&#…

PDB Database - ESM Atlas PDB 数据集的多维度分析与整理 (3)

欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://blog.csdn.net/caroline_wendy/article/details/131095395 PDB 三大数据集的多维度分析与整理: 人工提交 - RCSB PDB:PDB Database - RCSB PDB 数据集的多维度分…

YUV4:2:0是什么意思

我们经常看到YUV中4:2:0,看着好像懂,仔细看又不懂。 比例,N1:N2:N3里面的数字指水平方向上的相对采样率,N1表示在奇数行和偶数行里Y样本的个数,N2表示奇数行里Cb和Cr样本的个数,N3…

ciscn_2019_s_4-栈迁移

1,三连 程序功能:两次输入 题目类型猜测:栈溢出,栈迁移 2,ida分析 溢出点: system_plt地址: 思路:由于无直接getshell的利用函数,溢出空间只有8字节(ebpret占用无法继续…