【CLR】《Cyclical Learning Rates for Training Neural Networks》

news2024/11/15 17:05:09

在这里插入图片描述
WACV-2017

IEEE Winter Conference on Applications of Computer Vision


文章目录

  • 1 Background and Motivation
  • 2 Related Work
  • 3 Advantages / Contributions
  • 4 Method
  • 5 Experiments
    • 5.1 Datasets and Metrics
    • 5.2 CIFAR-10 and CIFAR-100
    • 5.3 ImageNet
  • 6 Conclusion(own) / Future work


1 Background and Motivation

训练神经网络的时候,学习率是一个非常重要的超参数

常规学习率设定会随着学习的深入,以各种方式减少,作者另辟蹊径,提出了 cyclical learning rate(CLR),有升有降,周而复始,以防止网络在学习中陷入局部局部最优解 or 鞍点(difficulty in minimizing the loss arises from saddle points rather than poor local minima,Saddle points have small gradients that slow the learning process)

在这里插入图片描述

收敛会加快,但是最终结果不一定会比 step learning rate 好

2 Related Work

  • Adaptive learning rates
    AdaGrad / RMSProp / AdaDelta / AdaSecant / RMSProp
    CLR can be combined with adaptive learning rates

3 Advantages / Contributions

提出了 CLR,一种学习率的方法论,不用去花额外代价 find the best values and schedule

发现学习率的 rise and fall 对最终的收敛速度精度有帮助

在公开的模型和数据集上,验证了 CLR 的有效性

4 Method

学习率形式

  • a triangular window (linear) 三角
  • a Welch window (parabolic) 抛物线
  • a Hann window (sinusoidal) 正弦

作者选择最简单的 triangular
在这里插入图片描述
超参:stepsize (half the period or cycle length),base_lr,max_lr

(1)How can one estimate a good value for the cycle length?

stepsize 作者给出的建议为

is good to set stepsize equal to 2 − 10 times the number of iterations in an epoch

也即 2~10 epoch 长度

(2)How can one estimate reasonable minimum and maximum boundary values?

在这里插入图片描述
作者的方法论,学习率一直增加,长度可以为一个 stepsize,观测精度变化,选定学习率范围(Set both the stepsize and max iter to the same number of iterations)

上图 base lr = 0.001,max lr = 0.006

a single LR range test provides both a good LR value and a good range


作者基于 triangular 还衍生出了两种 schedule

  • triangular2
    the same as the triangular policy except the learning rate difference is cut in half at the end of each cycle
    triangular 每个周期min max都是一样的,triangular2 是 min / max / stepsize 都随着周期的变化而变化
    在这里插入图片描述
  • exp_range
    min 和 max learning rate 随着周期的变化而 decline,变化公式为
    g a m m a i t e r a t i o n gamma^{iteration} gammaiteration,gamma 文中设定为 0.99994

5 Experiments

5.1 Datasets and Metrics

  • CIFAR-10:top1 error,acc
  • CIFAR-100:top1 error
  • ImageNet:top1 / top5 error

5.2 CIFAR-10 and CIFAR-100

在这里插入图片描述

在这里插入图片描述
CIFAR-10 上效果还是 ok的,收敛的更快,更好

对比 exponential 学习率和作者提出的 exp range
在这里插入图片描述

在这里插入图片描述
CIFAR10 上确实领先

在这里插入图片描述
和不同的学习方法对比,adaptive learning rate methods with / without CLR
在这里插入图片描述
Nesterov / ADAM / RMSprop 都没有 fixed learning rate 猛耶,这里 fixed 的描述应该是相对周期性变化来说的
在这里插入图片描述
一直在波动,毕竟学习率也在周期性的变化中

在看看不同网络结构的效果,ResNets, Stochastic Depth, and DenseNets
在这里插入图片描述
CLR 有提升

5.3 ImageNet

在这里插入图片描述

在这里插入图片描述
还是有一点点提升的

(1)AlexNet

先根据 LR range test 找到了 min 和 max learing rate,stepsize is 6 epochs

在这里插入图片描述
有提升,但是整体波动性会更大,能理解(exp range policy do oscillate around the exp policy accuracies)

(2)GoogLeNet/Inception Architecture

先 LR range test 找出 min 和 max learning rate
在这里插入图片描述

6 Conclusion(own) / Future work

  • future work
    • equivalent policies work for training different architectures, such as recurrent neural networks
    • theoretical analysis would provide an improved understanding of these methods
  • 第二次遇到 solo 论文的,上次还是 CVPR 的 xception,Keras的发明人,作者的单位,第一次遇到,(○´・д・)ノ
  • 启发比较大的是找 learning rate min 和 max 的方法——LR range test
  • 其他表格图有提升,table 3 中和其他 adaptive learning rate methods 对比,with / without CLR 有点弱了
  • 不知道和 SGDR 中 T m u l t i T_{multi} Tmulti 配合起来会怎么样

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1596305.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python机器学习实战教程

一、引言 机器学习是人工智能的一个子集,它使用算法来让计算机系统从数据中“学习”并改进其性能,而无需进行明确的编程。Python因其易于学习、强大的库和广泛的应用场景,成为了机器学习的首选语言。本教程旨在帮助读者从零开始学习Python机…

(六)C++自制植物大战僵尸游戏关卡数据讲解

植物大战僵尸游戏开发教程专栏地址http://t.csdnimg.cn/xjvbb 游戏关卡数据文件定义了游戏中每一个关卡的数据,包括游戏类型、关卡通关奖励的金币数量、僵尸出现的波数、每一波出现僵尸数量、每一波僵尸出现的类型等。根据不同的游戏类型,定义了不同的通…

顶顶通呼叫中心中间件-回铃音补偿(mod_cti基于FreeSWITCH)

顶顶通呼叫中心中间件-回铃音补偿(mod_cti基于FreeSWITCH) 回铃音的用处 回铃音: 当别人打电话给你时,你的电话响铃了,而他听到的声音叫做回铃音。回铃音是被叫方向主叫方传送,也是彩铃功能的基础。我们平时打电话听到的“嘟 嘟…

掌握CRM+邮箱技巧:销售速度与客户信任双丰收

在千行百业都在谈提效的今天,如果您的销售团队效率较低,恐怕很难过好2024。销售团队提效是个大话题,总的说来就是销售团队需要在正确的时间做正确的事。如何做到?自然要借助CRM工具。过去我们也讲了不少CRM如何辅助销售团队提效的…

外贸高手写的开发信为什么回复率很高

关于开发信这个主题,其实已经算是个烂大街的话题。但是在效仿、参考、摸索开发信这一课题的路上,很多小白还是没摸准要旨,走了不少弯路。这也是为什么小编老话题重提的原因。以下整理了外贸高手写开发信用到的技巧和规律,希望能给…

华为配置通过流策略实现流量统计

配置通过流策略实现流量统计示例 组网图形 图1 配置流策略实现流量统计组网图 设备 接口 接口所属VLAN 对应的三层接口 IP地址 SwitchA GigabitEthernet1/0/1 VLAN 10 - - GigabitEthernet1/0/2 VLAN 20 - - GigabitEthernet1/0/3 VLAN 10、VLAN 20 - - S…

公众号文章的制作方法和步骤分享,纯干货!

无论是个人还是企业,都需要通过公众号来传递自己的声音和价值。如何制作一篇高质量的公众号文章呢?本文伯乐网络传媒将详细介绍公众号文章的制作方法和步骤。 一、文章类型概述 1. 图文教程:以图文结合的方式,向读者传授知识和技…

网络协议——BGP(边界网关协议)全网最详解

1. 什么是AS? AS: 指的是在同一个组织管理下,使用统一选路策略的设备集合,AS取值范围四字节( 0~43亿) 2. BGP概念 BGP是边界网关协议,用于自治系统间的动态协议路径矢量。基于TCP中应用层协议&#xff0c…

Stable Diffusion超详细教程!从0-1入门到进阶

一、本地部署 Stable Diffusion 前言 目前市面上比较权威,并能用于工作中的AI绘画软件其实就两款。一个叫Midjourney(简称MJ),另一个叫Stable-Diffusion(简称SD)。MJ需要付费使用,而SD开源免费…

内网渗透-Windows内网渗透

内网渗透-Windows内网渗透 文章目录 内网渗透-Windows内网渗透前言一、信息收集 1.1、SPN1.2、端口连接1.3、配置文件1.4、用户信息1.6、会话收集1.7、凭据收集 navicat:SecureCRT:Xshell:WinSCP:VNC: 1.8、DPAPI1.9、域信任1.10、…

现代数据中心中智能网卡/DPU的演进

数据中心是一个大型的连接服务器和存储系统池,通常由组织用于远程存储、处理或分发大量数据。组织可以拥有和管理其数据中心,也可以租用由第三方(亚马逊或谷歌云等云服务提供商)管理的基础设施,并通过互联网访问资源。…

【SpringBoot】配置swagger

pom.xml 安装插件 <dependency><groupId>io.springfox</groupId><artifactId>springfox-boot-starter</artifactId><version>3.0.0</version></dependency>创建swagger配置类 import org.springframework.context.annotation.…

大数据迁移工具开发思路

数据存储MySQL中&#xff0c;迁移到hive中&#xff0c;建立数据仓库&#xff0c;为后期的大数据分析、主题订阅、消息分发提供海量数据支持。 涉及到的服务及中间件版本如下&#xff1a; 1、MySQL&#xff0c;版本&#xff1a;8.0.19 2、Hive&#xff0c;版本&#xff1a;3.0.0…

系统架构最佳实践 -- 统一身份认证系统

目录 1.系统架构设计&#xff1a; 2.用户认证与授权&#xff1a; 3.用户身份管理&#xff1a; 4.安全性保障&#xff1a; 5.日志记录与审计&#xff1a; 6.高可用性与容错性&#xff1a; 7.用户体验优化&#xff1a; 随着互联网的快速发展和应用的普及&#xff0c;人们在…

P1712 [NOI2016] 区间(线段树 + 贪心 + 双指针)

题目描述 在数轴上有 n 个闭区间从 1 至 n 编号&#xff0c;第 i 个闭区间为 [li​,ri​] 。 现在要从中选出 m 个区间&#xff0c;使得这 m 个区间共同包含至少一个位置。换句话说&#xff0c;就是使得存在一个 x &#xff0c;使得对于每一个被选中的区间 [li​,ri​]&#…

传奇引擎M2小火炬HGE绘图完整

传奇小火炉HGE绘图完整 参考资料;传奇小火炉HGE绘图完整_98999NET源码资源网

怎样用现货黄金行情软件看走势图?

不管大家用哪一款行情软件来看盘&#xff0c;都离不开K线这种记录市场走势语言。它的中文名称是蜡烛图&#xff0c;由金价每个分析周期的开盘价、最高价、最低价和收盘价绘制而成。以绘制日K线为例&#xff0c;投资者首先要确定开盘和收盘的价格&#xff0c;把它们之间的部分画…

突破编程_前端_SVG(ellipse 椭圆形)

1 ellipse 元素的基本属性和用法 ellipse 元素用于创建椭圆形状。它具有一系列的基本属性&#xff0c;允许自定义椭圆的外观和位置。以下是一些 ellipse 元素的基本属性和用法&#xff1a; &#xff08;1&#xff09;基本属性 cx 和 cy&#xff1a;这两个属性定义了椭圆中心…

【详细介绍下火绒安全】

&#x1f3a5;博主&#xff1a;程序员不想YY啊 &#x1f4ab;CSDN优质创作者&#xff0c;CSDN实力新星&#xff0c;CSDN博客专家 &#x1f917;点赞&#x1f388;收藏⭐再看&#x1f4ab;养成习惯 ✨希望本文对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出…