深度学习基础—学习率衰减与局部最优问题

news2024/11/14 12:21:05

1.学习率衰减

        下图中,蓝色的线是min-batch梯度下降法过程中较大学习率的的优化路径,绿线是较小学习率的优化路径。

        如果使用min-batch梯度下降法,在模型的学习过程中,会有很多噪声,在靠近最小值的时候,由于学习率a不变,因此最终算法在最小值附近摆动。要解决这个问题,就需要减少学习率a,让靠近最小值的过程中,模型的步长小一点,这就需要学习率衰减来解决。

        一个训练集被拆成多个min-batch,对一个训练集训练一遍成为1epoch,我们有如下相关的学习率衰减公式:

        其中,decay_rate是衰减率,epoch_num是训练的代数,a0是初始学习率,k是小于1的参数。这些做法都可以让学习率随着训练代数的增加,逐渐衰减,从而让模型更加接近最小值。

2.局部最优问题

        接下来看看局部最优问题,如下图所示,蓝点是局部最优解,红点是全局最优解。局部最优和全局最优都是梯度为0的点,也就是所有维度都是凹函数。

        下图是鞍点,鞍点是部分维度为凸函数,部分维度为凹函数的点,该点的梯度也为0。

        实际的神经网络中,尤其是大模型,参数非常多,损失函数的图像在高维空间难以画出,运行过程中,遇到的梯度为0的点很难是局部最优点(这需要所有维度都是凹函数,概率极低)。最容易遇到的是鞍点,遇到鞍点是让人头疼的问题:

        因为马鞍面有一部分很平缓,这部分的梯度很小,使用梯度下降法时会经过很长时间才能走到鞍点附近,在鞍点附近扰动,直到找到梯度更大的方向,梯度下降法才能有更深的进展。这个平稳段需要更好的优化算法来加速训练,Adam算法就是很成熟的优化算法,可以帮助我们加速走出平稳段和鞍点,从而搜索到全局最优。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2055123.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

考试:数据库系统(02)

关系代数 ◆并:结果是两张表中所有记录数合并,相同记录只显示一次。 ◆交:结果是两张表中相同的记录。 ◆差:S1-S2, 结果是S1表中有而S2表中没有的那些记录。 ◆笛卡尔积:S1*S2,产生的结果包括S1和S2的所有属性列&…

Redis7基础篇(二)

目录 持化双雄 RDB 案例演示 优势 劣势 AOF 案例演示 正常恢复 异常恢复 优点 缺点​编辑 aof重写机制 ​编辑​编辑重写的原理​编辑 小总结 rdb和aof的混合持久化 纯缓存模式 redis的持久化最终还是靠硬盘 持化双雄 redis提供了一rdb aof 不持久化 rdbaof的…

ansible相关模块

copy模块(重点) copy模块⽤于对⽂件的远程拷⻉操作(如把本地的⽂件拷⻉到远程 的机器上) https://docs.ansible.com/ansible/latest/modules/copy_module.htm l#copy-module 在master上准备⼀个⽂件,拷⻉此⽂件到group1的所有机器上 使⽤content参数直…

Linux之 宝塔面板 通过binlog日志恢复被删除表的数据

参考文章 查找mysql的binlog文件位置 这个命令是用来将MySQL的二进制日志文件(mysql-bin.000021)转换成SQL格式的文件(000021.sql)。 /www/server/mysql/bin/mysqlbinlog --base64-outputDECODE-ROWS -v mysql-bin.000021 > /www/000021.sql 提取sql语句 [rootdata]# …

访问网站出现“此站点不安全”如何解决

在网络浏览中,我们经常会遇到浏览器地址栏出现“此站点不安全”的警告。这通常意味着网站没有使用SSL(安全套接层)加密来保护用户数据的安全。那么,如何通过获得并安装SSL证书来消除这一警告,确保网站的安全可靠呢&…

未来视界,触手可及:揭秘数字透明屏的奇幻之旅

在这个日新月异的科技时代,每一项创新都如同星辰般璀璨,引领着我们向更加智能、更加梦幻的未来迈进。今天,就让我们一起揭开一项颠覆传统视觉体验的前沿科技——数字透明屏的神秘面纱,探索它如何将未来视界,化为触手可…

C++集成spdlog,spdlog基本使用方法

C集成spdlog,spdlog基本使用方法 何时输出日志第一步:集成 spdlog 到你的项目方法 1:使用包管理器(例如 vcpkg 或 conan)方法 2:手动集成 第二步:基本使用第三步:设置日志级别第四步…

后端开发刷题 | 反转链表【链表篇】

描述 给定一个单链表的头结点pHead(该头节点是有值的,比如在下图,它的val是1),长度为n,反转该链表后,返回新链表的表头。 数据范围: 0≤n≤1000 要求:空间复杂度 O(1) ,时间复杂度…

xss 漏洞复现

xss 漏洞复现 一&#xff0c;xss game 1&#xff0c;源码 <!-- Challenge --> <h2 id"spaghet"></h2> <script>spaghet.innerHTML (new URL(location).searchParams.get(somebody) || "Somebody") " Toucha Ma Spaghet!…

Centos7离线安装Sumo全过程(xerces-c、Cmake、gymnasium等)

在 Linux 环境下使用 Python 调用 SUMO 进行相关训练时&#xff0c;通常需要先安装 SUMO。然而&#xff0c;在某些情况下&#xff0c;网络连接可能不可用&#xff0c;因此本文提供了 SUMO 的离线安装方法。 Step1&#xff1a;检查基础依赖包是否完整 基本的依赖项如果有别的缺…

机械学习—零基础学习日志(如何理解概率论2)

全概率公式与贝叶斯公式 上面所提到的公式&#xff0c;可以使用上一篇文章的基本公式推导。 使用到了概率的基本运算公式。 完整的公式展示&#xff1a; 习题练习&#xff1a; 剩余的练习&#xff1a; 第二题解析&#xff1a; 第三题&#xff1a; 第四题&#xff1a; 注意&…

酒店管理系统设计与实现(源码+lw+部署文档+讲解等)

文章目录 前言具体实现截图详细视频演示技术栈系统测试为什么选择我官方认证玩家&#xff0c;服务很多代码文档&#xff0c;百分百好评&#xff0c;战绩可查&#xff01;&#xff01;入职于互联网大厂&#xff0c;可以交流&#xff0c;共同进步。有保障的售后 代码参考数据库参…

Navicat Premium Lite: 简化版的数据库管理和开发工具

Navicat Premium 一直是世界各地数据库专业人士需要从一个应用程序同时连接到多种数据库平台的选择。现在&#xff0c;Navicat Premium Lite 为只需要基本数据库操作所需的核心功能的用户提供简化版的数据库管理体验。在今天的博客中&#xff0c;我们将介绍 Navicat Premium Li…

【案例46】Oracle更换数据库密码后产生Library Cache Lock导致系统卡死

问题现象 WAS环境&#xff0c;服务起不来&#xff0c;改成单机版后能登录&#xff0c;打不开节点。直接卡死。 问题分析 经过顾问反馈&#xff0c;在启动环境时&#xff0c;中间件卡住不动&#xff0c;怀疑数据源不通导致&#xff0c;于是使用checkDB脚本发现desgin数据源用…

leaflet如何为geoJson图层设置zIndex图层顺序?

这个问题也是纠结了半天&#xff0c;两个geojson的面图层作为Layer&#xff0c;因所画的内容重要程度不同&#xff0c;总有主次之分&#xff0c;比如标记型的图标&#xff0c;即使被盖住了&#xff0c;也无伤大雅&#xff0c;但是一些监控或者告警的数据&#xff0c;如果被盖住…

Stable Diffusion绘画 | ControlNet应用-Scribble (涂鸦)

Scribble (涂鸦) 使用该算法生成的线稿&#xff0c;线条最粗最随意&#xff0c;常用于抓取画面的大体轮廓&#xff0c;让AI进行创意发挥。 提示词输入 a panda&#xff0c;生成图片如下&#xff1a; 将提示词换成 a dog&#xff0c;生成图片如下&#xff1a; 今天先分享到这里…

海康相机opencv,C++调用demo配置记录

海康相机opencv&#xff0c;C调用demo配置记录 配置&#xff1a;1.Opencv4.6.0 2.MVS 3.Vs2019 第一章、相关文件 一、demo文件 在安装好mvs后&#xff0c;相应文件夹中&#xff0c;会有样例文件。默认安装mvs的话&#xff0c;文件在目录&#xff1a; C:\Program Files (x…

C++:C/C++的内存管理

目录 C/C内存分布 C语言中动态内存管理方式 C内存管理方式 new/delete操作内置类型 new/delete操作自定义类型 operator new与operator delete函数 new和delete的实现原理 定位new表达式 常见问题 malloc/free和new/delete的区别 内存泄漏 C/C内存分布 我们先来看以…

STM32 定时器 输入捕获

用于测频率测占空比 IC(Input Capture)输入捕获 输入捕获模式下&#xff0c;当通道输入引脚出现指定电平跳变&#xff08;上升沿/下降沿&#xff09;时&#xff0c;会让当前CNT的值将被锁存到CCR中&#xff0c;可用于测量PWM波形的频率、占空比、脉冲间隔、电平持续时间等参数…

探索ChatGPT:一场AI语言模型的革命

前言 随着人工智能&#xff08;AI&#xff09;的不断发展&#xff0c;越来越多的技术在日常生活和工作中得到了广泛应用&#xff0c;ChatGPT作为一种基于GPT-4架构的自然语言处理模型&#xff0c;正引领着AI对话系统的新时代。本文将带你深入了解ChatGPT的背景、应用以及未来发…