Datawhale X 李宏毅苹果书 AI夏令营 task1

news2025/1/11 10:01:06

 3.1 局部极小值与鞍点

在深度学习的优化过程中,模型的损失函数可能会在某些点处停止下降,即使我们希望进一步降低损失。这一章节探讨了导致这一现象的原因,包括局部极小值、鞍点,以及其他临界点。理解这些概念能够帮助优化神经网络,避免陷入不理想的解。

  1. 局部极小值

    • 定义:局部极小值是指在某个点附近的所有点的损失函数值都大于或等于该点的损失函数值。换句话说,虽然这个点不是整个损失函数的全局最小值,但在其邻近区域内,它的损失值是最低的。
    • 问题:如果梯度下降算法在训练过程中达到一个局部极小值,梯度为零,模型的参数将不再更新,导致优化过程停滞。虽然损失可能已经很低,但它不是全局最优解,仍然有可能进一步降低损失。

    图 3.1 展示了梯度下降在损失函数的不同点(局部极小值、鞍点)停止更新的情况,帮助理解为什么梯度为零时,模型可能会陷入不同类型的临界点。                                                                                  

  2. 鞍点

    • 定义:鞍点是指在某些方向上是极小值,而在其他方向上是极大值的点。在这些点上,梯度同样为零,但它们不是局部极小值。
    • 问题:梯度下降算法在鞍点处也会停止更新,因为梯度为零。然而,鞍点并不意味着损失函数无法进一步下降;通过离开鞍点,仍然有可能找到更低的损失值。

    图 3.2 展示了局部极小值和鞍点的图形示意,说明它们了在损失函数表面上的不同形态。

  3. 临界点

    • 定义:临界点是指梯度为零的点,包含了局部极小值、局部极大值和鞍点。
    • 挑战:在优化过程中,难以区分模型是否收敛在局部极小值还是鞍点。如果误认为模型已经收敛而实际上只是停在了鞍点,这将限制模型的性能。

判断临界点类型的方法

  • 泰勒级数展开
    • 为了判断一个临界点是局部极小值、局部极大值还是鞍点,使用泰勒级数展开可以对损失函数在临界点附近的形状进行近似。这个近似包括梯度向量和海森矩阵的计算。
    • 梯度向量(g):它表示损失函数的一阶导数,描述了损失函数的斜率方向。在临界点,梯度为零,因此无法单靠梯度来判断临界点的性质。
    • 海森矩阵(Hessian Matrix, H):这是损失函数的二阶导数矩阵,描述了损失函数的曲率。通过计算海森矩阵的特征值,可以判断临界点的性质:
      • 如果所有特征值为正,则该点为局部极小值。
      • 如果所有特征值为负,则该点为局部极大值。
      • 如果特征值有正有负,则该点为鞍点。

在图 3.2 中,红色的点在某一方向上表现为极小值,而在另一方向上表现为极大值,这种情况就是鞍点。如果模型的参数更新在此类点上停滞,虽然梯度为零,但它并不代表模型达到了最优状态。通过计算海森矩阵的特征值,我们能够确定当前的临界点是局部极小值还是鞍点,从而决定是否需要调整优化策略以跳出鞍点,继续降低损失。

3.2 批量和动量

在深度学习的训练过程中,如何有效更新模型的参数至关重要。本章节详细探讨了批量大小(batch size)对梯度下降法的影响,并介绍了动量法(momentum method),作为一种提高优化效果的方法,尤其在应对鞍点和局部极小值时。

  1. 批量大小对梯度下降的影响

    • 批量梯度下降法(Batch Gradient Descent, BGD)
      • 定义:在批量梯度下降法中,每次使用整个训练数据集计算梯度,然后更新参数。由于使用了所有的数据,这种方法的更新稳定,但每次更新的计算量非常大,可能导致训练过程缓慢。
      • 优势:更新方向更准确和稳定,因为所有数据都被用于计算梯度。
      • 劣势:计算量大,尤其在大数据集上,每次更新耗时较长。
    • 随机梯度下降法(Stochastic Gradient Descent, SGD)
      • 定义:与批量梯度下降不同,随机梯度下降法每次只使用一个训练样本计算梯度并更新参数。更新速度快,但更新方向可能包含噪声,因此路径会更加曲折。
      • 优势:由于频繁更新,模型更容易逃离局部极小值和鞍点,在非凸优化问题中表现优异。
      • 劣势:更新方向不稳定,训练过程可能显得噪声较多,难以找到最优解。
    • 小批量梯度下降法(Mini-batch Gradient Descent)
      • 定义:这种方法结合了批量梯度下降和随机梯度下降的优点,每次使用一个小批量(如32或128个样本)数据计算梯度并更新参数。
      • 优势:在保持计算效率的同时,提供了更稳定的更新方向,常用于深度学习训练。
      • 调优点:批量大小是一个超参数,需要根据具体任务和计算资源进行调整。

    图 3.11 和 图 3.12 通过实验数据展示了不同批量大小对训练模型的影响,指出较小的批量大小在测试集上的表现往往优于较大的批量,因为小批量更容易跳出不理想的局部极小值。      

    • 表 3.1 总结了小批量梯度下降与批量梯度下降的对比,列出两者在一次更新速度、优化效果、泛化性能等方面的优缺点。                                                                                           

  2. 动量法

    • 定义:动量法通过引入前一步的更新方向,使参数更新不仅依赖当前的梯度,还考虑到之前更新的历史。这样可以让模型在遇到鞍点或局部极小值时更容易继续前进。
    • 工作原理
      • 公式:每一步的参数更新方向为当前梯度的反方向加上前一步的更新方向,这样更新方向不仅仅依赖于当前的损失,还受之前梯度的影响。在动量法中,每一步的参数更新公式可以表示为:   通过这个公式,当前的参数更新方向不仅取决于当前的梯度,还会受到之前更新方向的影响,从而避免在优化过程中陷入局部极小值或鞍点。
      • 理解方式:可以将其类比为物理中的惯性,物体在下坡过程中即使遇到平坦区域或小上坡,依然可能因为动量继续前行。
    • 优点:在优化中,动量法有助于模型在损失表面上快速移动,并避免陷入局部极小值或鞍点的困境。
      • 图 3.14:展示了物理世界中的惯性,帮助理解动量法的原理。                                             

      • 图 3.16图 3.17:展示了动量法在参数更新时如何结合当前梯度和之前的更新方向,帮助理解其在优化中的优势。                                                                    

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2078029.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

注册资本登记新规14问

2023年12月29日修订的《公司法》第四十七条规定,全体股东认缴的出资额由股东按照公司章程的规定自公司注册成立之日起五年内缴足。根据这个规定,存量公司注册资本缴纳期限如何调整还需要进一步明确规定。 就在新公司法正式实施的同一天,2024…

AI新格式超越SD,更轻更快的Flux

随着《黑神话悟空》的横空出世,全民“天命人”大杀四方。 与此同时,AI绘画大模型领域也是群雄逐鹿。 Stable Diffusion作为开源AI绘画大模型鼻祖,推出了SD3,但因为加入了对身体的限制(防止涩涩)&#xff…

【架构-24】XML和JSON

XML(可扩展标记语言)和JSON(JavaScript对象表示法)是两种常用的数据格式,用于在不同系统之间传输和交换数据。它们各有优点和缺点,适用于不同的场景。下面是对XML和JSON的简要介绍以及它们之间的对比。 XM…

武汉流星汇聚:亚马逊第二季度业绩斐然,第三季度展望充满积极动能

在全球电商与科技巨头竞相角逐的舞台上,亚马逊再次以亮眼的财报数据证明了其行业领导者的地位。近日,亚马逊公布的2024财年第二季度财报不仅彰显了公司在复杂经济环境下的稳健增长能力,更为投资者和消费者描绘了一幅充满希望的未来图景。 第…

Mac 笔记本折腾mac windows Linux 三系统(全网独一份)

1.正常安装 mac 可以使用启动盘或者在线恢复 按下并松开电源按钮以将Mac 开机,松开电源按钮按 Option-Command-R 安装最新软件 将整个盘进行抹掉安装,为后面安装windows 进行准备 2.bootcamp 安装 win11,选择系统镜像,我这里最新…

STM32(F103ZET6)第六课:定时器

目录 定时器需求一、系统滴答定时器1.配置流程2.程序配置 二、基本定时器1.TIM6定时器配置1.时钟源使能2.分频器3.装载值4.计数器使能5.打开定时器中断并配置6.中断函数编写 三、通用定时器TIM2 定时器需求 1.使用系统滴答定时器实现LED灯的翻转(0.5s翻转一次&…

变压器涌流浪涌

涌流和浪涌 1. 相关概念简介 涌流 基本概念及分析意义: 涌流基本概念:指在断电或重新通电后,瞬时大电流从电源流向负载的现象。 在电力系统中,涌流的出现与许多因素有关,例如电源电压、负载电容和电感等&#xff…

uniapp环境H5运行及发行(入门必学)

uniapp环境H5运行及发行 Uni-app是一个使用Vue.js开发所有前端应用的框架,它可以编译到iOS、Android、H5、以及各种小程序等多个平台。关于Uni-app环境下H5的运行及发行,以下是详细的步骤和注意事项: 一、H5运行 安装环境 安装Node.js&…

【案例60】NIO导致本地内存溢出

问题现象 集成环境出现宕机,javacore中报本地内存溢出。 问题分析 对JAVACORE进行分析之后可以发现,有大量的异步IO线程。 同时查看websphere的ffdc事件可以发现: 从FFDC中可以看到部分信息: com.ibm.ws.util.ThreadPool$Wor…

源代码编译,Apache DolphinScheduler前后端分离部署解决方案

转载自神龙大侠 生产环境部署方案 在企业线上生产环境中,普遍的做法是至少实施两套环境。 测试环境线上环境 测试环境用于验证代码的正确性,当测试环境验证ok后才会部署线上环境。 鉴于CI/CD应用的普遍性,源代码一键部署是必要的。 本文…

ISO 26262中的失效率计算:SN 29500-2 Expected values for integrated circuits

目录 概要 1 基准条件下的失效率 2 失效率转换 2.1 失效率预测模型 2.2 电压应力系数 2.2.1 电压应力系数计算模型 2.2.2 电压应力系数计算 2.3 温度应力系数 2.3.1 温度应力系数计算模型 2.3.2 温度应力系数计算 2.4 漂移灵敏度系数 3 任务剖面应力系数 4 早期失…

JAVA设计模式之【原型模式】

快速构建对象方法: 使用简单工厂将get,set封装到某个方法中(Client类) JDK提供实现Cloneable接口实现快速复制 1 类图 2 适用场景 1、类初始化消耗资源较多。 2、new 产生的一个对象需要非常繁琐的过程(数据准备、访…

Python selenium爬虫被检测到,该怎么破?

当使用Selenium进行网络爬虫操作时,经常会被目标网站检测到并采取了反爬措施,有几种方法可以尝试规避。 1、 用无头模式(Headless Mode):Selenium支持在无头浏览器模式下运行,这样就不会触发与真实用户操作…

Spring-AOP-API设计与实现

拦截篇-AOP怎么拦截类和方法 Joinpoint Joinpoint(连接点)是面向切面编程(Aspect-Oriented Programming, AOP)中的一个核心概念。在 Spring AOP 中,它主要指代的是应用程序中的某个特定点,在这个点上可以…

国产游戏技术:创新驱动下的全球影响力

国产游戏技术能否引领全球? 前言技术亮点:国产游戏的创新之路面临的挑战:技术创新与市场适应发展机遇:拥抱新技术,拓展国际市场IT技术创新:推动行业发展的新引擎人才需求:技术人才的紧缺与机遇结…

一个利用率超高的楼宇智能化实验室是如何练成的?

在当今快速发展的智能化时代,楼宇智能化实验室作为培养未来智能科技人才的重要基地,其利用率的高低直接关系到科研效率和成果产出。本文将详细探讨如何打造一个利用率超高的楼宇智能化实验室,从设计规划、设备选型、实训内容、管理运营等多个…

Git克隆仓库太大导致拉不下来的解决方法 fatal: fetch-pack: invalid index-pack output

一般这种问题是因为某个文件/某个文件夹/某些文件夹过大导致整个项目超过1G了导致的 试过其他教程里的设置depth为1,也改过git的postBuffer,都不管用 最后还是靠克隆指定文件夹这种方式成功把项目拉下来 1. Git Bash 输入命令 git clone --filterblob:none --sparse 项目路径…

解决pip install fitz 失败问题

背景 实现PDF转图片,需要使用fitz,结果安装的时候出现问题。 先上解决方案,再进行问题分析. 解决方案 安装PyMuPDF能直接使用fitz,按照介绍PyMuPDF也叫称为fitz库。 pip install PyMuPDF 问题分析 关键报错信息:…

WebRTC支持H.265编码:技术挑战与EasyCVR视频汇聚平台解决方案

随着互联网技术的快速发展,视频通信已成为人们日常生活和工作中不可或缺的一部分。WebRTC(Web Real-Time Communication)作为一种实时通信技术,因其便捷性和高效性而受到广泛关注。然而,在视频编码格式上,W…

武汉凯迪正大—三倍频发生器电源发生装置 倍频试验装置 多频装置

产品概述 武汉凯迪正大KDSF 感应耐压试验装置是根据国家标准《GB311-64》和原水电部发布的《电气设备预防性试验规程》,为满足电力系统对高压电压互感器、倍频感应耐压试验设备的要求而设计的,用于电力系统35-220KV等级电压互感器的交流耐压试验&#x…