【ML】类神经网络训练不起来怎么办 5

news2025/1/12 9:40:19

【ML】类神经网络训练不起来怎么办 5

    • 1. Saddle Point V.S. Local Minima(局部最小值 与 鞍点)
    • 2. Tips for training: Batch and Momentum(批次与 动量)
      • 2.1 Tips for training: Batch and Momentum
      • 2.2 参考文献:
      • 2.3 Gradient Descent
      • 2.4 Concluding Remarks(前面三讲)
    • 3. Tips for training: Adaptive Learning Rate ,Error surface is rugged ...
      • 3.1 凸优化 使用 同意的learning rate 可能出现的问题
      • 3.1.2 Warm Up
      • 3.2 Different parameters needs different learning rate(客制化 learning rate)
      • 3.3 RMSProp 是一种自适应学习率优化算法,它可以根据梯度的均方根来调整每个参数的学习率。
      • 3.4 Adam: RMSProp + Momentum
      • 3.5 Summary of Optimization
    • 4. Loss 影响

1. Saddle Point V.S. Local Minima(局部最小值 与 鞍点)

Optimzation Fails,Why?
gradient is close to zero , 2 situation : local minima or saddle point ,we call this critical point.

在这里插入图片描述
如何判断 是 local minima or saddle point中的哪一种情况呢?
我们采用Taylor的展开来求解:
在这里插入图片描述
求零点附近的Hessian矩阵,根据Hessian矩阵判断是哪一种情况

在这里插入图片描述
实现步骤如下:
在这里插入图片描述在这里插入图片描述

举例说明:
在这里插入图片描述
在这里插入图片描述
saddle point 在训练过程中出现该怎么处理 hessian matrix 处理Saddle Point 逃离
在这里插入图片描述

站在更高的维度去处理解决问题:
在这里插入图片描述
在这里插入图片描述

2. Tips for training: Batch and Momentum(批次与 动量)

2.1 Tips for training: Batch and Momentum

同一个数据集合 :做batch 然后shuffle这些batch
在这里插入图片描述
Small Batch v.s. Large Batch 优缺点对比
在这里插入图片描述

在这里插入图片描述
不考虑 并且运算的情况下 Epoch 大的跑的快
在这里插入图片描述
在这里插入图片描述
大的batch 结果好的原因是什么?
在这里插入图片描述
上面这个问题下面给出答案:

Small Batch v.s. Large Batch
Smaller batch size has better performance
“Noisy” update is better for training.

在这里插入图片描述

Small batch is better on testing data!

在这里插入图片描述
在这里插入图片描述
Small Batch v.s. Large Batch: 详细的优势掠食 对比,在并行情况下,速度持平,除非,大的batch特别大
但是大的batch在update的时候比较快(优势);小的batch 的优化洁后果和泛化性能更好;

Batch size is a hyperparameter you have to decide.
在这里插入图片描述

2.2 参考文献:

Have both fish and bear’s paws?

  1. Large Batch Optimization for Deep Learning: Training BERT in 76 minutes (https://arxiv.org/abs/1904.00962)
  2. Extremely Large Minibatch SGD: Training ResNet-50 on ImageNet in 15 Minutes (https://arxiv.org/abs/1711.04325)
  3. Stochastic Weight Averaging in Parallel: Large-Batch Training That Generalizes Well (https://arxiv.org/abs/2001.02312)
  4. Large Batch Training of Convolutional Networks
    (https://arxiv.org/abs/1708.03888)
  5. Accurate, large minibatch sgd: Training imagenet in 1 hour
    (https://arxiv.org/abs/1706.02677)

2.3 Gradient Descent

在这里插入图片描述
在这里插入图片描述
考虑过去 Gradient 过去的总和:
在这里插入图片描述
Gradient Descent + Momentum 一大好处就是Gradient Descent退化时候,依然可以继续优化步骤,而不是导致优化停止。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1550088.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

国际伦敦金行情分析中的趋势分析方法

国际伦敦金行情走势复杂多变。近期,金价曾经一度刷新历史的新高点至2222,但就在当天,金价又快速下跌跌超过30美元。不过这么多变的伦敦金行情也为我们的交易创造了空间,有空间就等于有机会,只要我们能够掌握国际伦敦金…

自然语言处理3(NLP)—— 机器学习

1. 自然语言处理在机器学习领域的主要任务 自然语言处理(NLP)在机器学习领域中扮演着至关重要的角色,旨在使计算机能够理解、解释和生成人类语言。以下是NLP在机器学习领域中的主要任务及其分类方法: 1.1 按照功能类型分类 1.1.…

http模块 url对象的主要属性

在 Node.js 中,URL 对象是一个内置类,用于解析和操作 URL 字符串。URL 对象具有多个属性,这些属性提供了对 URL 不同部分的访问。以下是URL对象的一些主要属性及其含义: (1)href 返回完整的 URL 字符串。…

鸿蒙OS开发问题:(ArkTS)【 RSA加解密,解决中文乱码等现象】

RSA加解密开始构建工具类就是举步维艰,官方文档虽然很全,但是还是有很多小瑕疵,在自己经过几天的时间,彻底解决了中文乱码的问题、分段加密的问题。 首先看官方示例代码(以RSA非对称加解密(多次调用doFinal实现分段&a…

【前端】layui学习笔记

参考视频:LayUI 1.介绍 官网:http://layui.apixx.net/index.html 国人16年开发的框架,拿来即用,门槛低 … 2. LayUi的安装及使用 Layui 是一套开源的 Web UI 组件库,采用自身轻量级模块化规范,遵循原生态的 HTML/CSS/JavaScript…

AssertionError: extension access disabled because of command line flags解决方案

本文收录于《AI绘画从入门到精通》专栏,专栏总目录:点这里,订阅后可阅读专栏内所有文章。 大家好,我是水滴~~ 本文介绍在 Stable Diffusion WebUI 中安装插件时出现 AssertionError: extension access disabled because of comma…

【前端面试3+1】03深拷贝浅拷贝、let和var、css盒模型、【有效括号】

一、深拷贝浅拷贝 深拷贝和浅拷贝都是用于复制对象或数组的概念,但它们之间有着重要的区别: 1. 浅拷贝: 浅拷贝是指在拷贝对象或数组时,只会复制一层对象的属性或元素,而不会递归地复制嵌套的对象或数组。因此&#xf…

POJ3037 + HDU-6714

两道最短路好题 POJ3037 手玩一下 发现每一点的速度可以直接搞出来&#xff0c;就是pow(2,h[1][1]-h[i][j])*V 那么从这个点出发到达别的点的耗费的时间都是上面这个数的倒数&#xff0c;然后直接跑最短路就好了 #include<iostream> #include<vector> #include<…

SiteServer 学习笔记 Day03 添加栏目

1、添加栏目&#xff0c;信息管理->栏目管理->添加按钮&#xff0c;分别添加“关于我们”、“市场服务”、“制造服务”、“测试服务”、 “工程服务”、“补充服务”、“新闻动态”、“网站地图”、“博客”、“联系我们”、“质量保证”、“Banner”。如下图。 2、栏目…

Hack.Summit() 2024再添亮点:Morphism CEO Cecilia Hsueh确认出席

随着Web3技术的风起云涌&#xff0c;区块链行业正在全球范围内以前所未有的速度崭露头角。而在这场变革的浪潮中&#xff0c;备受瞩目的区块链盛会——Hack.Summit() 2024区块链开发者大会&#xff0c;将于2024年4月9日至10日&#xff0c;在香港数码港拉开帷幕。这不仅标志着Ha…

春秋云境CVE-2023-2130

简介 在SourceCodester采购订单管理系统1.0中发现了一项被分类为关键的漏洞。受影响的是组件GET参数处理器的文件/admin/suppliers/view_details.php中的一个未知函数。对参数id的操纵导致了SQL注入。可以远程发起攻击 正文 进入靶场我们可以尝试弱口令爆破&#xff0c;最后…

深度学习编译工具链中的核心——图优化。

图优化 图优化的概念&#xff1a; 深度神经网络模型可以看做由多个算子连接而成的有向无环图&#xff0c;图中每个算子代表一类操作&#xff08;如乘法、卷积&#xff09;&#xff0c;连接各个算子的边表示数据流动。在部署深度神经网络的过程中&#xff0c;为了适应硬件平台…

3D开发工具HOOPS更新:高效、轻量化模型处理再突破!

随着数字化转型的深入发展&#xff0c;高性能图形显示成为了软件开发领域的重要研究方向。在众多工具和库中&#xff0c;HOOPS因其强大的三维图形处理能力而受到广泛关注。 HOOPS也与时俱进&#xff0c;持续更进与创新&#xff0c;近期又推出了一系列新功能&#xff0c;这些功…

Chrome之解决:插件不能使用问题(十三)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 优质专栏&#xff1a;多媒…

MySQL面试汇总(一)

MySQL 如何定位慢查询 如何优化慢查询 索引及其底层实现 索引是一个数据结构&#xff0c;可以帮助MySQL高效获取数据。 聚簇索引和非聚簇索引 覆盖索引 索引创建原则 联合索引

《安富莱嵌入式周报》第335期:大量嵌入式书籍免费下载,CNC电机同步,智能家居比赛作品,EMF2024电子胸牌,Swift语言单片机编程,UDS Boot

周报汇总地址&#xff1a;嵌入式周报 - uCOS & uCGUI & emWin & embOS & TouchGFX & ThreadX - 硬汉嵌入式论坛 - Powered by Discuz! 视频版&#xff1a; https://www.bilibili.com/video/BV151421Q7P4/ 《安富莱嵌入式周报》第335期&#xff1a;大量嵌入…

蓝桥杯真题讲解:网络稳定性(Kruskal重构树+LCA)

蓝桥杯真题讲解&#xff1a;网络稳定性&#xff08;Kruskal重构树LCA&#xff09; 一、视频讲解二、正解代码 一、视频讲解 蓝桥杯真题讲解&#xff1a;网络稳定性&#xff08;Kruskal重构树LCA&#xff09; 二、正解代码 //kruskal重构树 lca #include<bits/stdc.h>…

boot整合xfire

最近换了项目组&#xff0c;框架使用的boot整合的xfire&#xff0c;之前没使用过xfire&#xff0c;所以写个例子记录下&#xff0c;看 前辈的帖子 整理下 pom文件 <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot…

渐变色x轴换行柱状图

// 系统上云率const optionBar {title: {text: 系统上云率,left: left,textStyle: {color: "#fff",fontSize: 14,fontWeight: 650,align: "center",},},color: [#32C5FF, #00F766, #EECB5F],grid: {top: 40,bottom: 0,},legend: { // 控制图例组件show: …

力扣面试150 删除有序数组中的重复项 双指针

Problem: 26. 删除有序数组中的重复项 思路 &#x1f469;‍&#x1f3eb; 三叶题解 复杂度 时间复杂度: O ( n ) O(n) O(n) 空间复杂度: O ( 1 ) O(1) O(1) Code class Solution {public int removeDuplicates(int[] nums) {int j 0, n nums.length;for(int i 0;…