Datawhale X 李宏毅苹果书 AI夏令营_深度学习基础学习心得

Datawhale X 李宏毅苹果书 AI夏令营_深度学习基础学习心得

news2025/7/8 21:34:39

本次学习了深度学习中的局部最小值

1、书上说有时候模型一开始就训练不起来，不管怎么更新参数损失都不下降。我之前遇到过这种情况，大概是做一个数据很不平衡的二分类，正负样本比例大概为9：1，模型倾向于全部预测为正样本，没有办法学习负样本。

2、3.1.1介绍了一下鞍点，鞍点的各个方向的梯度是等于零的，而我们的模型反向传播又是基于梯度的，所以到了鞍点就没有办法再让损失下降了，但是其实鞍点和局部最优又区别，鞍点并不是梯度最小的点。

3、3.1.2介绍了损失函数L( $\theta$ )的近似：

第一项：如果 $\theta$ 很接近 $\theta$ ‘，L( $\theta$ )近似于L( $\theta$ ’)

第二项：g代表梯度，L( $\theta$ ’)对于 $\theta$ 中每个元素的偏微分

第三项：H：海森矩阵，里面是L的二次微分

接下来需要探究误差表面的形状，来判断是否为鞍点，主要探究第三项，另v = （ $\theta$ - $\theta$ ’）：

情况1）：如果对于所有v，第三项>0：局部最小

情况2）：对所有v，第三项<0：局部最大

情况3）：对所有v，有时大于0有时小于0：鞍点

在实际判断的时候，不需要用H于每一个v进行运算，只需要判断是否为正定或负定矩阵即可。

4、判断完鞍点，H还能够帮我们在鞍点指路：

令u = （ $\theta$ - $\theta$ ’）， $\lambda$ 为H的特征值：，该等式在 $\lambda$ 小于0时小于0

此时L( $\theta$ )<L( $\theta$ ’)，因此沿着u的方向更新，损失就会变小，所以在鞍点就需要找负特征值以及对应的特征向量

5、其他逃离鞍点的方法：

很多情况下，低维空间的局部最小在高维空间可能是鞍点

实际上，几乎找不到所有特征值都为正的临界点。大概还有一半的路可以让损失下降

#############################################################################

学习心得：感觉还是很有收获的，之前调模型可能就主要想着让损失下降，但是不求甚解，了解了最底层的逃离鞍点让损失下降的逻辑之后，对于各种算法好像有了新的认识

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2072441.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

docker-compose自动化部署前后端项目--最终篇

docker-compose自动化部署前后端项目--最终篇

docker-compose部署一个项目肯定包含多个容器，每个容器都手动单独部署肯定费时费力。docker-compose可以通过脚本来批量构建镜像和启动容器，快速的部署项目。使用docker-compose部署主要是编写 docker-compose.yml 脚本。项目结构不论是 Dockerfil…

阅读更多...

set的所有操作

set的所有操作

1.基本概念 2.构造和赋值 3.大小和交换 4.插入和删除 5.查找和统计 6.set和multiset的区别 7.pair对组创建用p.first和p.second调用前后两个属性。 8.仿函数实现降序排列自定义数据类型也一样用仿函数：

阅读更多...

【ubuntu20.4 常用经验分享】

【ubuntu20.4 常用经验分享】

文章目录背景：问题解答1、软件替换3、办公4、提供多少价值总结背景： 个人AI深度学习，在windows下很不方便，容易各种莫名错误，各种生态也不好那么linux是一个选择，开始时候时保守安装了双系统&#xff…

阅读更多...

QTableView的一行里添加两个按钮

QTableView的一行里添加两个按钮

我是光明正大地抄，作者说的欢迎转载作者：李鹏出处：http://www.cnblogs.com/li-peng/ 本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接&#xff0…

阅读更多...

基于Android Studio 多功能记事本-MySQL版

基于Android Studio 多功能记事本-MySQL版

目录一、项目演示二、开发环境三、项目详情四、项目完整源码一、项目演示基于Android Studio 多功能记事本--MySQL版二、开发环境三、项目详情 1.启动页这段代码主要实现了以下功能： 1. **延迟跳转**：在 StartActivity 中，使用…

阅读更多...

polarctf靶场[WEB]cookie欺骗、upload、签到

polarctf靶场[WEB]cookie欺骗、upload、签到

[web]cookie欺骗考点：cookie值工具：Burp Suite抓包根据题目提示，cookie欺骗，所以要在cookie值寻找关键进入网页之后，说只有admin用户才能得到flag，而我们此时只属于普通访客我们查看cookie值&…

阅读更多...

如何使用ssm实现视频点播系统设计与实现+vue

如何使用ssm实现视频点播系统设计与实现+vue

TOC ssm142视频点播系统设计与实现vue 绪论 1.1 研究背景信息化的世界，对于互联网就是一个无国界的传播过程。视频信息也像其他很多网络交流工具一样，时刻在给每一个人带来信息全球化的过程中自由发布个性化信息平台，这就是互联网给人们…

阅读更多...

VTK随笔四：VTK基本数据结构

VTK随笔四：VTK基本数据结构

一、可视化数据的基本特点离散性：为了让计算机能够获取、处理和分析数据，必须对无限、连续的空间体进行采样，生成有限的采样数据点，这些数据以离散点的形式存储，采样的过程是一个离散化的过程。数据具有规则或不规则…

阅读更多...

东南大学和东北大学

东南大学和东北大学

其实我五点多就醒了，生物钟天生如此，没办法。只是在人家家里，不方便过早地有动静，而我的脑子，也还在酒力影响之下，并没有完全清楚，所以又闭目养神了一会儿。看了几次时间，终于6点了…

阅读更多...

高仿115资源网dz论坛模板

高仿115资源网dz论坛模板

源码介绍高仿115资源网dz论坛模板，首先去DZ论坛下个PHP版本安装好，把我们提供的模版上传到[template]目录。本套模板是dz论坛仿115资源网开发的模板，dz论坛是腾讯旗下的论坛系统，非常的好用。源码下载高仿115资源网dz论坛模…

阅读更多...

C++ STL 关联容器

C++ STL 关联容器

系列文章目录 CSTL迭代器iterator设计 https://blog.csdn.net/surfaceyan/article/details/126772555 C STL 序列式容器(一 vector list) https://blog.csdn.net/surfaceyan/article/details/126860166 C STL 序列式容器(二 deque slist) https://blog.csdn.net/surfaceyan/ar…

阅读更多...

Vue中的methods方法与computed计算属性的区别

Vue中的methods方法与computed计算属性的区别

在创建的 Vue 应用程序实例中，可以通过 methods 选项定义方法。应用程序实例本身会代理 methods 选项中的所有方法，因此可以像访问 data 数据那样来调用方法。在模板中绑定表达式只能用于简单的运算。如果运算比较复杂，可以使用 Vue.js 提供的…

阅读更多...

求解向量中连续子向量的最大和

求解向量中连续子向量的最大和

开篇本篇文章旨在求解向量中n个连续子向量的最大和。题目来源是《编程珠玑》第8章《算法设计技术》。问题描述输入:具有n个浮点数的向量x; 输出:输入向量的任何连续子向量中的最大和; 例如：输入向量为31,-41,59,26,-53,58,97,-93,-23,84; 那么输出就是从59到97五…

阅读更多...

基于java+springboot+mysql校园预约自习室网站43642-计算机毕业设计项目选题推荐（免费领源码）

基于java+springboot+mysql校园预约自习室网站43642-计算机毕业设计项目选题推荐（免费领源码）

摘要在社会快速发展的影响下，教育事业蓬勃发展，大大增加了学校的数量、多样性、教育质量等要求，使教育的管理和运营比过去更加困难。依照这一现实为基础，设计一个快捷而又方便的校园预约自习室网站是一项十分重要并且有价值的事情…

阅读更多...

回归预测|基于北方苍鹰优化最小二乘支持向量机的数据预测Matlab程序NGO-LSSVM 多特征输入单输出含基础程序

回归预测|基于北方苍鹰优化最小二乘支持向量机的数据预测Matlab程序NGO-LSSVM 多特征输入单输出含基础程序

回归预测|基于北方苍鹰优化最小二乘支持向量机的数据预测Matlab程序NGO-LSSVM 多特征输入单输出含基础程序文章目录前言回归预测|基于北方苍鹰优化最小二乘支持向量机的数据预测Matlab程序NGO-LSSVM 多特征输入单输出含基础程序一、NGO-LSSVM模型1. LSSVM（最小…

阅读更多...

联网可视化：引领智能出行新时代

联网可视化：引领智能出行新时代

图扑车联网可视化系统整合数据监测与分析，提升交通管理效率，优化车辆调度，提高道路安全，为用户提供智能化、便捷的出行体验。

阅读更多...

使用Python实现方波信号傅里叶变换

使用Python实现方波信号傅里叶变换

目录概述 1 方波信号 1.1 问题描述 1.2 傅里叶级数的数学实现 2 函数实现 2.1 方波信号实现 2.2 方波信号的傅里叶函数 3 测试函数 3.1 测试原理 3.2 改变K值的波形变化概述本文主要介绍使用使用Python实现方波信号傅里叶变换的方法，笔者首先介绍了方…

阅读更多...

如何使用ssm实现基于java的奶茶店管理系统的设计与实现

如何使用ssm实现基于java的奶茶店管理系统的设计与实现

TOC ssm140基于java的奶茶店管理系统的设计与实现jsp 第一章绪论 1.1背景及意义系统管理也都将通过计算机进行整体智能化操作，对于奶茶店管理系统所牵扯的管理及数据保存都是非常多的，例如管理员；主页、个人中心、用户管理、奶茶分类管…

阅读更多...

Kubectl基础命令使用

Kubectl基础命令使用

一.Kubectl 基础命令格式： kubectl [command] [TYPE] [NAME] [FLAGS] kubectl 是 Kubernetes 的命令行工具，用于管理 Kubernetes 集群。以下是一些常用的 kubectl 命令及其选项： 常用命令获取资源列出所有资源类型（Pods、De…

阅读更多...

【C++】OJ习题篇1

【C++】OJ习题篇1

🚀个人主页：奋斗的小羊 🚀所属专栏：C 很荣幸您能阅读我的文章，诚请评论指点，欢迎欢迎 ~ 目录 💥1、string💥1.1 字符串相加💥1.2 验证回文字符串💥1.3 反转…

阅读更多...

推荐文章

最新文章