Datawhale X 李宏毅苹果书 AI夏令营

news2024/12/25 9:01:26

文章目录


我认为苹果书是最好的深度学习原理教材

第三章开篇讲的就是为什么深度学习模型会优化失败,这个问题其它在我们训练深度学习模型的过程中是非常常见的一种现象:明明使用了更加深层的结构,但它的表现与之前一样,有时甚至不如先前的结果。那么为什么会出现这种现象呢?

首先进行解释的就是鞍点与临界点,这两种点的共同特征是该点处损失函数的一阶导数为零。它们之间的不同之处在于损失函数的多阶偏导。我们使用Tayler 级数展开损失函数,可以得到公式(以下分析仅基于该公式)
L ( θ ) ≈ L ( θ ′ ) + ( θ − θ ′ ) T g + 1 2 ( θ − θ ′ ) T H ( θ − θ ′ )  (3.1)  {\color{#891010} \begin{array}{l} L(\boldsymbol{\theta}) \approx L\left(\boldsymbol{\theta}^{\prime}\right)+\left(\boldsymbol{\theta}-\boldsymbol{\theta}^{\prime}\right)^{\mathrm{T}} \boldsymbol{g}+\frac{1}{2}\left(\boldsymbol{\theta}-\boldsymbol{\theta}^{\prime}\right)^{\mathrm{T}} \boldsymbol{H}\left(\boldsymbol{\theta}-\boldsymbol{\theta}^{\prime}\right) \text { (3.1) } \end{array} } L(θ)L(θ)+(θθ)Tg+21(θθ)TH(θθ) (3.1) 

当处于鞍点与临界点时,公式中的第一项 L ( θ ′ ) L\left(\boldsymbol{\theta}^{\prime}\right) L(θ) 为0。经过处理后,最后一项中的矩阵 H H H如果特征值全为正,或是全为负时,该点即为极大/小值点。而如果该点的特征值即有正,又有负时,则该点为临界点。但是在实际情况中,我们并不是通过计算矩阵 H H H的特征值来判断该点是否处于极大值或是极小值的(计算矩阵 H H H的过程非常的消耗计算资源)。由于在训练深度学习的过程中,我们输入数据的维度是非常高的(也即是特征数量非常的多),在计算的过程中我们遇到的大部分值都不是极大/小值,而是鞍点。

这也就是该书的一个照影:仅通过单个公式就能将深度学习中遇到的复杂数理情况解释明白。

同时需要注意到的是,在学习交流会中,大部分同学都是想着去深入理解深度学习模型内容的原理,但是我的需求就是从应用入手,了解深度学习模型内容特点与原理。虽说是提到了原理,但是并不会去死磕具体的是如何实现的。总体上就是了解使用到了哪些公式,这些公式有什么作用,我们能够从这些公式里得到什么结论。能够将上面的内容全部理解了就可以了。因为我想大部分人的需求就是学会使用深度学习模型就可以了,深度学习模型的构建还是交给哪些特殊的少数人就可以了。

在公式的过程中,再复习了一下代数上的知识:如何计算矩阵的特征值与特征向量(一年不看数学,就把大部分知识全还回去了)
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2099313.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

企业IT服务管理(ITSM)的实践与探索

随着信息技术的飞速发展,企业对IT服务管理(ITSM)的需求也日益增长。在这个背景下,某大型集团(以下简称“该机构”)逐步构建了完善的IT服务管理体系,其发展历程和实践经验对于广大运维团队而言&a…

OceanBase V4.2解析:如何用迭代器 Generator快速生成任意数据

前言 OceanBase 4.2 版本新增了迭代器 generator 函数。尽管这一功能在数据库领域中已属于通用能力,postgresql 也提供了类似的函数,然而,与MySQL和Oracle数据库在默认情况下是需要用户额外编写函数来实现的。OceanBase 4.2 的这一更新也是满…

鸿蒙(API 12 Beta6版)图形【AR物体摆放】 AR引擎服务

概要 本章节通过AR Engine识别设备周围的平面,并允许用户在平面上放置虚拟物体,实现虚拟和现实的融合。AR物体摆放可用于虚拟家具、数字展厅等应用,给用户提供虚实结合的新体验。通过本示例,您可以学习并掌握如何使用AR Engine开…

刷题记录(2)

1. HWOD机试 - 模拟消息队列(100) package com.yue.test;import org.junit.Test;import java.util.ArrayList; import java.util.Arrays; import java.util.LinkedList; import java.util.List;/*** Author: 夜雨* Date: 2021-12-08-10:31* Description:* Version 1.0*/ public…

C#编译成32和64位的区别

C#编译成32和64位的区别 背景 C#32位客户端项目在把代码提交到客户端之后,jinkens直接崩掉了。原因是内存占用100%运维同学建议改成64位,理由是电脑内存大,客观条件IT不给扩。那么在同一台电脑上,32位和64位在编译过程中有什么区…

【DEV工具-IDEA】idea的光标变成黑块了?

项目场景: 解决:windows:按一下insert键。

Python获取次幂数据公众号榜单数据

公众号排行榜,wx公众号排行榜,原创排行榜,赞赏排行榜,评论排行榜 教程仅供参考,请勿滥用,由此带来的法律责任,需由自己承担。 一、运行效果 二、程序代码 #!/usr/bin/python # -*- coding: UTF-8 -*- """ @author: Roc-xb """import request…

Java学习第六天

Java进阶知识面向对象 static:是静态的意思,可以修饰成员变量,表示该成员变量在内存中只存储一份,可以被共享访问。 静态成员变量(有static修饰,属于类,内存中加载一次)&#xff1a…

三元里等你!融合三个经典模型!Transformer-LSTM-SVM多变量时间序列预测(Matlab)

三元里等你!融合三个经典模型!Transformer-LSTM-SVM多变量时间序列预测(Matlab) 目录 三元里等你!融合三个经典模型!Transformer-LSTM-SVM多变量时间序列预测(Matlab)效果一览基本介…

I2C总线的标准收发代码

结合I2C总线协议的知识,我们可以知道I2C写数据由一下10个步骤组成。 第一步,发送一个起始信号。 第二步,发送7bit从机地址,即OZ9350的地址。此处需要注意,发送数据时,无法发送7bit数据,此处发…

求和放大器(单位/非单位增益加法器+比例加法器)+运算放大器实现积分器和微分器

2024-9-2,星期一,22:00,天气:晴转雨,心情:晴。新的一周开始了,新的一个月又开始啦,希望大家开开心心,以崭新的面貌迎接中秋和十一假期!废话不多说&#xff0c…

LinkAI工作流支持广场访问和api调用啦

什么是工作流 LinkAI工作流(WorkFlow)是一种灵活的智能体搭建方式。可以自由选择「大模型、应用、知识库、插件、意图识别、转人工、渠道消息发送」等多种原子能力,通过可视化拖拉拽的方式进行组合编排,零代码搭出一个业务流程。…

PPT制作加速器:3款工具插件的演示文稿制作更高效

IvyhTools英豪插件 IvyhTools是一款功能强大的PPT插件,主要用于辅助用户进行各种PPT编辑和处理操作。该插件具备以下主要功能: 字体编辑:用户可以对PPT中的字体进行编辑和调整。 动图录制:支持录制动态图像,方便用户在…

深度学习(四)-卷积神经网络

神经网络局限 不考虑数据形状 未考虑数据的“形状”,会破坏数据空间结构。例如,输入数据是图像时,图像通常是高长通道方向上的3维形状。但是,向全连接层输入时,需要将3维数据拉平为1维数据 参数庞大 全连接网络参数…

中小企业怎么选择MES:专用MES、集成MES和可配置MES

专用MES、集成MES和可配置MES是MES(制造执行系统)在不同发展阶段和应用场景下的三种主要形式。它们各自具有不同的特点和应用优势,下面将分别进行详细介绍。 专用MES 定义与特点: 专用MES是针对特定行业或特定生产流程而设计的…

CCS报错:error: cannot find file “libc.a“+CCS安装包

1、编译工程出现报错以下报错信息: error: cannot find file "libc.a" warning: automatic RTS selection: attempt to automatically link in index library "libc.a" failed; file not found warning: entry-point symbol "_c_int0…

新剧震撼登场,首集飙到9.2分,观众无不惊叹

自2022年《弹子球游戏》首季发布以来,它以其无与伦比的电影质感和精湛的双线叙事手法,让人印象深刻。这部Apple TV出品的剧集,改编自作家李敏金的小说《柏青哥》,讲述了四代移民的艰辛故事。它不仅仅是一部剧集,更是一…

RuoYi-Cloud 部署与配置 [CentOS7]

静态IP设置 # 修改网卡配置文件 vim /etc/sysconfig/network-scripts/ifcfg-ens33# 修改文件内容 TYPEEthernet PROXY_METHODnone BROWSER_ONLYno BOOTPROTOstatic IPADDR192.168.18.130 NETMASK255.255.255.0 GATEWAY192.168.18.2 DEFROUTEyes IPV4_FAILURE_FATALno IPV6INIT…

电脑屏幕监控软件有哪些?10款真实好用的电脑屏幕监控软件 | 超全盘点,不容错过!

"千里眼,顺风耳,世间万事皆能察。" 在当今数字化时代,却有了现实版的映射——电脑屏幕监控软件,这些软件如同企业的“千里眼”,能够实时洞察员工的电脑使用情况,确保信息安全,提升工…

动态规划法-资源分配问题

动态规划法 - 资源分配问题 问题描述 把4个份额的资源分配给3个工程,给定利润表如下表所示,写出资源的最优分配方案的求解过程。 4份资源分配给3个工程的利润表 步骤一:求各个阶段不同分配份额时的最大利润及分配份额 目标 我们的目标是…