Gradient Descent

news2025/2/22 23:38:44

在这里插入图片描述
在整个maching learning的第三个步骤要找一个最好的function。在第二步是定义了一个 Loss function L,这个L是一个function的fuction
求完偏微分之后得到的向量就是Gradient(黄色部分)
在这里插入图片描述
随机找一个起始点0,它的等高线的法线方向就是gradient,是一个vector,之后把这个gradient乘上deep learning再取负号得到它更新的移动方向,1,以此类推。先算gradient再决定要走的方向。
在这里插入图片描述
在这里插入图片描述
eg可以把learning rate设置成一个依赖于次数t的function,这样再经历t次之后,分母t+1越大,得到的learning rate就会越小
自动调learning rate的方法
通常learning rate随着参数的变化,越来越小。最好的状态是不同参数给不同的learning rate
在这里插入图片描述
通过均方根实现对不同参数设置不同learning rate。wt这一点的微分是gt
在这里插入图片描述
σt是过去所有微分的root mean square(其计算方法为将平方误差求平均值,然后取平方根)
在这里插入图片描述
所以使用adagrad 更新参数的时候公式就长这样
斜率gt(微分gt)越大算出来的参数更新的就越快。
在这里插入图片描述
在这里插入图片描述
adagrad在分母里又具备了gt,这样的话gt越大,参数更新就越小,与之前的有冲突。但是adagrad在分母中包含这个微分,就是为了造成反差的效果。把过去所有的gradient的平方相加再相除,来看过去的gradient的反差有多大。
在这里插入图片描图
只有一个参数的时候才成立。以二次函数图像为例,最低点到随机点x0之间,最好的一步就是x0+2ab,简化同分得到绿色箭头右侧公式。下面的图像是对二次函数求微分得到的图像。所以在某一点的微分越大,距离原点越远。
在这里插入图片描述
w1的error surface(曲面误差)图像如蓝色所示,在这条图像上,如果比较a和b,那就是刚才那样的规律,斜率越大距离远点越远。w2的图像为绿色部分,值比较cd两点也是同理。但如果是跨参数比较,ac两点这个规律就不适用。
在这里插入图片描述
最好的一步这个公式里还有一个分母2a,这个2a就是对二次函数进行二次微分的来的。所以如果是跨参数来比较的话就需要一次微分和二次微分一起看。虽然c的斜率比a大,但是它的二次微分也比a大。谷比蓝色图像的谷要尖。
Stochastic Gradient Descent
在这里插入图片描述
和Gradient Descent不一样的是它只需要随机取一个点xn,只计算这个点的loss就可以而不是计算所有训练数据的损失。看一个example就更新一个参数。
在这里插入图片描述
Gradient一下把所有的example全部看完后更新参数,所以它是比较稳定。Stochastic Gradient Descent是看到一个example就更新一次参数。
Feature Scaling
在这里插入图片描述
不同的特征有相同的范围。比如x1远比x2小,所以把x2缩小使x1x2有相同的范围。
在这里插入图片描述
左边:w2比w1对y的影响要大,所以w2方向上会有尖锐的谷,w1方向上就会比较平滑
右边:w1,w2对y的影响差不多所以会得到接近圆形的loss图像
右边计算gradient更新参数要比左边方便
在这里插入图片描述
算出来微分为0的时候不一定就是loss最小的时候,也有可能在高原但是微分值为0

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1902444.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

绝区壹--LLM的构建模块

前言 语言是人类交流的本质,大型语言模型 (LLM) 凭借其出色的理解和生成类似人类的文本的能力,彻底改变了我们与语言互动和利用语言的方式。深入研究 LLM 的构建块(向量、标记和嵌入),揭示了使这些模型能够以前所未有…

Nginx的安装与配置 —— Linux系统

一、Nginx 简介 1.1 什么是 Nginx Nginx是一款轻量级的Web 服务器/反向代理服务器及电子邮件(IMAP/POP3)代理服务器,在BSD-like 协议下发行。其特点是占有内存少,并发能力强,事实上nginx的并发能力在同类型的网页服务…

layui-表单(输入框)

1.基本使用方法 先写一个表单元素块 form 加上layui-form 里面写行区块结构,如下: 2.输入框选项 placeholder默认文本 autocomplete自动填充 lay-verify required必填

如何监控和分析 PostgreSQL 中的查询执行计划?

文章目录 一、为什么监控和分析查询执行计划很重要二、PostgreSQL 中用于获取查询执行计划的方法三、理解查询执行计划的关键元素四、通过示例分析查询执行计划五、优化查询执行计划的常见策略六、使用工具辅助分析七、结合实际案例的详细分析八、总结 在 PostgreSQL 数据库中&…

vb.netcad二开自学笔记5:ActiveX链接CAD的.net写法

一、必不可少的对象引用 使用activex需要在项目属性中勾选以下两个引用,若找不到,则浏览定位直接添加下面两个文件,可以看到位于cad的安装路径下,图中的3个mgd.dll也可以勾选。 C:\Program Files\Autodesk\AutoCAD 2024\Autodes…

上万组风电,光伏,用户负荷数据分享

上万组风电,光伏,用户负荷数据分享 可用于风光负荷预测等研究 获取链接🔗 https://pan.baidu.com/s/1izpymx6R3Y8JsFdx42rL0A 提取码:381i 获取链接🔗 https://pan.baidu.com/s/1izpymx6R3Y8JsFdx42rL0A 提取…

Python统计实战:时间序列分析之二阶曲线预测和三阶曲线预测

为了解决特定问题而进行的学习是提高效率的最佳途径。这种方法能够使我们专注于最相关的知识和技能,从而更快地掌握解决问题所需的能力。 (以下练习题来源于《统计学—基于Python》。请在Q群455547227下载原始数据。) 练习题 下表是某只股票…

Leetcode - 周赛404

目录 一,3200. 三角形的最大高度 二,3201. 找出有效子序列的最大长度 I 三,3202. 找出有效子序列的最大长度 II 四,3203. 合并两棵树后的最小直径 一,3200. 三角形的最大高度 本题直接模拟,分别计算一下…

KVM使用命令行添加新磁盘(注:支持热插拔)

1、使用qemu-img创建格式为qcow2的磁盘 [rootkvm ~]# qemu-img create -f qcow2 /var/lib/libvirt/images/test-disk.qcow2 15G 2、显示虚拟机硬盘列表,查看未使用的target [rootkvm ~]# virsh domblklist kvm-client 3、添加硬盘到kvm-client虚拟机中 [rootkvm…

Matlab2023a保姆级安装教程,附下载安装包资料

安装包放在前面! 「MATLAB安装包 获取链接:https://pan.quark.cn/s/d8abf7394b3e 温馨提示:路径中不要有中文!! 1、下载全部的安装包,然后解压得到安装文件 2、解压之后可以看到包含Matlab R2023a安装光驱文件及Cr…

【Linux进阶】文件系统5——ext2文件系统(inode)

1.再谈inode (1) 理解inode,要从文件储存说起。 文件储存在硬盘上,硬盘的最小存储单位叫做"扇区"(Sector)。每个扇区储存512字节(相当于0.5KB)。操作系统读取硬盘的时候,不会一个个…

低负载高效率(轻载高效)的BUCK是如何实现的?

-----本文简介----- 主要内容包括: 轻载高效BUCK是何原理? ----- 正文 ----- 先赞↓后看,养成习惯! 一、 DC-DC的控制模式与效率 1. PWM模式 如下图是PWM控制模式的DC-DC,PWM(Pulse Width Modulation)&#x…

昇思25天学习打卡营第11天|MindSpore 助力下的 GPT2:数据集加载处理及模型全攻略

目录 环境配置 数据集下载和获取 数据集拆分 处理数据集 模型构建 ​​​​​​​模型训练 ​​​​​​​模型推理 环境配置 “%%capture captured_output”这一行指令通常旨在捕获后续整个代码块所产生的输出结果。首先,将已预装的 mindspore 库予以卸载。随后&a…

奇迹MU 骷髅战士在哪

BOSS分布图介绍 我为大家带来各地区怪物分布图。在游戏前期,很多玩家可能会不知道该去哪里寻找怪物,也不知道哪些怪物值得打。如果选择了太强的怪物,弱小的玩家可能会无法抵御攻击。如果选择了低等级的boss,收益可能并不理想。所…

创建一个不带框架的javaweb工程

点击新建 选择Maven,然后在Archetype里面选择 webapp选项(注意这里需要配置好Maven的环境 如果没配好Maven引入依赖的时候会引不进来) 如果Maven配置之后就会显示配置成功 然后我们要配置tomacat的依赖 jde选择默认 然后点击部署 选择工件&a…

Rabnud博士加入了一个社交圈。起初他有5个朋友。他注意到他的朋友数量以下面的方式增长。第1周少了1个朋友......

Rabnud博士加入了一个社交圈。起初他有5个朋友。他注意到他的朋友数量以下面的 方式增长。第1周少了1个朋友,剩下的朋友数量翻倍;第2周少了2个朋友,剩下的朋友数量 翻倍。一般而言,第N周少了N个朋友,剩下的朋友数量翻倍…

适合宠物饮水机的光电传感器有哪些

如今,随着越来越多的人选择养宠物,宠物饮水机作为一种便捷的饮水解决方案日益受到欢迎。为了确保宠物随时能够获得足够的水源,宠物饮水机通常配备了先进的光电液位传感器技术。 光电液位传感器在宠物饮水机中起着关键作用,主要用…

Flutter-实现双向PK进度条

如何实现一个双向PK进度条 在Flutter应用中,进度条是一个非常常见的组件。而双向PK进度条则能够展示两个对立的数值,如对战中的双方得分对比等。本文将介绍如何实现一个具有双向PK效果的进度条,并支持竖直和斜角两种过渡效果。 1. 需求 我…

UDP协议:独特之处及其在网络通信中的应用

在网络通信领域,UDP(用户数据报协议,User Datagram Protocol)是一种广泛使用的传输层协议。与TCP(传输控制协议,Transmission Control Protocol)相比,UDP具有其独特的特点和适用场景…

ESP32——物联网小项目汇总

商品级ESP32智能手表 [文章链接] 用ESP32,做了个siri?!开源了! [文章链接]