【李沐深度学习笔记】基础优化方法

news2024/11/19 5:56:50

课程地址和说明

基础优化方法p2
本系列文章是我学习李沐老师深度学习系列课程的学习笔记,可能会对李沐老师上课没讲到的进行补充。

基础优化方法

在讲具体的线性回归实现之前,要先讲一下基础的优化模型的方法

梯度下降

当模型没有显示解(最优解)的时候,用梯度下降法迭代到局部最优值(贪心原则)

  1. 首先挑选一个随机初始值 w 0 → \overrightarrow{w_{0}} w0
  2. 不断更新 w 0 w_{0} w0使得其接近最优解,即 w t → = w t − 1 → − η ∂ ℓ ∂ w t − 1 → \overrightarrow{w_{t}}= \overrightarrow{w_{t-1}}-\eta \frac{\partial \ell}{\partial \overrightarrow{w_{t-1}}} wt =wt1 ηwt1 ,其中, w t − 1 → \overrightarrow{w_{t-1}} wt1 代表时刻 t t t上一时刻 t − 1 t-1 t1对应的 w → \overrightarrow{w} w 的值, η \eta η是标量,为学习率,是人为设定的(超参数是需要人为指定的值), ∂ ℓ ∂ w t − 1 → \frac{\partial \ell}{\partial \overrightarrow{w_{t-1}}} wt1 代表的是 t − 1 t-1 t1时刻对应的梯度向量的方向;
  3. 下图为某多元函数的等高线图:

    梯度向量的方向是使得函数值增加最快的方向,即与等高线正交的图中的红色向量,而梯度的反方向(即负梯度向量)是使得函数值减少的最快的方向即图中的黄色箭头所指向的方向(所以表达式中要对梯度取负号),也就是按照负梯度方向可以找到函数的极小值,而 η \eta η学习率代表的是沿着负梯度方向一次走多远,比如:随机初始到 w 0 → \overrightarrow {w_{0}} w0 这个点(以向量形式表示),则按照学习率乘以负梯度迭代到 w 1 → \overrightarrow {w_{1}} w1

选择学习率

  • 如果学习率过小,每一次走的步长有限,走到局部优化点是需要很大代价的;
  • 如果学习率过大,会导致迭代振荡,甚至无法走到局部优化点。

小批量随机梯度下降

深度学习方法常采用小批量随机梯度下降

【注】超参数需要人为指定数值。

选择批量大小

总结

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1039537.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

比较身高-第15届蓝桥杯第一次STEMA测评Scratch真题精选

[导读]:超平老师的《Scratch蓝桥杯真题解析100讲》已经全部完成,后续会不定期解读蓝桥杯真题,这是Scratch蓝桥杯真题解析第153讲。 第15届蓝桥杯第1次STEMA测评已于2023年8月20日落下帷幕,编程题一共有6题,分别如下&a…

【HUAWEI】trunk和access两种链路模式实例

目录 🥮0.写在前面 🍣基本操作命令 🍣常见视图命令 🥮1、trunkaccess 🍣1.1、拓扑图 🍣1.2、操作思路 🍣1.3、配置操作 🍡1.3.1、LSW1配置 🍡1.3.2、LSW2配置 &#x1f3…

Android Key/Trust Store研究+ssl证书密钥

前言:软件搞环境涉及到了中间件thal trustzone certificate key,翻译过来是thal信任区域证书密钥 ,不明白这是什么,学习一下 ssl证书密钥 SSL密钥是SSL加密通信中的重要组成部分。SSL证书通过加密算法生成,用于保护网…

sgx支持数据库环境配置,编译,debug

环境都编译为debug模式,为了开发,并利用sgx的debugger sgx-gdb进行debug 查看cpu是否支持sgx delldell-Precision-3630-Tower  /nvme  lscpu Architecture: x86_64 CPU op-mode(s): 32-bit, 64-bit Byte…

AUTOSAR中的Crypto Stack(一)--概述

前面我们聊到了比较多的关于信息安全的概念,以及主流MCU的信息安全方案。但从软件工程师的角度来看,最终这些信息安全的概念都是会从软件来实现;如何设计出一种合理、安全的信息安全软件框架,我们从AUTOSAR的加密栈来分析。 该协议栈主要从以下几个方面来介绍: AUTOSAR中…

蓝桥杯打卡Day15天

文章目录 买不到的数目错误票据 一、买不到的数目OJ链接 本题思路:引理:给定a,b,若dgcd(a,b)>1 ,则一定不能凑出最大数。结论:如果 a,b均是正整数且互质,那么由 axby,x≥0,y≥0 不能凑出的最大数是 ab−a−b。 证…

Bigemap如何查看历史影像

工具 Bigemap gis office地图软件 BIGEMAP GIS Office-全能版 Bigemap APP_卫星地图APP_高清卫星地图APP 很多人都在寻找历史影像图,这块的需求是非常大,历史影像一般可以用于历史地貌的变迁分析,还原以前的生态场景,对范围面积…

深入探讨Vue.js:从基础到高级(最佳实践)

文章目录 Vue.js 基础1. Vue.js 是什么?2. Vue 实例3. 双向数据绑定 Vue 组件1. 什么是 Vue 组件?2. 组件之间的通信 Vue 模板语法1. 插值和指令2. 条件和循环3. 事件绑定和表单输入绑定 Vue 路由1. Vue Router安装和配置:导航: 2…

企业做软文推广的三大错误有哪些?媒介盒子为您解答

软文营销已经成为企业宣传的主要方式,但有很多企业来找媒介盒子咨询,明明花了大量成本来做软文推广,为什么就是没效果呢?小编看了下,发现大部分企业做软文推广效果不明显,基本上犯了三大错误,接…

风向对风力机发电的影响

目录 1. 摘要2. 简介 1. 摘要 随着风力发电机的增大,风向随高度的变化(风偏转)在入流风场中起到了至关重要的作用。我们使用明尼苏达大学Eolos风能研究站5年的实地数据集来探讨风偏转的特性及其对涡轮性能的影响。风偏转表现出明显的日变化&…

一款值得入手的双节电池1A电流线性充电芯片-YB4028

概述: YB4028 是一款双节串联锂电池充电管理芯片,集成涓流、恒流、恒压三段式线性充电管理,符合锂电池安全充电规范。充电输入耐压高达20V,充电电流高至 10A,可通过片外电阻配置。 YB4028 集成防倒灌电路,输入电压拔…

大数据flink篇之一-基础知识

一、起源 2010至2014年间,由柏林工业大学、柏林洪堡大学和哈索普拉特纳研究所联合发起名Stratosphere的研究项目。2014年4月,项目贡献给Apache基金会,成为孵化项目。更名为Flink2014年12月,成为基金会顶级项目2015年9月&#xff…

MAC word 如何并列排列两张图片

系统:MAC os 参考博客 https://baijiahao.baidu.com/s?id1700824516945958911&wfrspider&forpc 步骤1 新建一个word文档和表格 修改表格属性 去掉自动重调尺寸以适应内容 插入图片 在表格的位置插入对应的图片如下 去除边框 最终结果如下

数据大爆炸:大数据分析如何改变我们的世界

文章目录 大数据分析的基本概念数据的三个V大数据分析的技术 大数据分析在商业中的应用1. 个性化营销2. 风险管理3. 供应链优化4. 客户服务 大数据分析在医疗保健中的应用1. 疾病预测2. 患者治疗3. 医疗设备监控 大数据分析在科学研究中的应用1. 天文学2. 生物学3. 气象学 大数…

mock.js与组件通信之总线的讲解

目录 一Mock.js 1.1简介 1.2 安装配置Mock.js 1.3 mock.js的使用 二. 组件通信之总线 2.1 总线的简介 2.2 总线的使用-以导航栏的收进为例 好啦今天的分享就到这啦!! 一Mock.js 1.1简介 Mock.js 是一个用于生成随机数据的 JavaScript 库。它可以模拟…

关于vantUI的导航组件tab标签页在ios和安卓中运用遇到的坑

vantTab的默认值 应用场景问题描述原始代码更正代码 应用场景 根据路由传值设置默认tab页,获取不同的数据并进行展示 问题描述 ios可正常按照路由传值默认tab页,安卓始终默认tabList的第一个value值,疑安卓系统中不接受dataMap.tabActive为…

虚拟车衣VR云展厅平台扩大了展览的触达范围

传统展厅主要是以静态陈列的形式来传达内容,主要的展示形式有图片、视频等,具有一定的局限性,体验感较差,客户往往不能深入地了解信息和细节内容。 VR全景看车是通过虚拟现实技术实现逼真的汽车观赏和试乘体验。消费者可以通过智能…

Python图像处理-----几何变换

文章目录 一、图像几何变换理论二、图像平移2.1 使用数学公式的实现方式为:2.2 使用矩阵实现的方式为2.3 使用opencv三、图像缩放3.1 用数学式子表示为公式(a为缩放系数):3.2 用矩阵表示如公式所示:一、图像几何变换理论 图像几何变换不改变图像的像素值,在图像平面上进行像…

Docker ---- network中的命令详解

最近一直在使用docker,记录一些遇到的问题。 问题1:在搭建ealsticsearch与kibana时运行成功后第二次想运行出错了或者访问不了? 因为两个启动的容器是被互相隔离的,没有启用网络的互相通信不了。 问题2:怎么查看自己…

Kafka 运维必懂:从原理到调优,看完秒变大佬

1 Kafka 概述 Kafka 起初是 由 LinkedIn 公司采用 Scala 语言开发的一个多分区、多副本且基于 ZooKeeper 协调的分布式消息系统,现已被捐献给 Apache 基金会。 目前 Kafka 已经定位为一个分布式流式处理平台,它以高吞吐、可持久化、可水平扩展、支持流…