[2022-12-11]神经网络与深度学习 hw12 - 小作业

news2024/11/19 12:41:19

contents

  • hw12 - 不知道该起个什么名字
    • task1
      • 题目内容
      • 题目分析+题目解答
      • 题目总结
    • task2
      • 题目内容
      • 题目分析+题目解答
      • 题目总结
    • task3
      • 题目内容
      • 题目分析+题目解答
      • 题目总结
    • 写在最后

hw12 - 不知道该起个什么名字

task1

题目内容

在小批量梯度下降中,尝试分析为什么学习率要和批量大小成正比。

题目分析+题目解答

首先是小批量梯度下降的中有:
g t ( θ ) = 1 K ∑ ( x , y ) ∈ S t ∂ L ( y , f ( x ; θ ) ∂ θ g_t(\theta)=\frac{1}{K}\sum_{(x,y) \in S_t} \frac{\partial L(y, f(x;\theta)}{\partial \theta} gt(θ)=K1(x,y)StθL(y,f(x;θ)
θ t = θ t − 1 − α g t \theta_t = \theta_{t-1} - \alpha g_t θt=θt1αgt
==> θ t = θ t − 1 − α K ∑ ( x , y ) ∈ S t ∂ L ( y , f ( x ; θ ) ∂ θ \theta_t = \theta_{t-1} - \frac{\alpha}{K}\sum_{(x,y) \in S_t} \frac{\partial L(y, f(x;\theta)}{\partial \theta} θt=θt1Kα(x,y)StθL(y,f(x;θ)
不难发现 α ∝ α K ∝ θ t \alpha \propto \frac{\alpha}{K} \propto \theta_t αKαθt,学习率和批量大小成正比时效果最好。
□ \square

题目总结

本题考查的是梯度下降中梯度和参数更新的公式,以及对于公式的理解。

task2

题目内容

在Adam算法中,说明指数加权平均的偏差修正的合理性。

题目分析+题目解答

我们知道Adam算法的算法逻辑和更新规则:
在这里插入图片描述
不难发现,当 ρ 1 → 1 且 ρ 2 → 1 \rho_1→1且\rho_2→1 ρ11ρ21时, lim ⁡ ρ 1 → 1 s t = s t − 1 , lim ⁡ ρ 2 → 1 r t = r t − 1 \lim_{\rho_1→1}s_t=s_{t-1},\lim_{\rho_2→1}r_t=r_{t-1} limρ11st=st1limρ21rt=rt1,此时梯度消失,指数加权平均需要进行偏差修正。
□ \square

题目总结

本题考查的是Adam算法更新参数的过程,以及其存在的梯度消失问题和偏差修正算法。

task3

题目内容

证明在标准的随机梯度下降中,权重衰减正则化和 l 2 l2 l2正则化的效果相同。并分析这一结论在动量法和Adam算法中是否依然成立。

题目分析+题目解答

L 0 L_0 L0为第t步时的损失函数,则
L t = L 0 + λ Ω ( θ ) = λ 2 ∣ ∣ ω ∣ ∣ 2 L_t = L_0 + \lambda \Omega(\theta)=\frac{\lambda}{2}||\omega||^2 Lt=L0+λΩ(θ)=2λω2
∂ L ∂ ω = ∂ L 0 ∂ ω + λ ω , ∂ L ∂ b = ∂ L 0 ∂ b \frac{\partial L}{\partial \omega} = \frac{\partial L_0}{\partial \omega} + \lambda \omega, \frac{\partial L}{\partial b} = \frac{\partial L_0}{\partial b} ωL=ωL0+λω,bL=bL0
进行SGD,可得:
ω n e w ← ω − η ( ∂ L 0 ∂ ω + λ ω ) \omega_{new}←\omega - \eta(\frac{\partial L_0}{\partial \omega} + \lambda \omega) ωnewωη(ωL0+λω)
= ( 1 − η λ ) ω − η ∂ L 0 ∂ ω =(1-\eta\lambda)\omega-\eta\frac{\partial L_0}{\partial \omega} =(1ηλ)ωηωL0
同理, b n e w ← b − η ∂ L 0 ∂ b b_{new}←b-\eta\frac{\partial L_0}{\partial b} bnewbηbL0
可得:
θ t ← ( 1 − β ) θ t − 1 − α g t \theta_t←(1-\beta)\theta_{t-1}-\alpha g_t θt(1β)θt1αgt
β = η λ \beta=\eta\lambda β=ηλ或令 λ = η β \lambda=\frac{\eta}{\beta} λ=βη可使权重衰减正则化和 l 2 l2 l2正则化的效果相同。
□ \square
对于Adam算法,L2正则化梯度更新的方向取决于最近一段时间内梯度的加权平均值。当与自适应梯度相结合时(动量法和Adam算法),L2正则化导致导致具有较大历史参数 (和/或) 梯度振幅的权重被正则化的程度小于使用权值衰减时的情况。

题目总结

本题考查的是正则化的计算和参数更新的过程,以及其在特殊情况下的等价情况。

写在最后

本章介绍了网络正则化和网络优化的相关知识,通过学习这些内容,我们能够对于网络的优化问题有一个很好的认识,这边给出这一章的思维导图:
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/82186.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

苦卷28天,P9大佬给我的Alibaba面试手册!终于成功踹开字节大门

怎么说呢,今年真的是寒气逼人啊!在这个大环境下,裁员已经不算是特别的事情,粗暴裁员也许是未来一种趋势…在职的卷的起飞,离职的找不到好工作。 做点能做的:跑跑步骑骑车多锻炼;当当上面正版书…

[附源码]Python计算机毕业设计大学生心理健康管理系统Django(程序+LW)

该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程 项目运行 环境配置: Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术: django python Vue 等等组成,B/S模式 pychram管理等…

eNSP综合实验合集(eNSP综合大作业合集)_可先收藏

作者:BSXY_19计科_陈永跃BSXY_信息学院注:未经允许禁止转发任何内容**注:在该文章中就只对ensp综合实验做一个总结和归纳,只给出相应的topo图和需求说明和对应的文章的连接。有什么问题也可以私信我,看到都会回复的。文…

picoCTF 密码学方向RSA算法做题记录

RSA算法原理: https://blog.csdn.net/qq_45894840/article/details/128204460?spm1001.2014.3001.5502Mind your Ps and Qs 题目描述:In RSA, a small e value can be problematic, but what about N? Can you decrypt this? 下载题目 在这里可以看…

初级软件测试面试会问什么 掌握好这两几个方法,还怕拿捏不住hr?

初级软件测试工程师大多为新入门的小白,在经历面试时,往往也是最忐忑的一部分人,为此,我特为大家整理了一些初级软件测试面试会问的问题,帮助你们在面试时能够从容不迫的回答出hr的问题,拿下offer&#xff…

Python实现PSO粒子群优化卷积神经网络CNN分类模型项目实战

说明:这是一个机器学习实战项目(附带数据代码文档视频讲解),如需数据代码文档视频讲解可以直接到文章最后获取 1.项目背景 PSO是粒子群优化算法(Particle Swarm Optimization)的英文缩写,是一种…

ESB产品UI升级总结

一款好的产品需要不断地打磨才能变得更完整、更稳定。企业服务总线ESB产品作为数通畅联的核心产品,为了能够更好地迎合客户的需求,实现更好的视觉效果和体验感,需要不断地迭代升级。 本次升级主要是针对整体页面进行优化以及对部分功能进行修…

【C++】vector迭代器失效与深浅拷贝问题

vector迭代器失效与深浅拷贝问题 文章目录vector迭代器失效与深浅拷贝问题一、vector迭代器失效问题1. insert迭代器失效1.1.扩容导致野指针1.2.迭代器指向位置意义改变1.3.windows下VS中标准库和Linux下g中标准库对insert迭代器失效的处理2. erase迭代器失效2.1.迭代器失效指向…

UniMSE(2022)统一的多模态情感分析与情感识别(多层融合和对比学习)

论文题目(Title):UniMSE: Towards Unified Multimodal Sentiment Analysis and Emotion Recognition 研究问题(Question):短情绪emotions和长情绪sentiments的分析和识别 研究动机(Motivation…

JAVA之 Maven进阶 分模块开发与设计 依赖管理 聚合 继承 属性 多环境配置与应用 私服

分模块开发意义 我们先创建一个模块并设计相应的内容,pom文件中会有该模块的信息 然后运用maven的install运行,下载该模块的jar到本地仓库 然后需要用到该模块的时候 我们在另一个模块的pom中导入创建的模块坐标就可以了 依赖管理 依赖具有传递性 直…

北京智汇云舟科技数字孪生三大创新应用场景

目前,数字孪生技术正在通过各种行业以无数不同的方式被使用,以产生一些惊人的效果。世界各地不同行业的公司正在采用数字孪生系统来改进从流程到供应链管理、从设施管理到满足能源和可持续发展目标的方方面面。今天我们将重点从轨道交通、学校、能源水利…

NeurIPS 2022-10大主题、50篇论文总结

2672篇主要论文,63场研讨会,7场受邀演讲,包括语言模型、脑启发研究、扩散模型、图神经网络……NeurIPS包含了世界级的AI研究见解,本文将对NeurIPS 2022做一个全面的总结。 第36届Neural Information Processing Systems Conferenc…

“美亚杯”第二届中国电子数据取证大赛答案解析(团体赛)

1. 根据所提供的文件,在映像文件的采集过程中,曾使用那一种的写入保护设备? A)软件写入保护设备 B)WiebeTech写入保护设备 C)EPOS写入保护器 D)Tableau取证工具SATA / IDE Bridge IEEE 1394…

内容完美!阿里技术官21年新肝出了一份MySQL笔记+面试题

目录 共有12个章节的内容,看大标题就知道全部都是MySQL的重要知识! 内容过多,没有办法全部展示 部分内容截图 Mysql权限 MySql数据类型 锁 业务设计 索引与执行计划 MySQL面试笔记 面试笔记分为6章,分别是MySQL基础篇、MySQL索引…

【脚本项目源码】Python制作多功能音乐播放器,打造专属你的音乐播放器

前言 本文给大家分享的是如何通过利用Python实现多功能音乐播放器,废话不多直接开整~ 开发工具 Python版本: 3.6 相关模块: os模块 sys模块 time模块 random模块 PyQt5模块 环境搭建 安装Python并添加到环境变量,pip安…

Pro_12丨为股指而战

量化策略开发,高质量社群,交易思路分享等相关内容 『正文』 ˇ 大家好,今天我们分享2022年度最后一期策略——股指专属策略。本期策略是2022年专门为股指而开发的专属策略,算是我个人对明年的一厢情愿吧! 该策略由超…

剑指Serverless, 入围Forrester Wave, 6.5 LTS 预览,TiDB 多元数据生态再升级 | PingCAP DevCon 2022

2022 年 12 月 1 日 - 3 日,由 PingCAP 主办的年度数据技术盛会 PingCAP DevCon 2022 在线上成功举行。本届 DevCon 以 "去发现,去挑战" 为主题,邀请了多位行业意见领袖、专家学者和 70 多位来自全球的技术大咖聚焦云原生、HTAP、S…

打造家居建材企业核心竞争力,数商云SCM管理系统高效高质满足企业采购需求

随着消费水平的提高和消费观念的升级,中国房地产市场从增量时代走向存量时代,作为家居建材家装业的上游,房地产行业的变动影响着家居建材行业的发展。当前家居建材行业正处于调整分化、转型升级的关键时期,也是创新动力最强的时期…

Docker-数据卷(Data Volumes)dockerfile

目录 一,宿主机与容器之间的文件拷贝 1.1 容器中怎么上传项目(文件) 1.2 从宿主机拷贝文件到容器 1.3 从容器中拷贝文件到宿主机 二 数据卷 三 数据卷容器 四 Dockerfile Dockerfile制作增强版 自定义centos 具备vim以及ifconfig Dock…

nodejs+vue农产品进销存管理系统

摘 要 I ABSTRACT II 目 录 II 第1章 绪论 1 1.1背景及意义 1 1.2 国内外研究概况 1 1.3 研究的内容 1 第2章 相关技术 2 2.5 MySQL数据库 3 第3章 系统分析 4 3.1 需求分析 4 3.2 系统可行性分析 4 3.2.1技术可行性:技术背…