【动手学深度学习】5.2 参数管理(个人向笔记+代码注释)

news2024/11/28 0:45:07
  • 之前的课程中,我们只是通过深度学习框架完成训练的工作,而忽略了操作参数的具体细节。
  • 所以我们我们介绍的内容有:
    • 访问参数,用于调试,诊断和可视化
    • 参数初始化
    • 在不同的模型组件间共享参数
  • 下面是一个有单隐藏层的多层感知机
    在这里插入图片描述

1. 参数访问

  • 如果我们是通过Sequential来定义模型的,那么我们就可以通过下标来访问参数。如下我们检查了第二个全连接层的参数
    在这里插入图片描述
  • 输出的结果有两个信息:
    • 这个全连接层包含两个参数:该层的权重和偏置
    • 两者都储存为单精度浮点数(注意参数名称标识每一个参数)

1.1 目标参数

  • 每个参数都表示为参数类
  • 下面提取了第二个全连接层的偏置,提取后返回的是一个参数类实例,并进一步访问该参数的值
    在这里插入图片描述
  • 参数是复合的对象,包含值,梯度和额外信息。所以我们需要显示地去访问参数的值,除了值之外我们还可以访问每个参数的梯度。
  • 在上面的网络,我们还没有调用反向传播,所以还没有梯度
    在这里插入图片描述

1.2 一次性访问所有参数

  • 对所有参数进行操作时,逐个访问可能会有点麻烦
  • 而在处理复杂的块,比如嵌套快时。情况可能会变得特别复杂,我们需要递归整棵树来获取每个子块的参数
  • 下面我们看看如何访问第一个全连接层和所有层
    在这里插入图片描述
  • 由上面的结果我们发现还可以这样来访问网络参数
    在这里插入图片描述

1.3 从嵌套快收集参数

  • 我们可以看看当多个块相互嵌套时,参数是如何命名的,我们定义一些生成块的函数,然后将这些块组合到更大的块中
    在这里插入图片描述
  • 我们print这个网络看看是怎么样的
    在这里插入图片描述
  • 由于层是分层嵌套的,所以我们也可以嵌套列表索引来访问它们。下面我们访问第一个块中的第二个子块的第一个偏置
    在这里插入图片描述

2. 参数初始化

  • 深度学习框架默认随机初始化,也允许我们自定义初始化
  • 默认情况下:PyTorch会根据一个范围均匀地随机初始化权重和偏置矩阵,这个范围是根据输入和输出的维度计算的。
  • PyTorch的nn.init模块提供了多种预置初始化方法

2.1 内置初始化

  • 我们首先调用内置的初始化器,下面的代码将所有权重参数初始化为0.01的高斯随机变量,且将偏置参数设置为0
    在这里插入图片描述
  • 也可以将所有参数初始化为给定的常数
    在这里插入图片描述
  • 还可以对不同的块用不同的初始化方法,用下标标识即可
    在这里插入图片描述
  • 对于上面的Xavier初始化,介绍如下:
    在这里插入图片描述

2.2 自定义初始化

  • 有时框架里面没有我们需要的初始化方法,这时我们就需要自己定义初始化
  • 下面我们用以下的方法来初始化权重
    在这里插入图片描述
  • 实现如下
    在这里插入图片描述
  • 我们始终可以直接去设置参数
    在这里插入图片描述

2.3 参数绑定

  • 有时候我们希望多个层之间共享参数,我们可以定义一个稠密层,然后用它的参数来设置另一个层的参数
    在这里插入图片描述
  • 这个例子表明第三个和第五个神经网络是绑定的。它们不仅值相等,而且由相同的张量表示。因此我们只要改变其中一个的参数,另一个的参数也会改变
  • 当参数绑定时,梯度会发生什么情况?答案时由于模型参数包含梯度,因此在反向传播时第三个神经网络层和第五个神经网络层的梯度会加在一起

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2206735.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于Python flask的豆瓣电影可视化系统,豆瓣电影爬虫系统

博主介绍:✌Java徐师兄、7年大厂程序员经历。全网粉丝13w、csdn博客专家、掘金/华为云等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇🏻 不…

猿人学 — 第1届第17题(解题思路附源码)

猿人学 — 第1届第17题 根据题目“天杀的Http2.0”大概知道,请求的协议应该遵照的是Http2.0协议,并且目标网站专门对此进行了检测,在Network面板中右键表头,勾选Protocol 果不其然,一堆请求都是遵照Http2.0协议。而u…

2023年4月自考《数据库系统原理》04735试题

目录 一:选择题 二:填空题 三:设计题 四:简答题 五:综合题 一:选择题 1.在数据库系统中,专门用户建立和管理数据的软件是 (书中)P28页 A.DBS B.DB C.DBA D.DBMS 2.通常所说的数据库系统容不包括 (书中)P29页 A.应用程序 B.数据库管理员 C.用户 D.网络环境 …

Datawhale 组队学习 文生图 Prompt攻防 task01

文生图大模型面临着巨大的滥用风险,如生成虚假、违法违规、血腥恐怖或歧视仇恨的图片,评估此类模型和系统的安全防范能力至关重要。 赛题背景:从产业应用需求出发,体验为大模型注入生成式“风险疫苗”,透视大模型生图潜…

Java SE vs Java EE 与 JVM vs JDK vs JRE

Java SE(Java Platform,Standard Edition): Java 平台标准版,Java 编程语言的基础,它包含了支持 Java 应用程序开发和运行的核心类库以及虚拟机等核心组件。Java SE 可以用于构建桌面应用程序或简单的服务器应用程序。…

聚类分析 | IPOA优化FCM模糊C均值聚类优化算法

目录 效果一览基本介绍程序设计参考资料 效果一览 基本介绍 (多图聚类)IPOA优化FCM模糊C均值聚类优化算法,matlab代码,超多图 基于改进的鹈鹕优化算法(IPOA)优化FCM模糊C均值聚类优化,matlab代码,直接运行…

万字长文解读预测市场的历史发展与未来前景

撰文:Alex Nardi,Shoal Research 编译:Yangz,Techub News 文章要点: 预测市场的发展和影响:预测市场利用集体智慧预测未来事件的能力日益得到认可,对政治、金融、娱乐和流行文化等领域产生了重…

HiRT | 异步控制策略,告别VLA时延问题

论文:HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers 前言:HiRT 通过异步处理的策略,将 VLM 作为低频慢思考过程,将轻量的动作策略模型作为高频快响应过程 ,以此解决 VLA 驱动带来的控制时延问…

Ubuntu22.04环境下源码安装OpenCV 4.8.1

因为项目需要用OpenCV对yolov8模型进行推理,通过DNN模块,之前本地的OpenCV版本是4.5.4(好像安装完ROS2 humble之后系统就自带了opencv),加载onnx模型一直报错,网上查询到需要4.7以上,干脆直接升…

vue3之依赖注入provide(提供)/inject(注入)

通常情况下,需要从父组件传值到子组件使用props足以,但是如果是深层嵌套的组件,如果某个深层的组件想要得到祖先组件的部分数据,使用props的话需要沿着各个嵌套的组件着层传递数据,而在传递过程中的组件压根就不需要使…

你了解 SpringBoot 在一次 http 请求中耗费了多少内存吗?

在实际工作中,经常会需要进行在全链路压测,优化 GC参数,优化 JVM 内存分配。 当知道 1 次 RPC 请求和 Http 请求需要的堆内存大小后,你可以精确地计算:指定的并发量之下,系统需申请多少堆内存。同时结合 J…

若依 根据角色权限 动态添加路由 学习

源于这个问题对若依权限改造的学习,用ASP.NET Core Web api 做后端,所以不是纯净的若依前端,有部分改过。 ​​​​​​​若依 从字典类型跳到字典数据跳到了404-CSDN博客 从路由守卫获取到用户信息开始,到路由跳转结束的过程 …

小猿搜题冲榜/刷排名/专用思路-理论速度1小时/3.6w分 附带0s教程

小猿搜题冲榜/刷排名/专用思路-理论速度1小时/3.6w分 附带0s教程 ⚠️:这个方法很多还需要手动操作,我目前无法用代码完全实现,如果你有兴趣可以给我提issue我们一起讨论。 冲榜思路 先说整体思路:抓包改答案adb模拟 之后详细…

10月更新|国内可用的ChatGPT攻略镜像中文网站

一、GPT中文镜像站 ① yixiaai.com 支持GPT4、4o以及o1,支持MJ绘画 ② chat.lify.vip 支持通用全模型,支持文件读取、插件、绘画、AIPPT ③ AI Chat支持GPT3.5/4,4o以及MJ绘画 1. 什么是镜像站 镜像站(Mirror Site&#xff0…

【GO基础学习】环境安装到基础语法(1)

文章目录 环境安装GoLand 安装GO基础GO特点类型和函数Init函数和main函数GO命令下划线变量和常量数组切片Slice 引用 环境安装 下载地址:https://www.golangroadmap.com/ 安装目录文件说明: api:每个版本的 api 变更差异。 bin&#xff1…

JAVA 字符串 trim() 方法的正确使用

JAVA类里面 trim() 方法大家都比较熟悉,就是用来清除掉字符串首尾的空白字符。但在一次程序运行崩溃后,查找具体原因时,发现是由字符串末尾的一个回车符号 "\r" 所导致的。于是有机会仔细读了下该方法的 java 文档说明。其中一段内…

Docker理念

1.为什么会出现Docker Docker 的出现并非偶然,而是由一系列技术发展趋势和实际需求所推动的一项技术创新。 随着软件行业的快速发展,开发团队的规模不断扩大,成员可能分布在不同的地理位置,使用不同的操作系统和开发工具。这就导致…

CSD(computational storage devices)架构介绍

CSD(computational storage devices)架构介绍 前言一、CSD与传统SSD的架构对比二、为什么要采用FPGA三、FPGA缺点四、个人总结reference 前言 虽然一直有接触CSD,但一直对其原理和架构知之甚少,半知不解。今天,趁着我还…

element-ui点击文字查看图片预览功能

今天做一个点击文字查看图片的功能&#xff0c;大体页面长这样子&#xff0c;点击查看显示对应的图片 引入el-image-viewer&#xff0c;点击的文字时候设置图片预览组件显示并传入图片的地址 关键代码 <el-link v-if"scope.row.fileList.length > 0" type&…

模型预测控制工具包——ACADO:简介、安装与测试

模型预测控制工具包——ACADO&#xff1a;简介、安装与测试 ACADO 工具包简介ubuntu20.04 安装 ACADO工具包安装依赖安装ACADOtoolkit 测试 ACADO 工具包简介 ACADO Toolkit 是一个用 C 编写的用于自动控制和动态优化的软件环境和算法集合。 它提供了一个通用框架&#xff0c;…