超参数的设置;使用适当的尺度来选择超参数;批量归一化;测试时的批量标准化:

news2025/1/22 21:48:03

超参数的设置:

超参数之间也有重要性差异。通常来说,学习因子α是最重要的超参数,也是需要重点调试的超参数。动量梯度下降因子β、各隐藏层神经元个数#hidden units和mini-batch size的重要性仅次于α。然后就是神经网络层数#layers和学习因子下降参数learning rate decay。最后,Adam算法的三个参数β1,β2,ε一般常设置为0.9,0.999和10−8,不需要反复调试。当然,这里超参数重要性的排名并不是绝对的,具体情况,具体分析。

使用适当的尺度来选择超参数:

均匀随机采样:对于超参数#layers和#hidden units,都是正整数,是可以进行均匀随机采样的,即超参数每次变化的尺度都是一致的(如每次变化为1,犹如一个刻度尺一样,刻度是均匀的)。

非均匀随机采样:超参数α,待调范围是[0.0001, 1]。如果使用均匀随机采样,那么有90%的采样点分布在[0.1, 1]之间,只有10%分布在[0.0001, 0.1]之间。这在实际应用中是不太好的,因为最佳的α值可能主要分布在[0.0001, 0.1]之间,而[0.1, 1]范围内α值效果并不好。因此我们更关注的是区间[0.0001, 0.1],应该在这个区间内细分更多刻度。

通常的做法是将linear scale转换为log scale,将均匀尺度转化为非均匀尺度,然后再在log scale下进行均匀采样。这样,[0.0001, 0.001],[0.001, 0.01],[0.01, 0.1],[0.1, 1]各个区间内随机采样的超参数个数基本一致,也就扩大了之前[0.0001, 0.1]区间内采样值个数。

一般解法是,如果线性区间为[a, b],令m=log(a),n=log(b),则对应的log区间为[m,n]。对log区间的[m,n]进行随机均匀采样,然后得到的采样值r,最后反推到线性区间,即10r。10r就是最终采样的超参数。相应的Python语句为:

m = np.log10(a)
n = np.log10(b)
r = np.random.rand()
r = m + (n-m)*r
r = np.power(10,r)

 除了α之外,动量梯度因子β也是一样,在超参数调试的时候也需要进行非均匀采样。一般β的取值范围在[0.9, 0.999]之间,那么1−β的取值范围就在[0.001, 0.1]之间。那么直接对1−β在[0.001, 0.1]区间内进行log变换即可。

批量归一化:

但是,大部分情况下并不希望所有的z(i)均值都为0,方差都为1,也不太合理。通常需要对z(i)进行进一步处理:

 

 将批量标准化嵌入神经网络中的流程:

 

测试时的批量标准化:

训练过程中,Batch Norm是对单个mini-batch进行操作的,但在测试过程中,如果是单个样本,该如何使用Batch Norm进行处理呢?

首先,回顾一下训练过程中Batch Norm的主要过程:

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/434162.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Python38安装PyAudio过程出现错误如:Failed building wheel for PyAudio等一系列问题】

安装PyAudio过程出现错误:Failed building wheel for PyAudio 目前成功解决解决过程(1) 解决方法1 查看pip支持安装whl文件的命名方式:没解决(2)解决方法2 直接用终端解决 目前成功解决 环境:Windows11、p…

数据库实验 | 第2关:建立和调用存储过程(带输出参数)

任务描述 本关任务: 销售数据库有工作人员、销售单数据表 工作人员gzry数据表有雇员号gyh、姓名gyxm、出生日期csrq、学历xl、工资gz、部门bm、电话dh字段 销售单xsd数据表有销售单号xsdh、会员号hyh、雇员号gyh、销售日期xsrq、应付款yfk、实际付款sjfk字段 任…

JKind入门(二)引擎简介 BMC

如上文所说,JKind 使用了多个并行引擎,协调它们来证明需要检验属性。本文主要介绍 bounded model checking (BMC) 有界模型检验。其中会涉及到有关JKind的 K-induction (k归纳引擎)和 SMT求解机。 本来这些文章就是单纯就是自己的…

C语言进阶之内存操作函数

我们上一期学习的是字符串函数,只能操作字符串,如果我们想拷贝等等操作给一个整型数据或者浮点型数据,又该怎么办呢,就用到我们今天要学的内存操作函数 memcpy 内存拷贝 memmove 内存移动 memset 内存设计 memcpy操作 先来…

【Webpack】前端工程化与webpack

文章目录前端工程化1、小白眼中的前端开发 vs 实际的前端开发2、什么是前端工程化3、前端工程化的解决方案Webpack的基本使用1、什么是 webpack2、创建列表隔行变色项目3、在项目中安装webpack4、在项目中配置webpackWebpack中的插件1、webpack插件的作用2、webpack-dev -serve…

IntersectionObserver与无限滚动加载

学习链接 IntersectionObserver MDN Api IntersectionObserver API详解 Intersection observer 的概念和用法 过去,要检测一个元素是否可见或者两个元素是否相交并不容易,比如实现图片懒加载、内容无限滚动等功能时,都需要通过​getBound…

Java语法理论和面经杂疑篇《十一. JDK8新特性》

目录 1. Java版本迭代概述 1.1 发布特点(小步快跑,快速迭代) 1.2 名词解释 1.3 各版本支持时间路线图 1.4 各版本介绍 1.5 JDK各版本下载链接 1.6 如何学习新特性 2. Java8新特性:Lambda表达式 2.1 关于Java8新特性简介 …

C# | 上位机开发新手指南(十)加密算法——ECC

上位机开发新手指南(十)加密算法——ECC 文章目录 上位机开发新手指南(十)加密算法——ECC前言ECC的特性非对称性可逆性签名安全性高计算量和存储空间小 对比ECC与RSAC#中如何使用ECC加密与解密数据导入与导出秘钥签名与验证 结束…

PyQt Custom Widget

pyuic/pyside6-uic pip install PyQt6 pyqt6-tools或者 pip install PySide6假设你的自定义控件时from vtk.test2.testhead import testfaQ 首先拉一个QWidget 右键Promote to… 在header file里写上 vtk.test2.testhead(写vtk/test2/testhead.h或者vtk/test2/te…

【改进灰狼优化算法】混沌灰狼优化算法(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

当我把chatGPT作为Java面试官,它问了我这些问题

向chatGPT提问 面试官:你好,欢迎参加我们的Java面试。请先自我介绍一下。 面试者:非常感谢,我是一名资深Java开发工程师,具有丰富的Java开发经验。我在过去的五年里,主要从事了企业级Java应用的设计、开发…

VSCode纯手工配置C/C++项目

面向大二同学不想用Visual Studio的需求,探索Visual Studio Code平台上单纯利用C/C纯手动配置的方法,实现Release版本和Debug版本的调试和运行,并指定版本进行调试。 前置依赖项: C/C1 VSCode扩展配置文件列表,将下面的…

设计模式-1

1,设计模式概述 1.1 软件设计模式的产生背景 "设计模式"最初并不是出现在软件设计中,而是被用于建筑领域的设计中。 1977年美国著名建筑大师、加利福尼亚大学伯克利分校环境结构中心主任克里斯托夫亚历山大(Christopher Alexand…

设计模式-行为型模式之命令模式

行为型模式 行为型模式(Behavioral Pattern)是对在 不同的对象之间 划分责任和 算法的抽象化。 行为型模式不仅仅关注类和对象的结构,而且 重点关注它们之间的相互作用。 通过行为型模式,可以 更加清晰地划分类与对象的职责,并研究系统在运行…

Spring入门案例--bean基础配置

bean基础配置(id与class) 对于bean的基础配置&#xff0c;在前面的案例中已经使用过: 1 <bean id"" class""/> 其中&#xff0c;bean标签的功能、使用方式以及id和class属性的作用&#xff0c;我们通过一张图来描述下 这其中需要大家重点掌握的…

少儿编程 电子学会图形化编程等级考试Scratch二级真题解析(选择题)2022年9月

2022年9月scratch编程等级考试二级真题 选择题(共25题,每题2分,共50分) 1、数列:1,2,3,4,6,9,13,19,28,...的下一项是多少 A、37 B、39 C、41 D、47 答案:C 考点分析:考查观察能力和逻辑推理能力,从前面数字可以观察到一些规律: 第4个数字,是由前面…

C++初阶—string类(3)模拟实现

目录 0.前言 1 .构造函数—析构函数—[]重载实现 2.深浅拷贝问题 2.1 浅拷贝 2.2 深拷贝 2.3写时拷贝 3.拷贝函数——赋值重载传统及现代写法 4.迭代器实现 5.reserve、push_back、append、运算符重载 6.insert、erase实现 7.find、关系运算符、流插入流提取等的实现…

学了半个月js 感觉一点都不会 ,怎么办?

前言 结合你的提问的具体情况&#xff0c;我想说如果你不是天才&#xff0c;那仅仅只靠半个月的学习就想掌握js那是绝无可能的&#xff0c;至于你说的感觉一点都不会在我看来是夸大了&#xff0c;极大可能是因为你没有去整合回顾知识&#xff0c;脑里的知识点相当的混乱&#…

Faster-RCNN代码解读7:主要文件解读-下

Faster-RCNN代码解读7&#xff1a;主要文件解读-下 前言 ​ 因为最近打算尝试一下Faster-RCNN的复现&#xff0c;不要多想&#xff0c;我还没有厉害到可以一个人复现所有代码。所以&#xff0c;是参考别人的代码&#xff0c;进行自己的解读。 ​ 代码来自于B站的UP主&#xff…

Chapter12-主从同步机制

12.1 同步属性信息 Slave 需要和 Master 同步的不只 是 消息本身&#xff0c;一些元数据信息也需要 同步&#xff0c;比如 TopicConfig 信息 、 ConsumerOffset 信息 、 DelayOffset 和SubscriptionGroupConfig 信息 。 Broker 在启动的时候&#xff0c;判断自己的角色是否是Sl…