week 7 吴恩达 调参 ,batch norm,softmax

news2024/9/22 1:13:46

文章目录

  • 前言
  • 7.1调整参数的过程 Turing progress
  • 7.2、scale
  • 7.3 如果在实践中探寻超参数
  • 7.4 batch normalization 批量归一化
  • 7.5 将BN算法拟合到神经网络中
  • 7.6 为什么 BN有效?
  • 7.7测试时的BN
  • 7.8 7.9 softmax regression
  • 7.10深度学习的框架


前言


7.1调整参数的过程 Turing progress

对于维度小,数据少的数据,我们可以采取普通的网格搜索,对于其中的每个参数组合都进行一遍拟合模型。
在这里插入图片描述
比如有两个参数,左侧的就是网格搜索。
但是这种方法并不好,如果一个超参数是学习率,一个超参数是Adam中的eplision,我们知道学习率比eplision重要太多,如果是左侧这种方法,则我们训练25个模型,但其中只相当于训练了5个,因为只取了5个不同的α值。
但是对于右侧这种随机的组合,我们同样的训练25个模型,但是其中α的取值比左侧多了不少,更有可能较快的找到一个参数组合。
这两种一个是充分搜索,一个是随机搜索,同时我们也可以随机搜索之后再采用从粗到精的搜索。
在这里插入图片描述

course to fine
比如我们发现圈住的点的性能都差不多,如果我们确定我们可以在这个范围内找到好的参数的话,则我们可以继续在这个方框内进行更精密的参数搜索。逐步求精。

7.2、scale

7.1我们可以选取参数空间,但是我们应该知道,这个随机均匀抽样可能并不是均匀的,我们需要选取适当的参数规模scale才可以。
比如对于学习率alpha 如果我们限定下限是0.001,上限是1的话,
我们如果采用随机搜索,那我们则百分之90的精力都放在搜索0.1-1之间的值了
在这里插入图片描述
这显然是不公平的,我们应该采用适当的规模,如在对数尺度上来实现真正的随机均匀取样。
比如0.0001是10的-4次方,1是10的0次方。
在python中,我们可以这样写
r=np.random.rand()*-4 此时r的范围是【-4,0】
我们可以在-4,0中随机取值,
之后让a=10的r次方 即可得到α的值。这就是在对数尺度上来实现随机均匀取样。
比如在动量中的β
在这里插入图片描述
我们取下限是0.9,上限是0.999
我们可以按照1-β来 这样就变成了 0.001-0.1 就与上文α的方法相同了

7.3 如果在实践中探寻超参数

一般而言 有两种方式,
这两种方式也取决于我们CPU和GPU的性能
在这里插入图片描述
如果CPU的性能不够好,我们可能一次只能训练一个模型,之后在适当的调整参数,继续训练该模型。

如果CPU性能足以支撑我们去同时训练多个模型的话,那我们便可以采用像右图这样,并行训练多个模型,多组超参数值,这样我们只需要在一次训练之后选用性能最好的便可。


7.4 batch normalization 批量归一化

在逻辑回归中,我们讲过,采用归一化 即均值方差归一化,可以使我们的数据相对在每个维度上都更平均,能够更快的收敛,提高效率。
那么在神经网络中呢?我们当然也可以对隐藏层的z或a进行归一化。一般而言都是对z进行归一化。
比如对第二层的z进行归一化,它影响着第三层的w和b,归一化之后可以更加方便计算。

比如对第l层的z进行归一化。
采用四步。
在这里插入图片描述

最后一步γ和β都是一个超参数。因为我们可能并不希望每一层的均值都为0,方差都为1,通过调节这两个参数,我们就可以控制任意的均值和方差了。

7.5 将BN算法拟合到神经网络中

在这里插入图片描述
如果是mini-batch
①: 将训练集分为m份
之后对每一份进行迭代。
②:在每一份上进行向前传播,在之前向前传播的基础上用BN算法来代替原来的Z
③计算损失函数
④向后传播,计算梯度,我们要计算dW,db,dγ 和dβ。
我们知道刚开始对z首先进行均值为0,方差为1化,所以z=W*A【L-1】+b的b是没有用的,因为b是一个常数,会被当做均值减掉,最后用beta来代替b表示偏置值,但是在实际计算梯度中我们还是会计算db。
⑤参数更新,这里我们可以采用批量梯度,也可以采用动量梯度,或者rmsprp或Adam

7.6 为什么 BN有效?

首先我们可以通过逻辑回归看出,对输入值进行归一化可以加速我们的算法效率。
其次,如果对于同一个真函数,如果x-y的映射没有变,只是x的分布变化了,协变量问题,那我们也需要重新训练模型,比如判断一幅图片是否是一只猫,这个真函数没有变,只是猫的大小颜色等分布变化的话,其实本不用重新去训练模型的。
在这个问题上,我们也可以说明BN有效,因为如果加入了BN,我们可以使神经网络后边的层数对前边层的依赖减小,因为经过BN,前边的数值的均值为0方差为1,或者均值方差是我们通过γ和β设置的其他值。尽管分布有变化,但是均值方差是没有变的,对数据变化的依赖减小。
最后这不是重要的,只是BN算法的一个额外作用而已。在mini-batch中因为是对一份一份的数据求均值与方差必然不如在整体数据上求,相当于有噪声,既然有噪声,那我们后边层数对前边的依赖减小,这与dropout有异曲同工之妙,使权重相对减小,相当于加入了一些正则化。mini-batch的size增大,相当于噪声减少,正则化程度也会相应减小。
但是我们应该知道BN主要是归一化,正则化只是一个副作用,可以忽略。

7.7测试时的BN

在训练数据集上,我们很容易便可以得到μ和方差,但是在测试数据集上,我们有时候只有一个测试数据,是没有办法求均值和方差的,所以此时我们需要估计均值和方差,以便对这个数据进行BN操作,我们可以采用指数加权的方式,把之前在mini-batch上的μ和方差都保存住,然后采用指数加权的方式来估计。

7.8 7.9 softmax regression

之前我们的分类问题都是二分类问题,采用softmax激活函数 我们可以实现多分类问题。
之前我们都是输出一个值,但是对于多分类问题我们往往需要输出这些类别的概率,就不只是一个值了。
在这里插入图片描述

在这里插入图片描述
输出是每个类别的概率,之后再输出相应的类别。
那么softmax对应的损失函数又是什么呢
在这里插入图片描述
y是我们数据样本最后输出的类别,yhat是我们模型预测出来的概率
如本例中,损失函数的大小取决于yhat2,yhat2越大,则我们损失函数越小,因为最后预测出来的是第二个类别,第二个类别的概率越大则越准确。
反向传播时的一个公式
在这里插入图片描述
这里的y和yhat都是一个c行m列的向量,c是类别数。与之前的不同 之前是1行m列,因为之前是二分类问题,只用求得一个概率另一个概率自然也就明了。c=2时其实就相当于逻辑回归了。

7.10深度学习的框架

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/99198.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CentOS 8:环境变量

环境变量 环境变量,就是放在当前环境中的变量 无论Linux ,还是Windows,都有环境变量 比如,最常用的环境变量 PATH, JAVA_HOME 定义环境变量 export JAVA_HOME/opt/jdk1.8 显示环境变量 echo $JAVA_HOME 查看所有环境变量…

c语言位操作和变量存储类型

c语言位操作 c语言变量存储类型 格式[存储类型说明符] 数据类型说明符 变量名,例如,auto int a;但一般情况下auto是省略的 其他类型说明符还有:static 、extern、register auto最普通动态存储,但所在范围的函数程序结束后&#xf…

处理模型视图中的选择

有关在视图中选择的项的信息存储在QItemSelectionModel类中,这将维护单个模型中项的模型索引,并且独立于任何视图。由于一个模型可以有多个视图,因此可以在视图之间共享选择,从而允许应用程序以一致的方式显示多个视图 选择由选…

Redis高并发锁(二)乐观锁

文章目录redis乐观锁1. watch 监控key2. multi 开启事务3. exec 执行事务4. 演示1) 先用两个连接AB访问redis2) A监控key,此时库存是45013) A开启事务,并且将库存-1,事务进入队列等待执行4)此时B更新库存为20015)A开始执行事务业务改造1. Sto…

C++11--包装器与可变参数摸板

文章目录可变参数模板递归函数方式展开参数包函数包装器举个例子bind函数举个例子可变参数模板 C11的新特性可变参数模板能够让我们创建可以接受可变参数的函数模板和类模板 // Args是一个模板参数包,args是一个函数形参参数包 // 声明一个参数包Args... args&…

Spring Cloud之Feign消费和Hystrix熔断

Spring Cloud的Feign消费和Hystrix熔断 现如今,由于互联网的流行,很多特产都可以在网上订购,你可以在堆满积雪的冬北订购海南的椰子,海南的椰子就会采用很快的物流方式调送到堆满积地的东北,就相当于在本地实现了买椰…

Opencv(C++)笔记--图像金字塔

目录 1--图像金字塔的原理 2--图像金字塔的用途 3--Opencv API 3-1--拉普拉斯金字塔上采样 3-2--高斯金字塔下采样 3-3--代码实例 4--参考 1--图像金字塔的原理 图像金字塔常用于图像缩放(resize)和图像分割当中,不同分辨率的图像以金…

CSS基础总结(四)浮动

文章目录 一、为什么需要浮动 1.传统网页布局的三种方式 2.标准流 二、浮动的概述 三、浮动的特性 1.脱标 2.一行显示,顶部对齐 3.具备行内块元素特性 四、清除浮动 1.为什么要清除浮动 2.清除浮动的本质与策略 3.清除浮动的四大方法 (1&…

解决安卓刷新recyclerView时导致itemDecoration分栏标题绘制错乱(重叠和隔空现象)

安卓的 itemDecoration 装饰器是个好东西,可以与adapter适配器一样闪耀。但是刷新的时候有可能发生重叠绘制或者莫名隔空的BUG。 三、原作 本文分栏标题装饰器的原作者为简书博主endeavor等人: https://www.jianshu.com/p/8a51039d9e68 二、隔空 紧…

Java+MySQL基于ssm的残疾人管理系统

我国残疾人人口数量相当巨大,据中残联给出的数据,我国约有8500万残疾人。残疾人是社会弱势群体,并且数量庞大影响人数众多,如何能更好的对这些残疾人进行关注和帮助他们更好的生活是当下社会研究的一个主要问题之一,于是我们提出了残疾人信息管理系统的设计与开发。 本课题是一…

内核驱动修改内存

概述 本文会利用内核驱动进行读写取第三方应用内存。 内核实现会使用内联汇编 所以对于内核数据结构每个windwos版本不一样需要判断,本文使用19041所写代码。 命令行:winver 即可查看你当前的版本,如下图19042.631 就是构建版本号 或者调用…

痞子衡嵌入式:低功耗高性能边缘人工智能应用的新答案 - MCXN947

大家好,我是痞子衡,是正经搞技术的痞子。今天痞子衡给大家介绍的是恩智浦MCX系列MCU的新品MCXN947。 自 2015 年恩智浦和飞思卡尔合并成新恩智浦之后,关于它们各自的 Arm Cortex-M 内核通用微控制器代表作系列 LPC 和 Kinetis 接下来怎么发展…

数据结构 | 链式二叉树【递归的终极奥义】

递归——这就是俄罗斯套娃吗😮🌳链式二叉树的结构及其声明🌳链式二叉树的四种遍历方式📕先序遍历(先根遍历)递归算法图解📕中序遍历(中根遍历)📕后序遍历&…

TIA PORTAL 导出导入数据块

1.导出:选择要导出的数据块鼠标右键-->从块生成源-->仅所选块或包含所有关联块-->最后选择数据块的存储路径保存 2.导入:选外部源文件-->添加新的外部文件-->选择要导入的数据块文件-->单击文件鼠标右键-->从源生成块,最…

Vue3——ref(),reactive(),watch(),computed()的使用

都需要先引入才能使用 ref()函数 作用:创建一个响应式变量,使得某个变量在发生改变时可以同步发生在页面上 模板语句中使用这个变量时可以直接使用变量名来调用,在setup内部调用时则需要在变量明后面加上一个.value获取它的值,原…

记录一次使用卷积神经网络进行图片二分类的实战

写在前面 笔者目前就读的专业是软件工程,并非人工智能专业,但是由于对人工智能有兴趣,于是课下进行了一些自学。正巧最近有些闲暇时间,就想着使用自学的内容做个小型的实战。这篇文章的主要目的也就是从一个入门者的角度&#xf…

【C++】list

本期就来讲讲list的使用技巧 文章目录list的介绍及使用list的介绍list迭代器失效list的模拟实现list与vector的对比我们前面知道迭代器是一个像指针一样的东西,但是在C里面,出来string和vector,其他类都不能 将迭代器当成指针使用&#xff0c…

二叉树的非递归与相关oj

🧸🧸🧸各位大佬大家好,我是猪皮兄弟🧸🧸🧸 文章目录一、二叉树相关oj①二叉搜索树与双向链表②前序遍历和中序遍历构造二叉树二、二叉树的非递归①前序遍历非递归②中序遍历非递归③后序遍历非…

简单的算法思想 - 利用快慢指针解决问题 - 寻找链表中的中间节点,回文序列,倒数第k个节点 - 详解

文章目录1. 寻找链表中倒数第K个节点1.1. 思路分析1.2 代码实现2. 寻找链表中的中间结点2.1 思路概述2.2 代码实现3. 链表的回文结构3.1 思路分析3.2 代码实现总结✨✨✨学习的道路很枯燥,希望我们能并肩走下来! 本文通过寻找链表中的中间节点&#xff0…

汽车托运网址

开发工具(eclipse/idea/vscode等): 数据库(sqlite/mysql/sqlserver等): 功能模块(请用文字描述,至少200字): 基于Web的汽车托运网站的设计与实现 网站前台:关于我们、联系我们、公告信息、卡车类型、卡车信息、运输评论…