机器(深度)学习中的 Dropout

news2024/11/26 21:34:35

这篇文章[1]中,我将主要讨论神经网络中 dropout 的概念,特别是深度网络,然后进行实验,通过在标准数据集上实施深度网络并查看 dropout 的影响,看看它在实践中实际影响如何。

1. Dropout是什么?

术语“dropout”是指在神经网络中丢弃单元(包括隐藏的和可见的)。

简单来说,dropout 是指随机选择的某组神经元在训练阶段忽略单元(即神经元)。 “忽略”是指在特定的前向或后向传递过程中不考虑这些单元。

详细的就是,在每个训练阶段,单个节点要么以 1-p 的概率退出网络,要么以 p 的概率保留,这样就剩下一个缩小的网络;也删除了到丢弃节点的传入和传出边。

2. 为什么需要Dropout?

鉴于我们对 dropout 有所了解,一个问题出现了——为什么我们需要 dropout?为什么我们需要关闭神经网络的某些部分?

这些问题的答案是“防止过拟合”。

全连接层占据了大部分参数,因此,神经元在训练过程中相互依赖,这抑制了每个神经元的个体能力,导致训练数据过拟合。

3. 重新审视 Dropout

现在我们对 dropout 和动机有了一些了解,让我们来详细了解一下。如果你只是想了解神经网络中的 dropout,那么以上两节就足够了。在本节中,我将涉及更多技术细节。

在机器学习中,正则化是防止过度拟合的方法。正则化通过向损失函数添加惩罚来减少过度拟合。通过添加这个惩罚,模型被训练成不学习相互依赖的特征权重集。了解逻辑回归的人可能熟悉 L1(拉普拉斯)和 L2(高斯)惩罚。

Dropout 是一种神经网络正则化方法,有助于减少神经元之间的相互依赖学习。

4. 训练阶段

训练阶段:对于每个隐藏层,对于每个训练样本,对于每次迭代,忽略(清零)节点(和相应的激活)的随机分数 p。

5. 测试阶段

使用所有激活,但将它们减少一个因子 p(以解决训练期间丢失的激活)。

Srivastava, Nitish, et al.
Srivastava, Nitish, et al.

6. 作用

  1. Dropout 迫使神经网络学习更强大的特征,这些特征与其他神经元的许多不同随机子集结合使用时很有用。
  2. Dropout 使收敛所需的迭代次数加倍。然而,每个时期的训练时间较少。
  3. 有 H 个隐藏单元,每个隐藏单元都可以被丢弃,我们有2^H 个可能的模型。在测试阶段,考虑整个网络,每次激活都减少一个因子 p。

7. 实际效果

让我们在实践中试试这个理论。为了了解 dropout 的工作原理,我在 Keras 中构建了一个深层网络,并尝试在 CIFAR-10 数据集上对其进行验证。构建的深度网络具有三个大小为 64、128 和 256 的卷积层,然后是两个大小为 512 的密集连接层和一个大小为 10 的输出层密集层(CIFAR-10 数据集中的类数)。

我将 ReLU 作为隐藏层的激活函数,将 sigmoid 作为输出层的激活函数(这些是标准,并没有在改变这些方面做太多实验)。另外,我使用了标准的分类交叉熵损失。

最后,我在所有层中使用了 dropout,并将 dropout 的比例从 0.0(根本没有 dropout)增加到 0.9,步长为 0.1,并将每个层运行到 20 个 epoch。结果如下所示:

alt

从上图中我们可以得出结论,随着 dropout 的增加,在趋势开始下降之前,验证准确率有所提高,损失最初有所下降。

如果 dropout fraction 为 0.2,趋势下降可能有两个原因:

  1. 0.2 是此数据集、网络和使用的设置参数的实际最小值
  2. 需要更多的时期来训练网络。

参考资料

[1]

Source: https://medium.com/@amarbudhiraja/https-medium-com-amarbudhiraja-learning-less-to-learn-better-dropout-in-deep-machine-learning-74334da4bfc5

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/336215.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

迷宫最短路径【Java实现】

题目描述 现有一个n∗m大小的迷宫,其中1表示不可通过的墙壁,0表示平地。每次移动只能向上下左右移动一格,且只能移动到平地上。假设左上角坐标是(1,1),行数增加的方向为x增长的方向,列数增加的方向为y增长的方向&#…

Protocol Buffers V3语法全解

目录protobuf介绍protobuf使用protoc命令语法定义消息类型指定字段类型分配字段编号指定字段规则添加更多消息类型注释保留字段从.proto文件生成了什么?值类型默认值枚举使用其他消息类型导入定义嵌套类型更新消息类型未知字段any任意类型oneofoneof 特性兼容性问题…

awk命令

一.介绍 awk是专门为文本处理设计的编程语言,是一门数据驱动的编程语言。与sed类似,都是以数据驱动的行处理软件,主要用于数据扫描,过滤和汇总。数据可以来自于标准输入,管道或者文件。 二.语法 awk是一种处理文本文件…

Vite+Vue3实现版本更新检查,实现页面自动刷新

ViteVue3实现版本更新检查,实现页面自动刷新1、使用Vite插件打包自动生成版本信息2、Vite.config.ts配置3、配置环境变量4、路由配置现有一个需求就是实现管理系统的版本发版,网页实现自动刷新页面获取最新版本 搜索了一下,轮询的方案有点浪费…

Mysql:避免重复的插入数据方法汇总

最常见的方式就是为字段设置主键或唯一索引,当插入重复数据时,抛出错误,程序终止,但这会给后续处理带来麻烦,因此需要对插入语句做特殊处理,尽量避开或忽略异常,下面我介绍4种方法: …

【Windows10】电脑副屏无法调节屏幕亮度?解决方法

先说下情况,本人对显示器不太懂,属于小白 这个副屏无法调节的问题出现也已经很久了,但是之前亮度适合就无所谓,今天突然按了之后很亮,于是就找问题。 第一步,我直接百度,遇事不决,百…

59 双向循环神经网络【动手学深度学习v2】

59 双向循环神经网络【动手学深度学习v2】 深度学习学习笔记 学习视频:https://www.bilibili.com/video/BV12X4y1c71W/?spm_id_fromautoNext&vd_source75dce036dc8244310435eaf03de4e330 核心思想:取决于过去和未来的上下文,来预测当前的…

Apache Spark 命令注入(CVE-2022-33891)

利用范围 Spark Core - Apache <3.0.3 3.1.1 < Spark Core - Apache <3.1.2 3.2.0 < Spark Core - Apache <3.2.1 环境搭建 修改bin目录下的spark-shell 修改如下&#xff0c;添加调试端口 变动如上 然后启动 ./spark-shell --conf spark.acls.enabletrue即…

使用百度地图官方WEB API,提示 “ APP 服务被禁用“ 问题的解决方法

问题描述 项目上用了百度地图官方WEB API&#xff0c;打开界面时百度地图无法打开&#xff0c;出现弹窗&#xff1a; APP被您禁用啦。详情查看&#xff1a;http://lbsyun.baidu.com/apiconsole/key#。 原因分析&#xff1a; 查看错误信息&#xff1a;"status":240,…

Word文档带有权限密码怎么办?

Word文档的权限密码指的是什么&#xff1f;其实这是Word文档的保护方法之一&#xff0c;具体指Word文档的编辑、修改受到了限制&#xff0c;需要输入密码才能进行。 设置了权限密码的Word文档还是可以直接打开&#xff0c;只有当需要编辑或者修改内容的时候&#xff0c;才会发…

CSDN版的详细MarkDown的使用教程

MarkDown的使用欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题&#xff0c;有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释…

雅思经验(7)

我发现雅思阅读要命的不是难度&#xff0c;而是时间的把控。考试时间是总共一小时&#xff0c;但是要写三篇文章&#xff0c;之后总共40道题目&#xff0c;也就是说每篇文章平均是13.3道。但是他们很多人说&#xff0c;如果誊写答案需要花掉3、4分钟每篇&#xff0c;也就是说真…

学习IB课程的宝藏网站,有需求选择

很多学习IB课程的同学都会觉得IB课程很难&#xff0c;平时作业很多根本没时间找资料&#xff0c;其实不用担心&#xff0c;关于IB课程学习的网站&#xff0c;小编已经帮大家整理好了&#xff0c;建议收藏起来&#xff01; 数学类IB网站&#xff1a;Revision Villag 数学对于会的…

Bard AI:训练过程中使用了多少数据?

近年来&#xff0c;人工智能取得了长足的进步&#xff0c;并在科技界掀起了波澜。 随着谷歌最近推出新的人工智能聊天机器人 Bard&#xff0c;人们对这项技术的工作原理以及训练它的内容感到好奇。 人工智能技术的关键组成部分之一是训练过程中使用的数据量&#xff0c;这有助于…

聊聊数据仓库是什么

随着数据通过各种方式创造了巨大价值&#xff0c;各领域的企业开始不断挖掘数据的作用&#xff0c;数据的重要性得到了社会各界的共同认可。像我们熟知的数据治理、数据管理、数据标准以及数据资产都是因为数据地位不断提升&#xff0c;企业开始重视起数据全生命周期流程&#…

整数规划、对偶理论、线性规划经典例题讲解

整数规划是一类要求问题的解中的全部或一部分变量为整数的数学规划&#xff0c;应用范围极其广泛。不仅在工业和工程设计和科学研究方面有许多应用&#xff0c;而且在计算机设计、系统可靠性和经济分析等方面也有新的应用。通过前面的学习&#xff0c;我们已经掌握了整数规划的…

Java测试——selenium具体操作

selenium的前置准备工作可以参考我之前的博客&#xff1a;Java测试——selenium的安装与使用教程 这篇博客讲解一下selenium的常见操作 先创建driver ChromeDriver driver new ChromeDriver();输入网址 driver.get("https://www.baidu.com");常见操作 查找元素…

[数据分析] 数据指标体系搭建

在数据分析的学习过程中&#xff0c;我们通常会要求掌握以下两点: 1.理解数据&#xff0c;懂得从数据中发现业务指标(学会如何去看懂数据) 2.使用相关指标去分析数据&#xff0c;同时使用多个指标去分析一个问题(了解常见的指标) 当我们拿到数据(通常以Excel或者数据库方式去…

机器学习评估指标的十个常见面试问题

评估指标是用于评估机器学习模型性能的定量指标。它们提供了一种系统和客观的方法来比较不同的模型并衡量它们在解决特定问题方面的成功程度。通过比较不同模型的结果并评估其性能可以对使用哪些模型、如何改进现有模型以及如何优化给定任务的性能做出正确的决定&#xff0c;所…

java世界String的那些事

String的创建机理&#xff1a; 由于String在Java世界中使用过于频繁&#xff0c;Java为了避免在一个系统中产生大量的String对象&#xff0c;引入了字符串常量池。其运行机制是&#xff1a;创建一个字符串时&#xff0c;首先检查池中是否有值相同的字符串对象&#xff0c;如果…