学习transformer模型-Dropout的简明介绍

news2024/11/29 3:00:03

Dropout的定义和目的:

Dropout 是一种神经网络正则化技术,它在训练时以指定的概率丢弃一个单元(以及连接)p。

这个想法是为了防止神经网络变得过于依赖特定连接的共同适应,因为这可能是过度拟合的症状。直观上,dropout 可以被认为是创建一个隐式的神经网络集合。

PyTorch 的nn.Dropout实现

根据这个定义,PyTorch 的nn.Dropout “使用伯努利分布的样本以概率p将输入张量的一些元素随机归零。每个通道将在每次前向呼叫时独立清零。”

Dropout — PyTorch 2.2 documentationicon-default.png?t=N7T8https://pytorch.org/docs/stable/generated/torch.nn.Dropout.html

Dropout 可以被认为是根据给定的概率p随机将输入张量中的一些元素归零。当这种情况发生时,一部分输出将丢失。为了解决这个问题,输出也按因子1⁄₍₁_ₚ₎进行缩放。

由此推断,这意味着不必计算 dropout。正如杨章所解释的,“因为 dropout 仅在训练期间有效,而在推理期间不有效,如果没有缩放,则在推理期间预期输出会更大,因为元素不再被随机丢弃(设置为 0)。”

缩放使输入平均值和输出平均值大致相等。

示例演示 dropout 及其缩放如何影响输入。


当 dropout 率为p = 0.1时,大约 10 个值应为 0。比例率如下所示;这是每个输出应该的值。


结果显示,其中 10 个值被完全清零,并对结果进行缩放以确保输入和输出具有相同的平均值 - 或尽可能接近它。


在本例中,输入和输出的平均值均为 1.0。


​原文链接:https://medium.com/@hunter-j-phillips/a-simple-introduction-to-dropout-3fd41916aaea

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1560146.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AcWing-乌龟棋

312. 乌龟棋 - AcWing题库 所需知识:动态规划 闫氏dp分析法: 整体思路:由于走的方式有四种,所以dp[i][j][m][n]的来源有四种,状态转移方程式要求不重不漏,所以我们可以以使用的最后一个卡片上的数值来进行…

三台电机的顺启逆停

1,开启按钮输入信号是 电机一开始启动,5秒回电机2启动 ,在5秒电机三启动 关闭按钮输入时电机3关闭 ,5秒后电机2关闭 最后电机一关闭 2,思路开启按钮按下接通电机1 并且接通定时器T0 定时器T0 到时候接通电机2 并且开…

快速创建zookeeper集群

先说明,zookeeper集群的3个节点都放在同一个虚拟机(穷),所以搭建是一个伪集群,因为一个服务器挂机,所有节点都会停止。工作实际情况安装到三个服务器,并修改节点配置的ip地址即可(红…

星云曲库测试报告

文章目录 一、项目介绍1.1项目背景1.2功能介绍 二、测试环境三、测试执行过程3.1功能测试3.1.1登录页面测试3.1.2歌曲列表页面测试3.1.3“我喜欢”页面测试3.1.4上传页面测试 3.2界面自动化测试3.2.1登录页面测试3.2.2歌曲列表页面测试3.2.3“我喜欢”页面测试3.2.4上传页面测试…

零失误微信支付商家转账到零钱功能开通教程

商家转账到零钱是什么? 使用商家转账到零钱这个功能,可以让商户同时向多个用户的零钱转账。商户可以使用这个功能用于费用报销、员工福利发放、合作伙伴货款或分销返佣等场景,提高效率。 商家转账到零钱的使用场景有哪些? 商家…

都江堰操作系统系统架构图

都江堰操作系统设计思想源于中国传统的“天人合一,道法自然”哲学思想,内核调度系统采用事件调度,全球首创,突破单机桎梏,实现异构网络调度,开拓新赛道,实现换道超车。“有事就动,没…

Vue.js前端开发零基础教学(四)

学习目标: 熟悉选项式API和组合式API,能够说出选项式API和组合式API的区别 掌握注册组件的方法,能够运用全局注册或者局部注册的方式完成组件的注册 掌握父组件向子组件传递数据的方法,能够使用props实现数据传递等等 前言 在学习…

Linux 学习之路 -- 进程篇 -- 背景介绍

目录 1、冯诺依曼体系架构 2.操作系统 1、冯诺依曼体系架构 再开始学习进程之前我们要先了解一下计算机的体系结构,这里我们以最经典的冯诺依曼体系结构为例,简单介绍一下一下计算机的体系结构,方便我们对进程的理解。 这里的中央处理器就是…

Multi-task Lung Nodule Detection in Chest Radiographs with a Dual Head Network

全局头增强真的有用吗? 辅助信息 作者未提供代码

209基于matlab的无人机路径规划

基于matlab的无人机路径规划,包括2D路径和3D路径,三种优化算法,分别是蝙蝠算法(BA)、蝙蝠算法融合差分进化算法(DEBA)、结合人工势场方法的改进混沌蝙蝠算法(CPFIBA)。输出距离迭代曲线和规划的路径。程序已调通&#…

Unity TrailRenderer的基本了解

在Unity中,TrailRenderer组件用于在对象移动时创建轨迹效果。通常用于增强游戏中的动态物体,比如子弹、飞行道具或者角色移动时的拖尾效果。 下面来了解下它的基本信息。 1、创建 法1:通过代码创建 using UnityEngine;public class Trail…

数码管时钟--LABVIEW编程

一、程序的前面板 1.获取系统时钟,年月日,时分秒,用14个数码管显示。 2.闹钟设定小时和分钟。 二、程序的后面板 三、程序运行图 四、程序源码 源程序可以在百度网盘自行下载,地址链接见下方。 链接:https://pan.b…

006 高并发内存池_PageCache设计

​🌈个人主页:Fan_558 🔥 系列专栏:高并发内存池 🌹关注我💪🏻带你学更多知识 文章目录 前言文章重点一、回顾PageCache页缓存结构二、PageCache结构设计三、完善申请内存函数小结 前言 本文将…

图的遍历试题

一、单项选择题 01.下列关于广度优先算法的说法中,正确的是( ). Ⅰ.当各边的权值相等时,广度优先算法可以解决单源最短路径问题 Ⅱ.当各边的权值不等时,广度优先算法可用来解决单源最短路径问题 Ⅲ.广度优先遍历算法类似于树中的后序遍历算法…

第十五届蓝桥杯模拟考试II_物联网设计

这次写的还是比较顺利的3h完成,一个模块一个模块检查,检查无误后再组装,组装完成后再测试,这样一步一个脚印,将整个模块搭建好是最稳妥的,很少出现一个积木单个没有问题组装之后和体系中的其他积木产生奇妙…

LongAdder 和 AtomicLong

有幸看到一篇关于这个讲解 2个类的讲解,自己也归纳总结一下。 一、解析 看源码底层会发现实现机制不一样,当然这个也是必须的 LongAdder 点进去之后会发现,CAS 它是一个CAS的实现类。至于Cell类JVM提供的内置函数 官方说法是:…

Feign远程调用的基本流程通俗易懂

1. OpenFeign的源码解析 关于OpenFeign的源码解析这位博主写的非常详细,可先阅读该博客【OpenFeign调用服务的核心原理解析】,本文对其内容做了概括整理,较于源码解析 通俗易懂。 2. Feign远程调用的基本流程图解 Feign远程调用&#xff0…

Linux中数据呈现输入输出重定向

1 理解输入输出 目前为止,你已经知道了两种脚本输出的方法: 在显示器屏幕上显示输出 将输出重定向到文件中 1.1 标准文件描述符 Linux系统将每个对象当作文件处理。这包括输入和输出进程。Linux用文件描述符(file descriptor)来标识每个文件对象。文…

【CANN训练营笔记】Atlas 200I DK A2体验手写数字识别模型训练推理

环境介绍 开发板:Huawei Atals 200I DK A2 内存:4G NPU:Ascend 310B4 CANN:7.0 准备环境 下载编译好的torch_npu wget https://obs-9be7.obs.cn-east-2.myhuaweicloud.com/wanzutao/torch_npu-2.1.0rc1-cp39-cp39-linux_aarch…

sql之每日五题day01--多表联查/聚合函数

sql错题记录 含有聚合函数的不能用where升序排列order byleft join多表联查inner join不返回null三表联查 含有聚合函数的不能用where SQL19 分组过滤练习题 题目:现在运营想查看每个学校用户的平均发贴和回帖情况,寻找低活跃度学校进行重点运营&#x…