Batch Normalization——李宏毅机器学习笔记

news2025/1/12 3:53:05

Batch Normalization

详细可见paper《Batch Normalization: Accelerating Deep Network Training by Reducing Internet Covariate Shift》,2015

Feature Scaling(特征缩放)/Feature Normalization (引言)

Make different features have the same scaling.
不管你是不是需要deep learning,你通常都会用到这个技术。

为什么要feature scaling?
现在的输入往往每一个input feature的每一个维度都会有不同的scale,但是如果他们scale差距很大时,将w1,w2和Loss拿出来作图,我们可以看出如果想要x1,x2对结果的影响一样的那么w1的scale较大、w2的scale较小。w1对结果的影响较大,w2对结果的影响较小。
如果把不同的feature做scaling,make different features have the same scaling,那么它的error surface接近于正圆。
然而椭圆形的error surface在不同的方向上gradient变化不同,在不同的方向上需要给其不同的learning rate,这会让我们的training变得不容易。如果我们做feature scaling,会让我们的error surface变得接近正圆,从而使我们的training变得容易。
所以我们进行feature scaling。
在这里插入图片描述

Feature Scaling是怎么做的?

给了R批Data,然后去计算同一纬度下的mean和standard deviation,然后对每一个数值进行计算(见下图)

在这里插入图片描述通常来说,我们做了feature scaling后,会让我们的training 变得快速。

How about Hidden Layer?

在这里插入图片描述

对每一个layer做feature scaling对Deep learning上是由很大作用的,他会让internal covariate shift(内部协方差平移)问题轻微一些。
internal covariate shift(内部协方差平移)问题
假设下图中当一个人两边的的话筒连在一起时,整个network才能得到好的processing。
下图,图一中,第二个人左手边的话筒高于右手边话筒,所以第一个人告诉第二个人要把话筒放低一些,第三个人告诉第二个人要把话筒放高一些,当两个都变时,结果会导致图二的现象。
在这里插入图片描述
在这里插入图片描述
为了解决这个问题,传统的方法是Learning rate设置的小一些,但是会导致training很慢。
然而batch normalization可以解决这个问题。

为什么batch normalization可以解决internal covariate shift?

如果我们对每一个layer都做feature scaling,那么对下一个layer来说前一个layer的statistic就会是固定的,那么他的training可能就会更容易一些。
在这里插入图片描述
但每一个layer的output,它的mean和standard divation在不断的变化中,因为在整个training的过程中network的参数都是不断变化的。所以,我们没有很简单的办法一下子知道mean和standard divation为多少。
所以我们需要一个新的技术,即batch normalization

Batch

x1,x2,x3是平行计算的
在这里插入图片描述

Batch Normalization

z——activation function input
a——activation function output
normalization 可以apply在activation function 的input/output,但现在比较多的是对activation function的input做normalization
在做batch normaliztion的时候,我们希望mean和standard divation代表了整个training set的satistic,这就要求我们的batch不能太小。
在这里插入图片描述
这里“除”是element-wise(仅对应元素操作),mean和standard divation都是vector。
在这里插入图片描述
How to do backpropogation?
此时相当于多了两层(mean和standard divation),反向传播的时候也要传这两层。
在这里插入图片描述

有时候,你并不希望你得activation function input的 mean=0, standard divation = 1,所以你可以做以下操作,同时也会跟随网络更新。
在这里插入图片描述
mean和standard divation受data影响,β和γ是network学出来的。

在Testing时怎么做?
测试集中的mean和standard divation来自哪里?
理想的方法是using the whole training dataset,但是有时数据集过大,或者没有整合整个数据集。
所以较为实用的方法是:把过去所以的参数记录下来,取平均,但往往我们回给每个值不同的weight,training接近结束的地方的weight比较大。
在这里插入图片描述

Batch normalization——Benefit

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/63077.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python入门项目,从不会编程到完成这个小游戏,也就两天时间

前言 还在啃书本学python吗? 为什么不试试用有趣的小游戏来学编程?自己开发的游戏,既能活学活用python,又能找回学习的自信。 (文末送读者福利) 下面我带大家开发一个Python小游戏,这是我在…

ORACLE连接不上 Linux网络 端口 问题判断

最近遇到一个问题,配置一个oracle数据源怎么都连接不上,ping Ip可以连接通,且毫秒数都很小。telnet 也能连接 但是很快就自动断开。 别人也能连接oracle的数据库,我这边服务器不行,就很奇怪。各种方法都来试试。 SEL…

GD32F30x系列Systick系统滴答定时器 (Qt模拟项目 可套函数模板)

GD32F30x系列Systick系统滴答定时器【0】Qt 项目效果展示【1】SysTick 简介【2】SysTick 寄存器【3】代码配置和初始化说明【3.1】core_cm4.h头文件【3.2】systick.h【3.3】mainwindow.h【3.4】systick.cpp【3.5】mainwindow.cpp [主流程]本次Systick系统滴答定时器&#xff0c…

Ubuntu 18.04安装fast-dds

提纲 1、概述 2、foonathan_memory_vendor 3、fast-cdr 4、fast-dds 5、编译HelloWorldExample 6、安装fast-dds-gen,使用IDL文件构建代码 1、概述 fastdds是干什么,就不重复说了。 操作系统是Ubuntu18.04 本次采用源码编译安装,需要使用到…

用二元泊松模型预测2022世界杯8强

用二元泊松模型预测2022世界杯8强 网上有很多文章用双泊松(Double Poisson)模型来预测世界杯比赛结果。但是双泊松模型有一个严重的缺陷,那就是它假设比赛中两队的比分是条件独立的。而我们都知道,在对抗性比赛中,两…

(十二)笔记MQ学习之优劣介绍

((十二)笔记MQ学习之优劣介绍一、MQ的优势1.应用解耦2.异步提速3.削峰填谷二、MQ的劣势1.系统可用性降低2.系统复杂度提高3.一致性问题三、MQ的使用条件四、常见的MQ产品一、MQ的优势 1.应用解耦 使用MQ使得应用解耦,提升容错性…

[附源码]Python计算机毕业设计Django勤工助学管理系统

项目运行 环境配置: Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术: django python Vue 等等组成,B/S模式 pychram管理等等。 环境需要 1.运行环境:最好是python3.7.7,…

Linux之基于Centos系统安装Redis、MySQL、Nginx

一. Redis的安装 1. 准备 (1). 宿主机:centos 8.0 (2). Redis源码:【压缩包: redis-5.0.0.tar.gz】 需要自行编译。 (PS:这个压缩包可以直接Centos系统中在线下载 或者去Redis官网先下载,然后copy到Centos系统中) …

Java入门教程(4)——JDK环境变量的配置

1 1.path是一个常见的环境变量,它告诉系统除了在当前目录下寻找此程序外,还可以到path指定的目录下寻找。 2.JAVA_HOME (1) 为以后其他软件寻找JDK做准备 classpath不需配置 3.JDK1.5以上版本,JRE会自动搜索当前路径下的类文件及相关jar…

在浏览器中输入url回车后发生了什么

1.dns进行解析:将url地址(www.bilibili.com)解析成ip地址(110.43.34.184),ip地址就是想要访问的服务器的地址 dns就是数据库,这个数据库中记录着url地址和ip地址的对应关系 2.正式发送数据之前…

react 初体验

react笔记 创建一个项目 npm install -g create-react-app // 全局安装脚手架 create-react-app react-01 // 新建一个项目 npm start快捷定义组件 安装组件后,快捷命令 rcc :类式组件 rfc:函数式组件 axios开启代理 在package.json中新…

为什么我推荐你一定要学Python?

很多初学者都听说python很火,可是为啥要学Python,下面谈谈我的感悟 python语言是我目前为止用的最爽的语言,因为它真的很优美.虽然c,c,java也非常的强大和伟大,但是每一种语言伟大的背后都是有一定的时代背景。 说起Python这门编…

VINS学习02——VINS系列代码所有依赖库安装(保姆级)

0.简介 在学习视觉SLAM过程中,先后用了VINS_mono,VINS_Fusion,Omni_swarm,因为是第一次做视觉相关定位,所以大部分库都是第一次装,中间还从虚拟机换到双系统,意识到记录的重要行性,所以在此记录安装相关依赖库的教程。…

python 练习题

for 循环 和 while 循环 判断101-200之间有多少个素数,并输出所有素数。 (什么是素数(质数): 除了1和它本身,不能被其他的数整除) 方法1: count 0 # 设定素数的初始个数为0 for num in range…

MySql使用MyCat分库分表(四)分片规则

视频学习地址:17-尚硅谷-垂直分库_哔哩哔哩_bilibili 笔记参考地址:MySQL 分库分表 | xustudyxus Blog (frxcat.fun) 分片规则 范围分片 介绍 根据指定的字段及其配置的范围与数据节点的对应情况, 来决定该数据属于哪一个分片。 配置 …

Angular 应用开发里使用 ForRoot 解决 Lazy Loaded Module 里单例行为丢失的问题

笔者在 Angular 实际项目开发中曾经遇到这样一个需求: 我们想创建一个共享模块,它将包含一个配置来设置布尔值(作为标志)以启用或禁用其他模块的某些功能。 其他模块可以在 Angular 应用程序的引导期间加载,也可以是延…

JVM基本常识

目录 内存区域划分 类加载 何时触发类加载? 双亲委派模型 GC GC回收那部分内存? 怎么回收? 怎么找垃圾(判定某个对象是否是垃圾) 具体怎么回收? 我的GitHub:Powerveil GitHub 我的Gitee:Powercs12…

痞子衡嵌入式:浅析IAR下调试信息输出机制之半主机(Semihosting)

大家好,我是痞子衡,是正经搞技术的痞子。今天痞子衡给大家分享的是IAR下调试信息输出机制之半主机(Semihosting)。 在嵌入式世界里,输出打印信息是一种非常常用的辅助调试手段,借助打印信息,我们可以比较容易地定位和…

由浅到深-模拟实现list

前言 作者:小蜗牛向前冲 名言:我可以接受失败,但我不能接受放弃 如果觉的博主的文章还不错的话,还请点赞,收藏,关注👀支持博主。如果发现有问题的地方欢迎❀大家在评论区指正。 目录 一 、见见…

Acrel-2000Z电力监控系统在某数据中心的应用-Susie 周

1、概述 随着网络和信息技术的快速发展,人们对“大数据”业务需求不断增长,为了满足日益增长的应用需求,数据的建设规模也在向超大型、园区级数据方向发展。通信、金融、商业等行业,面对未来数据业务的爆发式增长需求&#xff0c…