Datawhale x李宏毅苹果书AI夏令营深度学习详解进阶Task03

news2024/12/23 21:01:48

        在深度学习中,批量归一化(Batch Normalization,BN)技术是一种重要的优化方法,它可以有效地改善模型的训练效果。本文将详细讨论批量归一化的原理、实现方式、在神经网络中的应用,以及如何选择合适的损失函数来提高模型的训练效果,同时对均方误差和交叉熵两种常见的损失函数进行比较。

一、批量归一化的原理

        在深度学习中,误差表面的崎岖不平会使训练变得困难。批量归一化的想法就是通过改变误差表面的地貌,“把山铲平”,让训练变得更容易。

        具体来说,当输入特征在不同维度上的数值范围差距很大时,可能会导致误差表面在不同方向上的斜率差异很大,从而使训练变得困难。为了解决这个问题,可以对特征进行归一化,使不同维度的数值具有相同的数值范围。

        例如,可以使用 Z 值归一化(标准化)的方法,对每个维度的数值计算平均值和标准差,然后将该维度的数值减去平均值并除以标准差,得到归一化后的数值。这样可以使归一化后的数值分布在 0 上下,方差为 1,从而制造一个更好的误差表面,使训练更顺利。

二、批量归一化的实现方式

        在深度学习中,批量归一化的实现方式如下:

  1. 对输入的特征进行归一化,得到归一化后的特征˜x。
  2. 将˜x 输入到深度网络中,经过第一层得到 z^1,然后通过激活函数得到 a^1,接着再通过下一层,以此类推。
  3. 对中间层的特征 z 进行归一化,具体步骤如下:
    • 计算 z^1, z^2, z^3 的平均值 μ 和标准差 σ。
    • 根据计算出的 μ 和 σ 进行归一化:。
    • 最后,加上 β 和 γ 进行调整:,其中代表逐元素的相乘,β 和 γ 是需要学习的参数。

在实际实现中,批量归一化只对一个批量内的数据进行归一化,以近似整个数据集的特征归一化。同时,在测试时,PyTorch 会对训练时每个批量计算出的 μ 和 σ 进行移动平均,测试时直接用训练时的移动平均来取代 μ 和 σ。

三、批量归一化在神经网络中的应用

        批量归一化可以应用于神经网络的各个层,它可以使误差表面变得更加平滑,从而提高训练的稳定性和收敛速度。

        通过对特征进行归一化,可以减少不同维度之间的差异,使得网络更容易学习到有用的特征。此外,批量归一化还可以缓解梯度消失和梯度爆炸的问题,使训练更加稳定。

四、如何选择合适的损失函数来提高模型的训练效果        

        选择合适的损失函数对于提高模型的训练效果至关重要。不同的损失函数适用于不同的问题和模型。

        在分类问题中,常用的损失函数有均方误差和交叉熵。均方误差是将输出与标签之间的差异平方后求和,而交叉熵则是根据输出与标签之间的概率分布来计算损失。

        交叉熵损失函数通常比均方误差更常用在分类上,因为它能够更好地引导模型的训练。当输出与标签相同时,交叉熵可以最小化交叉熵的值,此时均方误差也是最小的。此外,交叉熵还能够使大的值跟小的值的差距更大,从而更好地优化模型。

五、均方误差和交叉熵两种常见的损失函数的比较

        通过一个三类分类的例子,可以比较均方误差和交叉熵在优化中的表现。

        假设网络先输出和,通过 softmax 以后,产生和。假设正确答案是,要计算跟和之间的距离 e,e 可以是均方误差或交叉熵。

        当很大,很小时,代表会很接近 1,会很接近 0,此时不管 e 取均方误差或交叉熵,损失都是小的;当小,大时,是 0,是 1,这个时候损失会比较大。

        在优化过程中,如果选择交叉熵,左上角圆圈所在的点有斜率,可以通过梯度一路往右下的地方 “走”;如果选均方误差,左上角圆圈就卡住了,均方误差在这种损失很大的地方非常平坦,梯度非常小趋近于 0,无法用梯度下降顺利地 “走” 到右下角。因此,在做分类时,选均方误差的时候,如果没有好的优化器,有非常大的可能性会训练不起来。如果用 Adam,虽然图中圆圈的梯度很小,但 Adam 会自动调大学习率,还有机会走到右下角,不过训练的过程比较困难。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2099429.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

淘宝商品评论API:获取商品使用场景与评价

淘宝的商品评论API(通常通过淘宝开放平台提供)允许开发者获取商品的评论信息,包括评价内容、评分、图片等。然而,直接获取特定商品的使用场景(即用户如何使用商品的具体描述)可能不是所有API都直接提供的&a…

【mysql】mysql目录结构和源码和mysql基础练习

mysql目录结构和源码的说明: 也就是之前说四个位置有提到的两个位置, 1软件安装位置bin 把bin目录加入环境变量就可以直接在命令行调用, "***\MySQL\MySQL Installer for Windows\bin" 2还有一个数据库文件的安装位置 &#…

华为云征文|基于华为云Flexus X实例部署Redis及案例实践详解

目录 前言 一、华为云Flexus X实例购买 1.1 Flexus X实例购买 1.2 登录Flexus X实例 二、Flexus X实例安装宝塔面板 2.1 安装宝塔面板 2.2 开放宝塔面板端口 2.3 登录宝塔面板 三、华为云Flexus X实例部署Redis 3.1 宝塔面板安装Redis 3.2 Redis密码设置及第三方登录 3.3 开放R…

【分立元件】电阻的基础知识

电阻与电容、电感一样都是最基本的元器件,大量使用于各种电气或电子设备中。对从事电气工作的人而言或许过于普通,平时忽视了它,但如果没有电阻,电气或电子电路就无法建立。电阻就是如此重要的元器件。 电阻的原理 电阻的数值取决于电阻材料的电阻率及其截面积和长度。 …

Java 自定义注解实现统一日志记录功能【Java核心技术_二十七】

一、什么是 Java 注解? 想象一下,你正在写一本日记,你可以在某些页面上贴上彩色的便签,上面写着一些关键词或者提醒。在 Java 中,注解就像是这些便签,它可以贴在类、方法、变量等程序元素上,为…

Vue 3 中如何对接高德地图

1. 准备工作 1.1. 获取高德地图 API Key 首先,你需要在高德开放平台注册并获取一个 API Key。访问 高德开放平台 注册并申请。 1.2. 安装依赖 在 Vue 3 项目中使用高德地图,可以通过以下步骤安装依赖: npm install types/amap-js-api --…

5.注册中心的其他实现-Nacos

文章目录 1.Nacos简介2.Nacos的安装2.1Nacos Windows本地启动不成功?2.2Linux环境下载并启动 3. Nacos的使用4.Nacos的负载均衡5.Nacos 健康检查6.Nacos 环境隔离7.Nacos 配置中心7.1为什么需要配置中心7.2 Nacos配置中心使用7.3 Data id7.4Nacos 上Linux部署服务7.…

鹰眼应急实时三维重建装备,高质量交付中!

在《2024年地方应急管理科技信息化任务书》的指导和应急管理万亿国债支撑下,全国各地正积极推进应急管理现代化建设,全力提升“数据汇聚服务能力、监测预警能力、指挥调度能力、支撑保障能力”四项应急管理能力。 制定标准化流程规范,保障交…

计算机毕业设计选题推荐-茶园茶农文化交流平台-Java/Python项目实战

✨作者主页:IT毕设梦工厂✨ 个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Py…

分组密码的模式AES-CBC模式流程解析附:应用代码实现

CBC模式:Cipher Block Chaining mode(密码分组链接模式) CBC模式的加解密 CBC模式中,首先将明文分组与前一个密文分组进行XOR运算,然后再进行加密。密文分组像链条一样相互连接在一起。 CBC模式的加密流程图 CBC模式的解密流程图 将一个分…

使用 `wget` 和 `curl` 命令行工具的全面指南

个人名片 🎓作者简介:java领域优质创作者 🌐个人主页:码农阿豪 📞工作室:新空间代码工作室(提供各种软件服务) 💌个人邮箱:[2435024119qq.com] &#x1f4f1…

3.3 语法规则

🎓 微机原理考点专栏(通篇免费) 欢迎来到我的微机原理专栏!我将帮助你在最短时间内掌握微机原理的核心内容,为你的考研或期末考试保驾护航。 为什么选择我的视频? 全程考点讲解:每一节视频都…

Oracle RAC关于多节点访问同一个数据的过程

一、说明 Oracle RAC 存在多个计算节点,但是使用的共享存储。那么多个节点共同访问同一个资源,怎么保证一致性。 白文的逻辑理解简述: 用户1访问rac1 ,通过rac1获取AA数据块后,会加上latch锁。用户2通过rac2访问AA数据…

union不能被初始化由于有 non-trivial构造函数

背景 最近遇到一个问题&#xff0c;当定义一个union的时候&#xff0c;发现初始化失败&#xff0c;具体如下&#xff1a; class NonTrivial { public:NonTrivial(const std::string& s) : data(s) {std::cout << "NonTrivial constructed with " <<…

嵌入式OTG硬件电路分析

大家好,今天主要给大家分享一下,如何使用OTG硬件检测电路,和之前的接口有什么区别。 1. OTG接口与转换器 OTG是"On The Go"的英文缩写,字面上可以理解为“安上即可用”。USB传输是主从结构,一切USB传输都有Host发起。比如在开发板上可以插入U盘,这时开发板作为…

计算机毕业设计选题推荐-店铺租赁平台-商铺租赁系统-Java/Python项目实战

✨作者主页&#xff1a;IT研究室✨ 个人简介&#xff1a;曾从事计算机专业培训教学&#xff0c;擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python…

【简历】25届武汉某二本JAVA简历:项目描述真是难为学生想这么偏

注&#xff1a;为保证用户信息安全&#xff0c;姓名和学校等信息已经进行同层次变更&#xff0c;内容部分细节也进行了部分隐藏 简历说明 这是一份 25 届武汉某二本学校的JAVA简历。校招第一要点是上来必须先确定自己的求职层次&#xff0c;大中小厂要求不一样。二本同学主体…

Day 10-11:函数、函数传参

基本用法以及传参 基本用法 调用 1.无返回值函数调用 #include<stdio.h> #pragma warning(disable:4996); void my_helloworld() {printf("hello world!"); } int main() {my_helloworld();return 0; } //输出结果&#xff1a;hello world&#xff01;2.实际…

Leetcode每日刷题之438.找到字符串中所有字符异位词

1.题目解析 本题的题目要求是给定一个长字符串s与一个较短字符串p&#xff0c;判断s中是否有一段与p长度相同的字符串是由p打乱而得来&#xff0c;即为异位词&#xff0c;然后返回其开始位置下标&#xff0c;遍历s字符串中所有满足条件字符串的起始位置下标 2.算法原理 我们将p…

android AccessibilityService合法合规采集大众点评app商店商品详情(2024-09-02)

免责任声明: 任何可操作性的内容与本人无关,文章内容仅供参考学习&#xff0c;如有侵权损害贵公司利益&#xff0c;请联系作者&#xff0c;会立刻马上进行删除。 一、原理介绍 1、打开大众点评app商店 public void open_shop(Context context,String shop_id){String url"…