吴恩达深度学习笔记:卷积神经网络(Foundations of Convolutional Neural Networks)2.3-2.4

news2025/1/12 21:48:56

目录

  • 第四门课 卷积神经网络(Convolutional Neural Networks)
    • 第二周 深度卷积网络:实例探究(Deep convolutional models: case studies)
      • 2.3 残差网络(ResNets)(Residual Networks (ResNets))
      • 2.4 残差网络为什么有用?(Why ResNets work?)

第四门课 卷积神经网络(Convolutional Neural Networks)

第二周 深度卷积网络:实例探究(Deep convolutional models: case studies)

2.3 残差网络(ResNets)(Residual Networks (ResNets))

非常非常深的神经网络是很难训练的,因为存在梯度消失和梯度爆炸问题。这节课我们学习跳跃连接(Skip connection),它可以从某一层网络层获取激活,然后迅速反馈给另外一层,甚至是神经网络的更深层。我们可以利用跳跃连接构建能够训练深度网络的 ResNets,有时深度能够超过 100 层,让我们开始吧。ResNets 是由残差块(Residual block)构建的,首先我解释一下什么是残差块。

在这里插入图片描述
这是一个两层神经网络,在𝐿层进行激活,得到 a [ l + 1 ] a^{[l+1]} a[l+1],再次进行激活,两层之后得到 a [ l + 2 ] a^{[l+2]} a[l+2]。计算过程是从 a [ l ] a^{[l]} a[l]开始,首先进行线性激活,根据这个公式: z [ l + 1 ] = W [ l + 1 ] a [ l ] + b [ l + 1 ] z^{[l+1]} = W^{[l+1]}a^{[l]} + b^{[l+1]} z[l+1]=W[l+1]a[l]+b[l+1],通过a[l]算出 z [ l + 1 ] z^{[l+1]} z[l+1],即a[l]乘以权重矩阵,再加上偏差因子。然后通过 ReLU 非线性激活函数得到 a [ l + 1 ] a^{[l+1]} a[l+1] a [ l + 1 ] = g ( z [ l + 1 ] ) a^{[l+1]} = g(z^{[l+1]}) a[l+1]=g(z[l+1]) 计 算 得 出 。 接 着 再 次 进 行 线 性 激 活 , 依 据 等 式 z [ l + 2 ] = W [ 2 + 1 ] a [ l + 1 ] + b [ l + 2 ] z^{[l+2]} =W^{[2+1]}a^{[l+1]} + b^{[l+2]} z[l+2]=W[2+1]a[l+1]+b[l+2],最后根据这个等式再次进行 ReLu 非线性激活,即 a [ l + 2 ] = g ( z [ l + 2 ] ) a^{[l+2]} = g(z^{[l+2]}) a[l+2]=g(z[l+2]),这里的𝑔是指 ReLU 非线性函数,得到的结果就是 a [ l + 2 ] a^{[l+2]} a[l+2]。换句话说,信息流从 a [ l ] a^{[l]} a[l] a [ l + 2 ] a^{[l+2]} a[l+2]需要经过以上所有步骤,即这组网络层的主路径。

在这里插入图片描述

在残差网络中有一点变化,我们将𝑎[𝑙]直接向后,拷贝到神经网络的深层,在 ReLU 非线性激活函数前加上𝑎[𝑙],这是一条捷径。𝑎
[𝑙]的信息直接到达神经网络的深层,不再沿着主路径传递,这就意味着最后这个等式(𝑎[𝑙+2] = 𝑔(𝑧[𝑙+2]))去掉了,取而代之的是另一个 ReLU 非线性函数,仍然对𝑧[𝑙+2]进行 𝑔函数处理,但这次要加上𝑎[𝑙],即:𝑎[𝑙+2] = 𝑔(𝑧[𝑙+2] + 𝑎[𝑙]),也就是加上的这个𝑎[𝑙]产生了一个残差块。

在这里插入图片描述
在上面这个图中,我们也可以画一条捷径,直达第二层。实际上这条捷径是在进行 ReLU非线性激活函数之前加上的,而这里的每一个节点都执行了线性函数和 ReLU 激活函数。所以𝑎[𝑙]插入的时机是在线性激活之后,ReLU 激活之前。除了捷径,你还会听到另一个术语“跳跃连接”,就是指𝑎[𝑙]跳过一层或者好几层,从而将信息传递到神经网络的更深层。

ResNet 的发明者是何恺明(Kaiming He)、张翔宇(Xiangyu Zhang)、任少卿(Shaoqing Ren)和孙剑(Jiangxi Sun),他们发现使用残差块能够训练更深的神经网络。所以构建一个ResNet 网络就是通过将很多这样的残差块堆积在一起,形成一个很深神经网络,我们来看
看这个网络。

在这里插入图片描述
这并不是一个残差网络,而是一个普通网络(Plain network),这个术语来自 ResNet 论文。

在这里插入图片描述
把它变成 ResNet 的方法是加上所有跳跃连接,正如前一张幻灯片中看到的,每两层增加一个捷径,构成一个残差块。如图所示,5 个残差块连接在一起构成一个残差网络。

在这里插入图片描述

如果我们使用标准优化算法训练一个普通网络,比如说梯度下降法,或者其它热门的优化算法。如果没有残差,没有这些捷径或者跳跃连接,凭经验你会发现随着网络深度的加深,训练错误会先减少,然后增多。而理论上,随着网络深度的加深,应该训练得越来越好才对。
也就是说,理论上网络深度越深越好。但实际上,如果没有残差网络,对于一个普通网络来说,深度越深意味着用优化算法越难训练。实际上,随着网络深度的加深,训练错误会越来越多。

但有了 ResNets 就不一样了,即使网络再深,训练的表现却不错,比如说训练误差减少,就算是训练深达 100 层的网络也不例外。有人甚至在 1000 多层的神经网络中做过实验,尽管目前我还没有看到太多实际应用。但是对𝑥的激活,或者这些中间的激活能够到达网络的更深层。这种方式确实有助于解决梯度消失和梯度爆炸问题,让我们在训练更深网络的同时,又能保证良好的性能。也许从另外一个角度来看,随着网络越来深,网络连接会变得臃肿,但是 ResNet 确实在训练深度网络方面非常有效。

现在大家对 ResNet 已经有了一个大致的了解,通过本周的编程练习,你可以尝试亲自实现一下这些想法。至于为什么 ResNets 能有如此好的表现,接下来我会有更多更棒的内容分享给大家,我们下个视频见。

2.4 残差网络为什么有用?(Why ResNets work?)

为什么 ResNets 能有如此好的表现,我们来看个例子,它解释了其中的原因,至少可以说明,如何构建更深层次的 ResNets 网络的同时还不降低它们在训练集上的效率。希望你已经通过第三门课了解到,通常来讲,网络在训练集上表现好,才能在 Hold-Out 交叉验证集或 dev 集和测试集上有好的表现,所以至少在训练集上训练好 ResNets 是第一步。

先来看个例子,上节课我们了解到,一个网络深度越深,它在训练集上训练的效率就会有所减弱,这也是有时候我们不希望加深网络的原因。而事实并非如此,至少在训练 ResNets网络时,并非完全如此,举个例子。

在这里插入图片描述

假设有一个大型神经网络,其输入为𝑋,输出激活值 a [ l ] a^{[l]} a[l]。假如你想增加这个神经网络的深度,那么用 Big NN 表示,输出为 a [ l ] a^{[l]} a[l]。再给这个网络额外添加两层,依次添加两层,最后输出为 a [ l + 2 ] a^{[l+2]} a[l+2],可以把这两层看作一个 ResNets 块,即具有捷径连接的残差块。为了方便说明,假设我们在整个网络中使用 ReLU 激活函数,所以激活值都大于等于 0,包括输入𝑋的非零异常值。因为 ReLU 激活函数输出的数字要么是 0,要么是正数。

在这里插入图片描述

我们看一下 a [ l + 2 ] a^{[l+2]} a[l+2]的值,也就是上节课讲过的表达式,即 a [ l + 2 ] = g ( z [ l + 2 ] + a [ l ] ) a^{[l+2]} = g(z^{[l+2]} + a^{[l]}) a[l+2]=g(z[l+2]+a[l]),添加项 a [ l ] a^{[l]} a[l]是刚添加的跳跃连接的输入。展开这个表达式 a [ l + 2 ] = g ( W [ l + 2 ] a [ l + 1 ] + b [ l + 2 ] + a [ l ] ) a^{[l+2]} = g(W^{[l+2]}a^{[l+1]} +b^{[l+2]} + a^{[l]}) a[l+2]=g(W[l+2]a[l+1]+b[l+2]+a[l]),其中 z [ l + 2 ] = W [ l + 2 ] a [ l + 1 ] + b [ l + 2 ] z^{[l+2]} = W^{[l+2]}a^{[l+1]} + b^{[l+2]} z[l+2]=W[l+2]a[l+1]+b[l+2]。注意一点,如果使用 L2 正则化或权重衰减,它会压缩 W [ l + 2 ] W^{[l+2]} W[l+2]的值。如果对𝑏应用权重衰减也可达到同样的效果,尽管实际应用中,你有时会对𝑏应用权重衰减,有时不会。这里的𝑊是关键项,如果 W [ l + 2 ] W^{[l+2]} W[l+2] = 0,为方便起见,假设 b [ l + 2 ] b^{[l+2]} b[l+2] = 0,这几项就没有了,因为它们( W [ l + 2 ] a [ l + 1 ] + b [ l + 2 ] W^{[l+2]}a^{[l+1]} + b^{[l+2]} W[l+2]a[l+1]+b[l+2])的值为 0。最后 a [ l + 2 ] = g ( a [ l ] ) = a [ l ] a^{[l+2]} = g(a^{[l]}) = a^{[l]} a[l+2]=g(a[l])=a[l],因为我们假定使用 ReLU 激活函数,并且所有激活值都是非负的, g ( a [ l ] ) g(a^{[l]}) g(a[l])是应用于非负数的 ReLU函数,所以 a [ l + 2 ] = a [ l ] a^{[l+2]} = a^{[l]} a[l+2]=a[l]

在这里插入图片描述
结果表明,残差块学习这个恒等式函数并不难,跳跃连接使我们很容易得出 a [ l + 2 ] = a [ l ] a^{[l+2]} = a^{[l]} a[l+2]=a[l]。这意味着,即使给神经网络增加了这两层,它的效率也并不逊色于更简单的神经网络,因为学习恒等函数对它来说很简单。尽管它多了两层,也只把 a [ l ] a^{[l]} a[l]的值赋值给 a [ l + 2 ] a^{[l+2]} a[l+2]。所以给大型神经网络增加两层,不论是把残差块添加到神经网络的中间还是末端位置,都不会影响网络的表现。

在这里插入图片描述

当然,我们的目标不仅仅是保持网络的效率,还要提升它的效率。想象一下,如果这些隐藏层单元学到一些有用信息,那么它可能比学习恒等函数表现得更好。而这些不含有残差块或跳跃连接的深度普通网络情况就不一样了,当网络不断加深时,就算是选用学习恒等函数的参数都很困难,所以很多层最后的表现不但没有更好,反而更糟。

我认为残差网络起作用的主要原因就是这些残差块学习恒等函数非常容易,你能确定网络性能不会受到影响,很多时候甚至可以提高效率,或者说至少不会降低网络的效率,因此创建类似残差网络可以提升网络性能。

在这里插入图片描述

除此之外,关于残差网络,另一个值得探讨的细节是,假设 z [ l + 2 ] z^{[l+2]} z[l+2] a [ l ] a^{[l]} a[l]具有相同维度,所以 ResNets 使用了许多 same 卷积,所以这个 a [ l ] a^{[l]} a[l]的维度等于这个输出层的维度。之所以能实现跳跃连接是因为 same 卷积保留了维度,所以很容易得出这个捷径连接,并输出这两个相同维度的向量。

如果输入和输出有不同维度,比如输入的维度是 128, a [ l + 2 ] a^{[l+2]} a[l+2]的维度是 256,再增加一个矩阵,这里标记为 W s W_s Ws W s W_s Ws是一个 256×128 维度的矩阵,所以 W s a [ l ] W_sa^{[l]} Wsa[l]的维度是 256,这个新增项是 256 维度的向量。你不需要对 W s W_s Ws做任何操作,它是网络通过学习得到的矩阵或参数,它是一个固定矩阵,padding 值为 0,用 0 填充 a [ l ] a^{[l]} a[l],其维度为 256,所以者几个表达式都可以。

在这里插入图片描述
最后,我们来看看 ResNets 的图片识别。这些图片是我从何凯明等人论文中截取的,这是一个普通网络,我们给它输入一张图片,它有多个卷积层,最后输出了一个 Softmax。

在这里插入图片描述
如何把它转化为 ResNets 呢?只需要添加跳跃连接。这里我们只讨论几个细节,这个网络有很多层 3×3 卷积,而且它们大多都是 same 卷积,这就是添加等维特征向量的原因。所以这些都是卷积层,而不是全连接层,因为它们是 same 卷积,维度得以保留,这也解释了添加项 z [ l + 2 ] + a [ l ] z^{[l+2]} + a^{[l]} z[l+2]+a[l](维度相同所以能够相加)。

在这里插入图片描述
ResNets 类似于其它很多网络,也会有很多卷积层,其中偶尔会有池化层或类池化层的层。不论这些层是什么类型,正如我们在上一张幻灯片看到的,你都需要调整矩阵𝑊𝑠的维度。普通网络和 ResNets 网络常用的结构是:卷积层-卷积层-卷积层-池化层-卷积层-卷积层-卷积层-池化层……依此重复。直到最后,有一个通过 softmax 进行预测的全连接层。

以上就是 ResNets 的内容。使用 1×1 的过滤器,即 1×1 卷积,这个想法很有意思,为什么呢?我们下节课再讲。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2159401.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

武汉正向科技 格雷母线检测方式 :车检,地检

正向科技|格雷母线原理运用-车检,地检 地上检测方式 地址编码器和天线箱安装在移动站上,通过天线箱发射地址信号,地址解码器安装在固定站(地面)上,在固定站完成地址检测。 车上检测方式 地址编码器安装在…

【OpenCV】场景中人的识别与前端计数

1.OpenCV代码设计讲解 突发奇想,搞个摄像头,识别一下实验室里面有几个人,计数一下(最终代码是累加计数,没有优化),拿OpenCV来玩一玩 首先,还是优先启动电脑摄像头,本项…

react hooks--useCallback

概述 useCallback缓存的是一个函数,主要用于性能优化!!! 基本用法 如何进行性能的优化呢? useCallback会返回一个函数的 memoized(记忆的) 值;在依赖不变的情况下,多次定义的时候,返回的值是…

MySQL record 07 part

索引 注意,是排序,有序就会加快查找的速度。 优势: 劣势 索引会单独占用存储空间索引虽然可以提高排序和查找的速度,但同时也会降低更新、删除、新增数据的速度,因为MySQL此时既要更改表,也要维护更改表后…

ubuntu安装无线网卡驱动(非虚拟机版)

本文不是基于虚拟机,是双系统 太夸张了 实验室居然没网线 只有一个师兄留下来的无线网卡 装完了ubuntu结果没网 make都用不了 然后搜了下大概发现是没有预装gcc和make 参考如下 https://zhuanlan.zhihu.com/p/466440088 https://wwsk.lanzouj.com/iAj4t2ao46zc…

电脑配置不够,想玩老头环可以上ToDesk云电脑体验一下

最近,《艾尔登法环》游戏更新了好多新东西,让玩家特别兴奋。比如说,FromSoftware工作室一直在改进游戏,让游戏运行得更稳、更流畅。而且,《艾尔登法环:黄金树幽影》这个扩展包一出,游戏世界变得…

【Python报错已解决】AttributeError: ‘list‘ object has no attribute ‘attribute‘

🎬 鸽芷咕:个人主页 🔥 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 专栏介绍 在软件开发和日常使用中,BUG是不可避免的。本专栏致力于为广大开发者和技术爱好者提供一个关于BUG解决的经…

调用JS惰性函数问题

第一次调用这个函数时 console.log(a) 会被执行,打印出 a,全局变量 a 被重定义并被赋予了新的函数,当再一次调用时,console.log(b) 被执行。 用处:因为各浏览器之间的行为差异,经常会在函数中包含了大量的…

Kafka技术详解[1]:简介与基础概念

目录 1. Kafka入门 1.1 概述 1.1.1 初识Kafka 1.1.2 消息队列 1.1.3 生产者-消费者模式 1.1.4 消息中间件对比 1.1.5 ZooKeeper 1. Kafka入门 1.1 概述 1.1.1 初识Kafka Kafka是由Scala和Java语言开发的高吞吐量分布式消息发布和订阅系统,也是大数据技术领…

《汇编语言》第14章——实验 14访问CMOS RAM

编程,以“年/月/日 时:分:秒”的格式,显示当前的日期、时间 assume cs:code data segment db 2024/09/23 00:00:00,$ data endscode segment start:mov ax,datamov es,axcall get_hms_funccall get_ymd_funcmov dh,12 ;dh中存放…

黑马头条day3-2 自媒体文章管理

前边还有一个 素材列表查询 没什么难度 就略过了 查询所有频道和查询自媒体文章也是和素材列表查询类似 就是普通的查询 所以略过了 文章发布 这个其实挺复杂的 一共三张表 一个文章表 一个素材表 一个文章和素材的关联表 区分修改与新增就是看是否存在id 如果是保存草稿…

实现一个基于nio的discard server

写在前面 源码 。 为了能够进一步的熟悉下nio相关的api操作,本文来实现一个基于nio的discard server。 discard server的意思是,server接收到来自client的一个消息之后,直接就将连接关闭,即discard。 1:正戏 1.1&…

MySQL深度探索:掌握触发器自动化与精细用户权限管理,提升数据库效能与安全

作者简介:我是团团儿,是一名专注于云计算领域的专业创作者,感谢大家的关注 座右铭: 云端筑梦,数据为翼,探索无限可能,引领云计算新纪元 个人主页:团儿.-CSDN博客 目录 前言&#x…

gitlab集成CI/CD,shell方式部署

目录 1.首先安装好gitlab和gitlab-runner,这两个,看我以往的教程 2.注册新的 Runner 3. 步骤 3.1 Enter the GitLab instance URL (for example, https://gitlab.com/): 3.2 Enter the registration token: 3.3 Enter a description for the runner: 3…

【2024.09】关于 UMLS 在支持大型语言模型提出的诊断生成中的作用

生物医学信息学杂志 链接:https://www.sciencedirect.com/science/article/abs/pii/S1532046424001254?via%3Dihub On the role of the UMLS in supporting diagnosis generation proposed by Large Language Models Author links open overlay panelMajid Afsh…

线上搭子小程序:随时随地找搭子!

搭子作为当下流行的一种社交方式,受到了年轻人的讨论关注,不管做什么都可以找不同的“搭子”。追剧、考试、健身、减肥、旅游等都可以找到志趣相投的搭子,满足年轻人的社交需求。 在互联网的发展下,年轻人找搭子也逐渐倾向于线上…

ubuntu22 解决docker无法下载镜像问题

参考在 Ubuntu 中安装 Docker_ubuntu安装docker-CSDN博客 安装docker完成后,运行如下命令验证 Docker 服务是否在运行: systemctl status docker 运行(sudo docker run hello-world)例子报错: 问题:Docker…

ubuntu内网穿透后在公网使用ssh登录

需求: 我有一台内网可以通过ssh 22端口访问的设备操作系统是ubuntu server我还有1台拥有公网IP的服务器,IP地址是 6.66.666.6666我想随时从其他网段通过ssh访问我的ubuntu server设备 实现: 工具准备:frp 网址:https…

一看就会!PS2024下载安装教程详解

PS2024下载方法: PS2024安装教程: 1、右击【PS2024.zip】,选择【解压到PS2024】 2、右击【Set-up.exe】,选择【以管理员身份运行】 3、点击右下角灰色的小文件夹图标,选择【更改位置】 4、选择安装路径后,…

【每日刷题】Day130

【每日刷题】Day130 🥕个人主页:开敲🍉 🔥所属专栏:每日刷题🍍 🌼文章目录🌼 1. 144. 二叉树的前序遍历 - 力扣(LeetCode) 2. 94. 二叉树的中序遍历 - 力扣…