【机器学习合集】模型设计之残差网络 ->(个人学习记录笔记)

news2024/11/13 9:40:16

文章目录

  • 模型设计之残差网络
    • 1. 什么是残差结构
      • 1.1 网络加深遇到的优化问题
      • 1.2 short connect技术
    • 2. 残差网络及有效性理解
      • 2.1 残差网络
    • 3. 残差网络的发展
      • 3.1 密集残差网络
      • 3.2 更宽的残差网络(wide resnet)
      • 3.3 分组残差网络
      • 3.4 Dual Path Network
      • 3.5 加权残差网络
      • 3.6 预激活残差

模型设计之残差网络

  • 残差网络(Residual Network,通常缩写为ResNet)是一种深度神经网络架构,最早由微软研究员提出。ResNet的核心思想是通过引入残差块(Residual Blocks)来解决深度神经网络训练中的梯度消失和梯度爆炸问题,从而使得更深的网络能够更容易地训练和优化。
    以下是ResNet的主要特点和设计原则:
  1. 残差块(Residual Blocks)
    • 残差块是ResNet的基本构建单元,它包含了跳跃连接(skip connection)和残差映射(residual mapping)。
    • 跳跃连接允许信息在不同层之间直接传递,而不是通过多个非线性激活函数。这有助于避免梯度消失问题,使网络更容易训练。
    • 残差映射通过跳跃连接将输入特征与经过一些卷积层变换的特征相加,从而使网络学习残差(即差异),而不是完整的映射。这有助于网络捕捉更丰富的特征。
  2. 深度增加
    • ResNet允许非常深的网络,通常包含数十到数百个层。通过使用残差块,可以轻松增加网络的深度而不会导致性能下降。
    • 更深的网络有助于学习更复杂的特征,提高了模型的表现,特别适用于大规模图像分类等任务。
  3. 瓶颈结构
    • 为了减少参数量和计算复杂度,ResNet引入了瓶颈结构,其中每个残差块包含了一个较小的1x1卷积层、一个3x3卷积层和另一个1x1卷积层。这可以有效减少通道数和计算开销。
  4. 预训练和微调
    • ResNet模型通常通过在大规模图像数据集上进行预训练,然后微调到特定任务。这种迁移学习方法能够在数据有限的情况下取得很好的结果。
  5. 引入注意力机制
    • 可以将注意力机制引入ResNet以增强其性能,特别是在处理复杂的计算机视觉任务中。通过引入注意力机制,模型可以更好地关注重要的特征。
  • 总之,ResNet是一种强大的深度学习模型架构,已被广泛应用于计算机视觉任务,如图像分类、目标检测和图像分割。其核心思想是通过残差块来构建深层神经网络,从而克服深度神经网络中的梯度问题,实现更好的性能。

1. 什么是残差结构

1.1 网络加深遇到的优化问题

  • 网络达到一定深度后,梯度消散与爆炸带来的性能下降问题
  • 此前的解决方案:更好的优化方法,更好的初始化策略,BN层,ReLU激活函数等
    在这里插入图片描述

1.2 short connect技术

  • 在信号处理系统中,对输入数据进行中心化转换,即将数据减去均值,被广泛验证有利于加快系统的学习速度。
    在这里插入图片描述

早期验证

  • 2012年Tapani Raiko验证了shortcut connections和非线性变换提高了随机梯度下降算法的学习能力,并且提高了模型的泛化能力。
    在这里插入图片描述

  • 2015年Rupesh Kumar Srivastava提出highway network(残差的结构),借鉴了来自于LSTM的控制门的思想
    在这里插入图片描述

2. 残差网络及有效性理解

2.1 残差网络

  • 2015年何凯明等人提出deep residual network
    在这里插入图片描述

  • 缓解梯度消失问题,训练上1000层的模型
    在这里插入图片描述

  • F的梯度变化远远大于G,引入残差后的映射对输出的变化更敏感,这样有利于网络参数进行学习

  • 神经网络的退化(只有少量的隐藏单元对不同的输入改变它们的激活值)是难以训练深层网络根本原因所在,残差打破了网络的对称性,消除了网络中的奇点
    在这里插入图片描述

  • 残差网络可以看作是多个不同深度模型的集成,提高了泛化能力,”Residual networks behave like ensembles of relatively shallow networks“
    在这里插入图片描述

3. 残差网络的发展

3.1 密集残差网络

  • 提高多层通道的利用率,密集连接网络(DenseNet),增强各层的信息流动
    在这里插入图片描述

3.2 更宽的残差网络(wide resnet)

  • 通道数更大
    在这里插入图片描述

3.3 分组残差网络

  • 分组成若干个相同的子分支
    在这里插入图片描述

3.4 Dual Path Network

  • ResNext与DenseNet的结合
    在这里插入图片描述

3.5 加权残差网络

  • 残差网络中两个通道之间相加时一条已经激活,另一条没有,提出将激活函数提前到残差通道,然后进行加权融合的思路
    在这里插入图片描述

3.6 预激活残差

  • 改变卷积+归一化+激活函数(conv+bn+relu)的顺序
    在这里插入图片描述

注意:部分内容来自阿里云天池

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1153710.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java逻辑程序控制与方法

🐵本篇文章将对Java的分支结构、循环结构以及方法的部分知识点进行讲解 Java的分支结构、循环结构和C语言基本一致,这里只做简单介绍 1. 分支结构↔️ 1.1 if语句 if (布尔表达式) { ... } else if (布尔表达式) { ... } else { ... } if () {if () {.…

文件同步软件选择准则

随着科技的飞速发展,文件同步软件已成为我们日常工作中不可或缺的一部分。它可以帮助我们轻松地实现文件在不同设备、不同服务器之间的同步,确保数据的安全性和一致性。然而,市场上的文件同步软件种类繁多,如何选择适合自己的软件…

管网智慧化建设能为管网提供哪些优势?第3点特别值得注意!

关键词:智能管网、智慧管网、智慧管网建设、智慧燃气、气管网压力监测解决方案 随着信息技术的不断发展,数字城市的发展正在快速向智慧城市推进,而管网智慧化建设是目前智慧城市建设中不可或缺的一个重要举措。 因为早期铺设使用的排水管道…

[NISACTF 2022]join-us 无列名注入 过滤database() 报错获取表名 字段名

mysql注入可报错时爆表名、字段名、库名 – Wupcos Blog 又是sql注入 来做一些吧 这里我们可以很快就获取注入点 抓包开干 开fuzz 过滤很多东西哦 database都过滤了 那么要咋弄啊。。。 绕过database() 这里其实我们可以通过报错来实现 1|a()%23 数据库名这不就来了 然后…

一条 SQL 是如何在 MyBatis 中执行的

前言 MyBatis 执行 SQL 的核心接口为 SqlSession 接口,该接口提供了一些 CURD 及控制事务的方法,另外还可以通过 SqlSession 先获取 Mapper 接口的实例,然后通过 Mapper 接口执行 SQL,Mapper 接口方法的执行最终还是委托到 SqlSe…

循环神经网络 - RNN

循环神经网络(Rerrent Neural Network,RNN)是神经网络的一种,类似的还有深度神经网络(DNN)、卷积神经网路(CNN)、生成对抗网络(GAN)等。**RNN对具有时序特性的数据非常有成效,他能挖掘数据中的时…

初识webpack和打包过程

文章目录 一、path模块1.内置模块path2.path常见的API 二、webpack1.认识webpack2.脚手架依赖于webpack3.Webpack到底是什么呢?4.Vue项目加载的文件有哪些呢?5.Webpack的使用前提6.Webpack的安装7.Webpack的默认打包8.创建局部的webpack 三、webpack配置…

第19章_写在最后

第19章_写在最后 分享1 分享2 如何看待生活上、工作上的冗余、反冗余? 又如何看待社会的脆弱性?反脆弱性? 个人如何应对?

基于深度学习的人脸性别年龄识别 - 图像识别 opencv 计算机竞赛

文章目录 0 前言1 课题描述2 实现效果3 算法实现原理3.1 数据集3.2 深度学习识别算法3.3 特征提取主干网络3.4 总体实现流程 4 具体实现4.1 预训练数据格式4.2 部分实现代码 5 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 毕业设计…

血的教训-踩了定时线程池的坑

ScheduledExecutorService 一、背景 大家好呀,上周我们公司由于定时线程池使用不当出了一个故障,几千万的单子可能没了 给兄弟们分享分享这个坑,希望兄弟们以后别踩! 业务中大量的使用定时线程池(ScheduledExecuto…

CSS3盒模型

CSS3盒模型规定了网页元素的显示方式,包括大小、边框、边界和补白等概念。2015年4月,W3C的CSS工作组发布了CSS3基本用户接口模块,该模块负责控制与用户接口界面相关效果的呈现方式。 1、盒模型基础 在网页设计中,经常会听到内容…

软件测试面试,一定要提前准备好的面试题

收集了2023年所有粉丝的面试题后,负责整理出了7个高频出现的面试题,一起来看看。 问题1:请自我介绍下? 核心要素:个人技能优势工作背景经验亮点 参考回答: 第一种:基本信息离职理由 面试官您好&…

吐血整理,Jmeter接口测试-项目案例场景,直接上高速...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 场景一&#xff1…

人工智能-softmax回归

回归可以用于预测多少的问题。 比如预测房屋被售出价格,或者棒球队可能获得的胜场数,又或者患者住院的天数。 事实上,我们也对分类问题感兴趣:不是问“多少”,而是问“哪一个”: 某个电子邮件是否属于垃圾…

groovy下载与安装

Groovy是一种基于JVM(Java虚拟机)的敏捷开发语言,它结合了Python、Ruby和Smalltalk的许多强大的特性,Groovy 代码能够与 Java 代码很好地结合,也能用于扩展现有代码。由于其运行在 JVM 上的特性,Groovy也可…

ElasticSearch深度解析入门篇:高效搜索解决方案的介绍与实战案例讲解,带你避坑

ElasticSearch深度解析入门篇:高效搜索解决方案的介绍与实战案例讲解,带你避坑 1.Elasticsearch 产生背景 大规模数据如何检索 如:当系统数据量上了 10 亿、100 亿条的时候,我们在做系统架构的时候通常会从以下角度去考虑问题&a…

【大数据基础平台】星环TDH社区开发版单机部署

🍁 博主 "开着拖拉机回家"带您 Go to New World.✨🍁 🦄 个人主页——🎐开着拖拉机回家_大数据运维-CSDN博客 🎐✨🍁 🪁🍁🪁🍁🪁&#…

产品解读 | GreatADM如何高效实现数据库资源池化部署?

前段时间,介绍了万里数据库的GreatADM数据库管理平台如何图形化部署MGR(详见文章:探索GreatADM:如何快速定义监控),有朋友想了解GreatADM是否支持资源池化管理、租户隔离、监控等功能。 今天,我…

MaxQuant的安装和使用(linux OR windows)

目录 1. 安装2. 用法2.1 命令行方式(linux)2.2 GUI方式(windows)1) completeAndromeda配置/Configuration(2)数据上传/Raw files (14)组特异参数/Group-specific parameters(17)全局…

如何选择安全又可靠的文件数据同步软件?

数据实时同步价值体现在它能够确保数据在多个设备或系统之间实时更新和保持一致。这种技术可以应用于许多领域,如电子商务、社交媒体、金融服务等。在这些领域中,数据实时同步可以带来很多好处,如提高工作效率、减少数据不一致、提高用户体验…