B站李沐讲论文笔记Resnet

news2024/11/24 23:07:21

研一学生笔记,若有看官,笔下留情

作者 Kaiming He Xiangyu Zhang Shaoqing Ren(在蔚来居然) Jian Sun(导师)

Microsoft Research

摘要:

我们提出一个网络,他可以简化网络的训练,这些网咯整体上比以前深得多。我们显示的用带有与输入层的关系的残差机制重新制定这些层,而不是去学习没有关系的函数。我们提供了全面的经验证据来表明这些残差网络更容易被优化,并且,可以在很深的网络获得准确率。我们用很深的层数,比VGG要深8倍,但是依然有更低的复杂度。这些残差网络的集合在ImageNet网络上的获得了3.57的错误率。在2015分类任务上第一名,我们还在100-1000层上做了分析。

表征深度对很对视觉识别任务都至关重要,仅仅因为我们极端的表征深度,我们就在coco目标检测数据集上获得了28个百分点的提升。深度残差网络是我们提交给这些竞赛的基础,在这些竞赛中,我们在检测,定位,分割上获得了第一名。

论文试图解决什么问题:

解决深层神经网络即使收敛之后比对应的浅层网络正确率更差的问题。

resnet为什么能叠加到一千层,传递损失不大嘛?

首先,搞懂之前的网络为什么不深,如果很深会出现什么问题。随着网络的加深,会有梯度消失或者爆炸的问题,因为乘法的求导造成,之前一般用正则和归一化解决这个问题,解决之后面临新的问题就是衰退,深层网络的正确率反而劣于浅层网络,为了解决这个问题,作者提出了残差网络,学习残差。设下层输出为hx,上层输出为x,下层主要任务是拟合fx=hx-x,所谓残差。这样,下层输入变成了fx+x,至少保证x不变。

在这里插入图片描述

resnet为什么一定比shallow不差

大不了残差映射权重为0,x是恒等映射。

resnet的亮点是什么

残差,fx+x的维度统一的处理

介绍resnet的short connections

x学习到的内容不变直接传到下一层,物理上的短路链接 ,很形象,深度残差网络速度快也是因为次,短路的时候传播很快。

resnet的网络退化现象是过拟合嘛 是梯度消失吗,那是什么

不是过拟合,因为文中实验给出,训练集也变差所以不是过拟合。也不是的梯度消失因为他可以收敛。是一种新的,层数变深,误差在训练集测试集都增大的实验现象。

resnet的残差fx和x相加拟合目标函数hx的过程中,x和fx维度不同如何处理,resnet的1卷积目的

一种是使用zero padding(不增加参数量),另一种是维度不同的时候使用 1×1 的卷积核作投影,步长为2来改变维度(增加参数量)同时高宽不变,第三种是不管维度是否一样,都做投影。实验效果第三种最好,第二种差不了多少,作者选用第二种,考虑了计算复杂度。
在这里插入图片描述

TODO:待更新,3.2Identity Mapping by Shortcuts没看懂。且涉及he的另一篇论文

resnet如何解决梯度消失问题,为什么resnet收敛的比较快

  1. fx这个正向传播的残差可能会很小,plainnets梯度消失就是出现在一层一层的正向传播权重太小,而fx+x加的x为短路链接,不用正向传播,直接相加,它不会变小。其实和plainnets解决梯度消失的方法类似,正则化不过也是赋值权重+一个大值。

  2. shortcut connection相当于高速直通公路

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/101189.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【 Apifox】Apifox的前置操作与后置操作

Apifox官网地址:http://apifox.cn/a103abcc 文章目录一、断言二、提取变量三、数据库操作结语一、断言 后置操作支持添加断言,可对接口返回的数据(或响应时间)设置断言,判断是否符合预期。 设置断言: 运行…

与客户共解难题:BPM如何高标准国产化?

作为深耕中国本土BPM市场近二十年的老牌企业,上海斯歌已服务超过700家大型及超大型企业,在医药、汽车汽配、智能制造、房地产等行业积淀了深厚的服务能力,从始至终斯歌都在思考:如何以最佳的服务能力解决客户需求,成就…

Express 学习 - 02-中间件应用-urlencoded解析

请求模拟 什么是中间件? 中间件的本质是传递给express的一个回调函数;这个回调函数接受三个参数:请求对象(request对象);响应对象(response对象);next函数(在…

用Rust写的Turbopack,比Vite快20倍?

日前,Vercel正式宣布推出新的包装工具Turbopack。Vercel声称这是用Rust编写的Webpack的继任者。在大型应用程序中,它的速度是Vite的10倍,是Webpack的700倍。维特的维护者对此表示怀疑。 Vercel发布新的开源工具Turbopack Vercel是Next。js框…

【数模】层次分析法

对于同一层次中的指标,通过两两比较,构造出判断矩阵,记为A。 aij表示因素i对因素j的重要性比较结果,可采用1-9的量化比例标度来反映其重要程度。 1:指标两个相比,A比B同等重要 3:指标两个相比…

E. Permutation Game(game)

Problem - E - Codeforces 两个玩家正在玩一个游戏。他们有一个整数1,2,...,n的排列组合(排列组合是一个数组,其中从1到n的每个元素正好出现一次)。这个排列组合没有按升序或降序排序(即排列组合…

YOLO系列目标检测算法——YOLOS

YOLO系列目标检测算法目录 - 文章链接 YOLO系列目标检测算法总结对比- 文章链接 YOLOv1- 文章链接 YOLOv2- 文章链接 YOLOv3- 文章链接 YOLOv4- 文章链接 Scaled-YOLOv4- 文章链接 YOLOv5- 文章链接 YOLOv6- 文章链接 YOLOv7- 文章链接 PP-YOLO- 文章链接 …

视频:R语言中的Stan概率编程MCMC采样的贝叶斯模型

概率编程使我们能够实现统计模型,而不必担心技术细节。这对于基于MCMC采样的贝叶斯模型特别有用。 最近我们被客户要求撰写关于Stan的研究报告,包括一些图形和统计输出。 R语言中RStan贝叶斯层次模型分析示例stan简介 Stan是用于贝叶斯推理的C 库。它…

十、Docker 复杂安装之3主3从redis集群配置

假设公司现在1-2亿条数据需要缓存,单机单台设备肯定扛不住的,这个时候就需要分布式存储,用redis如果落地呢?本期就带着大家搭建一个3主3从redis集群。 1、拉取redis6.0.8镜像 涉及命令:docker pull redis:6.0.8 实例: 2、创建6个redis容器实例 涉及命令: docker ru…

k8s远程debug

k8s远程debug 1、方案1 方案1是不行的,因为k8s的ingress走的7层协议。 1.1、应用 启动debug端口 java -agentlib:jdwptransportdt_socket,servery,suspendn,address5005 -server -Xms1024m -Xms1024m -jar /opt/app/server.jarnetstat -ntlp1.2、配置k8s的网络和域…

Qt-Web混合开发-QWebSocket作为QWebChannel通信数据传输接口(10)

Qt-Web混合开发-QWebSocket作为QWebChannel通信数据传输接口💙🍓 文章目录Qt-Web混合开发-QWebSocket作为QWebChannel通信数据传输接口💙🍓1、概述🐛🦆2、实现效果😅🙏3、实现功能&a…

m通过matlab实现遥测信道主要影响因素分析

目录 1.算法描述 2.仿真效果预览 3.MATLAB核心程序 4.完整MATLAB 1.算法描述 遥测技术是指被测对象的状态参数进行超远距离测量,并将测量的数据通过特殊的通信方式发送给地面接收站的一种技术。整个遥测发送接收系统称为遥测系统,而发送遥测信号所通…

LaTeX教程(一)——LaTeX介绍以及导言详解

文章目录1. Latex 介绍2. LaTeX基础2.1 导言区2.2 正文区3. 导言详解3.1 设置时间、作者、日期3.2 全局设置4. 文件组织1. Latex 介绍 什么是LATEX ?LATEX 是一种格式。为免误会,初次接触这一概念的读者可以粗略地将 LATEX 理解成是对 TEX 的一层封装。…

【DELM回归预测】基于matlab松鼠算法改进深度学习极限学习机SSA-DELM数据回归预测【含Matlab源码 1904期】

⛄一、PSO-DELM简介 1 DELM的原理 在2004年,极限学习机(extreme learning machine,ELM)理论被南洋理工大学的黄广斌教授提出,ELM是一种单隐含层前馈神经网络(single-hidden layer feedforward neural network,SLFN&am…

开发社交聊天APP需要注意什么?如何快速开发聊天功能

随着互联网的发展,人们的沟通方式也在悄悄发生变化,由原来的面对面沟通,发展为网上沟通。让大家日常生活的通讯越来越方便了,各种APP层出不穷。那么,想开发一款社交聊天并进行运营,需要注意哪些方面&#x…

【推荐】产品经理需求模板,案例等文档合集15篇

产品经理的职责描述仍然分歧很多,因人、因公司而异。即使是在相对较为一致的高科技行业,不同公司中的职位描述也是很不同的。但通常认为产品经理的职责主要包括:产品经理负责调查并根据用户的需求,确定开发何种产品, 选择何种技术、商业模式等…

【Python机器学习】过拟合及其抑制方法讲解及实战(图文解释 附源码)

需要源码请点赞关注收藏后评论区留言私信~~~ 欠拟合、过拟合与泛化能力 欠拟合 最简单的线性模型,它是用一条直线来逼近各个样本点,显然力不从心,这种现象称为欠拟合。欠拟合模型是由于模型复杂度不够,训练样本集容量不够&#…

哈希表题目:环形链表

文章目录题目标题和出处难度题目描述要求示例数据范围进阶解法一思路和算法代码复杂度分析解法二思路和算法代码复杂度分析题目 标题和出处 标题:环形链表 出处:141. 环形链表 难度 2 级 题目描述 要求 给你一个链表的头结点 head\texttt{head}h…

网易云VIP音乐NCM文件转MP3,C语言版本

前言网易云的Vip音乐下载下来,格式不是mp3/flac这种通用的音乐格式,而是经过加密的ncm文件。只有用网易云的音乐App才能够打开。于是想到可不可以把.ncm文件转换成mp3或者flac文件,上google查了一下,发现有不少人已经做了这件事,但…

go : 无法将“go”项识别为 cmdlet、函数、脚本文件或可运行程序的名称

先安装go环境 https://blog.csdn.net/csl12919/article/details/128372584?csdn_share_tail%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22128372584%22%2C%22source%22%3A%22csl12919%22%7Dhttps://blog.csdn.net/csl12919/article/details/1…