通用视觉框架OpenMMLab图像分类与基础视觉模型

通用视觉框架OpenMMLab图像分类与基础视觉模型

news2025/7/15 17:30:17

文章目录

- 流程
- 传统方法：设计图像特征(1990s~2000s)
- - 特征工程的天花板
  - 从特征工程到特征学习
  - 层次化特征的实现方式
- AlexNet 的诞生& 深度学习时代的开始
- - 图像分类的数学表示
  - AlexNet (2012)
  - Going Deeper (2012~2014)
  - VGG (2014)
  - GoogLeNet (Inception v1, 2014)
  - - 精度退化问题
    - 残差学习的基本思路
  - 残差网络ResNet (2015)
  - - ResNet 中的两种残差模块
    - 残差链接让损失曲面更平滑
    - ResNet 的后续改进

流程

收集数据
定义模型

通常为含参变量的函数: $y=F_{\Theta}(X)$

例子: $y=\sigma\left(\Theta^{T} X\right)$
训练
寻找最佳参数 $\Theta^{*}$ ，使得模型 $y=F_{\Theta^{*}}(X)$ 在训练集上达到最高正确率
预测
对于新图像 $\hat{X}$ ，用训练好的模型预测其类别，即 $\hat{y}=F_{\Theta^{*}}(\hat{X})$

传统方法：设计图像特征(1990s~2000s)

特征工程的天花板

在ImageNet 图像识别挑战赛里，2010 和2011 年的冠军队伍都使用了经典的视觉方法，基于手工设计的特征+ 机器学习算法实现图像分类，Top-5 错误率在25% 上下。

从特征工程到特征学习

层次化特征的实现方式

AlexNet 的诞生& 深度学习时代的开始

在2012 年的竞赛中，来自多伦多大学的团队首次使用深度学习方法，一举将错误率降低至15.3% ，而传统视觉算法的性能已经达到瓶颈，2015 年，卷积网络的性能超越人类。

图像分类的数学表示

模型设计：设计适合图像的 $𝐹_Θ 𝑋$
• 卷积神经网络
• 轻量化卷积神经网络
• 神经结构搜索
• Transformer
模型学习：求解一组好的参数Θ
• 监督学习：基于标注数据学习
• 损失函数
• 随机梯度下降算法
• 视觉模型常用训练技巧
• 自监督学习：基于无标注的数据学习

AlexNet (2012)

第一个成功实现大规模图像的模型，在ImageNet 数据集上达到~85% 的top-5 准确率。

特点：

5 个卷积层，3 个全连接层，共有60M 个可学习参数
使用ReLU 激活函数，大幅提高收敛速度
实现并开源了cuda-convnet ，在GPU 上训练大规模神经网络在工程上成为可能

Going Deeper (2012~2014)

VGG-19 19 层 ImageNet Top-5 准确率：92.7%

GoogLeNet 22 层 ImageNet Top-5 准确率：93.4%

VGG (2014)

将大尺寸的卷积拆解为多层3×3 的卷积，相同的感受野、更少的参数量、更多的层数和表达能力。

1 层5×5 的卷积与2 层3×3 的卷积有同样的感受野

网络层数：11、13、16、19 层
3×3 卷积配合1 像素的边界填充，维持空间分辨率
每隔几层倍增通道数、减半分辨率，生成1/2、1/4 尺度的更高抽象层级的特征

GoogLeNet (Inception v1, 2014)

使用Inception 模块堆叠形成， 22 个可学习层
最后的分类仅使用单层全连接层，可节省大量参数
仅7M 权重参数（AlexNet 60M、VGG 138M）

精度退化问题

模型层数增加到一定程度后，分类正确率不增反降

实验的反直觉

卷积退化为恒等映射时，深层网络与浅层网络相同。所以，深层网络应具备不差于浅层网络的分类精度。

猜想：虽然深层网络有潜力达到更高的精度，但常规的优化算法难以找到这个更优的模型。即，让新增加的卷积层拟合一个近似恒等映射，恰好可以让浅层网络变好一点

残差学习的基本思路

残差建模：让新增加的层拟合浅层网络与深层网络之间的差异，更容易学习。梯度可以直接回传到浅层网络监督浅层网络的学习。没有引入额外参入，让参数更有效贡献到最终的模型中

残差网络ResNet (2015)

ResNet-34 34层ImageNet Top-5 准确率：94.4%

5 级，每级包含若干残差模块，不同残差模块个数不同ResNet 结构

每级输出分辨率减半，通道倍增
全局平均池化压缩空间维度
单层全连接层产生类别概率

使用bottleneck 模块替换basic 模块，进一步增加每级种残差模块的个数。

ResNet-50 3/4/6/3 94.8% / 76.6%
ResNet-101 3/4/23/3 95.4% / 78.0%
ResNet-152 3/8/36/3 95.5% / 78.5%

ResNet 中的两种残差模块

ResNet等同于多模型集成：残差网络有 $𝑂(2^𝑛)$ 个隐式的路径来连接输入和输出，每添加一个块会使路径数翻倍。

残差链接让损失曲面更平滑

Loss Surface 更加平滑，更容易收敛到局部/全局最优解

ResNet 的后续改进

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/197509.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

ROS2 基础概念动作

ROS2 基础概念动作

ROS2 基础概念动作1. Actions2. 动作3. 中止目标4. 动作类型5. 动作请求1. Actions Actions 动作是ROS 2中的通信类型之一，适用于长时间运行的任务它们由三部分组成：目标、反馈和结果，操作基于话题和服务它们的功能类似于服务&#xff…

阅读更多...

【大数据clickhouse】clickhouse 数据一致性保障常用解决方案

【大数据clickhouse】clickhouse 数据一致性保障常用解决方案

一、前言对于任何一个数据存储的框架来说，确保数据的一致性都是其非常重要的组成部分，不管是过程中的强一致性，还是最终一致性，都是数据一致性的解决方案，本篇来聊聊clickhouse中的数据一致性问题。二、clickhouse …

阅读更多...

JMeter使用BeanShell断言

JMeter使用BeanShell断言

BeanShell简介BeanShell是使用Java语法的一套脚本语言，在JMeter的多种组件中都有BeanShell的身影，如：定时器：BeanShell Timer前置处理器：BeanShell PreProcessor采样器：BeanShell Sampler后置处理器&#x…

阅读更多...

软件的生命周期（软件工程各阶段的工作）

软件的生命周期（软件工程各阶段的工作）

其实软件工程是一个非常大的概念，我们的软件测试也好，软件开发也好，软件运维也好，其实都是属于软件工程的范畴。今天就讲一讲软件工程和我们软件测试相关的一些内容。我们今天三个主要的节点： 1.软件的生命周期至…

阅读更多...

QT中级（1）QTableView自定义委托（一）实现QSpinBox、QDoubleSpinBox委托

QT中级（1）QTableView自定义委托（一）实现QSpinBox、QDoubleSpinBox委托

1 写在前面的话我们在之前写的《QT(7)-初识委托》文章末尾提到，“使用一个类继承QStyledItemDelegate实现常用的控件委托，在使用时可以直接调用接口，灵活实现各种委托”。我们接下来几篇文章将先详细讲解各个控件的委托，最后整理…

阅读更多...

怎么理解输入输出流 - 输入输出流之我解

怎么理解输入输出流 - 输入输出流之我解

背景昨天领导开会，讨论两个接口之间参数问题，这个参数涉及文件传递的需求；其中一句话引起了我的思考：“参数怎么定义？能不能定义成字符流？” 当时我沉思了一下，懵的没明白她的意思我理解的比…

阅读更多...

swagger2接口文档

swagger2接口文档

文章目录简介Open APISwagger简介Spring-fox入门案例第一步：导入依赖第二步：编写controller类第三步：编写启动类第四步：运行启动类并访问ui页面Swagger UI 介绍基础信息配置自定义注解（防止有些类不生成接口文档&#…

阅读更多...

数据结构：数组及特殊矩阵

数据结构：数组及特殊矩阵

数组及特殊矩阵一、认识数组1️⃣ 定义2️⃣ 存储结构1. 一维数组2. 二维数组二、特殊矩阵的压缩存储1️⃣ 对称矩阵💤思考1：有多少个二维元素A[0...n-1][0...n-1]存于一维元素中❓💤思考2：按行排列，二维数组A[0...n-1…

阅读更多...

198分成功上岸浙江工业大学MBA的备考经验分享

198分成功上岸浙江工业大学MBA的备考经验分享

我是2022年刚被浙江工业大学MBA项目录取的一名新生，新的一年管理类联考备考已经开始，最近身边有很多小伙伴也都在咨询这方面的信息，趁着今天有空给大家分享下我的经验。在备考开始之前首先要确定目标，因为工作在杭州&#…

阅读更多...

【正点原子Linux连载】第四章 SDK包的使用摘自【正点原子】ATK-DLRV1126系统开发手册

【正点原子Linux连载】第四章 SDK包的使用摘自【正点原子】ATK-DLRV1126系统开发手册

1）实验平台：正点原子RV1126 Linux开发板 2）平台购买地址：https://detail.tmall.com/item.htm?id692176265749 3）全套实验源码手册视频下载地址： http://www.openedv.com/thread-340252-1-1.html 第四章 S…

阅读更多...

学习周报-20230203

学习周报-20230203

文章目录一在rhel7系统使用Mariadb一联系和区别二需求三部署安装3.1 环境准备3.2 安装软件包3.3 启动服务3.4 设置防火墙策略四创建用户和库表4.1 登录数据库4.2 创建用户4.3 创建数据库和表五备份和恢复5.1 备份 com 数据库5.2 模拟误删除操作5.3 恢复表二使用grep忽略…

阅读更多...

如何建立异形板框的内缩和外扩

如何建立异形板框的内缩和外扩

如何建立异形板框的内缩和外扩首先把需要内缩和外扩的外形图设置在信号层（比如TOP），把线宽改为0mil（方便计算）。然后选择外形图，执行命令TJ，就可以得到内缩和外扩图形。然后把生成的图形修改到…

阅读更多...

Linux-查找文件、软链接、打包压缩和软件安装

Linux-查找文件、软链接、打包压缩和软件安装

查找文件find软链接ln打包和压缩tar软件安装apt-get1.查找文件find命令功能强大，通常用来在特定的目录下搜索符合条件的文件序号命令作用01find[路径] -name"*.py"查找指定路径下扩展名是.py的文件，包括子目录如果省略路径，表示在当…

阅读更多...

最新整理Spring面试题2023

最新整理Spring面试题2023

Spring面试专题 1.Spring应该很熟悉吧？来介绍下你的Spring的理解有些同学可能会抢答，不熟悉!!! 好了，不开玩笑，面对这个问题我们应该怎么来回答呢？我们给大家梳理这个几个维度来回答 1.1 Spring的发展历程先介绍…

阅读更多...

【C++入门】引用详解（引用的特性、引用的使用、引用与指针的区别）

【C++入门】引用详解（引用的特性、引用的使用、引用与指针的区别）

文章目录1 引用概念2 引用特性3 使用场景4 常引用5 传值与传引用的效率比较5.1 值和引用作为函数参数的性能比较5.2 值和引用作为返回值类型的性能比较6 引用和指针的区别1 引用概念引用不是新定义一个变量，而是给已存在的变量取了一个别名，编译器不会为…

阅读更多...

浅谈网络流

浅谈网络流

网络网络是一张单向图 , 每条边都有一个权值 c(u,v)c(u,v)c(u,v) 表示边 (u,v)(u,v)(u,v) 的容量. 特别的 , 图上有源点 (s)(s)(s) 和汇点 (t)(t)(t). 网络流在一张网络上 , 从源点流出 , 最终流入汇点的流. f(u,v)f(u,v)f(u,v) 表示 (u,v)(u,v)(u,v) 的流量. 满足 : 容…

阅读更多...

【测试总结系列-1】质量保障之测试左移和右移

【测试总结系列-1】质量保障之测试左移和右移

在开发一个系统或者说软件，需求分析、软件设计、程序编码、软件测试、运行维护，这些阶段必不可少。整个周期中，作为测试人员，不是只在测试阶段才能发挥作用，也不是仅有测试对软件质量负责，一个项目团队&…

阅读更多...

关于图片上传和在页面显示问题

关于图片上传和在页面显示问题

最近在工作中遇到一个关于图片上传的问题。根据之前项目的经验，我知道目前这个公司上传图片有两种方式， 一种是把图片上传到公司服务器上，然后把图片放在服务器上的地址存在数据库中，要获得图片的时候直接从库中拿地址就行了另一…

阅读更多...

分析网络抓包用 python 更高效

分析网络抓包用 python 更高效

Abstract分析网络抓包用 python 更高效AuthorsWalter FanCategorylearning noteStatusv1.0Updated2023-01-10LicenseCC-BY-NC-ND 4.0 网络抓包分析用的最多的两大工具是 tcpdump 和 wireshark. 一般我们通过 tcpdump 或者 wireshark 来捕获网络包为 *.pcap 或者 *.pcapng 文件 …

阅读更多...

Elasticsearch：在 Elasticsearch 中按距离有效地对地理点进行排序

Elasticsearch：在 Elasticsearch 中按距离有效地对地理点进行排序

计算搜索中两点之间的距离有很多用例。如果你正在处理地理数据，那么无论你从事何种业务，这都必然会出现。然后，在对这些点进行排序时，你可能需要考虑距离，因为……好吧，为什么不呢？ 所以这里…

阅读更多...

推荐文章

最新文章