【OpenMMLab AI实战营第二期】深度学习预训练与MMPretrain

news2025/4/27 6:47:44

深度学习预训练与MMPretrain

MMPreTrain 算法库介绍

MMPretrain 是一个全新升级的预训练开源算法框架，旨在提供各种强大的预训练主干网络，并支持了不同的预训练策略。MMPretrain 源自著名的开源项目 MMClassification 和 MMSelfSup，并开发了许多令人兴奋的新功能。目前，预训练阶段对于视觉识别至关重要，凭借丰富而强大的预训练模型，我们能够改进各种下游视觉任务。

我们的代码库旨在成为一个易于使用和用户友好的代码库库，并简化学术研究活动和工程任务。我们在以下不同部分中详细介绍了 MMPretrain 的特性和设计。

代码仓库：https://github.com/open-mmlab/mmpretrain
文档教程：https://mmpretrain.readthedocs.io/en/latest/

支持开箱即用的推理API和模型，包含丰富的相关任务

图像分类
图像描述
视觉问答
视觉定位
检索

安装

pip install openmim
git clone https://github.com/open-mmlab/mmpretrain.git
cd mmpretrain
pip install -U openmim && mim install -e .

多模态安装

# 从源码安装
mim install -e ".[multimodal]"

# 作为 Python 包安装
mim install "mmpretrain[multimodal]>=1.0.0rc8"

验证安装

from mmpretrain import get_model, inference_model

model = get_model('resnet18_8xb32_in1k', device='cpu')  # 或者 device='cuda:0'
inference_model(model, 'demo/demo.JPEG')

代码框架

在这里插入图片描述

经典主干网络

残差学习基本思路

在这里插入图片描述

两种残差网络

在这里插入图片描述

ResNet（2015）

以VGG为基础

保持多级机构、增加层数

增加跨层连接

ResNet-34 34层ImageNet Top-5 准确率：94.4

5级，每级包含若干残差模块，不同残差模块个数不同ResNet结构

每级输出分辨率减半，通信倍增

全局平均池化压缩空间维度

单层全连接层产生类别概率

ResNet的成就和影响力

深度学习领域影响力最大、使用最广泛的模型机构之一，获得CVPR 2016最佳论文奖

残差结构也一直被广泛应用至今，不论计算机视觉如今的各种视觉TransFormer或者是ConvNeXt这类卷积神经网络，亦或是近期大火的GPT及各类大语言模型中都有着残差网络的身影

Vision Transformer

将图像切分成若干16*16的小块，所有块排列成词向量，先经过线性层映射，一张[H,W,C]维度的图片变为[L,C],再经多层Transformer Encoder的计算产生相应的特征向量

图块之外加入额外的token，用于query其他patch的特征并给出最后分类

注意力模块基于全剧感受野，复杂度为尺度的4次方

自监督学习的常见类型

基于各种代理任务
基于对比学习
基于掩码学习

SimCLR

基本假设：如果模型能很好地提取图片内容的本质，那么无论图片经过什么样的数据增强操作，提取出来的特征都极为相似

Masked Autencoders

基本假设：模型只有理解图片内容、掌握图片的上下文信息，才能恢复出图片中被随机遮挡的内容

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/612437.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

项目干系人管理实用方法，让你的项目顺风顺水

项目干系人管理实用方法，让你的项目顺风顺水

项目管理中的干系人是每个项目的一个重要方面，因为项目的结果取决于他们。然而，管理各种各样的干系人的艺术很有挑战性。在项目管理中根本没有出错的余地，本文将带你了解项目干系人以及如何管理他们以促进项目的全面成功。谁是项目管理的干…

阅读更多...

第3章：SpringMVC获取请求参数

第3章：SpringMVC获取请求参数

一、SpringMVC获取请求参数 1.通过servletAPI获取将HttpServletRequest作为控制器方法的形参，此时HttpServletRequest类型的参数表示封装了当前请求的请求报文的对象 <a th:href"{/testServletAPI(usernameadmin,password123456)}">测试API<…

阅读更多...

MCGS昆仑通态触摸屏导入博途自定义数据类型和DB块变量的具体方法演示

MCGS昆仑通态触摸屏导入博途自定义数据类型和DB块变量的具体方法演示

MCGS昆仑通态触摸屏导入博途自定义数据类型和DB块变量的具体方法演示如下图所示，在博途中新建项目后，添加自己所需的数据类型，然后选中该数据类型，右击选择“从块生成源“—”仅所选块“，如下图所示，设置文件名后点击保存，如下图所示，选中需要导出的DB块，右击选…

阅读更多...

人事项目开发记录-登录模块

人事项目开发记录-登录模块

人事项目开发记录后端接口实现后端接口实现后端权限认证采用Spring Security实现（本小节中大量知识点与第10章的内容相关，需要读者熟练掌握第10章的内容），数据库访问使用MyBatis，同时使用Redis实现认证信息缓存。因…

阅读更多...

如何在Centos的SSH2终端中终止-停止-结束某个Python程序的运行？

如何在Centos的SSH2终端中终止-停止-结束某个Python程序的运行？

python3 /opt/python_scripts/retr/P-0006.py &我在运行上面的命令后，得到了下面的提示： [1] 42335 如果我想终止这个我自己写的Python程序，该怎么做呢？ 答： 当您在后台运行一个命令时，终端会显示类似…

阅读更多...

Django中使用openldap实现账号的统一管理

Django中使用openldap实现账号的统一管理

了解和安装 ldap ldap介绍 LDAP（Lightweight Directory Access Protocol）是一种轻量级的目录访问协议，它用于访问和维护分布式目录服务。 LDAP最初设计用于提供对X.500目录服务的简化访问，后来被广泛应用于各种应用程序和系统中…

阅读更多...

SpringBoot源码分析：SpringBoot整合Tomcat(三)

SpringBoot源码分析：SpringBoot整合Tomcat(三)

一、概述 SpringBoot整合Tomcat整体启动流程如下图，接下来我们就按照改流程分析SpringBoot中内嵌Tomcat的启动流程。二、启动流程通过AbstractApplicationContext.refresh方法进入AbstractApplicationContext.onRefresh方法。之后进入子类ServletWebServerAppl…

阅读更多...

Word控件Spire.Doc 【其他】教程(6)：从 Word 中提取 OLE 对象

Word控件Spire.Doc 【其他】教程(6)：从 Word 中提取 OLE 对象

Spire.Doc for .NET是一款专门对 Word 文档进行操作的 .NET 类库。在于帮助开发人员无需安装 Microsoft Word情况下，轻松快捷高效地创建、编辑、转换和打印 Microsoft Word 文档。拥有近10年专业开发经验Spire系列办公文档开发工具，专注于创建、编辑、转…

阅读更多...

chatgpt赋能python：Python后退命令：如何让你的程序退回到之前的状态

chatgpt赋能python：Python后退命令：如何让你的程序退回到之前的状态

Python后退命令：如何让你的程序退回到之前的状态 Python是一种高级编程语言，因其易读易懂而闻名于世。Python中有很多命令用于编写程序，其中一项重要的命令是后退命令。本文将介绍Python后退命令的使用方法，并为您提供详细的步骤…

阅读更多...

ChatGPT热度不减！华为宣布入局，盘古GPT能否大杀四方！

ChatGPT热度不减！华为宣布入局，盘古GPT能否大杀四方！

ChatGPT热度不减六月份了，朋友们，来到六月份了已经，ChatGPT的热度依旧不减，各大论坛网站的榜单上还飘着ChatGPT相关话题的文章，且排名靠前。由此可见，这ChatGPT这股子热潮还得持续一段时间呢。而且ChatG…

阅读更多...

cuda block grid等介绍

cuda block grid等介绍

这里写目录标题 cuda层次结构程序架构层次结构cuda程序调用cuda 内置变量GPU内存模型内存结构可编程内存内存作用域寄存器本地内存共享内存共享内存访问冲突常量内存全局内存gpu缓存 cuda层次结构程序架构申请内存时是线性的内存，需要知道是按行还是按列排列设计…

阅读更多...

【Linux】Linux内核编译与入门

【Linux】Linux内核编译与入门

😏★,:.☆(￣▽￣)/$:.★ 😏 这篇文章主要介绍Linux内核编译。学其所用，用其所学。——梁启超欢迎来到我的博客，一起学习知识，共同进步。喜欢的朋友可以关注一下，下次更新不迷路&am…

阅读更多...

DM数据库TEXT类型字段查询返回时的问题

DM数据库TEXT类型字段查询返回时的问题

一、问题描述： 在项目中使用到了DM数据库连接，查询某些数据，然后以Map形式返回时TEXT类型是会出现一些问题，默认会转换为dm.jdbc.driver.DmdbNClob类型的对象，某些情况下（不知道具体原因）在JSON…

阅读更多...

移动端布局之flex布局1：flex布局体验、flex布局原理、flex布局父项常见属性

移动端布局之flex布局1：flex布局体验、flex布局原理、flex布局父项常见属性

移动端布局之flex布局1 flex布局体验传统布局和flex弹性布局的区别初体验index.html flex布局原理布局原理 flex布局父项常见属性常见父项属性flex-direction设置主轴的方向（重要）主轴与侧轴属性值flex-direction: row;flex-direction: row-reverse;flex…

阅读更多...

笔试强训9

笔试强训9

作者：爱塔居专栏：笔试强训文章简介：简单记录学习的细碎~ day15 一. 单选 1.给出数据表 score(stu-id,name,math,english,Chinese), 下列语句正确的是（ ） A Select sum(math),avg(chinese) from score B Select *,s…

阅读更多...

麒麟V10防火墙，VNC，YUM源， nfs ，磁盘格式化

麒麟V10防火墙，VNC，YUM源， nfs ，磁盘格式化

麒麟V10防火墙，VNC，YUM源， nfs ，磁盘格式化麒麟V10开启防火墙并设置开机自启启动： systemctl start firewalld 关闭： systemctl stop firewalld 查看状态： systemctl status firewalld 开机禁…

阅读更多...

2023年Q1电商平台饮料行业数据分析报告

2023年Q1电商平台饮料行业数据分析报告

我国的饮料市场非常庞大，从碳酸饮料到茶饮料，从功能性饮料到水，各个品类都有广泛的消费者基础。加之如今饮料消费场景不断延伸，家庭囤货、户外即饮、运动健身等成为消费者饮料需求的新场景，新需求带动线上饮料市场持续…

阅读更多...

Numpy---创建多维数组、创建正态分布、创建均匀分布

Numpy---创建多维数组、创建正态分布、创建均匀分布

1. 创建一个随机整数的多维数组 np.random.randint(low, highNone, sizeNone, dtypel) 参数说明: low : 最小值 highNone: 最大值 highNone时，生成的数值在【0, low）区间内如果使用high这个值，则生成的数值在【low, high）区…

阅读更多...

Nginx服务——主配置文件-nginx.conf

Nginx服务——主配置文件-nginx.conf

一、全局配置的6个模块简介模块说明全局块全局配置，对全局生效events块配置影响 Nginx 服务器与用户的网络连接http块配置代理，缓存，日志定义等绝大多数功能和第三方模块的配置server块配置虚拟主机的相关参数，一个 http 块中可…

阅读更多...

SSD源码总结

SSD源码总结

一、生成默认框默认框的宽高默认框的宽高是相对于原图的尺寸计算出来的。默认框的中心默认框的中心是相对于特征图的尺寸计算出来的。二、将真实框分配给默认框 1、区分正负样本 1.1、选取正样本计算真实框（bboxs）与每个默认框（…

阅读更多...

推荐文章

最新文章