深度学习论文: DINOv2: Learning Robust Visual Features without Supervision

news2025/1/22 19:07:00

深度学习论文: DINOv2: Learning Robust Visual Features without Supervision
DINOv2: Learning Robust Visual Features without Supervision
PDF: https://arxiv.org/abs/2304.07193
PyTorch代码: https://github.com/shanglianlm0525/CvPytorch
PyTorch代码: https://github.com/shanglianlm0525/PyTorch-Networks

1 概述

提出一种自监督学习方法DINOv2,可在不需要微调的情况下,生成适用于各种图像分布和任务的通用视觉特征,使用精心筛选的大量图像数据进行预训练,并利用自动流程构建数据集以提高稳定性并加速训练。
在这里插入图片描述

2 Data Processing

本文创建了LVD-142M数据集,通过从大量未筛选的网络数据中挑选与现有筛选数据集相似的图像。数据管道包括筛选/未筛选数据源、图像去重和检索系统,直接处理图像,不依赖元数据或文本。
在这里插入图片描述
数据源包括多个筛选数据集如ImageNet,以及从公开网络爬取的未筛选图像。从网页中提取图像URL,并进行后处理,包括去重、过滤不当内容和模糊人脸,最终获得12亿张独特图像。

去重阶段使用现有技术移除近乎重复图像,提高数据多样性。自监督图像检索通过计算图像嵌入和余弦相似度,从未筛选数据中挑选与筛选数据集中图像接近的图像。

实现细节方面,使用Faiss库进行高效的索引和批量搜索最近嵌入,利用GPU加速处理,并通过计算集群在不到两天的时间内完成了LVD-142M数据集的生成。

3 Discriminative Self-supervised Pre-training

本文采用自监督学习方法来训练特征,结合了DINO、iBOT损失和SwAV居中。同时还加入了特征分散的正则化器和高分辨率训练阶段。

  • 图像级目标:计算学生和教师网络提取特征间的交叉熵损失,使用DINO头处理类标记,并通过softmax和居中处理得到损失项。

  • 补丁级目标:对学生网络的输入补丁进行随机遮蔽,应用iBOT头处理掩码标记,计算损失项。

  • 头权重解耦:DINO和iBOT损失使用独立的MLP头,避免参数共享。

  • Sinkhorn-Knopp居中:采用SwAV的居中方法进行批归一化。

  • KoLeo正则化:基于Kozachenko-Leonenko熵估计器,促使批次内特征均匀分布。

  • 分辨率调整:在预训练的最后阶段提高图像分辨率至518×518,以适应像素级任务需求。

4 Efficient implementation

在这里插入图片描述

为了在更大规模上训练模型,采用了以下改进措施:

  • 快速内存高效注意力:实现了改进版的FlashAttention,提高自注意力层的内存使用效率和速度。

  • 序列打包:采用序列打包技术,将不同长度的标记序列合并为一个长序列,提高训练效率。

  • 高效随机深度:改进随机深度实现,跳过丢弃残差的计算,节省内存和计算资源。

  • 全分片数据并行(FSDP):使用FSDP跨GPU分割模型副本,减少内存占用,提高计算效率和扩展性。

  • 模型蒸馏:对于较小模型,采用知识蒸馏方法,从最大的ViT-g模型中提取知识,而不是从头开始训练。

这些技术改进旨在提高大规模数据集上大型模型的训练效率,同时保持或提高最终模型的性能。通过蒸馏方法,即使是较小的模型也能获得与大型模型相似的性能。

5 Results

5-1 ImageNet Classification

在这里插入图片描述

5-2 Image and Video classification Benchmarks

在这里插入图片描述

5-3 Instance Recognition

在这里插入图片描述

5-4 Semantic segmentation

在这里插入图片描述

5-5 Depth estimation

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1789620.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Transformer系列:注意力机制的优化,MQA和GQA原理简述

前言 多查询注意力(MQA)、分组查询注意力(GQA)是Transformer中多头注意力(MHA)的变种,它们大幅提高了解码器的推理效率,在LLaMA-2,ChatGLM2等大模型中有广泛使用,本篇介绍MQA、GQA的原理并分析其源码实现。 使用MQA,G…

Spring Boot前后端简单集成MinIo开发

Spring Boot前后端简单集成MinIo开发 源码地址重要配置和代码MinIO配置核心代码 最终效果 源码地址 minioStudy 重要配置和代码 MinIO配置 pom文件引入依赖 <!-- minio --> <dependency><groupId>io.minio</groupId><artifactId>minio</ar…

GaussDB的数种形态

GaussDB作为一种新兴的关系型数据库产品&#xff0c;似乎有点让人摸不着头脑。有朋友问我GaussDB单机版怎么样&#xff0c;有人说GaussDB是分布式数据库&#xff0c;还有人说它是云数据库&#xff0c;还有人会把GaussDB和华为的数据仓库GaussDB DWS混为一谈。确实&#xff0c;公…

AD域渗透链和工具推荐

xmind下载地址&#xff1a; 链接: https://pan.baidu.com/s/1_BsmqLvN6aBnan0AIk5iBA 提取码: j97j

笔记 | 软件工程02:软件工程概述

1 软件工程产生背景 1.1 历史发展 1960s的个体作坊式软件开发带来的问题 1.2 软件开发需要解决的问题 代码规模增长带来的影响&#xff1a; 1.3 软件开发面临的挑战 指挥信息系统中的软件&#xff1a;规模大、质量要求高 装备中嵌入式软件系统&#xff1a;规模大、质量要求…

【MySQL数据库】索引与事务

&#x1f525;个人主页&#xff1a; 中草药 &#x1f525;专栏&#xff1a;【MySQL】探秘&#xff1a;数据库世界的瑞士军刀 目录 &#x1f5f3;️一.索引 &#x1f4ee;1.工作原理 &#x1f4ec;2.类型 &#x1f4ed;3.作用 &#x1f4ea;4.优缺点 &#x1f4eb;5.使用…

一维时间序列突变检测方法(小波等,MATLAB R2021B)

信号的突变点检测问题是指在生产实践中&#xff0c;反映各种系统工作状态的信号&#xff0c;可能因为受到不同类型的噪声或外界干扰而发生了信号突变&#xff0c;导致严重失真的信号出现&#xff0c;因此必须探测突变出现的起点和终点。研究目的在于设计出检测方案&#xff0c;…

python-字符替换

[题目描述] 给出一个字符串 s 和 q 次操作&#xff0c;每次操作将 s 中的某一个字符a全部替换成字符b&#xff0c;输出 q 次操作后的字符串输入 输入共 q2 行 第一行一个字符串 s 第二行一个正整数 q&#xff0c;表示操作次数 之后 q 行每行“a b”表示把 s 中所有的a替换成b输…

docker 存储 网络 命令

文章目录 1 docker存储1.1 目录挂载2.1卷映射2.1.1卷映射和目录挂载的区别2.1.2卷映射的使用 2 docker网络2.1查看docker的默认网络2.2查看容器的IP2.3容器互通2.4自定义网络2.4.1 创建自定义网络2.4.2创建容器的时候加入到自定义的网络2.4.3使用域名进行容器之间的访问2.4.4re…

小米路由器如何设置去广告功能,如何设置小米路由器的自定义Hosts(小米路由器如何去除小米广告、去除小米电视盒子开屏广告、视频广告)

文章目录 📖 介绍 📖🏡 演示环境 🏡📒 实现方案 📒📝 操作步骤📝 注意事项⚓️ 相关链接 ⚓️📖 介绍 📖 小米设备的广告一直是用户头疼的问题,无论是开屏广告、应用内广告还是系统广告,都影响了用户体验。本文将详细介绍如何通过小米路由器实现去除广告…

低代码设计中的组织结构的作用与模式

一、组织结构的作用 在低代码设计中&#xff0c;组织结构是系统运作的基石&#xff0c;它定义了系统中的关键元素&#xff0c;包括人员、部门、角色&#xff0c;以及一人多部门、一人多部门多角色的复杂关系。这种定义不仅为系统提供了清晰的运行框架&#xff0c;还确保了系统…

学生问的一道CSS3媒体查询,实现响应式设计的题

目录 题目要求&#xff1a; 解题思路&#xff1a; 解题&#xff1a; 1&#xff09;大屏、3个DIV水平排列 2&#xff09;中屏、前2个DIV水平占一半&#xff0c;第三个另起一行&#xff0c;宽度占满 3&#xff09;小屏&#xff0c;3个DIV铺满&#xff0c;垂直排列 题目要求&…

深入理解计算机系统 家庭作业5.13

A:关键路径在xmm0那条路,书中几条关键路径全部是xmm0,有xmm1时,xmm1也是 B:3 C:1 D:按书中的定义: 关键路径才是下界!按书上的方法根据 图5-12 算出关键路径的CPE即可. 非关键路径把它视为黑盒子.因为是乱序和超标量的,没办法搞清楚处理器具体怎么处理这些指令.

17、Spring系列-SpringMVC-请求源码流程

前言 Spring官网的MVC模块介绍&#xff1a; Spring Web MVC是基于Servlet API构建的原始Web框架&#xff0c;从一开始就已包含在Spring框架中。正式名称“ Spring Web MVC”来自其源模块的名称&#xff08;spring-webmvc&#xff09;&#xff0c;但它通常被称为“ Spring MVC…

PHP 页面报错Warning</b>: Cannot modify header information - headers already sent by

先给出解决方案再解释&#xff0c;如果急着用就不用看解释了。 解决方案一&#xff1a;保存php文件编码为utf-8无BOM码&#xff0c;具体操作可以用notepad等编辑器完成&#xff0c;把 sesstion_start() 放在文档所有输出&#xff08;包括html标签和php的输出语句&#xff0c;具…

了解可燃气体报警器检验收费,守护企业安全新防线

在工业生产中&#xff0c;可燃气体报警器作为预防火灾和爆炸事故的重要设备&#xff0c;其准确性和可靠性至关重要。为了确保报警器的正常运行&#xff0c;定期的检验工作必不可少。 而关于检验收费&#xff0c;很多企业可能存在疑虑&#xff1a;这项费用是否合理&#xff1f;…

AC自动机(查询)

上面讲了AC自动机是如何建树和建自动机的&#xff0c;这里要讲的是AC自动机的查询和各个数组的功能和作用。 其实AC自动机的查询和KMP算法是及其相近的&#xff0c;都是一个指针跑主串&#xff0c;另一个指针跑ne串&#xff08;这里就是回跳边&#xff09;。 话都说到这了&…

C#中字节数组(byte[])末尾继续添加字节的示例

方法一&#xff1a;使用List 使用List可以很容易地在末尾添加字节&#xff0c;然后如果需要&#xff0c;可以将其转换回byte[]。 using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Lin…

【C++小知识】为什么C语言不支持函数重载,而C++支持

为什么C语言不支持函数重载&#xff0c;而C支持 编译链接过程函数名修饰过程总结 在了解C函数重载前&#xff0c;如果对文件的编译与链接不太了解。可以看看我之前的一篇文章&#xff0c;链接: 文件的编译链接 想要清楚为什么C语言不支持函数重载而C支持&#xff0c;有俩个过程…

大数据学习问题记录

问题记录 node1突然无法连接finalshell node1突然无法连接finalshell 今天我打开虚拟机和finalshell的时候&#xff0c;发现我的node1连接不上finalshell,但是node2、node3依旧可以链接&#xff0c;我在网上找了很多方法&#xff0c;但是是关于全部虚拟机连接不上finalshell&a…