18.自监督视觉`transformer`模型DINO

18.自监督视觉`transformer`模型DINO

news2026/2/12 15:16:51

文章目录

自监督视觉`transformer`模型DINO
- 总体介绍
- DINO中使用的SSL和KD方法
- multicrop strategy
- 损失函数定义
- `teacher`输出的中心化与锐化
- 模型总体结构及应用
- - reference

欢迎访问个人网络日志🌹🌹知行空间🌹🌹

自监督视觉`transformer`模型DINO

总体介绍

论文:1.Emerging Properties in Self-Supervised Vision Transformers

这篇文章旨在探索自监督训练有没有给视觉transformer带来相对于CNN没有的新特性。

除了观测到自监督训练ViT工作特别好外，作者还有两个新发现，一个是自监督训练得到的特征图包含明显的语义信息，有可能将自监督的结果直接拿来做语义分割和目标检测，另外一个是直接拿自监督得到的特征向量应用KNN分类，得到了非常好的效果。ps:本人在工程数据(20W张)上验证的直接使用KNN分类的效果比efficient-net还好。

正如DINO的名字缩写，这整个算法使用了知识蒸馏的架构，通过一个teacher网络引导student的学习，使用损失值计算的梯度更新student模型的参数，而teacher模型的参数使用的是student模型参数的指数移动平均值，和BYOL的方法有些相似。除了知识蒸馏，作者还强调了对输入进行RandomResizeCrop和transformer使用小patch_size的重要性。同时，DINO需要对teacher的输出进行中心化和锐化centering and sharpening,否则模型训练会不稳定，甚至崩溃(collapse)。DINO使用的student和teacher且训练过程中相互促进学习，也属于共蒸馏codistillation模型。

知识蒸馏的概念是一个学生网络student表示为 $g\theta_s$ 学习匹配一个教师网络teacher表示为 $g\theta_t$ 的输出，通过teacher引导student的训练。

假如给定一个输入图像 $x$ ，网络对应的输出是 $K$ 维的概率分布 $P$ (类似于有K个类别的分类)，student和teacher对应的输出概率分别为P_s和P_t。

在计算student输出概率的时候使用的是带 $\tau_s$ 温度系数的softmax方法，在DINO中默认的 $\tau_s=0.1$ ,目的在于增大输出的相对熵，促进类别之间相似度的区分，在计算teacher输出的概率时同样使用了 $\tau_t=0.9$ 。

$P_s(x)^(i)=\frac{exp(g\theta_s(x)^{(i)}/\tau_s)}{\sum\limits_{k=1}^{K}exp(g\theta_s(x)^{(k)}/\tau_s)}$

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1159910.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

变融启程视界已破——“新主流·新未来”四川广播电视台战略分享会在成都举行

变融启程视界已破——“新主流·新未来”四川广播电视台战略分享会在成都举行

2023年11月1日下午，2024年度“新主流新未来”四川广播电视台战略分享会在成都举行。从三年前的“变融”开启融合、转型之路，到两年前以“进化”应对变化探索媒体融合之路，再到去年塑造“新视界”全屏聚合传播矩阵，四川广播电视台不…

阅读更多...

MIT6.5830 Lab1-GoDB实验记录（四）

MIT6.5830 Lab1-GoDB实验记录（四）

MIT6.5830 Lab1-GoDB实验记录（四） – WhiteNights Site 标签：Golang 读写缓冲区我是一点思路都没有，所以得单独开篇文章记录。实验补充了解buffer、序列化与反序列化这里的序列化，简单来说类似于把一个很长的字符…

阅读更多...

C/C++ sizeof

C/C++ sizeof

介绍 sizeof 是一个关键字、操作符，也是一个编译时运算符作用：返回一个对象或者类型所占的内存字节数使用方法 sizeof(type_name);//sizeof(类型) sizeof(object);//sizeof(对象) 注意： sizeof 操作符不能用于函数类型，不…

阅读更多...

爆肝将近 10 万字讲解 Node.Js 详细教程

爆肝将近 10 万字讲解 Node.Js 详细教程

1. Node.Js 环境概述 Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行环境，用于在服务器端运行 JavaScript。它使用了一个事件驱动、非阻塞式I/O的模型，使得其轻量且高效。Node.js 的包管理器 npm 是全球最大的开源库生态系统。Node.js 能够响应大…

阅读更多...

Java架构师知识产权与标准化

Java架构师知识产权与标准化

目录 1 导学2 知识产权概述3 保护期限4 知识产权人的确定4 侵权判断5 标准划分想学习架构师构建流程请跳转：Java架构师系统架构设计 1 导学 2 知识产权概述知识产权是指公民、法人、非法人单位对自己的创造性智力成果和其他科技成果依法享有的民事权。是智力成果的创造人依…

阅读更多...

AI“走深向实”，蚂蚁蚁盾在云栖大会发布实体产业「知识交互建模引擎」

AI“走深向实”，蚂蚁蚁盾在云栖大会发布实体产业「知识交互建模引擎」

数字化起步晚、数据分散稀疏、专业壁垒高、行业知识依赖「老师傅」，是很多传统产业智能化发展面临的难题。2023年云栖大会上，蚂蚁集团安全科技品牌蚁盾发布“知识交互建模引擎”，将实体产业知识与AI模型有机结合，助力企业最快10分…

阅读更多...

二进制基础

二进制基础

最近开始入坑系统安全大坑，调转方向开始了解pwn，那就要补一些那少得可怜的底层基础啦先学几个单词： exploit：用于攻击的脚本与方案payload：攻击载荷，是目标进程被劫持控制流的数据（精心构造的…

阅读更多...

Python画图之HelloKitty

Python画图之HelloKitty

Python-turtle画出HelloKitty（有趣小游戏） 一、效果图二、安装库1.常用镜像源2.库下载三、Python代码一、效果图二、安装库 1.常用镜像源 1. 豆瓣http://pypi.douban.com/simple/ 2. 清华大学：https://pypi.tuna.tsinghua.edu.cn/simple…

阅读更多...

智能视频监控平台EasyCVR出现偶发通道在线，但是无法播放的情况要怎么解决？

智能视频监控平台EasyCVR出现偶发通道在线，但是无法播放的情况要怎么解决？

视频云存储/安防监控EasyCVR视频汇聚平台基于云边端智能协同，支持海量视频的轻量化接入与汇聚、转码与处理、全网智能分发、视频集中存储等。流媒体视频平台EasyCVR拓展性强，视频能力丰富，具体可实现视频监控直播、视频轮播、视频录像、云存储…

阅读更多...

Scrum of Scrums大规模敏捷管理流程

Scrum of Scrums大规模敏捷管理流程

Leangoo领歌是一款永久免费的专业的敏捷开发管理工具，提供端到端敏捷研发管理解决方案，涵盖敏捷需求管理、任务协同、进展跟踪、统计度量等。 Leangoo领歌上手快、实施成本低，可帮助企业快速落地敏捷&#xff0c…

阅读更多...

Linux学习之进程二

Linux学习之进程二

目录进程状态 R (running)运行状态与s休眠状态： disk sleep（深度睡眠状态） T (stopped)（暂停状态） t----tracing stop(追踪状态) X死亡状态（dead） Z(zombie)-僵尸进程孤儿进程进程优…

阅读更多...

Android问题

Android问题

这里面要加入 ,加入前是点击待君登录直接跳回手机主界面了加入上述代码即可 Android之Inflate() Inflate()作用就是将xml定义的一个布局找出来，但仅仅是找出来而且隐藏的，没有找到的同时并显示功能。 android上还有一个与Inflate()类似功能的…

阅读更多...

【AI视野·今日CV 计算机视觉论文速览第274期】Tue, 24 Oct 2023

【AI视野·今日CV 计算机视觉论文速览第274期】Tue, 24 Oct 2023

AI视野今日CS.CV 计算机视觉论文速览 Tue, 24 Oct 2023 Totally 138 papers 👉上期速览✈更多精彩请移步主页 Interesting: 📚Wonder3D, 基于交叉扩散模型的单图像三维形状生成。(from 香港大学) website:https://www.xxlong.site/Wonder3D/ Daily Co…

阅读更多...

Flutter 04 按钮Button和事件处理、弹框Dialog、Toast

Flutter 04 按钮Button和事件处理、弹框Dialog、Toast

一、按钮组件 1、按钮类型： 2、按钮实现效果： import package:flutter/material.dart;void main() {runApp(const MyApp()); }class MyApp extends StatelessWidget {const MyApp({Key? key}) : super(key: key);overrideWidget build(BuildContext co…

阅读更多...

X64（64位）汇编指令与机器码转换原理

X64（64位）汇编指令与机器码转换原理

X64（64位）汇编指令与机器码转换原理 1 64位寻址形式下的ModR/M字节1.1 寻址方式1.2 寄存器编号 2 汇编指令转机器码2.1 mov rcx, 1122334455667788h2.2 mov rcx,[r8]与mov [r8],rcx2.3 mov rcx,[r8r9*2] 本文属于《 X86指令基础系列教程》之一&#xff…

阅读更多...

重温云栖，分享十年成长：我和云栖的故事

重温云栖，分享十年成长：我和云栖的故事

文章目录前言活动背景我和云栖的交际历届峰会主题2009201020112012201320142015201620172018202120222023 技术带来的变化工作生活关注的领域后记前言云栖大会，前身可追溯到2009年的地方网站峰会，2011年演变为阿里云开发者大会，2015年正式…

阅读更多...

python线程（进程子单位）

python线程（进程子单位）

进程是由CPU给分配的执行单元，比较消耗空间和内存创建、使用线程 import threading# 进程 # 线程 from time import sleepdef download():list1 ["girl.png", "boy.png", "child.png"]for l in list1:print(l)sleep(1.5)print(&qu…

阅读更多...

ThinkPad T14 2023评测|thinkpad t14 gen4

ThinkPad T14 2023评测|thinkpad t14 gen4

一、购买地址我在淘宝、京东、联想商城、苏宁易购都看了看，最终确定了在抖音官方商城买电脑，主要是价格低，足足少了四百，还送了一个电脑包和一个鼠标。二、硬件信息 2.1 内存这个运行内存比较有意思，我还是第一次买…

阅读更多...

前端JavaScript

前端JavaScript

文章目录一、JavaScript概述JS简介1.ECMAScript和JavaScript的关系2.ECMAScript的历史3.什么是javas？4.JavaScript的作用？ 三者之间的作用JS基础1.注释语法2.引入js的多种方式3.结束符号变量与常量变量1.JavaScript声明2.var与let的区别常量基本数据类…

阅读更多...

【Linux进程】再谈软件—操作系统(Operator System)

【Linux进程】再谈软件—操作系统(Operator System)

目录操作系统(Operator System) 概念设计OS的目的如何理解 "管理"——先描述再组织系统调用和库函数概念总结操作系统(Operator System) 概念任何计算机系统都包含一个基本的程序集合，称为操作系统(OS)。笼统的理解，操作系统…

阅读更多...

推荐文章

最新文章