【Functional Affordances】如何确认可抓取的区域?(前传)

news2025/1/10 21:36:51

文章目录

  • 1. 【Meta AI】Emerging Properties in Self-Supervised Vision Transformers
  • 2. 【Meta AI】DINOv2: Learning Robust Visual Features without Supervision
  • 3. 【NeurIPS 2023】Diffusion Hyperfeatures: Searching Through Time and Space for Semantic Correspondence
    • 核心
    • 模型框架
  • 4. 【NeurIPS 2023】A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot Semantic Correspondence
    • 怎么提取 并 融合SD和DINO的特征
  • 5. 【NeurIPS 2023】Emergent Correspondence from Image Diffusion
    • 回顾什么是扩散模型,如何使用预先训练的扩散模型在真实图像上提取密集特征。

1. 【Meta AI】Emerging Properties in Self-Supervised Vision Transformers

在这里插入图片描述

  • 这篇文章通过提出DINO自监督学习方法,展示了Vision Transformer(ViT)在无需标签的情况下学习到的丰富视觉特征,为未来无监督和自监督视觉模型的研究与应用开辟了新路径。

  • 丰富视觉特征,即自监督预训练的ViT模型能够学习到图像的语义分割信息。

  • 为后续工作铺垫。

重塑自监督学习: DINO 网络如何颠覆视觉特征表示的常规方法

在这里插入图片描述

2. 【Meta AI】DINOv2: Learning Robust Visual Features without Supervision

AI Computer Vision Research
DINOv2: A Self-supervised Vision Transformer Model

在这里插入图片描述
实现细节我们不看了,看一下结果,看这种方法可以为我们带来什么下游任务启发。

  • 如上图,每个组件都与不同的颜色通道匹配。尽管姿势、风格甚至物体发生了变化,但相关图像之间的相同部分仍会匹配。
  • 图10。跨图像匹配。我们匹配来自不同领域、姿势甚至共享相似语义信息的对象的图像之间的补丁级特征。这展示了我们的模型跨领域转移和理解不同对象的相似部分之间关系的能力。

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

3. 【NeurIPS 2023】Diffusion Hyperfeatures: Searching Through Time and Space for Semantic Correspondence

基于扩散模型的特征提取方法,用于语义对应任务

核心

在这项工作中,我们提出了一个框架,用于将扩散过程中的所有中间特征图整合在一起,这些特征图在规模和时间上各不相同,到一个我们称之为扩散超特征的逐像素描述符中。

模型框架

在这里插入图片描述
我们的方法由两个核心部分组成。
提取(第 3.1 节):我们制定了一个简化且统一的提取过程,可同时考虑合成图像和真实图像,这意味着我们能够对两种图像类型的特征使用相同的聚合网络。
聚合(第 3.2 节):我们提出了一个可解释的聚合网络,它学习跨特征的混合权重,突出显示提供底层模型和任务所独有的最有用特征的层和时间步长。


3.1 Diffusion Process Extraction

扩散模型提供了粗略和精细的特征,这些特征在层和时间步的不同组合中捕获不同的图像特征(即语义或纹理信息)。因此,我们发现从所有层和时间步中提取特征很重要,以便充分调整我们的最终描述符映射来表示给定任务所需的适当粒度级别

在这里插入图片描述

我们的反演特征能够可靠地捕获两只猫的全身及其第 4 层中的常见语义子部分(头、躯干、腿)以及第 10 层中的边缘,即使在输入的时间步长模型的噪声相对较大。

在这里插入图片描述
在上图中,我们可以看到,我们的反演特征能够可靠地捕获两只猫的全身及其第 4 层中的常见语义子部分(头、躯干、腿)以及第 10 层中的边缘,即使在输入的时间步长模型的噪声相对较大。

相反,使用生成过程来分析真实图像(如之前的工作中所做的那样)会导致超参数调整和权衡。例如,在接近 t = T 的时间步长处,分布内输入接近噪声,特征开始偏离真实图像中存在的信息,甚至可能产生无关细节的幻觉,如图 3 所示。


3.2 Diffusion Hyperfeatures Aggregation

在这里插入图片描述

在这里插入图片描述

示例合成图像及其文本提示、用户注释的真实对应关系以及来自 DINO、SD-Layer-4 和我们的方法的预测对应关系。请注意,我们转移了根据真实图像的反演特征调整的聚合网络,并将其应用于这些合成图像的生成特征,与 SPair-71k 类别相比,这些合成图像完全在域外。

4. 【NeurIPS 2023】A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot Semantic Correspondence

将SD特征和DINOv2特征用一种简单的方式融合在一起了

  • 我们利用稳定扩散(SD)特征进行语义和密集对应 (semantic and dense correspondence),并发现通过简单的后处理,SD 特征与 SOTA 的表示质量相媲美。
  • 我们展示了文本到图像生成模型(SD)的内部表示在语义和密集对应方面的潜力。

  • 我们的分析表明,与现有的表示学习特征(例如最近发布的 Dinov2)相比,SD 特征具有非常不同的属性:虽然 Dinov2 提供了稀疏但准确的匹配,但 SD 特征提供高质量的空间信息,但有时不准确的语义匹配。
  • 我们分析了SD的特征,它产生空间感知但不准确的对应,以及标准表示学习特征,即DINOv2,它产生准确但稀疏的对应,并表明它们是相互补充的。

  • 我们设计了一种简单的策略来对齐和集成SD 和DINOv2 特征,并证明这些具有零样本评估的特征(仅最近邻,无需专门训练)可以在语义和密集对应方面优于许多SOTA 方法。

在这里插入图片描述
在右侧,我们通过将狗、马、牛甚至摩托车与源图像中的猫进行匹配来展示我们方法的稳健性。

怎么提取 并 融合SD和DINO的特征

Stable Diffusion 的架构由三部分组成:编码器 E、解码器 D(促进像素和潜在空间之间的转换),以及在潜在空间中运行的去噪 U-Net U。
我们首先通过编码器 E 将输入图像 x0 投影到潜在空间中,以产生潜在代码 z0。接下来,我们根据预定义的时间步长 t 将高斯噪声 ε 添加到潜在代码中。
然后,以时间步 t 的潜在代码 zt 和文本嵌入 C 作为输入,我们从去噪 U-Net 中提取特征 F_SD。整个过程可以正式表示如下:
在这里插入图片描述
之前的工作报道了中间 U-Net 层对于图像到图像翻译任务具有更多语义信息,但尚不清楚这些特征是否适合语义对应。


Dinov2 和SD的互补特性为提高语义对应任务的性能提供了有希望的潜力。

  • DINO特征可以捕获高级语义信息,擅长获得稀疏但准确的匹配。
  • SD特征侧重于低级空间信息并确保对应关系的空间相干性,特别是在缺乏强纹理信号的情况下。

一个自然的问题出现了:怎么融合两个特征?


提出了一种简单而有效的融合策略来利用 SD 和 DINO 特征。核心思想是 独立归一化这两个特征来对齐它们的尺度和分布,然后将它们连接在一起:
在这里插入图片描述

5. 【NeurIPS 2023】Emergent Correspondence from Image Diffusion

从扩散网络中提取隐式知识作为图像特征,利用这些特征进行真实图像之间的对应

给定图像中的红色源点(最左侧),我们希望开发一个模型,可以自动找到右侧图像中的对应点。在没有任何微调或对应监督的情况下,我们提出的 **扩散特征(DIFT)**可以跨实例、类别甚至领域建立语义对应,例如,从鸭子到企鹅,从照片到油画。
在这里插入图片描述

回顾什么是扩散模型,如何使用预先训练的扩散模型在真实图像上提取密集特征。

作者对扩散模型做了一个短小精悍的介绍

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1561501.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ElasticSearch理论指导

引子 本文致力于ElasticSearch理论体系构建,从基本概念和术语讲起,具体阐述了倒排索引和TransLog,接着讲了ElasticSearch的增删改查的流程和原理,最后讲了讲集群的选举和脑裂问题。 前言 大碗宽面-Kafka一本道万事通&#xff0…

蓝桥杯真题:成绩统计

这题思路简单,但是输出结果的位置容易出错,题目要求四舍五入,所以要用Math.round()的方法

瑞吉外卖实战学习--10、完成新增菜品分类

完成新增菜品分类 前言1、前期准备定义实体类和实体对象 2、创建修改的接口 前言 1、前期准备 定义实体类和实体对象 package com.example.ruiji_demo.entity;import com.baomidou.mybatisplus.annotation.FieldFill; import com.baomidou.mybatisplus.annotation.TableField; …

kubernetes-Pod基于污点、容忍度、亲和性的多种调度策略(二)

Pod调度策略 一.污点-Taint二.容忍度-Tolerations三.Pod常见状态和重启策略1.Pod常见状态2.Pod的重启策略2.1测试Always重启策略2.2测试Never重启策略2.3测试OnFailure重启策略(生产环境中常用) 一.污点-Taint 在 Kubernetes 中,污点&#x…

稻盛和夫|普通人如何才能取得非凡成就?

哈喽,你好啊,我是雷工! 稻盛和夫老先生曾经回答过这么一个问题: 资质平庸的普通人如何才能取得非凡的成就? 稻盛和夫认为:人生成就=能力努力态度。 也就是:做一个努力工作却不甘于只做眼前的事,而想要做更有挑战的事,这种人才能逃离平庸,取得非凡成就。 01 不甘平凡…

django+uniapp校园失物招领系统e5asg 微信小程序python

本失物招领小程序,使用的是比较成熟的python语言和比较完善的MySQL数据库,将网络失物招领小程序信息管理系统可以更安全、技术性更强的满足网站所有信息的管理。 失物招领小程序主要实现了管理员服务端模块、学生微信端模块二大部分。通过本失物招领小程…

200个有趣的HTML前端游戏项目合集(持续更新中)

💂 个人网站:【 摸鱼游戏】【神级代码资源网站】【工具大全】🤟 一站式轻松构建小程序、Web网站、移动应用:👉注册地址🤟 基于Web端打造的:👉轻量化工具创作平台💅 想寻找共同学习交…

新生报到系统的设计与实现(论文+源码)_kaic

摘 要 互联网发展至今,无论是其理论还是技术都已经成熟,而且它广泛参与在社会中的方方面面。它让信息都可以通过网络传播,搭配信息管理工具可以很好地为人们提供服务。针对新生报到信息管理混乱,出错率高,信息安全性差…

11-2说说小滴课堂之前的被薅羊毛的事情+防范解决方案

11-2说说小滴课堂之前的被薅羊毛的事情防范解决方案

【LVGL-字库应用】

LVGL-中文字库应用 ■ LVGL-内部字库■ LVGL 内部字库的使用流程: ■ LVGL-自定义字库■ 方法一:C 语言数组(内部读取)-在线转换工具■ 方法二:C 语言数组(内部读取)-利用离线字体转换软件&…

【Java】API——Calendar日期类使用+题目演示

目录 Calendar日期类简单介绍 导入对应包: 获取 Calendar 对象: 设置日期和时间: 获取日期和时间的各个部分: 日期和时间的加减操作: 例题:世纪末的星期 题目描述 题目代码 Calendar日期类简单介绍…

FPGA之状态机学习

作为一名逻辑工程师,掌握和应用状态机设计是必不可少的。能够灵活的应用状态机是对逻辑工程师最基本的要求,状态机设计的好坏能够直接影响到设计系统的稳定性,所以学会状态机是非常的重要。 1.状态机的概念 状态机通过不同的状态迁移来完成特…

计算机网络—TCP协议详解:特性、应用(1)

🎬慕斯主页:修仙—别有洞天 ♈️今日夜电波:マリンブルーの庭園—ずっと真夜中でいいのに。 0:34━━━━━━️💟──────── 3:34 🔄 ◀️…

YOLOv8部署到C++上(综合版笔记)

这段时间由于项目的需要,需要将yolov8部署到C上以及跟相应的算法结合,花了我不少时间。 现阶段有考虑过使用onnx转Tensort,但是无法输出分类的结果,故放弃,有目标检测的小伙伴可以试试,接下来使用onnxrunt…

Qt打印系统库的日志 - QLoggingCategory

Qt的动态库通过源码可以可以看到含有大量的qCInfo 和 qCDebug 等大量的日志, 但是我们正常运行Qt程序,这些动态库或插件里面的日志是不会输出到我们的控制台里面的。 所以本章主要记录怎么输出这些日志出来。 一: 步骤 主要使用的是Qt的 函…

第十四届省赛大学B组(C/C++)岛屿个数

目录 题目链接:岛屿个数 解题思路: AC代码(BFSDFS): 题目链接:岛屿个数 小蓝得到了一副大小为 MN 的格子地图,可以将其视作一个只包含字符 0(代表海水)和 1&#xff0…

机器人控制系统阶跃响应

机械臂控制系统的阶跃响应是指当给机械臂控制系统施加一个阶跃输入(即输入量在短时间内从0跳变为某个定值)时,机械臂的输出(如位置、速度等)随时间的变化情况。通过观察和分析阶跃响应,可以了解机械臂控制系…

Verilog语法之assign语句学习

assign语法主要是对组合逻辑的变量进行赋值的,就是把一个变量赋值给另一个变量,被复制的变量必须是wire类型的参数。 从仿真结果可以看出,data_in变量的值赋值给了data_out,assign语法就是赋值没有任何延迟,data_in是什么值&#…

OpenHarmony相机和媒体库-如何在ArkTS中调用相机拍照和录像。

介绍 此Demo展示如何在ArkTS中调用相机拍照和录像,以及如何使用媒体库接口进行媒体文件的增、删、改、查操作。 本示例用到了权限管理能力ohos.abilityAccessCtrl 相机模块能力接口ohos.multimedia.camera 图片处理接口ohos.multimedia.image 音视频相关媒体业…

蓝桥杯练习系统(算法训练)ALGO-962 积木大赛

资源限制 内存限制:128.0MB C/C时间限制:1.0s Java时间限制:3.0s Python时间限制:5.0s 问题描述 THU幼儿园举办了一年一度的“积木大赛”。今年比赛的内容是搭建一座宽度为n的大厦,大厦可以看成由n块宽度为1的…