【Functional Affordances】如何确认可抓取的区域？（前传）

news2025/4/8 10:55:44

文章目录

1. 【Meta AI】Emerging Properties in Self-Supervised Vision Transformers
2. 【Meta AI】DINOv2: Learning Robust Visual Features without Supervision
3. 【NeurIPS 2023】Diffusion Hyperfeatures: Searching Through Time and Space for Semantic Correspondence
- 核心
- 模型框架
4. 【NeurIPS 2023】A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot Semantic Correspondence
- 怎么提取并融合SD和DINO的特征
5. 【NeurIPS 2023】Emergent Correspondence from Image Diffusion
- 回顾什么是扩散模型，如何使用预先训练的扩散模型在真实图像上提取密集特征。

1. 【Meta AI】Emerging Properties in Self-Supervised Vision Transformers

在这里插入图片描述

这篇文章通过提出DINO自监督学习方法，展示了Vision Transformer（ViT）在无需标签的情况下学习到的丰富视觉特征，为未来无监督和自监督视觉模型的研究与应用开辟了新路径。
丰富视觉特征，即自监督预训练的ViT模型能够学习到图像的语义分割信息。
为后续工作铺垫。

重塑自监督学习: DINO 网络如何颠覆视觉特征表示的常规方法

在这里插入图片描述

2. 【Meta AI】DINOv2: Learning Robust Visual Features without Supervision

AI Computer Vision Research
DINOv2: A Self-supervised Vision Transformer Model

在这里插入图片描述
实现细节我们不看了，看一下结果，看这种方法可以为我们带来什么下游任务启发。

如上图，每个组件都与不同的颜色通道匹配。尽管姿势、风格甚至物体发生了变化，但相关图像之间的相同部分仍会匹配。
图10。跨图像匹配。我们匹配来自不同领域、姿势甚至共享相似语义信息的对象的图像之间的补丁级特征。这展示了我们的模型跨领域转移和理解不同对象的相似部分之间关系的能力。

在这里插入图片描述

3. 【NeurIPS 2023】Diffusion Hyperfeatures: Searching Through Time and Space for Semantic Correspondence

基于扩散模型的特征提取方法，用于语义对应任务

核心

在这项工作中，我们提出了一个框架，用于将扩散过程中的所有中间特征图整合在一起，这些特征图在规模和时间上各不相同，到一个我们称之为扩散超特征的逐像素描述符中。

模型框架

在这里插入图片描述
我们的方法由两个核心部分组成。
提取（第 3.1 节）：我们制定了一个简化且统一的提取过程，可同时考虑合成图像和真实图像，这意味着我们能够对两种图像类型的特征使用相同的聚合网络。
聚合（第 3.2 节）：我们提出了一个可解释的聚合网络，它学习跨特征的混合权重，突出显示提供底层模型和任务所独有的最有用特征的层和时间步长。

3.1 Diffusion Process Extraction

扩散模型提供了粗略和精细的特征，这些特征在层和时间步的不同组合中捕获不同的图像特征（即语义或纹理信息）。因此，我们发现从所有层和时间步中提取特征很重要，以便充分调整我们的最终描述符映射来表示给定任务所需的适当粒度级别

在这里插入图片描述

我们的反演特征能够可靠地捕获两只猫的全身及其第 4 层中的常见语义子部分（头、躯干、腿）以及第 10 层中的边缘，即使在输入的时间步长模型的噪声相对较大。

在这里插入图片描述
在上图中，我们可以看到，我们的反演特征能够可靠地捕获两只猫的全身及其第 4 层中的常见语义子部分（头、躯干、腿）以及第 10 层中的边缘，即使在输入的时间步长模型的噪声相对较大。

相反，使用生成过程来分析真实图像（如之前的工作中所做的那样）会导致超参数调整和权衡。例如，在接近 t = T 的时间步长处，分布内输入接近噪声，特征开始偏离真实图像中存在的信息，甚至可能产生无关细节的幻觉，如图 3 所示。

3.2 Diffusion Hyperfeatures Aggregation

在这里插入图片描述

示例合成图像及其文本提示、用户注释的真实对应关系以及来自 DINO、SD-Layer-4 和我们的方法的预测对应关系。请注意，我们转移了根据真实图像的反演特征调整的聚合网络，并将其应用于这些合成图像的生成特征，与 SPair-71k 类别相比，这些合成图像完全在域外。

4. 【NeurIPS 2023】A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot Semantic Correspondence

将SD特征和DINOv2特征用一种简单的方式融合在一起了

我们利用稳定扩散（SD）特征进行语义和密集对应 （semantic and dense correspondence），并发现通过简单的后处理，SD 特征与 SOTA 的表示质量相媲美。
我们展示了文本到图像生成模型（SD）的内部表示在语义和密集对应方面的潜力。

我们的分析表明，与现有的表示学习特征（例如最近发布的 Dinov2）相比，SD 特征具有非常不同的属性：虽然 Dinov2 提供了稀疏但准确的匹配，但 SD 特征提供高质量的空间信息，但有时不准确的语义匹配。
我们分析了SD的特征，它产生空间感知但不准确的对应，以及标准表示学习特征，即DINOv2，它产生准确但稀疏的对应，并表明它们是相互补充的。

我们设计了一种简单的策略来对齐和集成SD 和DINOv2 特征，并证明这些具有零样本评估的特征（仅最近邻，无需专门训练）可以在语义和密集对应方面优于许多SOTA 方法。

在这里插入图片描述
在右侧，我们通过将狗、马、牛甚至摩托车与源图像中的猫进行匹配来展示我们方法的稳健性。

怎么提取并融合SD和DINO的特征

Stable Diffusion 的架构由三部分组成：编码器 E、解码器 D（促进像素和潜在空间之间的转换），以及在潜在空间中运行的去噪 U-Net U。
我们首先通过编码器 E 将输入图像 x0 投影到潜在空间中，以产生潜在代码 z0。接下来，我们根据预定义的时间步长 t 将高斯噪声 ε 添加到潜在代码中。
然后，以时间步 t 的潜在代码 zt 和文本嵌入 C 作为输入，我们从去噪 U-Net 中提取特征 F_SD。整个过程可以正式表示如下：
在这里插入图片描述
之前的工作报道了中间 U-Net 层对于图像到图像翻译任务具有更多语义信息，但尚不清楚这些特征是否适合语义对应。