每日学术速递6.8

news2025/7/16 11:03:11

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV

1.BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown Objects(CVPR 2023)

标题：BundleSDF：未知对象的神经 6-DoF 跟踪和 3D 重建

作者：Bowen Wen, Jonathan Tremblay, Valts Blukis, Stephen Tyree, Thomas Muller, Alex Evans, Dieter Fox, Jan Kautz, Stan Birchfield

文章链接：https://arxiv.org/abs/2303.14158

项目代码：https://bundlesdf.github.io/

摘要：

我们提出了一种近乎实时的方法，用于从单目 RGBD 视频序列中对未知物体进行 6-DoF 跟踪，同时对物体进行神经 3D 重建。我们的方法适用于任意刚性物体，即使在视觉纹理基本不存在的情况下也是如此。假定对象仅在第一帧中被分割。不需要其他信息，并且不对交互代理做出任何假设。我们方法的关键是神经对象场，它与姿势图优化过程同时学习，以便将信息稳健地积累到一致的 3D 表示中，同时捕获几何和外观。自动维护一个动态的 posed 内存帧池，以促进这些线程之间的通信。我们的方法可以处理具有较大姿势变化、部分和完全遮挡、无纹理表面和镜面高光的具有挑战性的序列。我们在 HO3D、YCBInEOAT 和 BEHAVE 数据集上展示了结果，表明我们的方法明显优于现有方法。

2.MetaVL: Transferring In-Context Learning Ability From Language Models to Vision-Language Models

标题：MetaVL：将上下文学习能力从语言模型转移到视觉语言模型

作者：Masoud Monajatipoor, Liunian Harold Li, Mozhdeh Rouhsedaghat, Lin F. Yang, Kai-Wei Chang

文章链接：https://arxiv.org/abs/2306.01311

摘要：

大型语言模型已经显示出通过对一些演示进行调节（即上下文学习）来适应新任务的能力。然而，在视觉语言领域，大多数大规模预训练视觉语言（VL）模型不具备进行上下文学习的能力。我们如何为 VL 模型启用上下文学习？在本文中，我们研究了一个有趣的假设：我们能否将上下文学习能力从语言领域迁移到 VL 领域？具体来说，我们首先对语言模型进行元训练，以对 NLP 任务执行上下文学习（如在 MetaICL 中）；然后我们通过附加一个视觉编码器来转移这个模型来执行 VL 任务。我们的实验表明，确实可以跨模态转移上下文学习能力：我们的模型大大提高了 VL 任务的上下文学习能力，甚至可以显着补偿模型的大小。在 VQA、OK-VQA 和 GQA 上，我们的方法可以胜过基线模型，同时参数减少 20 倍。

3.StyleGAN knows Normal, Depth, Albedo, and More

标题：StyleGAN 知道法线、深度、反照率等

作者：Anand Bhattad, Daniel McKee, Derek Hoiem, D.A. Forsyth

文章链接：https://arxiv.org/abs/2306.00987

摘要：

在原始意义上，固有图像是深度、法线、反照率或阴影等场景属性的类图像映射。本文证明了 StyleGAN 可以很容易地被诱导产生内在图像。程序很简单。我们表明，如果 StyleGAN 从潜在的 w 中生成 G(w) ，那么对于每种类型的固有图像，都有一个固定的偏移量 dc ，因此 G(w+dc) 是 G(w) 的那种类型的固有图像。这里 dc {独立于 w }。我们使用的 StyleGAN 是由其他人预训练的，所以这个属性不是我们训练制度的意外。我们表明 StyleGAN 将{not}以这种方式产生图像转换，因此 StyleGAN 不是通用图像回归引擎。从概念上讲，图像生成器应该“知道”并表示内在图像是令人兴奋的。使用生成模型生成内在图像也可能具有实际优势。从 StyleGAN 获得的内在图像在定性和定量上都与使用 SOTA 图像回归技术获得的图像进行了比较；但与 SOTA 方法不同，StyleGAN 的固有图像对重新照明效果具有鲁棒性。

更多Ai资讯：公主号AiCharm
在这里插入图片描述