每日学术速递6.12

news2025/7/14 12:25:23

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV

1.DynIBaR: Neural Dynamic Image-Based Rendering(CVPR 2023 Award Candidate)

标题：DynIBaR：基于神经动态图像的渲染

作者：Mengyuan Yan Jessica Lin Montserrat Gonzalez Arenas Ted Xiao Daniel Kappler Daniel Ho

文章链接：https://arxiv.org/abs/2305.14825

项目代码：https://dynibar.github.io/

摘要：

我们解决了从描述复杂动态场景的单目视频中合成新视图的问题。基于随时间变化的神经辐射场（又名动态 NeRF）的最先进方法已在该任务上显示出令人印象深刻的结果。然而，对于具有复杂物体运动和不受控制的摄像机轨迹的长视频，这些方法可能会产生模糊或不准确的渲染，从而阻碍它们在现实世界中的应用。我们不是在 MLP 的权重内对整个动态场景进行编码，而是提出了一种新方法来解决这些限制，该方法采用基于体积图像的渲染框架，该框架通过以场景运动感知方式聚合附近视图的特征来合成新视点。我们的系统保留了先前方法在建模复杂场景和视图相关效果方面的优势，而且还能够从具有复杂场景动态和不受约束的相机轨迹的长视频中合成照片般逼真的新颖视图。我们展示了对动态场景数据集的最先进方法的显着改进，并将我们的方法应用于具有挑战性相机和物体运动的野外视频，在这些视频中，先前的方法无法产生高质量的渲染。我们的项目网页位于此 http URL。

2.Learning to Ground Instructional Articles in Videos through Narrations

标题：通过旁白学习视频中的教学文章

作者：Effrosyni Mavroudi, Triantafyllos Afouras, Lorenzo

文章链接：https://arxiv.org/abs/2306.03802

项目代码：https://eval.ai/web/challenges/challenge-page/2082/overview

摘要：

在本文中，我们提出了一种在叙述的操作视频中本地化程序活动步骤的方法。为了大规模处理标记数据的稀缺性，我们从语言知识库 (wikiHow) 中获取步骤描述，其中包含针对各种程序任务的指导文章。在没有任何形式的人工监督的情况下，我们的模型通过匹配三种模式：框架、旁白和步骤描述，学会在时间上将程序文章的步骤置于操作视频中。具体来说，我们的方法通过融合来自两个不同路径的信息来将步骤与视频对齐：i）直接将步骤描述与帧对齐，ii）间接对齐通过组合 steps-to-narrations 和 narrations-to 获得- 视频通信。值得注意的是，我们的方法通过利用顺序信息一次对文章中的所有步骤进行全局时间定位，并使用经过迭代细化和积极过滤的步骤伪标签进行训练。为了验证我们的模型，我们引入了一个新的评估基准——HT-Step——通过手动注释 HowTo100M\footnote 的 124 小时子集获得。来源于 wikiHow 文章。在此基准上的实验以及 CrossTask 上的零样本评估表明，我们的多模态对齐比多个基线和先前的工作产生了显着的收益。最后，我们展示了我们用于匹配旁白与视频的内部模块在 HTM-Align 旁白视频对齐基准测试中的表现大大优于现有技术。

3.MIMIC-IT: Multi-Modal In-Context Instruction Tuning

标题：MIMIC-IT：多模态上下文指令调优

作者：Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Fanyi Pu, Jingkang Yang, Chunyuan Li, Ziwei Liu

文章链接：https://arxiv.org/abs/2306.05425

项目代码：https://otter-ntu.github.io/

摘要：

高质量的指令和响应对于大型语言模型在交互式自然语言任务中的零样本性能至关重要。对于涉及复杂视觉场景的交互式视觉语言任务，必须使用大量多样化和创造性的指令-响应对来调整视觉语言模型 (VLM)。然而，目前视觉-语言指令-响应对在数量、多样性和创造力方面的可用性仍然有限，这对交互式 VLM 的推广提出了挑战。在这里，我们展示了多模态上下文指令调整 (MIMIC-IT)，这是一个包含 280 万个多模态指令-响应对的数据集，其中有 220 万个来自图像和视频的独特指令。每对都伴随着多模态上下文信息，形成旨在增强 VLM 感知、推理和规划能力的会话上下文。被称为 Syphus 的指令-响应收集过程使用自动注释管道进行扩展，该管道将人类专业知识与 GPT 的功能相结合。我们使用 MIMIC-IT 数据集训练了一个名为 Otter 的大型 VLM。基于对视觉语言基准进行的广泛评估，观察到 Otter 在多模态感知、推理和上下文学习方面表现出非凡的熟练程度。人工评估表明它有效地符合用户的意图。我们发布了 MIMIC-IT 数据集、指令-响应收集管道、基准测试和 Otter 模型。

更多Ai资讯：公主号AiCharm
在这里插入图片描述