每日学术速递6.11

news2025/7/7 2:19:08

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV

1.Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Model

标题：Video-ChatGPT：通过大型视觉和语言模型实现详细的视频理解

作者：Muhammad Maaz, Hanoona Rasheed, Salman Khan, Fahad Shahbaz Khan

文章链接：https://arxiv.org/abs/2306.05424

项目代码：https://github.com/mbzuai-oryx/Video-ChatGPT

摘要：

我们==由大型语言模型 (LLM) 推动的对话代理正在提供一种与视觉数据交互的新方式。虽然已经对基于图像的对话模型进行了初步尝试，但这项工作通过引入 Video-ChatGPT 解决了基于视频的对话领域尚未开发的问题。它是一种多模态模型，将视频自适应视觉编码器与 LLM 相结合。该模型能够理解和生成关于视频的类似人类的对话。我们引入了一个包含 100,000 个视频指令对的新数据集，用于训练通过手动和半自动管道获取的 Video-ChatGPT，该数据集易于扩展且对标签噪声具有鲁棒性。我们还为基于视频的对话模型开发了一个量化评估框架，以客观地分析所提出模型的优缺点。我们的代码、模型、指令集和演示在此 https URL 上发布。

2.Emergent Correspondence from Image Diffusion

标题：图像扩散的紧急对应

作者：Luming Tang, Menglin Jia, Qianqian Wang, Cheng Perng Phoo, Bharath Hariharan

文章链接：https://arxiv.org/abs/2306.03881

项目代码：https://diffusionfeatures.github.io/

摘要：

寻找图像之间的对应关系是计算机视觉中的一个基本问题。在本文中，我们表明在没有任何明确监督的情况下，图像扩散模型中会出现对应关系。我们提出了一种简单的策略，从扩散网络中提取这种隐含知识作为图像特征，即扩散特征 (DIFT)，并使用它们建立真实图像之间的对应关系。在没有对特定任务数据或注释进行任何额外的微调或监督的情况下，DIFT 能够在识别语义、几何和时间对应方面优于弱监督方法和有竞争力的现成特征。特别是对于语义对应，来自 Stable Diffusion 的 DIFT 在具有挑战性的 SPair-71k 基准测试中能够分别优于 DINO 和 OpenCLIP 19 和 14 个精度点。它甚至在 18 个类别中的 9 个类别上的表现优于最先进的监督方法，同时在整体表现上保持同等水平。项目页面：这个 https URL

3.Local Boosting for Weakly-Supervised Learning(KDD 2023)

标题：弱监督学习的局部提升

作者：Rongzhi Zhang, Yue Yu, Jiaming Shen, Xiquan Cui, Chao Zhang

文章链接：https://arxiv.org/abs/2306.02859

摘要：

Boosting 是一种常用的技术，通过将一组基本模型组合成一个强大的集成模型来增强它们的性能。虽然被广泛采用，但提升通常用于监督学习，其中数据被准确标记。然而，在弱监督学习中，大部分数据都是通过弱噪声源标记的，因此设计有效的增强方法仍然很重要。在这项工作中，我们表明由于存在噪声标签，基本学习器的凸组合的标准实现几乎无法工作。相反，我们提出了LocalBoost，这是一种用于弱监督提升的新颖框架。LocalBoost 从两个维度迭代提升集成模型，即源内和源间。源内提升将局部性引入基学习器，并通过在粒度变化的错误区域上训练新的基学习器，使每个基学习器能够专注于特定的特征机制。对于源间增强，我们利用条件函数来指示样本更有可能出现的弱源。为了解决弱标签，我们进一步设计了一种先估计后修改的方法来计算模型权重。对七个数据集的实验表明，我们的方法明显优于普通增强方法和其他弱监督方法。

更多Ai资讯：公主号AiCharm
在这里插入图片描述