每日学术速递6.10

news2025/2/22 20:33:33

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV

1.Unifying (Machine) Vision via Counterfactual World Modeling

标题：通过反事实世界建模统一（机器）视觉

作者：Daniel M. Bear, Kevin Feigelis, Honglin Chen, Wanhee Lee, Rahul Venkatesh, Klemen Kotar, Alex Durango, Daniel L.K. Yamins

文章链接：https://arxiv.org/abs/2306.01828

摘要：

机器视觉领域的领先方法针对不同的任务采用不同的架构，并在昂贵的特定于任务的标记数据集上进行训练。这种复杂性阻碍了机器人技术等领域的进步，在这些领域，强大的任务一般感知仍然是瓶颈。相比之下，自然语言的“基础模型”已经表明，经过预训练的大型神经网络可以为范围广泛的明显不同的任务提供零样本解决方案。在这里，我们介绍了反事实世界建模 (CWM)，这是一个构建视觉基础模型的框架：一个统一的、无监督的网络，可以提示执行各种视觉计算。CWM 有两个关键组成部分，它们解决了阻碍将基础模型概念应用于视觉的核心问题。第一个是结构化掩蔽，它是掩蔽预测方法的泛化，鼓励预测模型捕获视觉数据中的低维结构。因此，该模型将场景的关键物理组件分解为因素，并通过一小组视觉标记向它们公开接口。这反过来又使 CWM 的第二个主要思想成为可能——反事实提示——观察到许多明显不同的视觉表示可以以零样本的方式计算，通过比较预测模型对真实输入的输出与稍微修改（“反事实”）输入。我们展示了 CWM 为各种任务生成真实世界图像和视频的高质量读数，包括关键点估计、光流、遮挡、对象片段和相对深度。综上所述，我们的结果表明，CWM 是在概念上简单的基础上统一机器视觉的多方面分支的有前途的途径。

2.Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

标题：Video-LLaMA：一种用于视频理解的指令调优视听语言模型

作者：Hang Zhang, Xin Li, Lidong Bing

文章链接：https://arxiv.org/abs/2306.02858

项目代码：https://github.com/DAMO-NLP-SG/Video-LLaMA

摘要：

我们介绍了 Video-LLaMA，这是一种多模态框架，它使大型语言模型 (LLM) 能够理解视频中的视觉和听觉内容。Video-LLaMA 从冻结的预训练视觉和音频编码器和冻结的 LLM 引导跨模态训练。与之前专注于静态图像理解的视觉 LLM（如 MiniGPT-4 和 LLaVA）不同，Video-LLaMA 主要解决视频理解中的两个挑战：（1）捕捉视觉场景中的时间变化，（2）整合视听信号。为了应对第一个挑战，我们提出了一个视频 Q-former，将预训练图像编码器组装到我们的视频编码器中，并引入视频到文本生成任务来学习视频语言对应关系。对于第二个挑战，我们利用 ImageBind，一种将多种模态对齐的通用嵌入模型作为预训练的音频编码器，并在 ImageBind 之上引入音频 Q-former 来为 LLM 模块学习合理的听觉查询嵌入。为了使视觉和音频编码器的输出与 LLM 的嵌入空间保持一致，我们在大量视频/图像字幕对以及数量适中但质量更高的视觉指令调整数据集上训练 Video-LLaMA。我们发现 Video-LLaMA 展示了感知和理解视频内容的能力，产生基于视频中呈现的视觉和听觉信息的有意义的响应。这凸显了 Video-LLaMA 作为视听 AI 助手的有前途原型的潜力。

3.PolyVoice: Language Models for Speech to Speech Translation

标题：PolyVoice：语音到语音翻译的语言模型

作者：Qianqian Dong, Zhiying Huang, Chen Xu, Yunlong Zhao, Kexin Wang, Xuxin Cheng, Tom Ko, Qiao Tian

文章链接：https://arxiv.org/abs/2306.02982

项目代码：https://speechtranslation.github.io/polyvoice/

摘要：

我们提出了 PolyVoice，一种基于语言模型的语音到语音翻译 (S2ST) 系统框架。我们的框架由两种语言模型组成：翻译语言模型和语音合成语言模型。我们使用以完全无监督的方式生成的离散语音单元，因此我们的框架可用于非书面语言。对于语音合成部分，我们采用现有的 VALL-E X 方法，构建一个基于单元的音频语言模型。这使我们的框架能够保留原始语音的语音特征和说话风格。我们在中文 → 英语和英语 → 西班牙语对上检查我们的系统。实验结果表明，我们的系统可以生成具有高翻译质量和音频质量的语音。此 https URL 提供了语音样本。

更多Ai资讯：公主号AiCharm
在这里插入图片描述