每日学术速递6.1

news2025/4/12 2:34:02

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV

1.LayoutGPT: Compositional Visual Planning and Generation with Large Language Models

标题：LayoutGPT：具有大型语言模型的组合视觉规划和生成

作者：Weixi Feng, Wanrong Zhu, Tsu-jui Fu, Varun Jampani, Arjun Akula, Xuehai He, Sugato Basu, Xin Eric Wang, William Yang Wang

文章链接：https://arxiv.org/abs/2305.15393

项目代码：https://github.com/weixi-feng/LayoutGPT

摘要：

在视觉生成中获得高度的用户可控性通常需要复杂、细粒度的输入，如布局。然而，与简单的文本输入相比，这样的输入给用户带来了很大的负担。为了解决这个问题，我们研究了大型语言模型 (LLM) 如何通过从文本条件生成布局来充当视觉规划器，从而与视觉生成模型协作。我们提出 LayoutGPT，一种以样式表语言编写上下文视觉演示的方法，以提高 LLM 的视觉规划技能。LayoutGPT 可以在多个领域生成合理的布局，从 2D 图像到 3D 室内场景。LayoutGPT 在将具有挑战性的语言概念（如数字和空间关系）转换为布局安排以实现忠实的文本到图像生成方面也表现出卓越的性能。当与下游图像生成模型相结合时，LayoutGPT 的性能优于文本到图像模型/系统 20-40%，并且在设计视觉布局的数字和空间正确性方面实现了与人类用户相当的性能。最后，LayoutGPT 在 3D 室内场景合成中实现了与监督方法相当的性能，展示了其在多个视觉领域的有效性和潜力。

2.Brain encoding models based on multimodal transformers can transfer across language and vision

标题：基于多模态转换器的大脑编码模型可以跨语言和视觉迁移

作者：Jerry Tang, Meng Du, Vy A. Vo, Vasudev Lal, Alexander G. Huth

文章链接：https://arxiv.org/abs/2305.12248

摘要：

编码模型已被用于评估人脑如何在语言和视觉中表示概念。虽然语言和视觉依赖于相似的概念表示，但当前的编码模型通常是根据大脑对每种模式的独立反应进行训练和测试的。多模态预训练的最新进展产生了可以提取语言和视觉概念对齐表示的转换器。在这项工作中，我们使用来自多模态转换器的表示来训练编码模型，这些模型可以跨 fMRI 响应传输到故事和电影。我们发现，根据大脑对一种模式的反应训练的编码模型可以成功预测大脑对另一种模式的反应，特别是在代表概念意义的皮层区域。对这些编码模型的进一步分析揭示了共同的语义维度，这些维度是语言和视觉中概念表示的基础。比较使用来自多模态和单模态变换器的表示训练的编码模型，我们发现多模态变换器在语言和视觉中学习更多一致的概念表示。我们的结果展示了多模态转换器如何提供对大脑多模态处理能力的洞察。

3.Enhancing Chat Language Models by Scaling High-quality Instructional Conversations

标题：通过扩展高质量的教学对话来增强聊天语言模型

作者：Ning Ding, Yulin Chen, Bokai Xu, Yujia Qin, Zhi Zheng, Shengding Hu, Zhiyuan Liu, Maosong Sun, Bowen Zhou

文章链接：https://arxiv.org/abs/2305.14233

项目代码：https://github.com/thunlp/UltraChat

摘要：

对指令数据进行微调已被广泛验证为实施聊天语言模型（如 ChatGPT）的有效实践。扩展此类数据的多样性和质量虽然简单明了，但很有可能会提高性能。本文旨在进一步提高开源模型的上限。我们首先提供了一个系统设计的、多样化的、信息丰富的、大规模的教学对话数据集 UltraChat，它不涉及人工查询。我们的目标是捕捉人类可能与 AI 助手进行交互的广度，并采用综合框架迭代生成多轮对话。UltraChat 包含 150 万个高质量的多轮对话，涵盖广泛的主题和说明。我们对 UltraChat 的统计分析揭示了其在各种关键指标上的优势，包括规模、平均长度、多样性、连贯性等，巩固了其作为领先开源数据集的地位。在 UltraChat 的基础上，我们微调了一个 LLaMA 模型以创建一个强大的对话模型 UltraLLaMA。我们的评估表明，UltraLLaMA 始终优于其他开源模型，包括 Vicuna，这是以前公认的最先进的开源模型。

更多Ai资讯：公主号AiCharm
在这里插入图片描述