每日学术速递5.6

news2026/2/12 16:27:15

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV

1.AG3D: Learning to Generate 3D Avatars from 2D Image Collections

标题：AG3D：学习从 2D 图像集合生成 3D 头像

作者：Zijian Dong, Xu Chen, Jinlong Yang, Michael J. Black, Otmar Hilliges, Andreas Geiger

文章链接：https://arxiv.org/abs/2305.02312

项目代码：https://zj-dong.github.io/AG3D/

摘要：

虽然人类外表的 2D 生成模型进展迅速，但许多应用程序需要可以动画和渲染的 3D 化身。不幸的是，大多数现有的学习具有不同形状和外观的 3D 人体生成模型的方法都需要 3D 训练数据，而这些数据有限且获取成本高昂。因此，进步的关键是从丰富的非结构化 2D 图像集合中学习 3D 化身的生成模型。然而，在这种欠约束的环境中学习真实和完整的 3D 外观和几何形状仍然具有挑战性，尤其是在存在宽松衣服（例如连衣裙）的情况下。在本文中，我们提出了一种新的来自 2D 图像的真实 3D 人的对抗生成模型。我们的方法通过采用整体 3D 生成器并集成高效灵活的关节模块来捕捉身体和宽松衣服的形状和变形。为了提高真实性，我们使用多个鉴别器训练我们的模型，同时还以预测的 2D 法线图的形式整合几何线索。我们通过实验发现，我们的方法在几何和外观方面优于以前的 3D 和关节感知方法。我们通过系统的消融研究验证了我们模型的有效性和每个组件的重要性。

2.Real-Time Radiance Fields for Single-Image Portrait View Synthesis(SIGGRAPH 2023)

标题：用于单图像人像视图合成的实时辐射场

作者：Alex Trevithick, Matthew Chan, Michael Stengel, Eric R. Chan, Chao Liu, Zhiding Yu, Sameh Khamis, Manmohan Chandraker, Ravi Ramamoorthi, Koki Nagano

文章链接：https://arxiv.org/abs/2305.02310

项目代码：https://research.nvidia.com/labs/nxp/lp3d/

摘要：

我们提出了一种一次性方法，可以实时从单个未摆姿势的图像（例如人脸肖像）推断和渲染逼真的 3D 表示。给定单个 RGB 输入，我们的图像编码器直接预测神经辐射场的规范三平面表示，用于通过体积渲染进行 3D 感知的新视图合成。我们的方法在消费类硬件上速度很快（24 fps），并且比需要测试时间优化的强 GAN 反转基线产生更高质量的结果。为了训练我们的三平面编码器流水线，我们仅使用合成数据，展示了如何将知识从预训练的 3D GAN 提取到前馈编码器中。技术贡献包括基于 Vision Transformer 的三平面编码器、相机数据增强策略以及用于合成数据训练的精心设计的损失函数。我们以最先进的方法为基准，展示了在具有挑战性的现实世界环境中稳健性和图像质量的显着改进。我们展示了我们在人脸肖像 (FFHQ) 和猫 (AFHQ) 上的结果，但我们的算法也可以在未来应用于其他类别，并带有 3D 感知图像生成器。

3.Visual Chain of Thought: Bridging Logical Gaps with Multimodal Infillings

标题：视觉思维链：通过多模式填充弥合逻辑鸿沟

作者：Daniel Rose, Vaishnavi Himakunthala, Andy Ouyang, Ryan He, Alex Mei, Yujie Lu, Michael Saxon, Chinmay Sonar, Diba Mirza, William Yang Wang

文章链接：https://arxiv.org/abs/2305.02317

摘要：

大型语言模型的最新进展引发了思维链中的推理，使模型能够以类似人类的方式分解问题。虽然这种范式提高了语言模型中的多步推理能力，但它受到单峰性的限制，主要应用于问答任务。我们声称将视觉增强结合到推理中是必不可少的，尤其是对于复杂的、富有想象力的任务。因此，我们引入了 VCoT，这是一种利用思维链提示和视觉语言基础的新方法，以递归地弥合顺序数据中的逻辑差距。我们的方法使用视觉引导来生成合成的多模式填充，这些填充添加了一致的和新颖的信息，以减少可以从时间推理中受益的下游任务的逻辑差距，并为模型的多步推理提供可解释性。我们将 VCoT 应用于 Visual Storytelling 和 WikiHow 摘要数据集，并通过人工评估证明 VCoT 提供了新颖且一致的合成数据增强，击败了思想基线链，可用于增强下游性能。

更多Ai资讯：公主号AiCharm
在这里插入图片描述