每日学术速递6.5

news2026/2/15 18:47:17

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV

1.Humans in 4D: Reconstructing and Tracking Humans with Transformers

标题：4D 中的人类：用变形金刚重建和跟踪人类

作者：Shubham Goel, Georgios Pavlakos, Jathushan Rajasegaran, Angjoo Kanazawa, Jitendra Malik

文章链接：https://arxiv.org/abs/2305.20091

项目代码：https://shubham-goel.github.io/4dhumans/

摘要：

我们提出了一种重建人类并随时间跟踪他们的方法。在我们方法的核心，我们提出了一个完全“变形”的网络版本，用于人类网格恢复。这个网络，HMR 2.0，推进了最先进的技术，并展示了分析过去难以从单个图像重建的异常姿势的能力。为了分析视频，我们使用 HMR 2.0 的 3D 重建作为以 3D 运行的跟踪系统的输入。这使我们能够处理多人并通过遮挡事件保持身份。我们的完整方法 4DHumans 实现了从单眼视频跟踪人物的最先进结果。此外，我们证明了 HMR 2.0 在下游动作识别任务上的有效性，与之前基于姿势的动作识别方法相比取得了显着改进。

2.Control4D: Dynamic Portrait Editing by Learning 4D GAN from 2D Diffusion-based Editor

标题：Ruizhi Shao, Jingxiang Sun, Cheng Peng, Zerong Zheng, Boyao Zhou, Hongwen Zhang, Yebin Liu

作者：Chung-Ching Lin, Jiang Wang, Kun Luo, Kevin Lin, Linjie Li, Lijuan Wang, Zicheng Liu

文章链接：https://arxiv.org/abs/2305.20082

项目代码：https://control4darxiv.github.io/

摘要：

微调语言模型 (LM) 已在各种下游任务中取得成功，但随着 LM 规模的增长，反向传播需要大量内存。零阶 (ZO) 方法原则上可以仅使用两次前向传递来估计梯度，但理论上在优化大型模型时速度极其缓慢。在这项工作中，我们提出了一种内存高效的零阶优化器 (MeZO)，采用经典的 ZO-SGD 方法进行就地操作，从而微调 LM，使其具有与推理相同的内存占用。例如，使用单个 A100 80GB GPU，MeZO 可以训练一个 300 亿参数的模型，而使用反向传播进行微调在相同预算下只能训练一个 2.7B 的 LM。我们跨模型类型（屏蔽和自回归 LM）、模型规模（高达 66B）和下游任务（分类、多项选择和生成）进行综合实验。我们的结果表明：（1）MeZO 显着优于上下文学习和线性探测；(2) MeZO 实现了与跨多个任务的反向传播微调相当的性能，内存减少高达 12 倍；(3) MeZO兼容全参数和参数高效调优技术，如LoRA和前缀调优；(4) MeZO 可以有效地优化不可微分的目标（例如，最大化精度或 F1）。我们用理论见解支持我们的经验发现，强调充分的预训练和任务提示如何使 MeZO 能够微调大型模型，尽管经典的 ZO 分析表明并非如此。

更多Ai资讯：公主号AiCharm
在这里插入图片描述