CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
Subjects: cs.CV
1.Humans in 4D: Reconstructing and Tracking Humans with Transformers
标题:4D 中的人类:用变形金刚重建和跟踪人类
作者:Shubham Goel, Georgios Pavlakos, Jathushan Rajasegaran, Angjoo Kanazawa, Jitendra Malik
文章链接:https://arxiv.org/abs/2305.20091
项目代码:https://shubham-goel.github.io/4dhumans/
摘要:
我们提出了一种重建人类并随时间跟踪他们的方法。在我们方法的核心,我们提出了一个完全“变形”的网络版本,用于人类网格恢复。这个网络,HMR 2.0,推进了最先进的技术,并展示了分析过去难以从单个图像重建的异常姿势的能力。为了分析视频,我们使用 HMR 2.0 的 3D 重建作为以 3D 运行的跟踪系统的输入。这使我们能够处理多人并通过遮挡事件保持身份。我们的完整方法 4DHumans 实现了从单眼视频跟踪人物的最先进结果。此外,我们证明了 HMR 2.0 在下游动作识别任务上的有效性,与之前基于姿势的动作识别方法相比取得了显着改进。
2.Control4D: Dynamic Portrait Editing by Learning 4D GAN from 2D Diffusion-based Editor
标题:Ruizhi Shao, Jingxiang Sun, Cheng Peng, Zerong Zheng, Boyao Zhou, Hongwen Zhang, Yebin Liu
作者:Chung-Ching Lin, Jiang Wang, Kun Luo, Kevin Lin, Linjie Li, Lijuan Wang, Zicheng Liu
文章链接:https://arxiv.org/abs/2305.20082
项目代码:https://control4darxiv.github.io/
摘要:
微调语言模型 (LM) 已在各种下游任务中取得成功,但随着 LM 规模的增长,反向传播需要大量内存。零阶 (ZO) 方法原则上可以仅使用两次前向传递来估计梯度,但理论上在优化大型模型时速度极其缓慢。在这项工作中,我们提出了一种内存高效的零阶优化器 (MeZO),采用经典的 ZO-SGD 方法进行就地操作,从而微调 LM,使其具有与推理相同的内存占用。例如,使用单个 A100 80GB GPU,MeZO 可以训练一个 300 亿参数的模型,而使用反向传播进行微调在相同预算下只能训练一个 2.7B 的 LM。我们跨模型类型(屏蔽和自回归 LM)、模型规模(高达 66B)和下游任务(分类、多项选择和生成)进行综合实验。我们的结果表明:(1)MeZO 显着优于上下文学习和线性探测;(2) MeZO 实现了与跨多个任务的反向传播微调相当的性能,内存减少高达 12 倍;(3) MeZO兼容全参数和参数高效调优技术,如LoRA和前缀调优;(4) MeZO 可以有效地优化不可微分的目标(例如,最大化精度或 F1)。我们用理论见解支持我们的经验发现,强调充分的预训练和任务提示如何使 MeZO 能够微调大型模型,尽管经典的 ZO 分析表明并非如此。
更多Ai资讯:公主号AiCharm