Diffusion Models专栏文章汇总:入门与实战
Follow-Your-MultiPose: Tuning-Free Multi-Character Text-to-Video Generation via Pose Guidance
在多角色视频生成的研究中,如何实现文本可编辑和姿态可控的角色生成一直是一个具有挑战性的课题。现有的方法往往只关注单一对象的视频生成,而忽视了在实际场景中多个角色同时出现的复杂性。为了解决这个问题,本文提出了一种名为Follow-Your-MultiPose(FYM)的新框架,旨在通过姿态引导实现多角色视频生成。该方法不需要额外的调优,利用分离的文本和姿态信息,能够精确地控制每个角色的生成。通过提取角色的掩码并结合大型语言模型(LLMs)生成的文本提示,FYM能够有效地生成具有高时间一致