零样本身份保持：ID-Animator引领个性化视频生成技术新前沿

news2025/7/16 1:55:00

在最新的研究进展中，由Xuanhua He及其团队提出的ID-Animator技术，为个性化视频生成领域带来了突破性的创新。这项技术的核心在于其零样本（zero-shot）人物视频生成方法，它允许研究者和开发者根据单一的参考面部图像生成具有特定身份特征的视频，而无需进行额外的训练步骤。

ID-Animator的设计基于两个主要组件：一个预训练的文本到视频（Text-to-Video, T2V）扩散模型，以及一个轻量级的面部适配器。

ID-Animator技术的基础是一个预训练的文本到视频扩散模型，该模型能够根据文本提示生成视频。然而，这种通用的视频生成模型并不擅长于生成特定身份人物的视频。为了解决这一问题，研究者们引入了一个面部适配器，以增强模型对特定身份特征的捕捉能力。

面部适配器是ID-Animator框架的关键部分，它负责编码与身份相关的嵌入。这一适配器通过学习面部潜在查询来获取身份相关的特征，并将这些特征嵌入到视频生成过程中。面部适配器的设计是轻量级的，这意味着它不会显著增加模型的计算负担。

为了提高模型在视频生成中对身份信息的提取效率，研究者们构建了一个以身份为导向的数据集。这个流程包括以下几个步骤：

解耦的人类视频字幕生成：研究者们设计了一种新的字幕重写技术，将字幕分解为两个部分：描述人物属性的“人类属性字幕”和描述人物动作的“人类动作字幕”。这两种字幕分别由不同的模型生成，然后通过一个大型语言模型整合成一个统一的、全面的字幕。
面部图像池的构建：与以往直接使用视频帧作为参考图像的方法不同，ID-Animator从视频中提取面部区域作为身份参考图像。这种策略减少了与身份无关特征对视频生成的影响。

为了减少参考图像中与身份无关特征的影响，研究者们开发了一种随机面部参考训练方法。在训练过程中，模型不是使用与生成目标相同的图像作为条件，而是随机选择面部图像池中的图像作为参考。这种方法有效地将ID相关的特征与图像中的其他内容解耦，使得适配器能够专注于与身份相关的特征。

在实现ID-Animator时，研究者们采取了以下步骤：

模型选择：选择AnimateDiff作为基础的文本到视频生成模型。
数据预处理：对训练数据进行裁剪、中心裁剪和调整大小，以适应模型的输入要求。
训练策略：在训练过程中，只有面部适配器的参数会被更新，而预训练的文本到视频模型参数保持不变。
优化技术：应用分类器自由引导技术，通过一定概率使用空文本嵌入来替代原始文本嵌入，以增强生成性能。

在实验部分，研究者们使用了开源的AnimateDiff作为文本到视频生成模型的基础，并在NVIDIA A100 GPU上进行了训练。

实验的基础是使用开源的AnimateDiff模型作为文本到视频生成的核心。为了适应ID-Animator的需要，研究者们对模型进行了适当的修改，特别是在面部适配器部分。训练数据集来源于CelebV，经过预处理，包括裁剪到16帧、中心裁剪到512x512像素等步骤，以确保数据的一致性和模型的输入要求。

在训练ID-Animator时，只有面部适配器的参数会被更新，而预训练的文本到视频模型则保持固定。这样的设计旨在减少训练成本，同时保持模型的视频生成能力。训练过程中，使用了单个NVIDIA A100 GPU，并采用了1e-4的学习率。为了进一步提升生成性能，研究者们还采用了分类器自由引导技术，通过一定概率使用空文本嵌入来替代原始文本嵌入。

研究者们对ID-Animator进行了定性评估，将其生成的视频与几个现有的方法进行了比较。他们选择了名人和普通个体的图像作为测试案例，并通过大型语言模型（LLM）随机生成了六个与人类语言风格一致的提示。这些提示用于评估模型遵循指令的能力。结果显示，ID-Animator在面部结构、动作丰富性以及遵循文本指令的能力上均优于对比方法。

ID-Animator的应用潜力在多个方面得到了展示。研究者们展示了模型在重新情境化方面的应用，即在保持人物身份的同时改变视频的上下文信息。这包括改变人物的发型、服装、背景、执行特定动作以及调整年龄或性别。此外，模型还能够混合不同人物的身份特征，生成具有混合特征的视频。这证明了面部适配器在学习能力上的高效性。

ID-Animator还展示了与现有模型的兼容性。研究者们将其与ControlNet结合，展示了如何通过单帧或多帧控制图像生成具有特定身份特征的视频。此外，ID-Animator还能够与社区模型（如Lyriel和Raemumxi）结合使用，即使这些模型从未在ID-Animator的训练中使用过。这些实验结果表明，ID-Animator不仅能够生成高质量的个性化视频，还能够无缝地与现有的视频生成框架集成。