一步成像：Hyper-SD在图像合成中的创新与应用

news2025/12/30 23:19:18

一、摘要：

论文：https://arxiv.org/pdf/2404.13686

代码：https://huggingface.co/ByteDance/Hyper-SD

在生成人工智能领域，扩散模型（Diffusion Models, DMs）因其出色的图像生成质量而备受关注，但其多步骤推理过程的高计算成本一直是其广泛应用的瓶颈。本文介绍的Hyper-SD框架是来自字节的一篇工作，通过创新的轨迹分割一致性蒸馏（Trajectory Segmented Consistency Distillation, TSCD）技术，显著提升了图像合成的效率，同时保持了生成图像的高质量。主要贡献包括：

轨迹分割一致性蒸馏（TSCD）：一种新颖的蒸馏技术，通过在预定义的时间步段内逐步执行一致性蒸馏，有效保留了原始ODE（常微分方程）轨迹，同时减少了推理步骤。
人类反馈学习：结合人类对生成图像的美学偏好，通过反馈学习优化模型性能，尤其在低步骤推理情况下显著提升了图像质量。
统一的LoRA模型：提出了一个支持1到8步推理的统一LoRA模型，为不同需求的用户提供了灵活性，同时保证了全时推理的一致性。
性能提升：在少步骤推理中，Hyper-SD在多个评估指标上超越了现有技术，包括CLIP Score和Aes Score等，证明了其在图像合成任务中的领先地位。

本博客对Hyper-SD的技术细节，包括其核心算法、实验结果做简单总结供快速阅读之用。

二、核心内容：

这篇论文介绍了一个名为Hyper-SD的新型框架，旨在提高扩散模型（Diffusion Models, DMs）在图像合成任务中的效率和性能。以下是对论文内容的总结，包括主要贡献、主要创新、核心网络结构和核心算法细节：

1.）主要贡献：

加速（Accelerate）：提出了轨迹分割一致性蒸馏（Trajectory Segmented Consistency Distillation, TSCD），这是一种更细粒度和高阶一致性蒸馏方法，用于原始基于分数的模型。
提升（Boost）：通过人类反馈学习（Human Feedback Learning, ReFL）进一步提升模型在低步数推理条件下的性能。
统一（Unify）：提供了一个统一的低秩适应（Low-Rank Adaptation, LoRA）模型，作为全时一致性模型，并支持所有NFE（Noise Free Expressions）的推理。
性能（Performance）：Hyper-SD在1到8步推理中为SDXL和SD1.5实现了最先进的性能。

2.）主要创新：

轨迹分割一致性蒸馏（TSCD）：通过将时间步分割成多个段，并在每个段内执行一致性蒸馏，逐步减少段数以实现全时一致性。
人类反馈学习：利用人类对美学的反馈和现有的视觉感知模型来优化加速模型，调整ODE（常微分方程）轨迹以更好地适应少步推理。
分数蒸馏（Score Distillation）：通过统一的LoRA技术，增强了一步生成性能，实现了理想的全时一致性模型。

3.）核心算法细节：

TSCD：通过将时间步分为多个段，每个段内执行一致性蒸馏，然后逐步减少段数，最终实现全时一致性。
教师-学生模型：在蒸馏过程中，使用教师模型（ftea）和学生模型（fstu）来训练学生模型，以近似教师模型的流位置。
人类反馈学习：包括奖励模型训练和偏好微调两个阶段，使用人类偏好数据对奖励模型进行训练，然后利用该模型对去噪图像进行评分，以此来微调扩散模型。
一步生成增强：使用优化的分布匹配蒸馏（DMD）技术来提升一步生成的性能，结合均方误差（MSE）损失和人类反馈学习技术。

4.）实验和评估：

使用了LAION和COYO数据集的子集进行训练。
与现有的加速方案进行了定量和定性比较，证明了Hyper-SD在少步推理中的优势。
进行了广泛的用户研究，以更准确地评估性能。

5.）讨论和局限性：

论文讨论了未来的改进方向，包括保留CFG特性、定制人类反馈优化和探索扩散变换器架构（DIT）。

三、结论：

Hyper-SD通过结合轨迹保持和轨迹重构的蒸馏技术，实现了在少步推理中的高性能图像生成，为生成AI社区的发展提供了推动力。论文还提供了一些量化的比较结果，展示了Hyper-SD在不同指标上相比于其他方法的优势。此外，论文开源了从1到8步推理的LoRA插件，以及一个专门的一步SDXL模型，以促进生成AIGC社区的发展。