扰动注意力引导 Perturbed Attention Guidance
GitHub - KU-CVLAB/Perturbed-Attention-Guidance: Official implementation of "Perturbed-Attention Guidance"
按照官方介绍,扰动注意力指导显著提高了扩散模型的样本质量,而无需外部条件(例如类标签或文本提示)或额外训练。这在无条件生成设置中特别有价值,因为无分类器指导 (CFG) 不适用。我们的指导可用于增强利用无条件扩散模型的各种下游任务的性能,包括带有空提示的 ControlNet 和超分辨率和修复等图像恢复任务。
论文地址
Perturbed-Attention Guidance
https://arxiv.org/pdf/2403.17377
使用PAG之前:
使用PAG之后:
以下是对文章的详细总结:
主要贡献:
- PAG技术:提出了一种新型的采样引导方法,能够在无条件和有条件的设置中提升扩散样本的质量。
- 无需额外训练:PAG不需要额外的训练或集成外部模块,即可实现性能提升。
- 结构增强:通过在去噪过程中逐步增强样本结构,特别是在无条件生成场景中,PAG能够显著提升样本质量。
技术细节:
- 自注意力机制:利用自注意力图捕获结构信息的能力,通过替换扩散U-Net中的自注意力图为单位矩阵来生成结构降级的中间样本。
- 隐式判别器:使用隐式判别器区分理想样本和不理想样本,引导去噪过程远离结构崩溃的样本。
- PAG实现:通过扰动自注意力图,PAG能够在不同时间步长上提供语义线索,从而改善样本的结构和细节。
实验结果:
- 定量结果:在ADM和Stable Diffusion模型上,PAG在无条件和有条件的设置中均能显著提升样本质量。
- 定性结果:通过视觉比较,PAG引导的样本在结构和语义上更为合理,与未引导的样本相比,具有更高的质量。
- 下游任务:PAG在图像恢复(如修复和去模糊)和ControlNet条件下的图像生成等下游任务中表现出色。
相关工作:
- 扩散模型:讨论了扩散模型在图像生成中的基准和挑战,以及如何通过改进采样速度和训练成本来提高性能。
- 采样引导技术:分析了分类器引导(CG)和无分类器引导(CFG)等现有技术的优缺点。
实验设置:
- 评估指标:使用了FID、IS和改进的精确度和召回率等指标来评估生成样本的质量。
- 实验环境:所有实验在NVIDIA GeForce RTX 3090 GPU和NVIDIA RTX A6000 GPU上进行。
应用案例:
- Stable Diffusion:PAG在Stable Diffusion模型上的无条件生成和文本到图像合成任务中均显示出优势。
- 图像恢复:在PSLD模型中,PAG显著提升了图像恢复任务的性能。
讨论与未来工作:
- PAG与CFG的比较:PAG在保持样本多样性的同时提升了质量,而CFG可能会牺牲多样性。
- 计算成本:PAG与CFG具有相似的计算成本,但未来研究可以探索减少计算开销的技术。
结论:
文章认为PAG通过结构扰动改进了图像生成质量,且适用于无条件和有条件的设置。PAG在多种下游任务中表现出了其有效性,丰富了对采样引导方法和扩散模型的理解,并展示了无条件扩散模型的广泛应用潜力。
试验测试
comfyui节点其实已经内置了,所以不需要另外安装。
搭建一个简单的工作流:
总体来说,效果还是有提升的,对不同大模型的兼容性也还不错,推荐尝试一下,或许可以提升画面效果;
✨写在最后
如果对comfyui还不熟悉的话,最近面向ComfyUI的新手,开了一门图文课程,现在已经更新完成了,如果大家在学习过程中遇到什么问题,也可以直接文章下留言,会持续更新相关答疑内容哈。欢迎订阅哦~
https://blog.csdn.net/jumengxiaoketang/category_12683612.html
感谢大家的支持~