1、介绍
针对diffusion models不如GAN的原因进行改进:
1)充分探索网络结构
2)在diversity和fidelity之间进行trade off
2、改进
1)在采样步数更少的情况下,方差设置为固定值并非最优。需要将表示为网络预测的v
其中,和为逆过程的方差上下界。此时,网络的loss函数为
2)在模型大小不变的情况下,增加网络宽度
3)增加注意力头的数目或者每个注意力头使用更少的channel数目(64)
4)在32x32、16x16、8x8的分辨率下使用注意力机制
5)用BigGAN残差模块进行上采样和下采样
6)每个分辨率下包含两个残差模块,base_channel数目为128
7)采用Adaptive Group Normalization(AdaGN)
其中h是每个残差模块的中间激活层,是时间和类别的embedding
每个分辨率下包含两个残差模块,base_channel数目为128
3、Classifier Guidance
1)分类器是UNet模型的下采样分支,在8x8的层后接一个attention pool
2)分类器梯度的系数>1时,p(y|x)的分布更加sharp,fidelity↑,diverse↓
4、upsampling diffusion models
1)生成低分辨率图像
2)channel-wise并联低分辨率图像插值得到的高分辨率图像和网络输入,生成最终的图像
3)兼顾precision和recall