今天在论文集上看到一篇很新的文章:
SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions
大至意思就是,小米公司做了一个新的扩散模型,用的是蒸馏法(参见turbo模型 及LCM模型),速度很快,原文意思是:
We present two models, SDXS-512 and SDXS-1024, achieving inference speeds of approximately 100 FPS (30x faster than SD v1.5) and 30 FPS (60x faster than SDXL) on a single GPU, respectively. Moreover, our training approach offers promising applications in image-conditioned control, facilitating efficient image-to-image translation.
512尺寸或1024尺寸上,100FPS出图情况下,比SD1.5模型至少快30倍,比SDXL至少快60倍。
而且是一步生图,图片质量还相当的好。
看到这篇论文,我直接去看了github项目,也是又新又干净,除了几张图就没别的东西了。
然后我仔细研究了一下他们的论文,嗯.......没毛病,有雷不死的风格,就象不锈钢,玻璃一样,确实有这么个东西,但玩了点花活。
因为很多人对模型原理觉得高深莫测,所以我就简单分析一下。
1,蒸馏法,其实最早实现的模型应用的是我们中国人,也就是LCM,出图速度确实快,通常20步出的图,它只需要4步,LCM推出后几天后,老外也搞了一个Turbo, 能在1-2步出图。换句话说,你小米要把SDSX做速度对比,应该与LCM或者Turbo去比,才是同级别对比。
2, 优质出图,LCM与Turbo刚出来时,确实出图质量不行,但通过后级优化,已经不是问题了。
3, 小米模型用的是固态模型,只有512及1024二种,而别人用的是动态模型,支持多种分辨率,固态模型出图是比动态模型快,没毛病。
4. 100FPS, 30FPS, 类似于“奥氏体304” 的意思,你出图就出图嘛,干嘛用FPS.
让子弹飞