Stable Diffusion 常用放大算法详解

news2025/7/13 21:50:03

常用放大算法

图像放大算法大致有两种：

传统图像放大算法（Lantent、Lanczos、Nearest）
AI图像放大算法（4x-UltraSharp、BSRGAN、ESRGAN等）

传统图像放大算法是基于插值算法，计算出图像放大后新位置的像素值。AI图像放大算法，比一般的传统图像放大算法效果更好。

推荐放大算法 ESRGAN系列和 4X-UltraSharp
R-ESRGAN 4x+ 适用于写实图片
R-ESRGAN 4x+ Anime6B 适用于二次元类图片或二三次元混合图片

Latent 系列（不常用）

Latent 系列放大算法是在潜空间对图像进行放大，然后重新采样来增加图像的细节。

此外由于不是对图像像素级别的直接放大操作，当高分迭代步数不够或者重绘幅度过低时，生成的图像会模糊或失真。

重绘幅度在0~0.5的时候放大生成的图像是模糊的，因此在使用 Latent 系列算法时，需要一定的重绘幅度，并且随着放大倍数的提高，放大的图像会变得扭曲。

不同 Latent 算法之间的区别。

Latent (antialiased)：结合抗锯齿 (antialiased) 技术来消除图像中的锯齿状边缘。
Latent (bicubic)：使用双立法插值 (bicubic) 算法来放大图像，其在每个像素的位置使用一个三次多项式来拟合周围16个邻近像素（4x4的像素网格）的值。该算法考虑了每个像素点与其周围像素点之间的非线性关系，从而能够更准确地模拟图像中复杂的灰度变化，使得图像更加细致。
Latent (bicubic antialiased)：结合双立法插值 (bicubic) 算法和抗锯齿 (antialiased) 技术，放大图像的同时消除锯齿状边缘，提高图像的分辨率和质量。
Latent (nearest)：使用最近邻插值 (Nearest Neighbor Interpolation) 算法来放大图像，其在放大图像后，对于新位置的像素直接采用最近的原图像像素作为其值。这导致新像素之间缺乏过渡，容易导致图像边缘出现明显的锯齿状或阶梯状效果，放大后的图像质量不高。适用于像素艺术、图标、文字等强调清晰像素边界的图像，或者在对速度要求较高、对放大后图像质量要求相对较低的情况。
Latent (nearest-exact)：结合了最近邻插值算法和双线性插值算法，以达到更精确的放大效果。

Lanczos（不常用）

Lanczos放大算法基于Lanczos核函数，对于放大后新位置像素进行插值计算时，该算法会根据源图像中以该像素为中心的一定邻域内的像素值计算加权平均来确定新像素。在保留边缘清晰度和减少锯齿现象方面表现出色。

Nearest（不常用）

使用最近邻插值 (Nearest Neighbor Interpolation) 算法来计算放大图像后新像素，和 Latent (nearest) 不同，是直接放大真实图像。适用于某些简单图像的放大，在复杂图像的放大中，无法获得很好的结果。

4x-UltraSharp（常用）

基于 ESRGAN 做了优化模型。将图像分辨率提升4倍，在提高分辨率的同时保持或增强图像的细节、清晰度和逼真度。一般在纠结哪种算法放大图片时，可以选这个算法，照片级别的，真人模型上的效果可能会更好。

BSRGAN（不常用）

BSRGAN（Bilinear Super-Resolution Generative Adversarial Network）是一种专门针对盲图像超分辨率问题的生成式对抗网络模型。通常包含一个退化模型和一个超分辨率模型（即生成器），两者联合训练。退化模型模拟各种可能的图像退化过程，为超分辨率模型提供多样化的训练样本；超分辨率模型则学习如何从这些退化图像中恢复出高分辨率、高质量的原始图像。

ESRGAN系列（常用）

ESRGAN（Enhanced Super-Resolution Generative Adversarial Network）是一种先进的深度学习模型。ESRGAN沿用了GAN（Generative Adversarial Networks）的基本框架，包含一个生成器和一个判别器。生成器负责从低分辨率图像中生成高分辨率图像，而判别器则用于判断生成的高分辨率图像与真实高分辨率图像之间的差异，二者通过对抗训练共同优化。