去噪扩散隐式模型

news2025/4/8 15:40:41

dataset_name = "datasets/oxford-102-flowers/"

dataset_repetitions = 2 # 数据集重复
num_epochs = 25
image_size = 64 # 模型训练和生成图像的大小
# KID = 内核初始距离
kid_image_size = 75
# 从噪声中逐步“去噪”或“扩散”到最终图像所需的步骤数。
kid_diffusion_steps = 5
# 这个参数可能用于在训练或可视化过程中，展示从噪声到最终图像的扩散过程中的中间步骤数。
# 它帮助理解模型是如何逐步生成图像的。
plot_diffusion_steps = 20
# 这两个参数可能用于控制训练过程中信号（即实际图像内容）与噪声的比例。在扩散模型的训练初期，
# 噪声比例可能很高，随着训练的进行，信号比例逐渐增加。这些参数有助于精细控制这一过程。
min_signal_rate = 0.02
max_signal_rate = 0.95

# 体系结构
embedding_dims = 32
# 用于将位置信息或频率信息嵌入到模型中。它定义了嵌入的最大频率，这可能影响模型捕捉细节的能力。
embedding_max_frequency = 1000.0 # 频率
widths = [32, 64, 96, 128]
block_depth = 2
# 优化
batch_size = 64
# 指数移动平均（EMA）的衰减率。EMA是一种平滑技术，用于在训练过程中跟踪模型参数的平均值
ema = 0.999
learning_rate = 1e-3
weight_decay = 1e-4

因为我想弄懂stable Diffusion,但是下载不了权重，把整个源码扒出来后，transformer那块很容易理解,百度人工智能后，知道这个模型需要三个东西，第一个就是从噪音中生成图片的模型,就是这个隐式模型,另一个模型是vae，这个一会再说,大致看了下文本提示那个,首先得分词文本数据，之后它是交由transformer编码为语义向量,之后要把图片数据和文本数据传人模型训练吧,我想先把从噪音中生成图片的模型原理搞懂，之后去粗取精，更改stable diffusion，它太大了

diffusion_times = keras.random.uniform(
            shape=(batch_size, 1, 1, 1), minval=0.0, maxval=1.0
        )
        # 计算噪声率和信号率：根据扩散时间，通过self.diffusion_schedule计算噪声率和信号率。
        # 噪声率决定了噪声在混合图像中的比例，而信号率则是真实图像内容的比例。在训练开始时，噪声率
        # 接近1，表示图像主要由噪声组成。
        noise_rates, signal_rates = self.diffusion_schedule(diffusion_times)
        # 混合图像：将归一化的图像与噪声按计算出的噪声率和信号率进行混合，生成带噪声的图像。
        noisy_images = signal_rates * images + noise_rates * noises 根据随机生成的diffusion_times得到信号率和噪音率,这两个值的平方和是1,之后得到噪音图片

with tf.GradientTape() as tape:
            # train the network to separate noisy images to their components
            # 训练网络分离噪声数据和真实图片数据
            pred_noises, pred_images = self.denoise(
                noisy_images, noise_rates, signal_rates, training=True
            )
            # 计算梯度并更新参数：根据噪声损失（noise_loss）计算网络参数的梯度，并使用优化器（
            # self.optimizer）更新这些参数。
            noise_loss = self.loss(noises, pred_noises) # used for training
            image_loss = self.loss(images, pred_images) # only used as metric
        # 计算噪声损失对网络可训练参数的梯度,并更新参数
        gradients = tape.gradient(noise_loss, self.network.trainable_weights)
        self.optimizer.apply_gradients(zip(gradients, self.network.trainable_weights))

pred_noises = network([noisy_images, noise_rates**2], training=training)
        # 计算去噪后的图像：利用预测到的噪声成分（pred_noises）、噪声率（noise_rates）和信号率（signal_rates），
        # 通过公式(noisy_images - noise_rates * pred_noises) / signal_rates来计算去噪后的图像（pred_images）
        # 。这个公式是扩散模型逆扩散步骤的核心，它试图从带有噪声的图像中恢复出原始图像。
        # 噪声的预测：pred_noises 是模型根据含噪图像 noisy_images 和当前的噪声率 noise_rates（或其某种变换，如平方
        # ）预测出的噪声成分。这个预测是模型在训练过程中学习到的，旨在捕捉含噪图像中的噪声部分
        # 噪声的去除：通过将预测的噪声 pred_noises 乘以相应的噪声率 noise_rates 并从含噪图像 noisy_images 中减去，
        # 我们试图去除图像中的噪声部分。这里的 noise_rates 可能用于调整噪声的强度和尺度，
        # 信号的恢复：然而，仅仅去除噪声并不足以得到完全干净的图像，因为去除噪声后可能会留下信号的衰减部分。因此，我们需要通过除以
        # signal_rates 来恢复信号的原始强度。这里的 signal_rates 代表了在不同噪声水平下信号的保留程度，其值通常与噪声率成反比，
        # 因为随着噪声的增加，信号的可见性会降低
        # signal_rates 这个术语在标准的扩散模型文献中可能并不常见。在扩散模型中，更常见的是使用与噪声方差（或噪声率的平方）相对应的
        # “信号方差”或“剩余方差”，它表示在给定噪声水平下信号（即原始图像内容）的剩余部分。在实际应用中，这个“剩余方差”可能直接用于调整
        # 信号的强度，而不是通过一个显式的 signal_rates 参数。
        pred_images = (noisy_images - noise_rates * pred_noises) / signal_rates 网络会先下采样，之后上采样，提取特征，得到噪音数据的预测，之后得到预测的图片，之后计算预测和真实的损失，用噪音损失更新模型参数，之所以只用噪音损失计算梯度，很容易理解，因为这个网络就是根据噪音图片预测噪音数据的，肯定要根据噪音损失计算梯度，根据我一贯的观点，损失在指引模型训练，你仔细琢磨，就发现训练模型就是科学精神，用真实观察和预测间的损失来比较这个理论是否对,所以随着损失下降，这个模型最终应该能成功预测噪音图片中那些数据是噪音数据，自然其他的数据就是真实图片数据，loss=keras.losses.mean_absolute_error这里损失是mae,评估指标有self.noise_loss_tracker = keras.metrics.Mean(name="n_loss")
        self.image_loss_tracker = keras.metrics.Mean(name="i_loss")
        self.kid = KID(name="kid") 噪音损失，图片损失，kid,kid是真实图片和生成图片间的核距离吧

经过多个轮次训练后，模型生成图片越来越清晰,说明模型预测越来越准确，它学会了识别噪音数据和真实图片数据