卷积神经05-GAN对抗神经网络

news2025/1/16 19:45:17

卷积神经05-GAN对抗神经网络

使用Python3.9+CUDA11.8+Pytorch实现一个CNN优化版的对抗神经网络

  • 简单的GAN图片生成
    简单的GAN图片生成

  • CNN优化后的图片生成
    CNN优化后的图片生成

  • 优化模型代码对比
    优化模型代码对比

0-核心逻辑脉络

  • 1)Anacanda使用CUDA+Pytorch
  • 2)使用本地MNIST进行手写图片训练
  • 3)添加CNN进行训练过程优化
  • 4)Flask点击生成图片

1-参考网址

  • 1)GAN解读及代码实现:https://www.bilibili.com/video/BV1yE421u7Gj
  • 2)个人实现代码:https://gitee.com/enzoism/gan_pytorch
  • 3)CUDA+Pytorch环境安装参考:https://blog.csdn.net/2301_77717148/article/details/145083431

2-CUDA+Pytorch安装

# 1-Anacanda使用Python3.9
conda create -n GAN3.9 python=3.9
conda activate GAN3.9


# 2-使用cudatoolkit=11.8
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
conda install pytorch torchvision torchaudio cudatoolkit=11.8 -c pytorch

# 3-安装所需依赖包
pip install matplotlib 

# 4-查看GPU使用命令
nvidia-smi
watch -n 1 nvidia-smi

3-代码实现-本地版

import gzip

import matplotlib.pyplot as plt
import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, TensorDataset

# 检查是否有可用的 GPU,如果没有则使用 CPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")


# 定义生成器和判别器
class Generator(nn.Module):
    def __init__(self, z_dim=100, img_dim=784):
        super(Generator, self).__init__()
        self.gen = nn.Sequential(
            nn.Linear(z_dim, 256),
            nn.ReLU(),
            nn.Linear(256, img_dim),
            nn.Tanh(),  # 输出范围在 -1 到 1 之间
        )

    def forward(self, x):
        return self.gen(x)


class Discriminator(nn.Module):
    def __init__(self, img_dim=784):
        super(Discriminator, self).__init__()
        self.dis = nn.Sequential(
            nn.Linear(img_dim, 128),
            nn.LeakyReLU(0.01),
            nn.Linear(128, 1),
            nn.Sigmoid(),  # 输出范围在 0 到 1 之间
        )

    def forward(self, x):
        return self.dis(x)


# 定义加载本地 MNIST 数据集的函数
MNIST_FILE_PATH = 'D:/TT_WORK+/PyCharm/20250109_1_CNN/MNIST/'


def load_data():
    # 加载图像数据
    with gzip.open(MNIST_FILE_PATH + 'train-images-idx3-ubyte.gz', 'rb') as f:  # 训练集
        X_train = np.frombuffer(f.read(), dtype=np.uint8, offset=16).reshape(-1, 28 * 28)

    with gzip.open(MNIST_FILE_PATH + 't10k-images-idx3-ubyte.gz', 'rb') as f:  # 测试集
        X_test = np.frombuffer(f.read(), dtype=np.uint8, offset=16).reshape(-1, 28 * 28)

    # 加载标签数据
    with gzip.open(MNIST_FILE_PATH + 'train-labels-idx1-ubyte.gz', 'rb') as f:  # 训练集标签
        y_train = np.frombuffer(f.read(), dtype=np.uint8, offset=8)

    with gzip.open(MNIST_FILE_PATH + 't10k-labels-idx1-ubyte.gz', 'rb') as f:  # 测试集标签
        y_test = np.frombuffer(f.read(), dtype=np.uint8, offset=8)

    return (X_train, y_train), (X_test, y_test)


# 加载数据并转换为 PyTorch 张量
(X_train, y_train), (X_test, y_test) = load_data()

# 将数据转换为 PyTorch 张量并归一化到 [-1, 1] 范围
X_train = torch.tensor(X_train, dtype=torch.float32) / 255.0 * 2 - 1
X_test = torch.tensor(X_test, dtype=torch.float32) / 255.0 * 2 - 1

# 创建数据集和数据加载器
train_dataset = TensorDataset(X_train)
train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)

# 初始化生成器和判别器,并将它们移动到设备上
z_dim = 100
img_dim = 28 * 28

generator = Generator(z_dim, img_dim).to(device)
discriminator = Discriminator(img_dim).to(device)

lr = 0.0001
num_epochs = 100

optimizer_gen = optim.Adam(generator.parameters(), lr=lr)
optimizer_dis = optim.Adam(discriminator.parameters(), lr=lr)

criterion = nn.BCELoss()

# 记录损失值
train_loss_g = []
train_loss_d = []

# 训练过程
for epoch in range(num_epochs):
    gen_loss_epoch = 0
    disc_loss_epoch = 0

    for batch_idx, (real,) in enumerate(train_loader):
        real = real.to(device)
        batch_size = real.size(0)

        # 训练判别器
        noise = torch.randn(batch_size, z_dim, device=device)
        fake = generator(noise)
        disc_real_loss = criterion(discriminator(real), torch.ones(batch_size, 1, device=device))
        disc_fake_loss = criterion(discriminator(fake.detach()), torch.zeros(batch_size, 1, device=device))
        disc_loss = (disc_real_loss + disc_fake_loss) / 2

        optimizer_dis.zero_grad()
        disc_loss.backward()
        optimizer_dis.step()

        # 训练生成器
        noise = torch.randn(batch_size, z_dim, device=device)
        fake = generator(noise)
        gen_loss = criterion(discriminator(fake), torch.ones(batch_size, 1, device=device))

        optimizer_gen.zero_grad()
        gen_loss.backward()
        optimizer_gen.step()

        gen_loss_epoch += gen_loss.item()
        disc_loss_epoch += disc_loss.item()

        if batch_idx % 100 == 0:
            print(f"Epoch [{epoch}/{num_epochs}] Batch {batch_idx}/{len(train_loader)} \
                  Loss D: {disc_loss.item():.4f}, loss G: {gen_loss.item():.4f}")

    # 记录每个 epoch 的平均损失
    train_loss_g.append(gen_loss_epoch / len(train_loader))
    train_loss_d.append(disc_loss_epoch / len(train_loader))

    # 每个 epoch 保存一些生成的图像
    generator.eval()
    with torch.no_grad():
        noise = torch.randn(1, z_dim, device=device)
        generated_img = generator(noise).view(28, 28).cpu().numpy()
        plt.imshow(generated_img, cmap='gray')
        plt.savefig(f'generated_img_epoch_{epoch}.png')
        plt.close()
    generator.train()

# 5-保存模型
torch.save(generator.state_dict(), 'generator.pt')
torch.save(discriminator.state_dict(), 'discriminator.pt')

# 绘制训练损失曲线
plt.figure(figsize=(10, 5))
plt.title("Generator and Discriminator Loss During Training")
plt.plot(train_loss_g, label="G")
plt.plot(train_loss_d, label="D")
plt.xlabel("Epochs")
plt.ylabel("Loss")
plt.legend()
plt.savefig("GAN_loss_curve.png")
plt.show()


4-代码实现-本地版-添加卷积层

1-修改后的生成器

# 定义生成器
class Generator(nn.Module):
    def __init__(self, z_dim=100):
        super(Generator, self).__init__()
        self.gen = nn.Sequential(
            nn.ConvTranspose2d(z_dim, 128, kernel_size=7, stride=1, padding=0, bias=False),  # 输出尺寸: (128, 7, 7)
            nn.BatchNorm2d(128),
            nn.ReLU(),
            nn.ConvTranspose2d(128, 64, kernel_size=4, stride=2, padding=1, bias=False),  # 输出尺寸: (64, 14, 14)
            nn.BatchNorm2d(64),
            nn.ReLU(),
            nn.ConvTranspose2d(64, 1, kernel_size=4, stride=2, padding=1, bias=False),  # 输出尺寸: (1, 28, 28)
            nn.Tanh()  # 输出范围在 -1 到 1 之间
        )

    def forward(self, x):
        x = x.view(-1, x.size(1), 1, 1)  # 将输入张量调整为合适的形状
        return self.gen(x)

2-修改后的判别器

# 定义判别器
class Discriminator(nn.Module):
    def __init__(self):
        super(Discriminator, self).__init__()
        self.dis = nn.Sequential(
            nn.Conv2d(1, 64, kernel_size=4, stride=2, padding=1, bias=False),  # 输出尺寸: (64, 14, 14)
            nn.LeakyReLU(0.2),
            nn.Conv2d(64, 128, kernel_size=4, stride=2, padding=1, bias=False),  # 输出尺寸: (128, 7, 7)
            nn.BatchNorm2d(128),
            nn.LeakyReLU(0.2),
            nn.Flatten(),
            nn.Linear(128 * 7 * 7, 1),
            nn.Sigmoid()  # 输出范围在 0 到 1 之间
        )

    def forward(self, x):
        return self.dis(x)

优化模型代码对比

5-代码实现-Flask预览图片

import base64
import io

import numpy as np
import torch
from PIL import Image
from flask import Flask, render_template, jsonify

from main00_gan_model_define import Generator  # 从你的模型文件中导入Generator类

app = Flask(__name__)

# 加载生成器模型
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
z_dim = 100
generator = Generator(z_dim).to(device)
generator.load_state_dict(torch.load('gan_train_cnn/generator.pt', map_location=device))
generator.eval()


@app.route('/')
def index():
    return render_template('index.html')


@app.route('/generate', methods=['POST'])
def generate():
    images = []
    for _ in range(5):
        noise = torch.randn(1, z_dim, device=device)
        with torch.no_grad():
            generated_img = generator(noise).squeeze(0).cpu().numpy()

        # 将生成的图像转换为PIL图像,并进行编码以便在网页中显示
        generated_img = (generated_img * 0.5 + 0.5) * 255  # 反归一化
        generated_img = generated_img.astype(np.uint8)
        img = Image.fromarray(generated_img[0], mode='L')  # 假设是单通道灰度图像
        buffered = io.BytesIO()
        img.save(buffered, format="PNG")
        img_str = base64.b64encode(buffered.getvalue()).decode('utf-8')
        images.append(img_str)

    return jsonify(images=images)


if __name__ == '__main__':
    app.run(debug=True)


6-什么是nn.BCELoss()

优化nn.BCELoss()并不是直接对损失函数本身进行优化,而是指通过调整模型、数据预处理、训练过程等方面的策略,以最小化该损失函数计算得到的损失值,从而提高模型的性能。以下是一些优化nn.BCELoss()的常见方法:

  1. 模型架构调整:

    • 确保模型具有足够的容量(即参数数量)来捕捉数据的复杂性,但也要避免过拟合。

    • 使用正则化技术,如L1、L2正则化,或dropout层来减少过拟合。

  2. 数据预处理:

    • 对输入数据进行适当的缩放和归一化,使其分布在模型更容易处理的范围内。

    • 确保标签数据是二进制的(0或1),因为nn.BCELoss()期望的是这种格式。

  3. 损失函数输入:

    • 确保传递给nn.BCELoss()的预测值是原始得分(logits),而不是已经通过sigmoid函数转换过的概率。nn.BCELoss()内部会对这些得分应用sigmoid函数。

  4. 学习率和优化器:

    • 使用合适的学习率。学习率太高可能导致训练不稳定,而学习率太低则会使训练过程收敛缓慢。

    • 选择合适的优化器,如SGD、Adam或RMSprop,并调整其超参数(如动量、权重衰减)。

  5. 批量大小:

    • 尝试不同的批量大小以找到最佳的内存使用效率和梯度估计。

  6. 训练过程监控:

    • 定期监控训练损失和验证损失,以及任何其他相关指标(如准确率)。

    • 使用早停(early stopping)策略来防止过拟合,即在验证损失停止改善时停止训练。

  7. 梯度裁剪:

    • 如果遇到梯度爆炸问题,可以尝试使用梯度裁剪来限制梯度的最大范数。

  8. 标签平滑:

    • 在某些情况下,对标签应用标签平滑可以减少模型对错误标签的过度自信,从而改善泛化能力。

  9. 数据增强:

    • 对输入数据进行增强(如旋转、翻转、缩放等),以增加数据多样性,减少过拟合。

  10. 模型集成:

    • 通过训练多个模型并将它们的预测结果结合起来(如通过平均或投票),可以提高整体性能。

请注意,这些优化策略并不是孤立的,而是应该相互结合使用,以找到最适合特定任务和数据的组合。此外,对于每个任务和数据集,最佳实践可能会有所不同,因此通常需要进行实验和调整来找到最佳配置。


7-如何优化nn.BCELoss()

nn.BCELoss()是 PyTorch 中用于二分类问题的损失函数,全称是 Binary Cross Entropy Loss。这个函数计算的是目标值(通常是二分类问题的真实标签,取值范围为 {0, 1})和预测值(通常是模型输出的概率值,取值范围为 [0, 1])之间的二元交叉熵损失。

二元交叉熵损失的计算公式为:
L = − 1 N ∑ i = 1 N [ y i ⋅ log ⁡ ( x i ) + ( 1 − y i ) ⋅ log ⁡ ( 1 − x i ) ] L = -\frac{1}{N} \sum_{i=1}^{N} \left[ y_i \cdot \log(x_i) + (1 - y_i) \cdot \log(1 - x_i) \right] L=N1i=1N[yilog(xi)+(1yi)log(1xi)]
其中:

• NNN是样本数量。

• yiy_iyi是第iii个样本的真实标签(0 或 1)。

• xix_ixi是第iii个样本的预测概率。

这个函数常用于二分类任务中,比如判断一张图片是否包含某个物体、一封邮件是否是垃圾邮件等场景。使用nn.BCELoss()时,需要确保输入的目标值和预测值都是未经过 sigmoid 激活的原始值(即预测值应该是模型最后一层的线性输出),因为在计算损失时,该函数内部会对预测值应用 sigmoid 函数,将其转换为概率值。

示例用法:

import torch
import torch.nn as nn

假设有3个样本的预测值和真实标签

predictions = torch.tensor([0.2, 0.8, 0.4], dtype=torch.float32)  # 预测概率
targets = torch.tensor([0, 1, 0], dtype=torch.float32)  # 真实标签

初始化 BCELoss

criterion = nn.BCELoss()

计算损失

loss = criterion(predictions, targets)
print(loss)  # 输出损失值

在这个例子中,predictions是模型输出的预测概率,targets是真实的标签,criterion(predictions, targets)计算了预测值和真实值之间的二元交叉熵损失。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2277677.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

客户案例:某家居制造企业跨境电商,解决业务端(亚马逊平台)、易仓ERP与财务端(金蝶ERP)系统间的业务财务数据对账互通

一、系统定义 1、系统定位: 数据中台系统是一种战略选择和组织形式,通过有型的产品支撑和实施方法论,解决企业面临的数据孤岛、数据维护混乱、数据价值利用低的问题,依据企业特有的业务和架构,构建一套从数据汇聚、开…

服务器一次性部署One API + ChatGPT-Next-Web

服务器一次性部署One API ChatGPT-Next-Web One API ChatGPT-Next-Web 介绍One APIChatGPT-Next-Web docker-compose 部署One API ChatGPT-Next-WebOpen API docker-compose 配置ChatGPT-Next-Web docker-compose 配置docker-compose 启动容器 后续配置 同步发布在个人笔记服…

辅助云运维

为客户提供运维支持,保障业务连续性。 文章目录 一、服务范围二、服务内容三、服务流程四、 服务交付件五、责任分工六、 完成标志 一、服务范围 覆盖范围 云产品使用咨询、问题处理、配置指导等; 云产品相关操作的技术指导; 云相关资源日常…

[Qt]常用控件介绍-多元素控件-QListWidget、QTableWidget、QQTreeWidget

目录 1.多元素控件介绍 2.ListWidget控件 属性 核心方法 核心信号 细节 Demo:编辑日程 3.TableWidget控件 核心方法 QTableWidgetItem核心信号 QTableWidgetItem核心方法 细节 Demo:编辑学生信息 4.TreeWidget控件 核心方法 核心信号…

Windows部署NVM并下载多版本Node.js的方法(含删除原有Node的方法)

本文介绍在Windows电脑中,下载、部署NVM(node.js version management)环境,并基于其安装不同版本的Node.js的方法。 在之前的文章Windows系统下载、部署Node.js与npm环境的方法(https://blog.csdn.net/zhebushibiaoshi…

基于STM32设计的粮食仓库(粮仓)环境监测系统

一、前言 1.1 项目开发背景 随着现代农业的发展和粮食储存规模的扩大,粮仓环境的智能化监控需求日益增长。传统的粮仓管理方式通常依赖人工检测和定期巡查,效率低下且容易出现疏漏,无法及时发现潜在问题,可能导致粮食受潮、霉变…

【Linux】--- 进程的等待与替换

进程的等待与替换 一、进程等待1、进程等待的必要性2、获取子进程status3、进程等待的方法(1)wait()函数(2)waitpid函数 4、多进程创建以及等待的代码模型5、非阻塞接口 轮询 二、进程替换1、替换原理2、替…

Vue2+OpenLayers添加/删除点、点击事件功能实现(提供Gitee源码)

目录 一、案例截图 二、安装OpenLayers库 三、安装Element-UI 四、代码实现 4.1、添加一个点 4.2、删除所有点 4.3、根据经纬度删除点 4.4、给点添加点击事件 4.5、完整代码 五、Gitee源码 一、案例截图 可以新增/删除标记点,点击标记点可以获取到当前标…

HTML中如何保留字符串的空白符和换行符号的效果

有个字符串 储值门店{{thing3.DATA}}\n储值卡号{{character_string1.DATA}}\n储值金额{{amount4.DATA}}\n当前余额{{amount5.DATA}}\n储值时间{{time2.DATA}} , HTML中想要保留 \n的换行效果的有下面3种方法: 1、style 中 设置 white-space: pre-lin…

GB44495-2024 汽车整车信息安全技术要求 - V2X部分前置要求

背景 GB 44495-2024《汽车整车信息安全技术要求》中关于V2X(车与外界通信)的部分,主要关注于通信安全要求,旨在确保车辆在与外部设备进行数据交互时的信息安全。其测试大致可分为消息层(数据无异常)、应用…

[PAT 甲级] 1179 Chemical Equation (DFS)

​ 题目翻译(GPT): 1179 化学方程式 化学方程式是一种用符号和公式表示化学反应的方法,其中反应物在方程式的左侧,生成物在右侧。例如: CH₄ 2O₂ -> CO₂ 2H₂O 表示反应物为甲烷和氧气&#xff…

android分区和root

线刷包内容: 线刷包是一个完整的android镜像,不但包括android、linux和用户数据,还包括recovery等。当然此图中没有recovery,但是我们可以自己刷入一个。 主要分区 system.img 系统分区,包括linux下主要的二进制程序。 boot.img…

每日一题(五):n个正整数排列,求组合后最大数

目录 一、题目 二、题目分析 (一)明确需求 背景知识:字符串的比较与连接 1.字符串的比较 2.字符串的连接 (二)分析思路 三、将思路转换为程序 四、总结 一、题目 给定n个正整数a1,a2,……,an对这n个数进行排列,求组合后可以得到…

【STM32-学习笔记-3-】TIM定时器

文章目录 TIM定时器Ⅰ、TIM定时器函数Ⅱ、TIM_TimeBaseInitTypeDef结构体参数①、TIM_ClockDivision②、TIM_CounterMode③、TIM_Period④、TIM_Prescaler⑤、TIM_RepetitionCounter Ⅱ、定时器配置Ⅲ、定时器外部中断NVIC配置 TIM定时器 Ⅰ、TIM定时器函数 // 将定时器寄存器…

【Rust自学】12.2. 读取文件

12.2.0. 写在正文之前 第12章要做一个实例的项目——一个命令行程序。这个程序是一个grep(Global Regular Expression Print),是一个全局正则搜索和输出的工具。它的功能是在指定的文件中搜索出指定的文字。 这个项目分为这么几步: 接收命令行参数读…

新垂直电商的社交传播策略与AI智能名片2+1链动模式S2B2C商城小程序的应用探索

摘要:随着互联网技术的不断进步和电商行业的快速发展,传统电商模式已难以满足消费者日益增长的个性化和多元化需求。新垂直电商在此背景下应运而生,通过精准定位、用户细分以及深度社交传播策略,实现了用户群体的快速裂变与高效营…

【ORACLE战报】2025.1月OCP | MySQL考试

2025.1月【最新考试成绩出炉】 OCP战报 MySQL 战报 部分学员成绩及证书

九 RK3568 android11 MPU6500

一 MPU6500 内核驱动 1.1 查询设备连接地址 查看原理图, MPU6500 I2C 连接在 I2C4 上, 且中断没有使用 i2c 探测设备地址为 0x68 1.2 驱动源码 drivers/input/sensors/gyro/mpu6500_gyro.c drivers/input/sensors/accel/mpu6500_acc.c 默认 .config 配置编译了 mpu6550 …

Android JecPack组件之LifeCycles 使用详解

一、背景 LifeCycle 是一个可以感知宿主生命周期变化的组件。常见的宿主包括 Activity/Fragment、Service 和 Application。LifeCycle 会持有宿主的生命周期状态的信息,当宿主生命周期发生变化时,会通知监听宿主的观察者。 LifeCycle 的出现主要是为了…

机器学习(2):线性回归Python实现

1 概念回顾 1.1 模型假设 线性回归模型假设因变量y yy与自变量x xx之间的关系可以用以下线性方程表示: y β 0 β 1 ⋅ X 1 β 2 ⋅ X 2 … β n ⋅ X n ε y 是因变量 (待预测值);X1, X2, ... Xn 是自变量(特征)β0, β1,…