b站小土堆pytorch学习记录—— P18-P22 神经网络+小实战

news2025/1/22 12:47:07

文章目录

  • 一、卷积层 P18
    • 1.卷积操作
    • 2.代码
  • 二、池化层 P19
    • 1.池化层简单介绍
    • 2.代码
      • (1)池化操作中数字的变化
      • (2)池化操作对图片的影响
  • 三、非线性激活 P20
    • 1.简要介绍
    • 2.代码
  • 四、线性层及其他层介绍 P21
    • 1.线性层
    • 2.代码
  • 五、搭建小实战和Sequential的使用 P22
    • 1.要实现的模型
    • 2.代码

理解神经网络:

卷积神经网络(CNN)详细介绍及其原理详解

CNN笔记:通俗理解卷积神经网络

一文让你彻底了解卷积神经网络

一、卷积层 P18

1.卷积操作

推荐几个高赞博客:

卷积最容易理解的解释
卷积神经网络(CNN)详细介绍及其原理详解
还有pytorch官网的动态图:
pytorch卷积

具体而言,假设有一个3X3的灰度图像矩阵:

[1, 1, 1]
[0, 0, 0]
[1, 1, 1]

我们使用一个称为边缘检测的卷积核(滤波器):

[-1, -1, -1]
[-1,  8, -1]
[-1, -1, -1]

接下来,我们将对这个3x3图像矩阵应用卷积操作。

步骤如下:

(1)将3x3的卷积核与图像的左上角3x3区域进行逐元素相乘,并将结果相加,得到新的像素值。
(2)滑动卷积核到下一个位置,再次进行相乘相加操作,得到另一个像素值。
(3)重复此过程直到覆盖整个图像。
应用以上步骤后,我们可以得到一个新的图像矩阵,其中包含了经过边缘检测卷积核处理后的结果。这种操作有助于检测图像中的边缘和轮廓。

具体计算如下:

第一步,将卷积核与图像的左上角3x3区域进行逐元素相乘,并将结果相加,得到新的像素值:

1*(-1) + 1*(-1) + 1*(-1) +
0*(-1) + 0*8 + 0*(-1) +
1*(-1) + 1*(-1) + 1*(-1) = -3

第二步,滑动卷积核到下一个位置,再次进行相乘相加操作,得到另一个像素值:

1*(-1) + 1*(-1) + 0*(-1) +
0*(-1) + 0*8 + 1*(-1) +
1*(-1) + 1*(-1) + 0*(-1) = -5

以此类推,重复步骤直到覆盖整个图像。在这个例子中,我们得到了一个2x2的新图像矩阵,其像素值为-3和-5。

所以,经过边缘检测卷积核处理后的结果是:

[-3, -5]
[ 0,  0]

2.代码

import torch
import torchvision
from torch import nn
from torch.nn import Conv2d
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter

# 下载CIFAR10数据集并准备数据加载器
dataset = torchvision.datasets.CIFAR10("./dataset2", train=False, transform=torchvision.transforms.ToTensor(), download=True)
dataloader = DataLoader(dataset, batch_size=64)

# 定义一个简单的神经网络模型
class Guodong(nn.Module):
    def __init__(self):
        super(Guodong, self).__init__()
        # 定义一个卷积层
        self.conv1 = Conv2d(in_channels=3, out_channels=6, kernel_size=3, stride=1, padding=0)

    def forward(self, x):
        x = self.conv1(x)
        return x

guodong = Guodong()
print(guodong)

# 初始化TensorBoard的SummaryWriter
writer = SummaryWriter("logs")
step = 0

# 遍历数据加载器,处理数据并将结果写入TensorBoard
for data in dataloader:
    imgs, target = data
    print(imgs.shape)  # 打印输入图片的形状
    output = guodong(imgs)  # 将输入图片传入神经网络模型得到输出
    print(output.shape)  # 打印输出的形状
    writer.add_images("input", imgs, step)  # 将输入图片写入TensorBoard
    output = torch.reshape(output, (-1, 3, 30, 30))  # 调整输出的形状以便写入TensorBoard
    writer.add_images("output", output, step)  # 将输出图片写入TensorBoard

    step = step + 1  # 更新步数

程序运行结果:

在这里插入图片描述

打开tensorboard后,结果如下:

在这里插入图片描述

二、池化层 P19

1.池化层简单介绍

池化层详细介绍

池化层(Pooling Layer)是深度学习中常用的一种层,通常用于减少特征图的空间尺寸,降低计算复杂度,并且有助于防止过拟合。池化层在卷积神经网络(CNN)中被广泛应用。

池化层的作用是通过对输入数据进行池化操作来减少特征图的尺寸,从而减少网络参数和计算量。池化操作通常在每个独立的特征图上进行,它使用一个固定大小的窗口在特征图上滑动,并在窗口内部执行一个汇聚运算(如最大池化、平均池化等)来得到一个汇聚后的值作为输出。

常见的池化操作:

最大池化(Max Pooling):在池化窗口内取最大值作为汇聚后的值。
平均池化(Average Pooling):在池化窗口内取平均值作为汇聚后的值。
全局平均池化(Global Average Pooling):对整个特征图进行平均池化,将每个通道的特征图转换为一个标量值。

池化层的主要优点:

减少特征图的维度,降低计算复杂度。
增加平移不变性,提高模型的鲁棒性。
减少过拟合,通过减少特征图维度,可以减少模型参数的数量。

2.代码

(1)池化操作中数字的变化

import torch
from torch import nn
from torch.nn import MaxPool2d

# 创建输入张量
input = torch.tensor([[1, 2, 0, 3, 1],
                    [0, 1, 2, 3, 1],
                    [1, 2, 1, 0, 0],
                    [5, 2, 3, 1, 1],
                    [2, 1, 0, 1, 1]], dtype=torch.float32)

# 将输入张量reshape为(batch_size, channels, height, width)
input = torch.reshape(input, (-1, 1, 5, 5))

# 定义第一个神经网络模型Guodong1,使用MaxPool2d进行最大池化操作,ceil_mode=True
class Guodong1(nn.Module):
    def __init__(self):
        super(Guodong1, self).__init__()
        self.maxpool1 = MaxPool2d(kernel_size=3, ceil_mode=True)  # 定义最大池化层,kernel_size为3,启用ceil_mode

    def forward(self, input):
        output = self.maxpool1(input)
        return output

# 创建Guodong1模型实例并进行前向传播
guodong1 = Guodong1()
output1 = guodong1(input)
print("Output of Guodong1 with ceil_mode=True:")
print(output1)

# 定义第二个神经网络模型Guodong2,使用MaxPool2d进行最大池化操作,ceil_mode=False
class Guodong2(nn.Module):
    def __init__(self):
        super(Guodong2, self).__init__()
        self.maxpool1 = MaxPool2d(kernel_size=3, ceil_mode=False)  # 定义最大池化层,kernel_size为3,不启用ceil_mode

    def forward(self, input):
        output = self.maxpool1(input)
        return output

# 创建Guodong2模型实例并进行前向传播
guodong2 = Guodong2()
output2 = guodong2(input)
print("\nOutput of Guodong2 with ceil_mode=False:")
print(output2)

运行结果:

在这里插入图片描述

(2)池化操作对图片的影响

from torch import nn
import torchvision
from torch.nn import MaxPool2d
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter

# 加载CIFAR10数据集
dataset = torchvision.datasets.CIFAR10("./dataset1", train=False, transform=torchvision.transforms.ToTensor(), download=True)

# 创建数据加载器
dataloader = DataLoader(dataset, batch_size=64)

# 定义神经网络模型Guodong,使用MaxPool2d进行最大池化操作,ceil_mode=True
class Guodong(nn.Module):
    def __init__(self):
        super(Guodong, self).__init__()
        self.maxpool1 = MaxPool2d(kernel_size=3, ceil_mode=True)  # 定义最大池化层,kernel_size为3,启用ceil_mode

    def forward(self, input):
        output = self.maxpool1(input)
        return output

guodong = Guodong()

# 创建TensorBoard的SummaryWriter实例
writer = SummaryWriter("./logs_maxpool")
step = 0

# 遍历数据加载器,将输入图像和模型输出图像添加到TensorBoard中
for data in dataloader:
    imgs, target = data
    writer.add_images("input", imgs, step)  # 将输入图像添加到TensorBoard
    output = guodong(imgs)  # 通过模型前向传播得到输出
    writer.add_images("output", output, step)  # 将模型输出的图像添加到TensorBoard
    step = step + 1

writer.close()  # 关闭SummaryWriter

运行结果:

在这里插入图片描述
可以看到,最后的结果就像给图片打了 “马赛克”

三、非线性激活 P20

1.简要介绍

非线性激活函数是神经网络中用于引入非线性特性的函数。在神经网络中,每个神经元除了具有权重和偏置之外,还需要一个激活函数来引入非线性变换,从而使神经网络能够学习复杂的模式和关系。

在深度学习中,使用非线性激活函数的主要原因是为了让神经网络具备学习和表示更加复杂的函数的能力,从而提高模型的表达能力。如果没有非线性激活函数,多层神经网络就会退化为单层网络,无法表达复杂的非线性关系,限制了神经网络的表达能力和学习能力。

常见的非线性激活函数:

ReLU(Rectified Linear Unit):ReLU函数定义为f(x) = max(0, x),即将小于等于0的输入映射为0,大于0的输入保持不变。ReLU函数简单且计算高效,在实际应用中被广泛使用。

Sigmoid函数:Sigmoid函数定义为f(x) = 1 / (1 + exp(-x)),它将输入值映射到一个取值范围在[0, 1]之间的输出。Sigmoid函数常用于二分类问题或者需要将输出限制在一定范围内的任务。

Tanh函数:Tanh函数定义为f(x) = (exp(x) - exp(-x)) / (exp(x) + exp(-x)),它将输入值映射到一个取值范围在[-1, 1]之间的输出。Tanh函数在某些情况下比Sigmoid函数更适合使用,尤其是在中心化数据和对称性数据上。

Leaky ReLU:Leaky ReLU函数是对ReLU函数的改进,当输入小于0时,引入一个小的斜率来避免神经元“死亡”的问题。Leaky ReLU函数定义为f(x) = max(ax, x),其中a是一个小的正数。

ELU(Exponential Linear Unit):ELU函数在负数区域对输入进行指数级衰减,而在正数区域保持线性增长。ELU函数定义为f(x) = max(ax, x)(x >= 0)和f(x) = a * (exp(x) - 1)(x < 0),其中a是一个小的正数。

Softmax函数:Softmax函数常用于多分类问题中,将一组实数值映射到概率分布上,使得所有输出的总和等于1。Softmax函数定义为f(x_i) = exp(x_i) / sum(exp(x_j))。

2.代码

import torch
import torchvision
from torch import nn
from torch.nn import ReLU, Sigmoid
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter

# 创建输入张量并reshape为(batch_size, channels, height, width)
input = torch.tensor([[1, 0.5],
                      [-1, 3]])
input = torch.reshape(input, (-1, 1, 2, 2))
print(input.shape)

# 加载CIFAR10数据集
dataset = torchvision.datasets.CIFAR10("./dataset1", train=False, download=True, transform=torchvision.transforms.ToTensor())
dataloader = DataLoader(dataset, batch_size=64)

# 定义神经网络模型Guodong,包含ReLU和Sigmoid激活函数
class Guodong(nn.Module):
    def __init__(self):
        super(Guodong, self).__init__()
        self.relu1 = ReLU()  # 定义ReLU激活函数
        self.sigmoid1 = Sigmoid()  # 定义Sigmoid激活函数

    def forward(self, input):
        output = self.sigmoid1(input)  # 将输入数据经过Sigmoid激活函数得到输出
        return output

guodong = Guodong()
output = guodong(input)
print(output)

# 使用SummaryWriter创建TensorBoard日志
step = 0
writer = SummaryWriter("logs")
for data in dataloader:
    imgs, target = data
    writer.add_images("input", imgs, step)  # 将输入图像添加到TensorBoard
    output = guodong(imgs)  # 通过模型前向传播得到输出
    writer.add_images("output", output, step)  # 将模型输出的图像添加到TensorBoard
    step += 1

writer.close()  # 关闭SummaryWriter

代码运行结果:

在这里插入图片描述

四、线性层及其他层介绍 P21

1.线性层

在这里插入图片描述

2.代码

import torch
import torchvision
from torch import nn
from torch.nn import Linear
from torch.utils.data import DataLoader

# 下载并加载 CIFAR10 数据集
dataset = torchvision.datasets.CIFAR10("./dataset1", train=False, transform=torchvision.transforms.ToTensor(), download=True)

# 创建数据加载器
dataloader = DataLoader(dataset, batch_size=64)

# 定义自定义模型 Guodong
class Guodong(nn.Module):
    def __init__(self):
        super(Guodong, self).__init__()
        self.linear1 = Linear(196608, 10)  # 线性层,将输入维度为 196608 转换为输出维度为 10

    def forward(self, input):
        output = self.linear1(input)
        return output

# 创建 Guodong 模型的实例
guodong = Guodong()

# 遍历数据加载器
for data in dataloader:
    imgs, target = data

    # 打印图像张量的形状
    print(imgs.shape)

    # 将图像展平为一维向量
    output = torch.flatten(imgs)
    print(output.shape)

    # 将展平后的向量输入到 Guodong 模型中进行前向传播
    output = guodong(output)
    print(output.shape)

五、搭建小实战和Sequential的使用 P22

1.要实现的模型

CIFAR10 结构:
在这里插入图片描述

2.代码

import torch
from torch import nn
from torch.nn import Conv2d, MaxPool2d, Flatten, Linear, Sequential
from torch.utils.tensorboard import SummaryWriter


class Guodong(nn.Module):
    def __init__(self):
        super(Guodong,self).__init__()
        self.module1 = Sequential(
            Conv2d(3, 32, 5, padding=2),
            MaxPool2d(2),
            Conv2d(32, 32, 5, padding=2),
            MaxPool2d(2),
            Conv2d(32, 64, 5, padding=2),
            MaxPool2d(2),
            Flatten(),
            Linear(1024, 64),
            Linear(64, 10)
        )

    def forward(self,input):
        output = self.module1(input)
        return output

guodong = Guodong()

input = torch.ones((64, 3, 32, 32))
print(input.shape)
output = guodong(input)
print(output.shape)

writer = SummaryWriter("../seq_logs")
writer.add_graph(guodong, input)

writer.close()

个人运行在tensorboard中显示异常,如下图,目前还不知道具体原因。
如果有大佬知道,可以在评论区指导

pytorch打不开

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1494263.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++初阶:初识C++

目录 1. 前言&#xff1a;C 与 C语言2. C对于C语言语法的完善与补充2.1 命名冲突与命名空间2.1.1 命名空间的定义2.1.2 调用方式 2.3 补充&#xff1a;流的概念2.4 缺省参数2.4.1 缺省参数的使用 2.5 函数重载2.5.1 什么是函数重载2.5.2 函数重载的使用2.5.3 特殊情况&#xff…

七、链表问题(上)

160、相交链表&#xff08;简单&#xff09; 题目描述 给你两个单链表的头节点 headA 和 headB &#xff0c;请你找出并返回两个单链表相交的起始节点。如果两个链表不存在相交节点&#xff0c;返回 null 。 图示两个链表在节点 c1 开始相交&#xff1a; 题目数据 保证 整个…

如何采集京东搜索页面商品的销量、价格数据?

这段Python代码旨在从京东网站上获取商品信息&#xff0c;包括评论数量和评论的关键词&#xff0c;以便进行进一步的分析。该程序分析并模拟了京东的JavaScript请求&#xff0c;以获取动态加载的评论数据。 代码都测试验证过都能正常跑通&#xff0c;实现效果&#xff0c;由于…

图像处理与视觉感知---期末复习重点(1)

文章目录 一、概述二、图像处理基础2.1 视觉感知要素2.2 像素间的一些基本关系2.2.1 相邻像素2.2.2 连通性2.2.3 距离度量 2.3 基本坐标变换2.4 空间变换与灰度值 一、概述 1. 图像的概念及分类。  图像是用各种观测系统以不同形式和手段观测客观世界而获得的、可以直接或间接…

C++——string类

前言&#xff1a;哈喽小伙伴们&#xff0c;从这篇文章开始我们将进行若干个C中的重要的类容器的学习。本篇文章将讲解第一个类容器——string。 目录 一.什么是string类 二.string类常见接口 1.string类对象的常见构造 2.string类对象的容量操作 3. string类对象的访问及遍…

【DevSecOps】2024 年需要警惕的 10 大 Web 应用程序安全威胁

【DevSecOps】2024 年需要警惕的 10 大 Web 应用程序安全威胁 由于 2023 年出现了许多创新,我们之前所了解的许多内容都发生了巨大变化;随着其中一些重大变化,威胁格局也发生了转变,一些旧威胁减少了,一些新威胁增加了。 技术每天都在不断变化,当我们谈论技术和相关威胁…

MetaQTL:元分析基础教程

MetaQTL 基础知识 在遥远的海洋中&#xff0c;每个岛屿都藏着无尽的宝藏&#xff0c;而探险家们争相寻找地图&#xff0c;以期揭开宝藏的秘密。 现实世界中&#xff0c;我们的基因组就像那片广阔的海洋&#xff0c;而隐藏在其中的宝藏就是控制我们身高、健康、甚至是我们性格的…

Netty之WebSocket协议开发

一、WebSocket产生背景 在传统的Web通信中&#xff0c;浏览器是基于请求--响应模式。这种方式的缺点是&#xff0c;浏览器必须始终主动发起请求才能获取更新的数据&#xff0c;而且每次请求都需要经过HTTP的握手和头部信息的传输&#xff0c;造成了较大的网络开销。如果客户端…

git 命令怎么回退到某个特定的 commit 并将其推送到远程仓库?

问题 不小心把提交的名称写错提交上远程仓库了&#xff0c;这里应该是 【029】的&#xff0c;这个时候我们想回到【028】这一个提交记录&#xff0c;然后再重新提交【029】到远程仓库&#xff0c;该怎么处理。 解决 1、首先我们找到【028】这条记录的提交 hash&#xff0c;右…

微信小程序开发系列(八)·微信小程序页面的划分以及轮播图区域的绘制和图片的添加

目录 1. 划分页面结构 2. 轮播图区域绘制 3. 轮播图图片添加 1. 划分页面结构 最终我们想达到如下效果&#xff1a; 其页面分为四层结构&#xff0c;因此我们需要配置四块view&#xff0c;代码如下&#xff1a; <!-- view 小程序提供的容器组件&#xff0c;可以当成…

《ChatGPT原理与架构:大模型的预训练、迁移和中间件编程 》

OpenAI 在 2022 年 11 月推出了人工智能聊天应用—ChatGPT。它具有广泛的应用场景&#xff0c;在多项专业和学术基准测试中表现出的智力水平&#xff0c;不仅接近甚至有时超越了人类的平均水平。这使得 ChatGPT 在推出之初就受到广大用户的欢迎&#xff0c;被科技界誉为人工智能…

zabbix监控中间件服务

zabbix监控Nginx 自定义nginx访问量的监控项&#xff0c;首先要通过脚本将各种状态的值取出来&#xff0c;然后通过zabbix监控。找到自定义脚本上传到指定目录/etc/zabbix/script/ 在zbx-client客户端主机操作 #创建目录&#xff0c;然后将脚本上传到该目录mkdir /etc/zabbix/…

7,图像镜像变换

水平镜像就是x图像宽度-原来的x&#xff0c; 垂直镜像就是y图像高度-原来的y void CDib::Mirror_Horizontal() { //指向原图像指针 LPBYTE lpSrc; LPBYTE p_data GetData(); //指向复制区域的指针 LPBYTE lpDst; //图像的宽和高 LONG width GetWidth(); LONG height GetHei…

备战蓝桥杯————二分查找(二)

引言 在上一篇博客中&#xff0c;我们深入探讨了二分搜索算法及其在寻找数组左侧边界的应用。二分搜索作为一种高效的查找方法&#xff0c;其核心思想在于通过不断缩小搜索范围来定位目标值。在本文中&#xff0c;我们将继续这一主题&#xff0c;不仅会回顾二分搜索的基本原理&…

【C++专栏】C++入门 | 命名空间、输入输出、缺省参数

博客主页&#xff1a;Duck Bro 博客主页系列专栏&#xff1a;C专栏关注博主&#xff0c;后期持续更新系列文章如果有错误感谢请大家批评指出&#xff0c;及时修改感谢大家 点赞&#x1f44d;收藏⭐评论✍ C入门 | 命名空间、输入输出、缺省参数 文章编号&#xff1a;C入门 / 0…

Java agent技术的注入利用与避坑点

什么是Java agent技术&#xff1f; Java代理&#xff08;Java agent&#xff09;是一种Java技术&#xff0c;它允许开发人员在运行时以某种方式修改或增强Java应用程序的行为。Java代理通过在Java虚拟机&#xff08;JVM&#xff09;启动时以"代理"&#xff08;agent…

react native中如何使用webView调用腾讯地图选点组件

react native中如何使用webView调用腾讯地图选点组件 效果示例图代码示例备注 效果示例图 代码示例 import React, {useEffect, useRef, useState} from react; import {Modal, StyleSheet} from react-native; import {pxToPd} from ../../common/js/device; import {WebView…

使用PDFBox封装一个简单易用的工具类快速生成pdf文件

文章目录 一、PDFbox说明1、坐标2、线3、图4、字5、字体加载6、jfreechart图表转字节数组7、依赖二、PDFbox样式1、文字颜色2、线颜色3、线样式三、工具类边框样式对齐样式表行列图片列pdf工具类测试方法四、效果图一、PDFbox说明 1、坐标 文档左下角为坐标原点,x轴向右从0增…

Cluade3干货:超越GPT,模型特点分析+使用教程|2024年3月更新

就在刚刚&#xff0c;Claude 发布了最新的大模型 Claude3&#xff0c;并且一次性发布了三个模型&#xff0c;分别是 Claude 3 Haiku&#xff1a;&#xff08;日本俳句 &#xff09;Claude 3 Sonnet&#xff08;英文十四行诗&#xff09;Claude 3 Opus&#xff08;古典乐作品集…

HarmonyOS NEXT应用开发案例——滑动页面信息隐藏与组件位移效果

介绍 在很多应用中&#xff0c;向上滑动"我的"页面&#xff0c;页面顶部会有如下变化效果&#xff1a;一部分信息逐渐隐藏&#xff0c;另一部分信息逐渐显示&#xff0c;同时一些组件会进行缩放或者位置移动。向下滑动时则相反。 效果图预览 使用说明 向上滑动页面…