【深度学习实验】卷积神经网络（三）：自定义二维卷积神经网络：步长和填充、输入输出通道

一、实验介绍

二、实验环境

1. 配置虚拟环境

2. 库版本介绍

三、实验内容

0. 导入必要的工具包

1. 步长、填充

a. 二维互相关运算（corr2d）

b. 二维卷积层类（Conv2D）

c. 模型测试

d. 代码整合

2. 输入输出通道

a. corr2d_multi_in

b. corr2d_multi_in_out

c. Conv2D

d. 模型测试

e. 代码整合

一、实验介绍

本实验实现了二维卷积神经网络的步长和填充、输入输出通道等功能。

二、实验环境

本系列实验使用了PyTorch深度学习框架，相关操作如下：

1. 配置虚拟环境

conda create -n DL python=3.7

conda activate DL

pip install torch==1.8.1+cu102 torchvision==0.9.1+cu102 torchaudio==0.8.1 -f https://download.pytorch.org/whl/torch_stable.html

conda install matplotlib

 conda install scikit-learn

2. 库版本介绍

软件包	本实验版本	目前最新版
matplotlib	3.5.3	3.8.0
numpy	1.21.6	1.26.0
python	3.7.16
scikit-learn	0.22.1	1.3.0
torch	1.8.1+cu102	2.0.1
torchaudio	0.8.1	2.0.2
torchvision	0.9.1+cu102	0.15.2

三、实验内容

ChatGPT：

        卷积神经网络（Convolutional Neural Network，简称CNN）是一种深度学习模型，广泛应用于图像识别、计算机视觉和模式识别等领域。它的设计灵感来自于生物学中视觉皮层的工作原理。

        卷积神经网络通过多个卷积层、池化层和全连接层组成。

卷积层主要用于提取图像的局部特征，通过卷积操作和激活函数的处理，可以学习到图像的特征表示。
池化层则用于降低特征图的维度，减少参数数量，同时保留主要的特征信息。
全连接层则用于将提取到的特征映射到不同类别的概率上，进行分类或回归任务。

        卷积神经网络在图像处理方面具有很强的优势，它能够自动学习到具有层次结构的特征表示，并且对平移、缩放和旋转等图像变换具有一定的不变性。这些特点使得卷积神经网络成为图像分类、目标检测、语义分割等任务的首选模型。除了图像处理，卷积神经网络也可以应用于其他领域，如自然语言处理和时间序列分析。通过将文本或时间序列数据转换成二维形式，可以利用卷积神经网络进行相关任务的处理。

0. 导入必要的工具包

import torch
from torch import nn
import torch.nn.functional as F

1. 步长、填充

承接上文：

【深度学习实验】卷积神经网络（二）：自定义简单的二维卷积神经网络_QomolangmaH的博客-CSDN博客https://blog.csdn.net/m0_63834988/article/details/133278280?spm=1001.2014.3001.5501

卷积算子增加步长和零填充
改进了互相关函数 corr2d，
改进了卷积算子 Conv2D，
在 forward 方法中，对输入 x 进行了填充操作，通过在输入的边缘周围添加零值像素来处理填充。这样做可以确保卷积核在输入的边缘位置也能进行有效的卷积操作，从而保持输出尺寸与输入尺寸的一致性。
在使用 Conv2D 类创建对象时，可以通过传递不同的参数来对步长和填充进行灵活的设置。这样可以根据具体任务的需求来调整卷积操作的步长和填充方式，以获得更好的性能和适应性。

a. 二维互相关运算（corr2d）

修改为：

def corr2d(X, K, s): 
    h, w = K.shape
    Y = torch.zeros(((X.shape[0] - h + 1)//s , (X.shape[1] - w + 1)//s))
    for i in range(Y.shape[0]):
        for j in range(Y.shape[1]):
            Y[i, j] = (X[i*s:i*s + h, j*s:j*s + w] * K).sum()
    return Y

添加了一个步长参数 s。通过指定步长，可以控制卷积操作在输入上的滑动步长，从而实现对输出大小的调整。在原始代码中，步长相当于固定为1，而修改后的代码可以通过调整 s 的值来改变步长。