卷积神经网络各层介绍

news2024/11/23 12:49:02

目录

1 卷积层

2 BN层

3 激活层

3.1 ReLU(Rectified Linear Unit)

3.2 sigmoid

3.3 tanh(双曲正切)

3.4 Softmax

4 池化层

5 全连接层

6 模型例子


1 卷积层

        卷积是使用一个卷积核(滤波器)对矩阵进行内积(相乘后求和)的操作,通过该操作可以获得输入矩阵(图片)的重要信息,在此基础上,更深层次的卷积操作会获得更重要的特征信息。

一个 padding = 1, stride = 2,kernel size = 3 的单通道卷积过程示意图如下:

torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True, padding_mode='zeros')

参数:

  • in_channels (int): 输入通道数,即输入图像的深度。例如,对于 RGB 图像,这个值通常为 3。
  • out_channels (int): 输出通道数,即卷积核的数量。每个卷积核会提取一个特征图。
  • kernel_size (int 或 tuple): 卷积核的大小。如果是正方形,可以只用一个整数表示,例如 3 表示 3x3 的卷积核。
  • stride (int 或 tuple, 可选): 卷积操作的步长,默认为 1。
  • padding (int 或 tuple, 可选): 输入的每一边要填充的像素数量,默认为 0。
  • dilation (空洞卷积,int 或 tuple, 可选): 卷积核元素之间的间距,默认为 1。
  • groups (分组卷积,int, 可选): 控制输入和输出之间的连接方式,默认为 1。groups 值大于 1 时,相当于对输入进行组卷积。
  • bias (bool, 可选): 如果 True,添加一个学习偏置,默认为 True。
  • padding_mode (str, 可选): 填充模式,可以是 'zeros'(默认,零填充)、'reflect'(反射填充,矩阵边缘为对称轴)、'replicate'(复制矩阵边缘的值) 或 'circular'。

卷积操作输出图片大小的计算公式:

多通道输入

输入图片是多通道的,则卷积核对应也是多通道(多维)的,之后对卷积结果进行求和得到一个二维矩阵

参考文档

卷积操作原理解析与nn.Conv2d用法详解icon-default.png?t=O83Ahttps://blog.csdn.net/sazass/article/details/116790155

PyTorch Conv2d中的四种填充模式解析icon-default.png?t=O83Ahttps://www.jianshu.com/p/a6da4ad8e8e7

2 BN层

BN层的作用

  • 加快网络的训练和收敛的速度
  • 控制梯度爆炸防止梯度消失
  • 防止过拟合(存在争议)

注:BN层一般接在线性层和卷积层后面

torch.nn.BatchNorm2d(num_features, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  • num_features: 整数,表示输入特征的数量,即输入通道数。例如,对于一个三通道的RGB图像,num_features 应该设置为3。对于卷积层的输出,这个值通常是卷积核的数量。
  • eps: 浮点数,一个非常小的值,用于数值稳定性。默认值为1e-5。在计算方差时,会加上这个值以避免除以零的情况。
  • momentum: 浮点数,动量因子,用于更新运行均值和方差。默认值为0.1。动量可以帮助稳定均值和方差的估计,特别是在小批量数据的情况下。
  • affine: 布尔值,是否使用可学习的仿射变换参数。如果设置为 True(默认值),则会学习缩放和平移参数。如果设置为 False,则不使用这些参数,仅进行标准化处理。

参考文档

神经网络中BN层的原理与作用icon-default.png?t=O83Ahttps://blog.csdn.net/weixin_42080490/article/details/108849715

BN(Batch Normalization)层原理与作用icon-default.png?t=O83Ahttps://blog.csdn.net/chaipp0607/article/details/112853861

3 激活层

        为什么要用激活函数?激活函数给神经元引入了非线性因素,使得神经网络可以任意逼近任何非线性函数,这样神经网络就可以应用到众多的非线性模型中。

下图是使用sigmoid激活函数去逼近一个非线性函数

下图中不同的参数c、b、w构成的sigmoid函数(这里就这样表述吧)也不同

如下图所示,不同的sigmoid函数(蓝色显示)可以构成一个新的sigmoid函数(红色显示)

下图x是输入,y是输出,函数是我们训练的模型,其它的是训练得到的参数

3.1 ReLU(Rectified Linear Unit)

  • 公式:
  • 优点:
    • 计算简单,梯度下降时计算效率高。
    • 在正域内不会产生梯度消失问题。
  • 缺点:
    • 负域内的梯度为0,可能导致“神经元死亡”现象。
    • 不是以0为中心的输出。

3.2 sigmoid

  • 公式
  • 优点:
    • 求导容易,输出范围在0到1之间,可以作为概率解释。
  • 缺点:
    • 容易产生梯度消失问题。
    • 计算复杂度较高。

3.3 tanh(双曲正切)

  • 公式
  • 优点:
    • 输出范围在-1到1之间,适合作为初始化权重。
  • 缺点:
    • 同样容易产生梯度消失问题。
    • 计算复杂度比sigmoid高。

3.4 Softmax

公式:

  • 优点:
    • 概率解释性:Softmax函数将输入向量转换为一个概率分布,其中每个元素的值都在0到1之间,且所有元素的总和为1。这种特性使得Softmax函数在多分类问题中特别有用,因为可以直接将输出解释为属于各个类别的概率。
    • 非负性:Softmax函数的输出值介于0和1之间,确保了概率的非负性。
  • 缺点:
    • 易造成梯度消失:当输入值非常大或非常小时,Softmax函数的梯度可能会变得非常小,导致梯度消失问题。这会影响神经网络的训练效果,使得网络难以学习到有效的特征。
    • 幂运算复杂:Softmax函数涉及指数运算,这会增加训练时间。
    • 输出非零均值:Softmax函数的输出是非零均值的,这可能会导致后续层的神经元接收到的输入也是非零均值的,从而影响神经网络的收敛速度。

参考文档

激活函数 - 维基百科,自由的百科全书icon-default.png?t=O83Ahttps://zh.wikipedia.org/wiki/%E6%BF%80%E6%B4%BB%E5%87%BD%E6%95%B0盘点当前最流行的激活函数及选择经验icon-default.png?t=O83Ahttp://giantpandacv.com/academic/%E7%AE%97%E6%B3%95%E7%A7%91%E6%99%AE/%E7%BB%BC%E8%BF%B0%E7%B1%BB/%E7%9B%98%E7%82%B9%E5%BD%93%E5%89%8D%E6%9C%80%E6%B5%81%E8%A1%8C%E7%9A%84%E6%BF%80%E6%B4%BB%E5%87%BD%E6%95%B0%E5%8F%8A%E9%80%89%E6%8B%A9%E7%BB%8F%E9%AA%8C/

4 池化层

        人类用眼睛识别物体时不是把眼睛所看到的所有信息全部传递入大脑进行处理,而是有重点的选择部分信息进行处理。池化操作也是类似。池化可以缩减模型的大小,减少冗余的信息,提高神经网络运算效率并防止过拟合,常用的池化有最大池化、平均池化。

        池化层的具体操作与卷积层类似,都是利用一个窗口在图像上滑动,它的参数包括 filter size (n) ,stride (s) 和跳跃步长 (s)。一般情况下设置 n=s,即每( n×n )个像素提取一个像素,这样图像尺寸为原先的 1/n。

最大池化,选择某个矩阵中的最大值;平均池化,取矩阵中所有值的平均值

参考文档

卷积神经网络中的池化(Pooling)层icon-default.png?t=O83Ahttps://0809zheng.github.io/2021/07/02/pool.html

5 全连接层

        全连接层(fully connected layers,FC)是神经网络的一种基本层类型,通常位于网络的最后几层,用于分类任务的输出层。在全连接层中,输入向量通过一个权重矩阵进行线性变换,然后加上一个偏置项,最后通过激活函数(如ReLU、Sigmoid、Tanh等)进行非线性变换。通常会将全连接层的维度设为类别数量或通过Softmax函数输出每个类别的概率分布(有时全连接层不需要加入激活函数,如使用CrossEntropyLoss损失函数计算损失时会用到Softmax激活函数),从而实现对输入数据的分类。另一种说法是,全连接可以是卷积核大小为输入特征大小的卷积运算,卷积的结果为一个节点,对应全连接层的一个点。如输入特征是3x3x5,那么需要一个3x3x5的卷积核进行运算,得到一个数值,对应全连接的一个神经元。

我们现在的任务是区别下面的这张图片是不是猫

假设猫有以下几个特征

红色的神经元表示这些被找到了(激活了),然后通过全连接将这些特征拼接起来,即卷积获取的是局部特征,全连接就是把这些局部特征连接起来。

参考文档

CNN 入门讲解:什么是全连接层(Fully Connected Layer)?icon-default.png?t=O83Ahttps://zhuanlan.zhihu.com/p/33841176

6 模型例子

import torch.nn


class Net(torch.nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = torch.nn.Sequential(
            # 5x5卷积核
            torch.nn.Conv2d(1, 10, kernel_size=5),
            # 激活函数
            torch.nn.ReLU(),
            # 最大池化
            torch.nn.MaxPool2d(kernel_size=2),
        )
        self.conv2 = torch.nn.Sequential(
            torch.nn.Conv2d(10, 20, kernel_size=5),
            torch.nn.ReLU(),
            torch.nn.MaxPool2d(kernel_size=2),
        )
        self.fc = torch.nn.Sequential(
            #输入320,输出50的线性层
            torch.nn.Linear(320, 50),
            torch.nn.Linear(50, 10)
            # 未加入激活函数,计算损失时,CrossEntropyLoss损失函数会用到Softmax激活函数
        )

    def forward(self, x):
        batch_size = x.size(0)
        x = self.conv1(x)  # 一层卷积层,一层池化层,一层激活层(图是先卷积后激活再池化,差别不大)
        x = self.conv2(x)  # 再来一次
        x = x.view(batch_size, -1)  # flatten 变成全连接网络需要的输入 (batch, 20,4,4) ==> (batch,320), -1 此处自动算出的是320
        x = self.fc(x)
        return x  # 最后输出的是维度为10的,也就是(对应数学符号的0~9)

比如输入一个手写数字“5”的图像,它的维度为(batch,1,28,28)即单通道高宽分别为28像素。

  • 首先通过一个卷积核为5×5的卷积层,其通道数从1变为10,高宽分别为24像素;
  • 然后通过一个卷积核为2×2的最大池化层,通道数不变,高宽变为一半,即维度变成(batch,10,12,12);
  • 然后再通过一个卷积核为5×5的卷积层,其通道数从10变为20,高宽分别为8像素;
  • 再通过一个卷积核为2×2的最大池化层,通道数不变,高宽变为一半,即维度变成(batch,20,4,4);
  • 之后将其view展平,使其维度变为320(20*4*4)之后进入全连接层,用线性函数将其输出为10类,即“0-9”10个数字。

参考文档

用PyTorch实现MNIST手写数字识别(最新,非常详细)icon-default.png?t=O83Ahttps://blog.csdn.net/qq_45588019/article/details/120935828

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2246008.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LVS

一、 lvs简介 LVS:Linux Virtual Server ,负载调度器,内核集成,章文嵩,阿里的四层 SLB(Server LoadBalance) 是基 于 LVSkeepalived 实现 LVS 官网 : http://www.linuxvirtualserver.org/ LVS 相关术语 VS: Virtual Serve…

使用 Elastic AI Assistant for Search 和 Azure OpenAI 实现从 0 到 60 的转变

作者:来自 Elastic Greg Crist Elasticsearch 推出了一项新功能:Elastic AI Assistant for Search。你可以将其视为 Elasticsearch 和 Kibana 开发人员的内置指南,旨在回答问题、引导你了解功能并让你的生活更轻松。在 Microsoft AI Services…

掺铒光纤激光器

一、光纤激光器的特点 实现灵活的激光光源(窄线宽、可调谐、多波长、超短光脉冲源)易获得高功率、高的光脉冲能量激光波长与光纤通信传输窗口相匹配采用激光器泵浦形式(半导体激光器泵浦)热稳定性、价格低廉、易小型化 二、放大…

AP+AC组网——STA接入

扫描 主动扫描:STA发送Probe Request帧,AP收到回复Probe Response 可以带着SSID扫描寻找指定WIFI,也可以带着空SSID扫描进入周围可用WLAN 被动扫描: 客户端通过侦听AP定期发送的Beacon帧(100TUs,1TU1024…

基于 ESP-AT (v3.x)固件通过 AT+SYSMFG 指令更新证书设置

AT 固件里的证书文件通过 mfg_nvs.csv 文件管理,所有证书都是写入 mfg_nvs 分区。可以先查看 mfg_nvs.csv 文件的内容来确定有哪些证书文件被管理,如下: 通过 AT 指令更新证书的方式如下: // 获取证书类型 ATSYSMFG?/…

投资策略规划最优决策分析

目录 一、投资策略规划问题详细 二、存在最优投资策略:每年都将所有钱投入到单一投资产品中 (一)状态转移方程 (二)初始条件与最优策略 (三)证明最优策略总是将所有钱投入到单一投资产品中…

android 性能分析工具(03)Android Studio Profiler及常见性能图表解读

说明:主要解读Android Studio Profiler 和 常见性能图表。 Android Studio的Profiler工具是一套功能强大的性能分析工具集,它可以帮助开发者实时监控和分析应用的性能,包括CPU使用率、内存使用、网络活动和能耗等多个方面。以下是对Android …

(UI自动化测试)web自动化测试

web自动化测试 UI自动化测试介绍 自动化测试理论: 图片上的文字等等不能做测试,只能发现固定的bug 工具选择及介绍 浏览器驱动:找元素--核心:驱动(操作元素)--通过代码

Web3与智能合约:区块链技术下的数字信任体系

随着互联网的不断发展,Web3代表着我们迈入了一个去中心化、更加安全和智能的网络时代。作为Web3的核心组成部分,区块链技术为智能合约的出现和发展提供了强有力的基础。智能合约不仅仅是自动化的代码,它们正逐步成为重塑数字世界信任体系的关…

AUTOSAR_EXP_ARAComAPI的7章笔记(6)

☞返回总目录 相关总结:ara::com 与 AUTOSAR 元模型的关系总结 7.4 ara::com 与 AUTOSAR 元模型的关系 在本文档中,我们一直在不涉及具体的AP元模型(其清单部分)的情况下解释 ara::com API的思想和机制,AP元模型是正…

浦语提示词工程实践(LangGPT版,服务器上部署internlm2-chat-1_8b,踩坑很多才完成的详细教程,)

首先,在InternStudio平台上创建开发机。 创建成功后点击进入开发机打开WebIDE。进入后在WebIDE的左上角有三个logo,依次表示JupyterLab、Terminal和Code Server,我们使用Terminal就行。(JupyterLab可以直接看文件夹)…

webgl threejs 云渲染(服务器渲染、后端渲染)解决方案

云渲染和流式传输共享三维模型场景 1、本地无需高端GPU设备即可提供三维项目渲染 云渲染和云流化媒体都可以让3D模型共享变得简单便捷。配备强大GPU的远程服务器早就可以处理密集的处理工作,而专有应用程序,用户也可以从任何个人设备查看全保真模型并与…

统信桌面操作系统V20专业版安装指南

1.概述 统信桌面操作系统安装器用于完成系统安装的任务,本手册会介绍统信UOS的安装环境、配置要求、安装方法,以及系统初始化设置,希望用户根据本文档可以快速高效的完成系统安装。 1.1安装配置要求 您安装系统前需了解安装统信桌面操作系…

16. 指针类型和步长概念问题

1. 项目场景: ➣ Jack Qiao对米粒说:“今天有道友遇到一个问题,举个栗子数组 arr[5] { 0 };道友发现&arr[0] 1与&arr 1打印出来的地址竟然不同。”米粒测试后果然是这样。 2. 问题描述 ☑ 举个栗子:数组 arr[5] { 0…

设计模式-创建型-抽象工厂模式

1.概念 工厂方法模式只能生产一个产品系列,抽象工厂可以生产多个产品系列 2.作用 多个具体产品组成一个产品族(产品系列),一个具体工厂负责生产一个产品族 3.应用场景 系统所需产品间由依赖关系,可以划分为同一产…

20241121 android中树结构列表(使用recyclerView实现)

1、adapter-item的布局 <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android"android:layout_width"match_parent"android:layout_height"wrap_content&…

Kubernetes的pod控制器

文章目录 一&#xff0c;什么是pod控制器二&#xff0c;pod控制器类型&#xff08;重点&#xff09;1.ReplicaSet2.Deployment3.DaemonSet4.StatefulSet5.Job6.Cronjob 三&#xff0c;pod与控制器的关系1.Deployment2.SatefulSet2.1StatefulSet组成2.2headless的由来2.3有状态服…

网口输出的加速度传感器

一、功能概述 1.1 设备简介 本模块为了对电机、风机、水泵等旋转设备进行预测性运维而开发&#xff0c;只需一个模块&#xff0c; 就可以采集旋转设备的 3 路振动信号&#xff08;XYZ 轴&#xff09;和一路温度信号&#xff0c;防护等级 IP67 &#xff0c;能够 适应恶劣的工业…

RocketMQ: 部署结构与存储特点

RocketMQ 是什么 它是一个队列模型的消息中间件&#xff0c;具有高性能、高可靠、高实时、分布式特点 Producer、Consumer、队列都可以分布式Producer 向一些队列轮流发送消息 队列集合称为 TopicConsumer 如果做广播消费则一个 consumer 实例消费这个 Topic 对应的所有队列如果…

【Python系列】浅析 Python 中的字典更新与应用场景

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…