240627_关于CNN中图像维度变化问题

240627_关于CNN中图像维度变化问题

news2025/7/2 20:03:41

240627_关于CNN中图像维度变化问题

在学习一些经典模型时，其中得维度变化关系总搞不太明白，集中学习了以下，在此作以梳理总结：

一般来说涉及到的维度变换都是四个维度，当batch size=4，图像尺寸为640*640，RGB三通道时，此时维度就是4×3×640×640。3的意思是RGB三通道，如果你传入的图像是单通道图像，此时维度就是4×1×640×640。

当然有些图你看着是一个黑白图，但是他还是有可能是一张RGB三通道图，具体怎么区分呢。右击图片打开属性，打开详细信息，里面可以看到位深度，位深度为24，则为RGB图，位深度为8，则为单通道图。此处就是一个坑，图像分割任务中，标签往往是单通道图，但是有时从网上找到的数据集看起来是黑白的，但是实际训练就会报错，查看了才发现位深度是24，需要用python代码进行修改，具体跳转240627_图像24位深度（RGB图）转为8位深度（单通道图）-CSDN博客。

当维度是三维时，就是没有batch size这个维度，可以理解为这个维度指的是其中一张图。

标准卷积

以U_Net为例

在这里插入图片描述

# U_Net网络的简单结构，就写了一层，其他同理
block1=block_down(3,64)
x1_use=block1(x) # torch.Size([3, 64, 568, 568])
x1=self.maxpool(x1_use) # torch.Size([3, 64, 284, 284])

'''
block down中卷积核的定义为
self.conv1 = nn.Conv2d(inp_channel, out_channel, kernel_size=3, stride=1,padding_mode='reflect')
self.conv2 = nn.Conv2d(out_channel, out_channel, kernel_size=3, stride=1,padding_mode='reflect')
'''

卷积输出的计算公式为

$height_{out}=\frac{(height_{in}-height_{kernel}+2*padding)}{stride}+1$

$width_{out}=\frac{(width_{in}-width_{kernel}+2*padding)}{stride}+1$

输入3张572572的RGB图像（3×3×572×572），经过3×3卷积（padding=0,stride=1），此时的计算公式为
$height_{out}=width_{out}=\frac{(572-3+2*0)}{1}+1=570$
一共经过两层之后尺寸为568568，因为kernel的out_channel定义的是64，所以一共有64个卷积核，输出通道为64，此时维度为3×64×568×568。

然后经过最大池化层，尺寸除以2，通道数不变，此时维度为3×64×284×284

其余层数同理

	batch_size	height	width	in_channel	out_channel
Input	3	572	572	3
Kernel		3	3	3	64
Output	3	570	570		64

1×1卷积

以ResNet50为例

我们看shortcuts分支（右半弧线分支），这个分支输入一张维度为1×256×56×56的图像，经过一个1×1卷积（stride=2,padding=0），此时经过上述公式计算，尺寸为28，输出通道数为512。

	batch_size	height	width	in_channel	out_channel
Input	1	56	56	256
Kernel		1	1	256	512
Output	1	28	28		512

当然也有特殊情况，1×1卷积，卷积核尺寸为1，步长为1，padding=0，通过以上公式可以计算出来尺寸不会发生变化，但通道数可以发生改变，由卷积核数量决定。

全连接层

全连接层就是把所有的像素点都摊开，摊成尺寸为1×1，通道数好多好多，其卷积核尺寸和输入尺寸一致，输出通道数就是卷积核个数

	batch_size	height	width	in_channel	out_channel
Input	1	56	56	256
Kernel		56	56	256	512
Output	1	1	1		512

总结

输出通道数就是卷积核个数

卷积后尺寸计算公式就是

$height_{out}=\frac{(height_{in}-height_{kernel}+2*padding)}{stride}+1$

$width_{out}=\frac{(width_{in}-width_{kernel}+2*padding)}{stride}+1$

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1871773.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

正点原子 iwdg wwdg timr

正点原子 iwdg wwdg timr

这个iwdg 的超时时间的计算公式 ———————————————— wwdg 超时时间的计算公式 4096是stm32固定死的 wwdg的时钟频率是36mhz，因为apb1分频2得到wwdg的时钟频率，这个是stm32自己就这样做的看cubemx的时钟图也看得出来 iwdg和wwdg的区分 ti…

阅读更多...

[Java基础揉碎]反射

[Java基础揉碎]反射

目录引出反射机制编辑介绍反射机制编辑反射的优点和缺点 (反射调用优化 )编辑 Class类 class常用方法编辑编辑获取class类对象的不同方式哪些类型有class对象编辑类加载编辑类加载流程图类加载的五个阶段编辑通过反射获取类的结构信…

阅读更多...

合芯科技冯春阳博士受邀出席苏州大学技术分享会

合芯科技冯春阳博士受邀出席苏州大学技术分享会

近日，苏州大学电子信息学院与合芯科技苏州公司成功举办“新时代与‘芯’相遇，科技赋能向未来”的技术分享会。合芯科技冯春阳博士进行了主题为“高性能CPU关键技术与发展现状”的专题分享，并参加导师聘请仪式。苏州大学电子信息学院党委副书记…

阅读更多...

【ONLYOFFICE 8.1】的安装与使用——功能全面的 PDF 编辑器、幻灯片版式、优化电子表格的协作

【ONLYOFFICE 8.1】的安装与使用——功能全面的 PDF 编辑器、幻灯片版式、优化电子表格的协作

🔥 个人主页：空白诗文章目录一、引言二、ONLYOFFICE 简介三、安装1. Windows/Mac 安装2. 文档开发者版安装安装前准备使用 Docker 安装使用 Linux 发行版安装配置 ONLYOFFICE 文档开发者版集成和开发四、使用1. 功能全面的 PDF 编辑器PDF 查看和导航P…

阅读更多...

如何做好新闻软文宣发媒体资源筛选？

如何做好新闻软文宣发媒体资源筛选？

传媒如春雨，润物细无声，大家好，我是51媒体网胡老师。媒体宣传加速季，100万补贴享不停，一手媒体资源，全国100城线下落地执行。详情请联系胡老师。新闻软文宣发是指企业通过创造或利用新闻事件&#xff0c…

阅读更多...

使用systemd管理Linux下的frps服务：安装、配置及自动化操作指南

使用systemd管理Linux下的frps服务：安装、配置及自动化操作指南

在 Linux 系统下，使用 systemd 可以方便地控制 frps 服务端的启动、停止、配置后台运行以及开机自启动。以下是具体的操作步骤： 1. 安装 systemd 如果您的 Linux 服务器上尚未安装 systemd，可以使用包管理器如 yum（适用于 Cent…

阅读更多...

stm32 No traget connected/debug识别不到串口的问题

stm32 No traget connected/debug识别不到串口的问题

关于stm32串口识别不到，第一步先确定是否线接错（stlink与stm32接口对应），如果确认接线没有问题的话，可以使用以下方法，成功率较高。首先将stlink的boot0置1，就是把跳线帽换到高电平这一侧&…

阅读更多...

[数据集][目标检测]游泳者溺水检测数据集VOC+YOLO格式4599张2类别

[数据集][目标检测]游泳者溺水检测数据集VOC+YOLO格式4599张2类别

数据集格式：Pascal VOC格式YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)：4599 标注数量(xml文件个数)：4599 标注数量(txt文件个数)：4599 标注…

阅读更多...

编写一个基于其他系的linux系统并且把它打包为一个iso镜像思想

目录前面写的一篇文章前言 isolinux引导模式启动流程为什么要initramdisk操作而不直接加载文件系统编写系统的思想可能问题一般的iso镜像目前只支持最大4G的大小，需要怎么解决？ 如何去找驱动木木em哈哈想说的话（与本博文无光&…

阅读更多...

详细分析SpringBootTest中的测试类（附Demo）

详细分析SpringBootTest中的测试类（附Demo）

目录前言1. 基本知识2. Demo3. 实战3.1 项目测试3.2 功能测试前言书写测试类，一般只需要加入Test即可，但是结合Springboot项目来整体测试对应需要怎么下手详细的Java知识点推荐阅读：java框架零基础从入门到精通的学习路线附开源项目面…

阅读更多...

[CAN] 通讯协议手动解析与手动打包 [手撕编码格式]

[CAN] 通讯协议手动解析与手动打包 [手撕编码格式]

手动解析与手动打包一、Intel格式编码1.1 报文解析。1.2 报文打包二、Motorola格式通讯协议2.1 报文解析。2.2 报文打包🙋 前言 CAN有两种编码格式：Intel编码格式和 Motorola编码格式，本教程将分别对两种格式进行手动解析与手动打包。一、Intel格式编码假设已知雷达CAN…

阅读更多...

【C++题解】1721. 输出个位为5或者个位为8数

【C++题解】1721. 输出个位为5或者个位为8数

问题：1721. 输出个位为5或者个位为8数类型：简单循环题目描述： 请从小到大输出 1∼n 中所有个位为 5 或者个位为8 的所有的整数，每行 1 个。比如，假设 n20，那么满足条件的数输出如下： 5 8 1…

阅读更多...

【多线程】如何解决线程安全问题？

【多线程】如何解决线程安全问题？

🥰🥰🥰来都来了，不妨点个关注叭！ 👉博客主页：欢迎各位大佬!👈 文章目录 1. synchronized 关键字1.1 锁是什么1.2 如何加锁1.3 synchronized 修饰方法1) 修饰普通成员方法2) 修饰静态…

阅读更多...

Rust 程序设计语言学习——泛型、Trait和生命周期

Rust 程序设计语言学习——泛型、Trait和生命周期

每一种编程语言都有高效处理重复概念的工具。在 Rust 中其工具之一就是泛型。泛型是具体类型或其他属性的抽象替代。 Trait 定义了某个特定类型拥有可能与其他类型共享的功能。可以通过 Trait 以一种抽象的方式定义共同行为。可以使用 trait bounds 指定泛型是任何拥有特定行为…

阅读更多...

Java——IO流（一）-（8/8）：释放资源-try-catch-finally、try-catch-resource

Java——IO流（一）-（8/8）：释放资源-try-catch-finally、try-catch-resource

目录 try-catch-finally 介绍实例演示1 实例演示2 try-catch-resource 介绍实例演示 try-catch-finally 介绍普通的释放流的方法可能会因中间的异常或是其他原因，导致程序执行不到释放流的代码就结束了，会有资源浪费的风险，所以建…

阅读更多...

入门JavaWeb之 JavaBean 实体类

入门JavaWeb之 JavaBean 实体类

JavaBean 有特定写法： 1.必须有一个无参构造 2.属性必须私有 3.必须有对应的 get/set 方法一般用来和数据库的字段做映射 ORM：对象关系映射表->类字段->属性行记录->对象连接数据库没有的话去 Settings -> Plugins 搜索 Data…

阅读更多...

JavaScript--js基础(详细全面)

JavaScript--js基础(详细全面)

目录前言: JavaScript 是什么？JavaScript 简介 1.JavaScript历史 2.JavaScript 具有以下特点第一个JavaScript程序 1.在脚本文件中编写JavaScript代码 2.JavaScript代码执行顺序基本语法 1.变量 2.数据类型 3.算术运算符 4.赋值运算 5.字符串运算符 6…

阅读更多...

GoSync+华为智能穿戴使用指导

GoSync+华为智能穿戴使用指导

GoSync官方简介： GoSync 是一款免费应用程序，主要用于将您的可穿戴设备中的步行、跑步、骑自行车和游泳等活动数据同步到您的 Google Fit 和其他健身平台。在开始同步数据之前，您需要将您的可穿戴设备账户与您的健身平台账户连接起来。在创建…

阅读更多...

Modbus为何要转成EtherCAT

Modbus为何要转成EtherCAT

1. Modbus是什么？ Modbus是一种工业通信协议，广泛应用于工业自动化领域。它支持多种通信方式，包括RS-232、RS-485和TCP/IP等。Modbus协议简单易用，能够实现设备之间的数据交换和控制命令的传输。然而，它在数据传输速率…

阅读更多...

微软推出最新视觉基础模型Florence-2 可在浏览器运行

微软推出最新视觉基础模型Florence-2 可在浏览器运行

据微软官方消息，微软推出视觉基础模型Florence-2，该模型现已能够在支持WebGPU的浏览器中100%本地运行。Florence-2-base-ft是一个拥有2.3亿参数的视觉基础模型，采用基于提示的方法来处理广泛的视觉和视觉语言任务。该模型支持多种功能&…

阅读更多...

推荐文章

最新文章