针对低分辨率或小目标的卷积-SPDConv

news2024/11/24 19:04:40

针对低分辨率或小目标的卷积-SPDConv

  • 摘要
  • 引言
  • A New Building Block:SPD-Conv
  • 附录
    • 代码:

摘要

卷积神经网络在许多计算机视觉任务中取得了巨大成功。然而,在图像低分辨率目标较小任务上,他们的性能迅速下降。在本文中,我们指出,这根源于现有CNN架构中存在的一个有缺陷但常见的设计,即使用strided convolution和/或pooling layers,这导致细粒度信息的丢失和不够有效的特征表示的学习。为此,我们提出了一个新的CNN构建快, 称为SPD-Conv,取代每个strided convolution层和每个pool层(因为完全消除他们)。SPD-Conv由一个space-to-depth(SPD)层和一个non-strided convolution层组成,可以应用于大多数CNN架构。我们将这种新设计解释为两个最具代表性的计算机视觉任务:目标检测和图像分类,然后,我们通过将SPD-Conv应用于YOLOv5和ResNet创建了新的CNN架构。
代码地址: https://github.com/LabSAINT/SPD-Conv

引言

自从AlexNet提出以来,卷积神经网络在许多计算机视觉任务中表现出色。然而,所有这些CNN模型在训练和推断中都需要高质量的输入,例如:AlexNet最初是在227 X 227的清晰图片上进行训练和评估的,但是将图像分辨率降低为1/4和1/8后,其分类的准确性分别下降了14%和30%,类似也使用于VGG和ResNet,在目标检测的情况下,小目标检测是一项非常具有挑战性的任务,因为较小的目标本身分辨率较低,并且对于模型学习而言,上下文信息也受限制。此外,他们通常于同一图像中的大对象共存,大对象往往也在特征学习过程中占主导地位,从而使得小对象无法被检测到。
本文认为,现有CNN中存在的一个缺陷但常见的设计导致了性能下降,即,在CNN架构的早期层使用步幅卷积或池化,这种设计的不利影响通常不会表现出来,因为大多数研究的情况都是友好的,图像具有良好的分辨率,对象的大小适中。因此,存在着大量的冗余像素信息可以被卷积或者池化方便的跳过,模型仍然可以学习到良好的特征。然而,在更困难的任务中,当图像模糊或对象较小时,冗余信息的奢侈假设不在成立,当前的设计开始遭受详细信息和学习特征不足的损失。
为了解决这一问题,我们提出了一种CNN的新构建快,称为SPD-Conv 完全替代了下采样和池化。SPD-Conv是一个空间到深度层,仅跟随一个非步幅卷积层。SPD层对特征图X进行将采样,当保留了通道维度中的所有信息,因此没有信息损失,我们受到了图像转换技术的启发,该技术在将原始图像馈送到神经网络之前对其进行重新缩放,但我们将其广泛推广到网络内部和整个网络中的特征图的将采样,此外,我们在每个SPD之后添加了一卷积操作,使用科学系的参数减少通道数量,我们提出的方法即通用又统一,即SPD可以应用于大多数CNN架构,并且以相同的方式替代了步幅卷积和池化。
在这里插入图片描述

A New Building Block:SPD-Conv

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
论文地址:https://arxiv.org/pdf/2208.03641v1.pdf
在这里插入图片描述

附录

代码:

# SPD-Conv
import torch
import torch.nn as nn
class Spd(nn.Module):
    def __init__(self,dimension=1):
        super().__init__()
        self.d = dimension
    def forward(self,x):
        return torch.cat([x[...,::2,::2],x[...,1::2,::2],x[...,::2,1::2],x[...,1::2,1::2]],1)
data = torch.zeros(3,64,640,640)
con = Spd()
con(data).shape

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/882156.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Springboot 实践(3)配置DataSource及创建数据库

前文讲述了利用MyEclipse2019开发工具,创建maven工程、加载springboot、swagger-ui功能。本文讲述创建数据库,为项目配置数据源,实现数据的增删改查服务,并通过swagger-ui界面举例调试服务控制器 创建数据库 项目使用MySQL 8.0.…

dataframe resample时间重采样的坑

无论日期列不在index,index一定要按顺序,否则结果会和实际不一致。reset_index

WebDAV之π-Disk·派盘 + 厚墨

厚墨是目前网络上非常方便的一款电子阅读软件,采用独家数据采集分析技术,汇合了移动互联网各种资源网站大数据,能同步起点中文网、纵横中文网、逐浪小说网、言情小说吧、晋江文学城、百度阅读、网易云阅读、塔读文学、创世中文网、潇湘书院、飞卢小说和腾讯文学等等小说更新…

Java培训出来的怎么样?看到就是赚到

近些年来,Java作为一门招聘市场上热门的技能之一,越来越受到人们的重视,也因此越来越多的人选择通过Java培训来提高自己技能水平。那么,Java培训出来的怎么样呢?接下来,小编将从学习体验、就业前景等方面进行分析。 1…

Electron基础篇

人生有些事,错过一时,就错过一世。 官网:简介 | Electron Electron-大多用来写桌面端软件 Electron介绍 Electront的核心组成是Chromium、Node.js以及内置的Native API,其中Chromium为Electron提供强大的UI能力,可以在不考虑兼容的情况下利…

如何仅用几分钟就能破解8个字符长的密码?

安全专家一直建议我们创建复杂的强密码,以保护我们的在线账户和数据免受狡猾的网络犯罪分子的攻击。“复杂”通常意味着使用大小写字母、数字,甚至特殊符号。但是据安全公司Hive Systems的研究显示,如果密码所含的字符不够多,密码…

解读2023年上半年财报:营收净利双增长,珀莱雅离高端还有多远?

夏季炎热,防晒类产品的销量暴涨。根据千牛数据,防晒衣今年5月全网搜索人数同比增长15%,加购人数同比增长29.8%,访问人数同比增加42%。消费者狂热的防晒需求,孕育着巨大的商机,许多企业开始瞄准这一机会。而…

python命令行参数argparse的简单使用

1、终端中执行脚本程序 pycharm的终端中执行 python xxx.py命令行中执行程序 2、获取命令行输入的参数 import sysprint(sys.argv) 3.专门处理命令行的library:argparse 添加optional arguments参数:默认是可选的,意味着可以不用填写 p…

08 - 追加commit和修改最新的commit message

查看所有文章链接:(更新中)GIT常用场景- 目录 文章目录 1. 追加提交2. 修改最新的commit message 1. 追加提交 将改动追加到上一次的commit 现在我已经修改了Readme文件并且已经add、commit操作,但是还没有push到远程仓库&#x…

ubuntu安装jdk、emqx、nginx

一、安装jdk 要在Ubuntu上安装JDK 1.8,您可以按照以下步骤进行操作: 打开终端(CtrlAltT)。确保您的系统已更新: sudo apt update sudo apt upgrade安装OpenJDK 8: sudo apt install openjdk-8-jdk安装完成…

【CTFshow】——PWN签到题

文章目录 一【题目环境】二【题目类别】三【题目编号】四【题目描述】五【解题思路】六【解题过程】七【提交结果】 一【题目环境】 名称版本Ubuntu系统22.04.1 LTSLinux内核5.15.0-43-generic 二【题目类别】 此题无特殊类别,为入门题 三【题目编号】 PWN签到…

AI作文 - 文案创作工具

现在的AI工具越来越厉害,于是我也探索了一番,确实牛,下面是我探索的一些关于文案创作的功能, 诗词创作 视频脚本创作 歌词创作 剧本创作 文本续写 文本扩写 文本改写 撰写发言稿 心得体会 撰写演讲稿 撰写获奖感言 撰写招标书 撰…

cesium学习记录08-鼠标绘制多边形

上一篇学习了实体的一些基础知识,这一篇来学习鼠标绘制实体多边形的实现 1,结果显示 贴地: 不贴地: 2,方法全部代码: 主方法: /*** 绘制多边形* param {Object} option* param {Boolean} op…

数据库概述、部署MySQL服务、必备命令、密码管理、安装图形软件、SELECT语法 、筛选条件

Top NSD DBA DAY01 案例1:构建MySQL服务器案例2:密码管理案例3:安装图形软件案例4:筛选条件 1 案例1:构建MySQL服务器 1.1 问题 在IP地址192.168.88.50主机和192.168.88.51主机上部署mysql服务练习必备命令的使用 …

epoll数据结构

目录 1.大量的fd 集合。选择什么数据结构?2、Epoll 数据结构Epitem 的定义Eventpoll 的定义 1.大量的fd 集合。选择什么数据结构? 查找频率很高的数据结构 1.红黑树 2.哈希(扩容缩容) 3. b/btree (降低树的高度&#…

D. Problem with Random Tests

Problem - 1743D - Codeforces 思路:因为是或,所以答案一定会比原串更大,并且为了保留更多的1,我们可以选择原串作为其中一个串,另一个串则要找到第一个为0的位置,我们希望让这个为1,为了让这个…

汇编语言--操作系统入门

计算机真正能够理解的是低级语言,它专门用来控制硬件。汇编语言就是低级语言,直接描述/控制 CPU 的运行。如果你想了解 CPU 到底干了些什么,以及代码的运行步骤,就一定要学习汇编语言。 CPU 只负责计算,本身不具备智能。你输入一条指令(instruction),它就运行一次,然后…

仓库库存管理难点在哪?有哪些仓库库存管理软件?

仓库库存管理常见的难点有:库存数据混乱、库存成本较高、库存积压严重等问题 使用仓库管理软件,企业可以更好地管理库存、优化供应链、提高操作效率,并基于准确的数据进行决策和规划,从而解决许多仓库库存管理中的难题。 一、仓库…

微信开发之一键修改好友备注的技术实现

简要描述: 修改好友备注 请求URL: http://域名地址/modifyRemark 请求方式: POST 请求头Headers: Content-Type:application/jsonAuthorization:login接口返回 参数: 参数名必选类型说…

【server组件】——mysql连接池的实现原理

目录 1.池化技术 2.数据库连接池的定义 3.为什么要使用连接池 4. 数据库连接池的运行机制 5. 连接池与线程池的关系 6. CResultSet的设计 6.1构造函数 7. CDBConn的设计 6.1.构造函数 6.2.init——初始化连接 8.数据库连接池的设计要点 9.接口设计 9.1 构造函数 …