新一代大核卷积反超ViT和ConvNet!同参数量下性能、精度、速度完胜

news2024/11/29 3:47:36

大核卷积网络是CNN的一种变体,也是深度学习领域的一种重要技术,它使用较大的卷积核来处理图像数据,以提高模型对视觉信息的理解和处理能力。

这种类型的网络能够捕捉到更多的空间信息,因为它的大步长和大感受野可以一次性覆盖图像的更多区域。比如美团提出的PeLK网络,内核大小可以达到101x101,同参数量下性能反超 ViT,目前已被CVPR 2024收录。

更值得一提的,大核卷积网络不仅在性能上有所提升,在ImageNet分类等任务上,也展现出了优于ViT和ConvNet架构的效果。比如腾讯+港中文提出的UniRepLKNet,只用ImageNet-22K预训练,精度和速度SOTA,ImageNet达到88%。

当然效果惊人的成果远不止这些,我这次挑选了10个大核卷积网络最新创新方案,开源的项目代码都有,供有论文需求的同学参考学习。

论文原文以及开源代码需要的同学看文末

PeLK: Parameter-efficient Large Kernel ConvNets with Peripheral Convolution

方法:论文提出了外围卷积,通过参数共享有效减少了密集网格卷积 90% 以上的参数数量,并设法将内核尺寸扩大到极大。在此基础上,作者提出了参数高效的大核网络(PeLK)。

创新点:

  • 密集网格卷积(Dense Grid Convolution)相较于条纹卷积(Stripe Convolution)具有持续的优势,无论是在多种核大小下还是在不同的任务中,密集网格卷积都能够表现出更好的性能。

  • 引入人类外周视觉机制(Peripheral Vision)的概念来提高大核卷积网络的参数效率,通过参数共享有效地减少了密集网格卷积的参数数量,并且能够将卷积的复杂性从O(K^2)降低到O(log K)。

UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio, Video, Point Cloud, Time-Series and Image Recognition

方法:论文探索了大卷积核的卷积神经网络(ConvNet)的架构设计和在多模态领域的通用感知能力,填补了现有大卷积核ConvNet的架构设计不足和在非视觉领域的应用研究空白,通过提出四个架构准则设计了UniRepLKNet,并在图像识别、时间序列预测和音频识别等任务上取得了领先的性能,验证了大卷积核的重要性和ConvNet的通用感知能力。

创新点:

  • 大核ConvNet架构设计:
    • 提出了四个关于大核ConvNet设计的指导原则,其中核心原则是利用大核与小核的本质区别,即大核可以在不加深网络的情况下实现更广阔的感受野。

    • 根据这些指导原则,提出的大核ConvNet在图像识别任务中取得了领先的性能,相比于其他强大的竞争模型,具有更好的性能和更高的速度。

  • 大核ConvNet在多模态领域的普适感知能力:
    • 发现大核ConvNet在原本不擅长的领域具有出色的性能表现。通过特定的模态相关预处理方法,该模型在时间序列预测和音频识别任务上实现了业界领先的性能,即使没有进行模态特定的架构定制化。

    • 证明了大核ConvNet在多模态任务中的卓越性能,为ConvNet在新领域的应用开辟了新的可能性。

LSKNet: Large Selective Kernel Network for Remote Sensing Object Detection

方法:论文主要介绍了一种用于遥感目标检测的新方法,即大型选择性核网络(LSKNet)。LSKNet的整体架构基于最近流行的结构,并使用了重复的构建块。作者通过定义Rc作为期望选择RF区域与GT边界框区域的比例来研究每个目标类别的感受野范围。

创新点:

  • 作者首次尝试将大核卷积应用于遥感目标检测,并研究了其在这一领域的重要性。通过将大核卷积分解为两个深度卷积核,作者提出了一种适用于遥感的LSKNet架构,能够充分利用遥感图像的特点,实现对不同对象类型的广泛和可适应的上下文理解。

  • 作者提出了一种空间选择机制,用于在不同尺度上从大卷积核中选择特征图。通过通道平均池化和通道最大池化,作者有效地提取了特征之间的空间关系,并使用卷积层将池化特征转换为空间注意力图。然后,通过相应的空间选择掩码,对分解的大核卷积特征进行加权并融合,以获得最终的关注特征。

Shift-ConvNets: Small Convolutional Kernel with Large Kernel Effects

方法:论文提出了一种新的操作符,通过正则卷积实现大卷积核效果,从而在广泛的设备范围内实现了CNN的最新进展。论文还提出了一种新的剪枝操作,通过粗粒度剪枝实现了稀疏组卷积。同时,论文还提出了一种基于偏移操作的算子来改进卷积操作,并将其应用于改进的模块结构中。

创新点:

  • 通过使用shift-wise操作,作者实现了使用标准卷积进行大卷积核效果,并通过剪枝得到了稀疏组卷积。这一方法能够将大卷积核的效果与标准CNN的先进性结合起来,拓展了CNN的应用领域。

  • 作者提出了一种新的shift-wise操作方法,通过将输入特征进行分组和位移,模拟多个卷积核尺寸,从而创建多个输出分支。然后,将这些输出分支合并为一个单一的分支。这种方法能够在保持整体网络结构不变的同时,不断优化数据流形的依赖关系。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“大核卷积”获取全部论文+代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1825125.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ORB算法特征提取

声明:学习过程中的知识总结,欢迎批评指正。 ORB算法提取两路输入图像(图像A,图像B)的特征点,根据提取的特征点进行特征匹配得到特征对。 ​ 图像金字塔 因为在现实世界中,同一个物体可能会以…

leetcode-09-[232]用栈实现队列[225]用队列实现栈[20]有效的括号[1047]删除字符串中的所有相邻重复项

重点: 栈和队列 Java中 栈不建议用stack来实现 建议用 ArrayDeque和Linkedlist来实现 队列建议用ArrayDeque和Linkedlist来实现 两者效率比较: java - Why is ArrayDeque better than LinkedList - Stack Overflow 基于Linkedlist是链表等,除…

MySQL数据操作与查询-T5 MySQL函数

一、数学函数和控制流函数 1、数学函数 (1)abs(x) 计算x的绝对值。 1 select abs(‐5.5),abs(10) (2)pow(x,y) 计算x的y次方的值。 1 select pow(2,8),pow(8,2) (3)round(x) 和 round(x,y) 对数字x进…

力扣hot100:75. 颜色分类(双指针)

75.颜色分类 本题是经典的「荷兰国旗问题」,由计算机科学家 Edsger W. Dijkstra 首先提出。 75. 颜色分类 1、遍历两遍 遍历两遍,第一遍放置0的位置,第二遍放置1的位置,我们只需要维护一个当前放置位置即可。 class Solution…

数字人直播系统源码,不需要高价购买,只需这个价!

在技术领域,系统源码的价格往往令人咋舌,尤其是涉及到高端应用如数字人直播系统时。那么,一套数字人直播系统源码到底需要多少钱?面对高昂的价格,是否还值得进入这个行业? 首先,我们要认识到数…

MoCo v3(ICCV 2021)

paper:An Empirical Study of Training Self-Supervised Vision Transformers official implementation:https://github.com/facebookresearch/moco-v3 出发点 本文并没有提出一种新的方法,而是对计算机视觉领域最近进展中的一个重要且基础…

JavaScript-函数

学习目标: 掌握函数 学习内容: 为什么需要函数函数使用函数传参函数返回值函数细节补充函数作用域匿名函数案例 为什么需要函数: 函数:function 是被设计为执行特定任务的代码块。说明:函数可以把具有相同或相似逻辑…

Spring Aop及事务管理

5 Spring AOP AOP概述 AOP:全称是 Aspect Oriented Programming 即:面向切面编程。简单的说它就是把我们程序重复的代码抽取出来,在需要执行的时候,使用动态代理的技术,在不修改源码的基础上,对我们的已有…

CinemachineFreelook相机鬼畜抖动的解决方法

又是培训机构的出品。。。。。。 2020.3.27 发现跟随时抖动的原因了,其实应该按照传统相机的跟随逻辑放在late update里执行,但是由于开发cinemachine的开发组很坑地把cinemachine freelook里的三个轨道Damping值默认给了3,于是相机会以每0.7…

【Windows】DNG Converter(DNG格式转换器)软件介绍

软件介绍 DNG Converter是一款免费软件,用于将数码相机原始RAW图像文件转换为DNG格式(数字负片)文件。DNG格式是一种数字负片格式,它旨在成为一种行业标准,以便摄影师可以使用一个统一的格式来存储其相机拍摄的原始图…

探索高效存储与快速查找: 深入了解B树数据结构

探索高效存储与快速查找: 深入了解B树数据结构 一、什么是B树二、B树的实现2.1 节点的定义2.2 插入关键字2.3 删除关键字2.4 查找关键字2.5 遍历B树 一、什么是B树 B树,也称为B-tree,是一种多路平衡查找树。它被广泛用于文件系统和数据库之中&#xff0c…

SringBoot 如何使用HTTPS请求及Nginx配置Https

SringBoot 如何使用HTTPS请求及Nginx配置Https SringBoot 如何使用HTTPS请求生成证书导入证书及配制创建配置类将pfx转成.key和.pem Nginx 安装SSL依赖./configure 安装依赖编译安装完openssl后报了新错 Nginx配置 SringBoot 如何使用HTTPS请求 生成证书 由于业务数据在传输过…

Python保姆级教程 数据类型—新手小白入门必看

python学习资料,下方已打包好 一、基本数据类型与变量(上) 2.1 注释 优点: 代码说明 没注释的代码 有注释的代码 不让解释器执行注释的那句话 2.2 单行注释 单行注释快捷键:ctrl ? 2.3多行注释 …

服务器如何有效解决源IP暴露问题

在现代互联网环境中,服务器的安全性至关重要。源IP暴露不仅增加了服务器遭受DDoS攻击、恶意扫描和数据泄露的风险,还可能影响业务的正常运行。本文将探讨如何利用技术手段,尤其是CDN和防火墙策略,来有效地解决服务器源IP暴露的问题…

redis+lua实现分布式限流

redislua实现分布式限流 文章目录 redislua实现分布式限流为什么使用redislua实现分布式限流使用ZSET也可以实现限流,为什么选择lua的方式实现依赖lua脚本yaml代码实现 Jmeter压测 为什么使用redislua实现分布式限流 原子性:通过Lua脚本执行限流逻辑&am…

融合心血管系统(CVS)多视角信号的新架构新策略

随着深度学习的发展和传感器的广泛采用,自动多视角融合(MVF)在心血管系统(CVS)信号处理方面取得了进展。然而,普遍的MVF模型架构通常将同一时间步骤但不同视角的CVS信号混合成统一的表示形式,忽…

RFID技术在农产品管理中的应用

使用RFID技术对农产品生产、加工、存储和销售的全过程进行跟踪,追溯食品的生产和加工过程,能够有效加强农产品的管理,如图7—10所示。 将RFID技术应用于农业食品安全,首先是建立完整、准确的食品供应链信息记录。借助RFID 对物体…

unity简单数字拼图小游戏(源码)

代码: using System.Collections; using System.Collections.Generic; using UnityEngine; using UnityEngine.EventSystems; using UnityEngine.SceneManagement;public class DragImage : MonoBehaviour, IBeginDragHandler, IDragHandler, IEndDragHandler {pub…

1_常见指令【Linux中常见30个指令的学习和使用】【万字长文】

常见指令以及权限理解 开始学习linux前的注意事项 在学习linux之前,我们要知道linux是一个操作系统。 那操作系统是什么呢?(这里只做大概了解) 操作系统就是一个管理软硬件的软件。 它对上提供良好(稳定、高效、安…