融合Transformer与CNN,实现各任务性能巅峰,可训练参数减少80%

news2024/11/19 4:46:30

论文er看过来,今天给各位推荐一个热门创新方向:CNN+Transformer。

众所周知,CNN通过多层卷积自动学习空间层级特征,能够有效提取图像局部特征。而Transformer通过自注意力机制全局建模,能够有效处理长距离依赖关系。

通过结合这两者的优势,我们不仅可以在保持运算效率的同时,提高模型在多种计算机视觉任务中的性能,还能实现较好的延迟和精度之间的权衡。

举个栗子:混合架构Lite-Mono。

该模型主要包含两个模块,CDC模块用于提取增强的多尺度局部特征,LGFI模块用于编码长距离的全局特征。实验表明,Lite-Mono在精度上优于Monodepth2,可训练参数减少了80%左右。

目前,这种策略通过多种方式融合两种模型的优点。主流的方法包括早期层融合、横向层融合、顺序融合、并行融合等。我这次整理了17种最新的CNN+Transformer结合方案,原文以及开源代码都附上了,方便各位学习。

论文原文以及开源代码需要的同学看文末

Lite-Mono: A Lightweight CNN and Transformer Architecture for Self-Supervised Monocular Depth Estimation

方法:本文提出了一种轻量级的自监督单目深度估计模型Lite-Mono,该模型采用了高效的CNN和Transformer的组合。模型设计了连续空洞卷积(CDC)模块和局部-全局特征交互(LGFI)模块,前者用于提取丰富的多尺度局部特征,后者利用自注意机制将长距离的全局信息编码到特征中。

创新点:

  • 提出了一种轻量级高效的自监督单目深度估计模型,采用了混合的卷积神经网络(CNN)和Transformer架构。

  • 在所提出的编码器的每个阶段中,采用了连续膨胀卷积(CDC)模块来捕捉增强的多尺度局部特征,并且使用了局部-全局特征交互(LGFI)模块来计算MHSA并将全局上下文编码到特征中。

  • 为了减少计算复杂性,本文在通道维度而非空间维度上计算交叉协方差注意力。

LEFORMER: A HYBRID CNN-TRANSFORMER ARCHITECTURE FOR ACCURATE LAKE EXTRACTION FROM REMOTE SENSING IMAGERY

方法:论文提出了一种名为LEFormer的混合CNN-Transformer架构,用于从遥感图像中准确地提取湖泊。LEFormer包含三个主要模块:CNN编码器、Transformer编码器和交叉编码器融合。

CNN编码器有效地恢复了局部空间信息,并改善了细节。同时,Transformer编码器捕捉了任意长度序列之间的长距离依赖关系,使其能够获得全局特征和上下文信息。交叉编码器融合模块将CNN和Transformer提取的局部和全局特征融合为统一的特征,用作生成的湖泊掩码的输入。

创新点:

  • 提出了LEFormer,一种用于高性能湖泊提取的新型架构。LEFormer结合了CNN和Transformer,以捕捉湖泊遮罩预测所需的短程和长程依赖关系,从而获得强大的特征。LEFormer在两个基准数据集上实现了SOTA性能和效率。

  • 提出了轻量级Transformer编码器,降低了模型的计算和参数需求,同时保持高性能。通过CNN和Transformer提取的局部和全局特征经过交叉编码器融合模块融合,作为生成湖泊遮罩的统一特征输入。这种结构实现了高准确性和低计算成本的轻量级网络结构。

Learned Image Compression with Mixed Transformer-CNN Architectures

方法:论文提出了一种高效的并行Transformer-CNN混合(TCM)块,将CNN的局部建模能力和Transformer的非局部建模能力相结合,进而设计了一种新的基于TCM块的图像压缩架构,并提出了一种基于Swin-Transformer的注意力模块来改进通道熵模型的性能。

创新点:

  • 提出了一个高效的并行Transformer-CNN混合(TCM)块,以将CNN的局部建模能力和Transformer的非局部建模能力有效结合,从而改进了图像压缩模型的整体架构。

  • 基于最新的熵估计模型和注意力模块的进展,提出了一种使用通道压缩的参数高效的Swin-Transformer-based attention(SWAtten)模块的通道自回归熵模型。

ScribFormer: Transformer Makes CNN Work Better for Scribble-based Medical Image Segmentation

方法:论文提出了一种基于Transformer的模型ScribFormer,通过融合CNN和Transformer的局部特征和全局表示,以及使用注意力引导的类别激活图(ACAM)分支,实现了高质量像素级分割结果。

创新点:

  • ScribFormer是第一个使用Transformer的scribble监督医学图像分割模型,通过利用Transformer分支的注意力权重来改善卷积特征和CNN分支生成的ACAMs的性能。

  • ScribFormer通过整合CNN和Transformer分支的优势,并使用通道和空间注意力调制来提高模型对复杂特征相互连接的理解能力,从而有效地提高了模型的性能和精确度。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“融合新17”获取全部论文+代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1663990.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

鸿蒙OpenHarmony南向:【Hi3516标准系统入门(IDE方式)】

Hi3516标准系统入门(IDE方式) 注意: 从3.2版本起,标准系统不再针对Hi3516DV300进行适配验证,建议您使用RK3568进行标准系统的设备开发。 如您仍然需要使用Hi3516DV300进行标准系统相关开发操作,则可能会出现…

静态分析-RIPS-源码解析记录-01

token流扫描重构部分,这一部分主要利用php的token解析api解析出来的token流,对其中的特定token进行删除、替换、对于特定的语法结构进行重构,保持php语法结构上的一致性 解析主要在lib/scanner.php中通过Tokenizer这个类来实现,也就是在main…

视频号小店做店的最新最全攻略,小白也能快速上手轻松变现!

大家好,我是电商花花。 从开始接触视频号小店到现在已经两年多时间了,关于视频号小店也有不少经验和感触。 最近越来越多的人开始进入视频号小店的电商赛道,有人日均销售额做到几万甚至十几万。 想在视频号上变现赚钱,但是苦于…

APP广告转化流程对广告变现收益有影响吗?

对接广告平台做广告变现的APP开发者都清楚,广告变现的价格、收益不是一成不变的,经常会遇到eCPM波动对广告收益产生较大影响。 导致APP收益产生波动的因素包括:用户质量、广告类型、广告平台的资源波动、广告预算的季节性、广告展示量级等。…

R语言数据探索与分析-中国GDP回归分析与预测

首先读取数据: 将GDP列转换为常规数字格式 # 可视化GDP数据 # 查看数据结构 # 确保数据类型是正确的 第一张图片展示了中国2002年到2021年间的GDP增长趋势,这是一个时间序列图,其中横轴表示年份,纵轴表示GDP(单位未…

springcloud alibaba微服务框架涉及的技术

一、微服务架构中核心模块及其使用技术总览 二、各模块详细说明 1、注册中心 该模块主要功能为 自动提供服务的注册与发现,集中式管理服务,让 服务调用端发现服务,让服务提供端注册服务,倘若没有注册中心,那客户端就…

Acwing2024蓝桥杯FloodFill

AcWing 687. 扫雷 模拟以下样例(10X10): 把扫雷地图转变为数字记录的地图:地雷记作-1,其余表示8个方向有几个地雷,完成后如下图: 接着搜索所有0联通块(为红色矩形),并且把联通块附近不是地雷的点(红色圆形)全标记为-1,如下图: 而答案就是当前该图中大于0的数的数目之和,再加上…

GPT-ArcGIS数据处理、空间分析、可视化及多案例综合应用教程

原文链接:GPT-ArcGIS数据处理、空间分析、可视化及多案例综合应用教程https://mp.weixin.qq.com/s?__bizMzUzNTczMDMxMg&mid2247603080&idx1&sn3e0d7015a2a717c320ebea3a673388ee&chksmfa82126fcdf59b795c7e2cea575470d42480ab809b926be5f94633eac…

国产银河麒麟V10SP1系统下搭建TiDB数据库操作步骤图文

开发目的:在国产银河麒麟系统中搭建TiDB数据库运行环境。 开发工具:银河麒麟系统V10SP1TiDBMySql数据库8.0。 具体步骤: 1、在VmWare虚拟机中安装好国产银河麒麟V10Sp1操作系统。 2、打开终端命令,安装TiDB相关软件&#xff1…

张驰咨询:AI与六西格玛——携手共进,非彼此替代

在历史的洪流中,技术与方法的演进如同波澜壮阔的画卷,不断书写着人类文明的篇章。六西格玛,作为一种追求极致品质与效率的方法论,是现代工业文明中的瑰宝。而当我们面对AI(人工智能)这一新时代的产物时&…

安卓模拟器Frida环境搭建 (mumu+adb+frida)

安卓模拟器Frida环境搭建 (mumuadbfrida) mumu模拟器安装adb与frida下载mumuadbfrida配置一般的报错实战 针对apk抓包问题,有的时候Android9已经不适用于现在的需求,需要更高的Android版本,mumu模拟器提供了Android12的…

【经验总结】Vue2中的全局变量(store

需求场景 需要在vue中存储一个可变的,可读写的全局变量在不同的js、页面中均可调用和读写 技术:使用vue的store 用法总结 一、定义变量 1、找到vue的/src/store路径,在modules文件夹下创建文件(这里便于测试创建demo.js&…

Linux下安装JDK并配置环境变量

一、Oracle官网下载jdk 1、官网地址 https://www.oracle.com/java/technologies/downloads/#java17 2、命令下载 wget https://download.oracle.com/java/17/latest/jdk-17_linux-x64_bin.tar.gz 3、解压 tar -zxvf jdk-17_linux-x64_bin.tar.gz 4、配置环境变量 ec…

HarmonyOS开发案例:【生活健康app之获取成就】(3)

获取成就 本节将介绍成就页面。 功能概述 成就页面展示用户可以获取的所有勋章,当用户满足一定的条件时,将点亮本页面对应的勋章,没有得到的成就勋章处于熄灭状态。共有六种勋章,当用户连续完成任务打卡3天、7天、30天、50天、…

IP地址127.0.0.1的误解:一次投标监管的技术失误

博主猫头虎的技术世界 🌟 欢迎来到猫头虎的博客 — 探索技术的无限可能! 专栏链接: 🔗 精选专栏: 《面试题大全》 — 面试准备的宝典!《IDEA开发秘籍》 — 提升你的IDEA技能!《100天精通鸿蒙》 …

selenium进行xhs图片爬虫:03获取一篇图文的图片

📚博客主页:knighthood2001 ✨公众号:认知up吧 (目前正在带领大家一起提升认知,感兴趣可以来围观一下) 🎃知识星球:【认知up吧|成长|副业】介绍 ❤️感谢大家点赞👍&…

出海企业哪种组网方案更省事?

对于出海企业而言,建立跨地区的数据传输和协同工作至关重要,以提升运营效率。因此,网络构建变得迫在眉睫。通过构建企业组网,企业能够加强与海外分支、客户和合作伙伴之间的联系,加速海外业务的发展。 然而&#xff0c…

深兰科技荣获中国机器人行业年度独角兽企业奖

近日,“维科杯OFweek 2023人工智能产业大会暨行业年度评选颁奖典礼“在深圳隆重举行。经OFweek网络投票、专家组评审及组委会综合评审三轮激烈紧张的评审筛选,通过对近300个参评项目的综合实力考量,最终深兰科技成功荣膺“维科杯OFweek2023中…

计算机视觉——OpenCV实现Lucas-Kanade 光流追踪

1.光流 光流法是计算机视觉中用于估计图像序列中物体运动的关键技术。它类似于观察夜空中的彗星,通过其在天空中的运动轨迹来追踪它的路径。在图像处理中,光流帮助我们理解像素点如何在连续的帧之间移动。 1.1 稀疏光流法 稀疏光流法关注于图像中的关…

js实现复制功能

/*** 复制* param {*} val 要复制的内容* returns*/ export const copyToClipboard async val > {try {// 使用现代 API 尝试复制if (navigator.clipboard && navigator.permissions) {await navigator.clipboard.writeText(val)return // 如果成功,直接…