[自注意力神经网络]Mask Transfiner网络-论文解读

news2024/12/29 8:27:02

本文为CVPR2022的论文。国际惯例，先贴出原文和源码：

原论文地址https://arxiv.org/pdf/2111.13673.pdf源码地址https://github.com/SysCV/transfiner

一、概述

传统的Two-Stage网络，如Mask R-CNN虽然在实例分割上取得了较好的效果，但其掩码依旧比较粗糙。Mask Transfiner将图像区域分解为四叉树，网络仅处理检测到的易错树节点(error-prone tree node)和错误自纠正(self-corrects their errors)。这使得Mask Transfiner可以以第计算成本预测高精度的实例掩码。

二、相关概念

实例分割中，大部分的像素点分类错误均可归结于下采样造成的空间分辨率损失。这导致在物体边缘位置，掩码的分辨率较低。为了解决这个问题，本文中提出了两个概念：信息损失区域(Incoherent Regions)和四叉树（Quadtree）。

1.信息损失区域

为了描述这些区域，本文对掩码本身进行下采样来模拟网络中下采样造成的信息丢失。从上面的图例我们可以看到，对原掩码进行一次2倍的下采样后再进行一次2倍的上采样，橙色部分(原图上标红框)为分类错误的点。而经过实验，大部分的误差均几种在信息损失区域。

信息损失区域的检测：本文涉及的轻量化检测模块如下图所示，可以有效的在多尺度特征金字塔上检测信息损失区域。

将最小特征(smallest features)和预测的粗糙对象掩码(coarse object mask predictions)拼接(concat操作)起来作为输入。

①经过一个全卷积网络(FCN,由四个3x3卷积组成)和一个二分类器来预测最粗糙的信息损失掩码。

②对检测到的低分辨率掩码进行上采样(使用1x1卷积)，并与相邻层中的高分辨率特征进行融合。

2.四叉树

在本文中，四叉树被用来细化图像中的信息损失区域。其连接这两个不同层次的特征金字塔中的预测掩码。如下图所示。基于检测到的信息损失点，可以构建一个多层次的四叉树，以检测到的最高层次的特征图作为根结点，这些根节点可以被映射到低层次特征图上细分的四个象限（这些图具有更大的分辨率和局部细节）。

三、网络结构

Mask Transfiner的网络结构如下图（属于网络大框架的部分以红框标出）：

本网络基于分层的FPN(Feature Pyramid Networks-特征金字塔)，Mask Transfiner的对象并不是单级的FPN特征，而是将RoI特征金字塔上的信息损失区域中检测到的稀疏特征点作为输入序列，并输出其对应的分割标签。

1.RoI金字塔

本文利用了骨干网络提取的分层特征图中的2到5层的特征图。基于对象检测器给定的实例建议，通过FPN在{ $P_i$ , $P_{i-1}$ , $P_{i-2}$ }三个不同层级的特征图上提取RoI特征，这三层的RoI特征的尺寸分别为{28,56,112}，并使用这三个特征来构建RoI金字塔。

其中，起始层 i 的计算公式为： $i = \left \lfloor i_0 + log_2(\sqrt{WH}/224)) \right \rfloor$ ，其中 $i_0=4$ ，W和H为RoI的宽高。

低层次的特征中有较多的上下文和语义信息；而高层次的特征中则包含更多局部特征。

2.输入节点序列

该序列由来自四叉树的三个不同级别的信息损失节点构成。序列的大小为CxN,其中C为特征通道的维数，N为节点的总数。该序列由节点编码器(Node Encoder)压制而成。

3.节点编码器

节点编码器会使用以下四种信息对四叉树的每个节点进行编码。

①从当前层次的FPN提取的细粒度特征

②来自最初的粗掩码预测区域提供的语义信息

③节点之间的关系和距离信息（由RoI中的相对位置编码封装）

④每个节点的上下文信息和自身的信息

本文在每个节点的3x3邻域中提取特征并使用全连接层进行压缩。如下图所示，细粒度特征，粗分割线索和上下文特征首先通过全连接层融合，再将位置嵌入添加到其中。

4.序列编码器和像素解码器

每个序列编码器具有多头注意力模块和全连接前馈神经网络。

像素解码器为一个小型的双层MLP(多层感知机)，其可以解码每个节点的输出查询，并预测最终的掩码标签。

四、损失函数

基于四叉树，本文使用的损失函数为：

$L=\lambda_1L_{Detect}+\lambda_2L_{Coarse}+\lambda_3L_{Refine}+\lambda_4L_{Inc}$

其中 $L_{Refine}$ 表示预测的信息损失点与真实标签之间的L1损失函数； $L_{Inc}$ 为检测信息损失区域的交叉熵损失函数； $L_{Detect}$ 包括了检测器的定位和分类损失； $L_{Coarse}$ 表示初始粗分割预测的损失。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/453725.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

OSCP-Twiggy（ZeroMQ、SaltStack）

OSCP-Twiggy（ZeroMQ、SaltStack）

目录扫描编辑WEB 扫描 WEB 80端口运行着一个名为Mezzanine的东西。快速的谷歌搜索显示这是一个内容管理系统，所以让我们看看它是否对任何可以在我们的目标机器上获得shell的东西都是脆弱的： mezzanine版本是4.3.1，并且此漏洞已在4.2.1中修补。 searchsploit没有返回…

阅读更多...

说说MySQL中MVCC机制的原理

说说MySQL中MVCC机制的原理

一、概述： 了解了MySql的底层架构后，我们今天要深入了解下什么是MVCC。 MVCC，全称Multi-Version Concurrency Control，即多版本并发控制。MVCC是一种多并发控制的方法，一般在数据库管理系统中，实现对数据…

阅读更多...

NAS私有云存储 - 搭建Nextcloud私有云盘并公网远程访问

NAS私有云存储 - 搭建Nextcloud私有云盘并公网远程访问

文章目录摘要视频教程1. 环境搭建2. 测试局域网访问3. 内网穿透3.1 ubuntu本地安装cpolar3.2 创建隧道3.3 测试公网访问 4 配置固定http公网地址4.1 保留一个二级子域名4.1 配置固定二级子域名4.3 测试访问公网固定二级子域名转载自内网穿透工具的文章：使用Nextcl…

阅读更多...

LVS负载均衡集群

LVS负载均衡集群

引言如今，在各种互联网应用中，随着站点对硬件性能、响应速度、服务稳定性、数据可靠性等要求也越来越高，单台服务器也将难以无法承担所有的访问需求。一、群集的含义集群、群集由多台主机构成，但对外，只表现为一…

阅读更多...

ubuntu-18.0.04 鸿蒙HarmonyOS系统源码(HOSP)下载

ubuntu-18.0.04 鸿蒙HarmonyOS系统源码(HOSP)下载

最近小编在研究鸿蒙开发，想要研究下鸿蒙源码，这里记录下源码下载中遇到的问题及解决，也为HarmonyOS的生态的建设提供下帮助，希望能帮到需要的人。前置步骤：如果你之前下载过AOSP源码，那这里下载鸿蒙源码应…

阅读更多...

第五章-数字水印-2-原理及实现

第五章-数字水印-2-原理及实现

数字水印原理根据之前图像获取位平面的操作可知，最低位位平面对整体图像的影响最小，因此数字水印的原理为在图像的最低有效位上嵌入隐藏信息，即在图像的最低位替换为数字水印位平面，完成数字的嵌入操作，对已嵌入数字…

阅读更多...

Jenkins+Python自动化测试持续集成详细教程（全网独家）

Jenkins+Python自动化测试持续集成详细教程（全网独家）

目录一、前言二、环境准备三、创建Jenkins Job 四、编写Python自动化测试脚本五、测试报告生成与展示六、持续集成流程优化七、实战演练八、常见问题及解决方案九、结论一、前言 Jenkins是目前最为流行的CI/CD工具之一，它可以支持多种语言和技术…

阅读更多...

如何使用ffmpeg给视频减震去抖

如何使用ffmpeg给视频减震去抖

之前自己发过一些记录仪拍下来的画面，你们可能已经看过了，例如： 最适合骑行的罐装饮料然而，自己这个骑行记录仪，仅仅是很低端的一款，防抖功能很差，远远比不了GoPro那些高端的户外运动记录仪&am…

阅读更多...

使用PCL滤波器实现点云裁剪

使用PCL滤波器实现点云裁剪

主要目的就是根据已知的ROI区域，对点云进行裁剪。要么留下点云ROI区域，要么去除。 ROI区域一般都是一个矩形，即（x，y，width，height）。那么封装的函数形式一般如下： pcl:…

阅读更多...

《死锁》与《CAS ABA》问题

《死锁》与《CAS ABA》问题

文章目录什么是死锁常见死锁情况❗️死锁的必要条件❗️如何避免死锁呢？CASCAS中ABA问题解决ABA问题什么是死锁死锁是指两个或两个以上的进程在执行过程中，由于竞争资源或者由于彼此通信而造成的一种阻塞的现象。常见死锁情况❗️ 1.一个线程一把…

阅读更多...

Java-static那些事儿

Java-static那些事儿

static作为java中基础常用的关键字，通常用于修饰内部类，方法和变量和代码段，且具有以下特性： static修饰内部类时，该类属于静态内部类，其只能访问外部的静态变量和方法static修饰方法时，该方法…

阅读更多...

ROS学习第三十七节——机器人运动控制以及里程计信息显示

ROS学习第三十七节——机器人运动控制以及里程计信息显示

https://download.csdn.net/download/qq_45685327/87719766 https://download.csdn.net/download/qq_45685327/87719873 gazebo 中已经可以正常显示机器人模型了，那么如何像在 rviz 中一样控制机器人运动呢？在此，需要涉及到ros中的组件: ros…

阅读更多...

【mapbox+turf.js】WebGIS空间分析系列（1）

【mapbox+turf.js】WebGIS空间分析系列（1）

最近在想，自己一直使用webgis做的都是可视化的内容，缺少空间分析的功能。所以吧，最近理一下使用mapbox turf来做一些基础的空间分析功能。大概的思路是，获取目标图层（多个图层），然后选择空…

阅读更多...

servlet（2）—javaEE

servlet（2）—javaEE

1.获取请求数据 1.1开发前端发请求 ajax封装代码 // 参数 args 是一个 JS 对象, 里面包含了以下属性 // method: 请求方法 // url: 请求路径 // body: 请求的正文数据 // contentType: 请求正文的格式 // callback: 处理响应的回调函数, 有两个参数, 响应正文和响应的状态码…

阅读更多...

qt中使用 ui 文件进行界面设计

qt中使用 ui 文件进行界面设计

目录 1、创建 Qt 应用 2、项目创建成功 3、直接点击打开 mainwindow.ui 文件 4、随便从左边侧边栏拖拽一个空间到界面设计区域 5、在右侧边栏右键点击 pushButton 控件，点击转到槽 6、根据实际需要选择对应的信号，我这里方便演示选择 clicked&a…

阅读更多...

linux 信号量semget/semop/semctl

linux 信号量semget/semop/semctl

专栏内容：linux下并发编程个人主页：我的主页座右铭：天行健，君子以自强不息；地势坤，君子以厚德载物． 目录前言概述原理机制接口说明代码演示结尾前言本专栏主要分享linux下并发编…

阅读更多...

基于多态的职工管理系统（Staff Management System）

基于多态的职工管理系统（Staff Management System）

目录一、管理系统需求作用：管理公司内所有员工的信息分类：要显示每位员工的编号、姓名、岗位与职责具体实现的功能： 二、创建管理类三、各个接口函数 1、菜单展示功能 2、选择功能 3、创建员工功能 ①普通员工employee ②经理…

阅读更多...

【Web3.0大势所趋】我看到了互联网未来的模样

【Web3.0大势所趋】我看到了互联网未来的模样

前言 Web3.0 是一个越来越受到关注的话题，它被认为将会带来天翻地覆的变化。本文我们一起来谈谈 Web3.0 的概念、特点和优势，并探讨它为什么如此重要和具有革命性的。文章目录前言Web3.0是什么Web3.0的技术Web3.0的优势总结 Web3.0是什么 Web3.0: 是下…

阅读更多...

尚硅谷Kafka

尚硅谷Kafka

Kafka 1.Kafka概述1.1 定义1.2 消息队列1.2.1 传统消息队列的应用场景1.2.2 消息队列的两种模式 1.3 kafka基础架构 2.快速入门2.1 kafka环境安装2.2 kafka命令行操作参数2.2.1 主题命令行操作 2.2.2 生产者命令行操作2.2.3 消费者命令行操作 3.Kafka 生产者3.1 生产者消息发送…

阅读更多...

Vue3+Vite神器：按需引入自定义组件unplugin-vue-components

Vue3+Vite神器：按需引入自定义组件unplugin-vue-components

前言我们做项目时，会封装大量的公共组件，如果我们每一个都去在maints里面引入，非常麻烦不说，代码也不优雅。所以更好的方法就是自动注册全局组件，在组件中直接使用就好。一种方法是自己在components文件夹下新建in…

阅读更多...

推荐文章

最新文章