交互式分割: Interactive Object Segmentation with Inside-Outside Guidance

news2024/11/18 9:31:02

论文:https://ieeexplore.ieee.org/document/9157733
代码: https://github.com/shiyinzhang/Inside-Outside-Guidance

思想概述

作者利用画取一个BBOX 作为前、背景的快速区分,同时在BBOX内进行进行动手动在前景对象上进行交互,最终得到前景目标。 即: 利用边界框提供一个“外部”引导, 利用内部点给出一个“内部”引导。

此外, 内部的手动交互点同时避免了一个问题: 内部指导指的是在位于对象中心周围的内部点击, 这也同时消除了对象歧义, 可能在一个BBOX内部存在了多个对象问题。

在这里插入图片描述

网络

提出了一个由粗到细的分割,来解决上述问题【往往直接利用一个好的BackBone,不能对边界进行精细分割】。
在这里插入图片描述
粗网络结合了FPN思想和PSP思想。【比较简单,可以看博客FPN, DeepLabV3的相关内容】
细网络则是用来恢复图像的边界细节的, 即利用粗网络多尺度得到的信息进行不同的上采样后,融合得到的

该网络的贡献: 找到一个合适的网络继承由粗到细的思想

网络训练测试

训练

网络使用了端到端训练, 损失函数采用了CE损失, 同时, CoarseNet中以深监督的方式对side loss进行监督。

推理

在推理过程中,通过简单地对最终的网络预测进行阈值化,得到分割掩模。

额外

虽然网络只需要三次交互点就可以进行分割,但我们的框架支持在用户对分割效果不满意的情况下, 进行进一步优化。
我们添加了一个轻量的分支在PSP模块前, 来获取2个来自前景和背景的点击点产生的单通道高斯热力图。
巧的是, 我们发现这个方式更好的改变输入,而且更加高效【减少点击次数】
在这里插入图片描述
为了实现这个过程, 在训练期间, 我们使用了迭代训练策略来模拟交互过程【校正误分区域】。具体来说: 我们首先点击三个点【BBOX+物体中心点】, 然后结合一个新的点来自于错误区域的中心点

实现细节

模拟内外点

外部点: 我们从真实对象的最小BBOX上向外扩展10个像素点,该方式模拟人为标注的误差。
内部点: 我们采样一个远离对象边界的点, 同时加上一个随机扰动

消融研究

在这里插入图片描述

交互式的迭代训练

当用户不满意交互结果时, 这个时候需要进行迭代式的方式校正分割结果。 特别的, 我们添加一个新的点在最大的误分区域的中心,来实现类似的思想。
在这里插入图片描述
上述图得到几个结论:

  1. 增加点击次数不会对结果带来显著影响
  2. 增加点击层【refine】比直接进行多次点击效果更好

一个可能的原因是: 内部带你重视位于对象中心周围, 而新添加的校正点通常位于对象的边界, 这导致对象性能降低。

下一篇将怎么盘它~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/82547.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

安装博客,论坛

准备环境 防火墙,selinux关掉 [rootboke ~]#yum -y install mariadb mariadb-server mariadb-libs php php-mysql php-gd php-fpm php-cli gd httpd 安装lamp环境 [rootboke ~]# systemctl start httpd mariadb 启动httpd和mariadb 搭建博客 配数据库 [root…

毕业设计-BP神经网络的房地产价值评估研究

目录 前言 课题背景和意义 实现技术思路 实现效果图样例 前言 📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科…

(已更新)BGS本地局域网视频源码

BGS本地局域网视频源码是PHP的,TP5.1 数据库和伪静态设置在压缩包,记得设置运行目录为public 数据库配置请到 config\database.php中修改 只支持MP4,上传后观看时候会自动进行转换为m3u8,调用的是FFmpeg,主要就是为了研究php使用F…

[1.2.0新功能系列:三]Apache doris 1.2.0 Java UDF 函数开发及使用

概述 我们在使用各个SQL引擎时,会有纷繁复杂的查询需求。一部分可以通过引擎自带的内置函数去解决,但内置函数不可能解决所有人的问题,所以一般SQL引擎会提供UDF功能,方便用户通过自己写逻辑来满足特定的需求,Doris也…

【扫盲】Getting into project of R

⭐️ what is an r project include in r studio? An R project in RStudio is a self-contained directory that contains all the files and resources associated with a specific R project. This includes the R code files, data files, output files, and any additio…

虹科案例 | 虹科Panarama SCADA平台在风电场测量的应用,实现风电场的高效管理!

虹科Panorama SCADA平台 在风电场测量的应用 虹科方案 01应用背景 随着煤碳、石油等能源的逐渐枯竭,人类越来越重视可再生能源的利用。风能作为一种清洁的可再生能源日益受到世界各国的重视。中国风能储量大,分布面广,仅陆地上的风能储量就…

go基础第二遍学习——简单易理解

此博文是猿猿对go基础的二遍学习,这一遍学习中对go基础有了进一步的理解,笔记齐全,下面跟着猿猿一起学习吧。 文章目录零、知识补充一、包引入三种方式二、go变量和基本数据类型2.1.基本数据类型2.1.1.整数类型2.1.2.浮点类型2.1.3.字符串类型…

VTK-vtkFieldData

欢迎大家加入社区,雪易VTK社区-CSDN社区云 前言:为区分vtkPoints和vtkPointData的区别,了解vtkFieldData在VTK中的存在意义,从而系统的掌握vtk中关于数据的表达方式。 vtk中通过vtkDataArray进行数据的存储,通过vtkD…

艾美捷内皮细胞生长添加剂参数说明和相关研究

内皮细胞生长因子(ECGF)或内皮细胞生长补充物(ECGS)是一个术语,也用于含有促进内皮细胞生长和维持活性的牛(或猪)脑提取物(T.Maciag,1972和1982)。在早期&…

SQL语法CREATE_大数据培训

1 CREATE 1.1 CREATE DATABASE 用于创建指定名称的数据库,语法如下: CREATE DATABASE [IF NOT EXISTS] db_name 如果查询中存在IF NOT EXISTS,则当数据库已经存在时,该查询不会返回任何错误。 create database test; Ok. 0 …

【虚幻引擎】UE4/UE5Map、Set、 Array的用法

一、Array Array:数组是一个内存空间连续,可以存储多个相同类型的有序的元序列集合。 每一个索引值对应一个Value值,比如0号索引值对应A,值可以是任意类型的变量 用法: 节点 描述 Add 取入一个数组和一个变量。它将该变量插入…

014. 解数独

1.题目链接: 37. 解数独 2.解题思路: 2.1.题目要求: 暂时的理解就是,编写一个程序然后自动填完数独,填完返回(不用求解各种不同的数独组合) 填的时候,数字要满足的规则&#xff1…

198.打家劫舍,213.打家劫舍II ,337.打家劫舍III

198. 打家劫舍 你是一个专业的小偷,计划偷窃沿街的房屋。每间房内都藏有一定的现金,影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统,如果两间相邻的房屋在同一晚上被小偷闯入,系统会自动报警。 给定一个代表每个…

项目管理中的WBS

项目管理中的WBS(工作分解结构) 在项目管理中,我们必然会用到一个工具WBS(工作分解结构),在PMP的课程中,也作为了一个重要的考察对象。 一. WBS的定义 工作分解结构(Work Breakdown Structure):以可交付成…

什么是网络分析仪噪声参数?

噪声参数在被测器件的输入端口和测试仪器内置噪声接收机的输入端口上都会产生影响。要想了解为什么噪声参数会给测量结果带来误差,我们首先需要了解什么是噪声参数。放大器的噪声参数描述了噪声系数随着源阻抗Γs而变化的情况。在史密斯圆图上,噪声参数通…

长盈通在科创板上市:研发费用率低于行业均值,皮亚斌为实控人

12月12日,武汉长盈通光电技术股份有限公司(下称“长盈通”,SH:688143)在上海证券交易所科创板上市。本次上市,长盈通的发行价为35.67元/股,发行市盈率48.61倍,而该公司所属行业最近一个月静态平…

QTabBar进阶用法:修改标题宽度,使标题宽度自适应窗体宽度,close图标大小设置,close图标修改,文字对齐方式修改

这是一个没有处理过的QTabWidget, 在功能上已经满足使用了,但是有时会有一些外观上特殊的需求,需要对它进行修改。 1. 更改标签的长度。 可以用样式表改: setStyleSheet("QTabBar::tab{height:50;width:200}");"QTabBar::t…

GitLab安装与卸载

一、安装Postfix以发送通知邮件 安装命令:sudo yum install postfix 将postfix服务设置成开机自启动,安装命令:sudo systemctl enable postfix 启动postfix,安装命令:sudo systemctl start postfix 二、安装gitlab …

【数据结构】栈定义及其常用的基本操作(C/C++)

目录 ●图示(以顺序栈为例) ●栈的类型定义 ●栈常用的基本操作 ●顺序栈 ●链式栈 ●简单案例 1.顺序栈(这里只实现用顺序表存储3个学生的学号、姓名、年龄并且将其输出查看。若进行其他操作,对代码进行简单修改即可&…

Read IDS scan文件

IDS 雷达的文件格式比原来的。dt格式文件复杂,由于数据来自检测单位,对文件的理解并不到位。 采集的数据如下: 产生的文件很多,比如这次有2个采集 Data内部的文件 很多文件并没有理解到 3 文件说明 3.1 pos 结尾是 但距离与最后…