COD论文笔记 BiRefNet

COD论文笔记 BiRefNet

news2025/2/22 17:48:05

本质还是一个 U 型编码器解码器结构的分割模型。

在这里插入图片描述
我可以考虑将©和(d)结合，即对解码器的输入不进行 patchify,同时在各个阶段引入梯度参考信息

最近的相关工作，中间监督、额外先验(频率，梯度，边缘等)取得不错效果

作者观察到，对原始图像进行导数运算获得梯度特征，可以很好地反映图像对象中的细微和非显著特征。

双边参考是在解码器中的两个辅助信息：
1.层次化的原始图像块
2.梯度监督信息(对于颜色和纹理上与背景高度相似时，梯度信息过于微弱，此时越引入真实GT特征作为侧向监督)

此外作者提出了一些实用的训练策略。

模型整体结构：

在这里插入图片描述

所谓的定位模块就是编码器，重建模块就是解码器。

对于COD任务，不需要 Cls 模块。

最下面的 ASPP 得到语义信息较强的粗略预测图，然后引导解码器进行细化分割。

不同阶段的patch块大小不同，所以是 multi-scale supervision。

定位模块

重建模块

大的感受野会丢失细节信息，小的感受野会难以定位大尺度目标。作者是如何平衡的呢？

作者使用了可变形卷积DCN来作为重建块(RB)取代普通的残差块( $1\times1,3\times3,7\times7$ )。我可以考虑使用最新的DCNv4来进行实验。

在这里插入图片描述
如图所示，所谓的内向参考，其中 $F_i^{d+}$ 是上一个BirefBlock的输出特征和backbone对应层级特征进行(应该是element-wise addition)得到，然后作为当前BirefBlock的输入，然后作者将当前层级的原始图像进行自适应裁剪得到若干图像块，这两个进行拼接之后送入重构模块，重构模块利用不同感受野和平均池化进行进一步特征提取，然后重构模块输出的特征图副本再送到外向参考中利用梯度监督信息得到 $A_i^G$ , $A_i^G$ 和 $F_i^{d'}$ 进行元素级相乘之后得到特征 $F_{i-1}^d$

双边参考

内部参考和外部参考分别起到补充高分辨率信息和吸引注意力到细节密集区域的作用。

在内部参考中，原始高分辨率的图像 $L$ 被裁剪为与相应解码器阶段的输出特征一致大小的补丁 ${P_{k=1}^N\}$ ，这些补丁与原始特征 $F_i^{d+}$ 叠加后输入重建模块，现有类似技术的方法，要么仅仅在最后的解码阶段添加 $L$ ，要么将 $L$ 调整尺寸，使其适用于低分辨率的原始特征。作者的内部参考通过自适应裁剪避免了这两个问题，并且在每个阶段提供必要的高分辨率信息。

在这里插入图片描述

实现细节

在这里插入图片描述

消融实验

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2100997.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Elasticsearch简单介绍

Elasticsearch简单介绍

1、 Elasticsearch简介 Elasticsearch 是一个分布式的、基于 RESTful API 的搜索和分析引擎，广泛用于大规模的数据存储和快速检索。它最初由 Shay Banon 于 2010 年开发，是开源的，并且是 Elastic Stack（通常称为 ELK Stack&#…

阅读更多...

ERP系统与WMS仓储管理系统在库存管理中的不同作用

ERP系统与WMS仓储管理系统在库存管理中的不同作用

在当今复杂多变的企业环境中，大型企业对于信息系统的依赖日益加深，特别是在库存管理与供应链优化方面。企业资源规划ERP系统与WMS仓储管理系统作为两大核心系统，各自扮演着不可或缺的角色，并通过紧密协作，共同推动企业…

阅读更多...

MuseTalk模型构建指南

MuseTalk模型构建指南

一、介绍 MuseTalk 是由腾讯团队开发的先进技术，它是一个实时的音频驱动唇部同步模型。该模型能够根据输入的音频信号，自动调整数字人物的面部图像，使其唇形与音频内容高度同步。二、特点多语言支持：该模型支持多种语言&…

阅读更多...

为何我建议你学会Queue集合

为何我建议你学会Queue集合

先赞后看，南哥助你Java进阶一大半 PriorityQueue的底层数据结构就如andrewlock.net网站提供的图一样，虽然PriorityQueue是一个平衡二叉堆，但JDK底层的实现却是：一个普普通通的二维数组！！ 我是南哥&#xff…

阅读更多...

计算机网络数据链路层2

计算机网络数据链路层2

ALOHA:想发就发 CSMA 载波监听多路访问协议 CS：载波监听，在发送数据之前检测总线上是否有其他计算机在发送数据 1-坚持CSMA:主机想发送消息，需要监听信道； 信道空闲则直接传输信息； 信道忙碌则一直监听，直…

阅读更多...

半路出家程序员感受：非科班出身如何转行程序员？答案在这

半路出家程序员感受：非科班出身如何转行程序员？答案在这

🤟 基于入门网络安全打造的：👉黑客&网络安全入门&进阶学习资源包非科班出身是指那些大学专业为非计算机相关专业的人群，多数人对于计算机基础了解比较少，甚至零基础。这部分人群中有相当多一部分处于对于编程…

阅读更多...

dinput8.dll错误应该如何修复呢？五种快速修复dinput8.dll错误的问题

dinput8.dll错误应该如何修复呢？五种快速修复dinput8.dll错误的问题

dinput8.dll文件是DirectInput库的一部分，主要负责处理游戏控制器的输入，如键盘、鼠标和游戏手柄等。这个文件通常位于Windows系统的System32文件夹中，是许多游戏和应用程序正常运行所必需的组件。它通过提供一个统一的接口来管理不同类型的输…

阅读更多...

软媒市场-为企业提供了高效便捷的软文发布渠道和提升品牌曝光度

软媒市场-为企业提供了高效便捷的软文发布渠道和提升品牌曝光度

软媒市场是软文媒体自助发布平台,作为数字营销领域的一股重要力量,正日益受到企业与个人的青睐。这些平台通过整合海量媒体资源,提供从内容创作到多渠道发布的一站式解决方案,极大地提升了品牌曝光度和市场影响力。一、平台优势 ‌资源丰富‌:软媒市场汇聚了包括门户网站、行业…

阅读更多...

打造主播美颜工具：视频美颜SDK与直播美颜API的集成与优化详解

打造主播美颜工具：视频美颜SDK与直播美颜API的集成与优化详解

本篇文章，小编将深入讲解视频美颜SDK与直播美颜API的集成与优化策略，帮助开发者构建出色的主播美颜工具。一、视频美颜SDK与直播美颜API的核心功能直播美颜API则提供了实时美颜处理的能力，确保美颜效果在直播过程中流畅呈现，不…

阅读更多...

【蔡英丽医生】颈动脉斑块：隐形杀手？揭秘症状与治疗新策略！

【蔡英丽医生】颈动脉斑块：隐形杀手？揭秘症状与治疗新策略！

在繁忙的生活节奏中，你是否曾关注过隐藏在身体深处的健康隐患——颈动脉斑块？这个看似不起眼的“小东西”，实则可能成为引发中风、记忆力衰退等严重疾病的幕后黑手。今天，就让我们一起揭开颈动脉斑块的神秘面纱，了解它…

阅读更多...

c++--智能指针（RAII）

c++--智能指针（RAII）

智能指针可以帮助我们管理动态空间，即自动释放动态空间。 --------------------------------------------------------------------------------------------------------------------------------- 简单原理事实上，智能指针的原理就是将指向动态空间…

阅读更多...

一目了然的图解一般AI与AI Agent到底区别在哪

一目了然的图解一般AI与AI Agent到底区别在哪

全部使用Midjourney绘成，绘制魔法放出自取魔咒1 Lego shaped Skywalker Luke and Lego shaped Anakin battle --niji 6 --ar 1:1 魔咒2 Lego-style Luke Skywalker and Lego-style Anakin are sitting in a caf talking. --niji 6 --ar 1:1 魔咒3 Anakin in …

阅读更多...

18、Gemini-Pentest-v2

18、Gemini-Pentest-v2

难度中目标 root权限一个flag 靶机启动环境为VMware kali 192.168.152.56 靶机 192.168.152.63 信息收集 web测试访问80端口上面介绍了一下这个系统是一个内部系统，让员工查看他们的个人资料还可以导出为PDF 页面还有一个链接是UserList可以访问但是页面什…

阅读更多...

【自然语言处理】调用NLTK数据失败‘wordnet‘和‘punkt‘不存在[Errno 11004]问题解决

【自然语言处理】调用NLTK数据失败‘wordnet‘和‘punkt‘不存在[Errno 11004]问题解决

wordnet报错明明已经按照了nltk包，但使用 WordNet 语料库时依然报错提示数据不存，依据以下代码在python中下载wordnet仍然报错： import nltk nltk.download(wordnet)运行后始终提示： [nltk_data] Error loading wordnet: <…

阅读更多...

【算法】PageRank

【算法】PageRank

一、引言 PageRank是由谷歌创始人拉里佩奇和谢尔盖布林在斯坦福大学读研究生时发明的一种算法，用于衡量网页的重要性。它基于一个简单的假设：更重要的网页会有更多的链接指向它。二、算法原理 PageRank算法的核心思想是，一个网页的重要性可以…

阅读更多...

如何找到适合的IT外包服务商

如何找到适合的IT外包服务商

在信息技术迅速发展的今天，IT外包服务已成为企业运营中不可或缺的一部分。选择合适的IT外包服务商对于确保项目成功、提高效率和降低成本至关重要。下面一起探讨评估和选择IT外包服务商的关键因素。关键因素一：专业资质与认证选择IT外包服务商时&…

阅读更多...

ROS 工具箱系统要求

ROS 工具箱系统要求

ROS 工具箱系统要求要为 ROS 或 ROS 2 生成自定义消息，或从 MATLAB 或 Simulink 软件中部署 ROS 或 ROS 2 节点，您必须构建必要的 ROS 或 ROS 2 软件包。要构建这些软件包，您必须具备 Python 软件、CMake 软件以及适用于您的平台的 C 编译器…

阅读更多...

分支和循环以及猜数字游戏的实现

分支和循环以及猜数字游戏的实现

分支和循环以及猜数字游戏的实现目录随机书生成randsrandtime设置随机数的范围猜数字游戏的实现随机书生成 rand C语言中有一个函数叫rand函数，它可以生成随机数，代码格式如下： int rand（void）rand函数会返回一个…

阅读更多...

Unity(2022.3.41LTS) - UI详细介绍- Button(按钮)TMP

Unity(2022.3.41LTS) - UI详细介绍- Button(按钮)TMP

目录零.简介一、基本功能与重要性二、属性和设置详解三、使用方法深入探讨四、优化和注意事项零.简介在 Unity 中，按钮（Button）是用户界面中非常重要的交互元素之一。以下是对 Unity 中按钮的更详细介绍： 一、基本功…

阅读更多...

【docker】docker 是什么

【docker】docker 是什么

docker 是什么 Docker 本质Docker 的引擎迭代Docker 和虚拟机的区别Docker 为什么比虚拟机资源利用率高，启动快Docker 和 JVM 虚拟化的区别？ Docker 本质 Docker 本质其实是 LXC 之类的增强版，它本身不是容器，而是容器的易用工具…

阅读更多...

推荐文章

最新文章