SafaRi:弱监督引用表达式分割的自适应序列转换器

news2024/12/23 14:01:55

引用表达式分割(reference Expression Segmentation, RES)旨在提供文本所引用的图像(即引用表达式)中目标对象的分割掩码。

目前存在的挑战

1)现有的方法需要大规模的掩码注释。

2)此外,这种方法不能很好地推广到未见/零射击场景

改进

1)提出了一个弱监督的RES自举架构(包含新算法)SafaRi(基于自回归轮廓预测的RES方法)

2)不会在完全监督的REC任务上预训练我们的模型。只用mask和box注释的小部分进行训练

3)提出Cross-modal Fusion with Attention Consisteny模块,以便提高图像-文本区域级对齐和进一步增强图像目标物体的空间定位

4)提出一种 基于zero-shot proposal scoring 的Mask Validity Filtering(掩码有效性过滤)策略

5)提出SpARC(新颖的REC技术,)以zero-shot获得边界框

在此之前最新的方法  Partial-RES(提出了一种部分(弱)监督的RES任务解决方案)

该方法存在的问题如下:

1)在更实用和真正的弱监督设置中,框的百分比应该等于掩码的百分比

2)在预训练阶段,模型已经意识到在弱监督阶段使用的相同数据集的基础信息

3)该方法没有考虑到图像和语言特征之间的跨模态区域级交互作用,这对定位任务至关重要

流程图

SafaRi架构图

 Swin transformer  and RoBERTa as our image and text feature extractors.

 FFN 代表 cross-feed-forward network,

SA 代表 self Attention   CA 代表 Cross-Multi-Head Attention  

创新点

X-FACt.

1 )Fused Feature Extractors.

2)Attention Mask Consistency Regularization.

Weak-Supervision with γ-Scheduling

step1 :初始RES训练

在RES任务上使用X%的标记数据训练SafaRi (得到训练过的伪标签器并更新了模型参数)

step2 伪标签

使用step1中已训练的模型对剩下的(100-x)%数据进行推理得到掩码,推断的掩码随后通过提议的掩码有效性过滤(MVF),以零拍方式验证这些生成的掩码的有效性。然后从有效掩码中采样轮廓点,并作为伪掩码添加到相应的图像-文本对中

step3 γ-调度(用来在再训练步骤中平衡真实掩码和伪掩码的数量)再训练。

我们使用包含x% Ground Truth (GT) mask (M)和Pseudo-Mask (M)的更新训练数据集重新训练SafaRi(从先前的训练中初始化),并使用Pseudo-Mask loss加权超参数γ最小化最终损失LSafaRi:

 Mask Validity Filtering with SpARC

组成包括

1)ZS-REC(SpARC即空间感知RedBox Clip)  with SpARC module.(使用ZS-REC获得边界框)

        1)Proposal scoring with red-box prompting

        2)Spatial Reasoning component

2)Validation of Inferred Masks with SpARC(使用获得的边界框验证推断的掩码)

具体步骤:我们从每个Mask的最外层(最上、最下、最右、最左)点生成一个边界框,并使用SpARC计算生成的框与使用ZS-REC步骤获得的框之间的Dice Similarity Coefficient (DSC)[49]。我们拒绝了DSC值小于τ = 0.1的噪声伪掩模(消融见补充)。从过滤后的伪Mask中重新采样轮廓点并添加到训练集中(图2)。

结论

1)提出了一个弱监督的RES学习框架,考虑了有限的mask(和box)注释,并采用了基于轮廓的序列预测方法

2)不会在完全监督的REC任务上预训练我们的模型

3)将轻量级门控跨模态注意与注意掩模一致性正则化模块结合在特征主干

4)引入了一个具有自标记功能的自引导管道,其中使用我们提出的掩码有效性过滤方法验证伪标签

5)展示了SafaRi在零差参考视频对象分割任务上出色的泛化能力。将我们的方法扩展到多图像和视频设置可以被视为一个有前途的未来工作

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2137327.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

探索自动化的魔法:Python中的pyautogui库

文章目录 探索自动化的魔法:Python中的 pyautogui 库背景:为什么选择pyautogui?pyautogui是什么?如何安装pyautogui?五个简单的库函数使用方法场景应用常见Bug及解决方案总结 探索自动化的魔法:Python中的 …

VirtualBox桥接网卡消失,安装Docker后导致桥接网卡服务消失问题解决记录

问题记录:VirtualBox虚拟机的桥接网卡消失 记录时间:2024.9.14 系统:win10 问题已解决。 原因: 猜测是由于安装Docker,也会使用我们的网卡进行虚拟化,导致网卡与virtualbox的桥接服务丢失。 解决方案…

基于python+django+vue的鲜花商城系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、SSM项目源码 系统展示 【2025最新】基于pythondjangovueMySQL的线…

三维点云处理(C++)学习记录——PDAL

一、OSGeo4W简概 OSGeo4W是一个基于Windows系统(版本7-11)的开源地理软件二进制包发布平台。OSGeo4W包括开源GIS桌面应用程序(QGIS、GRASS GIS)、地理空间库(PROJ、GDAL/OGR、GEOS、SpatiaLite、SAGA GIS)、…

org.flowable.bpmn.exceptions.XMLException: 元素类型 必须由匹配的结束标记

flowable在流程部署时经常汇报这个错误: org.flowable.bpmn.exceptions.XMLException: 元素类型... 必须由匹配的结束标记 经检查发现是数据库存的中午乱码导致xml结构异常了 解决办法如下: 在catalina.bat文件中找到如下地方,加入 -Dfile.…

Python爬取某猫投诉数据(含signature参数分析与算法还原)

文章目录 1. 写在前面2. 接口分析3. 爬虫实现 【🏠作者主页】:吴秋霖 【💼作者介绍】:擅长爬虫与JS加密逆向分析!Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守并致力于Python…

电商数据采集分析全流程分享||电商数据API接口

电商数据监测,能为品牌发展提供参考依据,已经成为了业内共识。依托智能系统,将电商数据转换为有价值的营销情报,只需三步: 数据采集 可采集30多个电商平台数据,采集字段高达40多个,包含标题、价…

网络穿透:TCP 打洞、UDP 打洞与 UPnP

在现代网络中,很多设备都处于 NAT(网络地址转换)或防火墙后面,这使得直接访问这些设备变得困难。在这种情况下,网络穿透技术就显得非常重要。本文将介绍三种常用的网络穿透技术:TCP 打洞、UDP 打洞和 UPnP。…

数据库运维实操优质文章文档分享(含Oracle、MySQL等) | 2024年8月刊

本文为大家整理了墨天轮数据社区2024年8月发布的优质技术文章/文档,主题涵盖Oracle、MySQL、PostgreSQL等主流数据库系统以及国产数据库的技术实操,从基础的安装配置到复杂的故障排查,再到性能优化的实用技巧及常用脚本等,分享给大…

【Python电商项目汇报总结】**采集10万+淘宝商品详情数据注意事项总结汇报**

大家好,今天我想和大家聊聊我们在采集10万淘宝商品详情数据时需要注意的一些关键问题。这不仅仅是一个技术活,更是一场细心与合规的较量。下面,我就用咱们都听得懂的话,一一给大家说道说道。 **一、明确目标,有的放矢…

vue前端实现下载导入模板文件

1.需要导出的文件放置public文件夹中 2.在.vue页面中添加下载代码 <a href"./exportTemplate.xlsx" download"导入数据模板.xlsx" target"_blank" style"color: #2967e9;">导入数据模板.xlsx</a><!-- 如使用element框…

linux使用命令行编译qt.cpp

步骤&#xff1a; mkdir qttestcd qttestvim hello.cpp #include <QApplication> #include <QDialog> #include <QLabel> int main(int argc,char* argv[]) {QApplication a(argc,argv);QLabel label("aaa");label.resize(100,100);label.show()…

在conda虚拟环境中安装cv2(试错多次总结)

首先保证你创建好了虚拟环境&#xff0c;并在anaconda命令窗口激活虚拟环境 依次输入下列命令&#xff1a; pip install opencv-python3.4.1.15 pip install opencv-contrib-python3.4.1.15 pip install dlib19.6.1 然后测试cv2是否可以使用&#xff0c;输入python 运行pyth…

二叉搜索树的判断+平衡二叉树的判断

一、认识二叉树 二叉树 二叉树 二叉树 二叉搜索树 满二叉树 平衡二…

SpringBoot万级并发-jemeter-Address already in use: connect

一、场景 用Jmeter压力单测接口的时候&#xff0c;发现报 Response code:Non HTTP response code: java.net.BindException Response message:Non HTTP response message: Address already in use: connect 然后我这边是wondows的电脑操作压测的&#xff0c;操作系统win10&…

Rust Windows下编译 静态链接VCRuntime140.dll

Rust 编译出来的exe默认动态链接VC运行库&#xff0c;分发电脑上需要安装有Microsoft Visual C Redistributable for Visual Studio 2015运行库。 编译时能静态链接进去&#xff0c;就省去客户端未安装运行库的问题。方法如下: 只需在当前根目录下新建.cargo\config.toml&#…

论文中译英的最佳解决方案?ChatGPT自我反思翻译法了解一下!

我是娜姐 迪娜学姐 &#xff0c;一个SCI医学期刊编辑&#xff0c;探索用AI工具提效论文写作和发表。 之前娜姐写过&#xff0c;中译英的论文&#xff0c;一开始在结构上就有很强的中文味。后期如果润色来改善&#xff0c;其实是需要在句子结构上大改动的。 一般来说&#xff0…

【Canvas与表盘】蓝边黑底简约表盘

【成图】 【代码】 <!DOCTYPE html> <html lang"utf-8"> <meta http-equiv"Content-Type" content"text/html; charsetutf-8"/> <head><title>蓝边黑底简约表盘</title><style type"text/css"…

【ArcGISProSDK】初识

ArcGIS Pro SDK 提供四种主要的可扩展性模式&#xff1a;加载项、托管配置、插件数据源和 CoreHost 应用程序。 各模块文件对比 API 核心 核心程序集位于 {ArcGIS Pro 安装文件夹}\bin 中。 程序集描述ArcGIS.Core.dll 提供 CIM、地理数据库、几何图形和公共设施网络 API。 …

Django REST framework 实现缓存机制以优化性能

Django REST framework 实现缓存机制以优化性能 页面首页中&#xff0c;导航菜单或轮播广告在项目中每一个页面都会被用户频繁访问到&#xff0c;所以我们可以实现缓存&#xff0c;减少MySQL数据库的查询压力&#xff0c;使用内存缓存可以加快数据查询速度。 cache_page 装饰…