论文阅读——X-Decoder

news2025/3/18 17:03:50

Generalized Decoding for Pixel, Image, and Language

Towards a Generalized Multi-Modal Foundation Model

1、概述

X-Decoder没有为视觉和VL任务开发统一的接口,而是建立了一个通用的解码范式,该范式可以通过采用共同的(例如语义)但尊重自然差异(例如空间掩码与序列语言)来无缝连接任务,从而全面显著改进不同的分割和VL工作。

输入:两个查询,(i) generic non-semantic queries that aim to decode segmentation masks for universal segmentation,(ii) newly introduced textual queries to make the decoder language-aware for a diverse set of language-related vision tasks

输出:两种类型,像素级别和token级别。

2、X-Decoder

2.1 Formulation

图片:经过image encoder 得到特征,文本T经过text encoder 编码为,长度为n,非语义查询或者潜在查询,输入X-Decoder输出:

分别是像素级别masks和token级别语义.

在许多以前的统一编码器-解码器模型中,图像和文本在编码器侧融合。这种设计不仅使全局图像-文本对比学习难以解决,而且使生成预训练也难以解决。相反,通过完全解耦图像和文本编码器,并将输出全部用作查询,X-Decoder可以从图像内监督和图像间监督中学习,这对于学习更强的像素级表示和支持不同粒度的任务至关重要。

2.2 Unification of Tasks

Generic Segmentation:

Referring Segmentation:,与一般分割类似,只使用与潜在查询相对应的前m个解码输出。

Image-Text Retrieval:

Image Captioning and VQA:,这两个任务有两个不同:Captioning遵循因果掩mask策略,而VQA则不遵循。其次,使用Os中的所有输出作为字幕,但仅使用最后一个输出来预测VQA的答案。

之前的一系列工作探索了序列解码接口进行统一。然而,在这项工作中,我们提倡通过功能而不是接口来实现统一,即我们最大限度地共享不同任务的共同部分,同时保持单个任务的其余部分不变。

2.3 Unified Architecture

,不同level的特征

在每一层:先和视觉特征做交叉注意力,然后潜在查询和文本查询做自注意力:

其中,对第一个公式,所有查询和视觉特征做交叉注意力,对于潜在查询,使用masked cross-attention mechanism,对文本查询使用全部注意力。

对第二个公式,(i) 我们使用最后一个潜在查询来提取全局图像表示,剩余的用于一般分割;(ii)对于图像Caption,每个文本查询可以和其自身、前面的文字、所有潜在查询做自注意力;(iii)对于参考分割,潜在查询与所有文本查询做注意力。

对,m个潜在查询输出mask,对于语义输出,为潜在查询和文本查询预测输出,

2.4  End-to-End Pre-training

两种类型的损失函数:Semantic Loss,Mask Loss

1)Semantic Loss:

三个任务对应三个损失函数:

对image-text retrieval,计算语言图片相对损失。最后一个有效的token feature 代表文本,记作,用潜在特征的表示全局图片的特征表示图片,记作,对minibatch  B获得B对特征对:,然后计算点乘得到,然后计算双向交叉熵:

y是class labels。

对于mask classification,包括“background”在内C个类别编码为C个文本查询,提取每个查询最后一个有效特征作为概念表示,然后取对应前(m-1)个潜在查询的decoder输出,计算这些输出和概念表示的点乘,得到,最后计算交叉熵损失:

对于image captioning,提取所有词汇向量,大小为V,X-Decoder最后n个语义输出,计算点乘得到,和GT的写一个token的id  计算交叉熵

2)Mask Loss

用Hungarian matching找到和前(m − 1)个输出匹配的GT,使用BCE和DICE计算损失。

3  实验

100 latent queries and 9 decoder layers for segmentation, and we add one additional latent query for image-level task。

Focal-T and DaViT-B/L  as the vision encoder

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1336225.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

12月25日作业

串口发送控制命令&#xff0c;实现一些外设LED 风扇 uart4.c #include "uart4.h"void uart4_config() {//1.使能GPIOB\GPIOG\UART4外设时钟RCC->MP_AHB4ENSETR | (0x1 << 1);RCC->MP_AHB4ENSETR | (0x1 << 6);RCC->MP_APB1ENSETR | (0x1 <…

博易大师智星系统外盘资管系统的功能介绍!

1. 市场行情数据接收和显示&#xff1a;软件需要接收实时的市场行情数据&#xff0c;并将其以图形或数字的形式显示出来&#xff0c;包括价格、成交量、成交额等信息。 2. 交易操作界面&#xff1a;软件需要提供一个交易操作界面&#xff0c;供用户进行交易操作&#xff0c;包括…

HarmonyOS共享包HAR

共享包概述 OpenHarmony提供了两种共享包&#xff0c;HAR&#xff08;Harmony Archive&#xff09;静态共享包&#xff0c;和HSP&#xff08;Harmony Shared Package&#xff09;动态共享包。 HAR与HSP都是为了实现代码和资源的共享&#xff0c;都可以包含代码、C库、资源和配…

基于深度学习的非合作双基地雷达目标检测方法

源自&#xff1a;信号处理 作者&#xff1a;钟宁, 鲍庆龙, 陈健, 戴华骅 “人工智能技术与咨询” 发布 摘 要 非合作双基地雷达由于接收的目标信号能量不强且回波脉冲间相位同步困难&#xff0c;在目标检测时无法进行相参处理从而带来弱小目标检测困难的问题。为解决这一问…

【操作系统】探究进程奥秘:显示进程列表的解密与实战

​&#x1f308;个人主页&#xff1a;Sarapines Programmer&#x1f525; 系列专栏&#xff1a;Linux专栏&#xff1a;《探秘Linux | 操作系统解密》⏰诗赋清音&#xff1a;月悬苍穹泛清辉&#xff0c;梦随星河徜徉辉。情牵天际云千层&#xff0c;志立乘风意自飞。 ​ 目录 &a…

构建外卖系统:从技术到实战

在当今高度数字化的社会中&#xff0c;外卖系统的开发变得愈发重要。本文将从技术角度出发&#xff0c;带领读者一步步构建一个基础的外卖系统&#xff0c;并涵盖关键技术和实际代码。 1. 技术选型 1.1 后端开发 选择Node.js和Express框架进行后端开发&#xff0c;搭建一个灵…

Linuxapache安装

Apache 介绍 Apache HTTP Server&#xff08;简称Apache&#xff09;是Apache软件基金会的一个开放源码的网页服务器&#xff0c;Apache是世界使用排名第一的Web服务器软件。它可以运行在几乎所有广泛使用的计算机平台上&#xff0c;由于其跨平台和安全性被广泛使用&#xff0…

AIGC专栏1——Pytorch搭建DDPM实现图片生成

AIGC专栏1——Pytorch搭建DDPM实现图片生成 学习前言源码下载地址网络构建一、什么是Diffusion1、加噪过程2、去噪过程 二、DDPM网络的构建&#xff08;Unet网络的构建&#xff09;三、Diffusion的训练思路 利用DDPM生成图片一、数据集的准备二、数据集的处理三、模型训练 学习…

iOS设备信息详解

文章目录 ID 体系iOS设备信息详解IDFA介绍特点IDFA新政前世今生获取方式 IDFV介绍获取方式 UUID介绍特点获取方式 UDID介绍获取方式 OpenUDID介绍 Bundle ID介绍分类其他 IP地址介绍获取方式 MAC地址介绍获取方式正常获取MAC地址获取对应Wi-Fi的MAC地址 系统版本获取方式 设备型…

Java基于TCP网络编程的群聊功能

服务端 import java.net.ServerSocket; import java.net.Socket; import java.util.ArrayList; import java.util.List;public class Server2 {public static List<Socket> onlineList new ArrayList<>();public static void main(String[] args) throws Except…

在做题中学习:三数之和

15. 三数之和 - 力扣&#xff08;LeetCode&#xff09;15. 三数之和 - 力扣&#xff08;LeetCode&#xff09; 解释&#xff1a;不能重复也就是说不能和前一个三元组的元素完全相同 思路&#xff1a;通过做 两数之和那道题 可以想到&#xff1a; 1.先排序 2.双指针法 3.固定…

分布式核心技术之分布式锁

文章目录 为什么要使用分布锁&#xff1f;分布式锁的三种实现方法基于数据库实现分布式锁基于缓存实现分布式锁基于 ZooKeeper 实现分布式锁知识扩展&#xff1a;如何解决分布式锁的羊群效应问题&#xff1f; 三种实现方式对比 分布式互斥&#xff0c;领悟了其“有你没我&#…

解决 Solidworks2021 报错(-15,10032,0)错误记录

Solidworks2021 报错"-15,10032,0"错误记录 如图所示解决方案步骤1步骤2 个人问题我的没法添加白名单&#xff0c;要是有能解决的大神给个解决方式感激不尽&#xff01;&#xff01; 如图所示 解决方案 步骤1 该问题的解决方式仅对个人有效&#xff0c;不一定通用&…

非对称加密与对称加密的区别是什么?

在数据通信中&#xff0c;加密技术是防止数据被未授权的人访问的关键措施之一。而对称加密和非对称加密是两种最常见的加密技术&#xff0c;它们被广泛应用于数据安全领域&#xff0c;并且可以组合起来以达到更好的加密效果。本文将探讨这两种技术的区别&#xff0c;以及它们在…

C#示例(一):飞行棋游戏

1、先看一下实现效果 输入连个玩家的姓名 两个玩家分别用字母A和字母B表示 按下任意键开始掷骰子、根据骰子走对应的步数… 2、绘制游戏头 /// <summary>/// 画游戏头/// </summary>public static void GameShow(){Console.ForegroundColor ConsoleColor.Blu…

CEEMDAN +组合预测模型(BiLSTM-Attention + ARIMA)

目录 往期精彩内容&#xff1a; 前言 1 风速数据CEEMDAN分解与可视化 1.1 导入数据 1.2 CEEMDAN分解 2 数据集制作与预处理 2.1 划分数据集&#xff0c;按照8&#xff1a;2划分训练集和测试集&#xff0c; 然后再按照前7后4划分分量数据 2.2 设置滑动窗口大小为7&#…

SuperMap iClient3D for WebGL时序影像

文章目录 前言一、加载影像数据二、创建时间条1.这里使用Echarts来创建TimeLine&#xff0c;首先需要引入相关依赖2.初始化Echarts实例 三、设置不同年份影像交替显示四、效果 前言 时序影像可以用于对地球表面的变化进行定量分析和监测。 通过对多时相遥感影像的比较和分析&a…

【开源】基于Vue+SpringBoot的新能源电池回收系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 用户档案模块2.2 电池品类模块2.3 回收机构模块2.4 电池订单模块2.5 客服咨询模块 三、系统设计3.1 用例设计3.2 业务流程设计3.3 E-R 图设计 四、系统展示五、核心代码5.1 增改电池类型5.2 查询电池品类5.3 查询电池回…

铁山靠之——HarmonyOS组件 - 2.0

HarmonyOS学习第二章 一、HarmonyOS基础组件的使用1.1 组件介绍1.2 Text1.2.1 文本样式1.2.2 设置文本对齐方式1.2.3 设置文本超长显示1.2.4 设置文本装饰线 1.3 Image1.3.1 设置缩放类型1.3.2 加载网络图片 1.4 TextInput1.4.1 设置输入提示文本1.4.2 设置输入类型1.4.3 设置光…

了解基础魔法函数学会封装和继承新建模块和函数使用异常

一、魔法函数 1.1、概念&#xff1a; 魔法函数&#xff08;magic methods&#xff09;是指以双下划线开头和结尾的特殊方法&#xff0c;用于实现对象的特定行为和操作。这些魔法函数可以让我们自定义对象的行为&#xff0c;例如实现对象的比较、算术运算、属性访问等。常见的…