【论文阅读visual grounding】QRNet论文解读与关键代码实现

news2024/12/25 9:34:57

Shifting More Attention to Visual Backbone: Query-modulated Refinement Networks for End-to-End Visual Grounding

论文链接:https://arxiv.org/abs/2203.15442
代码链接:https://github.com/z-w-wang/QRNet

Motivation

视觉定位(visual grounding or referring expression comprehension)任务的目标是在查询文本(Query Expression)和特定区域之间建立细粒度的联系,但是目前的方法主要使用查询无关的视觉骨干网抽取视觉特征,导致预训练的视觉编码器抽取到的特征和实际多模态推理需要的特征不一致,如论文的Fig. 1a所示。所以作者提出在视觉骨干网训练的同时注入文本信息(Fig. 1b),让网络能够动态调整查询相关的区域,进而提升视觉定位性能。
在这里插入图片描述

核心思路:Dynamic Layer

本文最核心的设计是把1d的文本特征 p l c ∈ R B × D q p_l^c\in \mathbb{R}^{B\times D_q} plcRB×Dq融入到视觉特征 F ∈ R B × H × W × D i n F\in\mathbb{R}^{B\times H \times W\times D_{in}} FRB×H×W×Din中,并且要根据文本特征的查询内容动态调整视觉特征的关注区域,所以作者设计了一个动态线性层,具体思路如下:

线性映射,扩充 p l c p_l^c plc的隐层维度

使用线性映射的操作,将 p l c p_l^c plc的隐层维度由原来的 D q D_q Dq映射到 ( D i n + 1 ) × K (D_{in}+1)\times K (Din+1)×K,为后续reshape操作做准备

reshape

将文本特征由1d转为2d得到系数矩阵 U ∈ R ( D i n + 1 ) × K U\in \mathbb{R}^{(D_{in}+1)\times K} UR(Din+1)×K,转换的同时确定维度与 S S S对应。

生成静态可学习矩阵 S S S,利用其选择系数矩阵中的关键信息

S ∈ R K × D o u t S\in \mathbb{R}^{K\times D_{out}} SRK×Dout

生成参数矩阵

M l = U S M_l=US Ml=US

分割参数矩阵得到权重 W l W_l Wl和偏置 b l b_l bl

{ W l , b l } = s p l i t ( M l ) \{W_l,b_l\}=split(M_l) {Wl,bl}=split(Ml)

利用从文本特征得到的关键信息的权重和偏置选择视觉特征中的查询相关的内容

o u t p u t = F W l + b l , o u t p u t ∈ R B × H × W × D o u t output=F W_l+b_l,output\in\mathbb{R}^{B\times H \times W\times D_{out}} output=FWl+bl,outputRB×H×W×Dout
可以看到,动态线性层只改变视觉特征的隐层维度,所以就可以利用这一点结合通道注意力机制和空间注意力机制对原始的图像特征进行动态赋权,实现动机中的目标。
上述内容的代码细节可以参看代码链接中的dynamicLayer部分,这里只对伪代码做一下展示
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1974732.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JavaScript基础——JavaScript变量声明

变量是存储数据的容器,可以变的量,值可以改变,在JavaScript中,变量声明的关键字有var、let,其中,var是ES5的语法,let是ES6的语法,变量需要先声明,在使用。 声明一个age变…

整除分块, CF538 F - A Heap of Heaps

一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 F - A Heap of Heaps 二、解题报告 1、思路分析 给定v,k,v的父节点p (v - 2) / k 1 我们令P p - 1,V V - 2 P V / k,我们发现这就是一个整除分块问题…

Ubuntu22.04之有道词典mini窗口无法拖动问题(二百六十五)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 新书发布:《Android系统多媒体进阶实战》🚀 优质专栏: Audio工程师进阶系列…

混合域注意力机制(空间+通道)

在计算机视觉任务中,空间域注意力通常关注图像中不同位置的重要性,例如突出图像中的关键对象或区域。而通道域注意力则侧重于不同通道(特征图)的重要性,决定哪些特征对于任务更具判别力。混合域注意力机制结合了空间域…

FIR低通滤波器

FIR低通滤波器 FIR(Finite Impulse Response)滤波器:有限长单位冲激响应滤波器,又称为非递归型滤波器,是数字信号处理系统中最基本的元件,它可以在保证任意幅频特性的同时具有严格的线性相频特性,同时其单位抽样响应是有限长的,因而滤波器是稳定的系统。 MATLAB实现…

详细了解架构师

架构师的核心职责是消除不确定性和降低复杂性! 架构师画像 架构师的定位 架构设计环 澄清和技术相关的,比如支持百万级别的,架构师需要澄清,可能只有十万级。 架构师的三个核心能力 架构师的三个关键思维 架构设计流程和架构师…

初识MQ——学习MQ之前需要了解的知识点

目录 前言 1. 同步和异步通讯 1.1 同步通讯 1.2 异步通讯 2. MQ技术对比 前言 在现在的大数据时代,高并发的情况越来越普遍,系统一个不注意,就可能崩溃无法访问了。这是开发最不想看到的情况,如果是上班还好,可以…

【C++】—— 类与对象(二)

【C】—— 类与对象(二) 1、类的默认成员函数2、构造函数2.1、初见构造2.2、深入构造2.3、初始化列表2.3.1、什么是初始化列表2.3.2、初始化列表和函数体关系2.3.3、必须使用初始化列表的情况2.3.3.1、 c o n s t const const 成员变量2.3.3.2、引用成员…

AS400==tutorial for Beginners

系统AS400 语言RPGLE 参考视频: https://www.youtube.com/watch?vFqgwYsp7mjk&listPL3W4xRdnQJHVWWmYX1Klji7QUk_PQhq0t&index5 Lesson 1 | Introduction to As-400 and setting up As-400 Environment. 客户端软件TN5250 Terminal Emulation for Window…

MyBatis全方位指南:从注解到XML文件的数据库操作

目录 一.什么是MyBatis 入门程序初体验 二.MyBatis基本操作CRUD ▐ 增(Insert) 返回主键 ▐ 删(Delete) ▐ 改(Update) ▐ 查(Select) 起别名 结果映射 开启驼峰命名(推荐) 三.MyBatis XML配置文件 ▐ 增(Insert) ▐ 删(Delete) ▐ 改(Update) ▐ 查(Select) …

PostgreSQL(二十三)TOAST技术

目录 一、TOAST简介 二、TOAST的存储方式 1、存储方式概述 2、实验:创建TOAST表 三、TOAST的4种压缩策略 1、策略说明 2、TOAST表额外的三个字段 四、TOAST表的计算方式 1、说明 2、实验:计算表大小 五、TOAST表的特点 1、优点 2、缺点 3、…

【KAN】【API教程】get_fun

抽取某个激活函数的样子 from kan import * import matplotlib.pyplot as plt # create a KAN: 2D inputs, 1D output, and 5 hidden neurons. cubic spline (k3), 5 grid intervals (grid5). model KAN(width[2,5,1], grid5, k3, seed0) x torch.normal(0,1,size(100,2)) m…

给虚拟机Ubuntu扩展硬盘且不丢数据

1.Ubuntu关机状态下先扩展,如扩展20GB 2.进入ubuntu,切换root登录,必须是root全选,否则启动不了分区工具gparted 将新的20GB创建好后,选择ext4,primary; 3.永久挂载 我的主目录在/并挂载到/dev/sda1 从图…

C++解决:早餐组合

前言 应该都知道我之前沉默了很长一段时间,现在慢慢想明白了,会继续创作,真的非常感谢大家对我这个幼稚小孩的支持与鼓励。 有朋友私信问我退的原因,在这里和大家简要说一下【狗头】 我认识一位开学初三的学长,他和…

H81002S 1.7mm网络变压器:BMS汽车蓝牙接收器中的超薄共模电感科技

华强盛导读:在当今这个日新月异的汽车科技领域,每一处细节都蕴含着创新与突破。作为电动汽车心脏的电池管理系统(BMS),其高效稳定的运行不仅关乎续航与安全,更是智能化驾驶体验的基石。而在这背后&#xff…

有那些AI数字人制作软件?

AI视频生成:小说文案智能分镜智能识别角色和场景批量Ai绘图自动配音添加音乐一键合成视频百万播放量https://aitools.jurilu.com/ 之前由于工作需要,要录制1 个真人讲PPT的视频,作为典型I人,本人露面是不可能的。 于是打起了数字人…

二维码门楼牌管理应用平台建设:打造高效运维新生态

文章目录 前言一、系统运维概述二、菜单管理:个性化服务的关键三、参数管理:优化系统性能的关键四、字典管理:数据标准化的基石五、邮件管理:沟通协作的桥梁六、任务调度:自动化工作的核心七、短信管理:及时…

头发健康知识一

头发重要性: 头发是人第二张脸,影响人容貌 形象和气质.头皮基本结构 角质层,颗粒层,有挤层,基底层4个细胞层组成,含有大量毛囊和皮脂腺和汗腺.头屑是什么? 头屑为角质细胞的新陈代谢脱落的死细胞,每天都会有十几万角质细胞脱落 (正常的代谢周期为28天). 当基底层细胞受损时…

32.x86游戏实战-使用物品call

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 本次游戏没法给 内容参考于:微尘网络安全 工具下载: 链接:https://pan.baidu.com/s/1rEEJnt85npn7N38Ai0_F2Q?pwd6tw3 提…

MySql审计平台

安装方式: cookieY/Yearning: 🐳 A most popular sql audit platform for mysql (github.com) 对数据库的一系列后台操作 AI助手 - AI助手提供SQL优化建议,帮助用户优化SQL语句,以获得更好的性能。同时AI助手还提供文本到SQL的…