[VG] TransVG++

news2024/11/12 5:58:46

1. BaseInfo

TitleTransVG++: End-to-End Visual Grounding with Language Conditioned Vision Transformer
Adresshttps://arxiv.org/pdf/2206.06619
Journal/Time202206 IEEE TPAMI
Author中科大
Codehttps://github.com/djiajunustc/TransVG
Read20240717/ 0829
TableVisonLanguage

2. Creative Q&A

  1. 将融合模块变为 Transformer 块。
  2. 将视觉任务当做回归任务。直接回归 box 的坐标进行定位而不是选择候选的 boxes。

3. Concrete

在这里插入图片描述

  • 两阶段方法:首先产生一组区域 proposal,然后根据区域-表达式的匹配结果选择最合适的 proposal。
  • 单阶段方法:在目标检测器的中间层执行视觉语言融合,输出最高分数的 box。
  • TransVG :图和语言分别送入两个分支, 将融合结果送入视觉-语言 Transformer 块直接回归出指代目标的 box。
  • TransVG++ :语言引导的视觉 Transformer (移除了单独的融合模块,移除CNN,完全基于 Transformer)

3.1. Model

在这里插入图片描述
TransVG 四个模块, TransVG++ 三个模块
相比来说都含语言和视觉两个分支,以及 Prediction Head。
之前的 TransVG 是多了融合模块,TransVG++ 是把语言分支得到的特征再返回到视觉中的 Transformer。
Language Conditioned Vision Transformer (LViT)
含可学习的 [REG] token

在这里插入图片描述
两个不同的是,Pre-norm 在多头注意力和 FFN 前先层归一化。

3.1.1. Input

图片 +文本
图片输入尺寸 : 640 × 640
文本 token 38 + [CLS] + [SEP] = 40

3.1.2. Backbone

ViT + BERT

3.1.3. Neck

3.1.4. Decoder

利用输入状态 [REG] token 作为预测头的输入。一个包含两个 ReLU 激活函数的 MLP 和一个线性输出层组成。预测头的输出为 box 坐标。

3.1.5. Loss

分别为 smooth L1 损失和 GIoU 损失,λ=1 平衡这两个损失的 GIoU 权重系数。

3.2. Training

视觉语言分支 初始学习率 1x10-5
融合模块 和 预测头 1x10-4
权重衰减 1x10-4
Transformer 中的 dropout ratio 默认为 0.1。
BatchSize 64

3.2.1. Resource

3.2.2 Dataset

NameImages Numberreferencesreference expressionsTaskNote
RefCOCO19,99450,000142,209Referring Expression Segmentation
RefCOCO+19,99249,856141,564
RefCOCOg2579949856
ReferItGame20000
Flickr30K Entities31783

3.3. Eval

在这里插入图片描述

3.4. Ablation

  1. REG Token
  2. Transformer 的设计
  3. 融合策略
  4. Transformer 的位置
  5. Transformer 的数量

4. Reference

RIS 系列 TransVG++: End-to-End Visual Grounding with Language Conditioned Vision Transformer 论文阅读笔记
RIS 系列:TransVG

5. Additional

基于 TransVG 的扩充版。一般会议发的不错的且引用比较高的会做些补充实验发在 TPAMI 上。
VG 领域的开山之作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2084724.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux3-Linux用户和权限

简介:个人学习分享,如有错误,欢迎批评指正。 一、root用户(超级管理员) 无论是Windows、MacOS、Linux均采用多用户的管理模式进行权限管理。 在Linux系统中,拥有最大权限的账户名为:root&#…

基于微信小程序的足球赛事系统设计与实现---附源码94364

摘要 本文介绍了一种基于微信小程序的足球赛事系统的设计与实现方法,该系统利用Spring Boot框架作为后端支持。该系统旨在提供一个便捷、高效且用户友好的平台,使足球爱好者能够轻松浏览赛事信息、参与赛事讨论并享受个性化的赛事推荐。 在设计方面&…

RX 8000系显卡规格曝光,全系GDDR6纯过渡产品

原文转载修改自(更多互联网新闻/搞机小知识): RX 8000系显卡规格首曝,GDDR6显存就很骨感 前天,我们刚刚聊过有过新一代RTX 50系消息,虽然是按部就班地升级,但好在也是在升级。50系换核心升级显…

Ascend C算子开发(入门)—— 算子开发环境搭建

文章目录 Ascend C算子开发(入门)—— 算子开发环境搭建在CPU上部署开发环境准备工作步骤配置环境变量配置pip源pip安装依赖包安装开发套件包 Ascend C算子开发(入门)—— 算子开发环境搭建 安装包解读 Ascend-cann-功能-版本-平台…

忘掉 Siri 吧:苹果可能会推出拥有自己AI“个性”的机器人设备|TodayAI

近日,知名科技记者 Mark Gurman 报道称,苹果公司(Apple)正计划进军机器人领域,推出旨在解决“第一世界问题”的新产品。据 Gurman 透露,苹果还可能利用生成式 AI 技术,为其机器人设备打造一个全…

设计模式创建型模式之原型模式

设计模式之原型模式 一、背景1、解决性能问题2、对象的创建需要运行时信息3、对象的创建过程复杂4、对象的创建与使用分离 二、介绍1、定义2、组成 三、代码实现1、实现Cloneable接口2、代码实现分析3、注意事项 四、总结1、实现Cloneable接口2、原型模式的优点包括&#xff1a…

QString 初始化

QString不用初始化,创建变量的时候默认就初始化了 默认构造函数:QString 的默认构造函数会初始化一个空的 QString 对象。具体来说,这是一个“空字符串”(empty string),而不是指针为 nullptr 的情况。空字…

医疗知识图谱工程研究记录

医疗诊断知识图谱 本项目是基于知识图谱的知识问答项目。过程为对问句进行解析,形成若干三元组及相关的操作条件,转换为查询语句,查询数据库返回结果。 KBQA方式的问答包括意图分析、标签(实体、操作符)识别、条件体…

Linux2-Linux基础命令

简介:个人学习分享,如有错误,欢迎批评指正。 一、Linux的目录结构 Linux的目录结构是一个树型结构 Windows 系统可以拥有多个盘符, 如 C盘、D盘、E盘 Linux没有盘符这个概念, 只有一个根目录 /, 所有文件都在它下面 练习 请根据语言描述&am…

Linux 2.6 内核进程调度队列

Linux 2.6 内核进程调度队列 运行队列(runqueue)蓝色区域(活动队列)queuebitmapnr_active总结:时间片还没有结束的所有进程都按照优先级放在该队列(活动队列) 红色区域(过期队列&…

scrapy框架--快速了解

免责声明:本文仅做分享~ 目录 介绍: 5大核心组件: 安装scrapy: 创建到启动: 修改日志配置:settings.py 修改君子协议配置: 伪装浏览器头: 让代码去终端执行: 数据保存: 1-基于命令 2-基于管道 文档: 介绍: 5大核心组件: Scrapy是一个开源的Python框架&#xff0c…

【3.5】贪心算法-解优势洗牌(类田忌赛马问题)

一、问题 给定两个 大小相等的数组 A 和 B ,A 相对于 B 的优势可以用满足 A[i] > B[i] 的索引 i 的数目来描述。 返回 A 的任意排列,使其相对于 B 的优势最大化。 二、解题思路 这个问题要求我们重新排列数组A,使得在相同位置上&#xf…

Ubuntu 24.04部署Wordpress

环境: Ubuntu 24.04 PHP 8.1.2-1ubuntu2.18 Nginx/1.18.0 (Ubuntu) WordPress 6.6.1 Mysql 8 文章目录 1. 安装php2. 配置nginx2.1. 安装nginx2.2. 配置 3. 下载wordpress3.1. 配置wordpress 4. mysql配置wordpress数据库和用户4.1. 安装和远程连接4.2. 创建wordpre…

uart16550_ip_spec

用途:允许与调制解调器或其他外部设备进行通信,例如使用串行电缆和RS232协议的另一台计算机。 核心特性: WISHBONE接口:支持32位或8位数据总线模式(可选)。 FIFO操作:仅支持FIFO(先…

惊爆!布偶猫喂养秘籍:希喂、交响乐金罐、尾巴生活适合布偶猫吗?

我家布偶甜美可爱,喜欢撒娇爱粘人,真的特别可爱。不过想养好布偶猫喂食非常重要,喂食方法不对,食物没选择好,都会影响布偶猫的健康与正常生长。今天我就就拿布偶猫的选粮标准来测评三款热门主食罐,让大家更…

基于JAVA的专利资源共享平台

项目介绍 基于JAVA的专利资源共享平台系统是一个集专利信息展示、资源共享、交易服务等功能于一体的综合性平台。该系统利用JAVA语言的强大功能和广泛的生态系统,结合数据库技术、Web开发技术等,为用户提供了一个高效、安全、便捷的专利资源共享和交易环…

天气分析预测系统-气象网

项目介绍 在信息科技蓬勃发展的当代,我们推出了一款基于Python Flask的全国上海气象数据采集、预测和可视化系统。随着气候变化越发引起全球关注,精准的气象数据和可视化展示变得愈发重要。该系统采用先进的技术和创新的功能,满足用户对实时…

html+css+js网页设计 个人博客模版 我的学习经历7个页面

htmlcssjs网页设计 个人博客模版 我的学习经历7个页面 网页作品代码简单,可使用任意HTML编辑软件(如:Dreamweaver、HBuilder、Vscode 、Sublime 、Webstorm、Text 、Notepad 等任意html编辑软件进行运行及修改编辑等操作)。 获取…

npm登录

npm 登录 npm login --auth-typelegacy报错 原因 npm源非npm本身源,需要切换: 查看源 nrm ls切换为npm源 nrm use npm重新登录 输入OTP验证后登录成功:

包含结构体的类的大小

看一下简单的例子&#xff0c;一个类声明中包含了一个结构体的声明&#xff0c;在没有定义这个结构体变量的情况下&#xff1a; #include <stdlib.h> #include <stdio.h> #include <malloc.h>class CTest { public:CTest(){}~CTest() {}struct internal{in…