[VG] TransVG++

[VG] TransVG++

news2025/6/29 6:33:49

1. BaseInfo


Title	TransVG++: End-to-End Visual Grounding with Language Conditioned Vision Transformer
Adress	https://arxiv.org/pdf/2206.06619
Journal/Time	202206 IEEE TPAMI
Author	中科大
Code	https://github.com/djiajunustc/TransVG
Read	20240717/ 0829
Table	VisonLanguage

2. Creative Q&A

将融合模块变为 Transformer 块。
将视觉任务当做回归任务。直接回归 box 的坐标进行定位而不是选择候选的 boxes。

3. Concrete

在这里插入图片描述

两阶段方法：首先产生一组区域 proposal，然后根据区域-表达式的匹配结果选择最合适的 proposal。
单阶段方法：在目标检测器的中间层执行视觉语言融合，输出最高分数的 box。
TransVG ：图和语言分别送入两个分支，将融合结果送入视觉-语言 Transformer 块直接回归出指代目标的 box。
TransVG++ ：语言引导的视觉 Transformer (移除了单独的融合模块，移除CNN，完全基于 Transformer)

3.1. Model

在这里插入图片描述
TransVG 四个模块， TransVG++ 三个模块
相比来说都含语言和视觉两个分支，以及 Prediction Head。
之前的 TransVG 是多了融合模块，TransVG++ 是把语言分支得到的特征再返回到视觉中的 Transformer。
Language Conditioned Vision Transformer (LViT)
含可学习的 [REG] token

在这里插入图片描述
两个不同的是，Pre-norm 在多头注意力和 FFN 前先层归一化。

3.1.1. Input

图片 +文本
图片输入尺寸： 640 × 640
文本 token 38 + [CLS] + [SEP] = 40

3.1.2. Backbone

ViT + BERT

3.1.3. Neck

3.1.4. Decoder

利用输入状态 [REG] token 作为预测头的输入。一个包含两个 ReLU 激活函数的 MLP 和一个线性输出层组成。预测头的输出为 box 坐标。

3.1.5. Loss

分别为 smooth L1 损失和 GIoU 损失，λ=1 平衡这两个损失的 GIoU 权重系数。

3.2. Training

视觉语言分支初始学习率 1x10-5
融合模块和预测头 1x10-4
权重衰减 1x10-4
Transformer 中的 dropout ratio 默认为 0.1。
BatchSize 64

3.2.1. Resource

3.2.2 Dataset

Name	Images Number	references	reference expressions	Task	Note
RefCOCO	19,994	50,000	142,209	Referring Expression Segmentation
RefCOCO+	19,992	49,856	141,564
RefCOCOg	25799	49856
ReferItGame	20000
Flickr30K Entities	31783

3.3. Eval

在这里插入图片描述

3.4. Ablation

REG Token
Transformer 的设计
融合策略
Transformer 的位置
Transformer 的数量

4. Reference

RIS 系列 TransVG++: End-to-End Visual Grounding with Language Conditioned Vision Transformer 论文阅读笔记
RIS 系列：TransVG

5. Additional

基于 TransVG 的扩充版。一般会议发的不错的且引用比较高的会做些补充实验发在 TPAMI 上。
VG 领域的开山之作。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2084724.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Linux3-Linux用户和权限

Linux3-Linux用户和权限

简介：个人学习分享，如有错误，欢迎批评指正。一、root用户（超级管理员） 无论是Windows、MacOS、Linux均采用多用户的管理模式进行权限管理。在Linux系统中，拥有最大权限的账户名为：root&#…

阅读更多...

基于微信小程序的足球赛事系统设计与实现---附源码94364

基于微信小程序的足球赛事系统设计与实现---附源码94364

摘要本文介绍了一种基于微信小程序的足球赛事系统的设计与实现方法，该系统利用Spring Boot框架作为后端支持。该系统旨在提供一个便捷、高效且用户友好的平台，使足球爱好者能够轻松浏览赛事信息、参与赛事讨论并享受个性化的赛事推荐。在设计方面&…

阅读更多...

RX 8000系显卡规格曝光，全系GDDR6纯过渡产品

RX 8000系显卡规格曝光，全系GDDR6纯过渡产品

原文转载修改自（更多互联网新闻/搞机小知识）： RX 8000系显卡规格首曝，GDDR6显存就很骨感前天，我们刚刚聊过有过新一代RTX 50系消息，虽然是按部就班地升级，但好在也是在升级。50系换核心升级显…

阅读更多...

Ascend C算子开发（入门）—— 算子开发环境搭建

Ascend C算子开发（入门）—— 算子开发环境搭建

文章目录 Ascend C算子开发（入门）—— 算子开发环境搭建在CPU上部署开发环境准备工作步骤配置环境变量配置pip源pip安装依赖包安装开发套件包 Ascend C算子开发（入门）—— 算子开发环境搭建安装包解读 Ascend-cann-功能-版本-平台…

阅读更多...

忘掉 Siri 吧：苹果可能会推出拥有自己AI“个性”的机器人设备｜TodayAI

忘掉 Siri 吧：苹果可能会推出拥有自己AI“个性”的机器人设备｜TodayAI

近日，知名科技记者 Mark Gurman 报道称，苹果公司（Apple）正计划进军机器人领域，推出旨在解决“第一世界问题”的新产品。据 Gurman 透露，苹果还可能利用生成式 AI 技术，为其机器人设备打造一个全…

阅读更多...

设计模式创建型模式之原型模式

设计模式创建型模式之原型模式

设计模式之原型模式一、背景1、解决性能问题2、对象的创建需要运行时信息3、对象的创建过程复杂4、对象的创建与使用分离二、介绍1、定义2、组成三、代码实现1、实现Cloneable接口2、代码实现分析3、注意事项四、总结1、实现Cloneable接口2、原型模式的优点包括&#xff1a…

阅读更多...

QString 初始化

QString 初始化

QString不用初始化，创建变量的时候默认就初始化了默认构造函数：QString 的默认构造函数会初始化一个空的 QString 对象。具体来说，这是一个“空字符串”（empty string），而不是指针为 nullptr 的情况。空字…

阅读更多...

医疗知识图谱工程研究记录

医疗知识图谱工程研究记录

医疗诊断知识图谱本项目是基于知识图谱的知识问答项目。过程为对问句进行解析，形成若干三元组及相关的操作条件，转换为查询语句，查询数据库返回结果。 KBQA方式的问答包括意图分析、标签（实体、操作符）识别、条件体…

阅读更多...

Linux2-Linux基础命令

Linux2-Linux基础命令

简介：个人学习分享，如有错误，欢迎批评指正。一、Linux的目录结构 Linux的目录结构是一个树型结构 Windows 系统可以拥有多个盘符, 如 C盘、D盘、E盘 Linux没有盘符这个概念, 只有一个根目录 /, 所有文件都在它下面练习请根据语言描述&am…

阅读更多...

Linux 2.6 内核进程调度队列

Linux 2.6 内核进程调度队列

Linux 2.6 内核进程调度队列运行队列（runqueue）蓝色区域（活动队列）queuebitmapnr_active总结：时间片还没有结束的所有进程都按照优先级放在该队列（活动队列） 红色区域（过期队列&…

阅读更多...

scrapy框架--快速了解

scrapy框架--快速了解

免责声明:本文仅做分享~ 目录介绍: 5大核心组件: 安装scrapy: 创建到启动: 修改日志配置:settings.py 修改君子协议配置: 伪装浏览器头: 让代码去终端执行: 数据保存: 1-基于命令 2-基于管道文档: 介绍: 5大核心组件: Scrapy是一个开源的Python框架&#xff0c…

阅读更多...

【3.5】贪心算法-解优势洗牌(类田忌赛马问题)

【3.5】贪心算法-解优势洗牌(类田忌赛马问题)

一、问题给定两个大小相等的数组 A 和 B ，A 相对于 B 的优势可以用满足 A[i] > B[i] 的索引 i 的数目来描述。返回 A 的任意排列，使其相对于 B 的优势最大化。二、解题思路这个问题要求我们重新排列数组A，使得在相同位置上&#xf…

阅读更多...

Ubuntu 24.04部署Wordpress

Ubuntu 24.04部署Wordpress

环境： Ubuntu 24.04 PHP 8.1.2-1ubuntu2.18 Nginx/1.18.0 (Ubuntu) WordPress 6.6.1 Mysql 8 文章目录 1. 安装php2. 配置nginx2.1. 安装nginx2.2. 配置 3. 下载wordpress3.1. 配置wordpress 4. mysql配置wordpress数据库和用户4.1. 安装和远程连接4.2. 创建wordpre…

阅读更多...

uart16550_ip_spec

uart16550_ip_spec

用途：允许与调制解调器或其他外部设备进行通信，例如使用串行电缆和RS232协议的另一台计算机。核心特性： WISHBONE接口：支持32位或8位数据总线模式（可选）。 FIFO操作：仅支持FIFO（先…

阅读更多...

惊爆！布偶猫喂养秘籍：希喂、交响乐金罐、尾巴生活适合布偶猫吗？

惊爆！布偶猫喂养秘籍：希喂、交响乐金罐、尾巴生活适合布偶猫吗？

我家布偶甜美可爱，喜欢撒娇爱粘人，真的特别可爱。不过想养好布偶猫喂食非常重要，喂食方法不对，食物没选择好，都会影响布偶猫的健康与正常生长。今天我就就拿布偶猫的选粮标准来测评三款热门主食罐，让大家更…

阅读更多...

基于JAVA的专利资源共享平台

基于JAVA的专利资源共享平台

项目介绍基于JAVA的专利资源共享平台系统是一个集专利信息展示、资源共享、交易服务等功能于一体的综合性平台。该系统利用JAVA语言的强大功能和广泛的生态系统，结合数据库技术、Web开发技术等，为用户提供了一个高效、安全、便捷的专利资源共享和交易环…

阅读更多...

天气分析预测系统-气象网

天气分析预测系统-气象网

项目介绍在信息科技蓬勃发展的当代，我们推出了一款基于Python Flask的全国上海气象数据采集、预测和可视化系统。随着气候变化越发引起全球关注，精准的气象数据和可视化展示变得愈发重要。该系统采用先进的技术和创新的功能，满足用户对实时…

阅读更多...

html+css+js网页设计个人博客模版我的学习经历7个页面

html+css+js网页设计个人博客模版我的学习经历7个页面

htmlcssjs网页设计个人博客模版我的学习经历7个页面网页作品代码简单，可使用任意HTML编辑软件（如：Dreamweaver、HBuilder、Vscode 、Sublime 、Webstorm、Text 、Notepad 等任意html编辑软件进行运行及修改编辑等操作）。获取…

阅读更多...

npm登录

npm登录

npm 登录 npm login --auth-typelegacy报错原因 npm源非npm本身源，需要切换： 查看源 nrm ls切换为npm源 nrm use npm重新登录输入OTP验证后登录成功：

阅读更多...

包含结构体的类的大小

包含结构体的类的大小

看一下简单的例子，一个类声明中包含了一个结构体的声明，在没有定义这个结构体变量的情况下： #include <stdlib.h> #include <stdio.h> #include <malloc.h>class CTest { public:CTest(){}~CTest() {}struct internal{in…

阅读更多...

推荐文章

最新文章