1. BaseInfo
Title | TransVG++: End-to-End Visual Grounding with Language Conditioned Vision Transformer |
Adress | https://arxiv.org/pdf/2206.06619 |
Journal/Time | 202206 IEEE TPAMI |
Author | 中科大 |
Code | https://github.com/djiajunustc/TransVG |
Read | 20240717/ 0829 |
Table | VisonLanguage |
2. Creative Q&A
- 将融合模块变为 Transformer 块。
- 将视觉任务当做回归任务。直接回归 box 的坐标进行定位而不是选择候选的 boxes。
3. Concrete
- 两阶段方法:首先产生一组区域 proposal,然后根据区域-表达式的匹配结果选择最合适的 proposal。
- 单阶段方法:在目标检测器的中间层执行视觉语言融合,输出最高分数的 box。
- TransVG :图和语言分别送入两个分支, 将融合结果送入视觉-语言 Transformer 块直接回归出指代目标的 box。
- TransVG++ :语言引导的视觉 Transformer (移除了单独的融合模块,移除CNN,完全基于 Transformer)
3.1. Model
TransVG 四个模块, TransVG++ 三个模块
相比来说都含语言和视觉两个分支,以及 Prediction Head。
之前的 TransVG 是多了融合模块,TransVG++ 是把语言分支得到的特征再返回到视觉中的 Transformer。
Language Conditioned Vision Transformer (LViT)
含可学习的 [REG] token
两个不同的是,Pre-norm 在多头注意力和 FFN 前先层归一化。
3.1.1. Input
图片 +文本
图片输入尺寸 : 640 × 640
文本 token 38 + [CLS] + [SEP] = 40
3.1.2. Backbone
ViT + BERT
3.1.3. Neck
3.1.4. Decoder
利用输入状态 [REG] token 作为预测头的输入。一个包含两个 ReLU 激活函数的 MLP 和一个线性输出层组成。预测头的输出为 box 坐标。
3.1.5. Loss
分别为 smooth L1 损失和 GIoU 损失,λ=1 平衡这两个损失的 GIoU 权重系数。
3.2. Training
视觉语言分支 初始学习率 1x10-5
融合模块 和 预测头 1x10-4
权重衰减 1x10-4
Transformer 中的 dropout ratio 默认为 0.1。
BatchSize 64
3.2.1. Resource
3.2.2 Dataset
Name | Images Number | references | reference expressions | Task | Note |
---|---|---|---|---|---|
RefCOCO | 19,994 | 50,000 | 142,209 | Referring Expression Segmentation | |
RefCOCO+ | 19,992 | 49,856 | 141,564 | ||
RefCOCOg | 25799 | 49856 | |||
ReferItGame | 20000 | ||||
Flickr30K Entities | 31783 |
3.3. Eval
3.4. Ablation
- REG Token
- Transformer 的设计
- 融合策略
- Transformer 的位置
- Transformer 的数量
4. Reference
RIS 系列 TransVG++: End-to-End Visual Grounding with Language Conditioned Vision Transformer 论文阅读笔记
RIS 系列:TransVG
5. Additional
基于 TransVG 的扩充版。一般会议发的不错的且引用比较高的会做些补充实验发在 TPAMI 上。
VG 领域的开山之作。