一些 VLP 下游任务的相关探索

news2024/11/20 4:17:41

目录

一、Image-Text Retrieval (ITR , 图像文本检索)

任务目的:

数据集格式

训练流程

evaluation流程 

实际使用推测猜想 

二、Visual Question Answering (VQA , 视觉问答) 

任务目的

 数据集格式

 训练流程

 demo以及评估流程

三、Visual Entailm (VE, 视觉蕴含) 

任务目的

数据集格式 

 训练流程

评估及demo流程 

四、Visual Grounding (VG,  视觉定位)

任务目的

数据集格式

训练流程

demo流程 

五、Natural Language for Visual Reasoning(NLVR2,  自然语言视觉推理)

任务目的

数据集格式 

训练过程 


一、Image-Text Retrieval (ITR , 图像文本检索)

任务目的:

检索与给定文本最匹配的图像,或者给定图像最匹配的文本。

跨模态图像-文本检索(ITR)是根据用户给定的一种模态中的表达,从另一模态中检索出相关样本,通常包括两个子任务:图像-文本(i2t)和文本-图像(t2i)检索。

数据集格式

以 filter8k数据集为例。官网🤠 

其 caption target 的格式为

1000268201_693b08cb0e.jpg,A child in a pink dress is climbing up a set of stairs in an entry way .
1000268201_693b08cb0e.jpg,A girl going into a wooden building .
1000268201_693b08cb0e.jpg,A little girl climbing into a wooden playhouse .
1000268201_693b08cb0e.jpg,A little girl climbing the stairs to her playhouse .
1000268201_693b08cb0e.jpg,A little girl in a pink dress going into a wooden cabin .
1001773457_577c3a7d70.jpg,A black dog and a spotted dog are fighting
1001773457_577c3a7d70.jpg,A black dog and a tri-colored dog playing with each other on the road .
1001773457_577c3a7d70.jpg,A black dog and a white dog with brown spots are staring at each other in the street .
1001773457_577c3a7d70.jpg,Two dogs of different breeds looking at each other on the road .
1001773457_577c3a7d70.jpg,Two dogs on pavement moving toward each other .

可以看到,每张图片配有五个不同的标题。图片和标题实况举例

image:

caption:

A child in a pink dress is climbing up a set of stairs in an entry way . # 一个穿着粉红色连衣裙的孩子正在爬入口处的一组楼梯。
A girl going into a wooden building .  # 一个女孩走进一栋木屋。
A little girl climbing into a wooden playhouse .  # 一个小女孩爬进了一个木制的剧场。
A little girl climbing the stairs to her playhouse .  # 一个小女孩爬楼梯去她的游戏屋。
A little girl in a pink dress going into a wooden cabin .  # 一个穿着粉红色连衣裙的小女孩走进一间木屋。

 在训练时,image会经过数据增强,caption对一些噪声符号进行去除,然后每条注释格式会进行配对,(image,caption, idx)。其中idx是图像的索引。(idx用来索引图像,作为文本检索图像时模型的预测目标)

注意:这里 虽然是 单个图像与单个文本配对儿, 实际上每个图像对应五条文本,只不过不是一次性的训练,即 一图像与五条文本配对,而是分开的一对一作为样本对儿。

训练流程

1、 caption text 进行量化,text token送入 text encoder, image 送入 image encoder。

2、 计算ITC损失。  过程中利用idx构造真实图像文本匹配的one hot target。  可以参考这里 🐼 ,

3、 文本表征与图像表征送入多模态Encoder,进行融合前向处理。

计算 ITM损失。 可以参考这里 👿

evaluation流程 

1、text token 送入text Encoder, image 送入 image Encoder

2、计算相似性矩阵。例如

sims_matrix = image_embeds @ text_embeds.t()

主要目的是拿出image space 和 text space中最对齐的特征送入多模态Encoder中去。计算分数。

这个过程重复两次,一次是 i2t ,一次是t2i

最终返回的是匹配分数矩阵。

3、 进行评估。

评估细节用 工具 API实现的,因此这里不做详述。

实际使用推测猜想 

本次没有做实际使用demo的相关代码阅读。不过根据evaluate,在实际使用的时候,不管是图像-文本,还是文本-图像,最终的检索结果只能包含于使用的训练数据集中。因为它是根据 索引去 选择预测的结果,而不是生成式的去生成结果。

因此,实际使用中,是需要有这样的一个包含 图像-文本 对儿的数据库去检索的,你输入的单一模态的数据可以不来源数据集,但是它会去数据集中匹配最佳的结果。而不是说像GPT那样你描述一个场景,它去给你生成。当然,GPT等可能也融合了这种检索任务,你描述的场景如果存在,就去检索,不存在则去生成。我感觉那种网上的搜索任务,比如根据问题描述去找解决办法,可以靠这种检索去实现。有的根据描述问题让GPT去编写代码,很大可能都是靠检索去完成的(利用一个很大的代码库,比如github上的,leetcode上的)。实际靠语言模型去回归预测代码的编写感觉不太靠谱。(只限于目前自己的联想,因为学习也是循序渐进的,视野也是逐渐走向开阔的,不可能保证一开始的认知就是正确的,哈哈。如有错误,请求指正。)

二、Visual Question Answering (VQA , 视觉问答) 

任务目的

VQA的任务是通过理解图像中的内容并结合问题的文本描述,生成合适的答案 。

回答有关图像的问题。大多数研究人员将其视为一项分类任务,即从答案库中选择正确的答案。

通过给定一个图像和一段关于图像的自然语言,这个任务将提供一个精确的自然语言答案。这个任务可以映射到现实生活的场景中:比如说帮助视障人士,问题和答案都是开放性的。

 数据集格式

以VQA 数据集为例,官网🤠

这个数据集的配置分成了四个部分:注释(即答案)、问题、图像、互补对其列表。

1、注释示例

{"question_type": "what is this", "multiple_choice_answer": "net", "answers": [{"answer": "net", "answer_confidence": "maybe", "answer_id": 1}, {"answer": "net", "answer_confidence": "yes", "answer_id": 2}, {"answer": "net", "answer_confidence": "yes", "answer_id": 3}, {"answer": "netting", "answer_confidence": "yes", "answer_id": 4}, {"answer": "net", "answer_confidence": "yes", "answer_id": 5}, {"answer": "net", "answer_confidence": "yes", "answer_id": 6}, {"answer": "mesh", "answer_confidence": "maybe", "answer_id": 7}, {"answer": "net", "answer_confidence": "yes", "answer_id": 8}, {"answer": "net", "answer_confidence": "yes", "answer_id": 9}, {"answer": "net", "answer_confidence": "yes", "answer_id": 10}], "image_id": 458752, "answer_type": "other", "question_id": 458752000}
=============
{"question_type": "what", "multiple_choice_answer": "pitcher", "answers": [{"answer": "pitcher", "answer_confidence": "yes", "answer_id": 1}, {"answer": "catcher", "answer_confidence": "no", "answer_id": 2}, {"answer": "pitcher", "answer_confidence": "yes", "answer_id": 3}, {"answer": "pitcher", "answer_confidence": "yes", "answer_id": 4}, {"answer": "pitcher", "answer_confidence": "yes", "answer_id": 5}, {"answer": "pitcher", "answer_confidence": "yes", "answer_id": 6}, {"answer": "pitcher", "answer_confidence": "yes", "answer_id": 7}, {"answer": "pitcher", "answer_confidence": "yes", "answer_id": 8}, {"answer": "pitcher", "answer_confidence": "yes", "answer_id": 9}, {"answer": "pitcher", "answer_confidence": "yes", "answer_id": 10}], "image_id": 458752, "answer_type": "other", "question_id": 458752001},

举了两个例子。可以看到一问题有10个答案。这里只列举了两个,其实看那个 image id,一个图片大概可以有五个问题,那么综合起来,每个图片有 5*10=50 个问答场景。

2、问题示例

{"image_id": 458752, "question": "What is this photo taken looking through?", "question_id": 458752000}, {"image_id": 458752, "question": "What position is this man playing?", "question_id": 458752001}, {"image_id": 458752, "question": "What color is the players shirt?", "question_id": 458752002}, {"image_id": 458752, "question": "Is this man a professional baseball player?", "question_id": 458752003},

图像id, 问题caption, 以及 问题id。

3、 图像示例

{"file_name": "abstract_v002_train2015_000000011779.png", "image_id": 11779, "height": 400, "url": "http://visualqa.org/data/abstract_v002/scene_img/img/11779.png", "width": 700}, {"file_name": "abstract_v002_train2015_000000005536.png", "image_id": 5536, "height": 400, "url": "http://visualqa.org/data/abstract_v002/scene_img/img/5536.png", "width": 700}, {"file_name": "abstract_v002_train2015_000000016949.png", "image_id": 16949, "height": 400, "url": "http://visualqa.org/data/abstract_v002/scene_img/img/16949.png", "width": 700}, {"file_name": "abstract_v002_train2015_000000019949.png", "image_id": 19949, "height": 400, "url": "http://visualqa.org/data/abstract_v002/scene_img/img/19949.png", "width": 700},

图像文件的name, 图像id, 图像的地址url,以及长和宽等信息

4、互补对齐列表示例

[158307014, 254204008], [158307013, 89462005], [472405000, 79224002]

两个问题的id。这个是由于存在 当两个不同的图片伴相同的问题, 但是有着不同的答案的场景。

具体地示例展示

 训练流程

以ALBEF算法中VQA流程的为例

 1、image 送入 encoder, 然后与 question token(量化后的) 一起送入Multimodal Encoder(这里 text encoder也一起包含其中了,区分就是Bert的前6层与后6层,以及多模态使用cross attention 层)

2、将 answer 的 token ,上面得到的question state 送入decoder,跟据Bert的流程去计算损失。

ABLEF文中所述采用 condition language-model loss

BERT在第一句前会加一个[CLS]标志,最后一层该位对应向量可以作为整句话的语义表示(即句子embedding),从而用于下游的分类任务等。与文本中已有的其它词相比,这个无明显语义信息的符号会更“公平”地融合文本中各个词的语义信息,从而更好的表示整句话的语义。

 demo以及评估流程

1、将 question 的token 和 image token 送入 多模态Encoder,

2、 然后将answer 的 token, 上面的、得到的question states 送入decoder,采用 cls token对应的序列作为预测输出

(这里暂时有个疑问)

输入包含了answer,text decoder 被用了两次,第一次是与answer id 相关,第二次是通过第一选出来的(根据其topk的索引) input ids 相关。最终将第一次与第二次的输出一起拼接起来做选择。

文中所述,说明在评估或者使用时需要使用 候选的答案的。

且其是生成式的,而不是预测分类索引。

综上,VQA可以是预测answer的索引(相当于one hot 编码),即分类任务。也可以采用语言模型的自回归方式去生成answer的索引,算是回归式任务(回归的目标就是answer词库中被量化的索引,最终回归单词相当于反量化)。但无论哪种,和语言模型一样,answer都有着其事先的“词库”,所以归根结底这还是一个NLP领域的任务,图片只是作为了一种独特的语言描述参与其中。

三、Visual Entailm (VE, 视觉蕴含) 

任务目的

给定一个假设,看是否能推理出前提。如果能推理出来则说明是蕴含entailment的关系,推不出来contradictory,无法判断neutral。所以可以说是一个三分类问题。

用来预测图像和文本之间的关系是隐含的、中性的还是矛盾的。

数据集格式 

以SNLI-VE 数据集为例,官网👹

下面图片来源于官网

 训练流程

1、数据预处理。将 图片, 句子(也就是hypothesis,)和注释labels(也就是标签的类别)组成一个样本对儿。

2、sentence 量化,image送入Image Encoder, 然后与sentence一起送入多模态Encoder中。

3、2中的输出 送入一个分类head, 输出三分类的预测prediction(最终只要 cls token维度的)。

4、用prediction和labels计算损失,损失采用交叉熵。

评估及demo流程 

将上述最终的prediction直接取分数最大的维度,做为其预测输出的类别。至于评估指标,为分类准确率。

综上所述,这个任务感觉是 图像-文本匹配任务的进阶版。不同的是由于图像-文本匹配(ITM)只有二分类,其衡量的指标是相似度的大小,嵌合对比学习,所以其更加适配MoCo算法那样去做为预设任务来训练部分模型的表征能力 。而三分类的VE是一个分类任务,其可以做为下游任务,我感觉其也可以像图像分类那样做为迁移学习的预训练任务来训练模型的骨干网络,进而训练一个整体的骨干网络的表征能力。

四、Visual Grounding (VG,  视觉定位

任务目的

视觉定位(Visual grounding) 是一种在计算机视觉和自然语言处理领域中的概念,指的是将自然语言描述与图像中的特定视觉内容相匹配的过程。听上去和目标检测非常类似,区别在于输入多了语言信息,在对物体进行定位时,要先对语言模态的输入进行理解,并且和视觉模态的信息进行融合,最后利用得到的特征表示进行定位预测。

数据集格式

以MSCOCO数据集为例,官网🧐

下面图片来源于官网

可以看到,每张图片包含了5个描述,以及object segmentation,应该还包括bounding box的信息。举例:

caption:

a surprised looking black cat by a bookcase
a black cat sitting next to a bookshelf.
a black cat in front of a wooden bookshelf.
a black cat staring into the light in front of a bookshelf.
black cat sitting in front of a bookshelf.
#
书架旁一只一脸惊讶的黑猫
一只黑猫坐在书架旁边。
木制书架前的一只黑猫。
一只黑猫盯着书架前的灯光。
黑猫坐在书架前。

训练流程

ALBEF文中所述

因此其训练流程与 一中 的 文本检索一样。

demo流程 

ALBEF中是以 grad CAM 热力图的方式体现出 模型所关注图片中文本所描绘的地方。实际这个领域应该需要去根据文本的描述去定位目标对象,可以以bbox的形式或者分割的形式体现模型的预测输出结果。因此语言描述做为辅助信息,这个任务隶属于CV领域的任务占比更大 。ALBEF的做法只是不同的体现,它可视化了ITR任务中,模型对句子中的成分所关注的图片区域。

五、Natural Language for Visual Reasoning(NLVR2,  自然语言视觉推理)

任务目的

要求模型判断关于图像对地语句是否正确,可将其视为一个二分类任务。视觉推理的自然语言(NLVR2 [19])要求模型预测文本是否描述了一对图像。

数据集格式 

NLVR2数据集, 官网 🤓

训练过程 

模型需要输入一对儿图片,因此,Image Encoder 和 Multimodal block 被用两次。

ALBEF中

 其做了扩展,看作了三分类问题,也就是分类文本匹配第一图像、匹配第二个图像还是都不匹配。

感觉这个和视觉蕴含(VE)任务很想。视觉蕴含是一个图像去判断句子的匹配度,换另一个视觉,一个图像对三种类别的句子有着不同的匹配程度,属于单一图像 对 三个句子的可能性范畴(自己瞎起的)。而这个NLVR任务是判断描述是否匹配了一对儿图像 ,ALBEF做了扩展,使其有三种可能,换个角度看,一个描述语句对三种类别(两个图像外加一个空类别)的图像有着不同的匹配程度,属于单一句子 对 三个图像的可能性范畴。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1593981.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL——链表

主键:非空 唯一(针对整列数据而言) 为了方便管理一般主键都是设置为自增 外键:一张表中的一列的值是另一张表的主键,使用外键建立两张数据表的数据关系 一、两张表连接 将两张表格拼接成一个表 1、格式:s…

AcWing 796. 子矩阵的和——算法基础课题解

AcWing 796. 子矩阵的和 题目描述 输入一个 n 行 m 列的整数矩阵,再输入 q 个询问,每个询问包含四个整数 x1,y1,x2,y2,表示一个子矩阵的左上角坐标和右下角坐标。 对于每个询问输出子矩阵中所有数的和。 输入格式 第一行包含三个整数 n&…

前后端分离的Java医院云HIS信息管理系统源码(LIS源码+电子病历源码)

HIS系统采用主流成熟技术开发,软件结构简洁、代码规范易阅读,SaaS应用,全浏览器访问前后端分离,多服务协同,服务可拆分,功能易扩展。多医院、多集团统一登录患者主索引建立、主数据管理,统一对外…

ClickHouse--16--普通函数

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 一、日期函数1、时间或日期截取函数(返回非日期)2、时间或日期截取函数(返回日期)3、日期或时间日期生成函数 二、类…

Arthas实战教程:定位Java应用CPU过高与线程死锁

引言 在Java应用开发中,我们可能会遇到CPU占用过高和线程死锁的问题。本文将介绍如何使用Arthas工具快速定位这些问题。 准备工作 首先,我们创建一个简单的Java应用,模拟CPU过高和线程死锁的情况。在这个示例中,我们将编写一个…

算法刷题day43

目录 引言已知信息一、公约数二、序列的第k个数三、越狱四、等差数列五、公约数六、质因数个数七、完全平方数八、阶乘分解 引言 今天复习的是快速幂的剩余问题、质数、约数的问题,发现其实不难,都是在基础的模板上进行变化,但是不好想&…

RobotFramework功能自动化测试框架基础篇

概念 RobotFramework是什么? Robot Framework是一款python编写的功能自动化测试框架。具备良好的可扩展性,支持关键字驱动,可以同时测试多种类型的客户端或者接口,可以进行分布式测试执行。主要用于轮次很多的验收测试和验收测试…

2023年看雪安全技术峰会(公开)PPT合集(11份)

2023年看雪安全技术峰会(公开)PPT合集,共11份,供大家学习参阅。 1、MaginotDNS攻击:绕过DNS 缓存防御的马奇诺防线 2、从形式逻辑计算到神经计算:针对LLM角色扮演攻击的威胁分析以及防御实践 3、TheDog、0…

Vue.js前端开发零基础教学(五)

目录 4.1 动态组件 4.1.1 定义动态组件 4.1.2 利用KeepAlive组件实现组件缓存 4.1.3 组件缓存相关的生命周期函数 4.1.4 KeepAlive组件的常用属性 4.2 插槽 4.2.1 什么是插槽 ​编辑 4.2.2 具名插槽 4.2.3 作用域插槽 4.3 自定义指令 4.3.1 什么是自定义指令…

“木偶猴帝国”渐起,BRC-20生态Meme币PUPS成为新星

比特币生态中基于BRC20协议的木偶猴代币PUPS在最近一周内价格暴涨1101%,达到了44.56美元,而其他一些BRC20代币,如WZRD、W☮、ZBIT、$π等也经历了显著的价格上涨,带动交易量攀升。 PUPS正在形成一种图币新玩法,与木偶…

Nacos下载安装、案例解析(代码+注解)

简介:Nacos 在阿里巴巴起源于 2008 年五彩石项目(完成微服务拆分和业务中台建设),成长于十年双十一的洪峰考验,沉淀了简单易用、稳定可靠、性能卓越的核心竞争力。 目录 1、Nacos下载安装 2、项目应用 2.1 添加依赖…

基于Springboot的餐厅点餐系统

基于SpringbootVue的餐厅点餐系统的设计与实现 开发语言:Java数据库:MySQL技术:SpringbootMybatis工具:IDEA、Maven、Navicat 系统展示 首页展示 菜品详情页 菜品信息 个人中心 后台管理 菜品信息管理 用户管理 菜…

AI大模型之idea通义灵码智能AI插件安装方式

问题描述 主要讲述如何进行开发工具 idea中如何进行通义灵码的插件的安装解决方案 直接在idea的plugin市场中安装 下载插件之后进行安装 见资源

每日一题:无重复字符的最长子串

给定一个字符串 s ,请你找出其中不含有重复字符的 最长子串的长度。 示例 1: 输入: s "abcabcbb" 输出: 3 解释: 因为无重复字符的最长子串是"abc",所以其长度为 3。示例 2: 输入: s "bbbbb" 输出: 1 解释: 因为无重…

第十二讲 查询计划 优化

到目前为止,我们一直在说,我们得到一个 SQL 查询,我们希望可以解析它,将其转化为某种逻辑计划,然后生成我们可以用于执行的物理计划。而这正是查询优化器【Optimizer】的功能,对于给定的 SQL ,优…

ViT-DeiT:用于乳腺癌组织病理图像分类的集成模型

两种预训练Vision Transformer模型的集成模型,即Vision Transformer和数据高效视觉Transformer(Data-Efficient Image Transformer)。此集成模型是一种软投票模型。 近年来,乳腺癌的分类研究主要集中在超声图像分类、活检数据分类…

BUUCTF刷题十一道(12)附-SSTI专题二

文章目录 学习文章[CISCN2019 华东南赛区]Web11【存疑】[RootersCTF2019]I_<3_Flask 学习文章 SSTI-服务端模板注入漏洞 flask之ssti模板注入从零到入门 CTFSHOW SSTI篇-yu22x SSTI模板注入绕过&#xff08;进阶篇&#xff09;-yu22x SSTI模板注入学习-竹言笙熙 全部总结看最…

音视频学习—音视频理论基础(2)

音视频学习—音视频理论基础&#xff08;2&#xff09; 1、音频的基本概念2、声音的三要素3、声音的本质4、奈奎斯特采样定律5、采样和采样率6、采样数和采样位数7、量化8、比特率&#xff08;码率&#xff09;9、响度和强度10、编码11、音频帧12、音频文件大小的计算总结 1、音…

华为OD机试 - 小朋友至少有几个(Java 2024 C卷 100分)

华为OD机试 2024C卷题库疯狂收录中&#xff0c;刷题点这里 专栏导读 本专栏收录于《华为OD机试&#xff08;JAVA&#xff09;真题&#xff08;A卷B卷C卷&#xff09;》。 刷的越多&#xff0c;抽中的概率越大&#xff0c;每一题都有详细的答题思路、详细的代码注释、样例测试…

Springboot+Vue项目-基于Java+Mysql的网上订餐系统(附源码+LW+演示录像)

大家好&#xff01;我是程序猿老A&#xff0c;感谢您阅读本文&#xff0c;欢迎一键三连哦。 &#x1f49e;当前专栏&#xff1a;Java毕业设计 精彩专栏推荐&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb; &#x1f380; Python毕业设计 &…