【多模态】1、几种多模态 vision-language 任务和数据集介绍

news2024/10/5 20:19:19

文章目录

    • 一、Phrase Grounding
      • 1.1 概念介绍
      • 1.2 常用数据集介绍
    • 二、Referring Expression Comprehension(REC)
      • 2.1 概念介绍
      • 2.2 常用数据集介绍
    • 三、Visual Question Answer(VQA)
      • 3.1 概念介绍
    • 四、Image Caption
      • 4.1 概念介绍

现在多模态任务越来越火,但之前没接触过的朋友们可能一脸懵,这些专有名词到底是什么意思?这任务到底要干一件什么事情?很茫然,我也是多模态小白,所以在做多模态之前,让我们一起先整明白这些任务到底在干什么。

一、Phrase Grounding

1.1 概念介绍

这个很难直接翻译,直译的话就是 “短语接地”,所以到底指的是啥?

其实最好不要直接翻译,要从任务中理解,这个任务就指的是给定一个文本输入,如 “一个穿绿衣服的人”,从图像中找到这个文本描述指向的目标并框出来

所以,phrase grounding 就是将自然语言中提到的有效目标和图像中特定区域对应起来的任务,注意是全部提到的目标,如下图所示

在这里插入图片描述

现在也有方法将目标检测构建成了 phrase grounding 任务了(GLIP),将 prompt 改成如下格式即可:

在这里插入图片描述

1.2 常用数据集介绍

1、Flickr30k Entities

  • 包含 31783 张 image
  • 每张图会对应 5 个不同的 caption,共158915个caption
  • 还包含 244035个 phrase-box 标注。对于每个 phrase 还细分为 people, clothing, body parts, animals, vehicles, instruments, scene, othera八个不同的类别。

二、Referring Expression Comprehension(REC)

2.1 概念介绍

这个任务是框出文本中提到的一个特定目标

如输入文本为 “穿红短袖且背球拍的人”,则输出就会框出一个目标 person

在这里插入图片描述

2.2 常用数据集介绍

RefCOCO, RefCOCO+, RefCOCOg:

  • 是三个从 MSCOCO 中选取图像得到的数据集,数据集中对所有的 phrase 都有 bbox 的标注
  • RefCOCO 有19,994幅图像,包含142,210个引用表达式,包含50,000个对象实例。
  • RefCOCO+ 共有19,992幅图像,包含 49,856 个对象实例的 141,564 个引用表达式。
  • Ref COCOg 有25,799幅图像,指称表达式 95,010 个,对象实例 49,822个。

在这里插入图片描述

三、Visual Question Answer(VQA)

3.1 概念介绍

该任务是输入问题和图像,输出模型的回答

如输入 “左侧女孩手里拿的是什么”,模型会回答 “雨伞”

四、Image Caption

4.1 概念介绍

该任务是给图像生成描述,一般输入 prompt 为:“ a picture of {}”

模型的回答为:girls holding umbrellas.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/763287.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL-数据库读写分离(上)

♥️作者:小刘在C站 ♥️个人主页: 小刘主页 ♥️努力不一定有回报,但一定会有收获加油!一起努力,共赴美好人生! ♥️学习两年总结出的运维经验,以及思科模拟器全套网络实验教程。专栏&#xf…

(学习笔记-TCP连接建立)为什么每次建立TCP连接时,初始化的序列号都要求不一样?

主要原因有两个方面: 为了防止历史报文被下一个相同的四元组的连接接收(主要)为了安全性,防止黑客伪造相同序列号的TCP报文被对方接收 展开第一点: 假设每次建立连接,客户端恶核服务端的初始化序列号都是从0开始: 过程…

Mysql教程(一):Mysql数据模型和SQL语法分析

Mysql教程(一):Mysql数据模型和SQL语法分析 1、Mysql数据模型 1.1 关系型数据库(RDBMS) 概念:建立在关系模型基础上,由多张相互连接的二维表组成的数据库。 特点: 使用表存储数…

H5活动营销系统怎么做?H5活动营销系统有哪些优势?

H5营销系统广泛用于各类线下活动场景,即将传统线下活动搬到线上,结合互动和奖励设计,引导用户产生转发、分享等目标行为,从而扩大活动影响力,以获得曝光和转化。因此,h5活动营销系统通常用于拉新促活、刺激…

【LeetCode 75】第三题(1431)拥有最多糖果的孩子

题目: 示例: 分析: 题目是简单题,也确实简单,不过示例给出的解释有些复杂,甚至有些误导.我们只需要遍历得出分配糖果之前的糖果最大值,然后再依次遍历每个孩子拥有的糖果数,若某孩子原有的糖果数加上待分配的所有糖果数大于等于分配前的糖果最大值,则给该孩子对应下标的结果置…

Linux--进程替换(转载)

目录 0.引入 1.替换原理 2.替换函数 execl execv execlp execle execvp execvpe execve 3.调用自定义程序 4.exec函数解释 5.命名理解 0.引入 创建子进程的目的是什么? 就是为了让子进程帮我执行特定的任务 让子进程执行父进程的一部分代码 如果子进程…

深度学习——自编码器AutoEncoder

基本概念 概述 自编码器(Autoencoder)是一种无监督学习的神经网络模型,用于学习数据的低维表示。它由编码器(Encoder)和解码器(Decoder)两部分组成,通过将输入数据压缩到低维编码空…

小程序使用云函数调用第三方api避免域名备案

小程序使用云函数调用第三方api避免域名备案 在小程序开发中,如果需要调用第三方 API,但由于域名备案的限制无法直接在小程序中使用,我们可以利用云函数来解决这个问题。 1. 开通云开发 使用微信开发者工具打开小程序项目,点击…

IDEA 提交git 之后撤回操作

方式一 1.选择提交记录; 2、 右键git然后选择drop commit; 弊端:会将修改的代码全部进行删除操作 打开 IDEA 的 本地历史记录功能,对修改的内容进行复原 方式二: 1、撤回commit 2、选择项目——>右击git——…

ROS-Qt-转CMake编译以及qmake第三方库添加及其他

Qt 开发ROS 界面的方法 方法2 带ui的工作空间配置(以ROS节点执行) 步骤1 $ mkdir catkin_qt $ cd catkin_qt $ mkdir src $ cd src $ catkin_init_workpasce $ cd .. $ catkin_make $ cd src $ catkin_create_qt_pkg ros_ui roscpp rospy std_msgs $ …

生成式AI时代,亚马逊云科技致力推动技术的普惠,让更多企业受益

当谈及AIGC时, 我们该谈些什么? 生成式AI技术与应用的不断发展,为各个行业都注入了全新的机会与活力。AIGC成为了今年最为激动人心的技术话题。亚马逊云科技也一马当先,在6月27-28日,2023亚马逊云科技中国峰会上分享…

堆的Top-K问题

⭐️ TOP-K问题 TOP-K问题:即求数据结合中前 k k k 个最大的元素或者最小的元素,一般情况数据量都比较大。 比如:专业前10名、世界500强、富豪榜、游戏中前100的活跃玩家等。 如果数据量过大,排序的方式就不太可取了。 思路&…

TikTok引流的新玩法,用AdsPower打开新大陆!

做跨境电商的人都知道,天上不会掉流量,想要产品火,就必须要引流。大佬的一个产品动不动就几千几万的观看量,可是自己的产品却无人问津。他们到底怎么做到的呢?很简单,注册AdsPower和TikTok的账号&#xff0…

el-input输入框的那些事

vue3element-plustses6 此帖只为记录开发中遇到的需求,技术问题,坑 1、文本域禁止自由拉伸 1、文本域禁止自由拉伸 el-input有一个枚举类型的resize属性,控制拉伸,‘none’ | ‘both’ | ‘horizontal’ | ‘vertical’&#xf…

找实拍高清视频网站,我推荐这6个

本期推荐6个高清视频素材网站,视频剪辑、自媒体必备,建议收藏~ 菜鸟图库 https://www.sucai999.com/video.html?vNTYwNDUx 菜鸟图库虽然是一个设计网站,但它还有非常丰富的视频和音频素材,视频素材全部都是高清无水印&#xff0…

暑期代码每日一练Day1:Leetcode415. 字符串相加

题目 415. 字符串相加 分析 题目意思是给你两个纯数字 字符串(表示的是一个有意义的正整数),让你算出这两个字符串表示的数字的和,最后返回以字符串表示的结果,其中的过程不能直接将初始给定的两个字符串直接转化为…

ORB+FLANN

FLANN 代表 近似最近邻的快速库。它包含针对大型数据集中的快速最近邻搜索和高维特征优化的算法集合。对于大型数据集,它比BFMatcher工作得更快。 对于基于 FLANN 的匹配器,我们需要传递两个字典,指定要使用的算法、相关参数等。第一个是Ind…

2024考研408-操作系统 第三章-内存管理 学习笔记

文章目录 一、内存管理基础1.1、内存的基础知识1.1.1、什么是内存?有何作用?1.1.2、进程运行的基本原理1.1.2.1、指令的工作原理1.1.2.2、理解逻辑地址与物理地址1.1.2.3、从写程序到程序运行1.1.2.4、三种链接方式(静态、转入时动态、运行时…

openssl源码编译输出库-guidance-傻瓜式教程

目标: 下载openssl源码 编译输出目标版本,例如使用Android NDK编译输出Android使用的32位的库 1、下载源码 git clone https://github.com/openssl/openssl.git -b openssl-3.0.9 2、 请下载Linux版本的Android NDK 请下载Linux版本的Android NDK, 并完…

没看完这篇文章,别说你会用Ping

中午好,我的网工朋友。 网工生活里每天都和ping打交道,ping来ping去,很多人知道ping,却不知道怎么把ping用出更多花样出来。 今天,我特地给你关于ping命令的使用大全,在更多不同的项目场景里,…