大模型时代的蓝海任务,GPT4V准确率不足10%,港科大发布指代理解基准RefCOCO

news2024/12/26 11:09:51

谈到多模态大模型的应用场景,除了生成任务以外,应用最广泛的可能就是在图像和视频中进行目标检测。

目标检测要求从图像中识别并标注出所有感兴趣的对象,并给每个对象分配一个类别标签。典型的目标检测方法会生成边界框,标记出图像中每个目标的位置和类别,如人、车、动物等。

然而,今天我们要聊的并非仅限于对象类别的目标检测,而是一个更具挑战性的任务——Referring Expression Comprehension(REC),即指称表达理解。REC侧重于根据冗长且复杂的自然语言描述来精准定位并标记特定对象。

比如根据以下描述,标记图中的对象:

这款淡绿色的长方形橡皮上绘有一只熊,旁边用绿色写着“橡皮”字样。一层透明的带有图案的塑料覆盖物部分包裹着它。在图片的右下角,橡皮放在杂乱的桌子上,周围是各种各样的艺术材料和图纸。

REC更强调根据特定的自然语言描述定位和标记目标,适用于需要通过语言与视觉信息交互的场景,也是目前多模态大模型领域研究较少的任务。

现在常用的评估基准一般有三个:RefCOCO(2015年)、RefCOCO+(2016年)和RefCOCOg(2016年)。但是简单的描述与单一测试样本,对于很多强大的大模型来说 so easy,例如CogVLM 在RefCOCO基准上达到了92.44% 的准确率。

这些基准已经不足以有效评估现代多模态大模型理解多样语言输入并关联语言与视觉元素的细微能力。因此,港科大提出了多模态大模型时代评估REC的新基准——Ref-L4,规模更大,高度多样化,更长的指称表达并具有丰富的词汇量。在Ref-L4上对24种大模型进行了评估,普遍得分偏低,GPT-4V还不足10%,极具挑战性。

论文标题:
Revisiting Referring Expression Comprehension Evaluation in the Era of Large Multimodal Models

论文链接
https://arxiv.org/pdf/2406.16866

github链接
https://github.com/JierunChen/Ref-L4

现有基准存在较高的错误率

现在常用的评估基准一般有三个:RefCOCO(2015年)、RefCOCO+(2016年)和RefCOCOg(2016年):

  • 在RefCOCO中,指称表达相当简洁,包含“女士”、“黄色”这样的单个词汇,以及“最左边的人”和“白衬衫”这样的简短描述。

  • RefCOCO+有意排除了RefCOCO中常见的位置介词,倾向于如“只有冰的塑料杯”和“屏幕上的男人”这样短而富含语义的表达。

  • RefCOCOg提供了更详细的标注,例如“带有盘子、披萨、饮料罐和玻璃杯的食物桌”和“带有两把木椅的红白格子桌”。

作者在手动评估了RefCOCO、RefCOCO+和RefCOCOg的验证集和测试集的标注错误率,发现这些基准普遍存在较高的错误率

标注错误包括拼写错误、指称表达与目标实例的不匹配,以及不准确的边界框标注。

经过统计发现,RefCOCO、RefCOCO+和RefCOCOg的标注错误率分别为14%、24%和5%。

为此, 作者手动排除了问题实例。然后重新评估了四个能够处理REC任务的大型多模态模型——ONE-PEACE,OFA-L ,Qwen-VL以及CogVLM-Grounding

所有的模型在清理后的基准上的准确率有了显著提高,这表明基准测试中的噪声影响了模型的真实能力。

可以看到,这些基准对于大模型来说 so easy,准确率可以达到80+,最高达到了94+。因此作者提出了一个更具挑战的REC基准——Ref-L4。

全面的指称表达理解基准——Ref-L4

Ref-L4的优势

Ref-L4有四个显著特点:

  • 大规模:Ref-L4 包含 9,735 张图片,18,653 个独特实例,总共有 45,341 个标注,远超 RefCOCO、RefCOCO+ 和 RefCOCOg。RefCOCOg 只有 3,900 张图片,7,596 个实例和 14,498 个标注。

  • 高多样性:Ref-L4 包含 365 个独特类别。而 RefCOCO 系列来自 COCO 2014 数据集,仅涵盖 78 个类别。Ref-L4还覆盖了更广泛的实例规模,实例面积从 30 到 3,767 不等(以实例面积的平方根度量)。

  • 详细的指代表达:Ref-L4 中每个指代表达都是对特定实例的详细描述,长度从 3 到 117 个词不等,平均长度为 24.2 个词。相比之下,RefCOCO、RefCOCO+ 和 RefCOCOg 的平均标注长度分别为 3.6、3.6 和 8.4 个词。

  • 丰富的词汇量:由于指代表达的详细性,Ref-L4 拥有 22,813 个词汇,比 RefCOCO、RefCOCO+ 和 RefCOCOg 的词汇量大四到六倍。

Ref-L4构建

数据来源

Ref-L4基准数据集来源于两个部分:1) RefCOCO、RefCOCO+ 和 RefCOCOg 数据集的清理后的验证和测试集;2) 大规模目标检测数据集 Objects365 的测试集。Objects365 数据集提供了更广泛的类别、多样的实例尺寸、更高的图像分辨率和更复杂的场景。经过清洗与处理后,Ref-L4 基准数据集共包含 9,735 张图像和 18,653 个实例。

指称表达生成。

给定目标实例及其对应的图像,利用GPT-4V和人类的循环,生成精确和详细的指称表达,分成三个步骤,如下图所示:

  1. 使用GPT-4V对从原图中裁剪出来的实例与提示生成一个与上下文无关的描述,这一步只针对Objects365 数据集,因为RefCOCO的每个实例已经有简短的描述。

  2. 由于GPT-4V 更关注图像中用红圈标出的实例,因此将目标实例用红圈标出,让 GPT-4V 生成上下文相关的指代表达,指导 GPT-4V 描述各种特征,如颜色、大小、位置和上下文。此外,在提示中提供步骤1中生成的与上下文无关的描述,以减少幻觉问题,从而生成更准确的描述。

  3. 人工手动审核所有生成的指代表达,纠正错误。确保每个表达准确地描述实例,并且内容真实、无害。

基准扩展

为了评估 REC 模型对多样化输入的鲁棒性,作者还使用 GPT-4 与不同的提示生成了每个指称表达的重述版本,并同样进行了人工手动审核。

Ref-L4评估实验

作者对24个能够执行REC任务的代表性多模态大模型进行了评估。根据它们的输出类型将其分为两类:生成边界框的模型和生成分割掩码的模型。对于输出分割掩码的模型,将这些掩码转换为紧凑的边界框,以便评估。

在生成边界框的模型中,强大如GPT-4V的准确率不足10%,CogVLM-Grounding表现出最佳性能,而GlaMM在生成掩码的模型中处于领先地位。但仍然有很大的提升空间。

类别性能

另外,作者按照基准中的类别统计了不同类别下模型的性能,一共有365个类别标签,按它们的类别平均性能降序排列,如下图:

结果显示存在明显的训练偏见问题,这四个模型在某些常见类别上的表现都较差。

规模感知评估

为了评估模型处理不同规模实例的能力,将基准中的所有样本分为小、中和大三类。实例的大小定义为其面积的平方根,小实例是指小于 128 的,中实例的大小在 128 到 256 之间,大实例则超过256。

在输出边界框的模型中,CogVLM-Grounding 在小和中等实例上表现出色,而SPHINX-v2-1k 在大实例上取得了最佳性能。对于输出掩码的模型,GlaMM在三类大小中都优于其他模型。

多数据源评估

Ref-L4基准源于COCO和Objects365数据集。作者评估了模型在不同子集上的性能,这些子集包括:

  1. COCO:来自COCO的数据子集。

  2. O365-P1:Objects365中的子集,其类别在COCO中也存在。

  3. O365-P2:Objects365中的子集,其类别在COCO中不存在。

“COCO”子集的准确性较高,因为大多数模型基于RefCOCO系列进行训练,对Objects365图像接触较少。“O365-P1”的准确性高于“O365-P2”,因为“O365-P2”包含更多罕见的类别。

结论

本文指出了当前REC基准的局限性,如标注不准确和指称表达过于简短。为更好地评估多模态大模型在REC任务中的表现,提出了规模更大、描述更详细的REC新基准——Ref-L4,并使用多种评估协议对24个模型进行了评估。

相信Ref-L4能成为研究人员和开发者的宝贵资源,推动更强大和多用途REC模型的发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1907628.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

百度、谷歌、必应收录个人博客网站

主要是给各个搜索引擎提交你的sitemap文件,让别人能搜到你博客的内容。 主题使用的Butterfly。 生成sitemap 安装自动生成sitemap插件。 npm install hexo-generator-sitemap --save npm install hexo-generator-baidu-sitemap --save在站点配置文件_config.yml…

LabVIEW高能质子束流密度分布测试系统

LabVIEW平台开发的高能质子束流密度分布测试系统。该系统主要应用于电子器件的抗辐射加固试验,旨在精确测量高能质子束的密度分布,以评估电子器件在辐射环境下的性能表现和耐受能力。 系统组成与设计 硬件组成: 法拉第杯探测器:…

C++ 类和对象 拷贝构造函数

一 拷贝构造函数的概念: 拷贝构造函数是一种特殊的构造函数,用于创建一个对象是另一个对象的副本。当需要用一个已存在的对象来初始化一个新对象时,或者将对象传递给函数或从函数返回对象时,会调用拷贝构造函数。 二 拷贝构造函…

静态路由配置注意事项及黑洞路由的使用

静态路由 1 . 定义 从管理员处学习到的数据转发路径,就称为静态路由。 2 . 路由表 Proto :协议( Protocol ) Direct — 直连链路Static — 静态路由RIP 、OSPF 等 — 动态路由 Pre : 优先级( Preference &#x…

ozon跨境电商可以做吗,俄罗斯ozon跨境电商可不可以做

当今全球化的浪潮下,跨境电商已成为连接世界各地消费者与商家的桥梁,为无数企业开辟了全新的市场蓝海。俄罗斯,作为世界上最大的国家之一,其电商市场近年来蓬勃发展,尤其是ozon平台,作为俄罗斯本土的电商巨…

你真的会信息收集嘛,4k字渗透测试信息收集10大技巧

前言 在渗透测试中,信息收集是非常关键的一步,它为后续的漏洞发现和利用提供了重要的基础。以下是非常详细的信息收集方式: 一、被动信息收集 被动信息收集是指在不与目标系统直接交互的情况下,通过公开渠道获取目标系统的相关…

Redhat 安装 docker 网络连接超时问题

目录 添加阿里云的Docker CE仓库 更新YUM缓存 安装 Docker Engine 启动并设置Docker自启动 验证 Docker 安装 [userlocalhost ~]$ sudo yum-config-manager --add-repohttps://download.docker.com/linux/centos/docker-ce.repo 正在更新 Subscription Management 软件仓库…

高考志愿填报的六个不要

在高考志愿填报这个关键时刻,确实需要谨慎行事,避免一些常见的错误。以下是高考志愿填报的六个“不要”,希望能为你提供一些有用的建议: 1、不要盲目跟风 每个人的兴趣、能力和未来规划都不同,不要仅仅因为某个专业或…

202406 CCF-GESP Python 三级试题及详细答案注释

202406 CCF-GESP Python 三级试题及详细答案注释 1 单选题(每题 2 分,共 30 分)第 1 题 小杨父母带他到某培训机构给他报名参加CCF组织的GESP认证考试的第1级,那他可以选择的认证语言有几种?( ) A. 1 B. 2 C. 3 D. 4答案:C解析:目前CCF组织的GESP认证考试有C++、Pyth…

LVS+Nginx高可用集群---Nginx进阶与实战

1.Nginx中解决跨域问题 两个站点的域名不一样,就会有一个跨域问题。 跨域问题:了解同源策略:协议,域名,端口号都相同,只要有一个不相同那么就是非同源。 CORS全称Cross-Origin Resource Sharing&#xff…

Vue+ElementUi实现录音播放上传及处理getUserMedia报错问题

1.Vue安装插件 npm install --registryhttps://registry.npmmirror.com 2.Vue页面使用 <template><div class"app-container"><!-- header --><el-header class"procedureHeader" style"height: 20px;"><el-divid…

AJAX快速入门(一) express框架的安装和使用范例

主打一个有用 首先保证安装了nodejs环境 打开终端 初始化npm npm init安装express npm i express测试样例 目录结构 样例代码 express.js //引入express const express require(express);//创建应用对象 const app express();//创建路由规则 //req是请求对象&#x…

C#委托事件的实现

1、事件 在C#中事件是一种特殊的委托类型&#xff0c;用于在对象之间提供一种基于观察者模式的通知机制。 1.1、事件的发送方定义了一个委托&#xff0c;委托类型的声明包含了事件的签名&#xff0c;即事件处理器方法的签名。 1.2、事件的订阅者可以通过运算符来注册事件处理器…

HTTP 请求走私漏洞详解

超详细的HTTP请求走私漏洞教程&#xff0c;看完还不会你来找我。 1. 简介 HTTP请求走私漏洞&#xff08;HTTP Request Smuggling&#xff09;发生在前端服务器&#xff08;也称代理服务器&#xff0c;一般会进行身份验证或访问控制&#xff09;和后端服务器在解析HTTP请求时&…

【GIt】变基(rebase)

目录 变基(rebase)是什么为什么有变基变基后的时间线变基前的时间线 变基原理怎么变基同一个分支变基不同分支变基 参考文章 变基(rebase)是什么 Git 变基&#xff08;rebase&#xff09;是一种用于整合分支的方法&#xff0c;它的工作原理是将一系列提交&#xff08;或分支合…

太实用了吧?手把手教你华为eNSP模拟器桥接真实网络!

号主&#xff1a;老杨丨11年资深网络工程师&#xff0c;更多网工提升干货&#xff0c;请关注公众号&#xff1a;网络工程师俱乐部 晚上好&#xff0c;我的网工朋友。 今天聊聊eNSP桥接正式网络&#xff0c;就是把eNSP桥接进真实的网络&#xff0c;利用我们的物理网卡通过实体路…

MoonBit 周报 Vol.48:默认开启诊断信息渲染、test block 不再返回 Result 类型的结果

weekly 2024-07-08 MoonBit 更新 【重大更新】修改 array slice 的语法&#xff0c;从 arr[start..end] 修改为类似 Python 的 arr[start:end]。这是为了避免和接下来要支持的 cascade method call x..f() 产生语法冲突。旧的语法会在近期删除。 【Wasm后端重大更新】将 fn i…

什么是C#

C#是一种面向对象的语言与c语言不同 C语言是面向过程的编程 C#运行于.NETFramework和.NETCore之上的高级语言 C#是由C和C衍生而来的一种语言 在C#中不建议使用指针 什么叫面向对象 是一种编程范式&#xff0c;它将现实世界中的事物抽象为对象&#xff0c;并通过对象之间的…

田地行走-美团2023笔试(codefun2000)

题目链接 田地行走-美团2023笔试(codefun2000) 题目内容 塔子哥是一个农民&#xff0c;他有一片 nm 大小的田地&#xff0c;共 n 行 m 列&#xff0c;其中行和列都用从 1 开始的整数编号&#xff0c;田地中有 k 个格子中埋有土豆。我们记第 a 行第 b 列的格子为 (a,b) 。塔子哥…

JAVA:常用的队列指南

1、简述 在计算机科学中&#xff0c;队列是一种常见的线性数据结构&#xff0c;它遵循先进先出&#xff08;FIFO&#xff0c;First In First Out&#xff09;的原则。队列在各种应用中广泛使用&#xff0c;例如任务调度、消息队列和宽度优先搜索等。在 Java 中&#xff0c;队列…