CV论文--2024.4.2

news2024/11/28 2:42:32

1、Unsolvable Problem Detection: Evaluating Trustworthiness of Vision Language Models

中文标题:无法解决的问题检测:评估视觉语言模型的可信度

简介:本文提出了一个新颖且重要的挑战,即视觉语言模型(VLM)在面临无法解决的问题时的无解问题检测(UPD)。UPD旨在检查VLM在视觉问答(VQA)任务中面对无法解决的问题时保留答案的能力。UPD包括三个不同的设置:缺失答案检测(AAD)、不兼容答案集检测(IASD)和不兼容视觉问题检测(IVQD)。通过广泛的实验和深入研究UPD问题,我们发现大多数VLM,包括GPT-4V和LLaVA-Next-34B,在不同程度上都难以应对我们的基准测试,突显了改进的重要性。

为了解决UPD问题,我们探索了无需训练和基于训练的解决方案,并提供了新的见解,阐明了它们的有效性和局限性。我们希望通过提出的UPD设置中的努力和我们的见解,能够增强对更实用和可靠的VLM的广泛理解和进一步发展。

2、Are We on the Right Way for Evaluating Large Vision-Language Models?

中文标题:我们评估大型视觉语言模型的方法正确

简介:最近,大型视觉语言模型(LVLM)取得了快速进展,引发了许多研究对它们的多模态能力进行评估。然而,我们对当前的评估工作进行了深入研究,并确定了两个主要问题:

1)许多样本并不需要视觉内容。答案可以直接从问题和选项中推断出来,或者是嵌入在LLM中的世界知识。这种现象在当前的基准测试中普遍存在。例如,GeminiPro在MMMUBenchmark上获得了42.9%的成绩,没有使用任何视觉输入,而且超过了六个基准测试中平均超过20%的随机选择基线。

2)LLM和LVLM训练中存在意外的数据泄漏。LLM和LVLM可以回答一些需要视觉内容的问题,表明它们在大规模训练数据中记忆了这些样本。例如,Sphinx-X-MoE在MMMUBenchmark上获得了43.6%的成绩,而没有访问图像,超过了其LLM骨干网络17.9%。

这两个问题都会导致对实际多模态收益的误判,并有可能误导LVLM的研究。因此,我们提出了MMStar,这是一个由人类精心选择的精英视觉不可或缺的多模态基准,包括1500个样本。MMStar基准测试了6个核心能力和18个详细轴,旨在用精心平衡和纯化的样本评估LVLM的多模态能力。这些样本首先通过自动流水线从当前基准测试中大致选择出来,然后经过人工审核,以确保每个策展样本都展示出视觉依赖性,最小化数据泄漏,并要求先进的多模态能力。

此外,我们开发了两个指标来衡量数据泄漏和多模态训练中的实际性能增益。我们在MMStar上评估了16个领先的LVLM,以评估它们的多模态能力,并使用提出的指标在7个基准测试中调查它们的数据泄漏和实际多模态收益。

3、SeaBird: Segmentation in Bird's View with Dice Loss Improves Monocular 3D Detection of Large Objects

中文标题:SeaBird:鸟瞰图分割与骰子损失改进了大型物体的单目 3D 检测

简介:在这篇文章中,我们观察到单目三维检测器在汽车和较小物体上表现出色,但在处理较大物体时性能下降,这可能导致严重事故。一些人将这种失败归咎于训练数据的不足或对大型物体感受野的要求缺失。为了解决这个尚未得到充分研究的大型物体泛化问题,本文重点强调了这个问题。

我们发现,即使在几乎平衡的数据集上,现代的前置检测器也很难泛化到大型物体。我们认为失败的原因在于深度回归损失对大型物体噪声的敏感性。为了弥补这一差距,我们全面研究了回归损失和Dice损失,并研究了它们在不同误差水平和物体尺寸下的鲁棒性。

通过在一个简化的情况下进行数学证明,我们证明了相对于回归损失,Dice损失在大型物体的噪声鲁棒性和模型收敛方面具有优越性。利用我们的理论洞见,我们提出了SeaBird(鸟瞰图中的分割)作为通向大型物体泛化的第一步。SeaBird有效地将BEV分割与3D检测中的前景物体相结合,并使用Dice损失来训练分割头部。在KITTI-360排行榜上,SeaBird取得了最先进的结果,并改善了现有检测器在nuScenes排行榜上的表现,尤其是对于大型物体。

我们的代码和模型可以在https://github.com/abhi1kumar/SeaBird找到。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1562680.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

电梯四种事故检测YOLOV8

电梯四种事故检测,采用YOLOV8训练得到PT模型,然后转换成ONNX,OPENCV调用,支持C/PYTHON/ANDORID开发 电梯四种事故检测YOLOV8

Java | Leetcode Java题解之第6题Z字形变换

题目: 题解: class Solution {public String convert(String s, int numRows) {int n s.length(), r numRows;if (r 1 || r > n) {return s;}int t r * 2 - 2;int c (n t - 1) / t * (r - 1);char[][] mat new char[r][c];for (int i 0, x …

Network AIS Receiver R400N

目录 Introduction OVERVIEW BASIC FEATURES APPLICATIONS SPECIFICATIONS Introduction OVERVIEW The R400N provides a method of monitoring the position, speed and heading of AIS vessels within VHF range. It can decode of Class A, Class B, Aids to Navigat…

【游戏分析】FPS游戏自瞄爆头原理

众所周知 只要是射击类FPS类游戏都有自瞄爆头的功能 有的人会说,既然大家都知道,游戏公司也必然知道 那么为什么不把这个BUG修复掉呢 实际上并不是不修复,而是这个根本不算是BUG 为什么这么说呢? 原因很简单,手动可以射击,外挂也可以射击,手动射击是受肉眼影响准确度的,而…

高等数学基础篇(数二)之多元函数的微分法

多元函数微分法: 一、复合函数微分法 二、隐函数微分法 三、复合函数偏导数与全微分 四、隐函数偏导数与全微分 目录 一、复合函数微分法 二、隐函数微分法 三、复合函数偏导数与全微分 四、隐函数偏导数与全微分 一、复合函数微分法 二、隐函数微分法 补充…

了解游戏相关知识

个人笔记(整理不易,有帮助点个赞) 笔记目录:学习笔记目录_pytest和unittest、airtest_weixin_42717928的博客-CSDN博客 个人随笔:工作总结随笔_8、以前工作中都接触过哪些类型的测试文档-CSDN博客 目录 一&#xff1a…

如果医生向软件伪创新学习-UMLChina建模知识竞赛第5赛季第8轮

DDD领域驱动设计批评文集 做强化自测题获得“软件方法建模师”称号 《软件方法》各章合集 参考潘加宇在《软件方法》和UMLChina公众号文章中发表的内容作答。在本文下留言回答。 只要最先答对前3题,即可获得本轮优胜。 如果有第4题,第4题为附加题&am…

Ant Design Vue中的table与pagination的联合使用

效果&#xff1a; 代码&#xff1a; <a-table:dataSource"dataSource":columns"columns":pagination"pagination"change"handleTableChange":scroll"{ x: 100%, y: 600 }"> </a-table> export default defin…

物联网学习2、MQTT 发布/订阅模式介绍

MQTT 发布/订阅模式 发布订阅模式&#xff08;Publish-Subscribe Pattern&#xff09;是一种消息传递模式&#xff0c;它将发送消息的客户端&#xff08;发布者&#xff09;与接收消息的客户端&#xff08;订阅者&#xff09;解耦&#xff0c;使得两者不需要建立直接的联系也不…

【redis】MISCONF Redis is configured to save RDB snapshots报错解决方案

【redis】MISCONF Redis is configured to save RDB snapshots报错解决方案 大家好 我是寸铁&#x1f44a; 总结了一篇【redis】MISCONF Redis is configured to save RDB snapshots报错解决方案✨ 喜欢的小伙伴可以点点关注 &#x1f49d; 前言 今天在登录redis时&#xff0c…

环境配置——已解决ModuleNotFoundError: No module named ‘cv2’(python)

一、报错代码 在网上搜到不少用Python处理图形的代码&#xff0c;于是复制别人的代码直接运行却报错&#xff0c;得到的结果却是&#xff1a;已解决ModuleNotFoundError: No module named ‘cv2’。&#xff08;当时心里瞬间凉了一大截&#xff0c;最后顺利解决了&#xff0c;顺…

pandas ( day3)

一. Cov() 协方差 corr&#xff08;&#xff09;是 相关系数 &#xff0c;他将 协方差 cov 进一步压缩在 -1 ~ 1 之间 &#xff0c; 1 是正相关0 是不相干-1 是 负相关 A B C 0 68 95 66 1 99 87 67 2 87 87 91 3 59 87 72 4 59 91 79 5 82 88 50 6 88 74 85 7 95 67 72 8 …

Sentinel入门流控编码方式

系列文章目录 文章目录 系列文章目录前言前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看懂了就去分享给你的码吧。 随着微服务的流行,服务和服务之间的稳定性变得越来越重要。Sentinel 以流…

Dapr(一) 基于云原生了解Dapr

(这期先了解Dapr&#xff0c;之后在推出如何搭建Dapr&#xff0c;以及如何使用。) 目录 引言&#xff1a; Service Mesh定义 Service Mesh解决的痛点 Istio介绍 Service Mesh遇到的挑战 分布式应用的需求 Multiple Runtime 理念推导 Dapr 介绍 Dapr 特性 Dapr 核心…

算法系列--递归,回溯,剪枝的综合应用(1)

&#x1f495;"对相爱的人来说&#xff0c;对方的心意&#xff0c;才是最好的房子。"&#x1f495; 作者&#xff1a;Lvzi 文章主要内容&#xff1a;算法系列–递归,回溯,剪枝的综合应用(1) 大家好,今天为大家带来的是算法系列--递归,回溯,剪枝的综合应用(1) 1.全排…

成都直播产业园有哪些特色服务

在成都这片热土上&#xff0c;天府锋巢直播产业基地以其特色服务独树一帜&#xff0c;成为了引领直播行业的先锋。 一、天府锋巢直播产业基地的特色服务&#xff0c;首先体现在其完善的产业链整合能力上。 作为西南大型的成都直播产业园区&#xff0c;这里不仅汇聚了众多优秀…

【C++杂货铺】详解list容器

目录 &#x1f308;前言&#x1f308; &#x1f4c1; 介绍 &#x1f4c1; 使用 &#x1f4c2; 构造 &#x1f4c2; 迭代器iterator &#x1f4c2; capacity &#x1f4c2; modifiers &#x1f4c2; 迭代器失效 &#x1f4c1; 模拟实现 &#x1f4c2; 迭代器的实现 &#x…

可视化图表:漏斗图,分析转化率的时候最常用。

一、漏斗图的定义和构成 漏斗图是一种可视化工具&#xff0c;用于展示数据的层级关系和变化趋势。它由一系列水平条形组成&#xff0c;每个条形的宽度逐渐减小&#xff0c;呈现出漏斗的形状。漏斗图通常用于分析和比较不同层级的数据&#xff0c;例如销售渠道的转化率、招聘流…

Redis面试题汇总

一、动力节点Redis的书 1. Redis有哪些特性&#xff1f; 2. Redis的IO模型是单线程还是多线程&#xff1f; Redis4.0版本以前是纯粹的单线程模型&#xff1b;从4.0版本开始&#xff0c;处理客户端请求的仍然是单线程模型&#xff0c;但像持久化、对AOF的rewrite、对失效连接的…

Aspect使用

今天在敲苍穹外卖的时候用到了 SpringBoot 中的 AOP&#xff0c;这里简单记录下使用过程。 背景 目前的CreateTime、CreateUser、UpdateTime、UpdateUser等字段都是在插入和更新操作时手动设置&#xff0c; 每次都要手动操作太麻烦&#xff0c;可以把这几个操作放到一块包装一…