大模型时代目标检测任务会走向何方？

大模型时代目标检测任务会走向何方？

news2026/2/12 2:13:17

参考：

大模型时代目标检测任务会走向何方？

细数从常见的目标检测到现在 MLLM 盛行的时代，和 Object Detection 的任务以及近期涌现的新任务。>>加入极市CV技术交流群，走在计算机视觉的最前沿

你或许很好奇，现在目标检测都在干啥？在大模型时代有啥花样可以做的？作为研究者还有啥可以挖的吗？作为从业者有没有好的东西可以借鉴？

如果你有这些疑问，那么这篇文章很适合你。

其实这篇文章是想说明下从我们常见的目标检测到现在 MLLM 盛行的时代，和 Object Detection 任务有哪些？目前又涌现了哪些新的任务？是否有很大的实际价值？希望能够打开下大家思路！！！

1 Object Detection

经典目标检测大家应该非常熟悉了，一般指的就是闭集固定类别的检测。

2 Open Set/Open World/OOD

这个任务是指在实际应用上可以检测任何前景物体，但是有些不需要预测类别，只要检测出框就行。在很多场合也有应用场景，有点像类无关的增量训练。

unknown 就是模型预测的不知道类别的检测结果。

3 Open Vocabulary

也是开放集任务，相比于 open set，需要知道不在训练集类别中的新预测物体类别。这类模型通常都需要接入文本作为一个模态输入，因为开放词汇目标检测的定义就是给定任意词汇都可以检测出来。

训练时候通常是要确保训练集和测试集的类别不能重复，否则就是信息泄露了，但是训练和测试集图片是否重复其实也没有强制限制。

可以看出 OVD 任务更加贴合实际应用，文本的描述不会有很大限制，同一个物体你可以采用多种词汇描述都可以检测出来。OVD 任务是一个比较实用的，但是目前还没有出现开源的超级强的 OVD 算法(这个超强是指的对比 SAM 来说，极强的 open 检测能力)

4 Phrase Grounding

这个任务也叫做 phrase localization。给定名词短语，输出对应的单个或多个物体检测框。如果是输入一句话，那么就是定位这句话中包括的所有名词短语。在 GLIP 得到了深入的研究。

从上图可以看出，Phrase Grounding 任务是包括了 OVD 任务的。常见的评估数据集是 Flickr30k Entities

5 Referring Expression Comprehension

简称 REC,有时候也称为 visual grounding。给定图片和一句话，输出对应的物体坐标，通常就是单个检测框。

常用的是 RefCOCO/RefCOCO+/RefCOCOg 三个数据集。是相对比较简单的数据集。这个任务侧重理解。

6 Description Object Detection

描述性目标检测也可以称为广义 Referring Expression Comprehension。为何叫做广义，这就要说道目前常用的

Referring Expression Comprehension 存在的问题了：

REC 数据集通常都是指代一个物体，不太符合实际
REC 数据集没有负样本，也就是每句话一定对应了图片中的物体，这样训练的模型会存在很大的幻觉
REC 数据集通常都是正向描述，例如上图的一条在图片左边的狗，但是没有反向描述，例如一条没有被绳子牵引着在外面的狗

基于此，Described Object Detection 论文提出了这个新的数据集，命名为 DOD。类似还有 gRefCOCO

其实还有一个更细致的任务叫做：Open-Vocabulary Visual Grounding 和 Open-Vocabulary Phrase Grounding，来自论文 OV-VG

可以看出这个任务重点是想特意区分类别泄露问题，但是由于大数据集训练时代，这个情况是无法避免的。

7 Caption with Grounding

这个任务的含义是：给定图片，要求模型输出图片描述，同时对于其中的短语都要给出对应的 bbox

有点像 Phrase Grounding 的反向过程。这个任务可以方便将输出的名称和 bbox 联系起来，方便后续任务的进行。

8 Reasoning Intention-Oriented Object Detection

意图导向的目标检测，和之前的 DetGPT 提出的推理式检测，我感觉非常类似。

DetGPT 中的推理式检测含义是：给定文本描述，模型要能够进行推理，得到用户真实意图。

例如我想喝冷饮，LLM 会自动进行推理解析输出冰箱这个单词，从而可以通过 Grounding 目标检测算法把冰箱检测出来。模型具备推理功能。

而 RIO 我觉得也是一样，来自论文 RIO: A Benchmark for Reasoning Intention-Oriented Objects in Open Environments，想做的事情也是一样

9 基于区域输入的理解和 Grounding

这个是一个非常宽泛的任务，表示不仅可以输入图文模态，还可以输入其他任意你能想到的模态，然后进行理解或者定位相关任务。

最经典的任务是 Referring expression generation：给定图片和单个区域，对该区域进行描述。常用的评估数据集是 RefCOCOg

现在也有很多新的做法，典型的如 Shikra 里面提到的 Referential dialogue，包括 REC，REG，PointQA，Image Caption 以及 VQA 5 个任务

Apple 也提出了新的可交互的设计

其实文本、bbox 和图片配合，还可以实现很多任务，但是由于都是比较特殊或者不是很主流，这里就没有写了。

10 结尾

可能还漏掉了一些，欢迎大家留言评论。后续可以讲讲这些任务应该如何解决？每个任务到底是咋评测的，通常的做法是咋样的。

现在都是大数据训练时代，评测虽然非常有用，但是很难避免数据泄露问题，如果作者不开源，你根本无法知道到底是模型性能还是数据泄露，这个一个值得思考的问题...，而这个问题也很难解，因为作者不开源，你也没有精力去做复现...

由于我们也没有做过工业，不知道大家认为哪个任务才是大家真正需要的？或者说这些任务还不够还可以扩展以满足实际需求，欢迎留言和交流！！！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1160979.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

人工智能时代八大类算法你了解吗？（文末包邮送书6本）

人工智能时代八大类算法你了解吗？（文末包邮送书6本）

文章目录本文导读1. 关联规则分析2. 回归分析3. 分类分析4. 聚类分析5. 集成学习6. 自然语言处理7. 图像处理8. 深度学习9. 书籍推荐（包邮送书6本） 本文导读从零带你了解人工智能时代需要掌握的8大类算法，包括基础理论、关联规则分析、回归…

阅读更多...

Vue 创建自定义 ref 函数

Vue 创建自定义 ref 函数

Vue 创建自定义 ref 函数 customRef customRef 用于：创建一个自定义的 ref 函数，并对其依赖项跟踪和更新触发进行显式控制。使用 customRef 创建自定义 ref 函数 // 创建自定义 ref 函数 function myRef(value) {return customRef((track, trigger) &g…

阅读更多...

自动曝光算法（第一讲）

自动曝光算法（第一讲）

序言失业在家无事，想到以后换方向不做自动曝光了，但是自动曝光的工作经验也不能浪费了，准备写一个自动曝光的教学，留给想做自动曝光的小伙伴参考。笔者当时开发自动曝光没有按摄影的avtvevbvsv公式弄，而是按正确的增…

阅读更多...

[架构之路-251/创业之路-82]：目标系统 - 纵向分层 - 企业信息化的呈现形态：常见企业信息化软件系统 - 商业智能、决策支持系统、知识管理

[架构之路-251/创业之路-82]：目标系统 - 纵向分层 - 企业信息化的呈现形态：常见企业信息化软件系统 - 商业智能、决策支持系统、知识管理

目录前言： 一、企业信息化的结果：常见企业信息化软件 1.1 商业智能 - 管理层 1.1.1 什么是商业智能What 1.1.1.1 商业智能常见工具 1.1.2 为什么需要商业智能Why？ 1.1.3 谁需要商业智能who？ 1.1.4 商业智能在企业管理中的…

阅读更多...

微信小程序开发（搭建）

微信小程序开发（搭建）

首先去微信开发者网站下载微信开发者工具然后打开电脑命令框wincmd 全局安装 vue-clinpm install --global vue-cli创建一个基于 mpvue-quickstart 模板的新项目vue init mpvue/mpvue-quickstart my-project安装依赖cd my-projectnpm install启动构建npm run dev 记得为vue配…

阅读更多...

Docker dnmp 多版本php安装 php8.2

Docker dnmp 多版本php安装 php8.2

Laravel9 开发需要用到php8.1以上的版本，而dnmp只支持到php8.0。安装php8.2的步骤如下： 1. 从/services/php80目录复制一份出来，重命名为php82，extensions目录只保留 install.sh 和 install-php-extensions 这两个文件 2. 修改.en…

阅读更多...

C++使用栈实现简易计算器（支持括号）

C++使用栈实现简易计算器（支持括号）

使用C实现，使用系统自带stac 支持括号处理支持小数计算支持表达式有效性检查支持多轮输入。运行结果示例： 代码： #include <iostream> #include <stack> #include <string> using namespace std;//判断是否是数字字符 …

阅读更多...

手动仿射变换

手动仿射变换

开发环境： Windows 11 家庭中文版Microsoft Visual Studio Community 2019VTK-9.3.0.rc0vtk-example参考代码目的：学习与总结 demo解决问题：通过仿射控件vtkAffineWidget对目标actor进行手动的拖拽的仿射变换关键类：vtkAffineWi…

阅读更多...

PostGIS轨迹分析——简化轨迹

PostGIS轨迹分析——简化轨迹

需求对轨迹线进行简化，并将原始轨迹上的两个特征点拉取到简化后的轨迹上简化线红色线是简化后的轨迹线，蓝色线是原始轨迹，有两个特征点知识点： st_makeline函数将点连成线st_simplify简化线函数，其中第二个参数为坐标系的单位，0.002度大概代表0.002x1.11x10^5≈22…

阅读更多...

使用 ElementUI 组件构建 Window 桌面应用探索与实践（WinForm）

使用 ElementUI 组件构建 Window 桌面应用探索与实践（WinForm）

零、实现原理与应用案例设计 1、原理基础实例 Demo 可以参照以下这篇博文， 基于.Net CEF 实现 Vue 等前端技术栈构建 Windows 窗体应用-CSDN博客文章浏览阅读291次。基于 .Net CEF 库，能够使用 Vue 等前端技术栈构建 Windows 窗体应用https://blog.c…

阅读更多...

通过xshell传输文件到服务器

通过xshell传输文件到服务器

一、user is not in the sudoers file. This incident will be reported. 参考链接： [已解决]user is not in the sudoers file. This incident will be reported.(简单不容易出错的方式)-CSDN博客简单解释下就是： 0、你的root需要设置好密码 sudo …

阅读更多...

java 申请堆外内存吗？ java如何使用堆外内存？

java 申请堆外内存吗？ java如何使用堆外内存？

java 申请堆外内存吗？ java如何使用堆外内存？ Java堆外内存管理 JVM可以使用的内存分外2种：堆内存和堆外内存： 堆内存完全由JVM负责分配和释放，如果程序没有缺陷代码导致内存泄露，那么就不会遇到java.lan…

阅读更多...

【DriveGPT学习笔记】自动驾驶汽车Autonomous Vehicle Planning

【DriveGPT学习笔记】自动驾驶汽车Autonomous Vehicle Planning

原文地址：DriveGPT - Lei Maos Log Book 自动驾驶汽车的核心软件组件是感知、规划和控制。规划是指在给定场景或一系列场景的情况下为自动驾驶汽车制定行动计划的过程，以实现安全和理想的自动驾驶。用于规划的场景是从感知软件组件获得的。计划的行动将…

阅读更多...

Node学习笔记之跨域

Node学习笔记之跨域

1.跨域是什么？ 跨域，是指浏览器不能执行其他网站的脚本。它是由浏览器的同源策略造成的，是浏览器对JavaScript实施的安全限制。同源策略限制了一下行为： Cookie无法读取DOM 和 JS 对象无法获取Ajax请求发送不出去同源是指&#…

阅读更多...

如何通过 NAT 模式连接VMware虚拟机以及存在和不存在ens33文件的解决方案

如何通过 NAT 模式连接VMware虚拟机以及存在和不存在ens33文件的解决方案

文章目录前言1 VMware配置1.1 打开vmvare虚拟网络编辑器1.2 取消使用本地DHCP1.3 NAT设置 2 虚拟机的配置2.1 存在ens332.2.1 修改ifcfg-ens33文件2.2.1.1 为什么设置BOOTPROTOstatic？2.2.1.2 如何选择使用static还是dhcp？ 2.2.2 关闭防火墙 2.2 不存在…

阅读更多...

王道p18 3.对长度为n的顺序表L，编写一个时间复杂度为 O(n)、空间复杂度为 O(1)的算法，该算法删除线性表中所有值为x的数据元素。（c语言代码实现）

王道p18 3.对长度为n的顺序表L，编写一个时间复杂度为 O(n)、空间复杂度为 O(1)的算法，该算法删除线性表中所有值为x的数据元素。（c语言代码实现）

视频讲解在这里（谢谢各位大佬） 👇 p18 第三题数据结构课后算法题_哔哩哔哩_bilibili 本题代码如下 void deletex(struct sqlist* s, int x) {int k 0;int i 0;for (i 0; i < s->length; i){if (s->a[i] ! x)//只要不等于x&…

阅读更多...

rcore 笔记批处理系统邓氏鱼

rcore 笔记批处理系统邓氏鱼

批处理系统批处理系统 (Batch System) ，它可用来管理无需或仅需少量用户交互即可运行的程序，在资源允许的情况下它可以自动安排程序的执行，这被称为“批处理作业”。特权机制实现特权级机制的根本原因是应用程序运行的安全性不可充分信…

阅读更多...

Linux-----nginx的简介，nginx搭载负载均衡以及nginx部署前后端分离项目

Linux-----nginx的简介，nginx搭载负载均衡以及nginx部署前后端分离项目

目录 nginx的简介是什么 nginx的特点以及功能 Nginx负载均衡下载安装负载均衡 nginx的简介是什么 Nginx是一个高性能的开源Web服务器和反向代理服务器。它的设计目标是为了解决C10k问题，即在同一时间内支持上万个并发连接。 Nginx采用事件驱动的异…

阅读更多...

基于nodejs+vue啄木鸟便民维修网站设计与实现

基于nodejs+vue啄木鸟便民维修网站设计与实现

目录摘要 I ABSTRACT II 目录 II 第1章绪论 1 1.1背景及意义 1 1.2 国内外研究概况 1 1.3 研究的内容 1 第2章相关技术 3 2.1 nodejs简介 4 2.2 express框架介绍 6 2.4 MySQL数据库 4 第3章系统分析 5 3.1 需求分析 5 3.2 系统可行性分析 5 3.2.1技术可行性：…

阅读更多...

树结构及其算法-二叉树节点的删除

树结构及其算法-二叉树节点的删除

目录树结构及其算法-二叉树节点的删除 C代码树结构及其算法-二叉树节点的删除二叉树节点的删除操作稍为复杂，可分为以下3种情况。删除的节点为树叶，只要将其相连的父节点指向NULL即可。删除的节点只有一棵子树。删除的节点有两棵子树。要删除节点…

阅读更多...

推荐文章

最新文章