OSSID: Online Self-Supervised Instance Detection by (And For) Pose Estimation

news2025/1/11 6:00:54
       许多机器人操作算法都需要 实时目标姿态估计。然而,最先进的目标姿态估计方法是针对一组特定的对象进行训练的;因此,这些方法需要 重新训练 以估计每个新对象的姿势。
       本文提出了 OSSID 框架,利用 慢速零样本 姿态估计器 来 自监督快速检测算法的训练。然后可以使用这个快速检测器来过滤姿势估计器的输入,从而大大提高其推理速度。这种自监督训练在两个广泛使用的 目标姿态估计 和 检测数据集上超过了现有 零样本检测方法 的性能,无需任何人工注释。此外,由于 能够过滤掉大部分图像,因此所得到的姿势估计方法具有明显更快的推理速度。
       因此,本文的 检测器自监督在线学习方法(使用来自慢速姿态估计器的伪标签进行训练)可以 实时进行准确的姿态估计,而无需人工注释。
       目标实例检测 和 姿态估计 对于许多机器人操作任务至关重要。与检测 给定语义目标类别(例如人、汽车或自行车)的 所有实例 的标准计算机视觉任务不同,对于机器人操作,机器人需要 检测特定的目标实例
       当我们想将检测器和姿态估计器应用于新目标时,需要 收集新数据,并且需要在这些新目标实例上 重新训练或 微调网络。耗时耗力
       为了解决这个问题,已经开发了许多 zero-shot 零样本姿势估计器。然而,大多数零样本姿态估计器只评估稀疏、整洁的场景,在杂乱环境中对此类方法的评估表明,即使添加了真实边界框或真实翻译作为输入,此类方法也无法提供合理的性能。太慢,实时性不够好
       本文探索了如何 将 零样本目标检测器 与 零样本姿态估计器 结合,以提高性能,而不会损失准确性。零样本目标检测器将姿态估计 集中在 检测到的边界框内 图像的较小区域上,而不是处理整个图像。
       使用 零样本姿态估计器 使 检测器 适应新物体和看不见的环境
       零样本姿态估计的慢速方法 为 训练 快速目标检测器 提供了免费和高质量的伪真值
       OSSID,这是一种 通过姿态估计 进行目标实例检测的 自监督学习流程。零样本姿态估计网络的结果 用于在线微调零样本检测器。然后检测结果 反过来 提供目标边界框 并 减少姿势估计的搜索空间。无需任何手动注释,检测器和姿态估计器都变得更好更快。
       本文提出了 OSSID,一种 在线自监督实例检测框架,使用零样本姿态估计流程 在测试环境中生成伪真值检测和分割标签。在执行自监督在线学习之后,所得到的目标实例检测和姿态估计方法在速度和准确度上都大大优于基线。我们假设目标对象的 3D 网格模型可用;使用 3D 重建软件 [10]-[14] 可以轻松获得 3D 目标网格模型,只需几分钟的开销。
       结果表明,使用零样本姿态估计器的在线自监督学习 可以帮助检测器 快速适应新物体和新环境。此外,检测器减少了 6D 姿势的搜索空间,并显着提高了姿势估计的推理速度。
       • 零样本姿态估计:基于手工特征的经典方法 不执行学习,因此对不同的目标实例 本质上是零样本的。基于 PPF 的方法的推理速度比深度学习方法慢得多(通常慢一个数量级),并且不再匹配最近深度学习方法的准确性。
                               尽管用于 6D 姿态估计的深度学习方法已经取得了非常准确的结果,但大多数此类方法都是 针对特定目标 进行训练的,并且不会在没有重新训练的情况下泛化到看不见的对象,这可能需要数十个 GPU 天。
                               本文使用 自监督的在线学习 来训练 零样本检测器 来过滤 ZePHyR 的输入,从而显着提高其性能,而无需任何人工注释。
       • 零样本目标检测:在零样本或少样本目标检测上的 大部分工作都集中在 类级别的语义目标检测上。然而,机器人代理通常 需要在杂乱的环境中 定位特定的目标实例。传统方法使用手工制作的特征和模板匹配来解决这个问题。本文的自监督学习流程 可以显着提高检测性能。可以通过 减少目标模板数量 来实现更快的推理速度,同时保持同等或更好的检测精度。
       • 目标检测的域自适应:我们专注于 目标实例检测(而不是类级别检测),并且我们从零样本姿态估计中获得伪标签。
                                       Mitash 等人[44] 提出了一种 使用物理模拟和多视图姿态估计 进行目标检测的自监督在线学习系统。然而,这种方法 依赖于大型合成数据集,并且它们的系统 不能泛化 到合成训练集中不存在的目标。假设环境是干净的桌面或预定义的架子,从而限制了它们的应用范围。
                                       本文的方法 能够适应 看不见的物体,随着测试环境的更多场景被处理,改进了初始零样本检测器。OSSID 已被证明可以 在杂乱的环境中工作,并且能够适应最初训练的目标和 环境之外的目标和环境。
       本文的目标是 在不需要任何人工注释 或 长时间训练 的情况下 训练快速准确的姿势估计器。
       OSSID:在线自监督实例检测,使用 慢速零样本姿态估计器(ZePHyR [9])通过 在线自监督 训练 快速目标实例检测器。然后可以使用这个目标实例检测器来 过滤我们的姿态估计器的输入空间,在不降低整个系统精度的情况下提高推理速度。

       •  零样本姿态估计:将非学习姿势假设生成 与 深度学习的拟合函数 相结合,可以对训练时 从未见过的目标 产生高度准确的姿势估计。这种方法虽然能够在不需要重新训练的情况下推广到任意目标,但需要很长的推理时间才能在整个图像空间中生成潜在的假设。
                               对于目标姿态估计,本文采用 ZePHyR [9],一种 零样本姿态评分算法,无需额外标记或重新训练 即可推广到看不见的物体。在 [9] 之后,我们使用 PPF点对特征 [15] 和 SIFT 特征匹配 [45] 来生成 6D 对象姿态假设。
                               本文 使用 目标检测器 来 过滤 姿势搜索空间,去除输入中不太可能的区域。使用 学习的目标实例检测器 裁剪输入场景,仅使用裁剪区域内的点生成假设。不会在此边界框之外生成假设 减少了 ZePHyR 将评估的假设数量,从而减少了推理时间。不会为检测器边界框之外的区域生成特征,减少了运行时间。显着提高推理速度。
       •  零样本检测:本文希望获得一个可以在新目标上 快速工作的姿态估计系统,这要求用于过滤假设的检测系统也必须快速训练
                               用于 目标实例检测的 零样本方法(例如 DTOID [33])专门设计用于 将目标模板与对场景的观察 进行比较以找到目标对象。对于 DTOID 检测新目标,它只需要目标对象的模板图像。这些模板图像可以通过 渲染目标网格模型的图像 来生成。
                               如果不适应看不见的测试域,网络对分布外测试示例的 泛化能力很差。
                               本文提出了一种用于目标实例检测的在线自监督微调方法。具体来说,我们在目标环境的先前帧上 评估零样本姿态估计器。然后,我们 将这些姿势估计用作自监督的伪标签。给定这些伪标签,我们可以微调目标实例检测器,提高其在目标环境中的性能。然后,这种自监督检测器的集成将通过 过滤姿势估计器的假设来提高整个系统的速度。
       •  在线自监督训练:OSSID,一种自监督学习框架,用于在看不见的测试环境中 在线调整 目标检测器以适应新目标,如图 1 所示。
                               6D 姿态估计器可以预测 刚性目标的 完整状态;因此,零样本姿态估计器可以为训练目标检测器提供免费监督。由于姿势估计器 仅用于训练,因此即使是慢速姿势估计方法也可以使用,因为速度在训练时不太相关。一旦自监督微调完成,目标检测器就会为姿态估计器 提供一个目标区域,从而提高姿态估计器的速度和准确性。
                               本文过滤掉分数小于 20 的姿势假设;我们将得分至少为 20 的姿势假设视为训练目标检测器的伪真值。请注意,我们只考虑给定图像中得分最高的姿势假设,而 忽略了 从场景中同一目标的 多个潜在实例进行训练的可能性。
                               通过将目标模型投影到图像帧中,可以轻松地将 6D 姿势结果转换为 检测边界框 和 分割掩码。因此,姿势估计为训练检测网络(边界框或分割掩码)提供了完全监督,无需任何人工注释。
       图3:目标检测结果用于过滤姿势估计器的输入,从而提高其推理速度。零样本姿态估计器生成的 高分pose被用作伪真值来 自监督检测网络,这有助于检测器适应并获得更好的性能,而无需任何手动标签。在这个过程中,零样本姿态估计器的权重没有改变。
       实验:本文假设 目标网格模型是可用的,但我们不需要任何手动注释或合成数据生成来进行自监督学习。
               本文的目标是 设计一个 无需大量训练数据集 即可 快速训练 的检测和姿态估计系统。因此,我们分别选择 DTOID [33] 和 ZePHyR [9] 作为目标检测和姿态估计的基线方法。
               对于本文的 网络在线学习方法,减少模板数量 对检测网络的性能影响不大,但大大提高了推理速度。当模板数量减少时,原始 DTOID 网络在分割平均 IOU 指标上的性能下降很大。
               如果检测分数低于定义的阈值,则将 使用完整图像 I 进行姿态估计。这种置信度过滤 将拒绝这种低置信度检测,而是 在整个观察中 运行姿态估计器。这导致平均推理速度较慢,但​​性能更好,
               使用伪真值和真正的 真值之间仍然存在差距。然而,标记如此高质量的真值 需要大量的人力。相比之下,我们的自监督学习流程 展示了一种无需手动标记 即可改进检测的方法。
               目标特定,非零样本的方法需要大规模的手动数据注释或合成数据生成来处理新目标,数据生成和训练时间长,而我们的方法可以快速在线适应新目标。此外,我们的方法可以 以自监督的方式 直接在真实数据上进行训练,而不需要手动注释或合成数据集生成
               本文设计了一个 transductive 转导学习流程 [54],其中检测器进行自监督训练,然后在同一组测试图像上进行测试(没有任何注释)。在 离线训练阶段,零样本姿态估计器首先在所有测试图像上运行,然后零样本检测器对姿态估计结果进行自监督训练。
                               尽管此设置可能 无法用于实时姿态估计,但它可用于从 固定数据集 中估计目标的姿态。此外,它提供了我们方法的上限性能,允许我们的方法 从过去和未来的帧中学习(而不是只从过去的帧中学习)。
       零样本姿态估计的显着加速是由于 将姿态搜索空间 从完整观察图像 缩小到 仅检测器得分最高的边界框内的区域。
       随着网络接收到的场景图像越多,检测的准确率越高。结果表明,通过自监督实例检测器 使用新的观察结果 逐渐适应 新的目标和环境,而不需要注释。这开辟了将这种方法应用于感知系统需要适应新环境的机器人操作任务的未来方向。
       Conslusion:本文提出了一种新方法OSSID,它使用 慢速零样本姿态估计器 来训练 快速检测算法,无需任何注释。以这种自监督方式训练的 检测器 显示出对新目标和新环境的 适应能力,并且 在杂乱环境中 超过了类似的 零样本方法的准确性。
                       该检测器可用于过滤 零样本姿势估计器的 搜索空间。这大大减少了姿势估计系统的推理时间,同时保持了良好的精度。
                       本文的方法显示了 在线自监督学习的好处,从而产生了一个可以在 6 分钟内训练的 高性能实时姿态估计系统(对于 LM-O 数据集)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/50523.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OpenGL 图像色调

目录 一.OpenGL 图像色调 1.IOS Object-C 版本1.Windows OpenGL ES 版本2.Windows OpenGL 版本 二.OpenGL 图像色调 GLSL Shader三.猜你喜欢 零基础 OpenGL ES 学习路线推荐 : OpenGL ES 学习目录 >> OpenGL ES 基础 零基础 OpenGL ES 学习路线推荐 : OpenGL ES 学习目录…

Spring | IOC技术之Bean的配置与实例化

👑 博主简介:    🥇 Java领域新星创作者    🥇 阿里云开发者社区专家博主、星级博主、技术博主 🤝 交流社区:BoBooY(优质编程学习笔记社区) 文章目录Bean的基础配置1、id 与 cla…

家电生产线数控机床上下料长臂机器人组设计

目录 摘 要 I ABSTRCT II 前言 III 1.长臂机器人组概况 1 1.1国内外发展状况 1 1.2研究意义 2 1.2.1长臂机器人组研究现状 2 1.2.2长臂机器人组研究方向 3 1.3本课题意义和目的 4 1.3.1本课题的意义 4 1.3.2本课题的目的 4 2.长臂机器人组的组成分类及设计分析 6 2.1 长臂机器人…

【车载开发系列】UDS诊断---诊断故障清除($0x14)

【车载开发系列】UDS诊断—诊断故障清除($0x14) UDS诊断---诊断故障清除($0x14)【车载开发系列】UDS诊断---诊断故障清除($0x14)一.概念定义二.参数说明三.清除内容方式1)清除内容2)…

python接口自动化44- requests 库使用 hook 机制

前言 requests 是 Hooks 即钩子方法,用于在某个框架固定的某个流程执行是捎带执行(钩上)某个自定义的方法。 requests 库只支持一个 response 的钩子,即在响应返回时可以捎带执行我们自定义的某些方法。 可以用于打印一些信息&am…

Unity引擎开发-无人机模拟飞行实现

目 录 摘 要 I Abstract II 一、 绪论 1 (一) 研究背景和研究意义 1 (二) 国内外研究现状 1 (三) 论文组织结构 2 二、 3D游戏技术的知识系统 2 (一) 3D图形库 2 (二&…

UML概述及UML类图详解

一 UML介绍 UML这三个字母的全称是Unified Modeling Language,翻译就是统一建模语言,是一种用于软件系统分析和设计的语言工具,它用于帮助软件开发人员进行思考和记录思路的结果 UML 本身是一套符号的规定,就像数学符号和化学符…

Linux——md5命令

文章目录介绍选项使用案例生成文件md5值文本模式或二进制模式md5值重定向重定向追加md5校验实际开发场景介绍 md5sum命令用于生成和校验文件的md5值。它会逐位对文件的内容进行校验。是文件的内容,与文件名无关,也就是文件内容相同,其md5值相…

CTGU操作系统

CTGU操作系统第一章第二章 Operating-System structures操作系统结构第三章自己看,懒得写了,我也不知道为啥划重点他要把所有PPT过一遍,离谱第一章 第二章 Operating-System structures操作系统结构 第三章自己看,懒得写了&#x…

【能效管理】电力监控系统在某商业数据中心的应用分析

摘要:在电力系统的运行过程中,变电站作为整个电力系统的核心,在保证电力系统可靠的运行方面起着至关重要的作用,基于此需对变电站监控系统的特点进行分析,结合变电站监控系统的功能需求,对变电站电力监控系…

Yoshua Bengio:我的一生

文 | 智商掉了一地2018 年图灵奖获得者、AI 先驱、深度学习三巨头之一、对抗生成网络 GAN、标志性的银灰卷发和浓眉,如果还没猜到的话,当你看到这个封面,一定就会意识到自己在学习的路上,已经或间接或直接地拜读过大佬的著作了。看…

云原生主题学习月|成为社区领学员,解锁专属奖励及超多数量社区学员奖品!

CSDN 已上线亚马逊云科技超过 60 门中文数字化培训课程,希望为学习者提供亚马逊云科技基础技能知识和最佳实践。 每门课程时长从十分钟到几小时不等,由亚马逊云科技专家打造,其中包括最受欢迎的《亚马逊云科技云从业者必修知识》&#xff0c…

为什么 FindFirstFile 会查找短文件名?

FindFirstFile 函数会尝试匹配短文件名和长文件名。这可能会产生一些令人惊讶的结果。例如,如果你查找 “*.htm” ,那么它会返回给你文件 “x.html” ,因为它的短文件名是 “X~1.HTM”。 这确实比较令人感到意外。 为什么 FindFirstFile 会匹…

行业重磅!神策可视化全埋点正式支持 Flutter 平台!

Flutter 框架推出至今,已经在超过 50 万个应用中使用,从 2019 年到现在一直保持着强劲的增长趋势。优秀的性能、跨平台能力和活跃的技术社区使得其愈发受到广大开发者的青睐。而随着 Flutter 的普及和广泛应用,越来越多的企业和开发者对自动高…

答题小程序源码题目选项随机打乱功能分析

答题小程序随机打乱功能分析 通过多年的开发经验及实际使用用户的反馈,答题小程序源码完善了题库选项随机打乱功能,该功能的出现有效避免了用户在答题时不经审题、思索而凭机记忆机械化做出选择的弊端。 那么题库选项随机打乱功能具体是什么样的的呢&…

计算机组成原理期末复习第四章-1(唐朔飞)

计算机组成原理期末复习第四章-1(唐朔飞) ✨欢迎关注🖱点赞🎀收藏⭐留言✒ 🔮本文由京与旧铺原创,csdn首发! 😘系列专栏:java学习 💻首发时间:&am…

Linux零基础快速入门篇

推荐教程:Linux零基础快速入门到精通 操作系统概述 操作系统是计算机软件的一种,它主要负责:作为用户和计算机硬件之间的桥梁,调度和管理计算机硬件进行工作而计算机,如果没有操作系统,就是一堆无法使用的…

嵌入式系统的开发概述

文章目录嵌入式系统开发基本流程嵌入式软件开发嵌入式软件开发的特点和技术挑战嵌入式软件开发环境交叉开发环境软件模拟环境目标板与评估板嵌入式软件开发的可移植性和可重用性嵌入式系统开发基本流程 面向具体应用的嵌入式开发决定了嵌入式开发的方法、流程各有不同&#xf…

C++语法——map与set的封装原理

目录 一.数据类型封装 (一).封装方式 (二).封装后如何取key比较 二.迭代器封装 (一).底层迭代器(红黑树中) ①迭代器 ②迭代器-- (二).begin&end…

【Pandas数据处理100例】(七十三):Pandas使用groupBy()计算每个组的均值

前言 大家好,我是阿光。 本专栏整理了《Pandas数据分析处理》,内包含了各种常见的数据处理,以及Pandas内置函数的使用方法,帮助我们快速便捷的处理表格数据。 正在更新中~ ✨ 🚨 我的项目环境: 平台:Windows10语言环境:python3.7编译器:PyCharmPandas版本:1.3.5N…