ICRA 2023 | 具身感知中学习探索信息丰富的轨迹和样本

news2024/9/22 1:01:48

我们正在见证感知模型的巨大进步,特别是在大规模互联网图像上训练的模型。 然而如何有效地将这些感知模型推广到具身环境的研究还远远不够,这些研究将有助于推进各种相关应用(例如家用机器人)的发展。为了使用尽可能少的标注,有效地收集具身场景中的训练数据成为该任务的主要挑战。

与基于固定数据集的视觉学习不同,具身代理可以在虚拟/真实的3D空间中移动并与环境交互。此外,不像静态感知模型那样将每一个训练样本单独处理,代理在空间中移动时可以从不同的视角对同一个物体进行观测。因此,有效地收集训练样本意味着需要学习一种探索策略,来鼓励代理探索预训练模型表现不佳的区域。

字节跳动的研究者提出了一种新的具身感知中探索信息丰富的轨迹的方法。它通过引入语义分布不一致性和语义分布不确定性奖励来训练探索策略。此外,它通过语义分布不确定性在所学到的轨迹上选择难样本,这可以进一步筛选预训练模型识别良好的样本。实验结果表明,所提出的方法在具有挑战性的Matterport数据集上取得了最好的结果,在真机实验中也证明了该方法的稳健性。

 

一、算法介绍

学习的目标是训练拥有在互联网图像上预训练过的感知模型的具身代理去有效地探索信息丰富的轨迹和样本,然后针对收集到的数据微调感知模型,使其可以很好地应用到新环境中。如上图所示,模型主要包括两部分,探索部分旨在利用3D语义分布图,以自监督的方式通过语义分布不一致性和不确定性来学习探索轨迹。此外,对学习到轨迹利用不确定性来收集轨迹上的难样本。对收集到的图像进行语义标注后,在感知学习阶段微调感知模型。

3D语义分布建图

在每个时间步,代理的观测空间包含一个RGB观测图像、一个深度图像和一个三自由度传感器姿态。上图左显示了一个时间步长的语义映射过程,对于观测到的图像,使用预训练过的感知模型(例如:Mask RCNN)来预测其中看到的对象的语义类别。然后使用深度观测去计算点云,点云中的每个点都对应相应的语义预测,然后使用基于传感器位姿的可微几何变换将其转换到3D空间来获得体素表示,随后使用指数移动平均来聚合随着时间变化同一位置的体素表示,从而得到3D语义分布图。

探索信息丰富的轨迹

该工作提出了两种基于分布的奖励方式,语义分布不一致奖励被定义为当前预测与3D语义分布图之间的KL散度,它鼓励机器人不仅探索新对象而且探索跨视角具有不同预测的对象。语义不确定性奖励鼓励代理去探索预测为两个类别的置信度比较接近的对象。

二、实验结果

该研究工作在基于Habitat模拟器的Matterport3D数据集上进行了广泛的实验。实验结果表明所提出的模型在具身检测和分割上都优于以前最先进的方法。

 

消融实验结果如上表所示,可以发现,跨视角的语义分布不一致性和语义分布不确定性都有助于探索策略的学习;基于语义分布不确定性筛选的难样本可以更有效地微调模型;通过基于最新微调过的感知模型迭代训练探索策略,性能可以进一步提升。

为了验证所提出的探索策略和难样本选择方法是否可以收集到具有不一致或不确定语义分布的观测图像,该工作从 Matterport3D数据集和真实环境中可视化了探索的轨迹和采样的图像。可以发现,第一行中沙发被检测为不同的对象(椅子/沙发),此外机器人从不同视角观测到不同的分布。第二行中,沙发被检测为沙发和椅子的得分几乎接近。通过收集这些预训练感知模型难以识别的观测图像并进行标注,可以更好地微调模型。

参考文献

[1] Chaplot D S, Dalal M, Gupta S, et al. Seal: Self-supervised embodied active learning using exploration and 3d consistency[J]. Advances in neural information processing systems, 2021, 34: 13086-13098.

[2] Chaplot D S, Jiang H, Gupta S, et al. Semantic curiosity for active visual learning[C]//Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part VI 16. Springer International Publishing, 2020: 309-326.

[3] Chaplot D S, Gandhi D P, Gupta A, et al. Object goal navigation using goal-oriented semantic exploration[J]. Advances in Neural Information Processing Systems, 2020, 33: 4247-4258.

[4] Fang Z, Jain A, Sarch G, et al. Move to see better: Self-improving embodied object detection[J]. arXiv preprint arXiv:2012.00057, 2020.

作者:Ya Jing

Illustration by IconScout Store from IconScout

-TheEnd-

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/416750.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RabbitMQ 安装体验

前言 RabbitMQ是一个开源的遵循 AMQP协议实现的基于 Erlang语言编写,即需要先安装部署Erlang环境再安装RabbitMQ环境。 一、Erlang下载安装 https://packagecloud.io/rabbitmq/erlang 上执行命令 此时,Erlang的rpm包下载完成,见下图。 wg…

Servlet/Web开发概述/Http响应

一、web开发概述 学习web开发,需要先安装一台web服务器,将开发好的web项目部署在web服务器中供外界访问. Web服务器是指驻留于因特网上某种类型计算机的程序,可以放置资源文件,别人可以访问、服务器可以做出响应: 可…

基于PCA与LDA的数据降维实践

基于PCA与LDA的数据降维实践 描述 数据降维(Dimension Reduction)是降低数据冗余、消除噪音数据的干扰、提取有效特征、提升模型的效率和准确性的有效途径, PCA(主成分分析)和LDA(线性判别分析&#xff0…

centos7怎么查看防火墙以及添加白名单

方法一:systemctl status firewalld 防火墙的开启、关闭、禁用命令 (1)设置开机启用防火墙:systemctl enable firewalld.service (2)设置开机禁用防火墙:systemctl disable firewalld.servic…

积化和差公式推导

积化和差公式是初等数学三角函数部分的一组恒等式,积化和差公式将两个三角函数值的积化为另两个三角函数值的和的常数倍,达到降次的作用。 基本上记不住这好几个哥们,不过幸运的是,利用诱导公式可以一式生万式子,记住一个就好了 式子1:sin⁡α∗cos⁡β1…

【3D建模工具】上海道宁与McNeel为您提供强大的专业3D造型软件

Rhino可以对 NURBS曲线、曲面、实体、 细分几何图形 (SubD)、点云和多边形网格 进行创建、编辑、分析、记录、 渲染、动画制作与转换 只要硬件条件允许 不受复杂度、阶数与尺寸大小的限制 Rhino 7使用SubD工具 可以建立有机形状 使用Rhino.Inside.Revit 做为Revit附加…

2023MathorCup数模A题思路数据代码论文【全网最全分享】

文章目录赛题思路赛题详情参赛建议(个人见解)选择队友及任务分配问题(重要程度:5星)2023MathorCup数模A题思路数据论文代码【最新】赛题思路 (赛题出来以后第一时间在CSDN分享) 最新进度在文章最下方卡片,…

kruskal重构树

一,定义 kruskal是求最小生成树的一种算法。最小生成树 但是这种结合并查集的特殊方法给了他许多特殊的性质。可以用于解决树上瓶颈边权之类的问题 结合这种算法而诞生的就是——kruskal重构树 二,建树思路及其性质 kruskal求最小生成树是将边权小的…

【超详细】小白初探FME--获取等时圈

在规划分析过程中,往往会涉及等时圈的概念。什么是等时圈呢?小编帮你百度过了,网上的说法是:等时圈是指从某点出发,以某种交通方式在特定时间内能到达的距离覆盖的范围。比如我们在规划设计中接触到的15分钟生活圈就是…

HTML5支持的视频文件格式和音频文件格式有哪些?

在 HTML5 标准中, 我们有了新的 <audio> 和 <video> 标签, 分别可以引入视频和音频文件的标签 那么这些标签又可以支持哪些文件格式呢 ? 格式支持 视频文件格式 MP4&#xff1a;MPEG-4 Part 14&#xff0c;支持H.264编码。几乎所有的浏览器都支持该格式。 Web…

springboot+netty+mqtt实现

具体实现前言MQTT协议概念组成部分实现mqtt协议测试其他前言 首先说明一下&#xff0c;netty实现并封装了mqtt协议&#xff0c;同时也为其写好了编解码器&#xff0c;但是再了解并搭建之前&#xff0c;尤其是还不了解netty和mqtt的同学&#xff0c;必须要清楚一件事&#xff1…

2023MathorCup数学建模比赛的思路汇总帖

更新时间【4.13 19&#xff1a;45】ABCD均已更新&#xff0c;选题指导已更新&#xff0c;速看&#xff01;后续会出各题详细思路及代码&#xff01; 这里是小云的2023MathorCup数学建模比赛的思路汇总帖&#xff0c;比赛开始后将实时更新~ 竞赛共4道题目&#xff08;A题、B题…

ELF 文件格式 ------- 符号表

1. 符号的数据结构 typedef struct elf64_sym {Elf64_Word st_name; /* 该符号的名字在字符串表中的起始下标 */unsigned char st_info; /* 该符号的类型以及作用域信息 */unsigned char st_other; /* 暂未使用 */Elf64_Half st_shndx; /* 该符号所在的 section 的下标&…

IDEA安装spotbugs插件替代findbugs插件

相信最近想在IDEA上安装findbugs插件的朋友&#xff0c;遇到与我一样的问题&#xff0c;findbugs与IDEA不兼容&#xff1a; https://plugins.jetbrains.com/plugin/3847-findbugs-idea 主要是FindBugs插件已经不更新了&#xff0c;它最新版本停留在2016年发布的1.0.1&#xff0…

百度文心一言可以完胜ChatGPT的4点可能性

文心一言&#xff0c;百度全新一代知识增强大语言模型&#xff0c;文心大模型家族的新成员&#xff0c;能够与人对话互动&#xff0c;回答问题&#xff0c;协助创作&#xff0c;高效便捷地帮助人们获取信息、知识和灵感。但说实话&#xff0c;很多人拿他与ChatGPT相对比&#x…

RabbitMQ( 发布订阅模式 ==> DirectExchange)

本章目录&#xff1a; 何为DirectExchangeDirectExchange具体使用一、何为DirectExchange 在上一篇文章中&#xff0c;讲述了FanoutExchange&#xff0c;其中publish向交换机发送消息时&#xff0c;我们并没有指定routkingKey&#xff0c;如下图所示 我们看看官方文档 之前使…

【教学类-32-01】十二生肖1.0版(绘画+手工+排序+分类+玩牌)(中班:偏科学-数)

作品展示 背景需求——从数字到图片 最佳孩子们做Python纸类&#xff08;数学&#xff09;的频率比较高。但都是数字类&#xff08;加减法、门牌号、火车箱、电话号码等&#xff09;我想翻新花样&#xff0c;设计新的内容&#xff0c;就想到了水果图片、动物图片。 百度图片找…

大数据技术之DataX

目录 第一章 业务数据同步策略 1.1 全量同步策略 1.2 增量同步策略 1.3 数据同步策略的选择 第2章 DataX介绍 2.1 DataX概述 第3章 DataX架构原理 3.1 DataX的设计理念 3.2 DataX框架设计 3.3 DataX支持的数据源 3.4 DataX运行流程 3.5 DataX调度策略思路 3.6 Data…

数据结构和算法学习记录——二叉树的存储结构二叉树的递归遍历(顺序存储结构、链表存储结构、先序中序后序递归遍历)

目录 顺序存储结构 链表存储结构 二叉树的递归遍历 先序递归遍历 中序递归遍历 后序递归遍历 先序遍历路线图 中序遍历路线图 后序遍历路线图 设想一下二叉树要用什么样的方式来存储&#xff0c;一种是用数组&#xff0c;一种是用链表。 顺序存储结构 用数组&…

IDEA新手入门常用快捷键,方便软件构造

1. Ctrlo快速找方法 2. Alt EnTER 对这个代码快速智能补全trycatch 对这个快速加入要写的接口方法show 3. 使用Ctrl /&#xff0c; 添加行注释 4. 输入psvm 按Tab&#xff0c;自动生成void main 输入souf 按Tab就是System.out.printf() 5. CtrlF12 查看参考代码内部方法…