【佳佳怪文献分享】通过跨模态监督学习视觉运动

news2025/1/11 0:06:39

标题:Learning Visual Locomotion with Cross-Modal Supervision

作者:Antonio Loquercio, Ashish Kumar, Jitendra Malik

来源:2023 IEEE International Conference on Robotics and Automation (ICRA 2023)

这是佳佳怪分享的第4篇文章

摘要

在这项工作中,我们展示了如何学习仅使用单目 RGB 摄像头和本体感觉的视觉行走策略。由于模拟 RGB 比较困难,我们必须在真实世界中学习视觉。我们从模拟训练的盲目行走策略开始。这种策略可以穿越真实世界中的某些地形,但由于缺乏对即将到来的几何形状的了解,往往会陷入困境。利用视觉可以解决这个问题。我们在现实世界中训练视觉模块,利用我们提出的交叉模式监督(CrossModal Supervision,CMS)算法预测即将出现的地形。CMS 使用时移本体感觉来监督视觉,并允许策略随着更多的真实世界经验而不断改进。我们评估了基于视觉的行走策略在各种地形上的表现,包括楼梯(高达 19 厘米)、湿滑的斜坡(倾角为 35◦)、路边和高台阶(高达 20 厘米)以及复杂的离散地形。我们只用了不到 30 分钟的真实世界数据就实现了这一性能。最后,我们还展示了我们的策略能够在有限的实际经验中适应视野的变化。
在这里插入图片描述
图 1:上图所示的已部署行走策略仅使用单目眼心 RGB 数据流和本体感觉。地形包括楼梯(最多 19 厘米高)、路边(最多 20 厘米高)、斜坡(35°)、土路和非结构化建筑工地。其中有几种地形需要精确的支点位置,而这是通过视觉前瞻模块预测即将出现的地形来实现的。该模块完全在真实世界中进行训练。为此,我们提出的交叉模式监督(Cross-Modal Supervision,CMS)算法利用车载本体感觉对视觉模块进行监督。这自然允许策略在真实世界中利用自身经验不断学习。我们在底部展示了这样一个持续学习的过程,在不到 30 分钟的真实世界数据中,策略的成功率从最初的 40% 提高到了 100%。
在这里插入图片描述
图 2:上图:在部署过程中,我们使用自适应模块来预测外在参数 zt,并根据自我中心 RGB 和本体感觉来估计机器人前方下方、5 厘米和 15 厘米处的地形几何形状(γ0、γ5、γ15)。底部: 我们在真实世界中训练视觉模块,通过最小化 CMS 误差来预测时移本体感觉对地形坡度的估计。我们观察到,CMS 可使适应模块随着实际经验的增加而不断改进。在右下方,我们可以看到随着 CMS 误差的减小,行走策略也得到了改善。
在这里插入图片描述
图 3:真实世界的改进:(最上面一行)我们发现,使用 CMS 可以持续改进步行策略的性能,在上述所有情况下,改进幅度从大约 50% 到 100% 不等。最终政策使用了 4 天内不同条件下收集的不到 30 分钟的数据。(下行)我们观察到,使用最新可用的视觉策略(绿色)而不是初始盲策略(橙色)来收集数据,可使最终视觉策略更快收敛。这表明使用最新视觉策略收集到的数据质量更高。此外,我们还观察到,由于视觉策略可以走得更远而不会摔倒,因此它大大提高了在现实世界中收集数据的效率。
在这里插入图片描述
图 4:Prism自适应测试: 我们在机器人上进行广为人知的Prism测试 [18]。
在这里插入图片描述
表 I: 获得不同地面实况视觉前瞻的电机策略性能。前瞻值在 15 厘米后达到饱和。

讨论

​我们提出的 CMS 是一种利用从多种感官输入中收集的车载数据来不断提高性能的技术。虽然我们的工作仅使用视觉来预测环境几何的极低维度表示,但视觉流包含更多信息(如摩擦力、可穿越性等)。预测这些信息可能有助于在更复杂的地形上运动或高速运动。此外,我们的方法并不能改善真实世界中的运动系统。解决这些局限性是未来工作的一个令人兴奋的方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/871059.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

电视企业继续乱收费,消费者则再用脚投票,销量加速下滑

分析机构给出的7月份数据显示中国的电视销量同比下滑了14.1%,环比则下滑了23.4%,消费者继续用脚投票,而电视企业也在压榨最后一滴利润,继续乱收费,引发消费者的不满。 近几年来国内电视市场价格战异常激烈,…

手把手教你使用USB的CDC+MSC复合设备(基于stm32f407)

学习 1 实验环境与说明2 USB CDC2.1 CDC代码生成2.2 通信设备(CDC)描述符2.2.1 设备描述符2.2.2 配置描述符 2.3 调试 3 USB MSC3.1 MSC代码生成3.2 大容量存储设备(MSC)描述符3.2.1 设备描述符2.2.2 配置描述符 3.3 调试 4 USB复…

Redis_亿级访问量数据处理

11. 亿级访问量数据处理 11.1 场景表述 手机APP用户登录信息,一天用户登录ID或设备ID电商或者美团平台,一个商品对应的评论文章对应的评论APP上有打卡信息网站上访问量统计统计新增用户第二天还留存商品评论的排序月活统计统计独立访客(Unique Vistito…

LeetCode150道面试经典题--单词规律(简单)

1.题目 给定一种规律 pattern 和一个字符串 s ,判断 s 是否遵循相同的规律。 这里的 遵循 指完全匹配,例如, pattern 里的每个字母和字符串 s 中的每个非空单词之间存在着双向连接的对应规律。 2.示例 pattern"abba" s "c…

【java】基础——多态

多态基本知识思维导图 多态的代码实现,注意父类对象引用指向子类对象引用(向上转型)的方法,父类就可以调用子类重写的方法和派生的方法,但不能调用子类特有的方法: class Animal {public void makeSound()…

基于模型的术语定义

文章仅供个人学习使用,请勿传播! 原文来源: 袁亦方 大易方圆 OPM对象过程方法 2023-08-13 07:01 https://mp.weixin.qq.com/s/dUtuNLrMwFF_foCrQQyWmA INCOSE系统工程手册第5版使用说明部分(内容对应第4版1.5节)提出&…

MySQL高阶知识点(一)一条SQL【更新】语句是如何执行的

一条SQL【更新】语句是如何执行的 首先,可以确定的说,【查询】语句的那一套流程,【更新】语句也是同样会走一遍,与查询流程不一样的是, 更新语句涉及到【事务】,就必须保证事务的四大特性:ACID&…

vite打包报错

先把报错信息附上 解决: 在报错的文件里加上ts就可以了

Python python文件打包exe文件

首先安装PyInstaller,在PyCharm终端窗口输入命令: pip install PyInstaller安装完成后,在输入命令: pyinstaller -F /Users/sunshiyu/Desktop/PYTHON/demo1.pydemo1.py是我创建的一个简单的Python文件,代码如下&#x…

数据结构:堆的应用(堆排序和topk问题)

个人主页 : 个人主页 个人专栏 : 《数据结构》 《C语言》 文章目录 堆排序建堆堆的删除思想排序代码实现 top k 问题思路代码实现 总结 堆排序 堆排序即是 先将数据建堆,再利用堆删除的思想来排序。 将待排序数组建堆将堆顶数据与数组尾部数…

【python】爬取豆瓣电影Top250(附源码)

前言 在网络爬虫的开发过程中,经常会遇到需要处理一些反爬机制的情况。其中之一就是网站对于频繁访问的限制,即IP封禁。为了绕过这种限制,我们可以使用代理IP来动态改变请求的来源IP地址。在本篇博客中,将介绍如何使用代理IP的技术…

RHEL 7配置HAProxy实现Web负载均衡

一、测试环境HAProxy: 主机名:RH7-HAProxy IP地址:192.168.10.20 操作系统:Red Hat Enterprise Linux Server release 7.2 (Maipo)最小化安装 防火墙与SELinux:关闭 安装的服务:HAProxy-1.5.14 WEB01: 主…

[管理与领导-12]:IT基层管理者 - 绩效面谈 - 如何面谈,遇到问题员工怎么办?

目录 前言: 第1章 问题现象 第一:面谈没效果 第二:问题没解决 第三:双方都不满 第2章 背后原因 1.1 面谈变成了训话:引导变成训话 1.2 面谈变成了扯皮:立足未来变成纠缠过去 1.3 面谈变成了双方较…

vite4+vue3:从0到1搭建vben后台管理系统(五)-封装属于自己的form组件

日常业务开发中的,避免不了的要接触到表单开发,那么我们有必要了解表单的深入使用方法,及封装出适合自己业务的自定义表单组件,效果如下: 不是用ele和antdvue框架,实现自己的表单组件!!! ValidateForm组件封装 <template><div class="validate-form…

c++学习(多线程)[33]

thread 本质封装操作系统的库 事实证明&#xff0c;两个线程在cpu中交错运行 thread传参为模板参数&#xff0c;应用折叠&#xff0c;都会变成左值&#xff0c;所以count还是0 sleep_until 在C中&#xff0c;没有直接的sleep_until函数&#xff0c;但可以使用std::th…

c++ 有元

友元分为两部分内容 友元函数友元类 友元函数 问题&#xff1a;当我们尝试去重载operator<<&#xff0c;然后发现没办法将operator<<重载成成员函数。因为cout的输出流对象和隐含的this指针在抢占第一个参数的位置。this指针默认是第一个参数也就是左操作 数了。…

dbm与mw转换

功率值10^(dBm值/10)&#xff0c;单位mW。 对于-5dBm&#xff0c;其功率值为0.3162 mW。 dBm 10 * lg(mW&#xff09;

C++ STL vector 模拟实现

✅<1>主页&#xff1a;我的代码爱吃辣 &#x1f4c3;<2>知识讲解&#xff1a;C之STL &#x1f525;<3>创作者&#xff1a;我的代码爱吃辣 ☂️<4>开发环境&#xff1a;Visual Studio 2022 &#x1f4ac;<5>前言&#xff1a;上次我们已经数字会用…

创建多图层叠加效果的背景与人物图像

引言&#xff1a; 在现代应用程序开发中&#xff0c;图形资源的使用是非常常见的&#xff0c;特别是在用户界面设计中。通过使用TImageList和TGlyph组件的组合&#xff0c;我们可以实现令人印象深刻的多图层叠加效果。本文将介绍如何使用这两个组件来创建背景和人物的多图层叠加…

doubletrouble靶机通关详解

信息收集 漏洞发现 扫目录 发现secret路径 里面有个图 qdPM9.1 网上找找exp 反弹shell http://192.168.0.107//uploads/users/632300-backdoor.php?cmdecho "<?php eval(\$_POST[1]);?>" > 1.php 蚁剑连上去传php-reverse-shell.php 提权 优化shell…