机器人避障不再“智障”:HEIGHT——拥挤复杂环境下机器人导航的新架构

news2025/1/11 13:22:45

导读:

由于环境中静态障碍物和动态障碍物的约束,机器人在密集且交互复杂的人群中导航,往往面临碰撞与延迟等安全与效率问题。举个简单的例子,商城和车站中的送餐机器人往往在人流量较大时就会停在原地无法运作,因为它不具备在拥挤人群中穿行的能力。

为应对上述挑战,研究者提出一套基于图结构的全新方案,将人、机器人及各类障碍物在时空维度上进行异质化建模,构建出名为“异质时空图”(st-graph)的统一表达框架。基于此结构,运用深度强化学习训练导航策略,并通过注意力机制与循环网络,动态捕捉场景变化,关注关键交互因素,从而显著提升对碰撞的规避能力。

多轮仿真与真实实验表明,该方法在复杂导航任务中不仅成功率和效率优于SOTA方法,而且在改变人群密度和障碍物数量时也能保持良好的零样本泛化能力。同时,本研究在大量实际环境中进行验证,结果证明其在安全性和整体表现方面均达到了新的水平。该方法的实时和部署使得服务机器人即便是在“上班早高峰”这样的拥挤场景中也能够顺利的执行任务。

©️【深蓝AI】编译

论⽂题目:HEIGHT: HEterogeneous Interaction GrapH Transformer for Robot Navigation in Crowded and Constrained Environments

论文作者:Shuijing Liu, Haochen Xia, Fatemeh Cheraghi Pouria, Kaiwen Hong, Neeloy Chakraborty, and Katherine Driggs-Campbell

论文地址:https://arxiv.org/abs/2411.12150

1.引入

随着机器人在以人为中心的环境中应用的日益普及,如最后一公里配送和家庭机器人等,机器人能够在人群中安全导航变得越来越重要。例如,图1展示了一个导航场景,其中包含了大量微妙的互动:障碍物对路径的影响是单向的(即对机器人和人类的路径有影响),而人类和机器人之间的互动则是相互作用的。在这些互动中,人类可能会以不同的方式反应于其他人类和机器人。为了完成导航任务,机器人直接参与到近距离的某些互动中,同时又受到其他互动的间接影响。这些互动是异质的、动态的,并且很难推测出来,这使得在这种环境中进行导航变得十分具有挑战性。

为了应对这些挑战,过去的研究探索了多种机器人群体导航方法。然而,这些方法通常存在以下两种局限:一是它们假设机器人在没有障碍物的开放空间中移动,而现实世界中障碍物是很常见的;二是它们没有区分不同类型的互动,导致机器人难以采取适应性策略,避免与人类和障碍物的碰撞。

本研究的目标是让机器人能够在导航时不与人类和障碍物发生碰撞。为了解决这个问题,本研究提出了一个框架,利用了在拥挤和受限环境中互动的异质性。首先,本研究将环境分为人类和障碍物的表示,并将它们分别处理后输入到基于强化学习(RL)的导航流程中。然后,本研究将场景分解为异质的时空图(st-graph),通过不同类型的边来表示机器人、人类和障碍物之间的不同互动,正如图1中不同颜色的箭头所示。最后,本研究将这个异质时空图转换为一个名为HEIGHT(HEterogeneous Interaction GrapH Transformer)的机器人策略网络,包含多个模块来参数化各种时空互动。具体来说,本研究使用两个独立的多头注意力网络来处理机器人与人类(RH)以及人类与人类(HH)之间的互动。通过注意力网络,机器人可以更多地关注重要的互动,从而在人数增多、图变得更加复杂的情况下,保持较低的碰撞率。此外,本研究还使用多层感知机(MLP)来建模单向的障碍物-代理互动,并采用递归网络来捕捉场景的时间演变。面对快速变化的场景(图1下方),HEIGHT能够通过时空捕捉不同组件之间的异质互动,从而使机器人避免碰撞并高效地接近目标。

这篇文章扩展了本研究之前关于注意力图网络的贡献。尽管本研究之前的工作集中在开放空间中的群体导航,但这篇文章引入了静态障碍物和约束,导致了场景表示和网络架构的重大修改。为配合这些方法的变化,本研究进行了新的仿真和硬件实验,并增加了新的基准比较。总的来说,这篇文章的主要贡献如下

  1. 本研究提出了一种拥挤和受限环境的输入表示,区别对待人类和障碍物。这种分离的场景表示使得本研究能够在框架的其他部分注入更多结构。

  2. 本研究提出了一种结构化的图表示,称为异质时空图(st-graph),用于有效地建模所有代理和实体之间的配对互动。

  3. 从异质时空图中,本研究采用一种原则性的方法推导出HEIGHT,一个基于变换器的机器人导航策略网络,具有不同的模块来推理所有类型的时空互动。

  4. 仿真实验中,在密集人群和障碍物的情况下,本研究的方法在未见过的障碍物布局中超越了之前的最先进方法。此外,本研究的方法在不同的人类和障碍物密度的分布外环境中表现出了更好的泛化能力。

  5. 本研究成功地将机器人策略从低保真度仿真环境转移到具有挑战性的真实世界拥挤环境中,且无需进行微调。

▲图1|机器人避障情况分类©️【深蓝AI】编译

▲图2|机器人避障情况分类©️【深蓝AI】编译

2.具体方法与实现

图2所示为本文的核心pipeline,首先(a)在训练和测试的每个时间步,仿真器提供一个奖励和以下环境观察:障碍物点云、机器人状态、以及人类状态和掩码。这些观察作为输入传递给HEIGHT,HEIGHT输出一个机器人动作,以最大化未来期望回报。仿真器执行所有代理的动作,循环继续。随后(b)现实世界中的测试循环与仿真器类似,唯一不同的是用于获取观察的感知模块不同,并且没有奖励。可以看到本文的核心是一个Sim2Real的过程,在仿真器中进行训练,随后在真实环境中实现实施和部署。下面笔者将对本文的各个细分模块进行介绍。

▲图3|核心网络架构图©️【深蓝AI】编译

2.1 异质时空图

代理和实体之间微妙而高度动态的互动是使群体导航变得困难的重要因素。为了以结构化的方式建模这些互动,本研究将导航场景公式化为一个异质时空图。在图3a中,在每个时间,本研究的异质时空图G_t = (V_t, E_t)由一组节点V_t和一组边E_t组成。节点包括检测到的人类h_{t1}, ..., h_{tn}和机器人w_t。此外,障碍物节点o_t代表所有障碍物的点云。在每个时间,连接不同节点的空间边表示节点之间的空间互动。不同的空间互动对机器人决策的影响不同。具体来说,虽然本研究可以控制机器人,但无法控制人类,因此机器人与人类(RH)之间的互动有直接影响,而人类与人类(HH)之间的互动对机器人动作的影响是间接的。例如,作为间接影响,如果人类 A 强行让人类 B 转向机器人的前方,那么机器人必须根据 A 和 B 之间的互动做出反应。此外,由于代理是动态的,而障碍物是静态的,代理之间的互动是相互的,而静态障碍物对代理的影响是单向的。因此,本研究将空间边分为三种类型:人类与人类边(HH,图3中的蓝色)、障碍物-代理边(OA,橙色)和机器人-人类边(RH,红色)。这三种边允许本研究将空间互动分解为 HH、OA 和 RH 函数。每个函数由一个具有可学习参数的神经网络来参数化。

▲图4|环境人体与障碍物分离图示©️【深蓝AI】编译

与以往忽略某些边的工作相比,本研究的方法允许机器人推理所有在拥挤和受限环境中存在的空间互动。由于所有代理的运动会导致每个人类的可见性动态变化,节点集V_t和边集E_t以及互动函数的参数可能相应地发生变化。为此,本研究使用图3(a)中紫色框所示的另一个函数,将不同时间步的图G_t融合起来。这个时间函数连接相邻时间步的图,从而克服了反应性策略的短视性,并使机器人能够进行长期决策。

为了减少参数的数量,图3(a)中相同类型的边共享相同的函数参数。这个参数共享对于图的可扩展性非常重要,因为当人类数量变化时,参数的数量保持不变。

2.2 HEIGHT架构

在图3b中,本研究从异质时空图中推导出了本研究的网络架构。本研究将 HH 和 RH 函数表示为具有注意力机制的前馈网络,分别称为HH_{attn}RH_{attn}。本研究将 OA 函数表示为一个带有连接的多层感知机(MLP),将时间函数表示为门控递归单元(GRU)。本研究使用 W 和 f 来表示可训练的权重和全连接层。代理之间的注意力:注意力模块为所有连接到机器人或人类节点的边分配权重,使得节点可以关注重要的边或互动。这两个注意力网络类似于带有填充掩码的缩放点积注意力,它使用查询 Q 和键 K 来计算注意力得分,并将归一化的得分应用于值 V,从而得到加权值 v。

其中 d 是查询和键的维度,作为缩放因子。掩码 M 用于处理每个时间步检测到的人类数量变化,正如本研究将在下文中扩展的那样。人类-人类注意力:为了学习每个 HH 边对机器人在时间 t 的决策的重要性,本研究首先使用一个 HH 注意力网络,按人类之间的自注意力对每个观察到的人类进行加权。在 HH 注意力中,当前的人类状态h_{t1}, ..., h_{tn}被拼接并通过具有权重W^Q_{HH}W^K_{HH}W^V_{HH}的线性层传递,以获得Q^t_{HH}K^t_{HH}其中d_{HH}是 HH 注意力的注意力大小。

其中分别是第 i 个人类的查询嵌入、键嵌入和值嵌入。该过程用于指示每个人类的可见性,使得机器人可以对检测到的每个人进行“注意”,这个过程可以提升机器人对于环境中人群的感知能力,同时更契合本文对人和环境进行分离的主题。

2.3 训练过程

本研究在仿真器中使用近端策略优化(PPO)训练整个网络,如图2(a)所示。在每个时间步 t,仿真器提供所有构成 st 的状态信息,这些信息被输入到 HEIGHT 网络中。网络输出状态 V(st) 的估计值和机器人动作 π(at|st) 的对数概率,二者用于计算 PPO 损失并更新网络中的参数。在训练过程中,机器人从动作分布 π(at|st) 中采样动作。在测试过程中,机器人选择具有最高概率的动作 at。机器人动作 at 被输入到仿真器中,以计算下一个状态 st+1,然后循环继续进行。没有任何监督学习,本研究的方法不受专家演示性能的限制。然而,为了提高低训练数据效率这一强化学习固有问题,HEIGHT也可以通过模仿学习和强化学习的结合进行训练,本文主要的训练环境和真实环境如图5所示。通过以上的一种结构化和原则性的方法来设计机器人策略网络,用于在受限环境中的群体导航可以更好的提升机器人在拥挤环境中的导航避障性能。通过将复杂的场景分解为独立的组件,本研究将复杂问题拆解为更小的函数,这些函数用于学习相应的函数参数。通过结合上述所有组件,端到端可训练的 HEIGHT 使得机器人能够对所有配对互动进行时空推理,从而实现更好的导航性能。

▲图5|Sim2Real训练环境与实际环境展示©️【深蓝AI】编译

3.实验

本文作为一篇TRO的文章,在实验部分设计的非常精细,同时做了非常充分的对比实验以及仿真真实实验,体现了本文极大地工作量,首先图6所示为本文的数值实验,从结果不难看出本文方法的优异性,能够在多个环境中取得不错的效果,均领先于当前的SOTA。

▲图6|数值实验©️【深蓝AI】编译

接下来映入眼帘的是避障路径规划的模拟实验,可以看到作者进行了大量的case study并且于当前的方法进行了非常多的对比,值得关注的是机器人与人的碰撞(标记为Human collision)以及机器人运动的时间(在左上角体现)。可以看到本文方法在避障时间上用时最短,同时避免了所有的人体碰撞

▲图7|避障路径规划模拟实验©️【深蓝AI】编译

随后作者在真实机器人平台进行了算法部署,并且在办公室和大厅两个场景进了真实的机器人避障实验,办公室场景是比较典型的结构化场景,在这个场景中机器人的路径受到限制,一般只有狭窄的走廊能够用于避障,从图中可见机器人在这样的环境中,即便面对川流不息的人群,也能够实现非常准确的避障和导航。大厅则是比较开放的场景,这个场景中机器人往往有多条路径能够选择,但是多样的选择也导致了机器人的迂回问题,有时候机器人会绕一大圈,为了避开障碍物,但是从图中能够看到,本文算法非常好的解决了这个问题,机器人在开放的环境中也选择了一条非常高效的路径,最终导航到了目的地。

▲图8|真实环境机器人避障实验©️【深蓝AI】编译

总结

在本文中,作者提出了HEIGHT,一个用于动态和受限环境下自主机器人导航的新型结构化图网络架构。作者的方法利用了受限群体导航问题的图形化特性和可分解性,提出了以下两个关键创新。首先,作者将人类和障碍物的表示分别进行拆分和处理。这使得机器人能够有效地推理人类和障碍物的不同几何形状和动态特性,提升其在复杂环境中的导航能力。其次,作者提出了一种异质时空图(st-graph),用以捕捉机器人、人类和障碍物之间的多种互动类型。将场景分解为异质时空图有助于指导HEIGHT网络的设计,采用注意力机制。注意力机制使机器人能够推理每种配对互动的相对重要性,从而在导航过程中实现自适应和敏捷的决策。

作者的仿真实验表明,HEIGHT模型在碰撞避免和导航效率方面优于传统的基于模型的方法和其他基于学习的方法。HEIGHT模型在不同人类和障碍物密度的环境中也表现出了更好的泛化能力。在真实世界的环境中,HEIGHT能够无缝地从仿真转移到日常室内导航场景中,无需额外训练,展示了其鲁棒性和克服仿真与现实之间差距的能力。

作者的研究表明,推理微妙的时空互动是实现平稳人机交互的关键步骤。此外,作者的工作强调了揭示复杂问题内在结构的重要性,并将这些结构注入学习框架中,以一种有原则的方式解决问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2274926.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Spring Boot教程之五十二:CrudRepository 和 JpaRepository 之间的区别

Spring Boot – CrudRepository 和 JpaRepository 之间的区别 Spring Boot建立在 Spring 之上,包含 Spring 的所有功能。由于其快速的生产就绪环境,使开发人员能够直接专注于逻辑,而不必费力配置和设置,因此如今它正成为开发人员…

加速物联网HMI革命,基于TouchGFX的高效GUI显示方案

TouchGFX 是一款针对 STM32 微控制器优化的先进免费图形软件框架。 TouchGFX 利用 STM32 图形功能和架构,通过创建令人惊叹的类似智能手机的图形用户界面,加速了物联网 HMI 革命。 TouchGFX 框架包括 TouchGFX Designer (TouchGFXDesigner)(…

Java-数据结构-栈与队列(StackQueue)

一、栈(Stack) ① 栈的概念 栈是一种特殊的线性表,它只允许固定一端进行"插入元素"和"删除元素"的操作,这固定的一端被称作"栈顶",对应的另一端就被称做"栈底"。 📚 栈中的元素遵循后…

案例研究:UML用例图中的结账系统

在软件工程和系统分析中,统一建模语言(UML)用例图是一种强有力的工具,用于描述系统与其用户之间的交互。本文将通过一个具体的案例研究,详细解释UML用例图的关键概念,并说明其在设计结账系统中的应用。 用…

【动态规划篇】欣赏概率论与镜像法融合下,别出心裁探索解答括号序列问题

本篇鸡汤:没有人能替你承受痛苦,也没有人能拿走你的坚强. 欢迎拜访:羑悻的小杀马特.-CSDN博客 本篇主题:带你解答洛谷的括号序列问题(绝对巧解) 制作日期:2025.01.10 隶属专栏:C/C题…

点击底部的 tabBar 属于 wx.switchTab 跳转方式,目标页面的 onLoad 不会触发(除非是第一次加载)

文章目录 1. tabBar 的跳转方式2. tabBar 跳转的特点3. 你的配置分析4. 生命周期触发情况5. 总结 很多人不明白什么是第一次加载,两种情况讨论,第一种情况假设我是开发者,第一次加载就是指点击微信开发者工具上边的编译按钮,每点击…

CUDA、CUDNN以及tensorRT的版本对应关系

各版本的对应除了可以看文件的命名上还可以查看TensorRT的Release日志: Release Notes :: NVIDIA Deep Learning TensorRT Documentation 这个是官方测试TensorRT的Release日志,里面指明了当前测试的TensorRT版本是在哪个CUDNN等库下的测试结果&#x…

设计模式(观察者模式)

设计模式(观察者模式) 第三章 设计模式之观察者模式 观察者模式介绍 观察者模式(Observer Design Pattern) 也被称为发布订阅模式 。模式定义:在对象之间定义一个一对多的依赖,当一个对象状态改变的时候…

Helm部署activemq

1.helm create activemq 创建helm文件目录 2.修改values.yaml 修改image和port 3. helm template activemq 渲染并输出 4. helm install activemq activemq/ -n chemical-park // 安装 5.启动成功

Untiy中如何嵌入前端页面,从而播放推流视频?

最近工作中频繁用到unity,虽然楼主之前也搞过一些UNTY游戏开发项目,但对于视频这块还是不太了解,所以我们采用的方案是在Unity里寻找一个插件来播放推流视频。经过我的一番寻找,发现了这款Vuplex 3D WebView,它可以完美的打通Unit…

rabbitmq的三个交换机及简单使用

提前说一下,创建队列,交换机,绑定交换机和队列都是在生产者。消费者只负责监听就行了,不用配其他的。 完成这个场景需要两个服务哦。 1直连交换机-生产者的代码。 在配置类中创建队列,交换机,绑定交换机…

Excel 技巧07 - 如何计算到两个日期之间的工作日数?(★)如何排除节假日计算两个日期之间的工作日数?

本文讲了如何在Excel中计算两个日期之间的工作日数,以及如何排除节假日计算两个日期之间的工作日数。 1,如何计算到两个日期之间的工作日数? 其实就是利用 NETWORKDAYS.INTL 函数 - weekend: 1 - 星期六,星期日 2,如…

初学stm32 --- DAC模数转换器工作原理

目录 什么是DAC? DAC的特性参数 STM32各系列DAC的主要特性 DAC框图简介(F1/F4/F7) 参考电压/模拟部分电压 触发源 关闭触发时(TEN0)的转换时序图 DMA请求 DAC输出电压 什么是DAC? DAC,全称:Digital…

从预训练的BERT中提取Embedding

文章目录 背景前置准备思路利用Transformer 库实现 背景 假设要执行一项情感分析任务,样本数据如下 可以看到几个句子及其对应的标签,其中1表示正面情绪,0表示负面情绪。我们可以利用给定的数据集训练一个分类器,对句子所表达的…

从CentOS到龙蜥:企业级Linux迁移实践记录(系统安装)

引言: 随着CentOS项目宣布停止维护CentOS 8并转向CentOS Stream,许多企业和组织面临着寻找可靠替代方案的挑战。在这个背景下,龙蜥操作系统(OpenAnolis)作为一个稳定、高性能且完全兼容的企业级Linux发行版&#xff0…

车联网安全--TLS握手过程详解

目录 1. TLS协议概述 2. 为什么要握手 2.1 Hello 2.2 协商 2.3 同意 3.总共握了几次手? 1. TLS协议概述 车内各ECU间基于CAN的安全通讯--SecOC,想必现目前多数通信工程师们都已经搞的差不多了(不要再问FvM了);…

iOS实际开发中使用Alamofire实现多文件上传(以个人相册为例)

引言 在移动应用中,图片上传是一个常见的功能,尤其是在个人中心或社交平台场景中,用户经常需要上传图片到服务器,用以展示个人风采或记录美好瞬间。然而,实现多图片上传的过程中,如何设计高效的上传逻辑并…

基于phpstudy快速搭建本地php环境(Windows)

好好生活,别睡太晚,别爱太满,别想太多。 2025.1.07 声明 仅作为个人学习使用,仅供参考 对于CTF-Web手而言,本地PHP环境必不可少,但对于新手来说从下载PHP安装包到配置PHP环境是个非常繁琐的事情&#xff0…

ffmpeg 编译遇到的坑

makeinfo: error parsing ./doc/t2h.pm: Undefined subroutine &Texinfo::Config::set_from_init_file called at ./doc/t2h.pm line 24. 编译选项添加: --disable-htmlpages

Git:merge合并、冲突解决、强行回退的终极解决方案

首先还是得避免冲突的发生,无法避免时再去解决冲突,避免冲突方法: 时常做pull、fatch操作,不要让自己本地仓库落后太多版本;在分支操作,如切换分支、合并分支、拉取分支前,及时清理Change&#…