【AI视野·今日Robot 机器人论文速览第八十期】Fri, 1 Mar 2024

AI视野·今日CS.Robotics 机器人学论文速览
Fri, 1 Mar 2024
Totally 32 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Robotics Papers

Humanoid Locomotion as Next Token Prediction
Authors Ilija Radosavovic, Bike Zhang, Baifeng Shi, Jathushan Rajasegaran, Sarthak Kamat, Trevor Darrell, Koushil Sreenath, Jitendra Malik
我们将现实世界的人形控制视为下一个标记预测问题，类似于预测语言中的下一个单词。我们的模型是通过感觉运动轨迹的自回归预测训练的因果变换器。为了考虑数据的多模态性质，我们以模态对齐的方式执行预测，并且对于每个输入标记从相同模态预测下一个标记。这种通用的公式使我们能够利用缺少模式的数据，例如没有动作的视频轨迹。我们根据来自先前神经网络策略、基于模型的控制器、动作捕捉数据和人类 YouTube 视频的一组模拟轨迹来训练我们的模型。我们展示了我们的模型能够让全尺寸的人形机器人零镜头地在旧金山行走。即使仅使用 27 小时的步行数据进行训练，我们的模型也可以转移到现实世界，并且可以泛化到训练期间未见过的命令，例如倒退行走。

Pushing the Limits of Cross-Embodiment Learning for Manipulation and Navigation
Authors Jonathan Yang, Catherine Glossop, Arjun Bhorkar, Dhruv Shah, Quan Vuong, Chelsea Finn, Dorsa Sadigh, Sergey Levine
近年来，机器人技术和模仿学习在通过利用多个实施例的数据来训练大规模基础模型方面取得了显着进展。这些政策的成功可能会让我们想知道训练集中的机器人在仍然促进积极迁移的同时可以有多么多样化。在这项工作中，我们在异构实施例的背景下研究这个问题，研究即使看似非常不同的领域，例如作为机器人导航和操纵，当包含在同一模型的训练数据中时可以提供好处。我们训练一个单一目标条件策略，能够控制机器人手臂、四轴飞行器、四足动物和移动基地。然后，我们通过将这些实施例构建为单个目标实现任务来研究在这些实施例上跨导航和操作可以发生转移的程度。我们发现，使用导航数据进行协同训练可以增强腕部摄像头目标条件操作的鲁棒性和性能。然后，我们在移动操纵器上部署仅根据仅导航和仅静态操纵数据训练的策略，表明它可以以零射击方式控制新颖的实施例。这些结果提供了证据，表明大规模机器人策略可以从跨各种实施例收集的数据中受益。

Genie: Smart ROS-based Caching for Connected Autonomous Robots
Authors Zexin Li, Soroush Bateni, Cong Liu
尽管自主机器人的前景广阔，但目前仍然存在一些可能导致性能和安全性受损的关键问题。其中一个问题就是延迟，我们发现即使是 NVIDIA 最新的嵌入式平台也无法执行智能任务，例如实时检测自动驾驶车辆的目标。解决这个问题的一个方法是边缘计算这一有前途的范例。通过与我们的行业合作伙伴合作，我们确定了当前边缘思维模式的主要限制：1 服务器分布不够，因此距离车辆不够近；2 当前提出的边缘解决方案无法提供更好的性能和针对自动驾驶的额外信息

Towards Safe and Reliable Autonomous Driving: Dynamic Occupancy Set Prediction
Authors Wenbo Shao, Jiahui Xu, Wenhao Yu, Jun Li, Hong Wang
在快速发展的自动驾驶领域，准确的轨迹预测对于车辆安全至关重要。然而，轨迹预测通常会偏离实际路径，特别是在复杂且具有挑战性的环境中，从而导致重大错误。为了解决这个问题，我们的研究引入了一种动态占用集 DOS 预测的新方法，增强了轨迹预测能力。该方法有效地将先进的轨迹预测网络与DOS预测模块结合起来，克服了现有模型的缺点。它提供了一个全面且适应性强的框架，用于预测交通参与者的潜在占用集。这项研究的主要贡献包括 1 为复杂场景量身定制的新型 DOS 预测模型，增强了传统的轨迹预测 2 开发了独特的 DOS 表示和评估指标 3 通过实验进行了广泛的验证，展示了增强的性能和适应性。

RoadRunner -- Learning Traversability Estimation for Autonomous Off-road Driving
Authors Jonas Frey, Shehryar Khattak, Manthan Patel, Deegan Atha, Julian Nubert, Curtis Padgett, Marco Hutter, Patrick Spieler
在越野环境中高速自主导航需要机器人仅使用机载传感来全面了解周围环境。越野环境造成的极端条件可能会导致相机图像质量下降，原因是照明不佳和运动模糊，以及高速行驶时激光雷达传感提供的稀疏几何信息有限。在这项工作中，我们提出了 RoadRunner，这是一种能够直接根据相机和 LiDAR 传感器输入预测地形可穿越性和高程图的新颖框架。 RoadRunner 通过融合感知信息、处理不确定性以及生成有关地形几何形状和可通行性的上下文预测，同时以低延迟运行，实现可靠的自主导航。与依赖于对手工语义类进行分类并使用启发式方法来预测可遍历性成本的现有方法相比，我们的方法以自我监督的方式进行端到端训练。 RoadRunner 网络架构建立在自动驾驶领域流行的传感器融合网络架构之上，该架构将 LiDAR 和摄像头信息嵌入到通用鸟瞰视角中。训练是通过利用现有的可通行性估计堆栈来实现的，以可扩展的方式从现实世界的越野驾驶数据集中生成事后训练数据。此外，RoadRunner 将系统延迟提高了大约 4 倍，从 500 毫秒缩短到 140 毫秒，同时提高了可通行成本和高程图预测的准确性。

On the Existence of Static Equilibria of a Cable-Suspended Load with Non-stopping Flying Carriers
Authors Chiara Gabellieri, Antonio Franchi
电缆悬挂物体的空中协作机器人操纵已得到广泛研究，因为它可以处理大型和重型物体，并且电缆具有多种优点，例如重量轻和成本效益。人们通常会考虑使用多旋翼飞行器，但由于其耐用性较差，因此可能不适合长期持续的操纵任务。因此，这项工作研究是否可以通过不间断飞行来保持缆绳悬挂物体的姿态恒定。首先，我们表明，仅一两个飞行载体无法在保持悬浮物体恒定姿态的同时进行不间断飞行。相反，我们证明 emph 三个飞行载体可以实现此任务，前提是平衡时的负载方向使得平衡外力（通常是重力）的缆索力的分量不属于缆索锚定点的平面负载上。

Mirage: Cross-Embodiment Zero-Shot Policy Transfer with Cross-Painting
Authors Lawrence Yunliang Chen, Kush Hari, Karthik Dharmarajan, Chenfeng Xu, Quan Vuong, Ken Goldberg
重用收集的数据并在机器人之间传输经过训练的策略的能力可以减轻额外数据收集和培训的负担。虽然预训练、微调和协同训练等现有方法显示出前景，但它们并不能推广到训练中未见过的机器人。我们针对具有相似工作空间和 2 个钳口夹具的常见机器人手臂，研究了零镜头传输的可行性。通过对 8 个操纵任务的仿真研究，我们发现基于状态的笛卡尔控制策略在考虑前向动力学后可以成功地将零镜头转移到目标机器人。为了解决基于视觉的策略的机器人视觉差异，我们引入了 Mirage，它使用交叉绘制来掩盖看不见的目标机器人，并在执行过程中实时修复可见的源机器人，以便策略看起来就像经过训练的源机器人正在执行一样任务。尽管它很简单，但我们广泛的模拟和物理实验提供了强有力的证据，证明 Mirage 可以成功地在不同机器人手臂和夹具之间进行零射击转移，并且在各种操作任务（例如拾取、堆叠和组装）上仅产生最小的性能下降，显着优于通才政策。

Conversational Language Models for Human-in-the-Loop Multi-Robot Coordination
Authors William Hunt, Toby Godfrey, Mohammad D. Soorati
随着机器人在现实世界中交互的日益普及和多样性，需要灵活、动态的规划和合作。人们开始在机器人技术中用于通信、协调和规划的多模式设置中探索大型语言模型。现有的方法通常使用单个代理来制定计划，或者让多个同类代理协调一个简单的任务。我们提出了一种去中心化的对话方法，其中具有不同能力的代理团队通过点对点和人类机器人讨论来规划解决方案。我们建议论证式对话是促进合作团队中每个智能体能力的适应性使用的有效方法。两个机器人讨论如何解决人类提出的清洁问题、定义角色并就各自采取的路径达成一致。每个步骤都可以被人类顾问打断，并且代理与人类一起检查他们的计划。然后特工在现实世界中执行这个计划，从每个房间的人那里收集垃圾。

ARMCHAIR: integrated inverse reinforcement learning and model predictive control for human-robot collaboration
Authors Angelo Caregnato Neto, Luciano Cavalcante Siebert, Arkady Zgonnikov, Marcos Ricardo Omena de Albuquerque Maximo, Rubens Junqueira Magalh es Afonso
人机协作的关键问题之一是开发计算模型，使机器人能够预测和适应人类行为。在开发此类模型以及解决机器人运动规划和决策的自主问题的控制技术方面已经取得了很大进展。然而，人类行为计算模型与此类控制技术的集成仍然构成重大挑战，导致高效协作人类机器人团队的瓶颈。在这种背景下，我们提出了一种用于人类机器人协作的新颖架构，即使用对抗性逆强化学习 ARMCHAIR 与人类协作的自适应机器人运动。我们的解决方案利用对抗性逆强化学习和模型预测控制来计算与人类协作执行探索任务的移动多机器人系统的最佳轨迹和决策。在执行任务期间，ARMCHAIR 在无需人工干预的情况下运行，自动识别支持的必要性并采取相应行动。我们的方法还明确解决了人类机器人团队的网络连接要求。

On the Design of Human-Robot Collaboration Gestures
Authors Anas Shrinah, Masoud S. Bahraini, Fahad Khan, Seemal Asif, Niels Lohse, Kerstin Eder
人与协作机器人之间的有效沟通对于无缝人机协作HRC至关重要。在嘈杂的工业环境中，手势等非语言交流在向机器人有效传达命令和信息方面发挥着关键作用。虽然现有文献已经彻底研究了手势识别和机器人对这些手势的响应，但在探索这些手势的设计方面还存在显着的差距。创建高效 HRC 手势的标准分散在众多研究中。本文调查了文献中包含的 HRC 手势设计原则，旨在巩固一套 HRC 手势设计标准。

DMSA -- Dense Multi Scan Adjustment for LiDAR Inertial Odometry and Global Optimization
Authors David Skuddis, Norbert Haala
我们提出了一种同时精细配准多个点云的新方法。该方法的特点是密集，因此点云不会提前简化为预先选择的特征。此外，该方法对于小重叠和动态对象具有鲁棒性，因为点云之间没有假设直接对应关系。相反，所有点都会合并到全局点云中，然后迭代地减少其散射。这是通过将全局点云划分为均匀的网格单元来实现的，网格单元的内容随后通过正态分布进行建模。我们表明，所提出的方法可以用于结合 IMU 测量的滑动窗口连续轨迹优化，以获得高度准确和鲁棒的 LiDAR 惯性里程计估计。此外，我们表明所提出的方法也适用于大规模关键帧优化以提高准确性。

High-Speed Motion Planning for Aerial Swarms in Unknown and Cluttered Environments
Authors Charbel Toumieh, Dario Floreano
多架无人机协调飞行可以更快地完成搜索救援和基础设施检查等任务。因此，推动空中集群在导航速度和鲁棒性方面的发展水平具有巨大的好处。特别是，在规划轨迹时能够考虑到未探索的未知环境，可以实现更安全的飞行。在这项工作中，我们提出了第一个用于空中群的高速、分散和同步运动规划框架 HDSM，该框架明确考虑了环境中未知的未发现部分。所提出的方法为每个规划代理生成一个优化的轨迹，在移动和探索环境时避开障碍物和其他规划代理。每个代理拥有的唯一全局信息是目标位置。生成的轨迹速度快，远离未探索的空间，并使智能体更接近目标。所提出的方法在到达目标位置的成功率 100、飞行速度更快 67、飞行时间缩短 42 方面优于四种最新的最先进方法。

RELEAD: Resilient Localization with Enhanced LiDAR Odometry in Adverse Environments
Authors Zhiqiang Chen, Hongbo Chen, Yuhua Qi, Shipeng Zhong, Dapeng Feng, Wu Jin, Weisong Wen, Ming Liu
基于激光雷达的定位对于采矿调查和地下设施维护等应用非常有价值。然而，在具有挑战性的场景中处理无信息的几何结构时，现有方法可能会遇到困难。本文介绍了 RELEAD，这是一种以 LiDAR 为中心的解决方案，旨在解决扫描匹配退化问题。我们的方法通过解决前端的约束 ESIKF 更新来实现无简并点云配准，并通过基于分级非凸性 GNC 的图形优化，即使在处理离群值测量时也包含多传感器约束。此外，我们提出了一种强大的增量固定滞后平滑器 rIFL，用于基于 GNC 的高效优化。

Contact-Implicit Model Predictive Control for Dexterous In-hand Manipulation: A Long-Horizon and Robust Approach
Authors Yongpeng Jiang, Mingrui Yu, Xinghao Zhu, Masayoshi Tomizuka, Xiang Li
灵巧的双手操作是生产、生活的必备技能。然而，接触的高度刚性和可变特征导致实时接触发现和推理受到限制，从而降低了基于模型的方法的性能。受接触丰富的运动和操纵方面最新进展的启发，本文提出了一种基于模型的新颖方法来控制灵巧的手部操纵并克服当前的局限性。所提出的方法具有吸引人的特点，它允许机器人在没有预先定义的接触序列或单独的规划程序的情况下稳健地执行长视野手动操作。具体来说，我们在高层设计了一个接触隐式模型预测控制器来生成实时接触计划，该计划由低层跟踪控制器执行。与其他基于模型的方法相比，这种长水平特征能够重新规划和鲁棒地执行接触丰富的运动，从而更有效地实现手部任务中的大位移。与现有的基于学习的方法相比，所提出的方法实现了灵活性，并且还可以推广到不同的对象，而无需任何预训练。详细的模拟和消融研究证明了我们方法的效率和有效性。

MOSAIC: A Modular System for Assistive and Interactive Cooking
Authors Huaxiaoyue Wang, Kushal Kedia, Juntao Ren, Rahma Abdullah, Atiksh Bhardwaj, Angela Chao, Kelly Y Chen, Nathaniel Chin, Prithwish Dan, Xinyi Fan, Gonzalo Gonzalez Pumariega, Aditya Kompella, Maximus Adrian Pace, Yash Sharma, Xiangwan Sun, Neha Sunkara, Sanjiban Choudhury
我们推出了 MOSAIC，这是一种模块化架构，用于家庭机器人执行复杂的协作任务，例如与日常用户一起做饭。 MOSAIC 与人类紧密合作，使用自然语言与用户交互，协调多个机器人，并管理日常物品的开放词汇。 MOSAIC 的核心采用模块化，它利用多个大规模预训练模型来执行语言和图像识别等一般任务，同时使用专为任务特定控制而设计的简化模块。我们在 60 次端到端试验中对 MOSAIC 进行了广泛评估，其中两个机器人与人类用户合作烹饪 6 种食谱的组合。我们还对各个模块进行了广泛的测试，包括 180 集视觉运动拾取、60 集人体运动预测以及 46 个任务规划器的在线用户评估。我们表明，MOSAIC 能够通过与真实人类用户端到端运行整个系统来与人类高效协作，完成 6 种不同食谱的 68.3 41 60 次协作烹饪试验，子任务完成率为 91.6 。最后，我们讨论当前系统的局限性以及该领域令人兴奋的开放挑战。

How to Evaluate Human-likeness of Interaction-aware Driver Models
Authors Jemin Woo, Changsun Ahn
本研究提出了一种定性评估和设计自动驾驶车辆类人驾驶员模型的方法。虽然大多数现有的人类相似性研究都集中在定量评估上，但考虑定性测量以准确捕捉人类感知至关重要。为此，我们利用视频研究和基于人类经验的研究进行了调查。

Learning with Language-Guided State Abstractions
Authors Andi Peng, Ilia Sucholutsky, Belinda Z. Li, Theodore R. Sumers, Thomas L. Griffiths, Jacob Andreas, Julie A. Shah
我们描述了一个使用自然语言来设计模仿学习状态抽象的框架。精心设计的状态表示促进了高维观察空间中的泛化政策学习，它可以显现环境的重要特征并隐藏不相关的特征。这些状态表示通常是手动指定的，或者源自其他劳动密集型标签程序。我们的方法 LGA 语言引导抽象结合了自然语言监督和来自语言模型 LM 的背景知识，自动构建针对未见过的任务定制的状态表示。在 LGA 中，用户首先用自然语言提供目标任务的可能不完整的描述，接下来，预先训练的 LM 将此任务描述转换为状态抽象函数，最终屏蔽掉不相关的特征，最后使用少量的模型来训练模仿策略。演示和 LGA 生成抽象状态。模拟机器人任务的实验表明，LGA 产生的状态抽象类似于人类设计的状态抽象，但所需时间很短，并且这些抽象在存在虚假相关性和模糊规范的情况下提高了泛化性和鲁棒性。

Extending QGroundControl for Automated Mission Planning of UAVs
Authors Cristian Ramirez Atencia, David Camacho
无人机凭借地形适应能力强、成本低、零伤亡等优点，近十年来非常受欢迎。该领域最有趣的进步之一是任务规划任务分配和实时重新规划的自动化，这对于提高车辆的自主性和减少操作员的工作量非常有用。这些自动化任务规划和重新规划系统需要人机界面 HCI，以促进车辆执行计划的可视化和选择。此外，大多数任务应该在实际执行之前进行评估。本文扩展了 QGroundControl（一种用于多飞行器飞行控制的开源模拟环境），添加了一个任务设计器，允许操作员使用任务和其他场景项目构建复杂的任务，以及一个用于自动任务规划和重新规划的界面，该界面可作为测试不同算法的床，以及帮助操作员选择计划的决策支持系统 DSS。

Hefty: A Modular Reconfigurable Robot for Advancing Robot Manipulation in Agriculture
Authors Dominic Guri, Moonyoung Lee, Oliver Kroemer, George Kantor
本文提出了一种用于农业机器人操作的模块化、可重构机器人平台。虽然机器人操纵有望在自动化目前最好由人类完成的具有挑战性、复杂的任务方面取得巨大进步，但对于研究人员和用户来说，这也是一项昂贵的资本投资，因为它需要根据任务而显着不同的机器人配置。模块化机器人提供了一种获得多种配置并通过仅增量获取必要模块来降低成本的方法。我们展示的机器人 Hefty 被设计为模块化且可重新配置。它是为研究人员和最终用户设计的，作为改进从研究到现实世界应用的技术转移的一种手段。本文提供了详细的设计和集成过程，概述了实现机器人移动性及其传感器有效负载、电源系统、计算和夹具安装模块化的关键设计决策。

Articulated Object Manipulation with Coarse-to-fine Affordance for Mitigating the Effect of Point Cloud Noise
Authors Suhan Ling, Yian Wang, Shiguang Wu, Yuzheng Zhuang, Tianyi Xu, Yu Li, Chang Liu, Hao Dong
由于与铰接对象相关的各种几何形状和复杂的功能，3D 铰接对象本质上对操作具有挑战性。点级可供性可预测每点的可操作分数，从而提出最佳的交互点，已在以下领域展示了出色的性能和泛化能力：铰接式对象操纵。

Acoustic tactile sensing for mobile robot wheels
Authors Wilfred Mason, David Brenken, Falcon Z. Dai, Ricardo Gonzalo Cruz Castillo, Olivier St Martin Cormier, Audrey Sedal
移动机器人中的触觉传感仍在探索中，主要是由于与传感器集成相关的挑战和分布式传感的复杂性。在这项工作中，我们提出了一种基于轮式声波导的移动机器人触觉传感架构。我们的传感器架构可以通过单个有源组件和现成的声学测距仪沿车轮的整个圆周进行触觉传感。我们的研究结果表明，我们的传感器安装在移动机器人的轮子上，能够区分不同的地形，检测和分类具有不同几何形状的障碍物，并通过接触定位执行碰撞检测。我们还对我们的传感器与移动机器人中传统使用的传感器进行了比较，并指出了利用我们触觉传感架构的独特功能的传感器融合方法的潜力。

Fault Tolerant Neural Control Barrier Functions for Robotic Systems under Sensor Faults and Attacks
Authors Hongchao Zhang, Luyao Niu, Andrew Clark, Radha Poovendran
安全是许多机器人系统的基本要求。人们提出了基于控制屏障函数 CBF 的方法来保证机器人系统的安全。然而，这些方法的有效性很大程度上取决于 CBF 的选择。受神经网络通用逼近能力的启发，使用神经网络表示 CBF 的趋势日益增长，从而产生了神经 CBF NCBF 的概念。然而，当前的 NCBF 是在良性环境中进行训练和部署的，这使得它们对于机器人系统遇到传感器故障和攻击的场景无效。在本文中，我们研究传感器故障和攻击下机器人系统的安全关键控制综合。我们的主要贡献是开发和合成一类新的 CBF，我们将其称为容错神经控制屏障函数 FT NCBF。我们推导了 FT NCBF 保证安全性的充分必要条件，并开发了一种数据驱动的方法来通过最小化使用推导条件构建的损失函数来学习 FT NCBF。使用学习到的 FT NCBF，我们合成控制输入并正式证明我们的方法提供的安全保证。

Robot Body Schema Learning from Full-body Extero/Proprioception Sensors
Authors Shuo Jiang, Jinkun Zhang, Lawson Wong
对于机器人来说，其身体结构是设计时的先验知识。然而，当这些信息不可用时，机器人可以自行识别吗？在本文中，我们的目标是赋予机器人这样的能力，即从身体传感器收集的外感觉和本体感觉数据中学习其身体结构。通过一种新颖的机器学习方法，机器人可以从其传感器读数中学习二进制异构依赖矩阵。我们证明这样的矩阵相当于一个异构树结构，它可以唯一地表示机器人的身体拓扑。我们探索了此类矩阵和输出树的属性，并提出了当它们受到部分可观测性或数据噪声污染时修复它们的补救措施。我们在模拟中的 6 个具有不同身体结构的不同机器人和 1 个真实机器人上运行了我们的算法。

The Grasp Reset Mechanism: An Automated Apparatus for Conducting Grasping Trials
Authors Kyle DuFrene, Keegan Nave, Joshua Campbell, Ravi Balasubramanian, Cindy Grimm
推进机器人抓取和操作需要能够测试算法和/或训练大量抓取的学习模型。为了实现更高级的抓取目标，我们推出了 Grasp Reset Mechanism GRM，这是一种用于进行大规模抓取试验的全自动设备。 GRM 自动执行重置抓取环境的过程，将物体重复放置在固定位置和可控的一维方向。它还收集数据并在多个对象之间进行交换，从而无需人工干预即可实现强大的数据集收集。我们还提供了用于控制的标准化状态机接口，它允许以最小的努力集成大多数操纵器。除了物理设计和相应的软件之外，我们还包含 1,020 个抓取的数据集。这些抓取是使用 Kinova Gen3 机器人手臂和 Robotiq 2F 85 自适应抓取器创建的，可以训练学习模型并展示 GRM 的功能。该数据集包括跨四个对象和各种方向进行的抓握范围。

A Cognitive-Based Trajectory Prediction Approach for Autonomous Driving
Authors Haicheng Liao, Yongkang Li, Zhenning Li, Chengyue Wang, Zhiyong Cui, Shengbo Eben Li, Chengzhong Xu
在自动驾驶汽车自动驾驶技术中，准确预测周围车辆运动的能力对于确保安全和运营效率至关重要。结合人类决策洞察力，自动驾驶汽车能够更有效地预测其他车辆的潜在行为，从而显着提高动态环境中的预测准确性和响应能力。本文介绍了类人轨迹预测 HLTP 模型，该模型采用受人类认知过程启发的师生知识蒸馏框架。 HLTP 模型结合了复杂的师生知识蒸馏框架。教师模型配备了自适应视觉区域，模仿人脑的视觉处理，特别是枕叶和颞叶的功能。学生模型侧重于实时交互和决策，与前额叶和顶叶皮层功能相似。这种方法可以动态适应不断变化的驾驶场景，捕捉必要的感知线索以进行准确预测。使用澳门互联和自动驾驶 MoCAD 数据集以及 NGSIM 和 HighD 基准进行评估，HLTP 与现有模型相比表现出卓越的性能，特别是在数据不完整的挑战性环境中。

CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition
Authors Feng Lu, Xiangyuan Lan, Lijun Zhang, Dongmei Jiang, Yaowei Wang, Chun Yuan
在过去的十年中，视觉位置识别 VPR 中的大多数方法都使用神经网络来产生特征表示。这些网络通常仅使用该图像本身来生成位置图像的全局表示，并忽略跨图像变化，例如视点和照明，这限制了它们在具有挑战性的场景中的鲁棒性。在本文中，我们提出了一种具有跨图像相关意识的鲁棒全局表示方法，名为 CricaVPR。我们的方法使用自注意力机制来关联批次中的多个图像。这些图像可以在同一地点以不同的条件或视角拍摄，甚至可以从不同的地点拍摄。因此，我们的方法可以利用交叉图像变化作为指导表示学习的线索，从而确保产生更稳健的特征。为了进一步提高鲁棒性，我们提出了一种多尺度卷积增强自适应方法，使预训练的视觉基础模型适应VPR任务，该方法引入多尺度局部信息以进一步增强跨图像相关感知表示。实验结果表明，我们的方法在训练时间显着减少的情况下大幅优于最先进的方法。我们的方法使用 512 个暗淡全局特征在 Pitts30k 上实现了 94.5 R 1。

MemoNav: Working Memory Model for Visual Navigation
Authors Hongxin Li, Zeyu Wang, Xu Yang, Yuran Yang, Shuqi Mei, Zhaoxiang Zhang
图像目标导航是一项具有挑战性的任务，需要代理在不熟悉的环境中导航到图像指示的目标。利用不同场景记忆的现有方法存在探索效率低下的问题，因为它们使用所有历史观察结果来进行决策，而不考虑目标相关部分。为了解决这一限制，我们提出了 MemoNav，这是一种用于图像目标导航的新型记忆模型，它利用工作记忆启发的管道来提高导航性能。具体来说，我们采用三种类型的导航存储器。地图上的节点特征存储在短期记忆 STM 中，因为这些特征是动态更新的。然后，遗忘模块会保留信息丰富的 STM 部分以提高效率。我们还引入了长期记忆 LTM，通过逐步聚合 STM 特征来学习全局场景表示。随后，图注意力模块对保留的 STM 和 LTM 进行编码，以生成工作记忆 WM，其中包含高效导航所必需的场景特征。这三种内存类型之间的协同作用使代理能够学习和利用拓扑图中与目标相关的场景特征，从而提高了导航性能。我们对多目标任务的评估表明，MemoNav 在 Gibson 和 Matterport3D 场景中的所有难度级别上都显着优于以前的方法。

DOZE: A Dataset for Open-Vocabulary Zero-Shot Object Navigation in Dynamic Environments
Authors Ji Ma, Hongming Dai, Yao Mu, Pengying Wu, Hao Wang, Xiaowei Chi, Yang Fei, Shanghang Zhang, Chang Liu
零射击对象导航 ZSON 要求代理在陌生的环境中自主定位和接近看不见的对象，并且已成为嵌入式 AI 领域中一项特别具有挑战性的任务。用于开发 ZSON 算法的现有数据集缺乏对动态障碍物、对象属性多样性和场景文本的考虑，因此与现实世界的情况存在明显差异。为了解决这些问题，我们提出了动态环境中开放词汇零射击对象导航 DOZE 的数据集，其中包含十个高保真 3D 场景和超过 18k 的任务，旨在模拟复杂、动态的现实世界场景。具体来说，DOZE 场景具有多个移动的人形障碍物、广泛的开放词汇对象、各种不同的属性对象以及有价值的文本提示。此外，与仅提供代理和静态障碍物之间的碰撞检查的现有数据集不同，我们通过集成检测代理和移动障碍物之间的碰撞的功能来增强 DOZE。这种新颖的功能可以评估动态环境中代理的防撞能力。我们在 DOZE 上测试了四种代表性的 ZSON 方法，揭示了现有方法在导航效率、安全性和物体识别准确性方面还有很大的改进空间。

Aligning Knowledge Graph with Visual Perception for Object-goal Navigation
Authors Nuo Xu, Wen Wang, Rong Yang, Mengjie Qin, Zheyuan Lin, Wei Song, Chunlong Zhang, Jason Gu, Chao Li
对象目标导航是一项具有挑战性的任务，需要根据第一人称视觉观察引导智能体到达特定对象。智能体理解周围环境的能力对于成功找到目标起着至关重要的作用。然而，现有的基于知识图的导航器通常依赖于离散分类一热向量和计票策略来构建场景的图形表示，这导致与视觉图像的不一致。为了提供更准确、连贯的场景描述并解决这种错位问题，我们提出了使用视觉感知 AKGVP 方法对齐知识图来进行对象目标导航。从技术上讲，我们的方法引入了分层场景架构的连续建模，并利用视觉语言预训练来使自然语言描述与视觉感知保持一致。连续知识图架构和多模态特征对齐的集成使导航器具有卓越的零射击导航能力。我们使用 AI2 THOR 模拟器广泛评估我们的方法，并进行一系列实验来证明我们的导航器的有效性和效率。

NARUTO: Neural Active Reconstruction from Uncertain Target Observations
Authors Ziyue Feng, Huangying Zhan, Zheng Chen, Qingan Yan, Xiangyu Xu, Changjiang Cai, Bing Li, Qilun Zhu, Yi Xu
我们推出了 NARUTO，一种神经主动重建系统，它将混合神经表示与不确定性学习相结合，从而实现高保真度表面重建。我们的方法利用多分辨率哈希网格作为映射主干，选择它是因为其卓越的收敛速度和捕获高频局部特征的能力。我们工作的核心是结合不确定性学习模块，该模块动态量化重建不确定性，同时主动重建环境。通过利用学习到的不确定性，我们提出了一种新颖的不确定性聚合策略，用于目标搜索和有效的路径规划。我们的系统通过针对不确定的观测进行自主探索，并以卓越的完整性和保真度重建环境。我们还通过主动射线采样策略增强 SOTA 神经 SLAM 系统，展示了这种不确定性感知方法的实用性。

A revision on Multi-Criteria Decision Making methods for Multi-UAV Mission Planning Support
Authors Cristian Ramirez Atencia, Victor Rodriguez Fernandez, David Camacho
在过去的十年中，无人机由于其可管理性和风险规避性而在许多商业应用中得到了广泛的应用。考虑的主要问题之一是多无人机的任务规划，必须找到满足问题不同约束的解决方案。这个问题有多个必须同时优化的变量，例如完工时间、任务成本或风险。因此，问题有很多可能的最优解，操作者必须在其中选择最终要执行的解。为了减少操作人员在决策过程中的工作量，决策支持系统DSS就变得必要。在这项工作中，设计了一个由排序和过滤系统组成的 DSS，用于排序和减少最佳解决方案。在排名系统方面，在多无人机任务规划场景上比较了多种多标准决策MCDM方法，包括一些模糊MCDM，以研究哪种方法更适合多无人机决策支持系统。专家操作员对返回的解决方案进行了评估，结果表明，一方面，模糊方法通常会获得更好的平均分数，另一方面，当操作员的偏好偏向于某个值时，所有测试的方法都表现得更好。当他们的偏好平衡时，情况会更糟。

Embodied Supervision: Haptic Display of Automation Command to Improve Supervisory Performance
Authors Alia Gilbert, Sachit Krishnan, R. Brent Gillespie
使用手动控制界面的操作员可以通过感知复制和本体感觉随时访问自己的命令信号。相比之下，人类主管通常仅依赖视觉信息。我们建议向主管提供操作员命令信号的副本，假设性能得到改善，特别是当通过触觉显示提供该副本时。我们通过实验将触觉与视觉访问命令信号进行比较，量化 N 等于 10 名参与者的性能，试图确定操作员正在跟踪三个参考信号中的哪一个。结果表明，相对于单独的视觉显示，当触觉显示可用时，识别跟踪目标的准确性更高。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com