【AI视野·今日Robot 机器人论文速览第七十三期】Tue, 9 Jan 2024

AI视野·今日CS.Robotics 机器人学论文速览
Tue, 9 Jan 2024
Totally 40 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Robotics Papers

Digital Twin for Autonomous Surface Vessels for Safe Maritime Navigation
Authors Daniel Menges, Andreas Von Brandis, Adil Rasheed
自主水面舰艇 ASV 在公海作业的安全性和可持续性方面发挥着越来越重要的作用。由于大多数海事事故都与人为失误有关，因此用于自主避碰和路径跟踪的智能算法可以大大降低海事部门的风险。 DT 是真实物理系统的虚拟代表，可以增强此类 ASV 的态势感知 SITAW 以生成最佳决策。这项工作建立在现有的 ASV DT 框架之上，并展示了实现预测、规范和自主功能的基础。在这种情况下，复杂的目标跟踪方法对于估计和预测其他动态物体的位置和运动至关重要。所应用的跟踪方法是通过实时自动识别系统 AIS 数据以及合成光检测和测距激光雷达测量来实现的。为了保证自主操作期间的安全，我们应用了基于非线性模型预测控制 NMPC 概念的预测安全滤波器。这些方法被实施到使用 Unity 游戏引擎构建的 DT 中。

Task-Oriented Active Learning of Model Preconditions for Inaccurate Dynamics Models
Authors Alex LaGrassa, Moonyoung Lee, Oliver Kroemer
当使用不准确的动力学模型进行规划时，实用的策略是将规划限制在模型准确的状态动作空间区域（也称为模型前提条件）。现实世界的经验轨迹数据对于定义数据驱动模型前提条件非常有价值，无论模型的形式是分析的、模拟器的、学习的等等。然而，收集现实世界的数据通常既昂贵又危险。为了实现数据效率，本文提出了一种主动选择轨迹的算法来学习不准确的预先指定的动力学模型的模型前提条件。我们提出的技术解决了轨迹的连续性所带来的挑战，以及优先考虑任务相关数据的潜在好处。实验分析显示了算法属性如何影响冰冷网格世界、模拟植物浇水和现实世界植物浇水这三种规划场景中的性能。

Simultaneous Task Allocation and Planning for Multi-Robots under Hierarchical Temporal Logic Specifications
Authors Xusheng Luo, Changliu Liu
过去对具有时间逻辑规范的机器人规划（特别是线性时间逻辑 LTL）的研究主要基于单个或机器人组的奇异公式。但随着任务复杂性的增加，LTL 公式不可避免地变得冗长，使解释和规范生成变得复杂，并对规划者的计算能力造成压力。为了最大限度地发挥 LTL 规范的潜力，我们利用任务的内在结构，为 LTL 规范引入层次结构，并设计了一种算法来确定给定输入序列是否满足它们。其次，我们采用基于搜索的方法来综合多机器人系统的计划，完成同步任务分配和规划。搜索空间近似为松散互连的子空间，每个子空间对应一个 LTL 规范。搜索主要局限于单个子空间，在某些条件下过渡到另一个子空间，由自动机的分解决定。此外，还制定了多种启发式方法来显着加快搜索速度。关于完整性和最优性的理论分析是在温和的假设下进行的。与服务任务上的现有方法相比，我们的方法在执行时间方面优于同类解决方案质量。

Diegetic Graphical User Interfaces and Intuitive Control of Assistive Robots via Eye-gaze
Authors Emanuel Nunez Sardinha, Marcela Munera, Nancy Zook, David Western, Virginia Ruiz Garate
四肢瘫痪和类似形式的瘫痪患者由于缺乏自主权而在身体和情感上遭受痛苦。为了帮助重新获得部分自主权，辅助机械臂已被证明可以提高生活的独立性。然而，瘫痪用户给这些设备的控制带来了独特的挑战性条件。在本文中，我们介绍了饮食图形用户界面的使用，这是一种新颖、直观且计算成本低廉的方法，用于应用于机器人的凝视控制界面。通过使用与基准标记配对的符号，可以在现实世界中定义交互式按钮，用户可以通过凝视触发这些按钮，并且可以轻松地将其嵌入到环境中。我们应用该系统来驾驶 3 自由度机械臂来执行精确拾取和放置任务。该界面直接放置在机器人上，以实现直观、直接的交互，无需在外部屏幕、菜单和机器人之间进行上下文切换。经过校准和短暂的适应期后，来自不同背景、年龄和视力状况的 21 名参与者完成了耶鲁 CMU 伯克利 YCB 块拾取和放置协议来对系统进行基准测试，平均得分为 13.71（满分 16.00）。据报告，系统可用性得分为 75.36，具有良好的可用性和用户体验，同时 NASA TLX 的低任务工作负载测量为 44.76。结果表明，用户可以使用多个界面元素来执行操作，只需最少的练习和较小的认知负荷。

Recovering the 3D UUV Position using UAV Imagery in Shallow-Water Environments
Authors Antun ura , Matija Sukno, Ivana Palunko
在本文中，我们提出了一种新方法，旨在从浅水环境中的无人机图像中恢复 UUV 的 3D 位置。通过无人机和 UUV 测量的结合，我们表明，与声学传感方法相比，我们的方法可以作为一种准确且具有成本效益的替代方案，通常需要在水下定位问题中获取地面实况信息。此外，我们的方法允许无缝转换为可用于导航目的的地理参考坐标。

Guided Time-optimal Model Predictive Control of a Multi-rotor
Authors Guangyu Zhang, Yongjie Zheng, Yuqing He, Liying Yang, Hongyu Nie, Chaoxiong Huang, Yiwen Zhao,
由于其动力学的欠驱动和非线性，多旋翼的时间最优控制仍然是一个悬而未决的问题，这使得直接解决这个问题很困难。本文研究了多旋翼飞行器的时间最优控制问题。首先提出了推力极限优化分解方法，能够根据当前状态和目标状态将有限推力合理分解为三个方向。因此，推力极限约束被分解为线性约束。通过线性约束和解耦动力学，可以获得时间最优的制导轨迹。然后，基于时间最优制导轨迹定义成本函数，该函数具有二次形式，可用于评估系统输出的时间最优性能。最后，基于成本函数，时间最优控制问题被重新表述为MPC模型预测控制问题。

An Aerial Manipulator for Robot-to-robot Torch Relay Task: System Design and Control Scheme
Authors Guangyu Zhang, Yuqing He, Liying Yang, Chaoxiong Huang, Yanchun Chang, Siliang Li,
火炬传递是奥运会的重要传统，预示着奥运会的开始。机器人在火炬传递活动中的应用，不仅可以向世界展示人类的科技能力，也让人们看到了未来人类与机器人一起生活的景象。本文介绍了一种为北京2022年冬奥会机器人到机器人火炬接力任务而设计的空中机械手。该空中机械臂系统由四旋翼飞行器、三自由度机械臂和单目相机组成。本文主要介绍空中机械手的系统设计和系统控制方案。

"Oh, Sorry, I Think I Interrupted You'': Designing Repair Strategies for Robotic Longitudinal Well-being Coaching
Authors Minja Axelsson, Micol Spitale, Hatice Gunes
机器人健康教练已被证明可以成功地促进人们的心理健康。为了提供成功的教练，机器人教练应该有能力纠正所犯的错误。过去对机器人错误的调查仅限于基于游戏或任务的一次性研究和实验室研究。本文提出了一个 4 阶段的设计过程，用于设计机器人纵向健康指导的修复策略，并让现实世界的利益相关者参与其中 1 与专业健康教练一起设计修复策略 2 有经验的用户参与的纵向研究，即已经接受过治疗的用户与机器人教练互动，研究 1 中定义的修复策略 3 与来自 2 研究的用户一起举办设计研讨会，收集他们对机器人教练修复策略的看法 4 与心理健康专业人士讨论 2 和 3 中获得的结果反思如何设计机器人训练的修复策略。我们的结果表明，用户对机器人教练的期望与对人类教练的期望不同，这影响了修复策略的设计方式。

DME-Driver: Integrating Human Decision Logic and 3D Scene Perception in Autonomous Driving
Authors Wencheng Han, Dongqian Guo, Cheng Zhong Xu, Jianbing Shen
在自动驾驶领域，自动驾驶汽车系统的两个重要特征是决策逻辑的可解释性和环境感知的准确性。本文介绍了DME Driver，这是一种新型自动驾驶系统，可增强自动驾驶系统的性能和可靠性。 DME驱动程序利用强大的视觉语言模型作为决策者，并利用面向规划的感知模型作为控制信号生成器。为了确保驾驶决策可解释且可靠，逻辑决策器是基于大型视觉语言模型构建的。该模型遵循经验丰富的人类驾驶员所采用的逻辑，并以类似的方式做出决策。另一方面，精确控制信号的生成依赖于精确、详细的环境感知，而这正是 3D 场景感知模型的优势所在。因此，采用面向规划的感知模型作为信号发生器。它将决策者做出的逻辑决策转化为自动驾驶汽车的准确控制信号。为了有效地训练所提出的模型，创建了一个新的自动驾驶数据集。该数据集包含各种人类驾驶员行为及其潜在动机。

DDM-Lag : A Diffusion-based Decision-making Model for Autonomous Vehicles with Lagrangian Safety Enhancement
Authors Jiaqi Liu, Peng Hang, Xiaocong Zhao, Jianqiang Wang, Jian Sun
决策是自动驾驶汽车领域的关键组成部分，在解决复杂的自动驾驶问题中发挥着至关重要的作用。在数据驱动方法论不断发展的背景下，提高复杂场景中的决策绩效已成为一个突出的研究重点。尽管取得了相当大的进步，但当前基于学习的决策方法仍显示出改进的潜力，特别是在政策阐明和安全保证方面。

Disentangled Neural Relational Inference for Interpretable Motion Prediction
Authors Victoria M. Dax, Jiachen Li, Enna Sachdeva, Nakul Agarwal, Mykel J. Kochenderfer
动态代理的有效交互建模和行为预测在自主机器人的交互式运动规划中发挥着重要作用。尽管现有方法提高了预测精度，但很少有研究致力于增强预测模型的可解释性和分布外的 OOD 泛化性。这项工作通过设计一个变分自动编码器框架来解决这两个具有挑战性的方面，该框架集成了基于图的表示和时间序列模型，以有效捕获交互代理之间的时空关系并预测其动态。我们的模型推断出潜在空间中的动态交互图，并增强了表征交互的可解释边缘特征。此外，我们的目标是通过解开边缘特征的潜在空间来增强模型在 OOD 场景中的可解释性和性能，从而增强模型的通用性和鲁棒性。我们通过对模拟和现实世界数据集进行大量实验来验证我们的方法。

Overview of Dialogue Robot Competition 2023
Authors Takashi Minato, Ryuichiro Higashinaka, Kurima Sakai, Tomo Funayama, Hiromitsu Nishizaki, Takayuki Naga
我们在 2020 年和 2022 年举办了对话机器人比赛，以比较使用与人类极为相似的机器人的交互机器人的表现。 2023年，举办第三届比赛DRC2023。 DRC2023的任务被设计得比之前的旅行社对话任务更具挑战性。由于现在任何人都可以使用LLM开发对话系统，因此参赛团队需要开发一个能够有效利用现场实时信息的系统，而这是ChatGPT和其他系统无法处理的。 DRC2023分为预赛和决赛两轮以及往届比赛。初赛于2023年10月27日至11月20日在实体旅行社门店举行。

Quadrotor Stabilization with Safety Guarantees: A Universal Formula Approach
Authors Ming Li, Zhiyong Sun, Siep Weiland
安全稳定对于四旋翼飞行器来说是一项重大挑战，这涉及到在避开障碍物的同时达到目标位置。该问题的大多数现有解决方案都依赖于基于优化的方法，需要大量的机载计算资源。本文介绍了一种解决此问题的新方法，并提供了一种解决方案，该解决方案可提供针对板载执行量身定制的快速计算能力。受桑塔格通用公式的启发，我们提出了一种分析控制策略，该策略结合了控制李雅普诺夫函数 CLF 和控制障碍函数 CBF 的条件，有效避免了在船上求解优化问题的需要。此外，我们通过合并状态稳定性输入 ISS 和状态安全输入 ISSf 的概念来扩展我们的方法，增强通用公式有效管理扰动的能力。此外，我们提出了一种基于投影的方法，以确保即使面临控制输入约束，通用公式仍然有效。这种方法的基本思想是将通用公式导出的控制输入投影到控制输入域内的最近点上。

Robots and Social Sustainability
Authors Bipin Indurkhya, Barbara Sienkiewicz
可持续性不再是一个选择问题，而是始终与地球整个生态系统的生存息息相关。随着机器人技术呈指数级增长，研究其对可持续性的影响至关重要。

N$^{3}$-Mapping: Normal Guided Neural Non-Projective Signed Distance Fields for Large-scale 3D Mapping
Authors Shuangfu Song, Junqiao Zhao, Kai Huang, Jiaye Lin, Chen Ye, Tiantian Feng
大规模环境中准确而密集的测绘对于各种机器人应用至关重要。最近，隐式神经符号距离场 SDF 在这项任务中显示出了有希望的进展。然而，大多数现有方法采用距离数据的投影距离作为 SDF 监督，引入近似误差，从而降低测绘质量。为了解决这个问题，我们引入了 N3 Mapping，这是一种隐式神经映射系统，具有法线引导神经非投影符号距离场。具体来说，我们直接沿表面法线而不是射线对点进行采样，以便从范围数据中获得更准确的非投影距离值。然后这些距离值用作监督来训练隐式映射。对于大规模映射，我们应用面向体素的滑动窗口机制来缓解有限内存占用的遗忘问题。此外，考虑到测量点云分布不均匀，设计了分层采样策略以提高训练效率。

Improving Dribbling, Passing, and Marking Actions in Soccer Simulation 2D Games Using Machine Learning
Authors Nader Zare, Omid Amini, Aref Sayareh, Mahtab Sarvmaili, Arad Firouzkouhi, Stan Matwin, Amilcar Soares
RoboCup比赛始于1997年，被誉为历史最悠久的RoboCup联赛。 RoboCup 2D 足球模拟联赛是一个随机、部分可观察的足球环境，其中 24 名自主智能体分别代表两支敌对球队进行比赛。在本文中，我们详细介绍了 2021 年 RoboCup 2D 足球模拟联赛冠军 CYRUS 的主要策略和功能。这项工作中提出和讨论的新功能是 i 多动作运球、ii 传球预测和 iii 标记决策。多动作带球策略使 CYRUS 在比赛中进行带球动作时能够更频繁地成功且更安全。传球预测通过预测队友的传球行为、预测并使我们的代理更好地协作来进球，从而增强了我们的游戏玩法。

LLMs for Robotic Object Disambiguation
Authors Connie Jiang, Yiqing Xu, David Hsu
预训练的大型语言模型法学硕士的优势在各种语言处理任务中都很明显。但是，能否进一步利用语言模型的知识来有效地消除对象歧义并应对机器人领域内的决策挑战？我们的研究揭示了法学硕士解决复杂决策挑战的能力，这些挑战通常由部分可观察马尔可夫决策过程 POMDP 建模。我们研究的一个关键焦点是法学硕士的对象消歧能力。我们详细介绍了将 LLM 集成到桌面环境消歧任务中，这是一个决策问题，其中机器人的任务是从任意大且复杂的对象簇中辨别和检索用户所需的对象。尽管在附录中可以找到零镜头提示工程细节的多次查询尝试，但法学硕士很难查询场景描述中未明确提供的功能。作为回应，我们开发了一些镜头提示工程系统，以提高法学硕士提出消除歧义查询的能力。

Human evaluation of robotic grippers for berry picking
Authors Laura Alvarez Hidalgo, Ian S. Howard
我们描述了两个用于浆果采摘的机器人夹具的构造和评估。使用气缸驱动，一个由硬材料制成，另一个由软材料制成。开发了一种使用手柄机构的新颖评估范例，因此人类参与者可以直接操作夹具。还建造了人造灌木丛并用于评估目的。

Generative Skill Chaining: Long-Horizon Skill Planning with Diffusion Models
Authors Utkarsh A. Mishra, Shangjie Xue, Yongxin Chen, Danfei Xu
长期任务通常以复杂的子任务依赖性为特征，这对操作规划提出了重大挑战。技能链是一种通过结合学到的技能先验来解决看不见的任务的实用方法。然而，如果贪婪地排序，这样的方法是短视的，并且面临基于搜索的规划策略的可扩展性问题。为了应对这些挑战，我们引入了生成技能链 GSC，这是一种概率框架，可以学习以技能为中心的扩散模型并组合其学习的分布以在推理过程中生成长期计划。 GSC 从所有技能模型中并行采样，以有效解决看不见的任务，同时强制实施几何约束。我们在各种长期任务上评估该方法，并展示其推理动作依赖性、约束处理和泛化的能力，以及面对扰动时重新计划的能力。我们展示了仿真和真实机器人的结果，以验证 GSC 的效率和可扩展性，强调其推进长期任务规划的潜力。

The HAPPY HEDGEHOG Project
Authors Oliver Bendel, Emanuel Graf, Kevin Bollier
半自主机器、自主机器和机器人居住在封闭、半封闭和开放环境中，更结构化的环境（如家庭）或更非结构化的环境（如文化景观或荒野）。在那里，他们遇到了家畜、农场动物、劳作动物和野生动物。这些生物可能会被机器扰乱、流离失所、受伤或杀死。在机器伦理和社交机器人技术的背景下，FHNW 商学院开发了多项动物友好机器的设计研究和原型，这些机器可以根据这些学科的精神理解为道德和社会机器。 2019年20月，主要作者领导的团队开发了一款原型机器人割草机，它可以识别刺猬，为它们打断工作，从而保护它们。每年，世界各地都有许多动物因传统服务机器人而死亡。 HAPPY HEDGEHOG HHH（该发明被称为“HAPPY HEDGEHOG HHH”）可以解决这个问题。本文首先介绍了背景。然后，它重点关注机器遇到某些需要识别的物体的导航，以及借助机器的机器学习进行热识别和图像识别。它还提出了明显的弱点和可能的改进。

Algorithms for synthesis of three-dimensional warehouse systems configurations optimal in terms of minimum cost and maximum speed
Authors A. V. Razumovsky, M. V. Saramud, S. B. Tkachev, N. V. Shtabel
本文介绍了创建由统一运输和仓库模块组成的仓库三维系统最佳配置的算法。描述了这些模块的构造以及构建仓库阵列图的方法。每个模块均呈立方体形状，并通过 6 个面中的任意一个面相互连接。为了省钱，一些模块没有驱动器来在垂直方向移动负载。

MTAC: Hierarchical Reinforcement Learning-based Multi-gait Terrain-adaptive Quadruped Controller
Authors Nishaant Shah, Kshitij Tiwari, Aniket Bera
城市搜索和救援任务需要快速的第一反应，以尽量减少生命损失和损害。通常，此类工作需要人道主义机器人的协助，这些机器人需要处理动态操作条件，例如不平坦和崎岖的地形，特别是在地震等大规模伤亡事件期间。四足机器人由于其多功能设计，有潜力在这种情况下提供帮助。然而，由于四足机器人具有多个自由度，在动态和崎岖地形环境中控制四足机器人是一个具有挑战性的问题。目前的四足动物运动控制器在产生多种自适应步态、以时间和资源有效的方式解决任务的能力方面受到限制，并且需要繁琐的训练和手动调整程序。为了解决这些挑战，我们提出了 MTAC 一种多步态地形自适应控制器，它利用分层强化学习 HRL 方法，同时具有时间和内存效率。我们表明，我们提出的方法可以很好地扩展到各种环境，其计算时间与最先进的方法相似。

Designing a Socially Assistive Robot to Support Older Adults with Low Vision
Authors Emily Zhou, Zhonghao Shi, Xiaoyang Qiao, Maja J Matari , Ava K Bittner
社交辅助机器人 SAR 在补充和增强干预措施以支持老年人的身心健康方面显示出巨大的前景。然而，过去的工作尚未探索应用 SAR 降低老年人长期低视力康复 LVR 干预措施障碍的潜力。在这项工作中，我们提出了一个用户知情的设计流程，以验证动机并确定开发长期 LVR 的 SAR 的主要设计原则。为了评估用户感知的 SAR 在这个新领域的有用性和接受度，我们通过用户调查进行了两阶段研究。首先，一组 38 名患有 LV 的老年人完成了一份邮寄调查。接下来，由 13 名患有 LV 的老年人组成的新小组观看了诊所 SAR 演示，然后完成了调查。研究参与者报告说，SAR 有用、值得信赖、易于使用且令人愉快，同时提供社会情感支持以增强 LVR 干预措施。

Autonomous Navigation in Complex Environments
Authors Andrew Gerstenslager, Jomol Lewis, Liam McKenna, Poorva Patel
本文探讨了 CNN DNN 网络融合在模拟环境中构建机器人导航控制器的应用。模拟环境的构建是为了模拟地下救援情况，以便自主代理的任务是在未知的洞穴系统中寻找目标。模仿学习用于训练控制算法，以使用激光雷达和摄像头数据来导航空间并找到目标。

Challenges of Data-Driven Simulation of Diverse and Consistent Human Driving Behaviors
Authors Kalle Kujanp , Daulet Baimukashev, Shibei Zhu, Shoaib Azam, Farzeen Munir, Gokhan Alcan, Ville Kyrki
构建用于开发和测试自动驾驶汽车的模拟环境需要模拟器准确地模拟现实世界环境的统计真实性，包括与人类驾驶员驾驶的其他车辆的交互。为了满足这一要求，准确的人类行为模型对于融合人类驾驶行为的多样性和一致性至关重要。我们提出了一个数学框架，用于设计数据驱动的仿真模型，该模型比当前使用的基于物理的仿真模型更真实地模拟人类驾驶行为。

Understanding Large-Language Model (LLM)-powered Human-Robot Interaction
Authors Callie Y. Kim, Christine P. Lee, Bilge Mutlu
大型语言模型法学硕士在改善人类机器人交互、提供高级对话技能以及管理各种任务和领域中多样化、开放式用户请求方面的多功能性方面具有重大前景。尽管具有改变人类机器人交互的潜力，但人们对在机器人中使用法学硕士的独特设计要求知之甚少，这些要求可能不同于文本和语音交互，并且因任务和环境而异。为了更好地理解这些要求，我们进行了一项用户研究 n 32，将法学硕士驱动的社交机器人与基于文本和语音的代理进行比较，分析对话任务中基于任务的要求，包括选择、生成、执行和协商。我们的研究结果表明，法学硕士驱动的机器人提高了对复杂的非语言提示的期望，并且在建立联系和深思熟虑方面表现出色，但在逻辑沟通方面存在不足，并可能引发焦虑。

Decentralized Multi-Agent Active Search and Tracking when Targets Outnumber Agents
Authors Arundhati Banerjee, Jeff Schneider
多智能体多目标跟踪具有广泛的应用，包括野生动物巡逻、安全监控或环境监测。此类算法通常会做出限制性假设，可以假设已知目标的数量和/或它们的初始位置，或者可以预先分配代理来监视环境的不相交分区，从而减轻探索的负担。当智能体少于目标时，这也限制了适用性，因为智能体无法连续跟踪其视野中的目标。多智能体跟踪算法还假设智能体之间观察同步，或者存在中央控制器来协调联合动作。相反，我们专注于分散的多代理、多目标、同时主动搜索和跟踪以及异步代理间通信的设置。我们提出的算法 DecSTER 使用概率假设密度过滤器的顺序蒙特卡罗实现来进行后验推理，并结合汤普森采样来进行分散的多智能体决策。我们比较不同的行动选择策略，重点关注目标数量超过代理的场景。

Estimating the Lateral Motion States of an Underwater Robot by Propeller Wake Sensing Using an Artificial Lateral Line
Authors Jun Wang, Dexin Zhao, Youxi Zhao, Feitian Zhang, Tongsheng Shen
人工侧线 ALL 是水下机器人的仿生流量传感系统，由分布式流量传感器组成。 ALL 在感测仿生水下机器人（例如机器鱼）的运动状态方面取得了巨大成功，这些机器人由身体波动和/或尾巴拍动驱动。然而，由于旋转螺旋桨驱动的水下机器人的流场高度动态且复杂，ALL在其传感方面尚未得到系统的测试和研究。本文提出了一个大胆的假设，即从螺旋桨尾流中采样的分布式流量测量虽然无法代表整个流动动力学，但为估计引导水下机器人的横向运动状态提供了足够的信息。构建了一个实验测试台来研究这种状态估计器的可行性，该状态估计器包括圆柱形 ALL 传感系统、旋转引导螺旋桨和带有平面滑动导轨的水箱。具体来说，设计了由一维卷积网络 1DCNN 和双向长短期记忆网络 BiLSTM 组成的混合网络，用于提取分布式压力测量时间序列的时空特征。采用多输出深度学习网络来估计主螺旋桨的横向运动状态。此外，考虑综合估计性能，使用鲸鱼优化算法WOA对状态估计器进行优化。

The RoSiD Tool: Empowering Users to Design Multimodal Signals for Human-Robot Collaboration
Authors Nathaniel Dennler, David Delgado, Daniel Zeng, Stefanos Nikolaidis, Maja Matari
与人类合作的机器人必须能够有效地与人类沟通。然而，基于许多背景因素，例如文化、环境和过去的经验，人们对沟通的偏好有所不同。为了有效地沟通，机器人必须考虑这些因素。在这项工作中，我们提出了机器人信号设计 RoSiD 工具，使人们能够轻松地自行指定协作机器人的通信偏好。

Integrating Open-World Shared Control in Immersive Avatars
Authors Patrick Naughton, James Seungbum Nam, Andrew Stratton, Kris Hauser
远程操作化身机器人允许人们将他们的操作技能转移到工作可能困难或危险的环境中。当前的系统能够让操作员直接控制机器人的许多组件，使他们沉浸在远程环境中，但操作员仍然很难尽可能胜任地亲自完成任务。我们提出了一个框架，将开放世界共享控制纳入阿凡达机器人中，以结合直接控制和共享控制的优点。该框架通过最大限度地减少对操作员视野的阻碍并使用相同的界面进行直接、共享和完全自主的控制，从而保持了我们的化身界面的流畅性。

Software Implementation of Digital Filtering via Tustin's Bilinear Transform
Authors Connor W. Herron
这项工作的目的是提供一些关于通过 Tustins 双线性变换进行数字滤波的软件实现的说明。第一部分讨论如何使用称为 Horners 方法的通用方法手动求解输入和输出系数。

Using reinforcement learning to improve drone-based inference of greenhouse gas fluxes
Authors Alouette van Hove, Kristoffer Aalstad, Norbert Pirk
准确绘制地球表面温室气体通量对于气候模型的验证和校准至关重要。在这项研究中，我们提出了一个利用无人机估算表面通量的框架。我们的方法使用数据同化 DA 从基于无人机的观测中推断通量，并使用强化学习 RL 来优化无人机的采样策略。在这里，我们证明了经过强化学习训练的无人机可以比沿着穿过排放羽流的预定义飞行路径采样的无人机更准确地量化二氧化碳热点。我们发现基于信息的奖励函数可以与基于误差的奖励函数的性能相匹配，该函数量化了估计的表面通量与真实值之间的差异。基于信息增益和信息熵的奖励函数可以激励采取行动，从而增加无人机对其更新信念的信心，而无需了解真实的表面通量。

Long-term Safe Reinforcement Learning with Binary Feedback
Authors Akifumi Wachi, Wataru Hashimoto, Kazumune Hashimoto
安全性是将强化学习 RL 应用到实际问题中不可或缺的要求。尽管近年来提出了大量安全强化学习算法，但大多数现有工作通常 1 依赖于接收数字安全反馈 2 不能保证学习过程中的安全 3 将问题限制为先验已知的确定性过渡动态和/或 4假设任何州都存在已知的安全政策。为了解决上述问题，我们提出了长期二元反馈安全 RL LoBiSaRL，这是一种用于约束马尔可夫决策过程 CMDP 的安全 RL 算法，具有二元安全反馈和未知的随机状态转换函数。 LoBiSaRL 优化策略以最大化奖励，同时保证代理在每个情节中以高概率仅执行安全状态动作对的长期安全性。具体来说，LoBiSaRL 通过广义线性模型 GLM 对二元安全函数进行建模，并在每个时间步保守地仅采取安全行动，同时在适当的假设下推断其对未来安全的影响。我们的理论结果表明，LoBiSaRL 以高概率保证长期安全约束。

Evaluating and Personalizing User-Perceived Quality of Text-to-Speech Voices for Delivering Mindfulness Meditation with Different Physical Embodiments
Authors Zhonghao Shi, Han Chen, Anna Maria Velentza, Siqi Liu, Nathaniel Dennler, Allison O Connell, Maja Matari
基于正念的疗法已被证明可以有效改善心理健康，而基于技术的方法有可能扩大这些疗法的可及性。为了在这些方法中实现正念练习的实时个性化内容生成，需要高质量的计算机合成文本到语音 TTS 语音来提供口头指导并响应用户的表现和偏好。然而，用户感知的最先进 TTS 语音质量尚未针对正念冥想进行评估，因为正念冥想需要情感表达。此外，尚未开展研究物理体现和个性化对正念 TTS 语音用户感知质量的影响的工作。为此，我们设计了一项两阶段的人体受试者研究。在第一阶段，主题研究 N 471 之间的在线 Mechanical Turk 评估了 3 种女性、男性、儿童般的最先进的 TTS 声音，以及 2 种女性、男性人类治疗师的声音，在 3 种不同的物理实体设置中，无代理、会话代理、社交辅助机器人与远程参与者。基于第 1 阶段和第 2 阶段的调查结果，在主题研究 N 94 中，我们使用了我们开发的新颖框架，用于根据用户偏好个性化 TTS 语音，并与阶段中最受好评的非个性化语音相比，评估了用户感知质量1. 我们发现，评分最高的人声比所有 TTS 语音的感知更好，TTS 语音的情感表现力和自然度评价较差，而用户对 TTS 语音的清晰度感到满意。

Engineering Features to Improve Pass Prediction in Soccer Simulation 2D Games
Authors Nader Zare, Mahtab Sarvmaili, Aref Sayareh, Omid Amini, Stan Matwin Amilcar Soares
足球模拟 2D SS2D 是二维真实足球比赛的模拟。在足球比赛中，传球行为是保持球队控球并创造进球机会的重要动作。同样，对于 SS2D，预测对手和队友的传球行为有助于管理资源并取得更多进球。因此，在本研究中，我们尝试使用深度神经网络 DNN 和随机森林 RF 来解决足球 2D 球员传球行为的建模问题。我们提出了一个嵌入式数据提取模块，可以以在线格式记录代理的决策。之后，我们应用四种数据排序技术来准备训练数据。之后，我们评估了训练后的模型与 2019 年 RoboCup 6 支具有独特比赛策略的顶级球队的比赛表现。最后，我们研究了不同特征组对传球策略预测的重要性。

Amplifying robotics capacities with a human touch: An immersive low-latency panoramic remote system
Authors Junjie Li, Jian Xu, Dewei Han, Kang Li, Zhaoyuan Ma
人工智能和机器人技术在过去十年中取得了显着进步，彻底改变了各个领域的工作模式和机会。这些技术的应用推动社会迈向人与机器共生的时代。为了促进人类与智能机器人之间的高效沟通，我们提出了Avatar系统，一个沉浸式低延迟全景人类机器人交互平台。我们设计并测试了一个集成了边缘计算单元、全景视频采集设备、动力电池、机械臂和网络通信设备的坚固型移动平台原型。在网络条件良好的情况下，我们实现了延迟为357ms的低延迟高清全景视觉体验。操作员可以利用 VR 耳机和控制器对机器人和设备进行实时沉浸式控制。该系统可以实现远距离远程控制，跨越校园、省份、国家，甚至从纽约到深圳。此外，该系统还采用视觉SLAM技术进行地图和轨迹记录，提供自主导航功能。

MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot Learning
Authors Rafael Rafailov, Kyle Hatch, Victor Kolev, John D. Martin, Mariano Phielipp, Chelsea Finn
我们研究现实机器人任务背景下的高维观察强化学习的离线预训练和在线微调问题。最近的离线无模型方法成功地使用在线微调来提高代理在数据收集策略上的性能或适应新任务。与此同时，基于模型的强化学习算法在样本效率和可解决任务的复杂性方面取得了显着进步，但在微调设置中仍未得到充分利用。在这项工作中，我们认为，由于分布变化、动态数据和非平稳奖励等问题，现有基于模型的离线强化学习方法不适合高维领域的离线到在线微调。我们提出了一种基于策略模型的方法，该方法可以通过基于模型的价值扩展和策略正则化有效地重用先验数据，同时通过控制认知不确定性来防止模型利用。我们发现我们的方法成功地解决了 MetaWorld 基准测试中的任务，以及完全从图像中解决 Franka Kitchen 机器人操作环境的任务。

Theoretical Framework for the Optimization of Microphone Array Configuration for Humanoid Robot Audition
Authors Vladimir Tourbabin, Boaz Rafaely
人形机器人的一个重要方面是试听。之前的工作已经提出了能够基于具有各种配置的麦克风阵列进行声音定位和源分离的机器人系统。然而，尚未提出这些阵列设计的理论框架。在本文中，提出了一种基于新颖的阵列质量测量的设计框架。该测量基于由广义头部相关传递函数 GHRTF 组成的矩阵的有效秩，该矩阵考虑了除耳朵之外的麦克风位置。该测量结果在理论上与标准阵列性能测量（例如波束成形鲁棒性和 DOA 估计精度）相关。然后，应用该方法来生成麦克风阵列的样本设计。

Human as AI Mentor: Enhanced Human-in-the-loop Reinforcement Learning for Safe and Efficient Autonomous Driving
Authors Zilin Huang, Zihao Sheng, Chengyuan Ma, Sikai Chen
尽管自动驾驶汽车取得了重大进展，但确保自动驾驶汽车安全和交通流效率的驾驶政策尚未得到充分探索。在本文中，我们提出了一种增强的人在环强化学习方法，称为基于人为人工智能导师的深度强化学习HAIM DRL框架，该框架有助于在混合交通队列中安全高效地自动驾驶。从人类学习过程中汲取灵感，我们首先引入一种创新的学习范式，将人类智能有效地注入人工智能中，称为人类人工智能导师 HAIM。在这个范例中，人类专家充当人工智能代理的导师。在允许智能体充分探索不确定环境的同时，人类专家可以在危险情况下进行控制并展示正确的行动以避免潜在的事故。另一方面，可以引导智能体最小化交通流干扰，从而优化交通流效率。具体来说，HAIM DRL 利用从自由探索和部分人类演示中收集的数据作为其两个训练来源。值得注意的是，我们绕过了手动设计奖励函数的复杂过程，而是直接从部分人类演示中得出代理状态动作值，以指导代理策略学习。此外，我们采用最小干预技术来减少人类导师的认知负荷。对比结果表明，HAIM DRL 在驾驶安全性、采样效率、减轻交通流扰动以及对未见过的交通场景的泛化性方面优于传统方法。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com