【AI视野·今日Robot 机器人论文速览第七十四期】Wed, 10 Jan 2024

AI视野·今日CS.Robotics 机器人学论文速览
Wed, 10 Jan 2024
Totally 17 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Robotics Papers

Hold 'em and Fold 'em: Towards Human-scale, Feedback-Controlled Soft Origami Robots
Authors Immanuel Ampomah Mensah, Jessica Healey, Celina Wu, Andrea Lacunza, Nathaniel Hanson, Kristen L. Dorsey
软机器人技术中尚未开发的功能是本体感觉反馈控制，其中仅使用机器人身体上的传感器即可感测和控制软执行器。此外，由于使用的材料极其柔顺，软执行器通常无法支撑人体规模的负载。开发反馈控制和大负载下驱动的能力，例如500 N 是将软机器人技术应用于日常应用所需的关键能力。在这项工作中，我们独立地演示了控制和驱动人体规模负载的这些关键因素，即软气动折纸机器人的本体感觉体现反馈控制以及这些折纸机器人在开环配置中在人的重量下的驱动。在这两个演示中，执行器均由内部流体压力控制。机器人上的电容式传感器提供位置估计并用作反馈控制器的输入。我们演示了在步进设定点和正弦轨迹跟踪期间单个执行器的位置控制，均方根误差 RMSE 低于 4 mm。我们还通过将三个执行器连接到一个开环控制系统中，该系统具有一个可改变其高度、滚动和俯仰的平台，展示了执行器作为折纸平衡板在人体规模机器人方面的潜力。这项工作通过展示无需视觉跟踪作为输入的闭环反馈位置控制以及可以支撑人的重量的轻质软执行器，为软机器人领域做出了贡献。

A Multi-Modal Approach Based on Large Vision Model for Close-Range Underwater Target Localization
Authors Mingyang Yang, Zeyu Sha, Feitian Zhang
水下目标定位使用实时传感测量来估计感兴趣的水下物体的位置，为水下机器人提供关键的反馈信息。虽然声学传感是水下机器人中最受认可的方法，并且可能是远距离水下目标定位的唯一有效方法，但这种传感方式通常存在分辨率低、成本高和能耗高的问题，因此在应用于水下机器人时性能平庸。近距离水下目标定位。另一方面，光学传感以其高分辨率和低成本的优势越来越受到水下机器人界的关注，特别是在近距离水下目标定位方面具有巨大的潜力。然而，由于可用的训练数据有限，大多数现有的水下光学传感研究仅限于特定类型的目标。此外，这些研究通常侧重于估计算法的设计，而忽略了光照条件对传感性能的影响，从而阻碍了在现实世界中更广泛的应用。为了解决上述问题，本文提出了一种新颖的目标定位方法，该方法结合光学和声学传感测量来估计近距离水下目标的 3D 位置。设计和开发了一个具有可控照明条件的测试平台，以通过实验研究所提出的多模态传感方法。应用大视觉模型来处理光学成像测量，消除了训练数据采集的要求，从而显着扩大了潜在应用范围。

Testing Human-Robot Interaction in Virtual Reality: Experience from a Study on Speech Act Classification
Authors Sara Kaszuba 1 , Sandeep Reddy Sabbella 1 , Francesco Leotta 1 , Pascal Serrarens 2 , Daniele Nardi 1 1 Sapienza Universit di Roma, Rome, Italy 2 PaleBlue, Stavanger, Norway
近年来，越来越多的人机交互 HRI 方法已在虚拟现实 VR 中实施和评估，因为它可以加快设计迭代并使最终用户更安全地评估和掌握 HRI 原语。然而，确定最合适的 VR 体验并不简单。在这项工作中，我们评估了在智能农业场景中，用户如何在语音行为理解任务中感知沉浸式和非沉浸式 VR。

Augmented Reality and Human-Robot Collaboration Framework for Percutaneous Nephrolithotomy
Authors Junling Fu, Matteo Pecorella, Elisa Iovene, Maria Chiara Palumbo, Alberto Rota, Alberto Redaelli, Giancarlo Ferrigno, Elena De Momi
在经皮肾镜碎石取石术PCNL手术中，外科医生需要在患者背部确定切口点，将针头对准预先计划的路径，然后进行穿刺操作。该过程目前是使用超声波或荧光镜成像进行针定向手动执行的，然而，这意味着精度有限且可重复性低。这项工作将增强现实 AR 可视化与光学透视头戴式显示器 OST HMD 和人机协作 HRC 框架相结合，以增强外科医生的任务完成能力。具体通过眼手标定、系统配准、全息图模型配准来实现视觉引导。笛卡尔阻抗控制器用于在针穿刺任务执行期间指导操作员。进行实验以验证系统性能与传统手动穿刺程序和基于二维监视器的可视化界面的比较。结果表明，所提出的框架分别在所有实验组中实现了最低的中值误差和标准差误差。此外，NASA TLX 用户评估结果表明，与其他实验设置相比，所提出的框架需要最低的工作负载分数来完成任务。

Towards Real-World Aerial Vision Guidance with Categorical 6D Pose Tracker
Authors Jingtao Sun, Yaonan Wang, Danwei Wang
跟踪物体 6 DoF 位姿对于各种下游机器人任务和现实世界应用至关重要。在本文中，我们利用类别 6 自由度姿态跟踪，研究了用于空中机器人操纵的空中视觉引导的现实世界机器人任务。空中条件不可避免地会带来特殊的挑战，例如俯仰和横滚的快速视点变化。为了支持这项任务和挑战，我们首先引入一个强大的类别 6 DoF 姿势跟踪器 Robust6DoF 。该跟踪器利用形状和时间先验知识来探索最佳帧间关键点对，这些关键点对是在先验结构自适应监督下以从粗到细的方式生成的。值得注意的是，我们的 Robust6DoF 采用空间时间增强模块，通过时间动态过滤和形状相似性过滤来处理帧间差异和类内形状变化的问题。我们进一步提出了一种姿态感知离散伺服策略 PAD Servo，作为实现最终航空视觉引导任务的解耦方法。它包含两个伺服动作策略，以更好地适应空中机器人操纵的结构特性。对四个众所周知的公共基准的详尽实验证明了我们 Robust6DoF 的优越性。

Large Language Models for Robotics: Opportunities, Challenges, and Perspectives
Authors Jiaqi Wang, Zihao Wu, Yiwei Li, Hanqi Jiang, Peng Shu, Enze Shi, Huawen Hu, Chong Ma, Yiheng Liu, Xuhui Wang, Yincheng Yao, Xuan Liu, Huaqin Zhao, Zhengliang Liu, Haixing Dai, Lin Zhao, Bao Ge, Xiang Li, Tianming Liu, Shu Zhang
大型语言模型法学硕士经历了显着的扩展，并且越来越多地跨各个领域进行集成。值得注意的是，在机器人任务规划领域，法学硕士利用其先进的推理和语言理解能力，根据自然语言指令制定精确高效的行动计划。然而，对于机器人与复杂环境交互的具体任务，纯文本法学硕士通常因缺乏与机器人视觉感知的兼容性而面临挑战。本研究全面概述了法学硕士和多模式法学硕士与各种机器人任务的新兴集成。此外，我们提出了一个框架，利用多模态 GPT 4V 通过自然语言指令和机器人视觉感知的结合来增强具体任务规划。我们基于不同数据集的结果表明，GPT 4V 有效增强了机器人在具体任务中的性能。

Autonomous robotic re-alignment for face-to-face underwater human-robot interaction
Authors Demetrious T. Kutzke, Ashwin Wariar, Junaed Sattar
由于传感、导航、操纵和机载计算技术的进步，使用自主水下航行器 AUV 来完成传统上具有挑战性和危险的任务已经激增。由于双向通信的限制以及弥合陆地交互策略与水下交互策略之间的差距的重大技术障碍，UHRI 在水下人类机器人交互中使用 AUV 的增长水平相对较小。支持 UHRI 的一个必要组成部分是建立一个安全的机器人潜水员方法系统，以建立考虑非标准人体姿势的面对面通信。在这项工作中，我们介绍了一种用于增强 UHRI 的立体视觉系统，该系统利用立体图像对的三维重建和机器学习来定位人类联合估计。然后，我们建立一个坐标系约定，对人类相对于相机坐标系所面对的方向进行编码。这允许自动设定点计算，保留人体比例，并可用作基于图像的视觉伺服控制方案的输入。我们表明，我们的设定点计算在数量和质量上都倾向于与实验设定点基线一致。

Robust Control of An Aerial Manipulator Based on A Variable Inertia Parameters Model
Authors Guangyu Zhang, Yuqing He, Bo Dai, Feng Gu, Jianda Han, Guangjun Liu
由无人机和多连杆机械臂组成的能够进行空中操纵的空中机械臂已显示出巨大的应用潜力。然而，无人机与机械臂之间的动态耦合使得空中机械臂的高性能控制变得困难。本文对空中机械手的系统建模和控制问题进行了研究。首先，提出了考虑附加机械臂的动态耦合的无人机动力学模型，该模型被视为对无人机的干扰。在动力学模型中，扰动受到空中机械手系统变惯量参数的影响。然后，基于所提出的动态模型，设计了一种扰动补偿鲁棒H infty控制器，以在机械臂运行时稳定无人机的飞行。

Design and Development of a Remotely-enabled Modular Release Mechanism for Autonomous Underwater Vehicles
Authors Demetrious T. Kutzke, Gustavo E. Miranda L pez, Robert J. Herman, Harryel Philippeaux
我们引入了一种称为远程模块化释放机制的发射装置，通过促进自主水面舰艇 ASV 的自主部署，增强协作自主海上应用的快速测试和原型设计。虽然我们的开发重点是从双体船式 ASV 部署 AUV 的特定应用，但释放机制可以适应不同的可部署物体和拖曳车辆，例如用于海洋学调查的浮标和传感器或单体 ASV。在本文中，我们探讨了许多硬件和软件设计注意事项，以促进与现有海上自主系统的轻松集成。我们阐述了用于探索释放系统的实用性和诊断系统问题的台架测试和水中测试。

Language-Conditioned Robotic Manipulation with Fast and Slow Thinking
Authors Minjie Zhu, Yichen Zhu, Jinming Li, Junjie Wen, Zhiyuan Xu, Zhengping Che, Chaomin Shen, Yaxin Peng, Dong Liu, Feifei Feng, Jian Tang
语言条件机器人操作旨在将自然语言指令转化为可执行动作，从简单的拾取和放置到需要意图识别和视觉推理的任务。受认知科学中的双过程理论的启发，该理论提出了人类决策中快速和慢速思维的两个并行系统，我们引入了具有快速和慢速思维的机器人 RFST，这是一个模仿人类认知架构的框架，可以对任务进行分类并根据两个系统做出决策基于指令类型的系统。我们的 RFST 由两个关键组件组成：1 指令鉴别器，用于根据当前用户指令确定应激活哪个系统；2 慢速思维系统，由与策略网络对齐的微调视觉语言模型组成，该模型允许机器人识别用户意图或执行推理任务。为了评估我们的方法，我们构建了一个包含现实世界轨迹的数据集，捕获从自发冲动到需要深思熟虑的任务的各种行为。我们在模拟和现实场景中的结果证实，我们的方法可以熟练地管理需要意图识别和推理的复杂任务。

RePLan: Robotic Replanning with Perception and Language Models
Authors Marta Skreta, Zihan Zhou, Jia Lin Yuan, Kourosh Darvish, Al n Aspuru Guzik, Animesh Garg
法学硕士在大型语言模型方面的进步已经证明了它们在促进高级推理、逻辑推理和机器人规划方面的潜力。最近，法学硕士还能够为低级机器人动作生成奖励函数，有效地桥接高级规划和低级机器人控制之间的接口。然而，挑战仍然存在，即使计划的语法正确，机器人仍然可能无法实现其预期目标。这种失败可能是由于法学硕士提出的不完善的计划或由于对对象状态的错误假设而阻碍计划子任务执行的不可预见的环境情况。防止这些挑战的一种方法是依靠人类提供的逐步指令，限制机器人系统的自主性。视觉语言模型 VLM 在视觉问答和图像字幕等任务中取得了显着的成功。利用 VLM 的功能，我们提出了一种名为“具有感知和语言模型 RePLan 的机器人重新规划”的新颖框架，该框架可为长期任务提供实时重新规划功能。该框架利用 VLM 对世界状态的理解提供的物理基础，在初始计划未能实现预期目标时调整机器人的动作。我们在包含七个长期任务的四个环境中测试我们的方法。我们发现，RePLan 使机器人能够成功适应不可预见的障碍，同时实现开放式、长期目标，这是基线模型无法做到的。

From axial C-hedra to general P-nets
Authors Georg Nawratil
我们对连续柔性离散轴向锥网进行了完整的分类，称为轴向C hedra。获得的结果也可以用于构建它们的半离散类似物。此外，我们在半离散轴向锥网的确定类中确定了一个新的子类，其成员被称为轴向 P 网，因为它们满足截距定理的比例 P。这些轴向 P 网的已知特殊情况是具有反射规则线的平滑且离散的圆锥形折痕图案。通过使用并行运算，我们甚至可以推广轴向 P 网络。由此产生的通用 P 网构成了丰富新颖的连续柔性半离散表面，允许通过三个控制折线直接访问其空间形状。

Evaluating Gesture Recognition in Virtual Reality
Authors Sandeep Reddy Sabbella 1 , Sara Kaszuba 1 , Francesco Leotta 1 , Pascal Serrarens 2 , Daniele Nardi 1 1 Sapienza Universit di Roma, Rome, Italy, 2 PaleBlue, Stavanger, Norway
随着机器人融入日常生活的各个方面，人机交互 HRI 变得越来越重要。 HRI 的一个关键方面是手势识别，它允许机器人实时解释和响应人类手势。手势识别在 HRI 的非语言交流中发挥着重要作用。为此，人们正在研究这种非语言交流如何加强语言交流并提高系统的整体效率，从而增强机器人的用户体验。然而，手势识别系统需要解决一些挑战，包括数据生成、可转移性、可扩展性、通用性、标准化以及手势系统缺乏基准测试。

The Role of Higher-Order Cognitive Models in Active Learning
Authors Oskar Keurulainen, Gokhan Alcan, Ville Kyrki
构建能够与人类高效协作的机器一直是人工智能的长期目标。特别是在存在不确定性的情况下，最佳合作通常需要人类和人工智能体对彼此的行为进行建模，并使用这些模型来推断潜在的目标、信念或意图，这可能涉及多个层次的递归。先前的认知科学、语言学和机器人学研究也提供了人类行为中这种高阶认知的经验证据。我们倡导一种主动学习人类反馈的新范式，利用人类作为主动数据源，同时考虑到他们更高级别的代理能力。特别是，我们讨论了代理水平的提高如何导致主动学习系统和教师之间的理性沟通形式在性质上有所不同。此外，我们还提供了使用高阶认知模型进行主动学习的实际示例。

Learning Racing From an AI Coach: Effects of Multimodal Autonomous Driving Explanations on Driving Performance, Cognitive Load, Expertise, and Trust
Authors Robert Kaufman, Jean Costa, Everlyne Kimani
在前后实验 n 41 中，我们测试了人工智能教练根据人类驾驶专家的指示建模的解释性通信的影响。参与者被分为 4 个 4 组，以评估人工智能教练的解释信息类型什么和为什么类型解释以及听觉和视觉呈现方式的两个 2 维度。我们直接比较采用这些技术的人工智能辅导课程如何影响观察学习环境中的驾驶表现、认知负荷、信心、专业知识和信任。通过访谈，我们描绘了参与者的学习过程。结果表明，人工智能驾驶教练对于向新手教授驾驶技能非常有用。比较各组之间，我们发现信息的类型和方式会影响绩效结果。我们将差异归因于信息如何引导注意力、减轻不确定性以及影响参与者所经历的超负荷。这些反过来又影响了参与者学习的成功程度。结果表明，在设计有效的 HMI 通信时，应选择高效、模式适当的解释，以便在不产生压倒性的情况下进行指导。此外，他们支持将通信与人类学习和认知过程保持一致的需要。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com