【AI视野·今日Robot 机器人论文速览 第七十四期】Wed, 10 Jan 2024

news2024/11/16 4:29:23

AI视野·今日CS.Robotics 机器人学论文速览
Wed, 10 Jan 2024
Totally 17 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Robotics Papers

Hold 'em and Fold 'em: Towards Human-scale, Feedback-Controlled Soft Origami Robots
Authors Immanuel Ampomah Mensah, Jessica Healey, Celina Wu, Andrea Lacunza, Nathaniel Hanson, Kristen L. Dorsey
软机器人技术中尚未开发的功能是本体感觉反馈控制,其中仅使用机器人身体上的传感器即可感测和控制软执行器。此外,由于使用的材料极其柔顺,软执行器通常无法支撑人体规模的负载。开发反馈控制和大负载下驱动的能力,例如500 N 是将软机器人技术应用于日常应用所需的关键能力。在这项工作中,我们独立地演示了控制和驱动人体规模负载的这些关键因素,即软气动折纸机器人的本体感觉体现反馈控制以及这些折纸机器人在开环配置中在人的重量下的驱动。在这两个演示中,执行器均由内部流体压力控制。机器人上的电容式传感器提供位置估计并用作反馈控制器的输入。我们演示了在步进设定点和正弦轨迹跟踪期间单个执行器的位置控制,均方根误差 RMSE 低于 4 mm。我们还通过将三个执行器连接到一个开环控制系统中,该系统具有一个可改变其高度、滚动和俯仰的平台,展示了执行器作为折纸平衡板在人体规模机器人方面的潜力。这项工作通过展示无需视觉跟踪作为输入的闭环反馈位置控制以及可以支撑人的重量的轻质软执行器,为软机器人领域做出了贡献。

A Multi-Modal Approach Based on Large Vision Model for Close-Range Underwater Target Localization
Authors Mingyang Yang, Zeyu Sha, Feitian Zhang
水下目标定位使用实时传感测量来估计感兴趣的水下物体的位置,为水下机器人提供关键的反馈信息。虽然声学传感是水下机器人中最受认可的方法,并且可能是远距离水下目标定位的唯一有效方法,但这种传感方式通常存在分辨率低、成本高和能耗高的问题,因此在应用于水下机器人时性能平庸。近距离水下目标定位。另一方面,光学传感以其高分辨率和低成本的优势越来越受到水下机器人界的关注,特别是在近距离水下目标定位方面具有巨大的潜力。然而,由于可用的训练数据有限,大多数现有的水下光学传感研究仅限于特定类型的目标。此外,这些研究通常侧重于估计算法的设计,而忽略了光照条件对传感性能的影响,从而阻碍了在现实世界中更广泛的应用。为了解决上述问题,本文提出了一种新颖的目标定位方法,该方法结合光学和声学传感测量来估计近距离水下目标的 3D 位置。设计和开发了一个具有可控照明条件的测试平台,以通过实验研究所提出的多模态传感方法。应用大视觉模型来处理光学成像测量,消除了训练数据采集的要求,从而显着扩大了潜在应用范围。

Testing Human-Robot Interaction in Virtual Reality: Experience from a Study on Speech Act Classification
Authors Sara Kaszuba 1 , Sandeep Reddy Sabbella 1 , Francesco Leotta 1 , Pascal Serrarens 2 , Daniele Nardi 1 1 Sapienza Universit di Roma, Rome, Italy 2 PaleBlue, Stavanger, Norway
近年来,越来越多的人机交互 HRI 方法已在虚拟现实 VR 中实施和评估,因为它可以加快设计迭代并使最终用户更安全地评估和掌握 HRI 原语。然而,确定最合适的 VR 体验并不简单。在这项工作中,我们评估了在智能农业场景中,用户如何在语音行为理解任务中感知沉浸式和非沉浸式 VR。

Augmented Reality and Human-Robot Collaboration Framework for Percutaneous Nephrolithotomy
Authors Junling Fu, Matteo Pecorella, Elisa Iovene, Maria Chiara Palumbo, Alberto Rota, Alberto Redaelli, Giancarlo Ferrigno, Elena De Momi
在经皮肾镜碎石取石术PCNL手术中,外科医生需要在患者背部确定切口点,将针头对准预先计划的路径,然后进行穿刺操作。该过程目前是使用超声波或荧光镜成像进行针定向手动执行的,然而,这意味着精度有限且可重复性低。这项工作将增强现实 AR 可视化与光学透视头戴式显示器 OST HMD 和人机协作 HRC 框架相结合,以增强外科医生的任务完成能力。具体通过眼手标定、系统配准、全息图模型配准来实现视觉引导。笛卡尔阻抗控制器用于在针穿刺任务执行期间指导操作员。进行实验以验证系统性能与传统手动穿刺程序和基于二维监视器的可视化界面的比较。结果表明,所提出的框架分别在所有实验组中实现了最低的中值误差和标准差误差。此外,NASA TLX 用户评估结果表明,与其他实验设置相比,所提出的框架需要最低的工作负载分数来完成任务。

Towards Real-World Aerial Vision Guidance with Categorical 6D Pose Tracker
Authors Jingtao Sun, Yaonan Wang, Danwei Wang
跟踪物体 6 DoF 位姿对于各种下游机器人任务和现实世界应用至关重要。在本文中,我们利用类别 6 自由度姿态跟踪,研究了用于空中机器人操纵的空中视觉引导的现实世界机器人任务。空中条件不可避免地会带来特殊的挑战,例如俯仰和横滚的快速视点变化。为了支持这项任务和挑战,我们首先引入一个强大的类别 6 DoF 姿势跟踪器 Robust6DoF 。该跟踪器利用形状和时间先验知识来探索最佳帧间关键点对,这些关键点对是在先验结构自适应监督下以从粗到细的方式生成的。值得注意的是,我们的 Robust6DoF 采用空间时间增强模块,通过时间动态过滤和形状相似性过滤来处理帧间差异和类内形状变化的问题。我们进一步提出了一种姿态感知离散伺服策略 PAD Servo,作为实现最终航空视觉引导任务的解耦方法。它包含两个伺服动作策略,以更好地适应空中机器人操纵的结构特性。对四个众所周知的公共基准的详尽实验证明了我们 Robust6DoF 的优越性。

Large Language Models for Robotics: Opportunities, Challenges, and Perspectives
Authors Jiaqi Wang, Zihao Wu, Yiwei Li, Hanqi Jiang, Peng Shu, Enze Shi, Huawen Hu, Chong Ma, Yiheng Liu, Xuhui Wang, Yincheng Yao, Xuan Liu, Huaqin Zhao, Zhengliang Liu, Haixing Dai, Lin Zhao, Bao Ge, Xiang Li, Tianming Liu, Shu Zhang
大型语言模型法学硕士经历了显着的扩展,并且越来越多地跨各个领域进行集成。值得注意的是,在机器人任务规划领域,法学硕士利用其先进的推理和语言理解能力,根据自然语言指令制定精确高效的行动计划。然而,对于机器人与复杂环境交互的具体任务,纯文本法学硕士通常因缺乏与机器人视觉感知的兼容性而面临挑战。本研究全面概述了法学硕士和多模式法学硕士与各种机器人任务的新兴集成。此外,我们提出了一个框架,利用多模态 GPT 4V 通过自然语言指令和机器人视觉感知的结合来增强具体任务规划。我们基于不同数据集的结果表明,GPT 4V 有效增强了机器人在具体任务中的性能。

Autonomous robotic re-alignment for face-to-face underwater human-robot interaction
Authors Demetrious T. Kutzke, Ashwin Wariar, Junaed Sattar
由于传感、导航、操纵和机载计算技术的进步,使用自主水下航行器 AUV 来完成传统上具有挑战性和危险的任务已经激增。由于双向通信的限制以及弥合陆地交互策略与水下交互策略之间的差距的重大技术障碍,UHRI 在水下人类机器人交互中使用 AUV 的增长水平相对较小。支持 UHRI 的一个必要组成部分是建立一个安全的机器人潜水员方法系统,以建立考虑非标准人体姿势的面对面通信。在这项工作中,我们介绍了一种用于增强 UHRI 的立体视觉系统,该系统利用立体图像对的三维重建和机器学习来定位人类联合估计。然后,我们建立一个坐标系约定,对人类相对于相机坐标系所面对的方向进行编码。这允许自动设定点计算,保留人体比例,并可用作基于图像的视觉伺服控制方案的输入。我们表明,我们的设定点计算在数量和质量上都倾向于与实验设定点基线一致。

Robust Control of An Aerial Manipulator Based on A Variable Inertia Parameters Model
Authors Guangyu Zhang, Yuqing He, Bo Dai, Feng Gu, Jianda Han, Guangjun Liu
由无人机和多连杆机械臂组成的能够进行空中操纵的空中机械臂已显示出巨大的应用潜力。然而,无人机与机械臂之间的动态耦合使得空中机械臂的高性能控制变得困难。本文对空中机械手的系统建模和控制问题进行了研究。首先,提出了考虑附加机械臂的动态耦合的无人机动力学模型,该模型被视为对无人机的干扰。在动力学模型中,扰动受到空中机械手系统变惯量参数的影响。然后,基于所提出的动态模型,设计了一种扰动补偿鲁棒H infty控制器,以在机械臂运行时稳定无人机的飞行。

Design and Development of a Remotely-enabled Modular Release Mechanism for Autonomous Underwater Vehicles
Authors Demetrious T. Kutzke, Gustavo E. Miranda L pez, Robert J. Herman, Harryel Philippeaux
我们引入了一种称为远程模块化释放机制的发射装置,通过促进自主水面舰艇 ASV 的自主部署,增强协作自主海上应用的快速测试和原型设计。虽然我们的开发重点是从双体船式 ASV 部署 AUV 的特定应用,但释放机制可以适应不同的可部署物体和拖曳车辆,例如用于海洋学调查的浮标和传感器或单体 ASV。在本文中,我们探讨了许多硬件和软件设计注意事项,以促进与现有海上自主系统的轻松集成。我们阐述了用于探索释放系统的实用性和诊断系统问题的台架测试和水中测试。

Language-Conditioned Robotic Manipulation with Fast and Slow Thinking
Authors Minjie Zhu, Yichen Zhu, Jinming Li, Junjie Wen, Zhiyuan Xu, Zhengping Che, Chaomin Shen, Yaxin Peng, Dong Liu, Feifei Feng, Jian Tang
语言条件机器人操作旨在将自然语言指令转化为可执行动作,从简单的拾取和放置到需要意图识别和视觉推理的任务。受认知科学中的双过程理论的启发,该理论提出了人类决策中快速和慢速思维的两个并行系统,我们引入了具有快速和慢速思维的机器人 RFST,这是一个模仿人类认知架构的框架,可以对任务进行分类并根据两个系统做出决策基于指令类型的系统。我们的 RFST 由两个关键组件组成:1 指令鉴别器,用于根据当前用户指令确定应激活哪个系统;2 慢速思维系统,由与策略网络对齐的微调视觉语言模型组成,该模型允许机器人识别用户意图或执行推理任务。为了评估我们的方法,我们构建了一个包含现实世界轨迹的数据集,捕获从自发冲动到需要深思熟虑的任务的各种行为。我们在模拟和现实场景中的结果证实,我们的方法可以熟练地管理需要意图识别和推理的复杂任务。

RePLan: Robotic Replanning with Perception and Language Models
Authors Marta Skreta, Zihan Zhou, Jia Lin Yuan, Kourosh Darvish, Al n Aspuru Guzik, Animesh Garg
法学硕士在大型语言模型方面的进步已经证明了它们在促进高级推理、逻辑推理和机器人规划方面的潜力。最近,法学硕士还能够为低级机器人动作生成奖励函数,有效地桥接高级规划和低级机器人控制之间的接口。然而,挑战仍然存在,即使计划的语法正确,机器人仍然可能无法实现其预期目标。这种失败可能是由于法学硕士提出的不完善的计划或由于对对象状态的错误假设而阻碍计划子任务执行的不可预见的环境情况。防止这些挑战的一种方法是依靠人类提供的逐步指令,限制机器人系统的自主性。视觉语言模型 VLM 在视觉问答和图像字幕等任务中取得了显着的成功。利用 VLM 的功能,我们提出了一种名为“具有感知和语言模型 RePLan 的机器人重新规划”的新颖框架,该框架可为长期任务提供实时重新规划功能。该框架利用 VLM 对世界状态的理解提供的物理基础,在初始计划未能实现预期目标时调整机器人的动作。我们在包含七个长期任务的四个环境中测试我们的方法。我们发现,RePLan 使机器人能够成功适应不可预见的障碍,同时实现开放式、长期目标,这是基线模型无法做到的。

From axial C-hedra to general P-nets
Authors Georg Nawratil
我们对连续柔性离散轴向锥网进行了完整的分类,称为轴向C hedra。获得的结果也可以用于构建它们的半离散类似物。此外,我们在半离散轴向锥网的确定类中确定了一个新的子类,其成员被称为轴向 P 网,因为它们满足截距定理的比例 P。这些轴向 P 网的已知特殊情况是具有反射规则线的平滑且离散的圆锥形折痕图案。通过使用并行运算,我们甚至可以推广轴向 P 网络。由此产生的通用 P 网构成了丰富新颖的连续柔性半离散表面,允许通过三个控制折线直接访问其空间形状。

Evaluating Gesture Recognition in Virtual Reality
Authors Sandeep Reddy Sabbella 1 , Sara Kaszuba 1 , Francesco Leotta 1 , Pascal Serrarens 2 , Daniele Nardi 1 1 Sapienza Universit di Roma, Rome, Italy, 2 PaleBlue, Stavanger, Norway
随着机器人融入日常生活的各个方面,人机交互 HRI 变得越来越重要。 HRI 的一个关键方面是手势识别,它允许机器人实时解释和响应人类手势。手势识别在 HRI 的非语言交流中发挥着重要作用。为此,人们正在研究这种非语言交流如何加强语言交流并提高系统的整体效率,从而增强机器人的用户体验。然而,手势识别系统需要解决一些挑战,包括数据生成、可转移性、可扩展性、通用性、标准化以及手势系统缺乏基准测试。

The Role of Higher-Order Cognitive Models in Active Learning
Authors Oskar Keurulainen, Gokhan Alcan, Ville Kyrki
构建能够与人类高效协作的机器一直是人工智能的长期目标。特别是在存在不确定性的情况下,最佳合作通常需要人类和人工智能体对彼此的行为进行建模,并使用这些模型来推断潜在的目标、信念或意图,这可能涉及多个层次的递归。先前的认知科学、语言学和机器人学研究也提供了人类行为中这种高阶认知的经验证据。我们倡导一种主动学习人类反馈的新范式,利用人类作为主动数据源,同时考虑到他们更高级别的代理能力。特别是,我们讨论了代理水平的提高如何导致主动学习系统和教师之间的理性沟通形式在性质上有所不同。此外,我们还提供了使用高阶认知模型进行主动学习的实际示例。

Learning Racing From an AI Coach: Effects of Multimodal Autonomous Driving Explanations on Driving Performance, Cognitive Load, Expertise, and Trust
Authors Robert Kaufman, Jean Costa, Everlyne Kimani
在前后实验 n 41 中,我们测试了人工智能教练根据人类驾驶专家的指示建模的解释性通信的影响。参与者被分为 4 个 4 组,以评估人工智能教练的解释信息类型什么和为什么类型解释以及听觉和视觉呈现方式的两个 2 维度。我们直接比较采用这些技术的人工智能辅导课程如何影响观察学习环境中的驾驶表现、认知负荷、信心、专业知识和信任。通过访谈,我们描绘了参与者的学习过程。结果表明,人工智能驾驶教练对于向新手教授驾驶技能非常有用。比较各组之间,我们发现信息的类型和方式会影响绩效结果。我们将差异归因于信息如何引导注意力、减轻不确定性以及影响参与者所经历的超负荷。这些反过来又影响了参与者学习的成功程度。结果表明,在设计有效的 HMI 通信时,应选择高效、模式适当的解释,以便在不产生压倒性的情况下进行指导。此外,他们支持将通信与人类学习和认知过程保持一致的需要。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1376865.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【前后端的那些事】前后端环境搭建+树形结构表格实现

文章目录 1. 前后端项目环境搭建2. table-tree2.1 后端准备2.2 前端准备 前言:最近写项目,发现了一些很有意思的功能,想写文章,录视频把这些内容记录下。但这些功能太零碎,如果为每个功能都单独搭建一个项目&#xff0…

【贪心】一手顺子

/** 贪心:将一个数当成一个组中最小的数,在根据该最小数找其它数。* 思路:将hand进行分组,假设hand长度为 n,必须n % groupSize 0才可以分组,否则返回false,* 使用哈希表记录每个数出现…

考研经验总结——目录

文章目录 一、写作顺序二、个人情况说明三、读评论四、一些小牢骚 一、写作顺序 我将准备从三个阶段开始介绍吧 考研前考研中考研后(也就是现在我的这种情况) 考研前我会分为:数学、专业课、政治、英语 四个部分来写 我应该会涉及&#xf…

AI赋能建筑设计 | VERYCLOUD睿鸿股份与亚马逊云科技协力为AIRI lab. 打造生成式AI应用案例

近年来,很多研究都致力于探索如何让建筑师借助人工智能的力量来促进并简化设计流程。生成式AI全球爆火以来,建筑设计领域也掀起了一场全新的思维变革。 AI为建筑设计带来更多可能 作为一家面向全球提供设计服务的企业,AIRI lab.计划推出一种…

Python教程41:使用turtle画蜡笔小新

---------------turtle源码集合--------------- Python教程39:使用turtle画美国队长盾牌 Python教程38:使用turtle画动态粒子爱心文字爱心 Python教程37:使用turtle画一个戴帽子的皮卡丘 Python教程36:海龟画图turtle写春联 …

【pytorch】使用pytorch构建线性回归模型-了解计算图和自动梯度

使用pytorch构建线性回归模型 线性方程的一般形式 衡量线性损失的一般形式-均方误差 pytorch中计算图的作用和优势 在 PyTorch 中,计算图(Computational Graph)是一种用于表示神经网络运算的数据结构。每个节点代表一个操作,例如…

【AWS】使用亚马逊云服务器创建EC2实例

目录 前言为什么选择 Amazon EC2 云服务器搭建 Amazon EC2 云服务器注册亚马逊账号登录控制台服务器配置免费套餐预览使用 Amazon EC2 云服务器打开服务器管理界面设置服务器区域填写实例名称选择服务器系统镜像选择实例类型创建密钥对网络设置配置存储启动实例查看实例 总结 前…

【天龙怀旧服】攻略day5

关键字: 天鉴扫荡、举贤、燕子水路 1】85天鉴任务可以扫荡 在流派选择npc那里,花费40交子即可扫荡100点,可以兑换10个灵武打造图; 此外打造图绑定不影响做出来的灵武绑定,只要对应的玉不绑灵武就不绑定 2】冠绝师门…

C#使用CryptoStream类加密和解密字符串

目录 一、CrytoStream的加密方法 二、CrytoStream的解密方法 三、实例 1.源码Form1.cs 2.类库Encrypt.cs 3.生成效果 在使用CryptoStream前要先引用命名空间using System.Security.Cryptography。 一、CrytoStream的加密方法 记住,不能再使用DESCryptoServi…

宏集案例丨宏集PC Runtime软件助推食品行业生产线数字化革新

来源:宏集科技 工业物联网 宏集案例丨宏集PC Runtime软件助推食品行业生产线数字化革新 原文链接:https://mp.weixin.qq.com/s/DwzVzifUiidNr-FT3Zfzpg 欢迎关注虹科,为您提供最新资讯! 01 前言 近年来,中国食品行业…

深入浅出Android dmabuf_dump工具

目录 dmabuf是什么? dmabuf_dump工具介绍(基于Android 14) Android.bp dmabuf_dump.cpp 整体架构结构如下 dmabuf_dump主要包含以下功能 前置背景知识 fdinfo 思考 bufinfo Dump整个手机系统的dmabuf Dump某个进程的dmabuf​​​​​​​ 以Table[buff…

Hive 的 安装与使用

目录 1 安装 MySql2 安装 Hive3 Hive 元数据配置到 MySql4 启动 Hive5 Hive 常用交互命令6 Hive 常见属性配置 Hive 官网 1 安装 MySql 为什么需要安装 MySql? 原因在于Hive 默认使用的元数据库为 derby,开启 Hive 之后就会占用元数据库,且不与其他客户…

Windows 远程控制之 PsExec

1、介绍: PsExec 是一种轻量级 telnet 替代品,可让你在其他系统上执行进程,并为控制台应用程序提供完整交互性,而无需手动安装客户端软件。 PsExec 最强大的用途包括在远程系统上启动交互式命令提示符,以及 IpConfig …

一篇文章彻底搞懂TiDB集群各种容量计算方式

背景 TiDB 集群的监控面板里面有两个非常重要、且非常常用的指标,相信用了 TiDB 的都见过: Storage capacity:集群的总容量 Current storage size:集群当前已经使用的空间大小 当你准备了一堆服务器,经过各种思考设计…

【JaveWeb教程】(21) MySQL数据库开发之多表设计:一对多、一对一、多对多的表关系 详细代码示例讲解

目录 2. 多表设计2.1 一对多2.1.1 表设计2.1.2 外键约束 2.2 一对一2.3 多对多2.4 案例 2. 多表设计 关于单表的操作(单表的设计、单表的增删改查)我们就已经学习完了。接下来我们就要来学习多表的操作,首先来学习多表的设计。 项目开发中,在进行数据库…

OCR字符识别:开始批量识别身份证信息

身份证信息批量识别OCR是一项解决方案,它能够将身份证照片打包成zip格式或通过URL地址进行提交,并能够识别照片中的文本信息。最终,用户可以将识别结果生成为excel文件进行下载。 API接口功能: 1. 批量识别:支持将多…

SPDK中常用的性能测试工具

本文主要介绍磁盘性能评估的方法,针对用户态驱动Kernel与SPDK中各种IO测试工具的使用方法做出总结。其中fio是一个常用的IO测试工具,可以运行在Linux、Windows等多种系统之上,可以用来测试本地磁盘、网络存储等的性能。为了和SPDK的fio工具相…

大模型学习与实践笔记(四)

一、大模型开发范式 RAG(Retrieval Augmented Generation)检索增强生成,即大模型LLM在回答问题或生成文本时,会先从大量的文档中检索出相关信息,然后基于这些检索出的信息进行回答或生成文本,从而可以提高回…

Prepar3D设置全屏显示设置方法

一、 基础设置 当视景软件显示的屏幕超过一个的时候,需要将多个显示屏幕在设置->屏幕设置->多显示器这里设置为扩展这些显示器。 二、全屏方法说明 一般情况只需要设置了多屏显示扩展并设置了P3D软件全屏设置(即下面的步骤一)保存后…

D2576 DC-DC降压芯片用于直流充电桩,具备3A的输出电流能力,输入电压6~40VDC

随着新能源汽车的不断普及,如何解决新能源车充电的问题也成为大热话题,充电桩的数量与质量也是目前急需提升的热门方面,现阶段人们需要的充电桩主要有交流充电桩和直流充电桩,直流充电桩因其节能效率高、功率因数高、充电快、逐渐…