DeepMind 机器人学习打乒乓球,朝着「专业运动员水平的速度和性能」发展

news2024/11/15 21:22:09

这几天全球各界最火热的话题非奥运会莫属,而其中乒乓球比赛更是引起了互联网的讨论热潮,无论是欢呼也好、争议也罢,在现实世界人类的乒乓球大赛风生水起的同时,AI已经偷偷在乒乓球上“出师”了——
——DeepMind近日发布一项新工作,展示了第一个能够在乒乓球竞技比赛中达到业余人类选手的机器人,这一工作的成功标志着机器人任务朝着「实现人类水平的速度和性能」这一目标迈出了一步。
在这里插入图片描述

乒乓球是一项对速度、精确度和策略都有极高要求的体育项目,人类运动员需要经过多年的训练才能精通。而本研究通过分层和模块化策略架构、迭代定义任务分布、模拟到模拟适配层、域随机化、实时适应未知对手和硬件部署等技巧,在多次与人类进行竞赛训练后,证明了该机器人在模拟复杂人类技能和实时决策方面的潜力。
本文的主要贡献为:
1)分层和模块化策略:研究人员设计了一个由多个低层次技能策略组成的系统,这些策略包括不同的击球方式,如正手、反手、发球等。这些技能策略是模块化的,可以独立训练和优化。
2)零样本模拟到现实(Sim-to-Real):机器人直接从模拟环境中学习,然后无需在真实世界中进行微调即可应用所学技能。这通过迭代的方式实现,即在模拟中训练,然后在真实世界中测试,并将测试结果反馈到模拟训练中。
3)实时适应对手:机器人能够实时分析对手的打球风格和技能水平,并根据这些信息调整自己的策略,以更好地应对不同的对手。
——分层和模块化策略——
详细来讲,分层和模块化策略架构是通过构建一个具有层次结构的控制架构来实现的,这个架构包含两个主要部分:低层次技能策略(Low Level Controllers, LLCs)和高层次控制器(High Level Controller, HLC)。其具体实现方式为:
在这里插入图片描述

▲图|LLC 训练库©️【深蓝AI】编译
A」低层次技能策略(LLCs):
LLCs是针对特定乒乓球技能(如正手击球、反手击球、发球等)的训练策略。每个LLC专注于一项特定的技能,并被训练以产生关节速度命令。例如,一个LLC可能专门用于以正手风格击球并打向球场的对角线,而另一个LLC可能专注于保守地使用反手击球。这些技能策略是独立训练的,并且可以针对不同的比赛情况和对手进行优化。
B」高层次控制器(HLC):
●HLC的作用是在选择时刻决定使用哪个LLC。它不是以固定频率控制,而是在对手每次击球后触发,根据当前的比赛统计数据、技能描述符和对手的能力来选择最佳技能。

●HLC内部有多个组件,包括风格选择策略、旋转分类器、技能描述符、比赛统计、策略和LLC偏好(H值)等,这些组件结合起来产生最终的LLC选择。
C」技能描述符:
为了帮助HLC做出决策,每个LLC都有一个技能描述符,这些描述符提供了关于LLC在特定来球情况下的性能指标,如预计的回球率、击球速度和落点位置。

——零样本模拟到现实——
此外,本文所实现的零样本模拟到现实的技术,包括一种迭代方法来定义基于现实世界的任务分布,并定义自动课程,具体来说:
▲图|模拟中的样本训练与零样本迁移到硬件的过程并排显示©️【深蓝AI】编译
在这里插入图片描述

A」模拟训练(Simulation Training):机器人首先在模拟环境中进行训练。这个环境能够模拟乒乓球的运动和机器人的行动,但是是在虚拟空间中进行。
B」模拟到现实(Sim-to-Real Transfer):研究人员采用了一系列的技术来减少模拟环境和现实世界之间的差异,这被称为“sim-to-real gap”。这些技术包括系统识别(system identification),动力学随机化(dynamics randomization),以及模拟延迟和重置策略。
C」适配层(Adapter Layers):为了进一步缩小sim-to-real gap,研究人员开发了适配层,如FiLM(Feature-wise Linear Modulation)层,这些层能够学习如何将模拟中的行为调整为适合现实世界的行为。
D」迭代真实世界数据收集(Iterative Real-World Data Collection):机器人在现实世界中与人类玩家进行比赛,收集关于其性能和对手行为的数据。这些数据被用来进一步训练和改进模拟环境中的策略。
E」自动课程设计(Automatic Curriculum Design):通过迭代的训练和评估周期,机器人的技能库不断扩展和改进,自动适应真实世界的任务分布。
通过这些步骤,机器人能够在没有在现实世界中接受大量训练的情况下,展示出与人类玩家竞技的能力。

——实时适应未知对手——
在这里插入图片描述

▲图|分组比赛的实验对比数据©️【深蓝AI】编译
对于未知对手的实时适应,研究者们通过29场机器人与人类之间的比赛评估了策略性能,其中机器人赢得了45%(13/29)。所有参赛者都是未见过的玩家,他们的技能水平从初学者到锦标赛水平不等。虽然机器人在与最先进玩家的所有比赛中都“惨败”,但它赢得了与初学者的100%比赛和与中级玩家的55%比赛,充分展示了其拥有的乒乓球业余选手技能。
机器人在比赛中实时更新其对不同低级技能策略(LLCs)的偏好,这些偏好是基于当前比赛统计数据和对手的行为模式;
机器人通过实时追踪比赛统计数据,来评估自身和对手的强项和弱项。这些数据这包括击球速度、落点、旋转等信息;
在比赛中,机器人系统还会使用一些预定义的启发式策略来从技能库中快速筛选出可能有效的技能。机器人通过与不同技能水平的人类玩家比赛,学习并改进其决策过程,从而提高对各种对手的适应性和鲁棒性。

——讨论——

总的来说,该项工作展示了在复杂物理任务中,机器人能够通过学习达到与人类竞争者相媲美的水平;这项研究不仅在机器人领域有重要意义,其方法和技术也可以应用于其他需要快速反应和策略决策的领域,比如康复医疗、教育等领域。
当然,作者在论文中也指出了一些局限性,例如由于系统延迟、数据不足或重置动作之间的时间限制,机器人在反应极快的球时存在困难;机器人无法处理高于某个阈值(例如大约6英尺或更高)的球,因为这超出了摄像头的视野范围;且由于内置的碰撞避免协议,机器人在处理非常低的球时存在问题,这些协议虽然对保护机器人的拍子至关重要,但也限制了机器人处理靠近桌面的球的能力;景观机器人在一定程度上改变了球的落点,但其可预测性仍有改进空间;在泛化能力方面,机器人的表现依旧有限。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2094054.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

机器学习 第7章 贝叶斯分类器

目录 7.1 贝叶斯决策论7.2 极大似然估计7.3 朴素贝叶斯分类器7.4 半朴素贝叶斯分类器7.5 贝叶斯网7.5.1 结构7.5.2 学习7.5.3 推断 7.6 EM算法 7.1 贝叶斯决策论 对分类任务来说,在所有相关概率都己知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误…

如何删除浏览器每次登录自动保存的密码,以防自动登录泄露自己的隐私

今天小编以 Microsoft edge 浏览器为例,如何在自己离职或毕业以后留给他人的电脑是干净的,不会在任何网页登录时显示已保存的密码,让他人自动登录。 ①在电脑上打开 Microsoft edge 浏览器后,点击“设置” ②进入设置界面后&…

基于SSM的咖啡馆管理系统

基于SSM的咖啡馆管理系统的设计与实现~ 开发语言:Java数据库:MySQL技术:SpringSpringMVCMyBatisJSP工具:IDEA/Ecilpse、Navicat、Maven 系统展示 前台界面 后台界面 摘要 在当前这个信息爆炸的时代,众多行业正经历着…

Python酷库之旅-第三方库Pandas(114)

目录 一、用法精讲 501、pandas.DataFrame.mode方法 501-1、语法 501-2、参数 501-3、功能 501-4、返回值 501-5、说明 501-6、用法 501-6-1、数据准备 501-6-2、代码示例 501-6-3、结果输出 502、pandas.DataFrame.pct_change方法 502-1、语法 502-2、参数 502…

[知识分享]华为铁三角工作法

在通信技术领域,尤其是无线通信和物联网领域,“华为铁三角”是华为公司内部的一种销售、交付和服务一体化的运作模式。这种模式强调的是以客户为中心,通过市场、销售、交付和服务三个关键环节的紧密协作,快速响应客户需求&#xf…

2.12 滑动条事件

目录 实验原理 实验代码 运行结果 实验原理 在 OpenCV 中,滑动条设计的主要目的是在视频播放帧中选择特定帧,而在调节图像参数时也会经常用到。在使用滑动条前,需要给滑动条赋予一个名字(通常是一个字符串)&#x…

Java | Leetcode Java题解之第388题文件的最长绝对路径

题目&#xff1a; 题解&#xff1a; class Solution {public int lengthLongestPath(String input) {int n input.length();int pos 0;int ans 0;int[] level new int[n 1];while (pos < n) {/* 检测当前文件的深度 */int depth 1;while (pos < n && inpu…

Mamba:超越Transformer的新一代神经网络架构

在过去的七年里&#xff0c;Transformer一直在语言建模领域占据着主导地位。然而&#xff0c;现在有一个新兴的神经网络架构Mamba&#xff0c;正在挑战Transformer的霸主地位。虽然目前Mamba仅在规模较小的模型上进行了测试&#xff08;参数量达到数十亿&#xff09;&#xff0…

华为OD机试真题 - 构成正方形的数量(Java/Python/JS/C/C++ 2024 B卷 100分)

华为OD机试 2024E卷题库疯狂收录中&#xff0c;刷题点这里 专栏导读 本专栏收录于《华为OD机试&#xff08;JAVA&#xff09;真题&#xff08;E卷D卷A卷B卷C卷&#xff09;》。 刷的越多&#xff0c;抽中的概率越大&#xff0c;私信哪吒&#xff0c;备注华为OD&#xff0c;加…

MySQL密码策略更改(临时+永久)

目录 1、查看数据库当前密码策略 2、查看密码插件&#xff1a; 3、官方文档策略定义 4、更改密码策略 临时修改 &#xff08;1&#xff09;更改密码策略为LOW&#xff0c;改为LOW或0 &#xff08;2&#xff09;更改密码长度 &#xff08;3&#xff09;设置大小写、数字…

【操作系统】操作系统运行环境——中断与异常

中断与异常 导读一、中断机制1.1 中断机制的重要性 二、中断与异常的基本概念2.1 中断与异常的个人理解2.2 内中断与外中断 三、中断与异常的分类四、中断与异常的处理过程结语 导读 大家好&#xff0c;很高兴又和大家见面啦&#xff01;&#xff01;&#xff01; 在上一篇内…

【C++ | 设计模式】简单工厂模式的详解与实现

1.简单工厂模式概述 简单工厂模式&#xff08;Simple Factory Pattern&#xff09;是一种创建型设计模式&#xff0c;它定义了一个工厂类&#xff0c;由这个类根据提供的参数决定创建哪种具体的产品对象。简单工厂模式将对象的创建逻辑集中到一个工厂类中&#xff0c;从而将对…

认知杂谈32

今天分享 有人说的一段争议性的话 I I 《恋爱中的价值难题》 咱就认识个31岁的哥们&#xff0c;事业有成&#xff0c;一年能挣35 万。他现在正为找对象的事儿犯愁呢。他想找个年轻漂亮的小姑娘谈对象&#xff0c;可又不想在感情上投入太多&#xff0c;就想一边乐呵着&#x…

Linux(CentOS)同步服务器时间之~ntpd

NTP 是 Network Time Protocol&#xff08;网络时间协议&#xff09;的缩写&#xff0c;它是一种用于在计算机系统之间同步时间的协议。NTP 允许网络中的设备通过与一个或多个时间服务器进行通信&#xff0c;来校正自身的系统时钟&#xff0c;确保所有设备上的时间保持高度一致…

演示:基于WPF的DrawingVisual和谷歌地图瓦片开发的地图(完全独立不依赖第三方库)

一、目的&#xff1a;基于WPF的DrawingVisual和谷歌地图瓦片开发的地图 二、预览 三、环境 VS2022&#xff0c;Net7,DrawingVisual&#xff0c;谷歌地图瓦片 四、主要功能 地图缩放&#xff0c;平移&#xff0c;定位 真实经纬度 显示瓦片信息 显示真实经纬度和经纬线 省市县…

[环境配置]Pycharm手动安装汉化插件

在Pycharm-file-setting-Plugins中&#xff0c;搜索chinese&#xff0c;就会出现汉化包 点击install后&#xff0c;在安装时出现这种报错&#xff1a;Plugin "Chinese (Simplified) Language Pack / 中文语言包" was not installed: Invalid filename returned by a …

用 jsPDF 让 PDF 生成触手可及

jsPDF &#xff1a;在浏览器中生成 PDF&#xff0c;从未如此简单- 精选真开源&#xff0c;释放新价值。 概览 jsPDF 是一个开源的 JavaScript 库&#xff0c;专为在浏览器端生成 PDF 文档而设计。它通过提供一个直观且易于使用的 API&#xff0c;使得开发者能够快速地将 PDF 生…

【Kubernetes】持久卷 PV

持久卷 PV 1.什么是持久卷2.创建一个持久卷3.持久卷的访问模式4.持久卷的回收策略 数据卷是在创建 Pod 时通过 挂载目录 来实现数据的共享和持久化的。但是在一个大型系统中&#xff0c;这种方式是非常不利于管理的&#xff0c;因为数据卷把数据的 持久存储 和 供应使用 封装在…

短时傅里叶变换(Short-Time Fourier Transform, STFT),语音识别

高能预警&#xff01;&#xff01;&#xff01; .wav文件为笔者亲自一展歌喉录制的噪声&#xff0c;在家中播放&#xff0c;可驱赶耗子&#xff0c;蟑螂 介绍 短时傅里叶变换&#xff08;Short-Time Fourier Transform, STFT&#xff09;是一种时频分析方法&#xff0c;用于…

智能分拣投递机器人

产品介绍 自研智能分拣投递机器人&#xff0c;专注于物流行业“NC小件”的分拣与投递&#xff0c;机器人运行稳定、分拣效率高&#xff0c;搭配智能分拣投递系统单台机器人最大作业效率可达400件/H&#xff0c;投递效率相较于传统“小黄人“提升了30%-50%&#xff0c;可替代“…