让智能体像孩子一样观察别人学习动作,跨视角技能学习数据集EgoExoLearn来了

news2024/10/7 12:19:08

    ChatGPT狂飙160天,世界已经不是之前的样子。
新建了免费的人工智能中文站https://ai.weoknow.com
新建了收费的人工智能中文站https://ai.hzytsoft.cn/

更多资源欢迎关注


在探索人工智能边界时,我们时常惊叹于人类孩童的学习能力 —— 可以轻易地将他人的动作映射到自己的视角,进而模仿并创新。当我们追求更高阶的人工智能的时候,无非是希望赋予机器这种与生俱来的天赋。

由上海人工智能实验室,南京大学,中科院深圳先进技术研究院牵头,联合东京大学,复旦大学,浙江大学,中国科学技术大学等高校的学生和研究者,共同公布了跨视角技能学习数据集EgoExoLearn,为机器人赋予了通过观察他人学习新动作的能力。

图片

  • 论文链接:https://arxiv.org/abs/2403.16182

  • 代码与数据集链接:https://github.com/OpenGVLab/EgoExoLearn

EgoExoLearn 数据集独辟蹊径,采集了第一视角与第三视角的视频素材。第一视角视频捕捉了人们学习第三视角演示动作的全过程,这种视角的转换与融合,为机器模拟人类学习模式提供了宝贵的数据资源。

数据集的构建不仅涵盖了日常生活的琐碎场景,更延伸到了专业实验室的复杂操作。EgoExoLearn 精心收录了总计 120 小时的视角与示范视频,旨在让机器在多种环境下都能有效学习。

除视频外,研究者还记录了高质量的注视数据,并辅以详尽的多模态标注。这些数据与标注的结合,构建了一个全面模拟人类学习过程的平台,有助于解决机器在不同视角下对异步动作过程的建模难题。

为了全面评估 EgoExoLearn 数据集的价值,研究者提出了一系列基准测试,如跨视角关联、跨视角行动规划及跨视角参考技能评估等,并进行了深入的分析。展望未来,EgoExoLearn 将成为跨视角行动桥接的重要基石,为机器人无缝学习真实世界中的人类行为提供坚实支撑。

期待 EgoExoLearn 数据集能助力 AI 技术的进一步突破,推动机器人从单纯的模仿走向真正的智能,实现与人类社会的和谐共存与共同发展。

图片

研究背景

从孩童时期开始,人类就具备观察他人行为并将其映射到自己视角的能力,这种能力在进行高试错成本的实际操作(如危险化学实验)时尤为有益。随着人工智能系统的最新进展,下一代 AI 智能体将会在更通用的场景中执行任务。

然而,与人类不同,训练这些 AI 智能体通常需要在类似环境中拍摄的演示视频作为训练数据,这些视频的视角还必须与 AI 智能体一致(例如,第一视角)。尽管有很多工作尝试了在不同场景中收集此类数据,对于 AI 智能体来说,直接从不同地点和不同视角拍摄的演示视频中学习仍然至关重要。实现这一能力可以充分利用大规模公开教学视频数据的潜力,并且在人机合作场景中尤其是在新环境中有巨大作用。

目前朝这个目标努力的工作大致可以分为两个方向。一种是在模拟环境中学习模型,但这些模型在现实世界中的泛化仍然很困难。另一个方向是从现实世界中的人类活动中学习。然而,直接结合现有的多视角数据集的尝试通常会产生质量或规模较差的数据集。同时,目前这个方向的少数现有数据集只记录了在同一环境和时间同步方式下拍摄的自我中心和外部中心视角视频。在现实中,跟随演示时,通常需要桥接在不同地点和不同时间执行的一系列程序性动作。目前还没有可用于探索如何在现实的自我中心和外部中心视角中桥接异步程序性活动的数据集。

为了解决数据集缺乏问题,研究者提出了 EgoExoLearn,这是一个大规模数据集,包含演示视频和相应的第一视角跟做视频。其中摄像机佩戴者跟随演示视频中的动作,并在不同环境中执行相同任务。针对日常生活辅助和专业技能辅助这两个潜在应用,EgoExoLearn 包含了 747 个视频序列,总时长达 120 小时,涵盖场景包括日常食物制作和专业实验室实验。值得注意的是,EgoExoLearn 中的第一视角视频包含了显示人类执行任务时视觉注意力的眼动信号。这为更好地连接第一视角和第三视角中的行动提供了宝贵的线索。

更进一步,研究者分析了人类的跨视角理解能力,并相应地引入了新的任务和基准,希望这些可以对开发具有类似能力的下一代具身 AI 智能体起到重要帮助。当人类执行一个动作时,他 / 她可以将自我中心视角中正在进行的动作与演示中相应的动作联系起来并进行描述。通过演示视频中的知识,人类可以知道所需的动作步骤,并预测下一步应该是什么。此外,通过与演示的比较,人类还可以评估自己的技能水平。

基于上述分析,研究者设计了以下新任务:1) 跨视角关联,2) 跨视角动作理解,3) 跨视角参考技能评估,以及 4) 跨视角参考视频字幕。每个基准都经过精心定义、标注,并具体实现了相应模型。此外,研究者还首次探索了眼动在这些任务中的作用。研究者希望这个数据集能够为未来链接不同视角中的异步程序性动作的工作提供资源,从而激发设计擅长从现实世界人类演示中学习并将程序性动作映射到机器人中心视角的 AI 智能体。

数据集介绍

场景和任务

研究者考虑了程序性的目标导向任务,这些任务涵盖了从日常的食物制作到专业的实验室实验。这种选择基于它们所体现的两个未来体现性 AI 代理需要能够桥接自我 - 外部活动的潜在领域:日常生活辅助和专业支持。

具体来说,EgoExoLearn 包含了 5 种日常任务(例如烹饪)和 3 种专业实验室任务(例如固相肽合成)。研究者在 4 个不同的厨房和 3 个不同的实验室中录制了自我中心视角的视频。下表显示了每个任务的视频数量以及平均视频长度。

图片

数据收集流程

在每次收集开始之前,参与者需要完成一份问卷,收集基本的人口统计信息以及他们自我评估的执行指定任务的专长。然后在每次录制中,参与者将被要求从提供的列表中选择一个或几个外部中心视角的演示视频,并仔细学习详细的程序。一旦准备好了,他们将戴上 Pupil Invisible Glasses,完成眼动校准,并开始复制演示视频中执行的任务。虽然不鼓励,但参与者在录制过程中被允许重新观看演示视频。在每次录制之后,参与者被要求重新进行眼动校准,以确保眼动数据的准确性。对于 5 个日常任务,外部中心演示视频是手动从 YouTube 等在线视频平台策划的。对于实验室实验,外部中心演示视频是由资深实验室成员录制的教程。

数据集标注与统计

为了促进本文数据集在开发能够有效弥合自我和外部视角之间差距的算法方面,研究者提供了详细的多模态人类标注。粗略级别的语言标注、细致级别的语言标注、翻译与解析、技能水平标注。据了解,目前还没有与本文设置相同、可以直接比较的数据集。因此,研究者在下表中列举了本文数据集的各个方面,并与相关数据集进行了比较分析。EgoExoLearn 以其「视觉演示跟随」设置独特地丰富了该领域。除了这一独特设置之外,它还是第一个包括时间限定的语言字幕、标注的跨视角关联和多标签视频片段的自我中心数据集。同其他第一视角视频数据集的对比如下:

图片

新基准 Benchmarks

为了评估连接异步的第一视角 - 第三视角程序性动作的能力,研究者引入了 4 个新的基准 benchmark,如下图所示:

图片

1) 跨视角关联 (cross-view association),探究模型有没有将不同视角的相同动作联系起来的能力,分为 Ego2Exo 和 Exo2Ego 两个设定。在(ego2exo)的情况下,给定一个自我中心视频,模型需要从一组候选的外部中心样本中预测出执行相同动作的相应外部中心视频。这里考验了模型对单一视角动作的理解能力,还考验了模型在跨视角情境下的泛化能力和预测准确性。基线模型与结果如下:

图片

图片

2) 跨视角动作理解 (cross-view action understanding),细分为三个子任务:跨视角动作预测、跨视角动作规划和跨视角动作分割。此外,研究者还探索了注视点(gaze)在协助这些任务中的作用。下图是四种训练设定与基线模型性能:

图片

图片

3) 跨视角参考技能评估 (cross-view referenced skill assessment) 主要目标是评估第一视角操作者的技能水准。研究者引入了第三视角的专家操作视频作为参考,通过与参考视频的对比,技能评估可以变得更加准确。基线模型与结果如下图所示:

图片

图片

4) 跨视角参考视频描述 (cross-view referenced captioning)。使用另一个视角的视频作为参考,此项任务旨在提高模型利用跨视角参考而更好的进行视频描述的能力。模型设计和基线性能如下:

图片

图片

    ChatGPT狂飙160天,世界已经不是之前的样子。
新建了免费的人工智能中文站https://ai.weoknow.com
新建了收费的人工智能中文站https://ai.hzytsoft.cn/

更多资源欢迎关注


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1573888.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于SpringBoot的高校自习室预约系统

基于SpringBoot的高校自习室预约系统的设计与实现~ 开发语言:Java数据库:MySQL技术:SpringBootMyBatis工具:IDEA/Ecilpse、Navicat、Maven 系统功能分析 本次的功能设计主要围绕着学生和管理员两个角色,对于学生的用…

AI预测福彩3D第29弹【2024年4月7日预测--第7套算法重新开始计算第2次测试】

今天咱们继续进行进行第7套算法的测试,今天是第2次测试,昨天已经成功命中,其中7码大方案全部命中,四码小方案也命中。再接再厉,继续验证,废话不多说,直接上图上结果~ 2024年4月7日3D的七码预测结…

集合容器面试题

Java 容器都有哪些? Java 容器分为 Collection 和 Map 两大类 Collection 和 Collections 有什么区别? Collection 是一个集合接口,它提供了对集合对象进行基本操作的通用接口方法,所有集合都是它的子类,比如 List、…

电商卖家如何从1688批量采集商品信息并铺货到自己店铺?

目前,各大电商平台严查无货源,不管是已经开店还是准备开店的卖家,想要店铺长久发展,都需要从1688找授权分销的厂家拿货源铺货。 然而很多新手卖家在1688找货源时,不知道如何找到物美价廉的源头厂货,选好货…

SpringBoot实现RabbitMQ的通配符交换机(SpringAMQP 实现Topic交换机)

文章目录 pomyml生产者消费者 Topic类型的Exchange与Direct相比,都是可以根据RoutingKey把消息路由到不同的队列。只不过Topic类型Exchange可以让队列在绑定Routing key 的时候使用通配符! Routingkey 一般都是有一个或多个单词组成,多个单词…

关于Linux下的进程创建与终止(进程篇 - 涉及写时拷贝,fork函数)

目录 创建进程 写时拷贝 fork函数 进程终止 进程终止时,操作系统都做了什么? 进程终止的常见方式有哪些? 如何使用代码终止掉一个进程? 创建进程 写时拷贝 在了解下面的内容之前,我们需要先聊一聊写时拷贝这一…

MySQL-基本SQL语句编写:运算符练习

运算符练习 1.选择工资不在5000到12000的员工的姓名和工资 SELECT last_name,salary FROM employees #where salary not between 5000 and 12000; WHERE salary < 5000 OR salary > 12000;2.选择在20或50号部门工作的员工姓名和部门号 SELECT last_name,department_id…

ChatGPT 之联盟营销

原文&#xff1a;ChatGPT for Affiliate Marketing 译者&#xff1a;飞龙 协议&#xff1a;CC BY-NC-SA 4.0 第二章 制定转化对话 制定转化对话是每个营销人员和企业所有者都应该掌握的关键技能。它涉及创建和传递引人入胜的信息&#xff0c;吸引您的受众并激励他们采取行动。…

【windows】--- nginx 超详细安装并配置教程

目录 一、下载 nginx二、安装三、查看是否安装成功四、配置五、关闭 nginx六 负载均衡七 配置静态资源1. 根目录下的子目录(root)2.完全匹配(alias) 刷新配置&#xff08;不必重启nginx&#xff09;八、后端鉴权 一、下载 nginx 打开 nginx 的官网&#xff1a;nginx.org/ &…

【操作系统】STM32-操作系统——持续更新

【操作系统】STM32-操作系统——持续更新 文章目录 前言一、ucosii二、freertos1.介绍2.移植 总结 前言 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例可供参考 一、ucosii UCOSII移植到STM32F103C8T6上之移植记录&#xff08;一&#xff09; UCOSII移植到ST…

GIS 如何帮助减少交通排放

GIS 可通过多种方式帮助减少交通排放。从智能路线和减少拥堵&#xff0c;到鼓励人们骑自行车或步行&#xff0c;以及帮助指导政府交通政策&#xff0c;GIS 正在帮助改善空气质量。 GIS 长期以来一直被用来提高各行业多种类型车辆行驶的效率&#xff0c;并将继续这样做。通过分…

CURL状态码60问题解决

问题说明 就是没法验证ssl证书是否合法 时间长了&#xff0c;系统自带的ca肯定不会有新的ca机构增加 解决方法 CentOS下 yum update ca-certificates 或者手动更新指定位置上的ca文件 手动下载 https://curl.se/docs/caextract.html 临时处理方案(不推荐) curl_setopt(…

网站统计中的数据收集原理及实现

网站数据统计分析工具是网站站长和运营人员经常使用的一种工具&#xff0c;比较常用的有谷歌分析、百度统计和腾讯分析等等。所有这些统计分析工具的第一步都是网站访问数据的收集。目前主流的数据收集方式基本都是基于javascript的。本文将简要分析这种数据收集的原理&#xf…

C++ 静态库与动态库的生成和使用:基于 VS Studio 生成 newmat 矩阵库的静态库与动态库

文章目录 Part.I IntroductionChap.I 预备知识Chap.II 静态库与动态库区分 Part.II 静态库的生成与使用 (newmat)Chap.I 生成静态库Chap.II 使用静态库 Part.III 动态库的生成与使用 (newmat)Chap.I 生成动态库Chap.II 使用动态库 Part.IV 文件内容Chap.I test.cpp (静态库)Cha…

linux常用目录结构(目录命令)--6986字详谈

前面与大家讨论了linux的发展与由来&#xff08;这一块挺多的&#xff0c;小编还没有编写完成&#xff0c;希望大家理解&#xff09;&#xff0c;紧接着谈到了vmware安装及运行所存在的故障&#xff08;鉴定错误&#xff0c;虚拟机没有网&#xff0c;蓝屏等常见现象的总结及处理…

学透Spring Boot — 004. Spring Boot Starter机制和自动配置机制

如果你项目中一直用的是 Spring Boot&#xff0c;那么恭喜你没有经历过用 Spring 手动集成其它框架的痛苦。 都说 Spring Boot 大大简化了 Spring 框架开发 Web 应用的难度&#xff0c;这里我们通过配置 Hibernate 的两种方式来深刻体会这一点&#xff1a; 使用 Spring 框架集…

centos7.2系统部署ZooKeeper集群和Kafka集群(集群应用系统商城前置环境)

本次实验将使用centos7.2系统部署部署ZooKeeper集群因为Kafka依赖于ZooKeeper&#xff0c;所以我们一并进行部署。 实验所示的资源软件已上传至百度网盘&#xff0c;需要自取。 链接&#xff1a;https://pan.baidu.com/s/1a-7_iAIX0DBAMkF9bhiTcA?pwd2333 提取码&#xff1…

C++:stack类和queue类

stack的介绍和使用 1. stack 是一种容器适配器&#xff0c;专门用在具有后进先出操作的上下文环境中&#xff0c;其删除只能从容器的一端进行元素的插入与提取操作。 2. stack 是作为容器适配器被实现的&#xff0c;容器适配器即是对特定类封装作为其底层的容器&#xff0c;并…

壁纸小程序Vu3(预览页面:弹窗)

1.展示跳转后的分类列表图片 classlist.vue <template><view class"classlist"><view class"content"><navigator class"item" v-for"item in 10"><image src"../../common/images/64.png" mode…

DFS(排列数字、飞机降落、选数、自然数的拆分)

注&#xff1a;1.首先要知道退出条件 2.还原现场 典型&#xff1a;全排列 题目1&#xff1a; 代码&#xff1a; #include<bits/stdc.h> using namespace std; int a[1005],p[1005],v[1005]; int n; void dfs(int x) {//此次dfs结束条件,即搜到底 if(xn1){for(int i1;i&…