【具身智能评估1】具身视觉语言规划(EVLP)仿真环境汇总

news2024/9/27 21:18:32

参考论文:Core Challenges in Embodied Vision-Language Planning
论文作者:Jonathan Francis, Nariaki Kitamura, Felix Labelle, Xiaopeng Lu, Ingrid Navarro, Jean Oh
论文原文:https://arxiv.org/abs/2106.13948
论文出处:Journal of Artificial Intelligence Research 74 (2022) 459-515
论文被引:27(11/18/2023)

论文中的工作截止到2021年,在此基础上补充了近几年具身智能领域相关的仿真环境。
在这里插入图片描述

术语对齐

Embodied Vision Language Planning (EVLP):具身视觉语言规划
在这里插入图片描述

具身智能仿真环境

解决 EVLP 任务通常需要使用仿真环境和数据集。仿真平台和数据集有助于复现和评估具身智能系统。模拟器旨在复制现实世界的方方面面,并模拟能够解决复杂任务的智能体(agent),同时抽象出设计和监督现实世界智能体的所面临的挑战。相比之下,数据集在阐明每项任务的框架方面起着至关重要的作用。数据集提供了智能体在应对特定多模态刺激时的行为示例。

早期的具身研究模拟平台通常利用视频游戏环境来创建和训练神经控制器。由于简化的环境通常缺乏真实世界环境的多样性和复杂性,人类的表现很快就在其中一些平台上实现了。最近的研究通过使用逼真的照片和使用交互式情境(智能体能够修改环境中物体的状态)来解决这种缺乏真实感的问题。为此,人们也在开发从模拟到现实的迁移和评估为重点的框架,以便研究真实环境与模拟环境之间的差异。
在这里插入图片描述
在这里插入图片描述

VLN Simulators

Matterport3DSim

Matterport3D Dataset:

论文标题:Matterport3D: Learning from RGB-D Data in Indoor Environments
论文作者:Angel Chang, Angela Dai, Thomas Funkhouser, Maciej Halber, Matthias Nießner, Manolis Savva, Shuran Song, Andy Zeng, Yinda Zhang
论文原文:https://arxiv.org/abs/1709.06158
论文出处:3DV 2017
论文被引:1449(11/18/2023)
论文代码:https://github.com/niessner/Matterport,834 star
项目主页:https://niessner.github.io/Matterport/

Matterport3D Simulator:

论文标题:Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments
论文作者:Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, Mark Johnson, Niko Sünderhauf, Ian Reid, Stephen Gould, Anton van den Hengel
论文原文:https://arxiv.org/abs/1711.07280
论文出处:CVPR 2018
论文被引:1089(11/18/2023)
论文代码:https://github.com/peteanderson80/Matterport3DSimulator
项目主页:–

Habitat

Habitat 1.0

论文标题:Habitat: A Platform for Embodied AI Research
论文作者:Manolis Savva, Abhishek Kadian, Oleksandr Maksymets, Yili Zhao, Erik Wijmans, Bhavana Jain, Julian Straub, Jia Liu, Vladlen Koltun, Jitendra Malik, Devi Parikh, Dhruv Batra
论文原文:https://arxiv.org/abs/1904.01201
论文出处:ICCV 2019
论文被引:1043(11/18/2023)
论文代码:https://github.com/facebookresearch/habitat-sim,2k star
项目主页:https://aihabitat.org/

Habitat 2.0

论文标题:Habitat 2.0: Training Home Assistants to Rearrange their Habitat
论文作者:Andrew Szot, Alex Clegg, Eric Undersander, Erik Wijmans, Yili Zhao, John Turner, Noah Maestre, Mustafa Mukadam, Devendra Chaplot, Oleksandr Maksymets, Aaron Gokaslan, Vladimir Vondrus, Sameer Dharur, Franziska Meier, Wojciech Galuba, Angel Chang, Zsolt Kira, Vladlen Koltun, Jitendra Malik, Manolis Savva, Dhruv Batra
论文原文:https://arxiv.org/abs/2106.14405
论文出处:NeurIPS 2021 Spotlight
论文被引:279(11/18/2023)
论文代码:https://github.com/facebookresearch/habitat-lab,1.5k star
项目主页:https://aihabitat.org/

Habitat 3.0

论文标题:Habitat 3.0: A Co-Habitat for Humans, Avatars and Robots
论文作者:Xavier Puig, Eric Undersander, Andrew Szot, Mikael Dallaire Cote, Tsung-Yen Yang, Ruslan Partsey, Ruta Desai, Alexander William Clegg, Michal Hlavac, So Yeon Min, Vladimír Vondruš, Theophile Gervet, Vincent-Pierre Berges, John M. Turner, Oleksandr Maksymets, Zsolt Kira, Mrinal Kalakrishnan, Jitendra Malik, Devendra Singh Chaplot, Unnat Jain, Dhruv Batra, Akshara Rai, Roozbeh Mottaghi
论文原文:https://arxiv.org/abs/2310.13724
论文出处:arXiv
论文被引:2(11/18/2023)
论文代码:https://github.com/facebookresearch/habitat-lab/tree/v0.3.0,1.5 k
项目主页:https://aihabitat.org/habitat3/

StreetLearn

论文标题:Learning to Navigate in Cities Without a Map
论文作者:Piotr Mirowski, Matthew Koichi Grimes, Mateusz Malinowski, Karl Moritz Hermann, Keith Anderson, Denis Teplyashin, Karen Simonyan, Koray Kavukcuoglu, Andrew Zisserman, Raia Hadsell
论文原文:https://arxiv.org/abs/1804.00168
论文出处:NeurIPS 2018
论文被引:293(11/18/2023)
论文代码:https://github.com/google-deepmind/streetlearn,271 star
项目主页:https://sites.google.com/view/streetlearn/

VDN Simulator

Matterport3DSim

EQA Simulators

House3D

论文标题:Building Generalizable Agents with a Realistic and Rich 3D Environment
论文作者:Yi Wu, Yuxin Wu, Georgia Gkioxari, Yuandong Tian
论文原文:https://arxiv.org/abs/1801.02209
论文出处:ICLR 2018
论文被引:232(11/18/2023)
论文代码:https://github.com/facebookresearch/House3D
项目主页:–

AI2-THOR

论文标题:AI2-THOR: An Interactive 3D Environment for Visual AI
论文作者:Eric Kolve, Roozbeh Mottaghi, Winson Han, Eli VanderBilt, Luca Weihs, Alvaro Herrasti, Matt Deitke, Kiana Ehsani, Daniel Gordon, Yuke Zhu, Aniruddha Kembhavi, Abhinav Gupta, Ali Farhadi
论文原文:https://arxiv.org/abs/1712.05474
论文出处:arXiv 1712
论文被引:662(11/18/2023)
论文代码:https://github.com/allenai/ai2thor,914 star
项目主页:https://ai2thor.allenai.org/

MINOS

论文标题:MINOS: Multimodal Indoor Simulator for Navigation in Complex Environments
论文作者:Manolis Savva, Angel X. Chang, Alexey Dosovitskiy, Thomas Funkhouser, Vladlen Koltun
论文原文:https://arxiv.org/abs/1712.03931
论文出处:arXiv 1712
论文被引:128(11/18/2023)
论文代码:https://github.com/minosworld/minos,199 star
项目主页:https://minosworld.github.io/

EOR Simulators

REVERIE

论文标题:REVERIE: Remote Embodied Visual Referring Expression in Real Indoor Environments
论文作者:Yuankai Qi, Qi Wu, Peter Anderson, Xin Wang, William Yang Wang, Chunhua Shen, Anton van den Hengel
论文原文:https://arxiv.org/abs/1904.10151
论文出处:CVPR 2020
论文被引:204(11/18/2023)
论文代码:https://github.com/YuankaiQi/REVERIE,94 star
项目主页:–

EGM Simulators

ALFRED

论文标题:ALFRED: A Benchmark for Interpreting Grounded Instructions for Everyday Tasks
论文作者:Mohit Shridhar, Jesse Thomason, Daniel Gordon, Yonatan Bisk, Winson Han, Roozbeh Mottaghi, Luke Zettlemoyer, Dieter Fox
论文原文:https://arxiv.org/abs/1912.01734
论文出处:CVPR 2020
论文被引:489(11/18/2023)
论文代码:https://github.com/askforalfred/alfred,288 star
项目主页:https://askforalfred.com/

ArraMon

论文标题:ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in Dynamic Environments
论文作者:Hyounghun Kim, Abhay Zala, Graham Burri, Hao Tan, Mohit Bansal
论文原文:https://arxiv.org/abs/2011.07660
论文出处:EMNLP Findings 2020
论文被引:13(11/18/2023)
论文代码:https://github.com/hyounghk/ArraMon,4 star
项目主页:https://arramonunc.github.io/

CerealBar

论文标题:Executing Instructions in Situated Collaborative Interactions
论文作者:Alane Suhr, Claudia Yan, Charlotte Schluger, Stanley Yu, Hadi Khader, Marwa Mouallem, Iris Zhang, Yoav Artzi
论文原文:https://arxiv.org/abs/1910.03655
论文出处:EMNLP 2019 long paper
论文被引:68(11/18/2023)
论文代码:https://github.com/lil-lab/cerealbar,26 star
项目主页:https://lil.nlp.cornell.edu/cerealbar/

Other Simulator

iGibson

论文标题:Interactive Gibson Benchmark (iGibson 0.5): A Benchmark for Interactive Navigation in Cluttered Environments
论文作者:Fei Xia, William B. Shen, Chengshu Li, Priya Kasimbeg, Micael Tchapmi, Alexander Toshev, Li Fei-Fei, Roberto Martín-Martín, Silvio Savarese
论文原文:https://arxiv.org/abs/1910.14442
论文出处:RAL 2020
论文被引:181(11/18/2023)
论文代码:https://github.com/StanfordVL/iGibson,581 star
项目主页:https://sites.google.com/view/interactivegibsonenv

iGibson 1.0

论文标题:iGibson 1.0: a Simulation Environment for Interactive Tasks in Large Realistic Scenes
论文作者:Bokui Shen, Fei Xia, Chengshu Li, Roberto Martín-Martín, Linxi Fan, Guanzhi Wang, Claudia Pérez-D’Arpino, Shyamal Buch, Sanjana Srivastava, Lyne P. Tchapmi, Micael E. Tchapmi, Kent Vainio, Josiah Wong, Li Fei-Fei, Silvio Savarese
论文原文:https://arxiv.org/abs/2012.02924
论文出处:IROS 2021
论文被引:100(11/18/2023)
论文代码:https://github.com/StanfordVL/iGibson,581 star
项目主页:https://svl.stanford.edu/igibson/

iGibson 2.0

论文标题:iGibson 2.0: Object-Centric Simulation for Robot Learning of Everyday Household Tasks
论文作者:Chengshu Li, Fei Xia, Roberto Martín-Martín, Michael Lingelbach, Sanjana Srivastava, Bokui Shen, Kent Vainio, Cem Gokmen, Gokul Dharan, Tanish Jain, Andrey Kurenkov, C. Karen Liu, Hyowon Gweon, Jiajun Wu, Li Fei-Fei, Silvio Savarese
论文原文:https://arxiv.org/abs/2108.03272
论文出处:CoRL 2021
论文被引:105(11/18/2023)
论文代码:https://github.com/StanfordVL/iGibson,581 star
项目主页:https://svl.stanford.edu/igibson/

SoundSpaces

论文标题:SoundSpaces: Audio-Visual Navigation in 3D Environments
论文作者:Changan Chen, Unnat Jain, Carl Schissler, Sebastia Vicenc Amengual Gari, Ziad Al-Halah, Vamsi Krishna Ithapu, Philip Robinson, Kristen Grauman
论文原文:https://arxiv.org/abs/1912.11474
论文出处: ECCV 2020
论文被引:203(11/18/2023)
论文代码:https://github.com/facebookresearch/sound-spaces,281 star
项目主页:https://vision.cs.utexas.edu/projects/audio_visual_navigation/

VirtualHome

论文标题:VirtualHome: Simulating Household Activities via Programs
论文作者:Xavier Puig, Kevin Ra, Marko Boben, Jiaman Li, Tingwu Wang, Sanja Fidler, Antonio Torralba
论文原文:https://arxiv.org/abs/1806.07011
论文出处:CVPR 2018 Oral
论文被引:314(11/18/2023)
论文代码:https://github.com/xavierpuigf/virtualhome,323 star
项目主页:http://virtual-home.org/

SAPIEN

论文标题:SAPIEN: A SimulAted Part-based Interactive ENvironment
论文作者:Fanbo Xiang, Yuzhe Qin, Kaichun Mo, Yikuan Xia, Hao Zhu, Fangchen Liu, Minghua Liu, Hanxiao Jiang, Yifu Yuan, He Wang, Li Yi, Angel X. Chang, Leonidas J. Guibas, Hao Su
论文原文:https://arxiv.org/abs/2003.08515
论文出处:CVPR 2020
论文被引:286(11/18/2023)
论文代码:https://github.com/haosulab/SAPIEN,266 star
项目主页:–

ThreeDWorld ※

论文标题:ThreeDWorld: A Platform for Interactive Multi-Modal Physical Simulation
论文作者:Chuang Gan, Jeremy Schwartz, Seth Alter, Damian Mrowca, Martin Schrimpf, James Traer, Julian De Freitas, Jonas Kubilius, Abhishek Bhandwaldar, Nick Haber, Megumi Sano, Kuno Kim, Elias Wang, Michael Lingelbach, Aidan Curtis, Kevin Feigelis, Daniel M. Bear, Dan Gutfreund, David Cox, Antonio Torralba, James J. DiCarlo, Joshua B. Tenenbaum, Josh H. McDermott, Daniel L.K. Yamins
论文原文:https://arxiv.org/abs/2007.04954
论文出处:NeurIPS 2021
论文被引:186(11/18/2023)
论文代码:https://github.com/threedworld-mit/tdw,426 star
项目主页:https://www.threedworld.org/

PyBullet

项目主页:https://pybullet.org/wordpress/

Github:https://github.com/bulletphysics/bullet3,11.3k star

MuJoCo

论文标题:MuJoCo: A physics engine for model-based control
论文作者:Emanuel Todorov; Tom Erez; Yuval Tassa
论文原文:https://ieeexplore.ieee.org/document/6386109
论文出处:2012 IEEE/RSJ International Conference on Intelligent Robots and Systems
论文被引:4752(11/18/2023)
论文代码:https://github.com/google-deepmind/mujoco,6.5k star
项目主页:https://mujoco.org/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1223193.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

文心一言-情感关怀之旅

如何让LLM更有温度。 应用介绍

猜数字优化版(带进度条)

其实就是加了个动态进度条显示加载游戏的流程&#xff0c;这样看上去是不是更有big了hhhh #include<windows.h> #include<iostream> #include<ctime> using namespace std; void menu() {printf("1.开始游戏\n");printf("0.退出游戏\n")…

PP-YOLOE: An evolved version of YOLO(2022.12)

文章目录 Abstract1. Introduction2. Method2.1. A Brief Review of PP-YOLOv22.2. Improvement of PP-YOLOEAnchor-freeBackbone and NeckTask Alignment Learning (TAL)Efficient Task-aligned Head (ET-head) 3.Experiment4. Conclusion 原文链接 源代码 Abstract 在本报告…

恕我直言,大模型对齐可能无法解决安全问题,我们都被表象误导了

是否听说过“伪对齐”这一概念&#xff1f; 在大型语言模型&#xff08;LLM&#xff09;的评估中&#xff0c;研究者发现了一个引人注目的现象&#xff1a;当面对多项选择题和开放式问题时&#xff0c;模型的表现存在显著差异。这一差异根源在于模型对复杂概念的理解不够全面&…

Python hashlib 模块详细教程:安全哈希与数据完整性保护

更多Python学习内容&#xff1a;ipengtao.com 大家好&#xff0c;我是涛哥&#xff0c;今天为大家分享 Python hashlib 模块详细教程&#xff0c;文章6500字&#xff0c;阅读大约17分钟&#xff0c;大家enjoy~~ hashlib模块为Python提供了一种简便的方式来使用各种哈希算法&…

ACM练习——第五天

还有两天就要比赛了&#xff0c;进入正题吧 题目一&#xff1a;小红的签到题 小红的签到题 (nowcoder.com) 这道题也就是热身水平&#xff0c;机会很清楚的发现只需要c/a就可以得出答案了 参考代码&#xff1a; #include <iostream>using namespace std;int main(){int a…

SecureCRT的“New line mode“

New line mode选中与不选中啥区别 在SecureCRT中&#xff0c;"New line mode"是一个关键配置项&#xff0c;主要用于解决不同操作系统之间的换行问题。当不选中"New line mode"时&#xff0c;SecureCRT会将接收到的数据按照原样发送&#xff0c;不会对数据…

腾讯智影数字人工具

腾讯智影数字人工具 腾讯智影数字人的形象风格多样&#xff0c;包括写实、卡通等&#xff0c;可以满足不同年龄层观众的喜好。同时&#xff0c;腾讯智影数字人也提供了灵活的驱动方案&#xff0c;可以通过文本或配音直接生成视频&#xff0c;并支持数字人做出与视频一样的动作…

计算机网络——WLAN简解

1. WLAN的发展历程 ❓ WLAN和WIFI有什么区别。 &#x1f604; 具体来说&#xff0c;WALN是抽象的概念&#xff0c;代表这无线局域网这一类技术&#xff0c;而WIFI则是具体的具体技术标准&#xff0c;虽然在生活中&#xff0c;二者的表现是强相关的&#xff08;因为是使用的wifi…

talbay---贝叶斯网络分析工具产品介绍

一 简介 talbay是拥有独立知识产权的国产软件&#xff0c;主要功能是贝叶斯网络建模、决策网络建模、概率计算、决策支持、敏感性分析、网络模型验证、机器学习等。talbay以用户为中心&#xff0c;简单易用, 计算准确高效&#xff0c;分析全面多样&#xff0c;在应用成熟理论及…

基础模型的自然语言处理能力综述

NLP作为一个领域为基础模型开辟了道路。虽然这些模型在标准基准测试中占据主导地位&#xff0c;但这些模型目前获得的能力与那些将语言描述为人类交流和思维的复杂系统的能力之间存在明显的差距。针对这一点&#xff0c;我们强调语言变异的全部范围&#xff08;例如&#xff0c…

西南科技大学814考研一

C语言基础 字节大小 char&#xff1a;1 字节 unsigned char&#xff1a;1 字节 short&#xff1a;2 字节 unsigned short&#xff1a;2 字节 int&#xff1a;通常为 4 字节&#xff08;32 位平台&#xff09;或 8 字节&#xff08;64 位平台&#xff09; unsigned int&#x…

汽车音响静音检测电路芯片D3703F,适用于汽车音响系统,采用封装形式SOP8

D3703F是-块汽车音响静音检测电路。用于音响系统检测在放音或快进/退时进行静音检测。D3703F的电压范围: 6V~16V&#xff0c; 信号检测和静音时间可通过外围电阻、电容来改变。 主要特点&#xff1a; ● 快进退时也可进行静音检测 ● 信号检测和静音时间可通过外围元件值来改…

机器学习笔记 - 使用 PyTorch 的多任务学习和 HydraNet

一、HydraNet简述 特斯拉使用了一个模型可以解决他们正在处理的每一项可能的任务。 例如:物体检测、道路曲线估计、深度估计、3D重建、视频分析、物体追踪、ETC等等。 以下是在 NVIDIA GPU 上以 3 种不同配置运行的 2 个计算机视觉模型的基准测试。 在第一个配置中,我…

贝叶斯AB测试

AB测试是用来评估变更效果的有效方法&#xff0c;但很多时候会运行大量AB测试&#xff0c;如果能够在测试中复用之前测试的结果&#xff0c;将有效提升AB测试的效率和有效性。原文: Bayesian AB Testing[1] 随机实验&#xff0c;又称AB测试&#xff0c;是行业中评估因果效应的既…

iframe父子页面通信相互调用传递参数多个postMessage

效果 如何运行 父页面代码 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title>…

再也不用担心忘记密码了!如何在Windows 10或11中重置被遗忘的密码

​如果你忘记了Windows电脑的密码,不要惊慌。Windows 10和Windows 11都允许你重置忘记的密码,无论你使用的是Microsoft帐户还是本地帐户。你所要做的就是回答你的安全问题以重置密码。另一种选择是创建一个密码重置盘,你可以在任何U盘上进行。 除了使用密码之外,你还应该启…

CCF ChinaSoft 2023 论坛巡礼|软件测试产教研融合论坛

2023年CCF中国软件大会&#xff08;CCF ChinaSoft 2023&#xff09;由CCF主办&#xff0c;CCF系统软件专委会、形式化方法专委会、软件工程专委会以及复旦大学联合承办&#xff0c;将于2023年12月1-3日在上海国际会议中心举行。 本次大会主题是“智能化软件创新推动数字经济与社…

基于DOTween插件实现金币飞行到指定位置功能

文章目录 前言一、DOTween是什么&#xff1f;二、使用步骤1.导入DOTween插件在Unity官方插件商店找到DOTween插件导入DOTween插件启用DOTween插件 2.代码逻辑金币飞行代码控制飞行效果代码 3.物体配置1.物体上装配CoinEffect脚本2.在金币预制体上装配FlyControl脚本 三、效果展…

Pytorch torch.normal()的用法

该函数原型如下&#xff1a; normal(mean, std, *, generatorNone, outNone) 该函数返回从单独的正态分布中提取的随机数的张量&#xff0c;该正态分布的均值是mean&#xff0c;标准差是std。 用法如下&#xff1a;我们从一个标准正态分布N&#xff5e;(0,1)&#xff0c;提取…