每日学术速递5.4

news2025/1/12 6:42:45

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV

1.IndoorSim-to-OutdoorReal: Learning to Navigate Outdoors without any Outdoor Experience

标题:IndoorSim-to-OutdoorReal:在没有任何户外经验的情况下学习在户外导航

作者:Joanne Truong, April Zitkovich, Sonia Chernova, Dhruv Batra, Tingnan Zhang, Jie Tan, Wenhao Yu

文章链接:https://arxiv.org/abs/2305.01098

项目代码:https://www.joannetruong.com/projects/i2o.html

摘要:

        我们展示了 IndoorSim-to-OutdoorReal (I2O),这是一种端到端的学习视觉导航方法,仅在模拟的短程室内环境中进行训练,并演示了零样本模拟到真实的远程转移到室外在 Spot 机器人上导航。我们的方法使用零真实世界经验(室内或室外),并且要求模拟器模拟没有主要是室外的现象(倾斜的地面、人行道等)。I2O 传输的关键是为机器人提供额外的环境上下文(即卫星地图、人类绘制的粗略地图等)以指导机器人在现实世界中的导航。提供的上下文地图不需要准确或完整——现实世界的障碍物(例如,树木、灌木、行人等)未绘制在地图上,开口与它们在真实世界中的位置不对齐-世界。至关重要的是,这些不准确的上下文映射为机器人提供了关于通往目标的路线的提示。我们发现,我们利用 Context-Maps 的方法能够在新环境中成功导航数百米,避开其路径上的新障碍,在没有任何碰撞或人工干预的情况下到达遥远的目标。相比之下,没有附加上下文的策略会完全失败。最后,我们通过在模拟中向地图添加不同程度的噪声来测试 Context-Map 策略的稳健性。我们发现上下文映射策略对提供的上下文映射中的噪声具有惊人的鲁棒性。在存在明显不准确的地图(被 50% 的噪声损坏或完全空白的地图)的情况下,策略会优雅地回归到没有上下文的策略行为。此 https 网址提供视频

2.TMR: Text-to-Motion Retrieval Using Contrastive 3D Human Motion Synthesis

标题:TMR:使用对比 3D 人体动作合成的文本到动作检索

作者:Mathis Petrovich, Michael J. Black, Gül Varol

文章链接:https://arxiv.org/abs/2305.00976

项目代码:https://mathis.petrovich.fr/tmr/

摘要:

        在本文中,我们介绍了 TMR,这是一种简单而有效的文本到 3D 人体运动检索方法。虽然以前的工作只将检索作为代理评估指标,但我们将其作为一项独立任务来处理。我们的方法扩展了最先进的文本到运动合成模型 TEMOS,并结合了对比损失以更好地构建跨模态潜在空间。我们表明,保持运动生成损失以及对比训练对于获得良好性能至关重要。我们引入了评估基准,并通过报告几种协议的结果来提供深入分析。我们在 KIT-ML 和 HumanML3D 数据集上进行的大量实验表明,TMR 的性能明显优于之前的工作,例如,将中位数排名从 54 降低到 19。最后,我们展示了我们的方法在矩检索方面的潜力。我们的代码和模型是公开的。

3.ArK: Augmented Reality with Knowledge Interactive Emergent Ability

标题:Ark:增强现实与知识互动涌现能力

作者:Qiuyuan Huang, Jae Sung Park, Abhinav Gupta, Paul Bennett, Ran Gong, Subhojit Som, Baolin Peng, Owais Khan Mohammed, Chris Pal, Yejin Choi, Jianfeng Gao

文章链接:https://arxiv.org/abs/2304.05977

项目代码:https://github.com/THUDM/ImageReward

摘要:

        尽管越来越多地采用混合现实和交互式 AI 代理,但这些系统在看不见的环境中生成高质量的 2D/3D 场景仍然具有挑战性。通常的做法需要部署一个 AI 代理来收集大量数据,以便为每个新任务进行模型训练。对于许多领域来说,这个过程是昂贵的,甚至是不可能的。在这项研究中,我们开发了一个无限代理,它学习将知识记忆从一般基础模型(例如 GPT4、DALLE)转移到新的领域或场景,以在物理或虚拟世界中进行场景理解和生成。我们方法的核心是一种新兴机制,称为知识推理交互增强现实 (ArK),它利用知识记忆在看不见的物理世界和虚拟现实环境中生成场景。知识交互涌现能力(图 1)被展示为观察学习 i)跨模态的微动作:在多模态模型中为每个交互任务收集大量相关知识记忆数据(例如,看不见的场景理解) 来自物理现实;ii) 与现实无关的宏观行为:在混合现实环境中改进针对不同特征角色、目标变量、协作信息等定制的交互。我们验证了 ArK 在场景生成和编辑任务上的有效性。我们展示了我们的 ArK 方法与大型基础模型相结合,与基线相比显着提高了生成的 2D/3D 场景的质量,展示了将 ArK 结合到生成 AI 中用于元宇宙和游戏模拟等应用程序的潜在好处。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/495172.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux系统中ARMv8架构u-boot启动流程分析

目录 ​ 本文基于 armv8 架构来对 u-boot 进行启动流程分析。 1 概述 2 armv8 u-boot的启动 3 u-boot源码整体结构和一些编译配置方式 3.1 编译配置方式 3.2 u-boot源码结构 4 u-boot armv8链接脚本 4.1 u-boot.lds 4.2 u-boot-spl.lds 本文基于 armv8 架构来对 u-bo…

Android LifecycleService

监听Service的生命周期-LifecycleService 为了方便我们对Service生命周期的监听,Android提供了一个名为LifecycleService的类,让该类继承自Service,并实现LifecycleOwner接口。 /*** A Service that is also a {link LifecycleOwner}.*/ pu…

项目实战——获取树形结构

获取树形结构 一、背景介绍二、 思路和方案方案一:使用递归查询的方式并构建树形结构方案二:使用临时表的方式构建树形结构使用临时表的优缺点 三、过程项目案例核心代码 四、总结五、升华 一、背景介绍 我们在开发中时常会遇到需要用到树形结构这种表示…

1分钟学会、3分钟上手、5分钟应用,快速上手责任链框架详解 | 京东云技术团队

作者:京东物流 覃玉杰 1. pie 简介 责任链模式是开发过程中常用的一种设计模式,在SpringMVC、Netty等许多框架中均有实现。我们日常的开发中如果要使用责任链模式,通常需要自己来实现,但自己临时实现的责任链既不通用&#xff0…

解决安装nrm,执行nrm ls时出现的const open=require(‘open’)问题

最开始安装的淘宝镜像源为npm config set registryhttps ://registry.npm.taobao.org/,后来看到镜像源变了,就换了下面的, 下载新的npm淘宝镜像资源包npm config set registry http://registry.npmmirror.com 查看,安装成功&…

【c语言】字符串的基本概念 | 字符串存储原理

创作不易&#xff0c;本篇文章如果帮助到了你&#xff0c;还请点赞 关注支持一下♡>&#x16966;<)!! 主页专栏有更多知识&#xff0c;如有疑问欢迎大家指正讨论&#xff0c;共同进步&#xff01; 给大家跳段街舞感谢支持&#xff01;ጿ ኈ ቼ ዽ ጿ ኈ ቼ ዽ ጿ ኈ ቼ …

Spring常用注解总结

目录 一、前言1、xml和注解的最佳实践&#xff1a;2、使用注解唯一需要注意的就是&#xff0c;必须开启注解的支持&#xff1a; 二、Spring的常用注解1、给容器中注入组件2、注入bean的注解3、JsonIgnore4、初始化和销毁方法5、Java配置类相关注解6、切面&#xff08;AOP&#…

DNS资源记录详解

资源记录&#xff08;resourse record&#xff09;就是域名服务器保存的记录&#xff0c;也是解析器请求的内容&#xff0c;资源记录保存在zone文件中。域&#xff08;domain&#xff09;&#xff1a;以 www.baidu.com 为例&#xff0c;com是一个域。baidu.com是一个域&#xf…

Selenium:三种等待方式

目录 一、显示等待 二、隐式等待 三、强制等待 UI自动化测试&#xff0c;大多都是通过定位页面元素来模拟实际的生产场景操作。但在编写自动化测试脚本中&#xff0c;经常出现元素定位不到的情况&#xff0c;究其原因&#xff0c;无非两种情况&#xff1a;1、有frame&#x…

Unity 光照

\\\\\\\ Unity烘焙&#xff08;Baking&#xff09;是指将场景中的动态光照转换为静态贴图。在烘焙过程中&#xff0c;Unity会将场景中的光源、材质和对象等信息计算出来&#xff0c;并存储为贴图。当玩家进入场景时&#xff0c;Unity只需要读取这些预计算好的贴图或者数据文件&…

2023年计算机视觉与模式识别国际会议(CCVPR 2023)

会议简介 Brief Introduction 2023年计算机视觉与模式识别国际会议(CCVPR 2023) 会议时间&#xff1a;2023年9月15日-17日 召开地点&#xff1a;英国牛津 大会官网&#xff1a;www.ccvpr.org 计算机视觉技术与模式识别是现代科学中备受关注的热点技术&#xff0c;它的革新对各行…

Monorepo开发策略详解

目录 一&#xff1a;什么是 Monorepo&#xff1f; 二&#xff1a;Monorepo 和其他结构的区别&#xff1a; 三&#xff1a;Monorepo的优缺点 3.1.优点 3.2.缺点 四&#xff1a;如何使用Monorepo 一&#xff1a;什么是 Monorepo&#xff1f; Monorepo 是一种将多个项目存放…

【iOS】—— RunLoop初学

RunLoop 文章目录 RunLoopRunLoop简介RunLoop基本使用Runloop伪代码Runloop模型图 Runloop对象Runloop对象的获取_CFRunLoopGet0方法 RunLoop的相关类RunLoop相关类的实现CFRunLoopRefCFRunLoopModeRef五种运行模式CommonModes什么是Mode Item&#xff1f;Mode到底包含哪些类型…

【SWAT水文模型】SWAT水文模型建立及应用第四期: 气象数据的准备(中国区域高精度同化气象站CMADS)

SWAT水文模型建立及应用&#xff1a; 气象数据的准备 1 简介2 气象数据的准备&#xff08;中国区域高精度同化气象站CMADS&#xff09;2.1 数据说明2.2 数据下载 3 CMADS 数据集SWAT子集使用说明3.1 SWAT2009版本3.2 SWAT2012版本 参考 本博客主要介绍气象数据的准备&#xff0…

HulaCWMS呼啦企业网站管理系统 v3.0.4

源码下载&#xff1a;https://download.csdn.net/download/m0_66047725/87630654 HulaCWMS(呼啦企业网站管理系统)是基于ThinkPHP5框架开发&#xff0c;安全高效&#xff0c;包括ThinkPHP5的所有特性。专注于企业、政府单位网站建设&#xff0c;以免费开源的方式&#xff0c;帮…

python - 模块使用详解

前言 Python有非常强大的第三方库&#xff0c;也有非常多的内置模块帮助开发人员实现某些功能&#xff0c;无需开发人员自己造轮子。本文介绍Python的模块。 什么是模块 模块简单来说就是一系列功能的集合体&#xff0c;如果将程序的开发比喻成拼图&#xff0c;模块就是各种…

读懂海尔智家大脑:深度体验的本质是深度生活

了解科技行业的读者&#xff0c;应该都对“大脑”这个名词不陌生。 “黑灯工厂”里指挥生产的“工业大脑”&#xff0c;繁忙机场里运筹帷幄的“航空大脑”&#xff0c;还有智慧城市建设的灵魂“城市大脑”…… 如果家也有一颗总揽全局的大脑&#xff0c;生活会发生什么改变呢&a…

SuperMap GIS基础产品三维GIS FAQ集锦(2)

SuperMap GIS基础产品三维GIS FAQ集锦&#xff08;2&#xff09; 【WebGL】桌面对三维缓存设置了最大最小可见高度&#xff0c;在iServer发布三维服务并进行预览是可以看到该效果的&#xff0c;但在前端代码打开该服务&#xff0c;最大最小可见高度效果丢失&#xff0c;请问怎…

Makefile零基础教学(一)初识makefile

从这篇文章开始就开始进入 Makefile 的零基础教程&#xff0c;相信只要看了本教程的都可以对 Makefile 有一个清晰的理解和正确的运用。那么现在就开始我们的 Makefile 学习之路。 文章目录 一、什么是 Makefile&#xff0c;优点&#xff1f;二、什么是 make, 为什么使用make?…

可拓展哈希

可拓展哈希 借CMU 15445的ppt截图来说明问题。 我们传统静态hash的过程是hash函数后直接将值存入对应的bucket&#xff0c;但是在可扩展hash中&#xff0c;得查询Directory&#xff08;左&#xff09;&#xff0c;存入directory指向的bucket&#xff08;右&#xff09;。 下面…