Talk|北京大学张嘉曌:NaVid - 视觉语言导航大模型

news2024/11/26 2:42:38

本期为TechBeat人工智能社区第602期线上Talk。

北京时间6月20日(周四)20:00北京大学博士生—张嘉曌的Talk已经准时在TechBeat人工智能社区开播!

他与大家分享的主题是: “NaVid - 视觉语言导航大模型”,NaVid是首个专为视觉语言导航(VLN)任务设计的基于视频的具身大模型。NaVid使用导航过程中的视频观测和自然语言指令作为输入,直接输出机器人的导航动作。与大部分已有的机器人导航技术不同,NaVid不依赖于深度信息、里程计和地图,完全依靠RGB视觉感知实现端到端的导航控制。它仅利用模拟器的数据进行导航策略学习,就能在真实世界的场景中实现泛化的导航表现。该工作已入选RSS'24。

Talk·信息

 主题:NaVid - 视觉语言导航大模型

嘉宾:北京大学博士生 张嘉曌

时间:北京时间 6月20日(周四)20:00

地点:TechBeat人工智能社区

点击下方链接,即可观看视频!

TechBeatTechBeat是荟聚全球华人AI精英的成长社区,每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。icon-default.png?t=N7T8https://www.techbeat.net/talk-info?id=881

Talk·介绍

近年来,视觉语言大模型在理解文本和视觉信号方面展现出了令人瞩目的能力。本文旨在进一步探索这些模型在具身智能领域的潜力。我们实现了基于视觉语言的导航大模型NaVid。NaVid将指令和导航视频作为输入,可以直接输出底层动作命令(如前进、转向和停止)。这种方法摒弃了对地图、坐标等信息的依赖。我们还设计了在模拟器中收集和训练VLN数据的策略,并展示了NaVid在真实场景中实现视觉语言导航任务的泛化表现。

Talk大纲

1. 背景 - VLN任务介绍和相关工作 

2.动机 – 为什么要使用视觉语言大模型去实现VLN

3. 问题 - 构建VLN大模型的难点

4. 解决方案 - 构建适合VLN模态的大模型结构,收集510k的VLN数据 

5. 实验结果 - 在R2R和RxR的表现,数据量对NaVid的影响,真机实验结果,视频指令推理结果 

6.总结 - NaVid的意义和重要性

Talk·预习资料

图片

论文链接:  

https://arxiv.org/abs/2402.15812

图片

论文链接:  

https://arxiv.org/abs/2311.17043

论文题目:

Vision and Language Navigation in Continuous Environments

项目链接:

https://jacobkrantz.github.io/vlnce/

图片

论文链接:  

https://arxiv.org/abs/2305.16986

Talk·提问交流

在Talk界面下的【交流区】参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

张嘉曌

北京大学· 博士生

张嘉曌是北京大学前沿计算研究中心的博士研究生,师从王鹤助理教授。在此之前,他在国防科技大学师从徐凯教授获得硕士学位,并在山东大学获得工学学士学位。

张嘉曌的研究领域涵盖了Embodied AI和3D视觉。他已经以第一作者或共同第一作者的身份,在T-RO/RSS/SIGGRAPH/CVPR等国际顶级会议和期刊上发表了7篇论文

个人主页: 

https://www.techbeat.net/grzytrkj?id=38010


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1845739.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

在华为服务器上编译C++工程的若干错误以及排查方法和解决方法记录

目录 1 报错 2 查找错误原因 2.1 方法一:ldd命令 2.2 方法二:警告信息里面 3 解决错误 3.1 libpng16.so.16 和 libbrotlidec.so.1 问题 3.2 libdevmmap.so 和 libslog.so库问题 3.3 剩余错误 3.3.1 libacllite.so错误解决 3.3.2 libtaclstream…

方舟云康亏损收窄:三年近10亿销售成本,平均付费及月活仍大幅承压

《港湾商业观察》施子夫 三度递表后,终于通过聆讯,方舟云康控股有限公司(以下简称,方舟云康)有望近期内挂牌港交所。方舟云康的国内运营主体为广州方舟云康信息科技集团有限公司、广州方舟医药有限公司。 值得关注的是,亏损的难…

【Hadoop大数据技术】——期末复习(冲刺篇)

📖 前言:快考试了,做篇期末总结,都是重点与必考点。 题型:简答题、编程题(Java与Shell操作)、看图分析题。题目大概率会从课后习题、实验里出。 课本: 目录 🕒 1. HDF…

基于YOLOv5的火焰烟雾检测系统

基于YOLOv5的火焰烟雾检测系统 通过PYQT构建UI界面,包含图片检测,视频检测,摄像头实时检测。 (该系统可以根据数据训练出的yolov5的权重文件,运用在其他检测系统上,如吸烟检测,口罩检测等等&…

常用快捷键-快速开发-mac idea 查看侧边栏tool window project+新建文件快捷键

背景:来到公司后,换了mac系统,有点不习惯,于是自己重新设置了开发的快捷键 1、mac idea 查看侧边侧栏(专业说法是Tool Window Project): 每次我们都要点击一下左上角的这个类似于文件夹的图标…

简单高效的盈利策略,昂首资本推荐价格行为交易

有没有这样一种简单高效的盈利策略,不仅易于新手掌握,也是专业人士的常用利器?当然有了,就是Anzo Capital昂首资本今天推荐的价格行为交易。价格行为交易以其透明清晰的市场视角受到交易员的青睐,它如实反映了市场的真实动态&…

stm32学习笔记---STM32基础介绍

目录 STM32介绍 STM32家族系列 ARM介绍 ARM内核型号种类 我们学习用的STM32 片上资源/外设(Peripheral) 命名规则 系统结构 引脚定义 STM32的启动配置 STM32最小系统电路和其他部分电路 最小系统板的实物图 附:安装软件准备 声明…

netcore 生成验证码

安装依赖 Install-Package Lazy.Captcha.Core 注册服务 builder.Services.AddCaptcha(); 自定义注册服务 // 注册服务的时候增加配置 services.AddCaptcha(Configuration, option > {option.CaptchaType CaptchaType.WORD; // 验证码类型option.CodeLength 6; // 验证…

ARM32开发--FreeRTOS-事件组

系列文章目录 知不足而奋进 望远山而前行 目录 系列文章目录 文章目录 前言 目标 内容 概念 事件标志位 开发流程 功能介绍 创建事件组 触发事件 等待事件触发 同步 清理事件 案例 总结 前言 在嵌入式系统开发中,任务之间的同步和通信是至关重要的…

性价比高的洗地机推荐,测评员精选四款热门洗地机分享

家庭清洁新升级,家用洗地机可以让家里打扫变得轻松高效。面对众多品牌和型号,朋友们常犯难:到底应该怎么选家用洗地机?别急,我这回的普及知识可不含糊,亲测超十款热门洗地机,从中精挑细选了四款…

从0开始C++(三):构造函数与析构函数详解

目录 构造函数 构造函数的基本使用 构造函数也支持函数重载 构造函数也支持函数参数默认值 构造初始化列表 拷贝构造函数 浅拷贝和深拷贝 析构函数 总结 练习一下ヽ( ̄▽ ̄)ノ 构造函数 构造函数的基本使用 构造函数是一种特殊的成…

二叉树的这五种遍历方法你们都会了吗?

说在前面 🎈二叉树大家应该都很熟了吧,那二叉树的这五种遍历方式你们都会了吗? 以这一二叉树为例子,我们来看看不同遍历方式返回的结果都是怎样的。 前序遍历 前序遍历的顺序是:首先访问根节点,然后递归地…

Power BI 连接数据源/获取数据(Excel表、文件夹、数据库、网页等)

一、Power BI 支持的数据源类型 Power BI支持广泛的数据源类型,包括文件、数据库、云服务和其他来源。 文件:Excel、文本/CSV、XML、JSON、文件夹、PDF等。数据库:SQL Server, Oracle, IBM DB2, MySQL, PostgreSQL等。云服务:Azur…

怎么学习PMP才是最正确的?

每个人的学习方式各不相同,不能一概而论说某种学习方式就是错误的。学习方式并没有绝对的对错之分,只能说是否适合自己,是否能够达到预期的学习效果。并不是别人的学习方式就一定适合自己,也不是不适合自己的学习方式就一定是错误…

简单好用的远程软件推荐? 内网端口映射工具快解析

最近有一些小伙伴求推荐一款简单好用的远程软件,经过多方对比试用,还是推荐快解析。通过快解析内网端口映射,可以让主机电脑自带远程桌面连接直接提供跨网访问控制,外网访问端无需再安装客户端软件! 1.目标服务器本地…

【QCustomPlot实战系列】QCPGraph堆叠图

将一个QCPGraph叠加到另一个QCPGraph上显示,就得到了折线堆叠图 static QCPScatterStyle GetScatterStyle(const QColor& color) {QPen pen(color, 2);return QCPScatterStyle(QCPScatterStyle::ssCircle,pen,Qt::white, 5); }static QCPGraph* AddGraph(QCus…

ADI Trinamic TMC2300 完美用于相机镜头的马达驱动芯片方案

TMC2300-LA是一款用于高达 1.2A RMS 的两相步进电机的低压驱动芯片,低电压的步进电机驱动器是用于电池供电的、空间和待机功率临界驱动器应用。它的静音驱动技术StealthChop™能够为便携式,家庭和办公应用程序的非窃听运动控制,确保安静&…

树莓派4B学习笔记11:PC端网线SSH连接树莓派_网线连接请求超时问题解决

今日继续学习树莓派4B 4G:(Raspberry Pi,简称RPi或RasPi) 本人所用树莓派4B 装载的系统与版本如下: 版本可用命令 (lsb_release -a) 查询: Opencv 版本是4.5.1: 今日学习使用网线连接树莓派,网线可以提供更…

优思学院|质量管理中如何应用5W1H或5W2H方法?

5W1H或者5W2H其实是一种"工作方式",它不是"思考方法",这种工作方式是通过回答“什么(What)?为什么(Why)?谁(Who)?何时&#…

Flutter【组件】富文本组件

简介 flutter 富文本组件。 github地址: https://github.com/ThinkerJack/jac_uikit 使用方式 运行 flutter pub add jac_uikit组件文档 使用方式: HighlightedTextWidget.builder(text: "全部文案包含高亮文案测试用",highlights: [Hig…