VALSE 2024年度进展评述内容分享-世界模型增强下的自动驾驶

news2024/11/24 17:55:00

2024年视觉与学习青年学者研讨会(VALSE 2024)于55日到7日在重庆悦来国际会议中心举行。本公众号将全方位地对会议的热点进行报道,方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人演讲内容的理解或转述,可能与报告人的原意有所不同,敬请读者理解;如报告人认为文章与自己报告的内容差别较大,可以联系公众号删除。

本文主要介绍VALSE 2024年度进展评述中由上海交通大学严骏驰教授讲述的“世界模型增强下的自动驾驶”专题。严老师为上海交通大学计算机系教授,研究领域主要集中在计算机视觉、机器学习及人工智能与其它学科的交叉领域。“世界模型增强下的自动驾驶”专题所涉及的专业知识非常广泛且深入,结合了人工智能等一系列最新最先进的技术,是当今学术界和工业界最前沿和热门的研究领域之一。该专题内容的大纲如图1所示。首先,严老师从宏观角度为大家介绍了世界模型的基本概念,并探讨了自动驾驶待解决的问题以及世界模型对于解决这些问题的优势。然后,逐步深入到世界模型增强下的自动驾驶的前沿进展,并深入刨析了相关方法和模型架构。最后,严老师对本次所讲述的专题内容进行了总结和展望,强调了扩展计算资源对于解决自动驾驶策略学习中长尾问题的重要性以及基于强化学习探索端到端的自动驾驶框架的应用等。

图1 世界模型增强下的自动驾驶专题报告大纲

1.世界模型介绍

图灵奖得主Yann Lecun在2022年“A Path towards autonomous machine intelligence”文章中构想的人脑模块由总控、感知、评价、短期记忆、行动、世界模型这六部分共同组成,如图2所示。其中世界模型的作用在于给定当前状态,基于预期的动作,预测未来可能的状态。例如,在自动驾驶系统中,这样的世界模型能够帮助实时分析道路情况,评估其他交通参与者的潜在意图,并预测可能的风险,从而做出适时的驾驶决策。通过模拟人类的认知框架,世界模型提供了一个全面且预测性的环境理解,极大地增强了机器系统的自主性和适应性。

图2 世界模型的定义

2.自动驾驶待解决的问题

问题一:子任务复杂繁琐和高昂的标注成本

自动驾驶系统包括多个层面的任务,如感知环境、预测潜在变化和决策制定,如图2所示。每个层面都需要大量精确标注的数据来训练和优化算法,使车辆能够准确解释周围的环境并做出安全的行驶决策。标注这些数据通常涉及复杂的技术过程,包括从实际驾驶场景中提取信息,并准确标识各种交通参与者和环境因素的位置、动作和意图,这使得标注过程成本高昂。

问题二:数据成长尾分布和高昂的采集成本

为了确保自动驾驶系统能在多样的环境中可靠运行,需要采集涵盖广泛时间、地点和行为的数据集,如图3所示。这类数据显示出成长尾分布特征,即一些罕见但关键的情况在整体数据集中占比较小,但对于训练准确鲁棒的自动驾驶模型却是不可或缺的。收集这些多样化的数据需要在不同的时间段、多变的天气条件和各种地理位置进行大规模的数据采集,从而带来高额的成本和资源投入。

图3 自动驾驶待解决的问题示意图

3.世界模型增强下的自动驾驶

为解决上述问题,世界模型提供了一个创新的解决框架。如图4所示,第一类思路是:世界模型通过扩散模型生成逼真的视频数据,有效地扩展训练数据集,从而辅助自动驾驶系统的感知训练。这种方法能够显著增强系统对现实世界复杂情况的处理能力,同时降低对实际道路测试的依赖。另一种策略是利用隐空间技术来预测和模拟未来可能的世界状态。通过这种方式,自动驾驶系统可以在虚拟环境中“体验”未来的驾驶情况,从而优化其决策过程。这种预测不仅基于现有数据,还包括可能发生的罕见或极端情况,有效解决了自动驾驶中的长尾分布问题。

图4 世界模型增强下的自动驾驶

(1)显式生成逼真视频

严老师详细介绍了最新的5种用于自动驾驶领域视频生成的世界模型。由于篇幅有限,本文以CVPR 2024 “Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving”中提出的Drive-WM为例进行介绍,如图5所示。Drive-WM是首个与现有端到端规划模型兼容的驾驶世界模型。通过空间-时间建模和视角分解,模型能生成高保真度的多视角驾驶场景视频,为自动驾驶安全规划提供支持。通过对相机联合概率分布进行分解,预测基于相邻视图的中间视图,极大提高了视图之间的一致性。此外,其引入了简单而有效的统一条件模块,可以灵活使用多种异质条件(如图像、文本、3D框),大大简化了条件生成过程。此外,如图5所示,与其它自动驾驶世界模型相比,Drive-WM所需的数据规模更少,性能更强。

图5 Drive-WM自动驾驶世界模型介绍

图6 五种自动驾驶世界模型对比

最后,严老师分析对比了5种方法的异同,并总结了基于视频生成的世界模型有望为长尾问题的解决提供巨大帮助,如图6所示。读者如需要详细了解严老师团队在自动驾驶方面的工作,可以下载其团队最新的综述文章“LLM4Drive: A Survey of Large Language Models for Autonomous Driving”进行阅读,网址为https://arxiv.org/abs/2311.01043v3。如需了解更多LLM和自动驾驶相结合方面的工作,可以查看网站https://github.com/Thinklab-SJTU/Awesome-LLM4AD。更多关于严老师团队研究工作的介绍,请读者查阅其实验室网站SJTU-ReThinkLab 上海交通大学交想实验室

(2)隐空间预测未来世界

论文“Think2Drive: Efficient Reinforcement Learning by Thinking in Latent World Model for Quasi-Realistic Autonomous Driving (in CARLA-v2)”提出的Think2Drive世界模型是严老师和他的团队最新的研究成果。Think2Drive是首个应用于自动驾驶的基于模型的强化学习方法。通过使用世界模型来学习环境的转换动态,它能在学习到的潜在空间中进行“思考式驾驶”,从而提高数据效率和应对复杂场景的灵活性。Think2Drive在CARLA v2中处理39种高度真实的驾驶场景,显示出优异的性能。这些场景包括紧急车辆让行、复杂交叉口处理等,都是自动驾驶中的高难度挑战。该模型在单个A6000 GPU上仅需三天训练时间即可达到专家级别的驾驶水平,显著优于传统的深度学习模型需要的时间。

4.总结与展望

在专题报告的最后阶段,严老师对“世界模型增强下的自动驾驶”进行了深入的总结与前瞻性展望,如图7所示。他强调,为了充分挖掘自动驾驶世界模型的潜力,需要大幅增加计算资源投入,并利用更大规模的数据集。这样做能有效促进自动驾驶策略的学习过程,尤其是解决长尾问题,从而极大提高驾驶系统的适应性和安全性。严老师还指出,未来自动驾驶的发展将更多依赖于无监督学习和强化学习技术,这些技术在端到端自动驾驶系统中展现出巨大的应用潜力。他认为,通过这些先进的学习方法,自动驾驶技术能够更好地理解和适应复杂的交通环境,从而提升整体的驾驶效率和安全标准。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1647690.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【kali换源之后签名无效,报错处理】

#一、问题:报错信息# 错误:1 http://mirrors.ustc.edu.cn/kali kali-rolling InRelease 错误:2 http://mirrors.tuna.tsinghua.edu.cn/kali kali-rolling InRelease 错误:3 http://dl.google.com/linux/chrome/deb stable InRelease 错误:4 http://mirrors.aliyu…

LeetCode509:斐波那契数(使用动态规划)

题目描述 斐波那契数 (通常用 F(n) 表示)形成的序列称为 斐波那契数列 。该数列由 0 和 1 开始,后面的每一项数字都是前面两项数字的和。也就是: F(0) 0,F(1) 1 F(n) F(n - 1) F(n - 2),其中 n > 1…

Web3 ETF软件系统的主要功能

下面是Web3 ETF系统软件的主要功能,这些功能共同构成了Web3 ETF系统软件的核心,使其能够有效地为投资者提供Web3技术相关的投资机会,同时确保合规性、安全性和透明度。北京木奇移动软件有限公司,专业的软件外包开发公司&#xff0…

Java性能优化(一):ArrayList还是LinkedList?

引言 集合作为一种存储数据的容器,是我们日常开发中使用最频繁的对象类型之一。JDK为开发者提供了一系列的集合类型,这些集合类型使用不同的数据结构来实现。因此,不同的集合类型,使用场景也不同。 很多同学在面试的时候&#x…

3个电脑录制视频技巧,新手也能轻松上手

在当今信息化时代,电脑录制视频已经成为人们日常工作和学习中的一项重要技能。无论是录制在线会议、教程讲解还是游戏直播,一款合适的录屏软件都至关重要。本文将介绍三种常见的电脑录制视频方法,为广大用户提供详细的操作步骤,满…

Python中的分布式爬虫系统Scrapy与分布式任务队列的结合

随着互联网的不断发展,网络爬虫在数据采集和信息挖掘中发挥着重要作用。然而,单机爬虫往往难以应对大规模数据抓取的需求,因此,构建分布式爬虫系统成为了一种必然选择。本文将介绍如何利用 Python 中的 Scrapy 框架和分布式任务队…

VALSE 2024主旨报告内容解析:以深度学习框架为牵引促进自主AI生态发展

2024年视觉与学习青年学者研讨会(VALSE 2024)于5月5日到7日在重庆悦来国际会议中心举行。本公众号将全方位地对会议的热点进行报道,方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人…

AngusTester安装Mock服务

一、介绍 Mock服务(AngusMockService) 提供了一个虚拟环境,让您能够模拟不同的接口响应、状态码和数据,快速生成并模拟您所依赖的API,使开发和测试先行,以实现更快的开发和更全面的测试,更早地交付稳定的产品或应用。…

Amazon Bedrock 托管 Llama 3 8B70B

Amazon Bedrock 托管 Llama 3 8B&70B,先来体验:(*实验环境账号有效期为1天,到期自动关停,请注意重要数据保护) https://dev.amazoncloud.cn/experience/cloudlab?id65fd86c7ca2a0d291be26068&visi…

AI烟雾监测识别摄像机:智能化安全防范的新利器

随着现代社会的不断发展,人们对于安全问题的关注日益增加,尤其是在日常生活和工作中,对火灾等意外事件的预防成为了一项重要任务。为了更好地应对火灾风险,近年来,AI烟雾监测识别摄像机应运而生,成为智能化…

[笔试训练](十四)

目录 040:乒乓球框 041:组队竞赛 042:删除最大数字的相邻分数 040:乒乓球框 乒乓球筐__牛客网 (nowcoder.com) 题目&#xff1a; 题解&#xff1a; 哈希简单查询 #include <iostream> #include <string> using namespace std; int main() {string s1, s2;w…

【rar技巧】如何制作rar分卷压缩?

一个rar压缩包体积太大了&#xff0c;想要将压缩包分为三个&#xff0c;该如何做到&#xff1f;其实很简单&#xff0c;方法就在我们经常使用的WinRAR当中。 我们先将压缩包内的文件解压出来&#xff0c;然后查看一下&#xff0c;然后打开WinRAR软件&#xff0c;找到文件&…

拼多多标准推广怎么玩

拼多多标准推广的玩法主要包括以下方面&#xff1a; 拼多多推广可以使用3an推客。3an推客&#xff08;CPS模式&#xff09;给商家提供的营销工具&#xff0c;由商家自主设置佣金比例&#xff0c;激励推广者去帮助商家推广商品链接&#xff0c;按最终有效交易金额支付佣金&…

一起深度学习

CIFAR-10 卷积神经网络 下载数据集构建网络运行测试 下载数据集 batchsz 32cifar_train datasets.CIFAR10(data,trainTrue,transformtorchvision.transforms.Compose([torchvision.transforms.Resize((32,32)),torchvision.transforms.ToTensor()]),downloadTrue)cifar_train …

嵌入式软件天花板是不是不高?

前几天&#xff0c;有个做贴片厂的朋友和我们说&#xff0c;他有个客户&#xff0c;和我们一样&#xff0c;也是技术出身&#xff0c;然后自己做产品&#xff0c;找渠道卖。 当初的方式也很low&#xff0c;也就是某宝&#xff0c;某巴上推。 后面有家外贸公司找到他合作&#x…

如何利用IPIDEA代理IP优化数据采集效率?

一、 前言二、 IPIDEA介绍三、体验步骤四、实战训练五、结语 一、 前言 在全球化与信息化交织的当代社会&#xff0c;数据已成为驱动商业智慧与技术革新的核心引擎。网络&#xff0c;作为信息汇聚与交流的枢纽&#xff0c;不仅是人们获取知识的窗口&#xff0c;更是商业活动与技…

创建SpringBoot3.X项目(使用IDEA2022创建SpringBoot3.X项目)

创建项目 1.点击New Project&#xff08;新建项目&#xff09; 项目基本信息 项目依赖 修改项目基本信息 1.修改配置文件类型&#xff08;按需调整&#xff09; 一版创建完成的项目都是application.properties配置文件&#xff0c;如果喜欢使用yml的可以直接修改配置文件后…

新建的springBoot WEB项目无法自动返回html模版(gradle+kotlin版本)

最近研究了springBoot创建web项目&#xff0c; 第一步服务端返回字符串没有问题&#xff0c;第二步返回html时&#xff0c;还是返回的字符串。 文章目录 一、参考方案二、新建springBoot web项目三、启动项目的三种方式 一、参考方案 将控制器类的 RestController 改为 Contro…

2024年Q1季度蛋白粉线上市场数据分析:差异化、多元化是主要趋势

近几年&#xff0c;随着全民健身热潮的兴起和公众对健康生活的追求&#xff0c;蛋白粉市场迅速崭露头角&#xff0c;作为一款能够增强免疫力和补充日常营养的产品&#xff0c;受到了广泛的关注和消费群体的青睐。 而今年Q1季度&#xff0c;蛋白粉市场表现不如预期。根据鲸参谋…

音视频开发4 FFmpeg windows 环境搭建,QT 安装,动态库的搜索路径

FFmpeg 为了让所有平台的开发者都能够学习到音视频开发的通用技术&#xff0c;本教程主要讲解跨平台的音视频开发库FFmpeg。其实只要你掌握了FFmpeg&#xff0c;也可以很快上手其他音视频开发库&#xff0c;因为底层原理都是一样的&#xff0c;你最终操作的都是一样的数据&…