CVPR 2024论文分享┆LMDrive:基于大模型的闭环端到端自动驾驶

news2025/1/20 3:37:12

论文简介

本推文主要介绍2024 CVPR接收的一篇论文《LMDrive: Closed-Loop End-to-End Driving with Large Language Models》,该论文提出了一种名为LMDrive的创新方法,展示了如何利用大型语言模型在自动驾驶系统中进行闭环的端到端驾驶控制。传统的自动驾驶系统依赖于单独的感知、规划和控制模块,而LMDrive通过大型语言模型集成了这些模块,使系统能够更灵活地应对不同的驾驶场景。实验结果表明,LMDrive在复杂的城市驾驶环境中表现出色,尤其是在应对动态变化和不确定性的驾驶条件下,展现了其强大的适应性和鲁棒性。该研究展示了大型语言模型在自动驾驶领域的应用潜力,为未来的智能交通系统提供了新思路。推文的作者为邱雪,审校为黄星宇和许东舟。

论文的下载链接:

https://openaccess.thecvf.com/content/CVPR2024/papers/Shao_LMDrive_Closed-Loop_End-to-End_Driving_with_Large_Language_Models_CVPR_2024_paper.pdf

代码链接:

https://github.com/opendilab/LMDrive

01 会议介绍

CVPR(Conference on Computer Vision and Pattern Recognition)是计算机视觉和模式识别领域最具影响力的国际顶级会议之一。该会议由IEEE计算机学会主办,每年都会吸引全球范围内的研究人员、学者和业界专家参与。自1983年创办以来,CVPR已经发展成为展示和分享计算机视觉、深度学习、图像处理等领域最新研究成果的重要平台。该会议论文具有极高的学术质量和影响力,其接受的论文经过严格的同行评审,并往往代表了该领域的前沿研究。CVPR也是中科院JCR一区TOP会议,CCF-A类会议,发表的论文影响因子极高。CVPR每年吸引大量投稿,其激烈的竞争环境使得入选的论文具有较高的学术地位。

02 背景与挑战

由于现有方法的局限性:1)模块化方法的局限性:传统的自动驾驶系统通常采用模块化方法,将感知、规划等模块分开操作。然而,这种方法面临模块之间传递效率低、集成难度大的问题,限制了系统的整体性能。2)端到端方法的局限性:现有的端到端方法由于无法充分利用多模态数据,缺乏对驾驶情景的深度理解,在复杂交通状况下表现欠佳。

为了解决这些局限性,本文提出了一种基于大型语言模型(LLM)的闭环端到端驾驶方法LMDrive。该方法能够集成多模态输入数据,使LLM能够更好地理解和推理复杂场景上下文,从而显著提升在复杂交通场景下的表现。这一创新研究为自动驾驶技术的发展提供了新的思路,具有重要的理论和应用意义。

03 方法

1 LMDrive框架的工作流程 

如图1所示,LMDrive是一个语言引导的闭环端到端驾驶框架,清晰地展示了系统的各个组成部分及其如何协同工作,以实现复杂驾驶场景中的实时控制信号输出。框架的输入来自左上角的指令模块,这些指令由人类或其他系统生成,传递给系统的核心部分,即大型语言模型(LLM)。LLM负责处理接收到的语言指令,并结合来自环境的传感器数据,如多视角相机和LiDAR生成的点云数据,以生成用于实际驾驶操作的控制信号。

传感器数据的采集是通过多个传感器完成的,图中展示了传感器数据流的处理过程,这些数据帮助LLM更好地理解车辆的周围环境,从而做出更加准确的决策。环境模块则代表车辆所在的实际驾驶场景,车辆的动作对环境产生影响,而环境反馈通过传感器再次回传给LLM,从而形成一个持续优化的闭环控制流程。

在这个闭环系统中,数据流和梯度流是两个重要的过程。数据流代表从传感器获取数据到生成控制信号的过程,而梯度流可能代表在训练或优化模型时,基于反馈信息对模型权重进行的更新。通过这一架构设计,LMDrive能够在复杂的驾驶场景中提供实时的控制信号输出,确保车辆在各种情况下能够安全有效地运行。

2 LMDrive模型的结构图

如图2所示,展示了LMDrive的语言引导闭环端到端驾驶框架的详细流程。整个系统通过多视角摄像头和LiDAR雷达采集车辆周围环境的数据,这些数据首先经过视觉编码器(Vision Encoder处理,转化为特征向量。这些特征向量随后通过Q-Former进行进一步的处理,将其转化为适合LLM使用的格式。

在系统的左侧,导航指令和提示指令经过Tokenizer处理,被分解为更小的tokens,以便LLM更好地理解和处理这些语言信息。接下来,这些不同形式的输入(来自Q-Former的视觉特征和来自Tokenizer的语言tokens)在Adapter中进行融合,最终输入到LLM中。

LLM结合这些融合后的数据,生成适当的控制信号,这些信号被传送到车辆的控制系统,用于调整车辆的运动状态。模型还具备检查指令完成情况的功能,一旦检测到当前指令已完成,车辆将立即开始执行下一步操作,从而实现连续和高效的驾驶任务管理。整个过程强调了多模态数据的融合与闭环控制的重要性,确保了驾驶任务的精确执行和实时响应。

04 实验及结果

(1)LangAuto基准

在本文提出了一项LangAuto基准测试,这是为了评估在自然语言指令下自动驾驶系统的闭环驾驶性能。与传统的自动驾驶基准不同, LangAuto基准测试提供的是自然语言的导航指令和可选的通知指令,而不是离散的驾驶命令或目标路径点。

(2)实验结果

六个不同的LLMLangAuto基准测试上的性能比较

在表1中,根据三个不同的性能指标:驾驶得分(DS)、路径完成度(RC)、违规得分(IS),比较六个不同LLM在LangAuto基准测试上的性能。结果可以看出,LLaVA-v1.5模型的表现优于其它模型。

2 模型设计上的消融实验研究

在表2中,消融实验验证了LMDrive模型设计中各模块的必要性;去除任一模块,模型的性能都会有所下降。

LangAutoLangAuto - Notice基准上的性能比较

在表3中,LangAuto-Notice在LangAuto轨迹的基础上,额外添加通知指令给Agent。这种设置模拟了在长轨迹复杂场景中乘客能够实时发出通知的真实情况。结果可以看出,LangAuto-Notice任务有助于减少碰撞和违规行为,而Vicuna-v1.5模型表现优于LLaVA-v1.5模型。

LangAutoLangAuto - Notice基准上的性能比较

在表4中,LangAuto-Sequential在LangAuto轨迹的基础上,将10%的连续2 ~ 3条指令的合并为一条长指令。这种设置模仿了真实场景中乘客的多重复语句指令。结果可以看出,在LangAuto 和LangAuto-Sequential任务中, LLaVA-v1.5模型在驾驶得分和路径完成度上都表现更优;但是在违规得分方面,Vicuna-v1.5模型要优于LLaVA-v1.5模型。

05 结论

LMDrive是一个先进的语言引导的端到端闭环自动驾驶框架,能够结合自然语言指令与传感器数据,在复杂的驾驶场景中实现类似人类的互动和导航。为了支持这一框架的开发和评估,研究团队提出了一个专门设计的语言引导驾驶数据集,该数据集包含约64,000个多模态数据片段及其相应的导航指令。这一数据集为系统的训练和优化提供了丰富的语料和环境信息。此外,研究团队还创建了LangAuto基准,用于评估自动驾驶系统在接受自然语言指令时的表现。通过这一基准,系统能够在不同的驾驶场景中进行严格测试,确保其在实际应用中的可靠性和灵活性。最后,通过大量的闭环实验,LMDrive的有效性得到了充分验证,实验结果显示,该框架在增强自动驾驶车辆与人类和环境的互动方面展现出了显著的潜力,为未来的自动驾驶技术发展提供了重要的参考和启示。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2067135.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

用Python制作一个可以预测天气的程序(附代码)

要用Python制作一个简单的天气预报应用,你可以使用多种方法,但最常见和方便的是利用现有的天气API(如OpenWeatherMap、Weatherbit、AccuWeather等)。这里,我将以OpenWeatherMap为例,展示如何编写一个简单的…

pikachu SSRF通关(服务器端请求伪造)

开始闯关吧 一共有两关 第1关 SSRF(curl) 按照指示点击下图蓝色字体的链接 得到了下图地址栏里的带参数的url,参数名是url, PHP的curl PHP支持的由Daniel Stenberg创建的libcurl库允许你与各种的服务器使用各种类型的协议进行连接和通讯。 libcurl目前…

融合定位系统的误差与什么有关

在当今科技日新月异的时代,融合定位系统作为精准导航与定位的关键技术,广泛应用于智能手机、自动驾驶、无人机及智能物流等领域。然而,这一技术的准确性并非无懈可击,其误差来源复杂多样,深刻影响着定位精度与用户体验…

在线制作9png的好网站

https://inloop.github.io/shadow4android/ fook : https://github.com/inloop/shadow4android

常用科研工具(持续更新)

正所谓,工欲善其事,必先利其器。想要更好的做好科研,相应的科研工具必不可少。下面介绍一些科研工具。 1、Zotero 2、Watt ToolKit 3、paperwithcode 4、Typora 5、kaggle 1、文献管理 对于文献管理,必然少不了Zotero。之前看文献都是放在文…

Selenium与Web Scraping:自动化获取电影名称和评分的实战指南

背景/引言 在信息化高度发展的今天,获取数据的能力变得尤为重要。通过 Web Scraping,我们可以从动态网页中提取有价值的信息,例如在豆瓣电影中获取电影名称和评分。然而,随着网站反爬虫措施的不断增强,传统的抓取技术…

001-springcloud-base工程创建

文章目录 前言SpringCloud与SpringBoot 对应版本SpringCloud与SpringCloudAlibaba对应版本官方文档 1 新建Project和Maven父工程1.1 Maven父工程步骤1.1.1 New Project1.1.2 聚合总父工程名字1.1.3 字符编码1.1.4 注解生效激活1.1.5 java编译版本选择JDK17 1.2 父工程POM文件1.…

ViT笔记学习

1.VIT ViT原理讲解 ViT结合代码 1.3 ViT模型架构 我们先结合下面的动图来粗略地分析一下ViT的工作流程,如下: 将一张图片分成patches将patches铺平将铺平后的patches的线性映射到更低维的空间添加位置embedding编码信息将图像序列数据送入标准Transfor…

Lagent 自定义你的 Agent 智能体

环境配置 开发机选择 30% A100,镜像选择为 Cuda12.2-conda。 首先来为 Lagent 配置一个可用的环境。 # 创建环境 conda create -n agent_camp3 python3.10 -y # 激活环境 conda activate agent_camp3 # 安装 torch conda install pytorch2.1.2 torchvision0.16.2 …

迷雾大陆辅助:VMOS云手机助力新手入门!玩法机制大全!

在《迷雾大陆》的神秘世界中,玩家们总是面临着层层挑战,而使用VMOS云手机能够极大地提升你的游戏体验。VMOS云手机专门为《迷雾大陆》打造了定制版云手机,内置游戏安装包,玩家无需重新下载安装,直接畅玩。此外&#xf…

【labview美化】

1.关闭前面板按钮,只会关闭运行状态而不是关闭面板界面 修改前面板vi的界面,以及自定义 可调前面板运行时大小 添加一个时间进去,左上角每200ms进入一次超时分支,1是获取计算机当前时间,2是设置时间的显示格式

高性能计算应用优化之运行参数优化

程序运行时系统的各项配置一般是按照普适性原则,尽可能满足大多数场景下的需求,并未针对特定场景进行优化,这虽然能够提高环境的通用性,但限制了性能提高的空间。运行时参数可以根据用户的需求来调整程序的运行方式和资源分配&…

Java 4.2 - MySQL

MySQL 基础 关系型数据库 关系型数据库就是建立在关系模型上的数据库。关系模型描述了实体属性以及实体和实体之间的关系。 在关系型数据库中,我们的数据都被存放在了各种表中(比如用户表),表中的每一行存放着一条数据。 常见…

QCheckBox 全部取消选中

当我有很多 QCheckBox 被选中后&#xff0c;如何批量全部取消勾选呐&#xff1f; 方法一&#xff1a;findChildren函数方法二&#xff1a;foreach循环效果展示&#xff1a; 方法一&#xff1a;findChildren函数 // 遍历所有 QCheckBox 并取消选中QList<QCheckBox*> check…

新冠期间,Raspberry Pi 400 在肯尼亚为2500名学生提供在线学习机会

学生需要设备进行远程学习&#xff0c;Raspberry Pi 400为他们提供了在线学习的机会。 当疫情来袭时&#xff0c;接受前线重要岗位培训的护理和助产专业学生不得不改用远程教学来完成部分学业&#xff0c;但许多人家里没有设备&#xff0c;无法访问在线资料。Wisenet 伸出援手&…

全面解读AI大模型:一文带你看懂发展脉络与未来走向!

引言 近年来&#xff0c;随着深度学习技术的迅猛发展&#xff0c;AI大模型已经成为人工智能领域的重要研究方向和热点话题。AI大模型&#xff0c;指的是拥有巨大参数规模和强大学习能力的神经网络模型&#xff0c;如BERT、GPT等&#xff0c;这些模型在自然语言处理、计算机视觉…

小区物业维修管理系统/小区居民报修系统

摘要 小区物业维修是物业公司的核心&#xff0c;是必不可少的一个部分。在物业公司的整个服务行业中&#xff0c;业主担负着最重要的角色。为满足如今日益复杂的管理需求&#xff0c;各类小区物业维修管理系统也在不断改进。本课题所设计的小区物业维修管理系统&#xff0c;使用…

SD-WAN企业组网解决方案能解决企业的哪些问题?

SD-WAN企业组网解决方案在现代企业网络建设中具有重要意义&#xff0c;能够有效解决企业面临的多项挑战&#xff0c;下文将对此进行详细描述&#xff1a; 首先&#xff0c;SD-WAN技术在节省企业网络建设和运维成本方面表现突出。相比传统网络架构依赖大量专线和昂贵设备的方式&…

ACM模式下算法题输入输出攻略【C++】

文章目录 [TOC] 1. 核心代码模式与ACM模式1.1 ACM模式介绍1.2 注意事项 2. C常用的输入输出方法2.1 输入2.1.1 cin注意事项2.1.2 getline()注意事项2.1.3 getchar()注意事项 2.2 输出 3. 案例3.1 一维数组输入3.1.1 固定长度的一维数组3.1.2 不固定长度的一维数组 3.2 二维数组…

Java学习_19_方法引用及异常

文章目录 前言一、方法引用方法引用实例引用静态方法引用成员方法引用构造方法使用类名引用成员方法引用数组的构造方法综合练习 二、异常异常是什么异常的作用处理方案默认异常捕获异常 异常对象的常用方法抛出异常 总结 前言 博客仅记录个人学习进度和一些查缺补漏。 学习内…