VALSE 2024 Workshop报告分享┆ 大规模自动驾驶仿真系统研究

news2025/1/12 9:48:14

视觉与学习青年学者研讨会(VALSE)旨在为从事计算机视觉、图像处理、模式识别与机器学习研究的中国青年学者提供一个广泛而深入的学术交流平台。该平台旨在促进国内青年学者的思想交流和学术合作,以期在相关领域做出显著的学术贡献,并提升中国学者在国际学术舞台上的影响力。

2024年视觉与学习青年学者研讨会(VALSE 2024)于5月5日到7日在重庆悦来国际会议中心举行。本公众号将全方位地对会议的热点进行报道,方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人演讲内容的理解或转述,可能与报告人的原意有所不同,敬请读者理解;如报告人认为文章与自己报告的内容差别较大,可以联系公众号删除。

VALSE 2024在5月7日的会议主要包括3个Tutorial和9个Workshop。

3个Tutorial:在这三个Tutorial中,来自复旦大学的邱锡鹏教授、北京大学的王鹤教授和快手的王鑫涛呈现了3个报告,分别为《基于大模型的自主智能体》、《具身智能的Sim2Real泛化途径》和《视频生成的初探及其可控性研究》。

9个Workshop: 这些Workshop围绕多模态大模型、脑启发的视觉与学习、优秀学生论坛、女科学家成长论坛、异构联邦学习、多模态感知与对话、大模型与因果推理、遥感图像智能解译以及端到端自动驾驶等主题进行了广泛的探讨。从多模态大模型在复杂数据处理中的应用、到脑启发系统如何影响机器学习的未来发展;从优秀学生展示其创新研究成果的论坛,到支持和鼓励女科学家发展的专场讨论;再到异构联邦学习在保护隐私中的关键角色,以及多模态感知与对话技术在人机交互中的应用。此外,会议还深入探讨了大模型与因果推理在预测和决策中的重要性,遥感图像智能解译技术在环境监测和灾害响应中的应用,以及端到端自动驾驶技术的最新进展。这些讨论不仅突出了技术的创新应用,还强调了科研在推动行业发展和解决现实问题中的关键作用。

本文主要对复旦大学张力研究员的Workshop报告《大规模自动驾驶仿真系统研究》进行总结和分享。

1.报告人简介

张力,复旦大学大数据学院研究员,主要研究领域包括三维重建和自动驾驶等。

2.报告概述

近年来,随着自动驾驶技术及仿真系统的迅速发展,越来越多的研究旨在开发能够模拟极其逼真的驾驶环境的系统。这些研究试图在复杂的交通情景与动态参与者行为的基础上,为自动驾驶算法提供丰富的训练及测试环境。尽管如此,现有的仿真系统在遇到新的驾驶条件或交通场景时,由于依赖现有的数据采集,泛化能力受限。通过利用神经辐射场(NeRF)的三维重建技术以及雷达点云数据作为重建的先验信息,一些研究在提升街景重建的三维一致性上取得了成果,但在应对更广泛且复杂的动态场景时,仍然面临成本和重建质量的挑战。此外,自动驾驶系统迫切需要解决数据多样性不足及复杂光照条件的处理问题,以适应广泛而多样化的数据需求。本报告提出了一种从稀疏视角生成连续时空场景的高精度仿真数据方法,该方法能够准确地捕捉和模拟对象的运动与环境变化,涵盖各种环境条件、光照变化及动态场景,并在时间和空间上保持连续性与一致性,极大地提高了模型训练效率和预测的准确性。

3.最近的相关工作

根据张力研究员在现场的报告内容,选自其中的三篇最近的相关工作如下所示。如需了解张力研究员的更多工作和贡献,可以访问他的谷歌学术主页(张力研究员的谷歌学术主页链接:https://scholar.google.com.hk/citations?user=-wOTCE8AAAAJ&hl=zh-CN&oi=sra)。本推文以2024年的论文“S-NeRF++: Autonomous Driving Simulation via Neural Reconstruction and Generation”为例,结合个人理解进行了总结分享,具体见第4节。

(1)论文题目S-NeRF++: Autonomous Driving Simulation via Neural Reconstruction and Generation

论文下载链接:https://arxiv.org/pdf/2402.02112。

(2)论文题目:S-Agents: Self-organizing Agents in Open-ended Environments

论文下载链接:https://arxiv.org/pdf/2402.04578。

(3)论文题目Periodic Vibration Gaussian: Dynamic Urban Scene Reconstruction and Real-time Rendering

论文下载链接:https://arxiv.org/pdf/2311.18561。

4.内容总结

报告介绍了一种名为S-NeRF++的新型自动驾驶仿真系统,该系统基于神经重建技术。这种方法主要解决了传统仿真系统依赖手动建模和2D图像编辑,难以扩展到大规模场景且生成的仿真数据不够真实的问题。S-NeRF++通过改进的神经辐射场(Neural Radiance Fields, NeRF)技术,利用自动驾驶数据集如nuScenes和Waymo进行训练,能够生成大量高质量的街景和前景对象,提供了更高的渲染质量和操作灵活性。

图1 摄像头设置对比

图1(a) 展示了传统NeRF所需的摄像头设置,这些摄像头设置需要大量的重叠视场来有效训练NeRF模型,以实现高质量的3D重建和视图合成。这种设置通常适用于物体中心的场景,如室内环境或较小的室外区域。图1(b) 展示了自主车辆的摄像头设置,这是针对广阔的室外城市驾驶环境设计的。这种设置涵盖了360度的全景视角,摄像头之间的重叠区域相对较少,这对传统NeRF模型来说是一个挑战,因为这种模型依赖于高度重叠的视图来精确重建场景。

图2 新视角渲染性能示例

图2(a) 描述了一种当前最先进的方法(Mip-NeRF 360)在nuScenes场景中的渲染结果,展示了在复杂的城市场景中该方法遇到的问题,如模糊的纹理细节和大量的深度误差。图2(b) 展示了S-NeRF++在相同场景中的渲染结果,显示出明显改进的深度准确性和纹理细节,减少了渲染错误,提供了更为精确和真实的视觉效果。此外,图2(c) 和 图2(d)的对比进一步展示了S-NeRF++在处理动态对象(如移动车辆)时的能力,展示了其在复杂场景中合成新视图的能力,与GeoSim相比具有更高的质量和准确性。

图3 深度监督和渲染管道

图3详细说明了S-NeRF++如何利用来自LiDAR的稀疏点云数据进行深度监督,包括:图3(a) 展示了原始的噪声稀疏点云。图3(b) 展示了从这些点云数据中派生出的深度监督信息。图3(c) 展示了学习到的置信度图,帮助模型评估深度数据的可靠性。图3(d) 展示了最终的深度渲染结果,说明了通过优化深度数据的处理,模型能够生成更准确的深度图,从而改善整体的渲染质量。

图4 移动车辆的相机变换过程

图4展示了自主车辆(ego vehicle)与目标车辆(target vehicle)在数据收集期间动态变化的相对位置处理方法。图中说明了将相机坐标系统转换为以目标车辆为中心的坐标系统,以便更有效地模拟和渲染动态对象。这种处理方式简化了在自动驾驶数据收集中考虑动态目标的复杂性,使得S-NeRF++能够更准确地重建和渲染包含动态前景的场景。

图5 置信度组件的可视化

图5具体展示了深度监督过程中所使用的各种置信度组件的可视化,包括几何置信度和感知置信度等,图中显示了这些置信度如何分别针对不同的数据不一致性进行评估。几何置信度主要处理物理和几何的一致性问题,而感知置信度则关注于图像的视觉和纹理信息的一致性。此外,还展示了如何将这些不同的置信度度量整合到一个综合的置信度图中,这个综合置信度图在模型训练中被用来权衡来自不同数据源的信息,优化最终的学习和渲染过程。

图6 S-NeRF++系统中重建框架的整体概览

图6详细展示了S-NeRF++系统中重建框架的整体概览,特别强调了通过生成密集深度图和可学习的置信度图来监督训练过程。具体而言,首先使用稀疏的LiDAR数据创建初始的深度图,接着这些初始深度图通过深度补全技术被转化为更加密集的深度图。随后,系统生成了基于RGB图像、光流和SSIM/VGG的置信度图,这些置信度图帮助模型区分可靠和不可靠的深度信息。最终,这些数据被用于训练一个基于NeRF的网络,网络输出渲染的RGB图像和对应的深度图。此外,还展示了如何通过学习聚合不同的置信度指标,优化模型的深度估计,从而提高重建和渲染的质量和精度。整个流程说明了S-NeRF++如何结合先进的深度处理技术和神经渲染,以生成高质量的自动驾驶仿真数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1654414.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

精通GDBus:Linux IPC的现代C接口

目录标题 1. GDBus介绍2. GDBus的优点3. 安装GDBus4. 使用GDBus连接到D-Bus总线实现D-Bus服务调用D-Bus方法发送和接收信号 5. 总结 在Linux环境下,不同的程序需要通过某种方式进行通信和协同工作。GDBus是GLib库的一部分,提供了一个基于GObject系统的、…

英语新概念2-回译法-lesson13

The Greenwood Boys 绿林少年是一组流行歌手们。现在他们正在参观城市里的所有公园,他们明天就要到这。他们将坐火车到并且大多数小镇上的年轻人将要欢迎他们,明天晚上他们将要在工人俱乐部唱歌。绿林少年将在这待五天,在这期间,…

Redis集群分片

什么是集群 集群是由多个复制集组成的,能提供在多个redis节点间共享数据的程序集 简而言之就是将原来的单master主机拆分为多个master主机,将整个数据集分配到各主机上 集群的作用 集群中可以存在多个master,而每个master可以挂载多个slave自带哨兵的故障转移机制,不需要再去…

华为车BU迈入新阶段,新任CEO对智能车的3个预判

作者 |张马也 编辑 |德新 4月24日,北京车展前夕,华为召开了新一年的智能汽车解决方案新品发布会。 这次发布会,也是华为智能汽车解决方案BU(简称「车BU」)CEO 靳玉志的公开首秀。 一开场,靳玉志即抛出了…

刷题训练之模拟

> 作者:დ旧言~ > 座右铭:松树千年终是朽,槿花一日自为荣。 > 目标:熟练掌握模拟算法。 > 毒鸡汤:学习,学习,再学习 ! 学,然后知不足。 > 专栏选自:刷题训…

ICode国际青少年编程竞赛- Python-2级训练场-列表入门

ICode国际青少年编程竞赛- Python-2级训练场-列表入门 1、 Dev.step(3)2、 Flyer.step(1) Dev.step(-2)3、 Flyer.step(1) Spaceship.step(7)4、 Flyer.step(5) Dev.turnRight() Dev.step(5) Dev.turnLeft() Dev.step(3) Dev.turnLeft() Dev.step(7) Dev.turnLeft() Dev.…

TMS320F2812DSP最小系统原理图及PCB文件

目录 1、原理图 2、PCB 资料下载地址:TMS320F2812DSP最小系统原理图及PCB文件 1、原理图 2、PCB

Unity数据持久化之Json

Json概述 Json是什么? 全称:JavaScript对象简谱(JavaScript Object Notation) Json是国际通用的一种轻量级的数据交换格式 主要在网络通讯中用于传输数据,或本地数据存储和读取 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率 我们一般使用Json文件来…

2024蓝桥杯CTF writeUP--Theorem

密码方向的签到题,根据题目已知n、e和c,并且p和q是相邻的素数,可以考虑分解。 通过prevprime函数分解n,然后 RSA解密即可: from Crypto.Util.number import long_to_bytes import gmpy2 import libnumfrom sympy im…

【linux】进程概念|task_struct|getpid|getppid

目录 ​编辑 1.进程的概念 进程的基本概念 进程与程序的主要区别 进程的特征 进程的状态 描述进程—PCB task_struct中的内容 查看进程 1.创建一个进程,运行以下代码 通过系统调用获取进程标示符 getpid()以及getppid() 1.进程的概念 进程的基本概念…

最常用的AI工具

在日常工作生活中,我试用了几十种AI人工智能工具,下面我来推荐下我最常使用,也是最方便快捷的AI工具。 1百度文心一言 文心一言是一个综合性的大语言模型,整合了很多优秀的提示词,尤其是文心4.0大模型,在中…

《手把手教你怎么上手做一个小程序》

准备工作: 硬件准备: 装有微信的手机一台。 账号注册: 进入https://mp.weixin.qq.com/cgi-bin/registermidpage?actionindex&langzh_CN&token注册一个微信小程序账号。 然后输入邮箱注册账号。一个邮箱只能注册一个微信公众平台…

《Python编程从入门到实践》day22

# 昨日知识点回顾 方法重构、驾驶飞船左右移动、全屏显示 飞船不移动解决,问题出在移动变量x更新 # Ship.pysnipdef update(self):"""根据移动标志调整飞船的位置"""# 更新飞船而不是rect对象的x值# 如果飞船右移的标志和飞船外接…

重定向_缓冲区

目录 重定向 文件属性操作 浅谈重定向​编辑 深入重定向 dup2 缓冲区 缓冲区的理论理解 代码分析 重定向 文件属性操作 #include <sys/types.h> #include <sys/stat.h> #include <unistd.h> int stat(const char *path, struct stat *buf); int fstat(i…

如何购买阿里云99计划的ECS云服务器?99元购买阿里云2核2G3M服务器教程

阿里云助力中小企业和开发者无忧上云的“99计划”中有两款性价比超高的ECS云服务器&#xff0c;2026年3月31日活动结束前新购和续费价格一样。 其中个人和企业新老用户同享的2核2G3M服务器仅需99元/年&#xff08;续费同价&#xff09;&#xff0c;企业新老用户同学的2核4G5M仅…

鸿蒙OpenHarmony开发板:【子系统配置规则】

子系统 子系统配置规则 通过build仓下的subsystem_config.json可以查看所有子系统的配置规则。 {"arkui": {"path": "foundation/arkui", # 路径"name": "arkui" # 子系统名},"ai": {&q…

单片机-点亮第一盏灯

原理图 需求&#xff1a;点亮或是熄灭LED 通过控制 P5.3引脚输出高电平时&#xff0c;LED灯就点亮&#xff0c;输出低电平时LED灯就熄灭 1.项目创建 新建项目 配置开发板信息 当前位STC芯片的开发板&#xff0c;选择STC MCU Database 搜素具体芯片型号&#xff0c;进行配置…

C# Web控件与数据感应之 TreeView 类

目录 关于 TreeView 一些区别 准备数据源 范例运行环境 一些实用方法 获取数据进行呈现 ​根据ID设置节点 获取所有结点的索引 小结 关于 TreeView 数据感应也即数据捆绑&#xff0c;是一种动态的&#xff0c;Web控件与数据源之间的交互&#xff0c;本文将继续介绍与…

【C++历练之路】STL中的哈希——手搓哈希底层逻辑

W...Y的主页 &#x1f495; 代码仓库分享 &#x1f60a; 前言&#xff1a; "hash"通常指的是哈希&#xff0c;它是一种将数据&#xff08;如字符串或者数字&#xff09;转换为一个固定长度的数值&#xff08;通常是整数&#xff09;的方法。哈希函数能够将任意长度…

背靠腾讯电商的视频号小店项目,怎么去操作呢?新手做店必看!

大家好&#xff0c;我是电商小V 视频号小店作为腾讯电商推出的电商项目&#xff0c;可以说现在就是处于爆火的状态&#xff0c;一直也是备受关注的&#xff0c;同时也是吸引了很多的玩家入驻&#xff0c;因为视频号小店就是一个新的平台&#xff0c;一个新的场地&#xff0c;现…