自动驾驶仿真(高速道路)LaneKeeping

news2025/1/12 16:10:13

前言

A high-level decision agent trained by deep reinforcement learning (DRL) performs quantitative interpretation of behavioral planning performed in an autonomous driving (AD) highway simulation. The framework relies on the calculation of SHAP values and takes into account neural architectures with attention layers. The framework is particularly dedicated to studying the relationship between attention and interpretability, and how attention and SHAP values can be represented, analyzed, and compared in a two-dimensional spatial highway environment. The framework has three main visualization areas, which are obtained by processing quantities of attention, SHAP values, vehicle observations, etc. : Episode View, which plots quantities on the timeline of the episode; Frame view, reporting measured values step by step; Aggregate view, which also displays statistics from aggregates of multiple simulated events on a 2D map.

LaneKeepingEnv环境的工作原理可以归纳如下:

  1. 初始化阶段
    • 环境在创建时,会调用__init__方法进行初始化。
    • 初始化过程中,会设置一些关键的属性,如lane(当前车道)、lanes(所有车道的列表)、trajectory(车辆的轨迹)等。
    • 环境的默认配置参数由default_config方法定义,这些参数包括观测类型、动作类型、模拟频率等。
  2. 配置参数
    • 观测类型设置为"AttributesObservation",意味着环境会观察车辆的某些属性,如状态、状态导数和参考状态。
    • 动作类型设置为"ContinuousAction",并且指定了转向范围(在-π/3到π/3之间),这意味着控制输入是连续的转向角,不涉及纵向控制。
    • 仿真频率和策略频率设置为10,表示每秒钟模拟10次并更新策略10次。
    • 还包括了噪声水平、屏幕大小和居中位置等参数,这些参数可能与环境的渲染和可视化有关。
  3. 步进过程
    • 在每一步中,环境会调用step方法。
    • step方法首先检查当前车辆是否仍在当前车道上。如果不在,它会从lanes列表中取出下一个车道,并设置为当前车道。
    • 然后,它会调用store_data方法(尽管该方法在给定的代码片段中未定义),但通常用于存储或更新车辆的轨迹、状态等信息。
    • 如果lpv(可能是车辆控制器)存在,step方法会使用当前动作(控制输入)和车辆状态来设置控制器的控制参数。这里,控制器的控制输入只包括车辆状态的子集,如横向位置和速度,以及相对于车道的偏角和偏角速度。
  4. 控制和仿真
    • 车辆在LaneKeepingEnv环境中的运动受控制器(如lpv)控制,控制器根据环境提供的观测数据和当前策略产生控制输入。
    • 环境会根据控制输入和车辆当前状态更新车辆的位置和状态,并可能渲染车辆在新位置的状态以供观察或评估。
  5. 总结
    • LaneKeepingEnv环境通过模拟车辆在车道上的运动,提供了一个用于测试车道保持控制策略的平台。
    • 环境通过提供观测数据、处理控制输入和更新车辆状态来模拟真实世界中的车道保持场景。
    • 通过与强化学习算法等结合,可以在该环境中训练和优化车道保持控制策略。

LaneKeepingEnv 环境通常包含以下几个功能模块:

  1. 初始化模块
    • 负责在环境创建时初始化所有必要的属性,如车道、车辆、观察空间、动作空间等。
    • 调用 __init__ 方法进行初始化,并可能包括读取配置文件或默认配置来设置参数。
  2. 配置模块
    • 定义环境的默认配置参数,如仿真频率、观察类型、动作类型、噪声水平等。
    • 通过 default_config 方法提供默认配置,并允许用户通过配置字典来自定义参数。
  3. 物理模拟模块
    • 负责模拟车辆的物理行为,包括根据控制输入更新车辆状态(位置、速度、加速度等)。
    • 可能使用车辆动力学模型(如 BicycleVehicle)来模拟车辆的横向和纵向运动。
  4. 车道模块
    • 定义和管理车道,包括直线车道和曲线车道(如 StraightLane 和 SineLane)。
    • 提供检查车辆是否在车道内的方法(如 on_lane)。
  5. 车辆模块
    • 定义和管理车辆对象,包括车辆的状态(位置、速度、加速度、偏角等)。
    • 提供获取车辆状态、设置控制输入和更新车辆状态的方法。
  6. 观测模块
    • 根据配置的观测类型,提供从环境中获取观测数据的方法。
    • 观测数据可能包括车辆的当前状态、状态导数、参考状态等。
  7. 动作模块
    • 定义动作空间,包括动作的类型(连续或离散)、范围和维度。
    • 提供将原始动作转换为环境可以理解的格式的方法(如缩放、裁剪等)。
  8. 渲染模块(可选):
    • 负责环境的可视化,包括渲染车辆、车道和其他相关元素。
    • 提供渲染环境状态到屏幕或窗口的方法,以便用户或评估系统可以观察环境的状态。
  9. 数据存储模块(可选):
    • 负责存储环境在仿真过程中产生的数据,如车辆的轨迹、状态、动作等。
    • 提供存储和检索数据的方法,以便后续分析和评估。
  10. 交互模块(可选):
    • 允许外部系统与环境进行交互,如接收控制输入、提供奖励信号等。
    • 提供与环境交互的接口,如 step 方法用于执行一步仿真并返回结果。

LaneKeepingEnv环境中,模块之间的通讯通常通过函数调用和属性访问来实现。以下是一个简化的例子,说明这些模块如何相互通讯:

1. 初始化模块

  • 功能:设置所有模块的初始状态。
  • 通讯
    • 调用物理模拟模块的初始化函数,设置物理参数。
    • 调用车道模块的初始化函数,创建初始车道。
    • 调用车辆模块的初始化函数,设置车辆的初始状态。

2. 物理模拟模块

  • 功能:模拟车辆的物理行为。
  • 通讯
    • 接收来自车辆模块的车辆当前状态(如位置、速度、加速度)。
    • 根据接收到的控制输入(来自动作模块)和车辆当前状态,更新车辆状态。
    • 将更新后的车辆状态返回给车辆模块。

3. 车道模块

  • 功能:管理车道信息。
  • 通讯
    • 提供车道信息(如车道边界、车道中心线)给物理模拟模块,用于车辆状态更新。
    • 提供检查车辆是否在车道内的方法给车辆模块或物理模拟模块。

4. 车辆模块

  • 功能:管理车辆状态。
  • 通讯
    • 提供车辆当前状态给物理模拟模块进行模拟。
    • 接收物理模拟模块更新后的车辆状态,并更新自身状态。
    • 提供车辆状态给观测模块,用于生成观测数据。

5. 观测模块

  • 功能:根据配置生成观测数据。
  • 通讯
    • 接收车辆模块提供的车辆状态。
    • 根据配置(如观察类型、噪声水平等),生成对应的观测数据。
    • 将观测数据提供给外部系统(如强化学习算法)。

6. 动作模块

  • 功能:定义动作空间,处理原始动作。
  • 通讯
    • 提供动作空间信息给外部系统(如强化学习算法),使其知道如何生成有效的控制输入。
    • 接收外部系统生成的原始动作,并根据配置将其转换为环境可以理解的控制输入(如缩放、裁剪)。
    • 将控制输入提供给物理模拟模块,用于更新车辆状态。

7. 渲染模块(可选)

  • 功能:可视化环境状态。
  • 通讯
    • 接收车辆模块提供的车辆状态。
    • 接收车道模块提供的车道信息。
    • 根据这些信息渲染环境状态到屏幕或窗口。

8. 数据存储模块(可选)

  • 功能:存储仿真过程中产生的数据。
  • 通讯
    • 接收物理模拟模块提供的车辆轨迹、状态等信息。
    • 接收动作模块提供的控制输入。
    • 将数据存储到文件、数据库或其他存储介质中。

9. 交互模块(可选)

  • 功能:允许外部系统与环境进行交互。
  • 通讯
    • 提供step方法给外部系统,接收控制输入并返回下一步的观测数据、奖励等。
    • 可能还需要提供其他接口,如重置环境、获取环境状态等。

aneKeepingEnv类是一个用于车道保持控制任务的模拟环境,它继承自AbstractEnv类。车道保持是自动驾驶和车辆控制中的一个重要任务,它要求车辆能够保持在车道内行驶。

以下是该类的一些主要部分和功能的解释:

  1. 初始化 (__init__ 方法):

    • 初始化环境时,它设置了几个关键的属性,如lane(当前车道)、lanes(所有车道的列表)、trajectory(车辆的轨迹)、interval_trajectory(可能用于存储某个时间间隔内的轨迹)和lpv(可能是某种车辆控制器的引用,但从给出的代码片段中无法确定其完整含义)。
  2. 默认配置 (default_config 方法):

    • 这个方法定义了环境的默认配置参数。这些参数包括观测类型、动作类型、模拟频率、策略频率、噪声水平、屏幕大小、缩放比例和居中位置等。
    • 观测类型设置为"AttributesObservation",并指定了要观察的属性(如车辆状态、状态导数和参考状态)。
    • 动作类型设置为"ContinuousAction",并指定了转向范围(在-π/3到π/3之间)和动作是否涉及纵向或横向控制(这里只考虑横向控制)。
  3. 步进 (step 方法):

    • 这个方法定义了环境在每一步中的行为。
    • 首先,它检查当前车辆是否仍在当前车道上。如果不在,它会从lanes列表中取出下一个车道,并设置为当前车道。
    • 然后,它调用store_data方法(该方法在给定的代码片段中未定义,但可能用于存储或更新车辆的轨迹、状态等信息)。
    • 最后,如果lpv(可能是车辆控制器)存在,它会使用当前动作(控制输入)和车辆状态来设置控制器的控制参数。这里,控制器的控制输入似乎只包括车辆状态的子集(从给定的代码来看,它只考虑了车辆的横向位置和速度,以及相对于车道的偏角和偏角速度)。

自动驾驶任务环境

  1. 公路驾驶:代理在包含多车道和其他车辆的高速公路上行驶,目标是保持高速并避免碰撞。
  2. 合并:代理在主干道上行驶时,需要为从入口匝道驶入的车辆腾出空间,确保安全合并。
  3. 环形交叉:代理需要快速通过环形交叉路口,同时处理变道和纵向控制以避免碰撞。
  4. 停车:代理需要停在指定区域内,同时确保适当的航向。
  5. 路口:在交通密集的交叉口进行协商。
  6. 跑道:涉及车道保持和避障的连续控制任务。

代理类型

  1. 深度Q网络(DQN):使用神经网络表示状态-动作值函数Q,并通过Q学习进行训练。
  2. 深度确定性策略梯度(DDPG):基于策略的无模型强化学习代理,通过梯度上升进行优化,并使用经验回放来提高学习效率。
  3. 值迭代:与有限离散马尔可夫决策过程(MDP)兼容,通过简化状态表示和过渡模型来计算最佳状态-值函数。
  4. 蒙特卡洛方法:利用过渡和奖励模型执行最佳轨迹的随机树搜索。

框架特点

  • 可视化:提供三种可视化区域(Episode View、Frame View、Aggregate View),用于展示注意力、SHAP值、车辆观测等信息的处理结果。
  • 注意力与可解释性:研究注意力机制在提高代理决策可解释性中的作用,并通过SHAP值分析代理的决策过程。
  • 环境多样性:支持多种自动驾驶任务环境,包括公路、合并、环形交叉等,以评估代理在各种场景下的性能。

深度Q网络(DQN)

深度Q网络(Deep Q-Network, DQN)结合了深度学习的感知能力和Q-learning的决策能力。DQN使用一个深度神经网络来近似Q值函数,从而能够在高维状态空间中学习有效的策略。

原理
  • 神经网络:DQN使用一个深度神经网络来估计Q值,即给定一个状态s和一个动作a,网络输出一个Q值Q(s, a)。
  • 经验回放(Experience Replay):DQN使用一个经验回放缓冲区来存储智能体的经验(状态、动作、奖励、下一个状态),然后从缓冲区中随机采样一批经验来训练网络。这有助于打破数据之间的相关性,使训练更加稳定。
  • 目标网络(Target Network):DQN使用两个结构相同的网络,一个用于估计当前的Q值(当前网络),另一个用于估计目标Q值(目标网络)。目标网络使用旧的网络参数进行更新,而不是直接复制当前网络的参数,这有助于稳定训练。​​​​​​​
import torch  
import torch.nn as nn  
import torch.optim as optim  
  
class DQN(nn.Module):  
    def __init__(self, state_size, action_size):  
        super(DQN, self).__init__()  
        self.fc1 = nn.Linear(state_size, 24)  
        self.fc2 = nn.Linear(24, 24)  
        self.fc3 = nn.Linear(24, action_size)  
  
    def forward(self, x):  
        x = torch.relu(self.fc1(x))  
        x = torch.relu(self.fc2(x))  
        return self.fc3(x)  
  
# 实例化网络、优化器等  
dqn = DQN(state_size, action_size)  
optimizer = optim.RMSprop(dqn.parameters())  
criterion = nn.MSELoss()  
  
# 训练步骤(此处省略)

值迭代

值迭代是一种经典的强化学习算法,用于求解有限马尔可夫决策过程(MDP)的最优策略。然而,值迭代通常不直接使用深度神经网络,因为它基于表格形式的状态和动作值函数。但这里可以描述如何在简化后的状态空间中应用值迭代。

原理
  • 状态表示:在自动驾驶中,状态可能包括车辆的位置、速度、周围车辆的位置和速度等。为了应用值迭代,需要将这些连续的状态空间离散化或简化为有限的状态集合。
  • 值迭代更新:对于每个状态s,值迭代通过迭代地更新状态值函数V(s)来找到最优策略。更新公式通常基于Bellman方程。
# 假设已经定义了一个有限的状态集合states、动作集合actions、转移模型P和奖励函数R  
  
V = {s: 0 for s in states}  # 初始化状态值函数为0  
  
for _ in range(num_iterations):  
    V_new = V.copy()  
    for s in states:  
        V_new[s] = max(sum(P[s][a][s_prime] * (R[s][a][s_prime]

自动驾驶和战术决策任务环境的集合开发和维护.

环境

公路

在这项任务中,自我车辆在充满其他车辆的多车道高速公路上行驶。智能体的目标是达到高速,同时避免与相邻车辆发生碰撞。在道路右侧行驶也会触发。

此外,还提供更快的变体 ,其模拟精度降低,可提高大规模训练的速度。

合并

在这项任务中,自我车辆在主干道上起步,但很快接近入口匝道上驶入车辆的路口。代理商现在的目标是保持高速,同时为车辆腾出空间,以便它们可以安全地并入交通。

环形交叉

在这项任务中,自我车辆如果接近交通畅通的环形交叉路口。它将自动遵循其计划的路线,但必须处理变道和纵向控制,以尽可能快地通过环形交叉路口,同时避免碰撞。


 

停车

一项以目标为条件的连续控制任务,其中自我车辆必须以适当的航向停在给定的空间内。


 

路口

交通密集的交叉口协商任务。


 

跑道​​​​​​​

涉及车道保持和避障的连续控制任务。


 

示例

深度Q

DQN 

这种基于无模型值的强化学习代理使用神经网络来表示状态动作值函数 Q,通过函数近似执行 Q 学习。

深度确定性梯度


DDPG 

这种基于策略的无模型强化学习代理直接通过梯度上升进行优化。它使用事后诸葛亮体验回放来有效地学习如何解决目标条件。

值迭代


值迭代

值迭代仅与有限离散 MDP 兼容,因此环境首先由 env_mdp() 的有限 MDP 环境近似。这种简化的状态表示根据道路每条车道上的预测碰撞时间 (TTC) 来描述附近的交通。过渡模型很简单,假设每辆车在不改变车道的情况下保持恒定速度行驶。这种模型偏差可能是错误的根源。

然后,代理执行值迭代以计算相应的最佳状态-值函数。

蒙特卡洛

该智能体利用过渡和奖励模型来执行最佳轨迹的随机树搜索。对状态表示或转换模型不需要特定的假设。


 

   if self.speed_range:
            (
                self.controlled_vehicle.MIN_SPEED,
                self.controlled_vehicle.MAX_SPEED,
            ) = self.speed_range
        if self.longitudinal and self.lateral:
            return {
                "acceleration": utils.lmap(action[0], [-1, 1], self.acceleration_range),
                "steering": utils.lmap(action[1], [-1, 1], self.steering_range),
            }
        elif self.longitudinal:
            return {
                "acceleration": utils.lmap(action[0], [-1, 1], self.acceleration_range),
                "steering": 0,
            }
        elif self.lateral:
            return {
                "acceleration": 0,
                "steering": utils.lmap(action[0], [-1, 1], self.steering_range),
            }


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1797350.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

代码审计(1):CVE-2022-4957分析及复现

0x00漏洞描述: ѕрееdtеѕt iѕ а vеrу liɡhtԝеiɡht nеtԝоrk ѕрееd tеѕtinɡ tооl imрlеmеntеd in Jаvаѕсriрt. Thеrе iѕ а Crоѕѕ-ѕitе Sсriрtinɡ vulnеrаbilitу in librеѕроndеd ѕрееdtеѕt…

大学侵权责任法试题及答案,分享几个实用搜题和学习工具 #其他#媒体#知识分享

当今社会,技术的发展给我们带来了许多便利,包括了许多实用的学习工具。 1.东西题库 这是一个网站 为学校教师提供试题试卷、课件及教案等服务的题库资源共享型网站,由必刷题、必刷卷教研团队研发与审核,涵盖初高中全学段、全学…

Foxmail邮箱的简单实用

Foxmail邮箱是我们办公邮箱中比较有代表性和使用性的一款邮箱软件,今天笔者为大家介绍一下Foxmail邮箱的功能和使用方法。 1、首先我们从安装Foxmail邮箱开始 2、点击安装等待安装成功 3、双击打开 ,出现邮箱设置界面输入我们的账号密码,点击…

轻松解决问题!教你文件怎么解除只读模式!

在日常使用电脑时,我们有时会遇到文件或文件夹被设定为只读模式的情况,这可能会限制我们对文件的修改和编辑。然而,解除只读模式并获得文件的完全控制是一个相对简单的过程,只需要掌握一些基本的技巧和方法。在本文中,…

SpringBootWeb 篇-深入了解 AOP 面向切面编程与 AOP 记录操作日志案例

🔥博客主页: 【小扳_-CSDN博客】 ❤感谢大家点赞👍收藏⭐评论✍ 文章目录 1.0 AOP 概述 1.1 构造简单 AOP 类 2.0 AOP 核心概念 2.1 AOP 执行流程 3.0 AOP 通知类型 4.0 AOP 通知顺序 4.1 默认按照切面类的类名字母排序 4.2 用 Order(数字) 注…

ubuntu-server(22.04)安装

准备工作 首先我们先从网上获取ubuntu的iso镜像文件 Index of /ubuntu-releases/22.04/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror 我们安装这个最小包即可 找到我们ubuntu安装完成后所需要下载安装源的网址(常用是阿里云) ubuntu安装…

QT Creator与QT的下载安装

0.起因/小结: 因为运行项目需要更高版本的QT。 下载了QT 6.2.0,但是里面的gcc,g,gdb是64bit的,而我的QT Creator是32bit的,所以又下载了QT 13.0.0的64bit版本。 遇到问题:msvcp140_1.dll找不到…

TSINGSEE青犀视频:城市道路积水智能监管,智慧城市的守护者

随着城市化进程的加快,城市道路网络日益复杂,尤其在夏季,由于暴雨频发,道路积水问题成为影响城市交通和市民生活的重要因素之一。传统的道路积水监测方式往往依赖于人工巡逻和简单的监控设备,这些方法存在效率低下、响…

Qt5学习笔记(一):Qt Widgets Application项目初探

笔者长期使用MFC开发Windows GUI软件。随着软件向Linux平台迁移的趋势越发明朗,GUI程序的跨平台需求也越来越多。因此笔者计划重新抓一下Qt来实现跨平台GUI程序的实现。 0x01. 看看Qt Widgets Application项目结构 打开Qt5,点击“ New”按钮新建项目。…

C语言—内存函数

1. memcpy 使用和模拟实现 void* memcpy(void* destination,const void* source,size_t num); 函数memcpy从source的位置开始向后复制num个字节的数据到destination指向的内存位置。这个函数在遇到 ‘\0’ 的时候并不…

YOLOv8+PyQt5苹果叶病害检测(可以重新训练,yolov8模型,从图像、视频和摄像头三种路径识别检测)

效果视频:YOLOv8PyQt5苹果叶病害检测系统完整资源集合 资源包含可视化的苹果叶病害检测系统,基于最新的YOLOv8训练的苹果叶病害检测模型,和基于PyQt5制作的可视苹果叶病害系统,包含登陆页面和检测页面,该系统可自动检…

k8s AIOps

k8s AIOps 主要介绍下k8sgpt 官站 github 介绍 k8sgpt 是一个用于扫描Kubernetes集群、诊断和分级问题的工具。它以简单的英语呈现问题,并将站点可靠性工程(SRE)的经验编码到其分析器中。通过AI丰富问题的解释,k8sgpt帮助提取最…

简单聊下办公白环境

在当今信息化时代,办公环境对于工作效率和员工满意度有着至关重要的影响。而白名单作为一种网络安全策略,其是否适合办公环境,成为了许多企业和组织需要思考的问题。本文将从白名单的定义、特点及其在办公环境中的应用等方面,探讨…

企业数字化转型的主要方面有哪些?

本人研究企业数字化转型10余年,为企业软件选型、数字化提供咨询服务!目前重点研究低代码数字化转型玩法,力争为各行各业探索出一条最具性价比的数字化方式。 关于“企业数字化转型包括哪些方面”这个问题,咱先来看个例子哈~ 比如…

常用的Linux命令,linux下文件的读、写、打开、关闭append用法

vim demoq.c打开写的.c文件 内容为 按a可以编辑页面代码。按ESC退出编辑然后按shift:wq保存文件并退出 Linux 系统中采用三位十进制数表示权限,如0755, 0644.7 124(可读、可写、可执行) 5 14(可读、不可写、可执行) …

西门子学习笔记9 - 中断式的触摸屏报警处理

Time delay interrupt"延时中断" OB(达到设定延时时间后扫描一次程序,扫描完成后退出程序,继续执行主程序。) 注:中断的触摸屏配置不需要改变,只是改变程序部分,在不需要使用的时候不…

WindowManager相关容器类

窗口中容器类介绍&#xff1a; 本节内容较多&#xff0c;建议结合前面的内容一起阅读&#xff1a; 1、addWindow的宏观概念 2、WindowManager#addView_1 3、WindowManager#addView_2 1&#xff09;、WindowContainer&#xff1a; class WindowContainer<E extends WindowC…

先激活还是先插卡?流量卡的激活顺序你知道吗?

拿到流量卡后&#xff0c;先激活还是先插卡吗&#xff1f;你知道是流量卡的激活顺序吗&#xff1f; 在这里&#xff0c;小编提醒大家&#xff0c;拿到卡后先别着急着操作&#xff0c;一定要先看一遍激活流程。 以下为流量卡的激活方法&#xff1a; 如果你是快递激活的话&…

ProxySQL + MySQL MGR 实现读写分离实战

文章目录 前言1、ProxySQL 介绍1.1、ProxySQL 如何工作1.2、ProxySQL 工作原理 2、ProxySQL 安装3、ProxySQL MGR 读写分离3.1、读写分离配置3.2、读写分离测试3.3、SpringBoot 整合 前言 该文章实践之前&#xff0c;需要搭建MySQL MGR集群&#xff0c;关于 MySQL MGR 集群搭…

Java 18 新功能概述

Java 18 在 2022 年 3 月 22 日正式发布&#xff0c;Java 18 不是一个长期支持版本。 包含多项新特性和改进&#xff0c;如文件系统链接、文本块、表达式求值API、ForkJoinPool优化、Optional新方法等。 亮点还包括预览特性&#xff1a;Record Pattern Matching for Switch和增…