arXiv苹果公司新论文“Self-Play”方法训练车辆道路merge的策略

news2025/2/25 9:52:48

arXiv苹果公司新论文“Self-Play”方法训练车辆道路merge的策略

image

附赠自动驾驶学习资料和量产经验:链接

苹果于2020年1月28日上传arXiv新论文“Towards Learning Multi-agent Negotiations via Self-Play“。

image

摘要: 做出复杂、鲁棒和安全的串行决策是智能系统的核心。这一点对复杂的多代理环境下规划尤为重要,这时候代理需要预测其他代理的意图和未来可能采取的行动。传统方法将问题表述为马尔可夫决策过程(Markov Decision Process),但解决方案通常依赖于各种假设,并且在遇到极端情况时会变得脆弱。相反,通过同时探索、交互和从环境中学习,深度强化学习(Deep RL)在寻找策略方面非常有效。利用强大的Deep RL范例,证明了自我博弈(self play)的迭代过程可以逐步创建更多不同的环境,从而学习复杂而强大的多代理策略(multi-agent policies)。在具有挑战性的交通汇聚多代理仿真中,代理必须彼此进行交互和协商,以便在路上路下成功地合并。从简单环境开始,随着训练的进行,向代理“ 池(zoo)”迭代添加越来越多样化的代理来增加其复杂性。定性地发现通过自我博弈,策略会自动学习有趣的行为,例如防御性驾驶、超车、让路以及用信号灯向其他代理传达意图。此外从数量上看,合并动作的成功率从63%显着提高到98%以上。


image

如图以上是一个交通合并场景:绿色和红色车辆想要找到一个间隙合并进去,而一些蓝色车辆想要合并出来。 为了做出可靠的决策,车辆与道路上其他车辆进行协商至关重要。

强化学习由一种用于解决MDP的算法组成,其中代理通过执行不同的动作(action)反复与随机环境交互。 策略梯度法(policy gradient)直接优化策略参数,是一种流行的连续控制算法。他们通过找到策略函数参数的梯度来直接优化预期平均奖励(reward)函数。一种广泛使用的架构,称为行动者-批评者(actor-critic),将动作替换为批评者函数,也可以通过时间差分来学习该动作,并指导行动者或策略函数的训练。

临近策略优化(PPO,Proximal Policy Optimization )是一种在线策略梯度方法,它使用随机梯度下降来最小化新的替代(surrogate)目标函数。 与传统的策略梯度算法相比,后者通常对每个数据样本执行一次梯度更新,而PPO能够以更低的样本复杂度获得更稳定的结果。

PPO优化目标是:

image

其中rt(θ) 是新旧策略的概率比,At 是估计的优势函数(advantage function)。在线无模型的策略优化算法(如PPO)不使用经验重播缓存(experience replay buffer),因此在收集经验同时减少梯度更新方差是有益的。

image

首先描述一下模拟环境,如图以上显示了多代理的拉链合并(zipper merge)RL环境,其中代理从(A,B,C)位置之一开始,目标是到达(D,E,F)目的地之一。在每个场景(episode)的开头随机选择起点和终点位置。环境的活动空间包括了加速、转向和拐弯信号。

拉链合并,也称为双重合并(double merge),通常被认为是自主代理极具挑战性的场景。因为左车道的一些代理打算向右合并,而大多数右车道上的代理需要向左合并。信号和微妙的线索被用来协商谁先走和哪个空档被填补。规划还必须在短时间内短距内完成。

为了捕获真实道路的几何形状,使用卫星图像作为参考,并使用带注释的基于折线描述的车道来近似匹配道路的不同车道和不同曲率(图中的白线)。仿真的离散时间单位为100毫秒,帧频10 Hz。

使用离散时间运动学自行车模型来模拟环境中的车辆动力学,道路网络由直的、弯曲的和折线车道的2D图组成。 直线车道由左和右边界线建模。弯曲车道是用有指定车道宽度的Clothoids建模。 最后,任意形状的车道通过单独的左右车道边界线建模。

最简单的代理,也称智能驾驶模型(IDM,intelligent driving models),它使用自适应巡航控制(ACC)从指定车道开始执行车道保持(lane- keeping):相对于前面车辆,相应地减速和加速。 在此基础上,通过差距接受度(gap acceptance )方法添加变道(lane change)功能,从而以更安全的方式进行合并。 改变期望和起始速度和加速度,以创建不同IDM代理群(彼此驾驶有所不同)。 为了区分IDM代理,将正在学习控制的代理/车辆称为自车(ego vehicle)。


强化学习框架可学习上述拉链合并环境中的协商策略。 核心是,这里学习算法是PPO策略梯度算法的分布式形式,其中并行模拟多个环境以收集经验。 首先在包括基于规则的IDM代理的环境训练一个深层RL代理,之后用之前学习过的RL代理替换部分代理来启动自我博弈。 随着自我博弈的训练,反复向训练代理群添加更多具有更新参数的RL代理。

image

如图是策略函数的体系结构图。 输入分为两种类型: 第一个是场景自上而下的栅格化图像,自车位于中央;第二个是相对于自车的其他车辆相对距离、速度和加速度的低维精确测量。 这些输入通过卷积层和全连接层传递,产生三个动作:转向、加速和转向信号。

策略函数是“端到端”的,因为绕过了传统的轨迹规划和反馈控制。 策略有两个输入流,它们通过后期融合在第三层的全连接(FC3)层进行组合。 这两个流互补,栅格化提供了空间上下文,但离散且有损。 低维度的相对测量精度很高,但不能捕获道路信息。 三层卷积神经网络用于处理栅格化流。 CNN层的处理输入通道,感受野大小为4,步幅为2。

奖励函数或成本函数对于指导搜索所需的最佳策略至关重要。 将碰撞定义为两辆车边框的相交。 当车辆质心远离任何车道中心线的距离超过0.75车道宽度时,车辆就算越界。

image

如图所示是一组代理混合集进行自我博弈训练的场景。 基于规则的IDM代理以蓝色表示,而RL代理以红色表示。 绿色的自我代理也是RL代理。 自我代理和RL代理共享相同的政策,但他们的输入表示标准化为世界的中心(请参见图中的白色箭头)。 对于每个场景,IDM代理和RL代理混合使用不同的策略参数。

image

如图是算法介绍,其中公式2即PPO目标优化函数,而代理群分布的表2如下:

image


下面展示了一些仿真的实验结果:

先是定量结果

image

然后是定性结果

image

转向加等侯合并

超车和找间隙

image

让路

防守

image

失败例子:其他车追尾

image

紧急刹车

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1585748.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用 Python 的 LSTM 进行股市预测

目录 一、说明 二、为什么需要时间序列模型? 三、下载数据 3.1 从 Alphavantage 获取数据 3.1 从 Kaggle 获取数据 3.3 数据探索 3.4 数据可视化 四、将数据拆分为训练集和测试集 五、数据标准化 六、通过平均进行一步预测 6.1 标准平均值 6.2 指数移动平均线 6.3 如…

包拯断案 | 集群备份续集:三招解决定时备份延迟@还故障一个真相

今天,小编给大家讲述自己亲身遇到的一个数据库集群备份问题,希望帮助DBA运维的你绕开这个烦恼,轻松找到答案! 1、数据库集群在进行定时备份时(从节点备份),出现了主从延迟较大的告警&#xff0c…

泽众Testone自动化测试平台,测试用例支持单个调试执行,同步查看执行日志

泽众Testone自动化测试平台之前版本,测试用例批量和单个执行,必须要通过测试集操作执行,操作略繁琐,我们通过本轮优化升级,测试用例直接可以单个调试执行,同步查看执行日志,操作上去繁就简&…

Windows搭建Jellyfin影音服务结合内网穿透实现公网访问本地视频文件

文章目录 1. 前言2. Jellyfin服务网站搭建2.1. Jellyfin下载和安装2.2. Jellyfin网页测试 3.本地网页发布3.1 cpolar的安装和注册3.2 Cpolar云端设置3.3 Cpolar本地设置 4.公网访问测试5. 结语 1. 前言 随着移动智能设备的普及,各种各样的使用需求也被开发出来&…

windows ffmpeg7 通过rtsp拉取h265裸流

点击下边那个链接会转到github 下载完成后,添加include、lib到工程。 添加头文件: extern "C" { #include "libavcodec/avcodec.h" #include "libavformat/avformat.h" #include "libavformat/avio.h" #inclu…

总体标准差、样本标准差、标准误(标准误差)

下面是样例: 参考文章如何做好SCI论文中的标准误差图 - 知乎 (zhihu.com)

鸿蒙HarmonyOS 与 Android 的NDK有什么不一样?

鸿蒙(HarmonyOS)和Android的NDK(Native Development Kit)是两个不同的概念,它们在设计理念、架构、开发方式和目标平台等方面存在着一些显著的不同。让我们详细比较它们的特点和区别。 1. 设计理念和架构: …

雪亮工程视频联网综合管理/视频智能分析系统建设方案(二)

一、我国雪亮工程当前建设需求 1)加强社会治安防控感知网络建设 加强社会治安防控智能感知网络建设,针对城中村、背街小巷、城乡结合部等重点区域建设安装视频监控设备,减少死角和盲区,与已有感知系统结合,形成高低搭…

【教程】四种方法将App打包为IPA文件类型

摘要 本教程总结了将App应用程序打包为IPA包的四种常用方法,包括Apple推荐的方式、iTunes拖入方法、自动编译脚本和解压改后缀名方法。每种方法都有其特点和适用场景,在实际开发中可以根据需求选择合适的方式进行打包。通过本教程,您将了解到…

windows10系统下TP-LINK万兆网卡属性配置高级说明

文章目录 打开配置属性说明ARP Offload:ARP地址解析协议卸载Downshift retries:降档重试次数Energy-Efficient Ethernet:高能效以太网Flow Control:流量控制Interrupt Moderation:中断调整Interrupt Moderation Rate:中断调节率IPv4 Checksum Offload:IPv4校验和卸载…

盲盒小程序带来的乐趣技术用代码如何形容?

星耀海贼萌袋抽卡潮玩小程序app盲盒软件定制 盲盒小程序带来的乐趣,技术人员可以用代码来形容,虽然代码本身并不具备直接描述情感的能力,但我们可以借助一些编程元素和概念来隐喻性地表达这种乐趣。 随机性的乐趣:盲盒小程序的核…

Jackson配置处理LocalDateTime、LocalDate等java8时间类型失效的问题解决

目录 前言 一、问题排查过程 1.1 SpringMvc是如何处理请求报文和响应报文 1.2 JacksonConfig配置排查 二、导致Jackson配置失效的原因 2.1 没有addSerializer 2.2 添加了EnableMvc注解 2.3 另外有地方配置了Jacksonhttpconver覆盖了配置 总结 前言 上一篇文章《使用Ja…

利用alibaba.item_get API接口,跨境电商如何快速获取商品详情?

利用alibaba.item_get API接口,跨境电商可以快速获取商品详情,为业务的开展提供有力支持。alibaba.item_get API接口是阿里巴巴开放平台提供的一项服务,它允许开发者通过调用API接口,获取阿里巴巴平台上商品的详细信息。以下是如何…

QT 线程之movetothread

上文列举了qt中线程的几种方法,其中2种方法最为常见。 这两种方法都少不了QThread类,前者继承于QThread类,后者复合QThread类。 本文以实例的方式描述了movetothread()这种线程的方法,将QObject的子类移动…

如何使用Tomcat+cpolar搭建本地站点并发布到公网分享好友远程访问

文章目录 前言1.本地Tomcat网页搭建1.1 Tomcat安装1.2 配置环境变量1.3 环境配置1.4 Tomcat运行测试1.5 Cpolar安装和注册 2.本地网页发布2.1.Cpolar云端设置2.2 Cpolar本地设置 3.公网访问测试4.结语 前言 Tomcat作为一个轻量级的服务器拥有强大功能,由于其可以实…

Python初级第二次作业

一、 def reverse(num):anumt0b0cnumwhile a//10>0:if a%10>0:t1aa//10print(t)for i in range(t,-1,-1):if c%100:b0else:b(c%10)*(10**i)c//10print(b) if bnum:return Trueelse:return Falsedef isPalind(num):kreverse(num)if kTrue:print(f"{num}是回文&…

分类模型决策边界、过拟合、评价指标、PR、ROC曲线

文章目录 1、线性逻辑回归决策边界1.2、使用自定义函数绘制决策边界1.3、三分类的决策边界1.4、多项式逻辑回归决策边界 2、过拟合和欠拟合2.2、欠拟合2.3、过拟合 3、学习曲线4、交叉验证5、泛化能力6、混淆矩阵7、PR曲线和ROC曲线 x2可以用x1来表示 1、线性逻辑回归决策边界 …

【找工作最强助手】全平台自动投简历脚本:(boss、前程无忧、猎聘、拉勾、智联招聘)

get-jobs【工作无忧】 💼自动投简历(Boss直聘、猎聘、拉勾、51job、智联招聘) 项目链接:https://github.com/loks666/get_jobs最新文档以上面的链接为主 特色功能 支持国内全部招聘平台(Boss直聘、猎聘、拉勾、51job、智联招聘)内置driver驱动&#xf…

各种拟合算法整理

各种拟合算法整理 1. 最小二乘法2. 霍夫变换3. RANSAC算法 本篇将介绍最小二乘法(Least Square)、霍夫变换(Hough Transform)和RANSAC(random sample consensus,随机抽样一致性算法)算法的原理、应用和代码。 如果已经知道了一组可靠的点,可以直接使用最…

数据绑定多级对象属性时的报错解决

数据绑定多级对象属性时的报错解决 (1)例子如下: (2)当syncObjForm被后台数据赋值时,会产生报错: (3)原因就是: 模板在渲染时,读取对象中的某个…