文章目录
- 1 背景
- 2 方法
- 2.1 Overview
- 2.2 安全测试目标
- 2.2.1 测试目标设定方法(Method to Set the Test Objective)
- 2.2.2 测试目标度量方法(Metrics to Measure the Test Objectives)
- 2.3 基于潜在危机情况的测试场景(Test Scenarios based on Potentially Critical Situations)
- 2.4 测试用例分配(Test Case Allocation)
- 2.4.1 测试用例分配的指导原则(Guiding Principles for Test Case Allocation)
- 2.4.2 数据收集的安全性(Safety for Data Collection)
- 2.4.3 虚拟测试平台的性能(Capabilities of the Virtual Test Platform)
- 2.4.4 测试执行(Test Execution)
- 2.4.5 安全评估(Safety Evaluation)
- 3 结果
- 4 总结(个人)
1 背景
这是一篇来自国外自动驾驶公司,waymo关于测试L4自动驾驶车安全性的论文。
文章主要讨论了Collision Avoidance Testing(CAT) methodology,避撞测试方法是如何进行的。当然CAT方法仅仅是waymo评估自动驾驶系统(ADS)安全性的众多方法之一。
CAT方法的本质是基于场景的测试方法(scenario-based testing method),方法可以简要描述为:对比自动驾驶系统(ADS)和行为参考模型在陷入其他道路使用者发起的冲突时,二者的性能优劣。其中,行为参考模型即代表人类。所以通俗来讲,可以把这个测试当做ADS与人类司机的对比。
另外,值得关注的是“scenario-based testing method”,它的定义是:“a temporal sequence of scene elements, with actions and events of the participating elements occurring within this sequence.” (Riedmaier et al. 2020).。 “一个场景元素的时间序列,参与元素的动作和事件都发生在这个序列中”。这个测试方法已经有大量的工作在做了,有很多挑战,比如说“什么样的场景才能够有效揭示安全性”。这里先记下来,暂时留个印象,毕竟这篇文章主要还是讲CAT的。
2 方法
2.1 Overview
CAT方法的范围是,ADS作为“响应方”,当其他道路使用者做出出乎意料行为时,ADS采取紧急制动避免或减轻碰撞的性能。图糊了,这里自己重画一个。
2.2 安全测试目标
2.2.1 测试目标设定方法(Method to Set the Test Objective)
ISO起草的基于场景的安全测试提供了两种可能的方法来设定安全测试目标:
- “an upper boundary value of the acceptable occurrence rate of a measurable behavior of the ADS”。ADS 可测量行为的可接受发生率的上限值”。比如说“系统危险行为在系统操作范围内每小时不得发生一次”。个人理解就是一些可以揭示安全的指标的上限,超出这个上限就认为ADS性能不行
- “a performance reference model regarding the capability of the ADS to handle certain scenarios safely, based on minimum performance levels required for these scenarios”。“根据这些场景所需的最低性能水平,建立一个关于 ADS 安全处理这些场景的能力的性能参考模型”。比如说“任何信心的人类司机能够避免的安全事故,ADS都应该避免掉”
waymo的话,CAT是以上两种方法的结合,这里使用的人类行为参考模型被称作“NIEON”,它的全称是:the Non-Impaired and Eyes ON the conflict model driver。这个模型表现出一种在当前人类驾驶人群中不存在的表现水平,换言之,就是没有人类在避撞下可以比NIEON开的更好。该模型的响应时间和规避动作都是基于最先进的人类驾驶数据研究得到的。
研究表明,这个NIEON模型能够减轻84%的严重碰撞。当然了NIEON模型在应用中也会简化一些建模,不过它仍然可以当做是一种基准。毕竟84%这个数字在这摆着呢。
2.2.2 测试目标度量方法(Metrics to Measure the Test Objectives)
ADS对比NIEON的性能具体设计成一个聚合评分,这个评分是根据场景组做的。这里waymo将用于测试的场景划分成不同的“安全组”,这里的安全组是根据“冲突类型”和“冲突参与者”定义的,且安全组下包含子类。这里画了个图,论文里的图片不知怎么变成了全损画质,有些字都看不清,这里我勉强重新画了一下。这样划分场景测试的好处也是方便多维度去对比ADS和NIEON的性能。
性能对比主要基于以下两个维度,当然对比的目标就是期望ADS在这两个维度下都比NIEON好,以此证明自动驾驶比人类开得好。
- 碰撞发生的数量
- 碰撞造成的严重损伤事件
相应地,度量的标准,也就是metric,主要有两个:
- 碰撞是否发生:这里将ADS静止的场景、ADS被追尾的场景去除在外
- 碰撞导致的伤害:这里使用冲击动力学和伤害风险模型做评估,伤害风险模型的评估使用 P ( M A I S 3 + ) P(MAIS3+) P(MAIS3+)作为输出,通俗来讲可以理解为,发生严重伤害碰撞的概率。这个Metric不会去除ADS被追尾的场景。
ADS在面临危险情况做出行为,例如停下来或者变道这种,可能导致其他车辆与之碰撞。这种情况不在CAT的评估范围内,而是属于对其他道路使用者行为的概率估计。
上述严重损伤事件根据设定 P ( M A I S 3 + ) P(MAIS3+) P(MAIS3+)阈值来定义:
- 机动车-机动车碰撞: P ( M A I S 3 + ) ≥ 5 % P(MAIS3+) \ge 5\% P(MAIS3+)≥5%
- 儿童: P ( M A I S 3 + ) ≥ 1.5 % P(MAIS3+) \ge 1.5\% P(MAIS3+)≥1.5%
- 其他行人、摩托、自行车等: P ( M A I S 3 + ) ≥ 10 % P(MAIS3+) \ge 10\% P(MAIS3+)≥10%
比如说对于机动车,如果 P ( M A I S 3 + ) ≥ 5 % P(MAIS3+) \ge 5\% P(MAIS3+)≥5%,就认为是严重碰撞。另外对于NIEON模型参数的选择也有一定的原则,NIEON模型具体参考的另外一篇论文的工作。
2.3 基于潜在危机情况的测试场景(Test Scenarios based on Potentially Critical Situations)
这一小节主要介绍的是用于CAT方法的场景是如何得到的。大概可以概括成下图这样,这里我不展开看了。具体的代表性场景的选择会在下一节去介绍。
2.4 测试用例分配(Test Case Allocation)
2.4.1 测试用例分配的指导原则(Guiding Principles for Test Case Allocation)
用于测试的场景选择遵循以下几点原则:
- 参考模型可以轻易避免,或者完全没机会避免的场景不应选择在内。因为这种场景对于ADS和NIEON的结果应该是一样的,说明不了问题
- CAT方法使用的场景,更倾向于采用分段方法来确定所有危险场景的代表性场景。 ISO 34502建议了这种分段方法。具体可以去参考一下看看。
- 虚拟平台的仿真高保真度对于准确测试ADS的性能来说是必要的
2.4.2 数据收集的安全性(Safety for Data Collection)
这一小节主要就是解释了数据收集确保安全,虽然说这个CAT方法是在虚拟仿真下进行测试的,但是数据却是实际收集来的。看waymo的描述,他们会在一个封闭的演习区域去分配人员,然后进行实际的道路测试,可能会人为制造实际的危险场景。只做大致了解。
2.4.3 虚拟测试平台的性能(Capabilities of the Virtual Test Platform)
这小节也是主要对虚拟测试平台性能、准确性的介绍,毕竟CAT方法就是在这里面做的,测试结果的可靠性强依赖于平台的性能。只做大致了解。
2.4.4 测试执行(Test Execution)
这一节简要介绍了测试的执行过程,从场景选择,到最后的执行流程。waymo这里说是使用一个“问题管理系统”去提供每一个阶段的追踪和审计。只做大致了解。
2.4.5 安全评估(Safety Evaluation)
安全评估就是利用CAT方法,去评估新老版本软件的性能变化。每个版本都评价上述介绍的两个度量标准。
3 结果
这一节主要介绍了一下Waymo应用CAT方法得到的一些结果,验证了ADS符合了预期。同时也给出了一些Case Study用作分析。只做大致了解。
4 总结(个人)
waymo的这篇文章介绍了他们在评估自动驾驶安全性的众多维度之一。从场景的选取、指标的设计、人类行为模型的实现、虚拟平台的准确性,都进行了详尽的考虑,尽可能达到严谨。值得学习。另外这篇文章参考了众多ISO标准,以及其他相关领域的论文,对这些材料的了解也有助于更好地理解这篇文章。持续学习中~~