Traffic Accident Detection via Self-Supervised Consistency Learning in Driving Scenarios
- 基于自监督一致性学习的驾驶场景交通事故检测
- I. INTRODUCTION
- III. OUR APPROACH
- A. 帧预测
- B. 物体位置预测
- C. 驾驶场景上下文表示(DSCR)
- D. 协作多任务一致性学习
- E.交通事故判定
- IV. EXPERIMENTS AND DISCUSSIONS
- A. Dataset
- D. Ablation Studies
- E. Overall Performance Evaluation
- I. TAD(交通事故检测)帧预测的进一步分析
- V. CONCLUSION
基于自监督一致性学习的驾驶场景交通事故检测
Traffic Accident Detection via Self-Supervised Consistency Learning in Driving Scenarios
模型叫做SSC-TAD,包括外观,动作和上下文一致性学习。
代码地址:GitHub - JWFangit/LOTVS-DADA: Driver Attention Prediction in Accidental Scenarios
http://t.csdn.cn/4VzF0
I. INTRODUCTION
在本工作中,我们吸收了这两种框架的优点,进一步提出了TAD框架,将daschcam视频帧所捕获的视觉场景上下文一致性纳入其中。其主要表述是基于正常的驾驶状态服从道路参与者之间相对规则的空间关系结构,事故对象通常涉及空间关系结构的突然或不规则变化。
III. OUR APPROACH
我们从帧外观一致性、目标运动一致性和场景上下文一致性三个方面对交通事故检测进行建模(the consideration of frame appearance consistency, object motion consistency and scene context consistency)。因此,本文的交通事故检测的目标是定位**“异常到事故”(anomaly-to-accident, A2A)**的时间窗口,在该时间窗口中,一旦发生事故的物体出现在场景中,A2A的起始时间就会被激活。根据A2A的定义,本工作可适用于早期交通事故检测(有待实验验证)。
图2展示了自监督一致性学习框架的流程。
A. 帧预测
如图3所示,其中包括两支帧编码器、光流运动图像编码器和一条未来帧解码器路径。φI是RGB帧和光流图像的编码共享权值。
B. 物体位置预测
目标位置预测网络的目的是给出目标在未来帧中的位置,这意味着在测量交通事故发生程度时具有运动一致性特征。
C. 驾驶场景上下文表示(DSCR)
在这项工作中,DSCR模型的场景关系内的视频帧。为了抵抗误检测道路参与者的影响,本文提取了参与者内部的信息关系以及整个视频帧,用于交通事故检测。为此,我们在特定道路参与者和整个框架的特征嵌入上引入了图形表示。
D. 协作多任务一致性学习
协作多任务一致性学习的损失函数定义为:
生成性损失和区别性损失记为:
为了优化式8,交替训练术语A和B。这个设置意味着我们希望训练G时MSE(gp,π T+1, gr,π−1 T+1)为真,训练D时MSE(gp,π T+1, gr,π−1 T+1)为假。
E.交通事故判定
本工作设计了一种简单而高效的融合策略,如图6所示,将一致性度量结合起来,表示为:
三种一致性度量的融合策略。“归一化”的运算用蓝色表示,为max-min归一化,取值范围为[0,1]。线的粗细表示融合的一致性信息的量。
Eq. 10背后的含义是,因为帧预测模块的学习是由原始视频帧监督的,没有标注错误。
IV. EXPERIMENTS AND DISCUSSIONS
A. Dataset
在本工作中,我们利用两个具有挑战性的数据集,即我们之前收集的AnAn事故检测(A3D)数据集[3]和DADA-2000[14]作为比较基准。A3D和DADA-2000的视频采集自各个网站,每个视频的摄像头设置或对准方式都不一样。
A3D和DADA-2000数据集的典型样本帧,图中显示了视频的事故类别。Ego-” and “/Ego-”是指涉及到或不涉及到自我-汽车的范畴。
D. Ablation Studies
结果见表二。
我们发现卷积lstm光流是本工作的重要组成部分。GRU优于LSTM,但性能差距最小。此外,GRU中的参数比LSTM中的参数要少。
E. Overall Performance Evaluation
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WsPcHbi3-1677734411728)(https://gitee.com/EmptyHouse/note-picture/raw/master/img/image-20230302104202884.png)]
表格三是对比结果。从这个表中,我们可以看到竞争对手在我们的DADA-2000数据集上的性能要弱于在A3D数据集上的性能,特别是在AP上
图9给出了交通事故发生程度的几个典型序列,前两行取自A3D数据集,其余为DADA数据集,其中红色方框表示事故所涉及的对象。说明我们的SSC-TAD能够较好地区分出事故和非事故情况。
I. TAD(交通事故检测)帧预测的进一步分析
如图12所示,所提方法仍有改进空间,生成了一些典型的失效案例。
从图12可以看出,物体尺度和光照条件是检测失败的主要因素。尺度过大或过小都会导致目标位置预测和帧预测模块无法有效发现目标
V. CONCLUSION
本文吸收了前人的帧预测和位置预测的优点,提出了一种通过学习连续帧内外观、运动和上下文关系一致性的交通事故检测方法,并采用生成式和对抗性训练策略的多任务一致性学习框架来实现。我们还设计了一种融合外观、运动和上下文一致性测量的新策略。基于我们之前收集的两个具有挑战性的数据集,即AnAn交通事故检测(A3D)和DADA-2000的广泛实验。通过与几种最新方法的比较,验证了该方法的优越性。此外,在我们的DADA-2000数据集上,我们分析了每种方法在不同交通事故行为类型、不同事故类别以及涉及或不涉及自我车的情况下的性能。