【弱监督视频异常检测】2024-TCSVT-基于片段间特征相似度的多尺度时间 MLP 弱监督视频异常检测

2024-TCSVT-Inter-clip Feature Similarity based Weakly Supervised Video Anomaly Detection via Multi-scale Temporal MLP

基于片段间特征相似度的多尺度时间 MLP 弱监督视频异常检测
- 摘要
- 1. 引言
- 2. 相关工作
- - A. 分布外检测
  - B. 弱监督视频异常检测
  - C. 多层感知器
- 3. 方法
- - A. 概述和问题表述
  - B. 多尺度时间 MLP
  - C. 基于特征相似度的异常标准
  - D. 目标公式
- 4. 实验
- - A. 数据集和评估指标
  - B. 实施细节
  - C. 与最先进方法的比较
  - D. 消融研究
  - E. 超参数评估
  - F. 定性结果
- 5. 结论
- 参考文献

基于片段间特征相似度的多尺度时间 MLP 弱监督视频异常检测

论文地址

摘要

弱监督视频异常检测（WSVAD）的主要范例是将其视为多实例学习（MIL）问题，仅使用视频级标签进行训练。由于异常的稀有性和模糊性，潜在异常训练样本的选择是 WSVAD 的主要挑战。考虑到异常事件的时间相关性和长度变化，如何整合时间信息也是 WSVAD 领域的一个有争议的话题。为了解决上述问题，我们提出了一种新方法，即基于片段间特征相似度的视频异常检测（IFS-VAD）。在提出的 IFS-VAD 中，为了利用全局和局部时间关系，利用了多尺度时间 MLP（MT-MLP）。为了更好地捕获正袋中的模糊异常实例，我们引入了一种基于片段间特征相似度（IFS）的新型异常标准。所提出的 IFS 标准可作为异常分类器预测过程中的附加异常分数，帮助辨别异常。大量实验表明，IFS-VAD 在 ShanghaiTech 上表现出最佳性能，AUC 为 97.95%，UCF-Crime 为 86.57%，XD-Violence 为 83.14%。我们的代码实现可在 https://github.com/Ria5331/IFS-VAD 上访问。
索引词——视频异常检测，弱监督学习，多实例学习，多层感知器。

1. 引言

随着监控系统在公共场所的广泛应用，视频异常检测（VAD）[2][3] 的重要性在计算机视觉领域引起了越来越多的关注。VAD 的目标是自动定位视频中的异常时间相位，即异常事件发生的时间段。在监控视频的背景下，异常事件通常是打斗、枪击、爆炸、盗窃等。由于视频数据量巨大，很难实现详细的异常标注。为了解决上述问题，传统的无监督 VAD [63]-[65] 在训练阶段仅使用正常视频。然而，性能并不令人满意。近年来，为了更好地利用异常视频数据，弱监督视频异常检测（WS-VAD）[1] 被提出。WSVAD 只需要视频级标签，在初步标注工作中所需的劳动力较少。而且异常训练样本的利用带来了显著的性能提升。

WSVAD 的主要范例是将其视为多实例学习（MIL）问题 [4]–[16]，即将视频视为一个包，视频中的剪辑视为实例。例如，在负包（即正常包）中，所有实例都是正常的；在正包（即异常包）中，异常和正常实例同时存在。基于特征幅度 [4][11][18]、特征动态 [12]、聚类 [9][19] 和注意力 [13][17] 等异常标准，正包中的异常值将被选为潜在异常实例。正包中的潜在异常实例将与负包中的正常实例配对，作为异常分类器的训练样本。通过这种方式，WSVAD 可以仅使用视频级标签来实现，并获得更好的性能。

尽管现有方法已显示出良好的性能，但其准确性仍然受到两个限制的阻碍。1）异常标准不明确。先前研究中的异常标准通常依赖于一些不可靠的假设。例如，广泛使用的特征幅度标准 [4][18] 基于异常片段的特征幅度将高于正常片段的假设。然而，有人指出，特征幅度由多种因素决定，例如物体运动、物体数量和人类 [11]。简单地使用特征幅度作为异常标准是不合理的。2）异常持续时间的变化。不同的异常事件往往持续不同的时间长度。例如，爆炸和枪击往往持续较短的时间，而战斗往往持续较长的时间。因此，在 VAD 中考虑相邻的片段非常重要。然而，在 MIL 范式中，时间连续性通常没有得到充分利用。

为了解决上述 MIL 缺陷，我们提出了一种新颖的 WSVAD 方法，即片段间特征相似性视频异常检测（IFS-VAD）。受到基于特征的分布外（OOD）检测研究 [21][24][26][27][30] 的启发，我们发现特征余弦相似度可能是识别偏离正常性的合适参考。如图 1 所示，正常片段与异常片段之间的特征余弦相似度趋于较小，而同一类型片段之间的特征余弦相似度接近于 1。根据观察，我们假设异常片段与正常片段的相似度较低，异常视频的主要成分是正常片段。因此，与正常片段相比，异常片段与视频中所有其他片段之间的平均特征余弦相似度将较低。考虑到异常的稀疏性和不稳定性，异常片段的特征余弦相似度将表现出较大的方差。基于上述假设，我们设计了一种基于特征余弦相似度的异常标准，即片段间特征相似度（IFS）。通过结合特征余弦相似度的均值和方差，所提出的 IFS 可以帮助辨别潜在的异常。此外，作为额外的异常评分，IFS 可以帮助异常分类器实现更好的性能。

如上所述，异常持续时间的方差是 WSVAD 任务中的一个关键问题。为了利用视频数据的时间关系，已经提出了大量关于捕获多个范围内的时间关系的研究。在之前的研究中，GCN [41][51][55]，自注意力 [4][12][58]，时间卷积 [4] 和 Transformer [34][43][52][56][57][60] 已被广泛使用。我们没有遵循现有的方法，而是尝试了一种新颖的时间网络结构作为替代解决方案。具体而言，我们引入了一个基于多层感知器（MLP）的多尺度时间 MLP（MT-MLP）网络。考虑到视频数据的时间长度不固定，MT-MLP 设计中使用了循环全连接层（Cycle FC）[47]。所提出的 MT-MLP 由用 Cycle FC 构建的局部和全局时间 MLP 分支组成。通过改变 Cycle FC 的周期步长，MT-MLP 能够捕捉不同范围内的时间关系。

图 1

图 1. 选定的正常片段与整个视频（蓝线）、选定的异常片段与整个视频（红线）之间的特征余弦相似度图。⋆ 代表视频中选定的片段。正常片段用蓝色虚线框出，异常片段用红色虚线框出。

我们的主要贡献总结如下：

我们提出了一种基于 MIL 的新型 WSVAD 方法，称为 IFS-VAD。通过利用所提出的异常标准 IFS，IFS-VAD 可以更可靠地识别潜在的异常剪辑。
我们设计了一个基于 MLP 的多尺度时间网络。通过整合短期和长期时间信息，模型更易于辨别正常和异常剪辑。
已经进行了大量实验来验证所提出的 IFS-VAD，并且在三个广泛采用的 VAD 基准数据集上实现了 SOTA 性能，在 ShanghaiTech [20] 上的 AUC 为 97.95%，在 UCF-Crime [1] 上的 AUC 为 86.57%，在 XD-Violence [51] 上的 AP 为 83.14%。

本文的后续内容安排如下。第 II 节介绍相关工作。第 III 节解释了所提出的方法 IFS-VAD。第 IV 节详细介绍了实验和结果。最后，第 V 节总结了整个工作。

2. 相关工作

A. 分布外检测

OOD 检测的目的是区分输入是否属于已知分布。OOD 检测的主流是事后检测，OOD 分数主要基于模型输出计算，包括特征 [21][24][26][27][30]、概率 [28] 或 logits [25][29]。MSP [28] 使用最大预测 softmax 概率来实现 OOD 检测，为 OOD 分数建立基线。MaxLogit [25] 和 Energy [29] 根据分类器的 logits 设计 OOD 分数。而 Lee 等人 [27] 提出了一种仅由特征计算的 OOD 分数。为了实现高级 OOD 检测性能，最近的研究倾向于混合多种输出。ViM [21] 集成特征和 logits 来生成 OOD 分数，而 DML [23] 结合了 MaxLogit 和 MSP。考虑到 OOD 检测和 VAD 之间的相似性，OOD 评分设计中特征的使用可以为异常标准设计提供启发性参考。

B. 弱监督视频异常检测

由于难以获得细粒度的注释，使用视频级标签来实现 VAD 更为实用 [1][20]。近年来，由于其良好的性能，WSVAD 在 VAD 研究领域引起了广泛关注。Sultani 等人 [1] 提出了将多实例学习（MIL）[31][32] 引入 WSVAD，使用视频级注释。随后的 WSVAD 研究 [4]-[16] 主要遵循相同的 MIL 框架。然而，基于 MIL 的研究常常受到异常分类器有限的分离能力、错误的实例选择策略或虚假伪标签引入的噪声的阻碍。为了解决上述缺陷，一些研究尝试设计更可靠的异常准则 [4][11]–[13][19][33][37][40]，一些研究决定设计更好的实例选择策略 [34][36][38][59]，而另一些研究则寻求减轻误报影响的解决方案 [6][7][9][10][35][39]。最近，基于多模态模型（例如，CLIP [61]）的研究 [67][68] 表现出良好的性能。除了前面提到的基于 MIL 的 WSVAD，一些研究 [41]–[43] 与其他框架一起实现 WSVAD。尽管如此，异常准则的设计在这些方法中仍然很重要。通过引入异常准则 IFS，我们降低了误报率并带来了可靠的伪标签。

C. 多层感知器

MLP 最初被设计用于处理一维序列，但最近的研究已将 MLP 引入视觉领域。MLP-Mixer [44] 通过应用简单的 token-mixing 方案提出了一个全 MLP 框架。Res-MLP [45] 采用仿射元素变换代替层归一化。Tang 等人 [46] 设计了一个稀疏 MLP 来取代 token-mixing 模块。然而，这些 MLP 视觉模型只能处理固定大小的输入。为了克服 MLP 共享缺陷，Cycle-MLP [47] 通过引入 Cycle FC 提出了一个灵活的 MLP 框架。尽管 MLP 视觉模型已经显示出良好的潜力，但基于 MLP 的视频框架仍然缺乏研究。为了捕获不固定长度视频的时间信息，我们基于前面提到的 Cycle FC 构建了一个 MT-MLP。此外，设计了一个双分支结构来整合短期和长期时间信息。

3. 方法

A. 概述和问题表述

在 WSVAD 中，弱注释训练集 $\mathcal{D}=\left\{V_i,\ y_i\right\}^{∣\mathcal{D}∣}_{i=1}$ 由 $∣\mathcal{D}∣$ 未修剪的视频组成， $y_i\in\left\{0,\ 1\right\}$ 表示视频级注释，0 表示正常，1 表示发生异常事件。原始视频 $V$ 将被分成不重叠的 $T$ 个剪辑，然后通过预训练的视觉编码器（即 I3D [48] 和 CLIP [61]）嵌入到 $F\in \mathbb{R}^{T\times D}$ 中，其中 $F$ 表示具有 $D$ 维的编码特征。我们提出的方法基于预先提取的特征 $F$ ，所提出的 IFS-VAD 的整体框架如图 2 所示。

图 2

图 2. 我们提出的 IFS-VAD 模型的总体框架。在训练阶段，将正常和异常视频配对作为输入，并使用预先训练的视觉编码器提取特征 $X$。然后，MT-MLP 通过融合多尺度时间信息产生特征 $F$。接下来，特征 $F$ 将分别送入 IFS 模块和异常分类器，并将生成的异常分数 $S_f$ 和 $S_c$ 组合起来以产生最终的异常分数。

所提出的方法包括特征提取和异常检测两部分。所提出的时间网络 MT-MLP 可以融合短期和长期信息来产生增强特征 $\tilde{F}\in\mathbb{R}^{T\times D}$ 。并且所提出的异常标准 IFS 是基于片段间特征余弦相似度计算的。在训练阶段，异常视频将与正常视频配对。在此阶段，异常视频的片段间特征余弦相似度 $sim_a\in\mathbb{R}^{T\times T}$ 与配对的正常视频计算，而正常视频的相似度 $sim_n\in\mathbb{R}^{T\times T}$ 与自身计算。而在测试阶段，所有的相似度都来自与测试视频本身的计算。最终的异常分数 $S$ 是 IFS 分数 $S_f$ 和异常分类器分数 $S_c$ 的组合。

B. 多尺度时间 MLP

异常的持续时间可能因所发生事件的类型而有很大差异。因此，考虑利用局部和全局时间依赖性非常重要。为了利用时间依赖性，我们提出了一个基于 MLP 的时间网络。然而，传统的基于 MLP 的模型的一个致命缺陷是它们只接受固定大小的输入。为了使基于 MLP 的模型能够处理大小不固定的输入数据，我们基于 Cycle FC [47] 构建了 MT-MLP。

给定由预训练视觉编码器提取的输入特征 $F$ ，在层归一化之后，局部 Cycle FC 和全局 Cycle FC 分别将特征从 $F\in \mathbb{R}^{T\times D}$ 映射到 $F^{'}_{L}\in\mathbb{R}^{T\times D}$ hidden 和 $F^{'}_{G}\in\mathbb{R}^{T\times D}$ 。该过程如下：

公式 1

公式 2

其中 LN 表示层归一化， $D$ 和 $D_{hidden}$ 表示 Cycle FC 的输入和输出维度， $stride_L$ 和 $stride_G$ 表示局部 Cycle FC 和全局 Cycle FC 的循环步长。如图 3 所示，步长较小的 Cycle FC 捕获相邻的时间信息，而步长较大的 Cycle FC 则关注全局的时间关系。

初步的时间特征 $F^{'}$ 是由 $FL^{'}$ 和 $FG^{'}$ 逐元素相加而得到的，然后是 GELU [49] 非线性：

公式 3

按照类似的过程，特征 $F^{'}$ 通过循环 FC 映射到 $F^{''}_L\in\mathbb{R}^{T\times D}$ 和 $F^{''}_G\in \mathbb{R}^{T\times D}$ ，如下所示：

公式 4

公式 5

接下来，通过元素相加将 $F^{''}_L$ 和 $F^{''}_G$ 融合成 $F^{''}$ ，如下式所示：

公式 6

MT-MLP 中还引入了跳跃连接 [50]，随后进行了层归一化。输出 $\tilde{F}\in\mathbb{R}^{T\times D}$ 可以表示为：

公式 7

其中 $*$ 表示逐元素乘法。

C. 基于特征相似度的异常标准

如上所述，异常特征往往与正常特征的相似度较低，而特征与同一类型（即正常或异常）的相似度较高。基于这一观察，我们设计了一种基于特征余弦相似度的新型异常标准 IFS。给定一个正常视频，我们计算每个剪辑与视频中所有其他剪辑之间的特征余弦相似度矩阵 $M_n$ 。在我们的假设中， $M_n$ 中的值应该接近 1，并且会很平滑。然而，在异常视频中，存在正常和异常剪辑。相似度矩阵 $M_a$ 中的值会出现突然下降和增长。因此，通过计算余弦相似度矩阵的均值和方差来捕获潜在异常是可行的。

为了帮助模型区分异常和正常特征，如图 2 所示，在训练阶段，正常视频的特征相似度矩阵是与自身计算的，而异常特征是与成对的正常视频计算的。

经过 MT-MLP 处理后，配对输入的正常特征 $\tilde{F}_n$ 和异常特征 $\tilde{F}_a$ 被用来生成余弦相似度矩阵 $sim_n$ 和 $sim_a$ ，公式如下：

公式 8

公式 9

其中 $\cdot$ 表示点乘， $||\cdot||$ 表示 L2 范数。

图 3

图 3. 多尺度时间 MLP（MT-MLP）结构。MT-MLP 由两种类型的 Cycle FC 层组成，时间步长较小的局部 Cycle FC 层可以捕获相邻的时间信息，时间步长较大的全局 Cycle FC 层针对长期时间关系。

为简单起见，下文中 $s im$ 同时表示 $sim_n$ 和 $sim_a$ ，利用得到的相似度矩阵 $s im$ 计算均值向量 $\boldsymbol{\mu}=\left\{\mu_i\right\}^T_{i=1}$ 和方差向量 $\boldsymbol{\sigma}^2=\left\{\sigma^2\right\}^T_i=1$ ，如下：

公式 10

公式 11

根据 $\boldsymbol{\mu}$ 和 $\boldsymbol{\sigma}^2$ ，IFS 得分 $S_f\in\mathbb{R}^{T\times 1}$ 计算如下：

公式 12

D. 目标公式

基于时间增强特征 $\tilde{F}$ ，异常得分 $S_c\in\mathbb{R}^{T\times 1}$ 直接从具有 3 层 MLP 的异常分类器获得。IFS 增强异常得分 $S\in\mathbb{R}^{T\times 1}$ 是 $S_c$ 和 $S_f$ 的加权平均值，如下所示：

公式 13

其中 $w_1$ 和 $w_2$ 表示可学习参数。

分类器基于 top-K MIL 损失进行训练，令 $\Omega_k$ 表示 top-K 增强异常分数， $y$ 表示视频标签，则 MIL 损失可以表示为：

公式 14

按照 [4] 的方法，还利用了稀疏性和平滑应变：

公式 15

公式 16

优化目标可以表述为：

公式 17

其中 $\lambda_1$ 和 $\lambda_2$ 表示超参数。

4. 实验

A. 数据集和评估指标

1）数据集：提出的IFS-VAD在三个广泛使用的VAD基准数据集上进行了评估，包括ShanghaiTech [20]，UCF-Crime [1]和XD-Violence [51]。

ShanghaiTech。ShanghaiTech是一个中等规模的无监督VAD数据集，包含13个不同的街景和437个视频，其中包括307个正常视频和130个异常视频。按照Zhong等人[41]的方法，通过从测试集中转移异常视频来重组训练集，使其可以进行弱监督训练。

UCF-Crime。UCF-Crime是一个大规模的VAD数据集，包含1900个视频，训练集中有800个正常和810个异常视频级注释视频，测试集中有140个正常和150个异常帧级注释视频。该数据集包含多种场景和 13 种异常事件，总持续时间为 128 小时。

XD-Violence。XD-Violence 数据集是一个具有挑战性的大规模数据集，包含 4754 个视频，总时长超过 217 小时。这些视频是从电影和 YouTube 中收集的，具有多种复杂场景。训练集包含 3954 个带有视频级标签的视频，而测试集包含 800 个带有帧级标签的视频。

2）评估指标：根据先前的研究[4]，ShanghaiTech 和 UCF-Crime 基准测试选择的评估指标是帧级接收者操作特性（ROC）曲线下的面积，即 AUC。同时，使用平均精度（AP）来评估模型在 XD-Violence 数据集上的性能。

B. 实施细节

在训练阶段，每个视频被分割成 64 个片段，即 $T = 64$ 。并选择异常分数最高的 $k = 5$ 个片段作为分类器训练样本。ShanghaiTech 和 UCF-Crime 的 I3D 特征的特征维数 D 为 2048，XD-Violence 的 I3D 特征维数为 1024。所有数据集的 CLIP 特征的特征维数均为 512。隐藏层 Dhidden 的特征维数设置为 2D。对于 ShanghaiTech 和 UCF-Crime，局部和全局循环步长设置为 4 和 32，而对于 XD-Violence 则设置为 2 和 16。3 层 MLP 分类器分别以节点 512、128 和 1 实现，每个 FC 层后跟一个 ReLU 非线性和一个 dropout，dropout 率为 0.7。公式 (15) 中的超参数 $\lambda$ 和 $\lambda$ 分别设置为0.0001和 0.01。所提出的模型使用 Adam 优化器进行训练，权重衰减为 0.0005，学习率为 0.001，共 50 个时期。批量大小设置为 64，每个小批量包含 32 个正常和异常训练样本。该方法是在 NVIDIA RTX 4090 GPU 上使用 PyTorch 实现的。此外，还采用了 10 裁剪增强。

C. 与最先进方法的比较

1）ShanghaiTech 的结果：

表 I 列出了所提方法与 ShanghaiTech 其他 SOTA 弱监督方法的帧级 AUC 比较。最佳分数以粗体显示，亚军以下划线显示。在 ShanghaiTech，所提出的 IFS-VAD 使用 I3D 特征实现了 95.64% 的 AUC，使用 CLIP 特征实现了 97.95% 的 AUC。值得注意的是，使用相同的 I3D 特征，我们的 IFS-VAD 比 AR-Net [54] 的性能高出 4.4%，这证明了特征余弦相似度优于特征欧几里得距离。

表 1

表 I ShanghaiTech 的帧级 AUC (％) 比较。

2）UCF-Crime 上的结果：

表 II 列出了所提方法与 UCF-Crime 上其他 SOTA 弱监督方法的帧级 AUC 比较。在 UCF-Crime 基准上，所提出的 IFS-VAD 使用 I3D 特征实现了 85.47% 的 AUC，使用 CLIP 特征实现了 86.57% 的 AUC。具体而言，使用相同的 I3D 特征，我们的 IFS-VAD 比 MSL [34] 高出 0.17%，这证明了所提出的多尺度时间网络的优越性，因为 MSL 的重点是充分利用长期时间信息。此外，与 Watanabe 等人的基于特征幅度的方法 [42] 和 RTFM [4] 相比，我们提出的基于特征相似性的方法取得了更好的性能。这一比较显示了特征相似性的优势，如 [42] 中所述，特征幅度很容易受到物体数量和运动强度等因素的影响。

表 2

表 II UCF-CRIME 的帧级 AUC (%) 比较。

3）XD-Violence 上的结果：

表 III 列出了所提出方法与其他 SOTA 弱监督方法在 XD-Violence 上的帧级 AP 比较。在 XD-Violence 基准上，所提出的 IFS-VAD 使用 I3D 特征实现 80.02% 的 AP，使用 CLIP 特征实现 83.14% 的 AP。使用相同的 CLIP 特征，IFS-VAD 比 CLIP-TSA 高出 0.95%，比使用文本模态的 LAP [62] 高出 0.54%。与基于自注意力的 CLIP-TSA 相比，所提出的方法对视频中的动态变化更敏感。

表 3

表 III XD-VIOLENCE 的帧级 AP (%) 比较。

D. 消融研究

为了研究所提方法的效果，基于基线模型进行了消融研究，该模型直接利用 CLIP 特征进行异常分类器训练，基线采用的损失函数为 MIL、稀疏性和平滑损失。

1）多尺度时间 MLP 的效果：

表 IV 总结了 MT-MLP 的消融结果。值得注意的是，MT-MLP 的参与对性能提升起到了重要作用。对于所提出的模型，如果没有 MT-MLP，所有基准测试中的性能都会下降。值得注意的是，在没有 MT-MLP 的情况下，XD-Violence 上的性能从 83.14% 下降到 71.54%。此外，与基线模型相比，MT-MLP 的参与在所有数据集上都带来了更好的性能。

表 4

表 IV 三个数据集的消融结果。

由于 MT-MLP 的目的是捕获和整合多尺度时间信息。为了证明 MT-MLP 中局部和全局分支的有效性，基于所提出的方法进行了消融研究。基于表 V 总结的结果，我们有以下观察结果：（1）删除局部或全局分支都会导致所有数据集的性能下降，这验证了短期和长期信息捕获的重要性。（2）相比全局分支，局部分支对性能提升的贡献更大。在不使用局部分支的情况下，性能显示在 Shanghai 上 AUC 下降了 0.79%，UCF-Crime 上 AUC 下降了 0.98%，XD-Violence 上 AP 下降了8.53%。同时，删除全局分支导致的性能下降较小。（3）与基线模型相比，添加全局分支导致ShanghaiTech上的性能下降。可能的原因是，3 层 MLP 足以拟合 ShanghaiTech 数据集，因为简单的分类器可以达到 97% 以上的 AUC。因此，Adam 优化器的随机性属性在结果中起主导作用，而增加全局分支的积极作用并不明显。尽管如此，局部和全局分支的结合仍然产生更好的结果，这验证了短期和长期时间信息融合的意义。

表 5

表 V MT-MLP 的消融结果。

我们进一步研究了 MT-MLP 与其他广泛使用的时间网络结构之间的差异，比较结果总结在表 VI 中。为了公平比较，HL-Net 中仅使用整体分支和全局，并且输出维度与输入对齐。与基于 GCN 的 HL-Net 相比，MT-MLP 在所有数据集上都取得了显着的改进。对于由时间 1D 卷积和自注意力组成的 MTN，MT-MLP 在 ShanghaiTech 和 UCF-Crime 上超越了它。然而，由于 MLP 的属性，MT-MLP 的参数大小大约是其他网络的 1.5 倍。不过，考虑到性能，复杂性是可以接受的。总之，与经典的时间网络结构相比，提出的基于 MLP 的网络表现出可观的性能。

图 6

表 VI 不同时间网络的比较。

2）IFS异常准则的影响：

如公式 (10) 所述，IFS由余弦相似度的均值和方差组成。为了证明所提出的 IFS 准则的有效性，对这两个组成进行了消融研究。根据表 VII 中总结的结果，均值或方差的消除在不同程度上导致了性能下降。然而，在基线模型中，均值或方差的使用都会导致 ShanghaiTech 和 UCF-Crime 上的性能下降。可能的原因是，均值和方差准则是互补的。因此，使用不完整的IFS准则使得模型难以学习基于特征相似性来辨别异常。同时，均值或方差的引入对 XD-Violence 上的性能有积极影响。这可能是因为 XD-Violence 中的场景更复杂，在这种情况下IFS准则效果更好。

表 7

表 VII IFS 消融结果。

E. 超参数评估

我们进一步研究了局部和全局分支的不同时间周期步长对 VAD 性能的影响。如表 VIII 所示， $stride_L$ 和 $stride_G$ 极大地影响了检测精度。很明显，32 个全局周期步长和 4 个局部周期步长的组合在 ShanghaiTech 和 UCF-Crime 数据集上取得了最佳性能。同时，16 和 2 的组合在 XD-Violence 上获得了最佳性能。这种现象可能来自数据集组成的差异。由于 ShanghaiTech 和 UCF-Crime 中的视频大多是从具有固定背景的监控摄像头中收集的。然而，XD-Violence 包含电影、体育和新闻视频。由于背景复杂且快速变化，较小的 $stride_G$ 带来了更好的性能。

在这里插入图片描述

表 VIII 不同

stride_L

和

stride_G

下的表现。

F. 定性结果

为了进一步评估 IFS-VAD 的有效性，图 4 展示了三个数据集的定性结果。图中展示了 9 个具有帧级异常分数的视频，包括左侧的 6 个异常视频（Arrest001、Explosion017、01 0053、05 0023、Bad.Boys.1995 #01-11-55 01-12-40 标签 G-B2-B6、Skyfall.2012 #00-03-22 00-03-40 标签 B6-0-0）和右侧的 3 个正常视频（Normal Videos 944、13 005、v=qhUItxoTrmg #1 标签 A）。如图所示，该模型可以准确检测短期（例如 Arrest001）和长期（例如 Explosion017）异常事件。然而，从 03_0031 中可以看出，所提出的 IFS-VAD 仍然难以辨别模糊异常与正常之间的差异。

图 4
图 4. ShanghaiTech (上行)、UCF-Crime (中行) 和 XD-Violence (下行) 数据集上的异常分数可视化。蓝线代表异常分数，橙色区域代表真实值。正常片段用蓝色虚线框出，异常片段用红色虚线框出

5. 结论

本文提出了一种基于 MLP 和特征相似性的 WSVAD 框架。由于 WSVAD 的发展受到两个主要制约因素的阻碍，即时间一致性和合适的异常标准。首先，为了应对捕捉不同尺度的时间一致性的挑战，我们设计了一个多尺度时间 MLP（MT-MLP）。为了使 MLP 能够处理长度不固定的视频数据，在时间维度上使用了 Cycle FC。为了获取多尺度时间信息，MT-MLP 包含两个具有不同时间步长的分支。其次，为了生成更可靠的伪标签，我们引入了一种基于特征相似性的异常标准，即剪辑间特征相似性（IFS）。通过计算视频余弦相似度与自身的均值和方差，可以得到 IFS 分数。在三个公共基准上进行的大量实验和与 SOTA 方法的比较验证了所提方法的优越性。然而，与最新的基于 CLIP 的方法相比，所提出的方法缺乏一定的可解释性，并且未能充分利用异常类别标签。未来，我们将进一步研究可靠且可解释的异常标准的设计，以实现更好的 WSVAD 性能。

参考文献

[1] W. Sultani, C. Chen, and M. Shah, “Real-world anomaly detection in surveillance videos,” in 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018, pp. 6479–6488.
[2] W. Li, V. Mahadevan, and N. Vasconcelos, “Anomaly detection and localization in crowded scenes,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 36, no. 1, pp. 18–32, 2014.
[3] R. Mehran, A. Oyama, and M. Shah, “Abnormal crowd behavior detec- tion using social force model,” in 2009 IEEE Conference on Computer Vision and Pattern Recognition, 2009, pp. 935–942.
[4] Y. Tian, G. Pang, Y. Chen, R. Singh, J. W. Verjans, and G. Carneiro, “Weakly-supervised video anomaly detection with robust temporal fea- ture magnitude learning,” in 2021 IEEE/CVF International Conference on Computer Vision (ICCV), 2021, pp. 4955–4966.
[5] J.-C. Feng, F.-T. Hong, and W.-S. Zheng, “Mist: Multiple instance self- training framework for video anomaly detection,” in 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 14 004–14 013.
[6] S. Park, H. Kim, M. Kim, D. Kim, and K. Sohn, “Normality guided mul- tiple instance learning for weakly supervised video anomaly detection,” in 2023 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2023, pp. 2664–2673.
[7] H. Sapkota and Q. Yu, “Bayesian nonparametric submodular video partition for robust anomaly detection,” in 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022, pp. 3202– 3211.
[8] Y. Gong, C. Wang, X. Dai, S. Yu, L. Xiang, and J. Wu, “Multi- scale continuity-aware refinement network for weakly supervised video anomaly detection,” in 2022 IEEE International Conference on Multi- media and Expo (ICME), 2022, pp. 1–6.
[9] H.Lv,Z.Yue,Q.Sun,B.Luo,Z.Cui,andH.Zhang,“Unbiasedmultiple instance learning for weakly supervised video anomaly detection,” in 2023 IEEE/CVF Conference on Computer Vision and Pattern Recogni- tion (CVPR), 2023, pp. 8022–8031.
[10] C. Zhang, G. Li, Y. Qi, S. Wang, L. Qing, Q. Huang, and M.-H. Yang, “Exploiting completeness and uncertainty of pseudo labels for weakly supervised video anomaly detection,” in 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023, pp. 16271– 16 280.
[11] Y. Chen, Z. Liu, B. Zhang, W. Fok, X. Qi, and Y.-C. Wu, “Mgfn: Magnitude-contrastive glance-and-focus network for weakly-supervised video anomaly detection,” in Proceedings of the AAAI Conference on Artificial Intelligence, vol. 37, no. 1, 2023, pp. 387–395.
[12] Y. Pu and X. Wu, “Locality-aware attention network with discriminative dynamics learning for weakly supervised anomaly detection,” in 2022 IEEE International Conference on Multimedia and Expo (ICME), 2022, pp. 1–6.
[13] H. Zhou, J. Yu, and W. Yang, “Dual memory units with uncertainty reg- ulation for weakly supervised video anomaly detection,” in Proceedings of the AAAI Conference on Artificial Intelligence, vol. 37, no. 3, 2023, pp. 3769–3777.
[14] G. Li, G. Cai, X. Zeng, and R. Zhao, “Scale-aware spatio-temporal relation learning for video anomaly detection,” in European Conference on Computer Vision. Springer, 2022, pp. 333–350.
[15] H. K. Joo, K. Vo, K. Yamazaki, and N. Le, “Clip-tsa: Clip-assisted temporal self-attention for weakly-supervised video anomaly detection,” in 2023 IEEE International Conference on Image Processing (ICIP), 2023, pp. 3230–3234.
[16] P. Wu, X. Zhou, G. Pang, L. Zhou, Q. Yan, P. Wang, and Y. Zhang, “Vadclip: Adapting vision-language models for weakly supervised video anomaly detection,” in Proceedings of the AAAI Conference on Artificial Intelligence, vol. 38, no. 6, 2024, pp. 6074–6082.
[17] Y. Fan, Y. Yu, W. Lu, and Y. Han, “Weakly-supervised video anomaly detection with snippet anomalous attention,” IEEE Transactions on Circuits and Systems for Video Technology, pp. 1–1, 2024.
[18] J.-C. Wu, H.-Y. Hsieh, D.-J. Chen, C.-S. Fuh, and T.-L. Liu, “Self- supervised sparse representation for video anomaly detection,” in Euro- pean Conference on Computer Vision. Springer, 2022, pp. 729–745.
[19] C. Cao, X. Zhang, S. Zhang, P. Wang, and Y. Zhang, “Weakly supervised video anomaly detection based on cross-batch clustering guidance,” in 2023 IEEE International Conference on Multimedia and Expo (ICME), 2023, pp. 2723–2728.
[20] W. Liu, W. Luo, D. Lian, and S. Gao, “Future frame prediction for anomaly detection - a new baseline,” in 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018, pp. 6536–6545.
[21] H. Wang, Z. Li, L. Feng, and W. Zhang, “Vim: Out-of-distribution with virtual-logit matching,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2022, pp. 4921–4930.
[22] H. Wei, R. Xie, H. Cheng, L. Feng, B. An, and Y. Li, “Mitigating neural network overconfidence with logit normalization,” in Proceedings of the 39th International Conference on Machine Learning, ser. Proceedings of Machine Learning Research, K. Chaudhuri, S. Jegelka, L. Song, C. Szepesvari, G. Niu, and S. Sabato, Eds., vol. 162. PMLR, 17–23 Jul 2022, pp. 23 631–23 644.
[23] Z. Zhang and X. Xiang, “Decoupling maxlogit for out-of-distribution detection,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2023, pp. 3388–3397.
[24] Y. Yu, S. Shin, S. Lee, C. Jun, and K. Lee, “Block selection method for using feature norm in out-of-distribution detection,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2023, pp. 15 701–15 711.
[25] D. Hendrycks, S. Basart, M. Mazeika, A. Zou, J. Kwon, M. Mostajabi, J. Steinhardt, and D. Song, “Scaling out-of-distribution detection for real-world settings,” in Proceedings of the 39th International Conference on Machine Learning, ser. Proceedings of Machine Learning Research, K. Chaudhuri, S. Jegelka, L. Song, C. Szepesvari, G. Niu, and S. Sabato, Eds., vol. 162. PMLR, 17–23 Jul 2022, pp. 8759–8773.
[26] K. Bibas, M. Feder, and T. Hassner, “Single layer predictive normalized maximum likelihood for out-of-distribution detection,” in Advances in Neural Information Processing Systems, M. Ranzato, A. Beygelzimer, Y. Dauphin, P. Liang, and J. W. Vaughan, Eds., vol. 34. Curran Associates, Inc., 2021, pp. 1179–1191.
[27] K. Lee, K. Lee, H. Lee, and J. Shin, “A simple unified framework for detecting out-of-distribution samples and adversarial attacks,” in Advances in Neural Information Processing Systems, S. Bengio, H. Wal- lach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, and R. Garnett, Eds., vol. 31. Curran Associates, Inc., 2018.
[28] D. Hendrycks and K. Gimpel, “A baseline for detecting misclassified and out-of-distribution examples in neural networks,” in International Conference on Learning Representations, 2016.
[29] W. Liu, X. Wang, J. Owens, and Y. Li, “Energy-based out-of-distribution detection,” in Advances in Neural Information Processing Systems, H. Larochelle, M. Ranzato, R. Hadsell, M. Balcan, and H. Lin, Eds., vol. 33. Curran Associates, Inc., 2020, pp. 21 464–21 475.
[30] Y. Sun, Y. Ming, X. Zhu, and Y. Li, “Out-of-distribution detection with deep nearest neighbors,” in Proceedings of the 39th International Conference on Machine Learning, ser. Proceedings of Machine Learning Research, K. Chaudhuri, S. Jegelka, L. Song, C. Szepesvari, G. Niu, and S. Sabato, Eds., vol. 162. PMLR, 17–23 Jul 2022, pp. 20 827–20 840.
[31] S. Andrews, I. Tsochantaridis, and T. Hofmann, “Support vector ma- chines for multiple-instance learning,” in Advances in Neural Informa- tion Processing Systems, S. Becker, S. Thrun, and K. Obermayer, Eds., vol. 15. MIT Press, 2002.
[32] T. G. Dietterich, R. H. Lathrop, and T. Lozano-Pe ́rez, “Solving the multiple instance problem with axis-parallel rectangles,” Artificial In- telligence, vol. 89, no. 1, pp. 31–71, 1997.
9
[33] M. Cho, M. Kim, S. Hwang, C. Park, K. Lee, and S. Lee, “Look around for anomalies: Weakly-supervised anomaly detection via context-motion relational learning,” in 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023, pp. 12 137–12 146.
[34] S. Li, F. Liu, and L. Jiao, “Self-training multi-sequence learning with transformer for weakly supervised video anomaly detection,” Proceed- ings of the AAAI Conference on Artificial Intelligence, vol. 36, no. 2, pp. 1395–1403, Jun. 2022.
[35] M. Z. Zaheer, A. Mahmood, M. Astrid, and S.-I. Lee, “Clustering aided weakly supervised training to detect anomalous events in surveillance videos,” IEEE Transactions on Neural Networks and Learning Systems, pp. 1–14, 2023.
[36] C. Zhang, G. Li, Y. Qi, H. Ye, L. Qing, M.-H. Yang, and Q. Huang, “Dy- namic erasing network based on multi-scale temporal features for weakly supervised video anomaly detection,” arXiv preprint arXiv:2312.01764, 2023.
[37] Y. Zhou, Y. Qu, X. Xu, F. Shen, J. Song, and H. Shen, “Batchnorm- based weakly supervised video anomaly detection,” arXiv preprint arXiv:2311.15367, 2023.
[38] Y. Wang, J. Zhou, and J. Guan, “A lightweight video anomaly detection model with weak supervision and adaptive instance selection,” arXiv preprint arXiv:2310.05330, 2023.
[39] H. Zhang, X. Wang, X. Xu, X. Huang, C. Han, Y. Wang, C. Gao, S. Zhang, and N. Sang, “Glancevad: Exploring glance supervision for label-efficient video anomaly detection,” 2024.
[40] X. Zhu, Q. Sheng, D. Li, and S. Li, “Local attention base on time masks for weakly supervised video anomaly detection,” in 2023 8th International Conference on Information Systems Engineering (ICISE), 2023, pp. 121–125.
[41] J.-X. Zhong, N. Li, W. Kong, S. Liu, T. H. Li, and G. Li, “Graph convolutional label noise cleaner: Train a plug-and-play action classifier for anomaly detection,” in 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 1237–1246.
[42] Y. Watanabe, M. Okabe, Y. Harada, and N. Kashima, “Real-world video anomaly detection by extracting salient features in videos,” IEEE Access, vol. 10, pp. 125 052–125 060, 2022.
[43] S. Sun and X. Gong, “Long-short temporal co-teaching for weakly super- vised video anomaly detection,” in 2023 IEEE International Conference on Multimedia and Expo (ICME), 2023, pp. 2711–2716.
[44] I. O. Tolstikhin, N. Houlsby, A. Kolesnikov, L. Beyer, X. Zhai, T. Un- terthiner, J. Yung, A. Steiner, D. Keysers, J. Uszkoreit, M. Lucic, and A. Dosovitskiy, “Mlp-mixer: An all-mlp architecture for vision,” in Advances in Neural Information Processing Systems, M. Ranzato, A. Beygelzimer, Y. Dauphin, P. Liang, and J. W. Vaughan, Eds., vol. 34. Curran Associates, Inc., 2021, pp. 24 261–24 272.
[45] H. Touvron, P. Bojanowski, M. Caron, M. Cord, A. El-Nouby, E. Grave, G. Izacard, A. Joulin, G. Synnaeve, J. Verbeek, and H. Je ́gou, “Resmlp: Feedforward networks for image classification with data-efficient train- ing,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 45, no. 4, pp. 5314–5321, 2023.
[46] C. Tang, Y. Zhao, G. Wang, C. Luo, W. Xie, and W. Zeng, “Sparse mlp for image recognition: Is self-attention really necessary?” Proceedings of the AAAI Conference on Artificial Intelligence, vol. 36, no. 2, pp. 2344–2351, Jun. 2022.
[47] S. Chen, E. Xie, C. Ge, R. Chen, D. Liang, and P. Luo, “Cyclemlp: A mlp-like architecture for dense prediction. arxiv 2021,” arXiv preprint arXiv:2107.10224.
[48] J. Carreira and A. Zisserman, “Quo vadis, action recognition? a new model and the kinetics dataset,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017.
[49] D. Hendrycks and K. Gimpel, “Gaussian error linear units (gelus),” arXiv preprint arXiv:1606.08415, 2016.
[50] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2016.
[51] P. Wu, J. Liu, Y. Shi, Y. Sun, F. Shao, Z. Wu, and Z. Yang, “Not only look, but also listen: Learning multimodal violence detection under weak supervision,” in Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XXX 16. Springer, 2020, pp. 322–339.
[52] T. Liu, C. Zhang, K.-M. Lam, and J. Kong, “Decouple and resolve: Transformer-based models for online anomaly detection from weakly labeled videos,” IEEE Transactions on Information Forensics and Secu- rity, vol. 18, pp. 15–28, 2023.
[53] G. Li, S. Chen, Y. Yang, and Z. Guo, “A two-branch network for video anomaly detection with spatio-temporal feature learning,” in ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and
Signal Processing (ICASSP), 2023, pp. 1–5.
[54] B. Wan, Y. Fang, X. Xia, and J. Mei, “Weakly supervised video
anomaly detection via center-guided discriminative learning,” in 2020 IEEE International Conference on Multimedia and Expo (ICME), 2020, pp. 1–6.
[55] Z. Yang, Y. Guo, J. Wang, D. Huang, X. Bao, and Y. Wang, “Towards video anomaly detection in the real world: A binarization embedded weakly-supervised network,” IEEE Transactions on Circuits and Systems for Video Technology, pp. 1–1, 2023.
[56] C. Huang, C. Liu, J. Wen, L. Wu, Y. Xu, Q. Jiang, and Y. Wang, “Weakly supervised video anomaly detection via self-guided temporal discriminative transformer,” IEEE Transactions on Cybernetics, vol. 54, no. 5, pp. 3197–3210, 2024.
[57] D. Zhang, C. Huang, C. Liu, and Y. Xu, “Weakly supervised video anomaly detection via transformer-enabled temporal relation learning,” IEEE Signal Processing Letters, vol. 29, pp. 1197–1201, 2022.
[58] X. Zhu, Q. Sheng, D. Li, and S. Li, “Local attention base on time masks for weakly supervised video anomaly detection,” in 2023 8th International Conference on Information Systems Engineering (ICISE), 2023, pp. 121–125.
[59] Y. Zhou, Y. Qu, X. Xu, F. Shen, J. Song, and H. T. Shen, “Batchnorm- based weakly supervised video anomaly detection,” IEEE Transactions on Circuits and Systems for Video Technology, pp. 1–1, 2024.
[60] T. M. Tran, D. C. Bui, T. V. Nguyen, and K. Nguyen, “Transformer- based spatio-temporal unsupervised traffic anomaly detection in aerial videos,” IEEE Transactions on Circuits and Systems for Video Technol- ogy, pp. 1–1, 2024.
[61] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, G. Krueger, and I. Sutskever, “Learning transferable visual models from natural language supervi- sion,” CoRR, vol. abs/2103.00020, 2021.
[62] C.Tao,C.Wang,Y.Zou,X.Peng,J.Wu,andJ.Qian,“Learnsuspected anomalies from event prompts for video anomaly detection,” arXiv preprint arXiv:2403.01169, 2024.
[63] Y. Zhong, Y. Hu, P. Tang, and H. Wang, “Associative memory with spatio-temporal enhancement for video anomaly detection,” IEEE Signal Processing Letters, vol. 30, pp. 1212–1216, 2023.
[64] Y. Zhong, X. Chen, Y. Hu, P. Tang, and F. Ren, “Bidirectional spatio- temporal feature learning with multiscale evaluation for video anomaly detection,” IEEE Transactions on Circuits and Systems for Video Tech- nology, vol. 32, no. 12, pp. 8285–8296, 2022.
[65] Y. Zhong, X. Chen, J. Jiang, and F. Ren, “A cascade reconstruction model with generalization ability evaluation for anomaly detection in videos,” Pattern Recognition, vol. 122, p. 108336, 2022.
[66] S. Majhi, R. Dai, Q. Kong, L. Garattoni, G. Francesca, and F. Bre ́mond, “Oe-ctst: Outlier-embedded cross temporal scale transformer for weakly- supervised video anomaly detection,” in 2024 IEEE/CVF Winter Confer- ence on Applications of Computer Vision (WACV), 2024, pp. 8559–8568.
[67] P.Wu,X.Zhou,G.Pang,Y.Sun,J.Liu,P.Wang,andY.Zhang,“Open- vocabulary video anomaly detection,” in 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024, pp. 18297– 18 307.
[68] Z. Yang, J. Liu, and P. Wu, “Text prompt with normality guidance for weakly supervised video anomaly detection,” in 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024, pp. 18 899–18 908.