多层记忆增强外观-运动对齐框架用于视频异常检测 论文阅读

news2024/11/22 21:52:53

MULTI-LEVEL MEMORY-AUGMENTED APPEARANCE-MOTION CORRESPONDENCE FRAMEWORK FOR VIDEO ANOMALY DETECTION 论文阅读

  • 摘要
  • 1.介绍
  • 2.方法
    • 2.1外观和运动对其建模
    • 2.2.记忆引导抑制模块
    • 2.3. Training Loss
    • 2.4. Anomaly Detection
  • 3.实验与结果
  • 4.结论

论文标题:MULTI-LEVEL MEMORY-AUGMENTED APPEARANCE-MOTION CORRESPONDENCE FRAMEWORK FOR VIDEO ANOMALY DETECTION

文章信息:
在这里插入图片描述
发表于:ICME 2023(CCF B类会议)
原文链接:https://arxiv.org/abs/2303.05116
源代码:无

摘要

基于AutoEncoder的帧预测在无监督视频异常检测中发挥着重要作用。理想情况下,在正常数据上训练的模型可以产生更大的异常预测误差。然而,外观和运动信息之间的相关性没有得到充分利用,这使得模型缺乏对正常模式的理解。此外,由于深度AutoEncoder不可控制的可推广性,这些模型不能很好地工作。为了解决这些问题,
我们提出了一个多级记忆增强外观运动对应框架。通过外观-运动语义对齐和语义替换训练,探索外观和运动之间潜在的对应关系。
此外,我们还引入了一种内存引导抑制模块,该模块利用与正常原型特征的差异来抑制跳跃连接引起的重建容量,实现了正常数据的良好重建和异常数据的不良重建之间的折衷。
实验结果表明,我们的框架优于最先进的方法,在UCSD Ped2、中大大道和ShanghaiTech数据集上实现了99.6%、93.8%和76.3%的AUC。

1.介绍

本文共享如下:

  • 提出了一个多级记忆增强的外观-运动对齐框架,该框架使用正常和异常数据之间的外观和运动语义一致的相关性间隙来发现异常。
  • 介绍了一种多尺度记忆引导抑制模块,它实现了对正常数据的良好重建和对异常数据的较差重建之间的折衷。
  • 在三个基准数据集上的大量实验表明,所提出的框架优于最先进的方法。

2.方法

如图1(a)所示,所提出的多级记忆增强外观运动对应框架由三部分组成:双流编码器、解码器和多尺度记忆引导抑制模块(MGSM)。我们将视频帧剪辑和相应的光流输入到双流编码器中。
外观自动编码器 E φ E_φ Eφ用于学习外观特征,运动自动编码器 E θ E_θ Eθ用于学习运动特征。
所提出的外观-运动语义对齐损失作用于瓶颈编码层的外观和运动特征,并且我们将运动特征而不是外观特征馈送到解码器 E φ E_φ Eφ中,以预测未来帧,其中建立了外观和运动信息之间的关系。同时,所提出的MGSM利用了多个编码层的多尺度下采样特征,在抑制异常数据的同时,加强了对正常数据的预测。以下小节详细介绍了所有组件。
在这里插入图片描述

2.1外观和运动对其建模

在这里插入图片描述
如上图所示:外观编码器输入t个帧,用于预测第t+1帧,外观编码器 E φ E_φ Eφ得到的输出为 f a f_a fa,运动编码器输入对应的t张光流图,外观编码器 E θ E_θ Eθ得到的输出为 f m f_m fm。为了让外观和运动对其,作者最小化了 f a f_a fa f m f_m fm的余弦距离(目的应该是更好的结合外观和运动的信息),如公式(1)所示:
在这里插入图片描述
此外,为了对外观和运动信号具有共同行为语义的显式关系进行建模,作者将外观特征 f a f_a fa替换为运动特征 f m f_m fm到解码器 D φ D_φ Dφ中,以预测未来的帧。由于只有前景物体的运动信息在形式上,这将减轻复杂背景的副作用,也直接建立外观和运动之间的互补关系。

2.2.记忆引导抑制模块

所提出的MGSM的体系结构如图1(b)所示。MGSM被训练来学习和压缩多个原型,这些原型存储整个训练集的正态性。我们用MGSM装备编码器E和解码器 D φ D_φ Dφ之间的所有跳跃连接。MGSM使用输入编码特征和存储的正常原型之间的相似性来计算抑制器,该抑制器抑制对应编码特征的表示。它避免了学习从输入到输出的身份映射,这将使正常和异常不可分割。
在这里插入图片描述
具体而言,给定连续的帧作为输入,编码器 E φ E_φ Eφ生成一组特征图{ f 1 f_1 f1 f 2 f_2 f2,…, f L − 1 f_{L−1} fL1},其中L是下采样尺度的数量。对于每个大小为 H i × W i × C i H^i × W^i × C^i Hi×Wi×Ci的特征图 f i f_i fi,我们将其展平为一个向量,并用作记忆库的查询 q k q^k qk。对于记忆库,我们遵循[3]的方法进行实现。每个记忆库是一个可学习的矩阵 M ∈ R N × D M ∈ R^{N×D} MRN×D,由包含固定维度D的N个记忆项组成,用于在训练期间记录原型正常模式。M的第j行向量是一个记忆项 m j ∈ R D ( j ∈ 1 , 2 , . . . , N ) m_j ∈ R^D(j ∈ {1, 2, ..., N}) mjRDj1,2,...,N。类似于[3, 8],通过计算查询 q k q^k qk与每个项 m j m_j mj之间的相似性,来解决记忆化的正常性,具体表现为计算基于这种相似性的注意权重w,如公式(2)所示:
在这里插入图片描述
基于注意权重 w ∈ R 1 × N w∈R^{1×N} wR1×N,得到了一个抑制器λ。不是在以前的工作中对存储器项进行线性组合,而是通过跳过连接直接用于解码器的新特征 q ^ k \widehat{q}^k q k由公式(3)重新计算:
在这里插入图片描述
其中σ表示ReLU激活函数,max返回输入注意力权重w中的最大值,norm表示批量归一化。MGSM通过抑制编码特征的表示而不是重新生成它们来实现可控的重建能力,缓解了由于高度依赖于存储器大小而导致的不稳定的VAD性能。

2.3. Training Loss

像素损失:
在这里插入图片描述
图像梯度损失(其中i、j表示视频帧的空间索引):
在这里插入图片描述
外观运动对齐损失(理解为外观和运动的相似性,越小越好):
在这里插入图片描述
记忆模块的紧凑和分离损失:

  • 紧凑损失:
    在这里插入图片描述
  • 分离损失:
    在这里插入图片描述
    其中 m 1 i m^i_1 m1i m 2 i m^i_2 m2i表示与查询 q i q^i qi最接近的第一和第二存储器项。

最后总的损失函数如下:
在这里插入图片描述
其中, λ i n t λ_{int} λint λ g d λ_{gd} λgd λ a l i g n λ_{align} λalign λ c o m p λ_{comp} λcomp λ d i v e r λ_{diver} λdiver是平衡超参数,W是模型的参数, λ m o d e l λ_{model} λmodel是控制模型复杂性的正则化超参数。

2.4. Anomaly Detection

在测试阶段,异常评分由两部分组成:
(1) 未来帧预测误差
S p = ∣ ∣ I ^ − I ∣ ∣ 2 2 S_p=||\widehat{I} - I||_2^2 Sp=∣∣I I22
(2) 外观与运动特征的不一致
在这里插入图片描述
然后,通过使用加权策略将这两部分融合,得到最终的异常分数,具体如下:
在这里插入图片描述
其中, u p u_p up δ p δ_p δp u f u_f uf δ f δ_f δf表示所有正常训练样本的预测误差的均值和标准差,以及外观和运动特征之间的不一致性。 w p w_p wp w f w_f wf表示两个分数的权重。

3.实验与结果

作者的网络结构图如下:
在这里插入图片描述

实验结果(在3个常见的视频异常检测数据集中:):
在这里插入图片描述

4.结论

在本文中,提出了一种用于视频异常检测的多级记忆增强外观运动对应框架。
通过所提出的外观-运动语义对齐丢失和预测的语义替换,显式地对外观和异常分数之间的相关性进行了建模。
同时,所提出的MGSM不仅实现了正常数据的良好重建和异常数据的较差重建之间的折衷,而且克服了复杂场景中性能下降的问题。
在三个基准数据集上的大量实验结果表明,方法比最先进的方法性能更好。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1317715.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

重磅!大模型(LLMs)排行榜清单发布!

目前,人工智能领域呈现出一片蓬勃发展的景象,大型模型成为了激发这一繁荣的关键引擎。 国内不仅涌现了众多大模型,而且它们的发展速度之快令人瞩目。这种全面拥抱大型模型的态势为整个人工智能生态系统赋予了新的活力,让我们对国…

栈——OJ题

📘北尘_:个人主页 🌎个人专栏:《Linux操作系统》《经典算法试题 》《C》 《数据结构与算法》 ☀️走在路上,不忘来时的初心 文章目录 一、最小栈1、题目讲解2、思路讲解3、代码实现 二、栈的压入、弹出序列1、题目讲解2、思路讲解…

CCD相机为什么需要积分球均匀光源

积分球内腔是一个具备高漫反射特性的收光球,其内部中空、内球面均匀地涂有漫反射材料,具有匀光与混光的作用,因此常常被用来做收光的均光球。由于光源性能等因素的影响,可能导致出射光线带偏振方向、出光不均匀,使用积…

Windows11环境下配置深度学习环境(Pytorch)

目录 1. 下载安装Miniconda2. 新建Python3.9虚拟环境3. 下载英伟达驱动4. 安装CUDA版Pytorch5. CPU版本pytorch安装 1. 下载安装Miniconda 下载安装包:镜像文件地址 将Miniconda相关路径添加至系统变量的路径中。 打开Anaconda Powershell Prompt,输入…

【C++学习————引用】

【C学习——————引用】 欢迎阅读新一期的c模块————引用 ✒️个人主页:-Joker- 🏷️专栏:C 📜代码仓库:c_code 🌹🌹欢迎大佬们的阅读和三连关注,顺着评论回访🌹&a…

秋招上岸记录咕咕咕了。

思考了一下,感觉并没有单独写这样一篇博客的必要。 能够写出来的,一些可能会对人有帮助的东西都做进了视频里面,未来会在blbl发布,目前剪辑正在施工中(?) 另外就是,那个视频里面使…

Win11 跑通tensorRT

cuda_12.3.1_546.12_windows TensorRT-8.6.1.6.Windows10.x86_64.cuda-12.0 cudnn-windows-x86_64-8.9.7.29_cuda12-archive 准备 1.安装cuda,成功之后文件夹如下图所示 2.下载cudnn,把cudnn对应的文件放在cuda里面 3.安装vs 4.安装对应cuda版本的te…

DevOps常用工具全家桶,实现高效运维和交付

专栏集锦,大佬们可以收藏以备不时之需: Spring Cloud 专栏:http://t.csdnimg.cn/WDmJ9 Python 专栏:http://t.csdnimg.cn/hMwPR Redis 专栏:http://t.csdnimg.cn/Qq0Xc TensorFlow 专栏:http://t.csdni…

Linux c++开发-06-使用Linux API 进行文件的读写

先简单的介绍一下open,read,write 先用open接口去打开文件,flag表示打开文件的权限不同。 int open(const char *pathname, int flags); int open(const char *pathname, int flags, mode_t mode);示例 结果:

基于AT89C51单片机的LED点阵显示屏设计

点击链接获取Keil源码与Project Backups仿真图: [[https://download.csdn.net/download/qq_64505944/88637464?spm1001.2014.3001.5503]] **[源码获取] B 源码仿真图课程设计50 工程实训(三)课题设计 班级: …

FPGA — Vivado下ILA(逻辑分析仪)详细使用方法

使用软件: Vivado 开发板: EGO1采用Xilinx Artix-7系列XC7A35T-1CSG324C FPGA 使用程序:按键案例 ILA详细使用方法 一、ILA简介二、ILA的使用方法方法1 — 使用IP核创建ILA调试环境创建ILA IP核 方法二 — 使用 Debug 标记创建 ILA对需观察信…

使用IDEA创建springboot依赖下载很慢,解决方法

显示一直在resolving dependencies,速度很慢 原因:maven会使用远程仓库来加载依赖,是一个国外的网站,所以会很慢。应该使用阿里云的镜像,这样速度会提升很多。 步骤:1.右击pom.xml,选择"m…

DevEco Studio 项目鸿蒙(HarmonyOS)多语言

DevEco Studio 项目鸿蒙(HarmonyOS)多语言 一、操作环境 操作系统: Windows 10 专业版 IDE:DevEco Studio 3.1 SDK:HarmonyOS 3.1 二、多语言 新版本IDE可以创建多语言的文件夹,在entry->src->main->resources下,修…

图像识别完整项目之Swin-Transformer,从获取关键词数据集到训练的完整过程

0. 前言 图像分类的大部分经典神经网络已经全部介绍完,并且已经作了测试 代码已经全部上传到资源,根据文章名或者关键词搜索即可 LeNet :pytorch 搭建 LeNet 网络对 CIFAR-10 图片分类 AlexNet : pytorch 搭建AlexNet 对花进行分…

为什么Apache Doris适合做大数据的复杂计算,MySQL不适合?

为什么Apache Doris适合做大数据的复杂计算,MySQL不适合? 一、背景说明二、DB架构差异三、数据结构差异四、存储结构差异五、总结 一、背景说明 经常有小伙伴发出这类直击灵魂的疑问: Q:“为什么Apache Doris适合做大数据的复杂计…

相机倾斜棋盘格标定全记录 vs200+opencv安装

论文参考是这个 Geiger A, Moosmann F, Car , et al. Automatic camera and range sensor calibration using a single shot[C]//Robotics and Automation (ICRA), 2012 IEEE International Conference on. IEEE, 2012: 3936-3943. 代码是这个github 花了一上午配好了c环境。。…

Activiti工作流框架学习笔记(一)之通用数据表详细介绍

文/朱季谦 Activiti工作流引擎自带了一套数据库表,这里面有一个需要注意的地方: 低于5.6.4的MySQL版本不支持时间戳或毫秒级的日期。更糟糕的是,某些版本在尝试创建此类列时将引发异常,而其他版本则不会。执行自动创建/升级时&a…

ARM架构简析

全局与局量等知识 断电后,程序以及数据都在FLASH中。 断电后,内存中就没有变量了。 程序在烧在FLASH中的; 程序运行的时候,全局变量的初始值,必然是从FLAASH中的来的: 初始化全局变量的过程:…

HBuilder X将Vue打包APP返回上一页退出问题、清除缓存页面历史防止返回登录页(上一页)、以及状态栏颜色切换

目录 一、返回上一页退出问题 二、清除缓存页面历史防止返回上一页 三、状态栏颜色切换 一、返回上一页退出问题 1.首先重新认识一下vue的页面跳转,这里我只说常用到的两个 goSkip(){//直接跳转this.$router.push(/test);this.$router.replace(/test);//带参数跳…

一键安装下载3ds Max!别墅还是宫殿?3ds Max助你建造梦幻般的艺术建筑

不再浪费时间在网上寻找3ds Max的安装包了!因为你所需要的一切都可以在这里找到!作为一款全球领先的3D设计工具,3ds Max为创作者们带来了前所未有的便利和创作灵感。无论是建筑设计、影视特效还是游戏开发,3ds Max都能帮助你实现想…