异常检测相关论文记录

news2025/1/15 23:43:03

1、Unsupervised anomaly detection algorithms on real-world data: how many do we need?真实世界数据的无监督异常检测算法:我们需要多少?

Abstract:

  1. 将所考虑的算法在所有数据集上的相对性能进行可视化和聚类,我们确定了两个明确的聚类:一个具有“局部”数据集,另一个具有“全局”数据集。
  2. 在局部数据集上,kNN算法名列前茅。在全局数据集上,EIF(扩展隔离林)算法的性能最好。

Introduction

所陈述的先前论文研究中发现表现较好的些算法:

  1. Isolation Forest 适用于检测全局异常
  2. ABOD (Angle-Based anomaly Detection) /  LOF (Local anomaly Factor)(数据中存在多个聚类时)
  3. kNN 通常给出稳定的结果,推荐用于全局异常
  4. LOF适用于检测局部异常、依赖异常
  5. KDE(内核密度估计)表现还行,但一般不咋健壮,无法计算更大的数据集
  6. OCSVM (One-Class Support Vector Machine) 表现一般不怎么好,使用比其他算法大很多的验证集才能优化其性能

Background

  • 全局异常:是可以从正常数据中分离出来的点
  • 局部异常:位于密度较附近正常区域低的区域

  1. 在许多实际情况下,异常并不是单一的,一小群异常形成集群,导致集群异常

 Materials and Methods

  • 为每种方法、数据集组合得出单个平均ROC-AUC分数
  • 避免优化超参数

数据

  • 实值、多元、表格数据

数据的处理步骤:

  1. 从每个数据集中删除所有重复的样本
  2. 所有数据集中的所有变量都被缩放和居中(中位数和四分位数范围受异常存在的影响都小于平均值和标准差。当已知存在异常时,该程序通常被认为比标准化更稳定)

  • 通常评估异常分数比某些算法产生的二值标签更有用
  • 异常检测评估中最常用的指标根据ROC(接收者工作特征)曲线产生的AUC(曲线下面积)值计算每个算法-数据集组合的性能
  • 使用Iman-Davenport统计量(Iman and Davenport, 1980)来确定算法之间是否存在显著差异。(如果该统计量低于对应于p值0.05的期望临界值,我们应用Nemenyi事后检验(Nemenyi, 1963),然后评估哪些算法彼此显著不同。)
  • ,用a中的一个算法和d中的一个数据集

Discussion

  •  分类算法的数量大大超过了异常检测算法的数量

Conclusion

用户应该在什么时候应用哪种异常检测方法来解决他们的问题

  1. 用户对其数据集是否包含局部或全局异常没有先验知识时:k-thNN是最佳选择
  2. 已知数据集包含局部异常时:性能最好的方法是kNN
  3. 仅包含全局异常的数据集:IF(隔离森林) / EIF。此两种方法计算复杂度低、应用较好

2、Anomalous Instance Detection In Deep Learning: A Survey

根据异常对应的训练数据标签的可用性对这些技术进行分类,即监督、半监督和无监督技术。

Unintentional Anomaly Detection 无意异常检测

无监督:基于GAN的架构用于比较生成图像与测试图像的瓶颈特征、

Inintentional Anomaly Detection 有意异常检测

DNN非常容易受到测试时间对抗样例的影响——人类难以察觉的扰动,当将其添加到任何图像时,都会导致其高概率被错误分类。

  • 监督:从标记的训练样例中学习边界。可能会过拟合
  • 无监督:灵活性、适用性。灵活性以鲁棒性未代价,对噪声和数据损坏非常敏感。不如监督、半监督准确。
  • 半监督:利用标记的数据分布和未标记的数据提升无监督技术的性能,存在过拟合问题

启发式的方法是需要手动选择参数的,比如KNN。

一般来说,基于距离(KNN)和基于投影(GAN)的方法在测试阶段的计算成本很高。

Application Domains 应用领域

  • Intrusion Detection 入侵检测。一个关键挑战是庞大的数据量和复杂的恶意模式,DL在此有广阔的应用前景
  • Fraud Detection 欺诈检测。需准确地识别欺诈交易,实时检测。曾用到LSTM、CNN等。
  • Healthcare and Industrial Domains 医疗保健和工业领域检测。要求准确性,易受到OOD和对抗性示例的影响。
  • Malware Detection 恶意软件检测。监控计算机系统的活动来检测恶意软件。
  • Time Series and Video Surveillance Anomaly Detection 时间序列和视频监控异常检测。基于RNN和LSTM的方法在多变量时间序列数据异常检测中表现良好。

Conclusion

  1. 根据异常示例标签的可用性使用的度量类型对异常检测算法进行分类。对集成检测方法的探索可能是一个有价值的未来方向。集成方法将提供互补优势的多个检测器的输出组合成一个检测器,从而与使用单个检测器相比产生更好的性能。
  2. Going beyond image classification 超越图像分类,超越分类问题,探索基于深度学习的对象检测、控制和规划问题中的异常设计和检测可能是未来一个具有重要影响的研究方向。
  3. heoretical analysis and Fundamental Limits 理论分析和基本限制,在有种模式中,大多数基于启发式的防御(包括后检测和基于训练的)很容易被新的攻击打破。发展连贯的理论和方法来指导基于dl的系统异常检测的实际设计,以及对抗性示例存在的基本特征是至关重要的。

3 Outlier Detection with Autoencoder Ensembles

Abstract

  • 引入了用于无监督异常值检测的自编码器集成。
  • 基本思想是随机改变自编码器的连接架构,以获得更好的性能。与自适应采样方法相结合,使方法更加高效。
  • 在几个基准数据集上,将所提出的方法与目前最先进的检测器进行了比较,结果表明了方法的准确性。

Introduction

  1. 使用各种具有不同结构和连接密度的随机连接的自编码器代替全连接的自编码器作为基本集成组件,降低了计算复杂度
  2. 在集成框架内利用精心设计的自适应样本大小方法来实现提高多样性和训练时间的双重目标。
  3. 自适应采样与随机模型构建相结合,以获得高质量的结果。我们将这个模型称为RandNet,即用于离群点检测的随机神经网络。
  4. 关于这种方法的一个显著观察是:训练过程可以很容易地并行化。

Cites:

  1. Bouman, Roel et al. “Unsupervised anomaly detection algorithms on real-world data: how many do we need?” (2023).
  2. Bulusu, Saikiran et al. “Anomalous Instance Detection in Deep Learning: A Survey.” ArXiv abs/2003.06979 (2020): n. pag.
  3. Chen, Jinghui et al. “Outlier Detection with Autoencoder Ensembles.” SDM (2017).

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/540767.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

10分钟轻松实现三菱FX3UPLC连接阿里云平台

MQTT协议网关串口连接三菱FX3UPLC操作说明v1.3 目录 一. 使用流程 二. 准备工作 2.1 需要准备如下物品 2.2 LF220网关准备工作 2.3 PLC准备工作 2.4 电脑的准备工作 2.5 MQTT服务器准备工作 三. 阿里云IoT平台配置步骤 3.1 创建产品 3.2 添加设备 3.3 配…

pip下载包报错ERROR: No matching distribution found for xxx时的解决方案

前言 当我们使用python自带的pip安装一些包时,可能会报以下错误: 出现这种情况有三种可能: 第一种可能: pip的版本过低,需要升级一下,可以执行以下命令进行尝试 python -m pip install --upgrade pip第…

MySQL---存储函数、触发器

1. 存储函数 MySQL存储函数(自定义函数),函数一般用于计算和返回一个值,可以将经常需要使用的计算 或功能写成一个函数。 存储函数和存储过程一样,都是在数据库中定义一些 SQL 语句的集合。 存储函数与存储过程的区…

如何裁剪图片,裁剪图片的几个方法

如何裁剪图片,裁剪图片的几个方法你知道吗?在日常生活中,当浏览图片时,常会想要对某些图片进行裁剪,或从生活照片中裁剪自己的部分。如何处理这种情况?裁剪图片可去除图像不必要的部分,让其更美…

[日记]LeetCode算法·二十六——二叉树⑥ 红黑树(插入与删除,附图)

承接上一篇AVL树AVL树,红黑树相较于AVL树,就相当于完全二叉树相当于AVL树,如何在性能退化和维护成本之间做出CS中经典的trade-off 文章目录 红黑树的概念红黑树查询效率红黑树的插入1 插入节点N为根节点2 插入节点N的父节点P为黑色3 N的父节…

雷鸟Air Plus体验:视觉大幅升级,影视/办公/游戏全能胜任

雷鸟BirdBath系列XR眼镜一直保持着较快的迭代频率,如今迎来该系列第三款产品:雷鸟Air Plus,新品在视觉体验上得到大幅升级,不仅FOV达到49,边缘成像质量更高,搭配索尼旗舰级Micro OLED屏实现最高120Hz刷新率…

LoRa温振变送器的类型特点及技术参数

自电器文明开始,短短一个世纪,我们对科学探索已经从工业到达了智能化的程度。传感器的应用,不断为时代带来惊喜,各行各业都在争相抓紧契机,利用科技不断创新,推动着整个传感器行业的发展。在工业自动化系统…

redis单机版本Java代码实践

pom依赖 引入redis的starter以及commons-pool2的依赖&#xff0c;commons-pool2是配置连接池需要使用的&#xff0c;不引入&#xff0c;只有连接池配置是不会创建连接池的 <!-- redis --><dependency><groupId>org.springframework.boot</groupId><…

k8s的一些基本概念

目录 masterNodePod和ContainerControllerService和IngressLabelSecretVolumeReplicationController和ReplicaSetDeploymentDaemonSetJobCronJobStatefulSetNamespace 推荐k8s中文文档&#xff0c;里面有各种概念的具体用法http://docs.kubernetes.org.cn/437.html 一个k8s集群…

Spring Boot 整合MyBatis 和 Spring Boot 整合MyBatis-Plus

目录 Spring Boot 整合MyBatis 代码配置实现 创建数据库和表 使用灵活的方式创建maven 创建resources/application.yml &#xff0c;配置数据源参数, 并完成Spring Boot 项目启动测试 测试DruidDataSourceConfig 创建MonsterMapper接口 创建resources\mapper\MonsterMap…

开发笔记之:文件读取溢出分析(QT C++版)

&#xff08;1&#xff09;引言 以下是QT C读取数据文件&#xff08;QDataStream&#xff09;的代码&#xff1a; /*** 按双字读取* param fis 文件输入流* param isBigEndian 是否大头&#xff08;字节序&#xff09;* return 双字值*/ DWORD FsFileUtil::readAsD…

工欲善其事必先利其器——开发神器(IDEA)

&#x1f525;IDEA 简介&#x1f525;IDEA的特色功能&#x1f525;IDEA的优点&#x1f525;IDEA 的使用&#x1f525;IDEA的常用快捷键 &#x1f525;IDEA 简介 IDEA 全称 IntelliJ IDEA&#xff0c;是 java 编程语言开发的集成环境&#xff0c;被公认为最好的 java 开发工具之…

如何轻松搭建一套行情回放系统

一个量化策略在生产&#xff08;交易&#xff09;环境中运行时&#xff0c;实时数据的处理通常是由事件驱动的。为确保研发和生产使用同一套代码&#xff0c;通常在研发阶段需将历史数据&#xff0c;严格按照事件发生的时间顺序进行回放&#xff0c;以此模拟交易环境。在 Dolph…

ChatGPT 提问,软件杂项部分

堆内存与栈内存一般分别 有多少 ChatGPT 堆内存和栈内存的大小取决于操作系统和编译器的限制以及程序的运行环境。以下是一些常见的默认大小范围&#xff0c;但请注意这些值可以因环境而异&#xff1a; 栈内存大小&#xff1a; Windows平台&#xff1a;默认情况下&#xff…

vue3 大致总结

一、开发、生产、测试环境的文件编写 需要以VITE开头&#xff01;&#xff01;&#xff01; 输出时&#xff1a;console.log(import.meta.env.VITE_ENV,"------***---------"); 二、路由守卫 1、全局路由守卫beforeEach和afterEach ①全局前置守卫beforeEach ②…

六、达梦8数据库适配记录

达梦数据库适配记录 记录关于我的业务微服务,适配国产达梦数据库的过程,以及遇到的一些错误问题和其解决方案。 目前的项目最初基于Mysql开发,现在要适配到达梦,不要以为迁移任务很easy,但实际过程中还是出现了很多问题。 基 由于达梦是的国产数据库,本身与MySQL数据库…

idea配置阿里云翻译

idea配置阿里云翻译 0前言1开通阿里云机器翻译2配置阿里云AccessKeyidea配置Translation 0前言 使用idea的码农们都应该对Translation这款插件不会陌生了&#xff0c;尤其是英语基础比较薄弱的盆友&#xff0c;在看源码的时候更是会经常使用Translation边翻边看源码。 但是由于…

EW代理工具的使用说明

一、EW介绍 Earthworm&#xff08;EW&#xff09; 是一套便携式的网络穿透工具&#xff0c;具有 SOCKS v5服务架设和端口转发两大核心功能&#xff0c;可在复杂网络环境下完成网络穿透。 该工具能够以“正向”、“反向”、“多级级联”等方式打通一条网络隧道&#xff0c;直达…

基于REST风格的SpringMVC请求路径设置与参数传递

文章目录 1 REST简介2 RESTful入门案例2.1 环境准备2.2 思路分析2.3 修改RESTful风格新增删除传递路径参数 修改根据ID查询查询所有 知识点1&#xff1a;PathVariable 3 RESTful快速开发知识点1&#xff1a;RestController知识点2&#xff1a;GetMapping PostMapping PutMappin…

【STL】

目录 什么是STLSTL定义两大特点两个层次 STL主要构成容器容器概念容器分类vectordequestackqueuelistset/multiset容器map/multimap容器 算法迭代器仿函数适配器空间配置器新的改变功能快捷键合理的创建标题&#xff0c;有助于目录的生成如何改变文本的样式插入链接与图片如何插…