了解数据科学中的异常检测

news2025/2/5 0:42:19

大家好,本文将简要介绍一下异常检测,并指导通过不同的技术来识别异常。

如果你正在处理数据,那么无论是现在还是将来,都可能会遇到一项非常重要的任务 —— 异常检测。它在许多领域中都有很大的应用,如制造业、金融和网络安全。

首先,异常检测涉及识别值与其余数据点明显偏离的罕见观察结果。这些异常值通常被称为离群值,是少数,而大多数项目属于正常类别,这意味着正在处理一个不平衡的数据集。

另一个挑战是,在行业内工作时,大多数情况下没有标记的数据,在没有任何目标的情况下解释预测结果是很有挑战性的。这意味着不能使用通常用于分类模型的评估指标,并且需要采取其他方法来解释和信任模型的输出。

什么是异常检测

异常检测是指找到不符合预期行为的数据模式的问题,这些不符合预期行为的模式通常被称为异常、离群值、不协调观察结果、例外、反常、意外、奇怪之处或不同应用领域中的污染物。

异常通常与在数据收集过程中获得的错误相关联,然后它们最终被消除。但也有一些情况,新项目与其余数据完全不同,并且需要适当的方法来识别这种类型的观察结果,识别这些观察结果对于在许多领域经营的公司做出决策非常有用,例如金融和制造业。

异常的类型有哪些

主要有三种类型的异常:点状异常、背景异常和集体异常。

 正如图中所示,点状异常构成了其中最简单的情况。当单个观察结果与其余数据相比是异常时,它被识别为离群值/异常。例如,假设我们想在银行客户的交易中进行信用卡欺诈检测,在这种情况下,一个点的异常可以被认为是一个客户的欺诈活动。

 另一种异常情况是背景异常,只有在特定的背景下才能遇到这种类型的异常情况。例如,美国的夏季热浪,可以注意到在1930年有一个巨大的“沙尘暴”峰值,这代表了发生在美国的一个极端事件,之所以这样称呼是因为这是一个破坏了美国中南部环境的尘暴时期。

最后一种类型的异常是集体异常,最直观的例子是想象一下今年在意大利几个月内没有降水的情况。如果将过去50年的数据进行比较,就会发现从未出现过类似行为。在一个异常集合中,单个数据实例本身可能不会被识别为离群值,但所有这些数据点一起表明了集体异常。在这种情况下,单独一天没有降水并不是本身就是异常的,而许多天没有降水与前几年的数据相比可以被视为异常。

可以用于异常检测的机器学习模型

有几种方法可以应用于异常检测:

  1. 孤立森林是一种无监督和非参数技术,由Fey Tony Liu于2012年引入。与随机森林类似,它是一种集成学习方法,可以并行训练决策树。但与其他集成方法不同的是,它专门用于将离群值与其余项目隔离开来。这种方法背后的假设构成了该方法有效性的原因:(1)与数量更多的正常数据相比,离群值属于少数类别;(2)离群值往往能以最短的平均路径被很快找到。

  2. 局部离群因子是由Markus M. Breuningin于2000年提出的基于密度的聚类算法,它通过计算特定项与其邻居之间的局部密度偏差来检测异常值。它假设离群值周围的密度应该与它的邻居周围的密度有着显著不同。此外,离群值应具有较低的密度。

  3. 自动编码器是由两个神经网络组成的无监督模型:一个编码器和一个解码器。在训练期间,只传递正常数据给模型。通过这种方式,它学习了正常数据的压缩表示形式,该表示形式应该与离群值的表示形式不同。还有一个假设是由于异于正常数据且完全不同,因此无法对异常数据进行良好重构,那么,它应具有一个更高的重构误差。

在无监督的环境下评估异常检测模型 

在无监督环境下,没有评估指标可以帮助大家了解正确的正面预测比率(精度)或实际的正面比率(召回率)。由于没有任何评估模型性能的可能性,提供模型预测的解释是比以往任何时候都更重要的,这可以通过使用可解释性方法(例如SHAP和LIME)来实现。

有两种可能的解释:全局和局部。全局可解释性的目的是提供对模型整体的解释,而局部可解释性的目的是解释单个实例的模型预测。

本文对异常检测技术进行了简要概述,这是一个具有挑战性的领域,在实际使用时,需要根据不同的环境更改合适的技术进行应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/761713.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

visual studio 2017直接打开文件夹时,选择当前项目或者整个解决方案时,按快捷键查找时显示未找到以下指定文本

有的时候只想要打开一整个文件夹来看里面的代码,平时一般用Qt,但是感觉在打开整个文件夹看代码方面,Qt没有VS方便,于是选择了VS,安装的是VS2017,然后发现有个问题,CtrlF查找时,如果选…

报错:Invalid bound statement (not found): com.web.sysmgr.mapper.UserMapper.login

报错:Invalid bound statement (not found): com.web.sysmgr.mapper.UserMapper.login 原因: 确认是否在扫描Mapper接口时指定了正确的包路径。检查 MapperScan 注解中的包路径是否正确,确保只扫描到需要的Mapper接口。 如果在配置类中去配置…

JQuery 实现点击按钮添加 input 框

前言 用于记录开发中常用到的&#xff0c;快捷开发 需求 比如说&#xff0c;我台设备可以设置一个或多个秘钥&#xff0c;有时候我配置一个秘钥时&#xff0c;就不需要多个输入框&#xff0c;当我想配置多个秘钥时&#xff0c;就需要添加多个输入框。 实现 HTML <div…

Hadoop 之 HDFS 伪集群模式配置与使用(二)

HDFS 配置与使用 一.HDFS配置二.HDFS Shell1.默认配置说明2.shell 命令 三.Java 读写 HDFS1.Java 工程配置2.测试 一.HDFS配置 ## 基于上一篇文章进入 HADOOP_HOME 目录 cd $HADOOP_HOME/etc/hadoop ## 修改文件权限 chown -R root:root /usr/local/hadoop/hadoop-3.3.6/* ## …

JVM 运行流程、类加载、垃圾回收

一、JVM 简介 1、JVM JVM 是 Java Virtual Machine 的简称&#xff0c;意为 Java 虚拟机。 虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统。 常见的虚拟机&#xff1a;JVM、VMwave、Virtual Box。 JVM 和其他两个虚拟机的区别…

Android Profiler 内存分析器使用

Android Profiler是Android Studio的一部分&#xff0c;提供了一个集成的性能分析工具套件&#xff0c;包括内存分析。Android Profiler 工具可提供实时数据&#xff0c;帮助您了解应用的 CPU、内存、网络和电池资源使用情况。 在Android Profiler中&#xff0c;您可以查看内存…

赋能安防“新视界”!智汇云舟亮相中国安防工程商集成商大会

7月14日&#xff0c;备受业界关注的中国安防工程商&#xff08;系统集成商&#xff09;大会暨第67届中国安防新产品、新技术成果展示在上海盛大开幕。来自上海、苏州、南京、无锡等城市的200余位行业领导、嘉宾莅临参会&#xff0c;智汇云舟副总裁陈虹旭受邀出席活动并发表《视…

2、Redis高级特性和应用(发布 订阅、Stream)

Redis高级特性和应用(发布 订阅、Stream) 发布和订阅 Redis提供了基于“发布/订阅”模式的消息机制&#xff0c;此种模式下&#xff0c;消息发布者和订阅者不进行直接通信,发布者客户端向指定的频道( channel)发布消息&#xff0c;订阅该频道的每个客户端都可以收到该消息。 …

【云原生|Docker系列第3篇】Docker镜像的入门实践

欢迎来到Docker入门系列的第三篇博客&#xff01;在前两篇博客中&#xff0c;我们已经了解了什么是Docker以及如何安装和配置它。本篇博客将重点介绍Docker镜像的概念&#xff0c;以及它们之间的关系。我们还将学习如何拉取、创建、管理和分享Docker镜像&#xff0c;这是使用Do…

链表OJ(LeetCode)

文章目录 1.移除链表元素2.反转链表3.链表的中间结点4.倒数第k个结点5.合并两个有序链表6.链表分割7.链表的回文结构8.相交链表9.环形链表10.环形链表Ⅱ1.常规思路2.新型思路【无码】 1.移除链表元素 法一&#xff1a;遍历删除 struct ListNode {int val;struct ListNode* nex…

采集极验4滑块验证码图片数据

在网络安全领域&#xff0c;验证码是一种常见的用于验证用户身份或防止恶意机器人攻击的技术。而极验4滑块验证码作为一种广泛应用的验证码形式&#xff0c;其具有较高的安全性和防御能力。本文将以获取极验4滑块验证码图片数据为主题&#xff0c;介绍相关技术和方法。 一、极…

【Jenkins入门到实战】忽如一夜春风来,千树万树梨花开

自动化运维之Jenkins 前提条件&#xff1a;安装好jdk &#xff08;版本要求11-17&#xff09;并配置好环境变量 一、Jenkins 1、Jenkins是什么 Jenkins是一个开源的持续集成服务&#xff0c;用于实施软件开发和发布流程。它帮助软件开发和运维团队在构建、测试和部署软件上实…

cesium的使用

cesium的使用 cesium的使用创建一个vue项目 vuevitecesium参数的使用常用点位标记删除动态渲染路线借助truf.js的算法进行渲染地块的实现topojson cesium的使用 1.下载或者安装cesium的插件 官方文档 下载下来后创建文件夹整个包引入 2.生成token 新的包应该有默认token如果没…

前端学习记录~2023.7.10~CSS杂记 Day5

前言一、样式化表格1、一个典型的 HTML 表格2、进行样式化&#xff08;1&#xff09;间距和布局&#xff08;2&#xff09;简单地排版&#xff08;3&#xff09;图形和颜色&#xff08;4&#xff09;图案&#xff08;5&#xff09;样式化标题 最终效果如下 ![在这里插入图片描述…

【Spring Cloud Alibaba】Nacos的服务注册和发现(discovery)的使用

【Spring Cloud Alibaba】系列文章 标题链接【Spring Cloud Alibaba】Nacos的安装与介绍以及Nacos集群的安装https://masiyi.blog.csdn.net/article/details/129530053【Spring Cloud Alibaba】Nacos config的使用和高阶用法https://masiyi.blog.csdn.net/article/details/129…

LabVIEW通过嘴唇图像识别为残疾人士开发文本输入系统

LabVIEW通过嘴唇图像识别为残疾人士开发文本输入系统 近年来&#xff0c;计算机已经成为现代人日常生活中的一种信息器具。人们可以使用计算机来处理复杂的文件&#xff0c;获取新信息并在线购物等。但是&#xff0c;上面讲的使用电脑的所有好处对普通人来说都很方便&#xff…

React05-样式隔离

一、样式隔离方案 css 的样式是全局样式&#xff0c;在书写react组件时&#xff0c;如果写了相同的样式类名&#xff0c;很容易造成样式污染。 在 vue 中&#xff0c;vue 官方提供了样式隔离方法&#xff0c;在组件代码中的 style 标签中加入 scoped&#xff0c;可以让这部分…

Python案例分析|使用Python图像处理库Pillow处理图像文件

本案例通过使用Python图像处理库Pillow&#xff0c;帮助大家进一步了解Python的基本概念&#xff1a;模块、对象、方法和函数的使用 使用Python语言解决实际问题时&#xff0c;往往需要使用由第三方开发的开源Python软件库。 本案例使用图像处理库Pillow中的模块、对象来处理…

Java中的JDBC编程(数据库系列6)

目录 前言&#xff1a; 1.什么是Java的JDBC编程 2.JDBC的数据库驱动包的导入过程 3.JDBC代码的编写 3.1创建并初始化一个数据源 3.2和数据库服务器建立连接 3.3构造SQL语句 3.4执行SQL语句 3.5释放必要的资源 3.6整体代码的展示及演示 3.7代码的优化 3.8 查询操作的…

「深度学习之优化算法」(十四)麻雀搜索算法

1. 麻雀搜索算法简介 (以下描述,均不是学术用语,仅供大家快乐的阅读)   麻雀搜索算法(sparrow search algorithm)是根据麻雀觅食并逃避捕食者的行为而提出的群智能优化算法。提出时间是2020年,相关的论文和研究还比较少,有可能还有一些正在发表中,受疫情影响需要论…