【离群点检测算法】离群点|异常值 检测算法——局部离群因子LOF算法

news2025/1/24 22:31:45

every blog every motto: You can do more than you think.
https://blog.csdn.net/weixin_39190382?type=blog

0. 前言

离群点检测,理解起来也比较容易。

同学都考70分,你也考70分,可以。
同学都考90分,你考70分,不可以。

1. 正文

Local Outlier Factor(LOF)是基于密度的经典算法
论文:https://www.dbs.ifi.lmu.de/Publikationen/Papers/LOF.pdf

1.1 概述

关于离群点 检测的方法还是比较多,主要有基于统计、聚类、分类、信息论、距离、密度等。

在这里插入图片描述

1.2 相关应用

应用比较广泛,有以下:

  • 欺诈检测:信用卡、电话卡欺诈使用
  • 工业检测:计算机网络的非法入侵
  • 活动监控:实时手机活跃度,实现检测移动手机诈骗行为
  • 网络性能:计算机网络性能检测
  • 生态监测:生态系统失调、异常自然气候等的发现
  • 公共服务:公共卫生中的异常疾病爆发。

1.3 初步理解

C1、C2形成了两簇,而o1、o2是两个离群点,我们任务就需要找出他们。
如果基于距离,o2到最近的C1的距离肯可能小于C1内部元素的距离,从而无法正确检测出。如果基于全局密度,很可能出现相同的情况。

所以正确的做法是基于局部密度,这是我们的直观感受,具体怎么做,且看下文。

在这里插入图片描述

1.4 基础概念

(1). 两点距离

d(p,o): 表示P和O两点之间的距离

(2). 第k距离

k-distance
距离点p,(按从近到远)第k近的点和p之间的距离,称为点p的k-邻近距离,记为k-distance§。

请添加图片描述

(3). 第k距离邻域

k-distance neighborhood of p
点p的第k距离邻域 N k ( p ) N_k(p) Nk(p) ,就是的 第k距离以内的所有点,包括第k距离。
因此,p的第k邻域点的个数 ∣ N k ( p ) ∣ ≥ k |N_k(p)| \geq k Nk(p)k (存在距离p相同距离的点,所以是大于)

(4). 可达距离

reach-distance

注意: 这里需要理解以下。

点o到点p的第k可达距离定义为:
r e a c h − d i s t a n c e k ( p , o ) = m a x ( k − d i s t a n c e ( o ) , d ( p , o ) ) reach-distance_k(p,o) = max( k-distance(o), d(p,o) ) reachdistancek(p,o)=max(kdistance(o),d(p,o))

这里是两个距离选一个最大,和之前在聚类算法中介绍的有点不一样,主要是因为这里多了**“第k”**。

其实也比较好理解:

  • 如果p点在o点 第k距离外,那么可达距离就是直接距离,d(p,o)
  • 如果p点在o点第k距离以内,那么可达距离就是第k距离 d 5 ( o ) d_5(o) d5(o)

如下图所示:

  • p相对o1在第k距离,所以可达距离是直接距离
  • p相对o2在第k距离,所以可达距离是第k距离
    请添加图片描述

(5). 局部可达密度

local reachability density

密度表示为距离倒数,距离越小,密度越大,反之。
故,点p的局部可达密度表示为:

l r d k ( p ) = 1 / ( ∑ o ∈ N k ( p ) r e a c k − d i s t k ( p , o ) ∣ N k ( p ) ∣ ) lrd_k(p) = 1 / ( { \sum_{o \in N_k(p)} reack-dist_k(p,o) \over |N_k(p)| }) lrdk(p)=1/(Nk(p)oNk(p)reackdistk(p,o))
局部可达密度:平均距离的倒数,平均距离为领域内距离和除以邻域内点数

注意: 由于我们的可达距离是非对称的(你离我最近,但我却不是离你最近的点),所以 可达密度也是非对称的。

(6). 局部离群因子

local reachability density
有了一个点的局部可达密度,怎么确定这个点是不是离群点呢,很简单,只要和周围点的的可达密度进行比较就可以。
表示为:

L O F k ( p ) = ∑ o ∈ N k ( p ) l r d k ( o ) ∣ N k ( p ) ∣ / l r d k ( p ) LOF_k(p) = { \sum_{o \in N_k(p)} { lrd_k(o) } \over |N_k(p)|} / lrd_k(p) LOFk(p)=Nk(p)oNk(p)lrdk(o)/lrdk(p)

表示:p点领域内点 N k ( p ) N_k(p) Nk(p)局部可达密度 平均值与p点的可达密度
简单说:周围人考70分,你也考70分,ok;周围人考90分,你考70,不ok。

  • 比值接近1,说明p和其邻域点密度差不多,可能和邻域属于同一簇
  • 比值小于1,p的密度高于邻域点密度,p为密度点
  • 比值小于1,p的密度小于其邻域点密度,p可能是异常点

1.5 算法流程

  1. 计算每个点的lof得分
  2. lof越大,说明越异常,反之。

1.6 优缺点

A. 优点

  1. 思想简单。算法简单易于实现
  2. 利用局部,相比全局更加合理

B. 缺点

  1. LOF算法中关于局部可达密度的定义其实暗含了一个假设:不存在大于等于 k 个重复的点。如果存在大于k个重复点,那么他们之间的距离为0,密度就会变成无穷大。所以一般会给距离加一个微小值。
  2. 因为需要计算距离,运算开销大,不适合高维、大数据 。

参考

[1] https://www.cnblogs.com/wj-1314/p/14049195.html
[2] https://blog.csdn.net/wangyibo0201/article/details/51705966
[3] https://zhuanlan.zhihu.com/p/607616813
[4] https://zhuanlan.zhihu.com/p/28178476
[5] https://zhuanlan.zhihu.com/p/37753692
[6] https://zhuanlan.zhihu.com/p/385238291

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/703067.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

算法笔记——排序算法

👌,begin: 排序算法很重要,它可以使数据按照一定的规律进行排序,各个语言的代码都有自己的排序函数,那么排序到底有哪几种方法,✌,如下: 按照效率分类如上图&#xff1a…

为什么要提前报考CSPM项目管理专业人员能力评价

2021年10月,中共中央、国务院发布的《国家标准化发展纲要》明确提出构建多层次从业人员培养培训体系,开展专业人才培养培训和国家质量基础设施综合教育。建立健全人才的职业能力评价和激励机制。由中国标准化协会(CAS)组织开展的项…

《移动互联网技术》第八章 消息与服务:掌握不同类型广播监听方式,以及创建通知的方法

🌷🍁 博主 libin9iOak带您 Go to New World.✨🍁 🦄 个人主页——libin9iOak的博客🎐 🐳 《面试题大全》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~&#x1f33…

k8s中kubectl陈述式资源管理

陈述式管理资源的方法 1,陈述时资源管理集群资源的唯一入口是通过相应的方法调用的apiserver的接口 2,kubectl 是官方的ctl命令,用于与 apiserver 进行通信,将用户在命令行输入的命令,组织并转化为 apiserver 能识别…

基于Python+MySQL所写的智慧校园考试系统设计

点击以下链接获取源码资源: https://download.csdn.net/download/qq_64505944/87971718?spm1001.2014.3001.5503 《智慧校园考试系统》程序使用说明 在虚拟环境下输入命令“python manage.py runserver”启动项目,然后,访问“http://127.0.…

java之static关键字

本文是根据沉默王二前辈所发的一篇博客中所学到的 教妹学Java(二十六):static 关键字解析_java中static_沉默王二的博客-CSDN博客 1:static关键字比较难以理解,借用沉默王二前辈的一句话就是:方便在没有创建对象的情况下进行调用…

SpirngBoot测试

一、依赖 <spring-boot.version>2.4.2</spring-boot.version> <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><dependency><groupId>…

给家里装监控将录像存储到nas中

文章目录 前言一、挑选合适的摄像头1.1、了解一下摄像头1.1.1、类别1.1.2、供电 1.2、配置摄像头 二、设置nas2.1、安装surveillance station2.2、配置群晖存储摄像数据2.3、使用体验 三、其他 前言 之前的房间太小&#xff0c;端午节换到对面小区去住了&#xff0c;每月贵了2…

AirServer手机投屏电脑工具好不好用?有哪些功能优势

在日常生活和工作中&#xff0c;我们常常需要将手机屏幕投屏到电脑上&#xff0c;一般都是通过连接数据线或是电脑与手机上同时下载某款软件来实现。这样操作起来非常麻烦&#xff0c;而且无法实现多画面投屏以及跨设备投屏的需求。 AirServer是适用于Mac和PC的先进的屏幕投屏…

conda、python与人工智能学习过程中的一些基础性问题

一个不知名大学生&#xff0c;江湖人称菜狗original author: Jacky LiEmail : 3435673055qq.com Time of completion&#xff1a;2023.6.30 Last edited: 2023.6.30 目录 pip install XXX与conda install XXX的区别 conda install xxx pip install xxx 为什么要建立虚拟环境…

TinyViT: 一种高效的蒸馏方法

目录 背景方法大意快速预训练蒸馏(Fast Pretraining Distillation, FPD)如何实现快速三个细节深入理解FPD 模型架构训练trick预训练参数配置&#xff08;Imagenet21k-pretraining&#xff09;finetuning 参数配置&#xff08;Imagenet-1k&#xff09; 消融实验**Q: 数据是否越多…

mysql ——基本约束以及语法 以及 Dbeaver基本使用

1. 规约 说到约束&#xff0c;就不得不想到命名规范&#xff0c;跟java一样&#xff0c;mysql也有一套自己的命名要求 库名尽量与业务名称一致&#xff0c;比如这是一个办公系统&#xff0c;你可以命名 将数据库命名为office, 多个单词组成全小写 例如&#xff1a;officeoa 表…

《Linux操作系统编程》第一章 操作系统引论:了解操作系统的发展、特征、功能以及操作系统结构

&#x1f337;&#x1f341; 博主 libin9iOak带您 Go to New World.✨&#x1f341; &#x1f984; 个人主页——libin9iOak的博客&#x1f390; &#x1f433; 《面试题大全》 文章图文并茂&#x1f995;生动形象&#x1f996;简单易学&#xff01;欢迎大家来踩踩~&#x1f33…

如何查看Navicat已保存数据库连接的密码?

此教程的背景&#xff1a;数据库密码忘记了&#xff0c;但是在Navicat连接过且目前能连接上的状态&#xff01; 1.导出数据库连接 connections.ncx 文件 选择你要导出密码的数据库连接&#xff0c;切记要勾上导出密码 2.使用文本编辑工具打开导出的connections.ncx 文件 找到…

Android SDK安全加固问题与分析

作者 | 百度APP技术平台 导读 在移动互联网快速发展的背景下&#xff0c;保护Android应用程序的安全性和知识产权变得尤为重要。为了防止恶意攻击和未授权访问&#xff0c;通常采用对dex文件进行代码加固来保护应用程序。随着Android加固技术经过动态加载、不落地加载、指令抽取…

SSM整合 配置文件

<?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache.org/POM/4.0.0 http://ma…

宇宙是一位高位截瘫的病人

【一点小爱好&#xff0c;喜欢了解一些天文和物理】 宇宙中最快的速度——光速。 在真空中可以达到每秒30万千米&#xff0c;这个速度是什么概念呢&#xff1f;光一秒钟就可以绕地球7.5圈&#xff0c;一秒钟就可以从地球到月球。 但这个速度还是太慢了。太阳发出的光要整整走…

vue中设置花样字体

首先在assets中新建一个文件夹 font 然后再在字体网中选择想要的字体下载放入font文件夹中 字体网&#xff1a;字体_中文字体 | 英文字体 | 书法字体 免费下载 - 爱给网 Fonts2u.com 然后再在style文件夹中创建一个 fontStyle.scss文件 再在main.js文件中注册就可以全局使用…

市场监管总局:7月1日起加大合同范本应用,契约锁助力规范签

近日&#xff0c;国家市场监管总局令第77号公布&#xff0c;并于7月1日起正式施行。总局结合近年来合同行政监管的新形势、新情况、新问题修订出台了《合同行政监督管理办法》&#xff08;以下简称“办法”&#xff09;&#xff0c;明确&#xff1a;加强合同行政监管执法&#…

selenium入门超详细教程——网页自动化操作

selenium入门超详细教程——网页自动化操作 使用 Selenium 通过 Python 自动发布 Facebook 帖子 Selenium基础 — Selenium中的expected_conditions模块&#xff08;一&#xff09; Upload image on Facebook Marketplace with selenium (python)