利用Python实现局部异常因子(LOF)的计算

news2025/4/16 15:02:21

1 LOF算法

局部异常因子(Local Outlier Factor，LOF)算法是目前比较常用的离群点检测算法，该算法通过一种模糊的手段来判断数据对象是否为异常点。

对象 $p$ 的 $k$ 距离：在数据集 $D$ 中，将对象 $p$ 与距其第 $k$ 远的对象 $o$ 之间的距离定义为对象 $p$ 的 $k$ 距离。记为： $k - d i s t an ce (p) = d (p, o)$ 。其中 $d (p, o)$ 表示对象 $p$ 到对象 $o$ 的距离。
对象 $p$ 的 $k - d i s t an ce$ 邻域：对象 $p$ 的 $k - d i s t an ce$ 邻域是指 $D$ 中的对象 $q$ 到 $p$ 的距离不大于 $k - d i s t an ce (p)$ 的所有对象的集合。记为： $N_{k-distance}(p)=\{q\in D/\{p\}|d(p,q)\leq k-distance(p) \}$
对象 $p$ 到对象 $o$ 的可达距离： $reach-dist_{k}(p,o)=max\{k-distance(o),d(p,o)\}$
对象 $p$ 的局部可达密度： $lrd_{MinPts}(p)=\frac{|N_{MinPts}(p)|}{\sum_{o\in N_{MinPts}(p)}reach-dist_{MinPts}(p,o)}$ 从上式可以看出， $p$ 的局部可达密度是 $p$ 的 $M in Pt s$ 个最近邻居的平均可达距离的倒数。
对象 $p$ 的局部离群因子定义如下： $LOF_{MinPts}(p)=\frac{ \sum_{o\in N_{MinPts}(p)} \frac{lrd_{MinPts}(o)}{lrd_{MinPts}(p)} }{|N_{MinPts}(p)|}$ $p$ 的离群因子显示其离散程度，是 $p$ 的 $M in Pt s$ 个最近邻数据对象的局部密度可达平均值与 $p$ 的局部可达密度之间的比值。

2 Python实现

这里仅介绍使用sklearn包中的LocalOutlierFactor的用法。LocalOutlierFactor方法中的主要参数如下：

参数	作用
n_neighbors	邻居数
novelty	当为False时进行异常值检测，当为True时进行新颖性检测。在进行新颖性检测时，在新数据集上只能使用predict、decision_function、score_samples这三个方法。并且这种方法获得的结果可能和标准的LOF得到的结果不同。

其具体用法举例如下：

import numpy as np
import pandas as pd
from sklearn.neighbors import LocalOutlierFactor as LOF
from sklearn.datasets import load_iris
from matplotlib import pyplot as plt

#构造数据集
X,_=load_iris(return_X_y=True)
X=X[:53,2:]

#LOF
lof=LOF(n_neighbors=10)
lof.fit(X)
op_lof=lof.negative_outlier_factor_ #值越接近-1,越接近正常点

plt.scatter(X[:,0],X[:,1],c=op_lof)
plt.colorbar()
plt.show()

其最终结果如下：
在这里插入图片描述
从图中也可以看出，右上角的三个点是异常点的可能性较大，其对应的negative_outlier_factor值较小。

参考文献

《局部离群点检测算法的研究》
https://zhuanlan.zhihu.com/p/346779842
https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.LocalOutlierFactor.html#sklearn.neighbors.LocalOutlierFactor

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/365778.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！