04、基于高斯分布的异常检测算法

news2024/11/28 12:37:02

04、基于高斯分布的异常检测算法原理与实践

开始学习机器学习啦,已经把吴恩达的课全部刷完了,现在开始熟悉一下复现代码。对这个手写数字实部比较感兴趣,作为入门的素材非常合适。

数据的严重偏斜往往会导致监督学习算法面临巨大的挑战——尤其是在负样本数量稀缺的情况下,监督学习模型难以充分汲取必要的知识。这就引发了一个重要的问题:我们能否从这种极端不平衡的数据中成功地训练出一个有效的异常检测模型呢?答案就在于基于统计学的异常检测算法。

此类方法通常建立在一种假设之上,即给定的数据集遵循某种随机分布模型,任何与该模型明显不符的样本都会被视为异常样本。在这些基于统计学的异常检测算法中**,高斯模型是最常用分布模型**。

当然,如果给定的原始数据集不遵循高斯分布,我们可以通过坐标轴变换的方式将其变换为符合高斯分布的数据再进行异常检测。

1、基于高斯分布的异常检测算法原理

高斯分布的概率密度函数如下所示:
在这里插入图片描述
处于图片的中心位置,是概率密度最高的地方,这代表此种情况是经常发生的。越向两边概率密度越低,这代表这些情况较小发生,更有可能是异常情况。我们需要的是确定这个阈值,当概率密度小于多少时则认定其为异常。

这种基于高斯分布的异常检测算法在训练时不需要标签,只需要根据训练数据计算出各个特征的均值与方差即可(就是高斯分布的参数)。在训练之后,可以根据少量的数据确定异常的阈值,从而实现整个异常检测算法。

对于高维的异常检测算法,其理论是一致的,如下面的二维概率密度的等高线图,处于边缘的会往往会被视为异常情况(小概率出现的事件):
在这里插入图片描述
在这里插入图片描述
至于为什么小概率事件会等同于异常呢,打个比方,训练集得出结论人是吃米的,但是出来一个奇葩人居然吃虫子,那么这个不相当于出现异常了嘛。

2、基于高斯分布的异常检测算法实现

STEP1: 从训练集计算数据的分布特性,主要是均值和方差

# 计算数据的均值与方差
def estimate_gaussian(X):
    mu = np.mean(X, axis=0)
    var = np.var(X, axis=0)
    return mu, var

STEP2: 将交叉验证集应用到概率分布上,得到其分布概率

# 定义一个函数,名为multivariate_gaussian,输入参数为X(样本点)、mu(均值向量)和var(方差)
def multivariate_gaussian(X, mu, var):
    # 计算均值向量的长度,也即特征的数量
    k = len(mu)
    # 如果输入的协方差矩阵是一维的,则将其转换为对角矩阵
    if var.ndim == 1:
        var = np.diag(var)
    # 将输入的样本点X减去均值向量mu,进行中心化处理
    X = X - mu
    # 计算多元高斯分布的概率密度函数值
    # 公式中的各部分分别计算,最后相乘得到结果
    p = (2 * np.pi) ** (-k / 2) * np.linalg.det(var) ** (-0.5) * \
        np.exp(-0.5 * np.sum(np.matmul(X, np.linalg.pinv(var)) * X, axis=1))
    # 返回概率密度函数值
    return p

其对应的公式如下:
在这里插入图片描述


STEP3: 根据交叉验证集得出阈值

epsilon 的选择使用的是便利的方法,以找到一个使得F1 score最大的epsilon :

def select_threshold(y_val, p_val):
    """
    通过选择最佳的阈值来最大化F1分数。
    参数:
    y_val (numpy数组): 真实的标签值,1代表正类,0代表负类。
    p_val (numpy数组): 预测的概率值。
    返回:
    best_epsilon, best_F1: 包含最佳阈值和对应的最大F1分数。
    """
    best_epsilon = 0  # 初始化最佳阈值为0
    best_F1 = 0  # 初始化最佳F1分数为0
    F1 = 0  # 当前的F1分数
    # 计算步长,使得在p_val的最小值和最大值之间有1000个步骤
    step_size = (max(p_val) - min(p_val)) / 1000
    # 对p_val中的每一个值进行遍历,从最小值到最大值,步长为step_size
    for epsilon in np.arange(min(p_val), max(p_val), step_size):
        # 根据当前的阈值epsilon,得到预测的标签
        predictions = (p_val < epsilon)
        # 计算假阳性(预测为正但实际为负的样本数)
        fp = sum((predictions == 1) & (y_val == 0))
        # 计算真阳性(预测为正且实际为正的样本数)
        tp = np.sum((predictions == 1) & (y_val == 1))
        # 计算假阴性(预测为负但实际为正的样本数)
        fn = np.sum((predictions == 0) & (y_val == 1))
        # 计算精确度(查准率)
        prec = tp / (tp + fp)
        # 计算召回率(查全率)
        rec = tp / (tp + fn)
        # 计算F1分数
        F1 = 2 * prec * rec / (prec + rec)
        # 如果当前的F1分数比之前的最佳F1分数还要大,则更新最佳F1分数和对应的阈值
        if F1 > best_F1:
            best_F1 = F1
            best_epsilon = epsilon
            # 返回最佳阈值和对应的最大F1分数
    return best_epsilon, best_F1

STEP4: 由此就可以根据交叉验证集得到的阈值计算训练集中的异常数据了
下面是结果:
在这里插入图片描述

3、完整代码

工程的下载链在最上方:

import numpy as np
import matplotlib.pyplot as plt

def load_data():
    X = np.load("Anomaly_Detection_data/X_part1.npy")
    X_val = np.load("Anomaly_Detection_data/X_val_part1.npy")
    y_val = np.load("Anomaly_Detection_data/y_val_part1.npy")
    return X, X_val, y_val
# 计算数据的均值与方差
def estimate_gaussian(X):
    mu = np.mean(X, axis=0)
    var = np.var(X, axis=0)
    return mu, var


# 定义一个函数,名为multivariate_gaussian,输入参数为X(样本点)、mu(均值向量)和var(方差)
def multivariate_gaussian(X, mu, var):
    # 计算均值向量的长度,也即特征的数量
    k = len(mu)
    # 如果输入的协方差矩阵是一维的,则将其转换为对角矩阵
    if var.ndim == 1:
        var = np.diag(var)
    # 将输入的样本点X减去均值向量mu,进行中心化处理
    X = X - mu
    # 计算多元高斯分布的概率密度函数值
    # 公式中的各部分分别计算,最后相乘得到结果
    p = (2 * np.pi) ** (-k / 2) * np.linalg.det(var) ** (-0.5) * \
        np.exp(-0.5 * np.sum(np.matmul(X, np.linalg.pinv(var)) * X, axis=1))
    # 返回概率密度函数值
    return p

def visualize_fit(X, mu, var):
    # 首先画出等高线,坐标在0, 35.5之间
    X1, X2 = np.meshgrid(np.arange(0, 35.5, 0.5), np.arange(0, 35.5, 0.5))
    Z = multivariate_gaussian(np.stack([X1.ravel(), X2.ravel()], axis=1), mu, var)
    Z = Z.reshape(X1.shape)
    plt.plot(X[:, 0], X[:, 1], 'rx')
    if np.sum(np.isinf(Z)) == 0:
        plt.contour(X1, X2, Z, levels=10 ** (np.arange(-20., 1, 3)), linewidths=1)
    plt.title("The Gaussian contours of the distribution fit to the dataset")
    plt.ylabel('Throughput (mb/s)')
    plt.xlabel('Latency (ms)')
    plt.show()


def select_threshold(y_val, p_val):
    """
    通过选择最佳的阈值来最大化F1分数。
    参数:
    y_val (numpy数组): 真实的标签值,1代表正类,0代表负类。
    p_val (numpy数组): 预测的概率值。
    返回:
    best_epsilon, best_F1: 包含最佳阈值和对应的最大F1分数。
    """
    best_epsilon = 0  # 初始化最佳阈值为0
    best_F1 = 0  # 初始化最佳F1分数为0
    F1 = 0  # 当前的F1分数
    # 计算步长,使得在p_val的最小值和最大值之间有1000个步骤
    step_size = (max(p_val) - min(p_val)) / 1000
    # 对p_val中的每一个值进行遍历,从最小值到最大值,步长为step_size
    for epsilon in np.arange(min(p_val), max(p_val), step_size):
        # 根据当前的阈值epsilon,得到预测的标签
        predictions = (p_val < epsilon)
        # 计算假阳性(预测为正但实际为负的样本数)
        fp = sum((predictions == 1) & (y_val == 0))
        # 计算真阳性(预测为正且实际为正的样本数)
        tp = np.sum((predictions == 1) & (y_val == 1))
        # 计算假阴性(预测为负但实际为正的样本数)
        fn = np.sum((predictions == 0) & (y_val == 1))
        # 计算精确度(查准率)
        prec = tp / (tp + fp)
        # 计算召回率(查全率)
        rec = tp / (tp + fn)
        # 计算F1分数
        F1 = 2 * prec * rec / (prec + rec)
        # 如果当前的F1分数比之前的最佳F1分数还要大,则更新最佳F1分数和对应的阈值
        if F1 > best_F1:
            best_F1 = F1
            best_epsilon = epsilon
            # 返回最佳阈值和对应的最大F1分数
    return best_epsilon, best_F1

# Load the dataset
# 利用吞吐量(兆比特/秒)和每台服务器的响应延迟(毫秒)来判断服务器是否正常运行
X_train, X_val, y_val = load_data()
print ('The shape of X_train is:', X_train.shape)
print ('The shape of X_val is:', X_val.shape)
print ('The shape of y_val is: ', y_val.shape)



# Estimate mean and variance of each feature
# 一共两个特征,因此返回的是一个包含两个元素的数组
mu, var = estimate_gaussian(X_train)
visualize_fit(X_val, mu, var)
p_val = multivariate_gaussian(X_val, mu, var)
p = multivariate_gaussian(X_train, mu, var)
epsilon, F1 = select_threshold(y_val, p_val)

# Find the outliers in the training set
outliers = p < epsilon
# Visualize the fit
visualize_fit(X_train, mu, var)
# 查看训练数据
plt.scatter(X_train[:, 0], X_train[:, 1], marker='x', c='b')
plt.title("The first dataset")
plt.ylabel('Throughput (mb/s)')
plt.xlabel('Latency (ms)')
plt.axis([0, 30, 0, 30])
# Draw a red circle around those outliers
plt.plot(X_train[outliers, 0], X_train[outliers, 1], 'ro',
         markersize= 10,markerfacecolor='none', markeredgewidth=2)
plt.show()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1266683.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

亚马逊云科技 re:Invent 2023:引领科技前沿,探索未来云计算之窗

文章目录 一、前言二、什么是亚马逊云科技 re:Invent&#xff1f;三、亚马逊云科技 re:Invent 2023 将于何时何地举行四、亚马逊云科技 re:Invent 2023 有什么内容&#xff1f;4.1 亚马逊云科技 re:Invent 2023 主题演讲4.2 亚马逊云科技行业专家探实战 五、更多亚马逊云科技活…

发牌洗牌的简单逻辑

1. 需求分析 1.1 要求实现&#xff1a; 我们能使用一副牌&#xff0c;基本的实现多人炸金花小游戏。 1.2 实现分析&#xff1a; 1、有一副牌&#xff1a; 首先自定义card类&#xff0c;来定义每一张牌&#xff1b;&#xff08;牌上由花色和数字&#xff08;1~13&#xff09;&…

第二十章多线程

线程简介 java语言提供了并发机制&#xff0c;程序员可以在程序中执行多个线程&#xff0c;每一个线程完成一个功能&#xff0c;并与其他线程并发运行。 一个进程是一个包含有自身地址的程序&#xff0c;每个独立执行的程序都称为进程。也就是说每个正在执行的程序都是一个进…

基于QT的俄罗斯方块游戏设计与实现

基于QT的俄罗斯方块游戏设计与实现 摘要&#xff1a;信息时代正处于高速发展中&#xff0c;而电子游戏已经成为人生活中或不可少的消磨工具之一。科技时代在不断地高速发展中&#xff0c;游戏相关编程设计也随着发展变得越来越重要&#xff0c; 俄罗斯方块游戏是一款古老传遍世…

ubuntu22.04新机使用(换源,下载软件,安装显卡驱动,锁屏长亮)

换源 国内有很多Ubuntu的镜像源&#xff0c;包括阿里的、网易的&#xff0c;还有很多教育网的源&#xff0c;比如&#xff1a;清华源、中科大源。推荐使用中科大源&#xff0c;快得很。 /etc/apt/sources.list编辑/etc/apt/sources.list文件, 在文件最前面添加以下条目(操作前…

促进高层次人才创新创业,长沙又在“放大招”

“人才”&#xff0c;寥寥数笔&#xff0c;却勾勒出一座城市的发展核心、创新引擎。大力引进高层次人才&#xff0c;更是城市提升综合实力的有效举措。 11月26日&#xff0c;在长沙市委组织部&#xff08;市委人才工作局&#xff09;举办“汇聚磅礴力量 全力建设全球研发中心城…

港科夜闻|2023年全球大学毕业生就业力排名公布,香港科大位列香港第一名

关注并星标 每周阅读港科夜闻 建立新视野 开启新思维 1、2023年全球大学毕业生就业力排名公布&#xff0c;香港科大位列香港第一名。香港科大在泰晤士高等教育2023年全球就业能力大学排名中上升一位至全球第29位&#xff0c;继续位居香港首位。香港科大的毕业生就业能力持续跻身…

水淼采集器-免费水淼采集器下载

在当今数字时代&#xff0c;随着信息的迅猛增长&#xff0c;许多网站管理员面临一个共同而具有挑战性的问题——如何在短时间内获取大量优质内容&#xff0c;以满足用户对信息的不断需求&#xff1f;水淼采集器&#xff0c;作为一个备受瞩目的解决方案&#xff0c;正成为许多人…

浅谈数据资产价值评估

加gzh"大数据食铁兽“&#xff0c;了解更多大数据信息 数据是资产&#xff0c;是当前时代大背景下毋庸置疑的。随着科技的发展&#xff0c;数据的重要性越来越受到人们的关注。对于企业来说&#xff0c;数据是非常重要的资产&#xff0c;它可以为企业提供决策依据、增加市…

Leetcode—2336.无限集中的最小数字【中等】

2023每日刷题&#xff08;四十四&#xff09; Leetcode—2336.无限集中的最小数字 实现代码 class SmallestInfiniteSet {set<int> s; public:SmallestInfiniteSet() {for(int i 1; i < 1000; i) {s.insert(i);}}int popSmallest() {int res *s.begin();s.erase(s…

解决git action发布失败报错:Error: Resource not accessible by integration

现象&#xff1a; 网上说的解决方法都是什么到github个人中心setting里面的action设置里面去找。 可这玩意根本就没有&#xff01; 正确解决办法&#xff1a; 在你的仓库页面&#xff0c;注意是仓库页面的setting里面&#xff1a; Actions> General>Workflow permisss…

2020年6月15日 Go生态洞察:pkg.go.dev开源探索

&#x1f337;&#x1f341; 博主猫头虎&#xff08;&#x1f405;&#x1f43e;&#xff09;带您 Go to New World✨&#x1f341; &#x1f984; 博客首页——&#x1f405;&#x1f43e;猫头虎的博客&#x1f390; &#x1f433; 《面试题大全专栏》 &#x1f995; 文章图文…

Spring Cloud 版本升级记:OpenFeignClient与Gateway的爱恨交织

Spring Cloud 版本升级记&#xff1a;OpenFeignClient与Gateway的爱恨交织 近日&#xff0c;在负责的项目中&#xff0c;我对 Spring Boot、Spring Cloud 以及 Spring Cloud Alibaba 进行了版本升级。原以为会一切顺利&#xff0c;没想到却遭遇了 Spring Cloud Gateway 无法正…

创新、诚信、共赢:湖北乾一律师事务所领航律师行业新发展

湖北乾一律师事务所: 一、引言 律师行业在现代社会中扮演着举足轻重的角色,为公民、法人和其他组织提供法律服务,维护法律权益,促进法治建设。湖北乾一律师事务所作为业内的佼佼者,凭借其专业素养、丰富经验和卓越声誉,成为了律师行业的典范。 二、湖北乾一律师事务所概况 …

宋仕强论道之华强北的商业配套(十三)

宋仕强论道之华强北的商业配套&#xff08;十三&#xff09;&#xff1a;金航标电子萨科微半导体总经理宋仕强先生发布“宋仕强论道”系列视频&#xff0c;分享多年学习、生活和工作经验和感悟&#xff0c;甚至涵盖了文学、艺术、哲学、宗教。这段时间发表的是对华强北&#xf…

Oracle(2-7)Instance and Media Recovery Structures

文章目录 一、基础知识1、体系结构详解2、Database Files 数据库文件3、Database Other Files 其他数据文件4、Dynamic Views 动态视图5、Large Pool6、DB Buffer Cache,DBWn7、Configuring Tablespaces 配置表空间8、Redo Log Buffer, LGWR9、Database Checkpoints 数据库检查…

【MySql】悲观锁和乐观锁的介绍

一、并发控制 当程序中可能出现并发的情况时&#xff0c;就需要保证在并发情况下数据的准确性&#xff0c;以此确保当前用户和其他用户一起操作时&#xff0c;所得到的结果和他单独操作时的结果是一样的。这就叫做并发控制。并发控制的目的是保证一个用户的工作不会对另一个用…

在Anaconda中用命令行安装环境以及安装包

一、下载Anaconda 下载地址 二、创建环境 1. 打开Anaconda命令行 2.创建环境 conda create -n 环境名称 python3.10(需要的python版本号) 3.激活环境 activate 环境名4.下载安装包 pip install 模块名 -i https://pypi.tuna.tsinghua.edu.cn/simple5.下载torch 官网&…

Cesium 关闭深度写入

没有关闭PointPrimitive的深度写入: 关闭了PointPrimitive的深度写入: if (pointPrimitiveCollection._rsOpaque) {pointPrimitiveCollection._rsOpaque Cesium.RenderState.fromCache({depthTest: {enabled: false,}});}const p pointPrimitiveCollection.add({position:…

Softing线上研讨会 I 用于现代工业物联网的OPC UA服务器聚合管理方案

| 线上研讨会时间&#xff1a;2023年12月4日 17:00~17:30或23:00~23:30 在工业自动化网络中有越来越多的设备通过OPC UA互操作性标准来传输数据&#xff0c;同时&#xff0c;在用户端也有越来越多的IT应用支持OPC UA。然而&#xff0c;为了加速OT和IT之间的融合&#xff0c;必…