【Python】探索 One-Class SVM:异常检测的利器

news2024/10/6 12:25:56

我已经从你的 全世界路过
像一颗流星 划过命运 的天空
很多话忍住了 不能说出口
珍藏在 我的心中
只留下一些回忆
                     🎵 牛奶咖啡《从你的全世界路过》


在数据科学和机器学习领域,异常检测(Anomaly Detection)是一个重要的任务,广泛应用于金融欺诈检测、网络入侵检测、设备故障检测等领域。One-Class SVM(One-Class Support Vector Machine)是一种基于支持向量机(SVM)的强大算法,专门用于解决异常检测问题。本文将详细介绍 One-Class SVM 的概念、原理及其应用。

什么是 One-Class SVM?

One-Class SVM 是一种无监督学习算法,用于识别数据集中与大多数样本显著不同的异常样本。与传统的 SVM 不同,One-Class SVM 仅使用正样本进行训练,其目标是找到一个决策边界,使得大多数正样本位于边界内,而异常样本位于边界外。

原理概述

One-Class SVM 的基本原理是寻找一个能够包含大部分数据点的超平面,并最大化该超平面的边界。具体来说,One-Class SVM 尝试通过一个非线性映射,将数据从输入空间映射到高维特征空间,在这个高维空间中构造一个超平面,使得大部分数据点能够被该超平面包围。

数学上,One-Class SVM 的优化目标可以表示为:
在这里插入图片描述

应用实例

下面是一个使用 One-Class SVM 进行异常检测的示例代码,使用 Python 和 scikit-learn 库。

安装依赖

首先,确保安装了 scikit-learn 库:

pip install scikit-learn

示例代码

import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm
from sklearn.datasets import make_blobs

# 生成训练数据
X_train, _ = make_blobs(n_samples=100, centers=1, cluster_std=0.4, random_state=42)
X_test, _ = make_blobs(n_samples=20, centers=1, cluster_std=0.4, random_state=42)
X_outliers = np.random.uniform(low=-4, high=4, size=(20, 2))

# 训练 One-Class SVM 模型
clf = svm.OneClassSVM(nu=0.1, kernel="rbf", gamma=0.1)
clf.fit(X_train)

# 预测
y_pred_train = clf.predict(X_train)
y_pred_test = clf.predict(X_test)
y_pred_outliers = clf.predict(X_outliers)

# 可视化结果
plt.title("One-Class SVM")
plt.scatter(X_train[:, 0], X_train[:, 1], c='white', s=20, edgecolor='k', label="Training data")
plt.scatter(X_test[:, 0], X_test[:, 1], c='blue', s=20, edgecolor='k', label="Test data")
plt.scatter(X_outliers[:, 0], X_outliers[:, 1], c='red', s=20, edgecolor='k', label="Outliers")
plt.legend()
plt.show()

代码解释

数据生成:使用 make_blobs 生成训练数据和测试数据,这些数据点聚集在一个中心点附近。生成一些随机的离群点用于测试模型的异常检测能力。
模型训练:使用 svm.OneClassSVM 训练模型。参数 nu 控制异常点的比例,kernel 和 gamma 用于指定核函数及其参数。
预测:使用训练好的模型对训练数据、测试数据和离群点进行预测。返回值为 1 表示正常样本,-1 表示异常样本。
结果可视化:使用 Matplotlib 进行可视化,展示训练数据、测试数据和离群点的分布情况。
One-Class SVM 的优势和局限性

优势

无监督学习:无需标签即可进行异常检测。
灵活性强:可以使用不同的核函数处理线性或非线性数据。
良好的理论基础:基于支持向量机的强大理论。

局限性

参数调优复杂:选择合适的 nu 和 gamma 参数可能需要大量的实验和经验。
计算复杂度高:对于大规模数据集,训练和预测的时间复杂度较高。

结语

One-Class SVM 是一种有效的异常检测算法,特别适用于无监督环境下的异常检测任务。通过理解其基本原理和应用场景,结合实际项目中的数据特征,开发者可以更好地利用 One-Class SVM 提高异常检测的准确性和效率。如果你正在寻找一种强大的工具来解决异常检测问题,不妨尝试一下 One-Class SVM。

Happy Coding!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1806452.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用 Vue 官方脚手架初始化 Vue3 项目

Vite 官网:https://cn.vitejs.dev/ Vue 官网:https://vuejs.org/ Vue 官方文档:https://cn.vuejs.org/guide/introduction.html Element Plus 官网:https://element-plus.org/ Tailwind CSS 官网:https://tailwindcss.…

DS:堆的结构与实现

欢迎来到Harper.Lee的学习世界!博主主页传送门:Harper.Lee的博客主页想要一起进步的uu可以来后台找我哦! 一、堆的概念与结构 1.1 堆的概念 堆(Heap)是完全二叉树中的一种,分为大根堆和小根堆。 特点&#…

【RAG入门教程03】Langchian框架-文档加载

Langchain 使用文档加载器从各种来源获取信息并准备处理。这些加载器充当数据连接器,获取信息并将其转换为 Langchain 可以理解的格式。 LangChain 中有几十个文档加载器,可以在这查看https://python.langchain.com/v0.2/docs/integrations/document_lo…

BabylonJS 6.0文档 Deep Dive 动画(四):通过动画排序制作卡通片

一种最为直接的方法是为每个动画剪辑(Animatin Clip)指定开始时间,最终形成一个卡通动画(Cartoon)。 1. 设计 1.1 概述 动画的脚本如下: 摄像机显示了一栋带门的建筑物。摄像机靠近门并停止。门打开&am…

【数据结构】队列——循环队列(详解)

目录 0 循环队列 1 特定条件下循环队列队/空队满判断条件 1.1 队列为空的条件 1.2 队列为满的条件 2 循环队列的实现 3 示例 4 注意事项 0 循环队列 循环队列(Circular Queue)是队列的一种实现方式,它通过将队列存储空间的最后一…

高考后的职业规划:学习LabVIEW开发前景广阔

在今天的高考后,选择学习LabVIEW开发为未来职业规划将大有可为。LabVIEW以其图形化编程、强大的数据处理和硬件集成功能,广泛应用于工程、科研、自动化测试等领域。掌握LabVIEW开发技能,不仅就业前景广阔,还能参与前沿技术应用&am…

Linux云计算架构师涨薪班课程内容包含哪些?

第一阶段:Linux云计算运维初级工程师 目标 云计算工程师,Linux运维工程师都必须掌握Linux的基本功,这是一切的根本,必须全部掌握,非常重要,有了这些基础,学习上层业务和云计算等都非常快&#x…

ToonCrafter - AI 生成动画越来越简单了,两张照片生成动画视频 本地一键整合包

动画制作对很多人来说应该都是一项非常专业且复杂的工作,需要学习专门的知识,掌握特定的工具,并且投入大量的时间精力才能得到成果,不过最近出现的一款 AI 动画制作工具 ToonCrafter 则有希望改变这一现状。它只需 2 张图像就生成…

Web3设计风格和APP设计风格

Web3设计风格和传统APP设计风格在视觉和交互设计上有一些显著的区别。这些差异主要源于Web3技术和理念的独特性,以及它们在用户体验和界面设计中的具体应用。以下是Web3设计风格与传统APP设计风格的主要区别。北京木奇移动技术有限公司,专业的软件外包开…

未在本地计算机上注册“Microsoft.ACE.OLEDB.12.0”提供程序。.net 读取excel的时候报错(实测有效)

1. 下载AccessDatabaseEngine.exe 下载链接 添加链接描述 2. office excel是64为的需要安装【AccessDatabaseEngine.exe】、32位的【AccessDatabaseEngine_X64.exe】 3. 我的是64为,跳过32位安装检测 1. 找到下载的安装包 2.输入安装包文件全称并在后面加上/pas…

ctfshow-web入门-命令执行(web29)五种解法绕过文件名检测

命令执行,需要严格的过滤 进入 php 代码审计了: 第一题代码很简单,就是对 preg_match 绕过,只要提交的参数值不出现 flag 就行 先看一下当前目录下的文件,构造 payload: ?csystem(ls); 可以看到 flag 就…

电感十大供应商

电感品牌-电感器品牌排行榜-电感十大品牌-Maigoo品牌榜

小柴带你学AutoSar系列一、基础知识篇(5)makefile基础

Flechazohttps://www.zhihu.com/people/jiu_sheng 小柴带你学AutoSar总目录https://blog.csdn.net/qianshang52013/article/details/138140235?spm=1001.2014.3001.5501

Python基础——字符串

一、Python的字符串简介 Python中的字符串是一种计算机程序中常用的数据类型【可将字符串看作是一个由字母、数字、符号组成的序列容器】,字符串可以用来表示文本数据。 通常使用一对英文的单引号()或者双引号(")…

电子电气架构 ---车载安全防火墙

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你的不对。非必要不费力证明自己,无利益不试图说服别人,是精神上的节…

docker——基础知识

简介 一、什么是虚拟化和容器化 ​ 实体计算机叫做物理机,又时也称为寄主机; ​ 虚拟化:将一台计算机虚拟化为多态逻辑计算机; ​ 容器化:一种虚拟化技术,操作系统的虚拟化;将用户空间软件实…

【数据结构】 -- 堆 (堆排序)(TOP-K问题)

引入 要学习堆,首先要先简单的了解一下二叉树,二叉树是一种常见的树形数据结构,每个节点最多有两个子节点,通常称为左子节点和右子节点。它具有以下特点: 根节点(Root):树的顶部节…

为什么Kubernetes(K8S)弃用Docker:深度解析与未来展望

为什么Kubernetes弃用Docker:深度解析与未来展望 🚀 为什么Kubernetes弃用Docker:深度解析与未来展望摘要引言正文内容(详细介绍)什么是 Kubernetes?什么是 Docker?Kubernetes 和 Docker 的关系…

iOS 17.5中的一个漏洞

i0S 17.5中的一个漏洞 iOS 17.5中的一个漏洞会使已刚除的照片重新出现,并目此问题似乎会影响甚至已擦除并出售给他人的 iPhone 和 iPad. 在2023年9月,一位Reddit用户根据Apple的指南擦除了他的iPad,并将其卖给了一位朋友。然而,这…

Spring @Transactional 事务注解

一、spring 事务注解 1、实现层(方法上加) import org.springframework.transaction.annotation.Transactional;Transactional(rollbackFor Exception.class)public JsonResult getRtransactional() {// 手动标记事务回滚TransactionAspectSupport.currentTransactionStatus…