2023高教社杯数学建模思路 - 案例:异常检测

news2024/11/25 20:28:27

文章目录

    • 赛题思路
      • 一、简介 -- 关于异常检测
        • 异常检测
        • 监督学习
      • 二、异常检测算法
        • 2. 箱线图分析
        • 3. 基于距离/密度
        • 4. 基于划分思想
  • 建模资料

赛题思路

(赛题出来以后第一时间在CSDN分享)

https://blog.csdn.net/dc_sinor?type=blog

一、简介 – 关于异常检测

异常检测(outlier detection)在以下场景:

  • 数据预处理
  • 病毒木马检测
  • 工业制造产品检测
  • 网络流量检测

等等,有着重要的作用。由于在以上场景中,异常的数据量都是很少的一部分,因此诸如:SVM、逻辑回归等分类算法,都不适用,因为:

监督学习算法适用于有大量的正向样本,也有大量的负向样本,有足够的样本让算法去学习其特征,且未来新出现的样本与训练样本分布一致。

以下是异常检测和监督学习相关算法的适用范围:

异常检测

  • 信用卡诈骗
  • 制造业产品异常检
  • 数据中心机器异常检
  • 入侵检测

监督学习

  • 垃圾邮件识别
  • 新闻分类

二、异常检测算法

在这里插入图片描述
在这里插入图片描述

import tushare
from matplotlib import pyplot as plt
 
df = tushare.get_hist_data("600680")
v = df[-90: ].volume
v.plot("kde")
plt.show()

近三个月,成交量大于200000就可以认为发生了异常(天量,嗯,要注意风险了……)

在这里插入图片描述
在这里插入图片描述

2. 箱线图分析

import tushare
from matplotlib import pyplot as plt
 
df = tushare.get_hist_data("600680")
v = df[-90: ].volume
v.plot("kde")
plt.show()

在这里插入图片描述
大体可以知道,该股票在成交量少于20000,或者成交量大于80000,就应该提高警惕啦!

3. 基于距离/密度

典型的算法是:“局部异常因子算法-Local Outlier Factor”,该算法通过引入“k-distance,第k距离”、“k-distance neighborhood,第k距离邻域”、“reach-distance,可达距离”、以及“local reachability density,局部可达密度 ”和“local outlier factor,局部离群因子”,来发现异常点。

用视觉直观的感受一下,如图2,对于C1集合的点,整体间距,密度,分散情况较为均匀一致,可以认为是同一簇;对于C2集合的点,同样可认为是一簇。o1、o2点相对孤立,可以认为是异常点或离散点。现在的问题是,如何实现算法的通用性,可以满足C1和C2这种密度分散情况迥异的集合的异常点识别。LOF可以实现我们的目标。

在这里插入图片描述
在这里插入图片描述

4. 基于划分思想

典型的算法是 “孤立森林,Isolation Forest”,其思想是:

假设我们用一个随机超平面来切割(split)数据空间(data space), 切一次可以生成两个子空间(想象拿刀切蛋糕一分为二)。之后我们再继续用一个随机超平面来切割每个子空间,循环下去,直到每子空间里面只有一个数据点为止。直观上来讲,我们可以发现那些密度很高的簇是可以被切很多次才会停止切割,但是那些密度很低的点很容易很早的就停到一个子空间了。

这个的算法流程即是使用超平面分割子空间,然后建立类似的二叉树的过程:

在这里插入图片描述

import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import IsolationForest

rng = np.random.RandomState(42)

# Generate train data
X = 0.3 * rng.randn(100, 2)
X_train = np.r_[X + 1, X - 3, X - 5, X + 6]
# Generate some regular novel observations
X = 0.3 * rng.randn(20, 2)
X_test = np.r_[X + 1, X - 3, X - 5, X + 6]
# Generate some abnormal novel observations
X_outliers = rng.uniform(low=-8, high=8, size=(20, 2))

# fit the model
clf = IsolationForest(max_samples=100*2, random_state=rng)
clf.fit(X_train)
y_pred_train = clf.predict(X_train)
y_pred_test = clf.predict(X_test)
y_pred_outliers = clf.predict(X_outliers)

# plot the line, the samples, and the nearest vectors to the plane
xx, yy = np.meshgrid(np.linspace(-8, 8, 50), np.linspace(-8, 8, 50))
Z = clf.decision_function(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

plt.title("IsolationForest")
plt.contourf(xx, yy, Z, cmap=plt.cm.Blues_r)

b1 = plt.scatter(X_train[:, 0], X_train[:, 1], c='white')
b2 = plt.scatter(X_test[:, 0], X_test[:, 1], c='green')
c = plt.scatter(X_outliers[:, 0], X_outliers[:, 1], c='red')
plt.axis('tight')
plt.xlim((-8, 8))
plt.ylim((-8, 8))
plt.legend([b1, b2, c],
           ["training observations",
            "new regular observations", "new abnormal observations"],
           loc="upper left")
plt.show()

在这里插入图片描述

建模资料

资料分享: 最强建模资料
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/949315.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

众创空间、孵化器、共享办公这三者之间的异同点

众创空间、孵化器和共享办公都是创新型创业生态中重要的组成部分,但它们在服务方式、功能和作用上有所区别。 众创空间是一种开放式的创新型创业生态,旨在通过提供共享办公空间、创业培训、融资对接等服务,帮助初创企业加速成长。众创空间注…

小区物业这个雷区,千万别踩!

在现代社会中,电力是我们日常生活不可或缺的一部分,而小区物业配电柜监控则扮演着保障电力稳定供应和管理的关键角色。 配电柜监控系统通过实时监测电力参数、设备状态和环境情况,我们能够早期发现潜在的问题,迅速采取行动&#x…

【HSPCIE仿真】输入网表文件(3)子电路描述语句

子电路描述语句 1. 子电路的定义定义子电路的基本语法子电路终止语句子电路的调用语句全局节点(.gloab)示例 2. 基于子电路执行多次分析 HSPICE 允许用户在程序执行过程中调用由各种 HSPICE 元件和器件构成的子电路,即电路结构的层次化描述。 子电路是以 .SUBCKT 或…

WebSocket--技术文档--基本概念--《快速了解WebSocket协议》

阿丹: 不断学习新技术,丰富自己了解更多才能扩展更多世界可能。 官网 WebSocket首页、文档和下载 - HTML5开发相关 - OSCHINA - 中文开源技术交流社区 软件简介 WebSocket 是 HTML5 开始提供的一种浏览器与服务器间进行全双工通讯的网络技术。 WebS…

java八股文面试[数据库]——数据库三范式

什么是范式? 范式是数据库设计时遵循的一种规范,不同的规范要求遵循不同的范式。 最常用的三大范式 第一范式(1NF):属性不可分割,即每个属性都是不可分割的原子项。(实体的属性即表中的列) 理解:一个列不能包含两个数…

ruoYi添加子模块,访问子模块服务404

一 问题 在ruoYi项目中,添加了一个子模块,在里面创建了几个服务,调用时发现总是404 二 解决 1. 父pom添加该子模块 2.ruoyi-admin项目关联该子模块

git私房菜

文章目录 1、公司项目开发Git协作流程2、合并相关的操作3、Git常用命令总结 公司中如何使用Git协同开发的?本文将具体介绍开发模式,以及一些常用命令。 1、公司项目开发Git协作流程 公司一个完整的项目出来,项目的推进是在主分支master上进行…

重要通知,亚马逊正式取消轻小商品计划!

美亚轻小商品计划今日正式关闭 轻小商品计划允许卖家以更低的配送费用提供更小、更轻、更便宜的产品。正常的亚马逊FBA费用通常会使销售低价商品无利可图,但轻小商品计划降低了满足某些标准(包括重量、尺寸和价格)的商品的配送成本。 不过&a…

解决未授予用户在此计算机上的请求登录类型

步骤一:在被访问的计算机中操作 1、点击开始菜单,在计算机上单击右键,选择管理。 2、依次展开系统工具—本地用户和组—用户。 未授予用户在此计算机上的请求登录类型 3、双击Guest,将账户已禁用前面的勾去掉,点击应…

智慧乡村/数字乡村:安防监控/视频监控综合管理平台EasyCVR技术如何助力乡村数字化?

一、背景分析 数字乡村是伴随网络化、信息化和数字化在农业农村经济社会发展中的应用,以及农民现代信息技能的提高而衍生的农村现代化发展和转型进程。数字乡村建设既是乡村振兴的战略方向,也是建设数字中国的重要内容。 1)加快农业数字化转…

QML Book 学习基础4(状态和转换)

目录 states(状态) Transition(过渡) states(状态) 用户界面的某些部分可以用状态来描述。状态定义一组属性更改,并且可以由特定条件触发。 QML 中定义状态,该元素需要绑定到任何项…

基于协同滤波推荐算法的图书管理系统

目录 一、项目概述 二、技术框架 三、功能设计 四、数据库设计 五、项目截图 六、技术文档 一、项目概述 Hi,大家好,今天分享的项目是《基于协同滤波推荐算法的图书管理系统》,对用户登录注册、图书推荐、图书管理、用户信息进行管理&…

GitHub Copilot三连更:能在代码行里直接提问,上下文范围扩展到终端

量子位 | 公众号 QbitAI 就在昨晚,GitHub Copilot迎来了一波不小的更新。 包括: 全新交互体验——代码行中直接召唤聊天功能,不用切界面,主打一个专注; 改善斜杠命令,一键删除,主打快捷操作、…

vue2项目中对象赋值添加键值对页面无响应问题

export default{ data(){ return{ obj:{ a:1, b:2 } } }, created(){ this.obj.c3 }, methods:{ btn(){ //页面不会响应 this.obj.c4 //解决办法this.$set(this.obj)console.log(this.obj)}} }

无涯教程-Android - Grid View函数

Android GridView在二维滚动网格(行和列)中显示项目,并且网格项目不一定是预定的,但它们会使用ListAdapter自动插入到布局中 Grid View - Grid view ListView 和 GridView 是 AdapterView 的子类,可以通过将它们绑定到 Adapter 来填充&#x…

多通道振弦数据记录仪在岩土工程隧洞中的完整解决方案

多通道振弦数据记录仪在岩土工程隧洞中的完整解决方案 隧洞工程是一种非常复杂的工程类型,需要高度的安全性和精确性。而在岩土工程中,振弦是一种非常常用的测试方法,用于测定岩土体的物理性质以及地震波传播特性等,以利于对隧洞…

【kubernetes】k8s部署OpenELB及在KubeSphere使用OpenELB

OpenELB 官网 https://openelb.io 本文内容学习于马士兵云原生课程 概述 OpenELB is an open-source load balancer implementation designed for bare-metal Kubernetes clusters. OpenELB是一个为裸机Kubernetes集群设计的开源负载均衡器实现。 In cloud-based Kubernetes cl…

sxstrace.exe 使用

sxstrace.exe是一个用于分析Windows侧边加载程序集的工具。它可以帮助你诊断在启动应用程序时可能出现的依赖问题。以下是如何使用sxstrace.exe工具的一般步骤: 打开命令提示符(管理员权限): 在开始菜单中找到“命令提示符&#x…

一个上班族适合做哪些兼职或者副业?

随着新兴行业的出现,我们可以选择全职上班,可以创业,可以成为自由职业者,也可以成为斜杆青年,有着一份全职工作的同时发展副业,开启多重职业身份,实现多重收入的可能。那么适合上班族副业都是什…