【笔记】数据异常检测与修复总结

【笔记】数据异常检测与修复总结

news2025/4/15 1:50:25

文章目录

- 一、异常种类
- - 1. 对于移动对象的数据异常
  - 2. 对于时序数据的异常检测
- 二、异常数据清洗流程
- 三、数据预处理
- 四、异常检测算法
- 五、异常修复算法
- 六、漂移数据清洗

一、异常种类

不同的研究对象，有着不同的异常分类方式

1. 对于移动对象的数据异常

异常数据信息，包括重复数据、无序数据、缺失数据、无效数据、漂移数据、模糊数据。

类型	描述
重复数据	由于设备或其他因素问题导致的数据重复存储造成的
无序数据	是网络传输延迟造成的不正确的数据存储顺序
缺失数据	通过比较两个数据之间的时间差和数据收集的频率来确定的
无效数据	由数据的纬度或经度是否超出范围来确定
漂移数据	是指不符合行驶规则，明显偏离行驶轨迹的数据记录
模糊数据	\

2. 对于时序数据的异常检测

除了重复数据、无序数据、缺失数据、无效数据。
又可以将数据的异常精确地分为：

点异常值：相对于全局其他数据的异常实例。
上下文异常值：上下文异常值通常在它们自己的上下文中具有相对较大/较小的值，但不是全局的。
集体异常值：被定义为相对于整个数据集异常的相关异常数据实例的集合。

以上这些异常的检测难度也较大。

再细分的话，集体异常值又可以分类为：

shapelet outliers (异常的局部子序列): 。
seasonal outliers (异常周期性的局部子序列): 。
trend outliers (异常趋势的局部子序列):

二、异常数据清洗流程

在这里插入图片描述

三、数据预处理

是否要排序
是否要规定索引
是否要填充缺失值、删除重复值
是否要调整数据格式（列位置调换、提取所需数据）

四、异常检测算法

在这里插入图片描述

五、异常修复算法

均值填充
最大似然估计
NNF

近邻数据填充 NNF（Nearest Neighbor Fill）算法
在这里插入图片描述
NNF 算法不仅具有 MA 算法均等填充数据的优势,而且对于逐渐演化的数据也有很好的填充优势,在变化的数据中,NNF 比 MA 有更好的填充效果。

。。。

六、漂移数据清洗

一种结合范围约束和最大似然估计的算法

修复漂移较大的数据异常：范围约束
修复漂移较小的数据异常：滑动窗口统计

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/351894.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

leaflet: 数据聚合，显示当前bounds区域中的点的名称列表（078）

leaflet: 数据聚合，显示当前bounds区域中的点的名称列表（078）

第078个点击查看专栏目录本示例的目的是介绍演示如何在vue+leaflet中实现数据聚合的功能，左边列出右边可视区域内的marker的名称。这里主要用到了可视区域的范围以及contains函数。直接复制下面的 vue+leaflet源代码，操作2分钟即可运行实现效果文章目录示例效果配置方…

阅读更多...

windows11安装sqlserver2022报错

windows11安装sqlserver2022报错

window11安装SQL Server 2022 报错糟糕… 无法安装SQL Server (setup.exe)。此 SQL Server安装程序介质不支持此OS的语言，或没有SQL Server英语版本的安装文件。请使用匹配的特定语言SQL Server介质;或安装两个特定语言MUI，然后通过控制面板的区域设置…

阅读更多...

深入浅出带你学习weblogic中间件常见漏洞

深入浅出带你学习weblogic中间件常见漏洞

前文上一篇文章给大家带来了JBOSS中间件漏洞的利用知识，不知道大家学习的如何了，今天给大家带来的是一个比较重要的中间件——weblogic漏洞利用的介绍，按我们之前的顺序，先学习一下什么是WEBLOGIC中间件。什么是WebLogic? We…

阅读更多...

机器学习：Recurrent Neural Network-RNN

机器学习：Recurrent Neural Network-RNN

应用举例如果有很多词汇的时候，one-encode会导致很长，可以将不常见的归类到other，也可以用n-gram进行编码输出的是一个概率分布相同的词得到不同的结果，需要网络具有记忆，RNN网络的设计就是使得网络具有部分的记忆能…

阅读更多...

【Python入门第十一天】Python 运算符

【Python入门第十一天】Python 运算符

Python 运算符运算符用于对变量和值执行操作。 Python 在以下组中划分运算符： 算术运算符赋值运算符比较运算符逻辑运算符身份运算符成员运算符位运算符 Python 算术运算符算术运算符与数值一起使用来执行常见的数学运算： 运算符： 名…

阅读更多...

动态网站开发讲课笔记01：网页开发基础

动态网站开发讲课笔记01：网页开发基础

文章目录零、本讲学习目标一、HTML基础（一）HTML简介1、HTML2、HTML语言的基本格式3、<!DOCTYPE>声明4、html标签5、head标签6、body标签7、编写第一个网页8、关于编写HTML文件的工具9、HTML标签概述（1）单标签（2&…

阅读更多...

$【论文笔记】图像修复Learning Joint Spatial-Temporal Transformations for Video Inpainting$

【论文笔记】图像修复Learning Joint Spatial-Temporal Transformations for Video Inpainting

论文地址：https://arxiv.org/abs/2007.10247 源码地址：GitHub - researchmm/STTN: [ECCV2020] STTN: Learning Joint Spatial-Temporal Transformations for Video Inpainting 一、项目介绍当下SITA的方法大多采用注意模型，通过搜索参考帧…

阅读更多...

webpack 开发环境的基本配置(webpack打包样式资源、html、图片、devserver、开发环境配置、以及其他资源)

webpack 开发环境的基本配置(webpack打包样式资源、html、图片、devserver、开发环境配置、以及其他资源)

A.打包样式资源 1. 创建文件 2. 下载安装 loader 包 npm i css-loader style-loader less-loader less -D 3. 修改配置文件 /*webpack.config.js webpack的配置文件作用: 指示 webpack 干哪些活（当你运行 webpack 指令时，会加载里面的配置&#xff…

阅读更多...

计算机图形学（Computer Graphics）的学习笔记

计算机图形学（Computer Graphics）的学习笔记

目录 1.计算机图形学是什么 2.计算机图形学学什么 3.计算机图形学应用举例 4.计算机图形学主要内容 5.图形的分类 6.图形要素 7.图形的表达方式 8.图形学应用生活中的例子 9.计算机图形学定义 10.用户界面发展方向 11.影视中的变形技术要点 12.虚拟现实的一些技术 …

阅读更多...

Python 之 Matplotlib xticks 的再次说明、图形样式和子图

Python 之 Matplotlib xticks 的再次说明、图形样式和子图

文章目录一. 改变 x 轴显示内容 xticks 方法再次说明1. x 轴是数值型数据2. 将 x 轴更改为字符串3. 总结二. 其他元素可视性1. 显示网格：plt.grid()2. plt.gca( ) 对坐标轴的操作三. plt.rcParams 设置画图的分辨率，大小等信息四. 图表的样式参数设置1. …

阅读更多...

CUDA C++扩展的详细描述

CUDA C++扩展的详细描述

CUDA C扩展的详细描述文章目录CUDA C扩展的详细描述CUDA函数执行空间说明符B.1.1 \_\_global\_\_B.1.2 \_\_device\_\_B.1.3 \_\_host\_\_B.1.4 Undefined behaviorB.1.5 __noinline__ and __forceinline__B.2 Variable Memory Space SpecifiersB.2.1 \_\_device\_\_B.2.2. \_…

阅读更多...

汽车改装避坑指南：大尾翼

汽车改装避坑指南：大尾翼

今天给大家讲一个改装的误区：大尾翼很多车友看到一些汽车加了大尾翼，非常的好看，就想给自己的车也加装一个。那你有没有想过，尾翼这东西你真的需要吗？ 赛车为什么加尾翼？尾翼主要是给车尾部的一个压低提供…

阅读更多...

三维重建基础入门之特征点检测基础（二）

三维重建基础入门之特征点检测基础（二）

前言：本文着眼于记录自己从普通CVer入门三维重建的学习过程，可能过程比较坎坷，都在摸索阶段，但争取每次学习都能进一步，提高自己的能力，同时，每篇文章都会按情况相应地推出B站讲解视频&#xff…

阅读更多...

在群晖上体验维格表社区版APITable

在群晖上体验维格表社区版APITable

本文是应网友 lee yong 和 shijie880500 的要求折腾的； 什么是 APITable ？ APITable 是 vika 维格表的社区版，是一个面向 API 且易于使用的可视化数据库，适合所有人，使其成为 Airtable 的最佳开源替代品。最重要的是&a…

阅读更多...

智慧城市总体解决方案和建设思路

智慧城市总体解决方案和建设思路

“智慧城市”是综合城市发展规划、城市运行管理、城市经济社会发展、新一代信息技术应用等为一体的城市发展新模式，是促进城市科学发展、跨越发展、和谐发展的必然选择，是提升现代城市综合竞争力和国际影响力的战略制高点。建设智慧城市，是城…

阅读更多...

电脑文件被删除？试了十几款工具，数据恢复大师只看这一款

长期使用电脑办公，电脑肯定保存着很多数据文件。文件一多，我们势必是要进行整理的。要不文件太多会占用内存，还会影响电脑的运行速度。整理过程中，重要的电脑文件被误删了怎么办？建议您先使用常规的方法来进行操作先…

阅读更多...

双目客流统计方案的应用原理

双目客流统计方案的应用原理

双目客流统计客流摄像头采用立体视觉技术实现高度统计功能。基于视差原理。利用双镜头摄取的两幅图像的视差，构建三维场景，在检测到运动目标后。通过计算图像对应点间的位置偏差。获取目标的三维信息，在深度图像中对目标的检测与追踪&#xf…

阅读更多...

Java基础二

Java基础二

目录 1. 常见类和对象 1.1 object 1.2 数组 Array 1.3 二维数组 1.6 二分查找法 1.7 字符串 1.8 包装类 1.9 日期类 1.10 工具类 1.11 比较 2. 异常 2.1介绍 2.2 基础语法 2.3 常见异常 3. 集合 3.1 介绍 3.2 常用的接口和类 3.3 ArrayList 基本操作 3.4 ArrayL…

阅读更多...

165、【动态规划】leetcode ——337. 打家劫舍 III：记忆化递归+动态规划（C++版本）

165、【动态规划】leetcode ——337. 打家劫舍 III：记忆化递归+动态规划（C++版本）

题目描述原题链接：337. 打家劫舍 III 解题思路 （1）记忆化递归采用后序遍历的方式，设置一个unordered_map型Hash表record，记录每个结点的情况。当遍历到该节点时，判定之前是否遍历过，如果遍…

阅读更多...

docker基本内容简单复习

docker基本内容简单复习

文章目录一、docker简介docker镜像镜像的优化二、docker网络三、docker数据卷一、docker简介 docker是管理容器的引擎，docker为应用打包、部署平台，而非单纯的虚拟化技术 docker镜像 docker镜像是分层结构；共享宿主机kernel；同一…

阅读更多...

推荐文章

最新文章