数据挖掘(2.2)--数据预处理

news2025/1/16 16:54:35

目录

二、数据描述

1.描述数据中心趋势

1.1平均值和截断均值 

1.2加权平均值

1.3中位数(Median)和众数(Mode)

2.描述数据的分散程度

2.1箱线图

2.2方差和标准差

2.3正态分布

3.数据清洗

3.1数据缺失的处理

3.2数据清洗

二、数据描述

描述数据的方法,包括描述数据中心趋势的方法如均值、中位数,描述数据的分散程度的方法如方差、标准差,以及数据的其他描述方法如散点图和参数化方法等。

1.描述数据中心趋势

1.1平均值和截断均值 

平均值(Mean),又称为均值或算数均值(Arithmeticmean),其计算方式如下:

\bar{x}=\frac{1}{n}\sum_{i=1}^{n}xi

例如.对于下列学生成绩列表,其算数均值为73.5分,即平均分是73.5分。可以看出,学生的成绩分布大体在平均值附近。
76,89,76,70,70,84,90,84,83,83

截断均值(Trimmed mean),即不考虑离群值,用其他值计算平均值
如果其中一个同学因某种原因导致成绩太低,为了处理这种情况,可以使用截断均值。使用截断均值来进行计算,如:去除第一个同学的分数,余下9个同学算出分数平均值这比较符合直观印象。在许多比赛环节中,为了避免评委个人的偏好与偏向对整体评分造成影响,通常使用去掉个最低分,去掉一个最高分,用其他分数计算平均分的手段来进行打分,这就是一种形式的截断均值。

1.2加权平均值

加权算术均值( Weighted arithmetic mean):不希望将所有的数据等同看待,而是希望让一些数据比另一些数据更有代表性,其计算方式如下:

\bar{x}=\frac{\sum_{i=1}^{n}wixi}{\sum_{i=1}^{n}wi}

如:比赛打分

评委:80,80,80,80,80

观众:30,40,50,60,50,40,30,20,10,40

希望评委的权重是观众的10倍

评委分数之和*10+观众分数之和/评委人数*10+观众人数

1.3中位数(Median)和众数(Mode)

众数、中位数和均值如图所示,对于仅有一个峰值的分布来说,三者之间的关系可以用一个经验公式来描述:

Mean一Mode= 3*(Mean一Median)
该公式并不一定总是成立,但是可以在一定程度上反映三者之间的关系。

2.描述数据的分散程度

希望数据之间相差很大,还是相差较小,这就是数据的分散程度。
衡量数据的分散程度的一个很好的指标是分位数,a分位数是从负无穷到某一点概率密度函数的积分(分布列求和)为a时那一点的值。比较常用的分位数为最小值(可以认为是0分位数)、0.25分位数(Q1)、中位数(0.5分位数,Q2)、0.75分位数(Q3)和最大值(可以认为是1分位数)。

2.1箱线图

通过这些分位数可以定义一些描述数据分散度的指标。范围是最大值与最小值之差,它描述了数据分布在多大的范围中;中间四分位数极差(IQR)是Q3-Q1,它反映了数据中心部分的分散程度;五数概要是上述5个分位数的整体,通常被用在箱线图中,用于形象表示数据的范围。

 

在箱线图中,有些数据点由于过于脱离整体,通常希望把它们单独表示出来,这些点称为离群点
(Outlier)。通常使用点与最近的中间四分位数的差来判断是否属于离群点,通常使用一一个常数k(经验值为1.5)与中间四分位数极差的成绩来定义这个临界差值。即当数据不属于以下区间时,认为数据为离群点:
[Q1 - k(Q3 - Q1),Q3 +k(Q3 - Q1)]

2.2方差和标准差

衡量数据分散程度的另外两个常用的指标是方差和标准差。方差通常用S2表示,是数据的平方误差的期望,样本的(无偏)方差的计算公式为:

标准差通常用s表示,标准差是方差的均方根值。正态分布是一种典型的概率分布,其概率密度函数可以使用均值μ和标准差σ两个参数来表示:

2.3正态分布

正态分布是分布比较集中的单峰分布,其主要的概率集中在均值附近,其中,[μ- - σ.p+a]集中了68%的概率,[μ- 2σ,p+2σ]集中了95%的概率,[μ- 3σ,p+ 3o]集中了99. 7%的概率。正态分布的概率分布如图所示。
 

3.数据清洗

数据清洗中进行的任务包括填补数据中的缺失值,识别数据中的离群点,对有噪声数据进行平滑等。数据清洗在提升数据质量方面具有相当大的作用。

3.1数据缺失的处理

数据缺失可能由各种原因导致

采集设备的故障可能会造成空白数据,一个属性可能与其他属性产生冲突而造成它被删除,数据在录入阶段可能出现误解而未能录人,在数据录入的时刻可能某个属性并不受重视而未被采集,采集数据的需求可能发生了变化造成数据属性集合的变化。

处理缺失数据

最简单的处理方法是当数据的某个属性缺失时,丢弃掉整条数据记录。
人工填补缺失值,即对于某些缺失的属性,用人工的方式进行填补。人工填补的前提是数据存在一定的冗余,其缺失属性可以通过其他属性进行推断。
对于缺失数据采用较多的处理方式是自动对缺失值进行填补。自动填补数据的最简单办法是对某个属性字段,对所有缺失该属性的数据填补统一的值。

3.2数据清洗

数据噪声是指数据中存在的随机性错误和偏差,许多原因可能导致这些错误与偏差。
其中,数据采集中一些客观因素的制约带来了数据噪声。数据采集设备可能具有缺陷和技
术限制。

在数据挖掘领域中,为了保证数据预处理工作的高效,为了处理噪声数据,通常用到的方法是分箱、聚类分析和回归分析等,有时也会将计算机判决与人的主观判断相结合。
数据清洗的过程通常是由两个过程的交替迭代组成数据异常的发现和数据的清洗。对于数据首先需要进行审查,根据先验知识如数据的取值范围、数据依赖性、数据的分布、数据的唯一性、连续性和空/非空性质等,可以发现数据中存在的异常现象。在发现数据异常后,使用数据清洗方法对数据进行转换。数据转换可以使用专门的数据迁移工具进行,通常称为ETL( Extract, Transform,Load)工具。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/398647.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

自动化测试实战篇(9),jmeter常用断言方法,一文搞懂9种测试字段与JSON断言

Jmeter常用的断言主要有,JSON断言和响应断言这两种方式。 断言主要就是帮助帮助人工进行快速接口信息验证避免繁杂的重复的人工去验证数据 第一种响应断言Apply to:表示应用范围测试字段:针对响应数据进行不同的匹配响应文本响应代码响应信息…

【Go自学第一节】GoLang 数据类型

和Java类型,go拥有多种数据类型,可以把它分为四个大类基础类型、聚合类型、引用类型和接口类型 一、基本数据类型 基本数据类型又可以细分为:数字类型(整型、浮点型)、布尔类型、字符串类型 整型 Go 的整型分为有符号…

计算机网络的166个概念你知道几个 第十一部分

计算机网络数据链路层和物理层节点:一般指链路层协议中的设备。链路:一般把沿着通信路径连接相邻节点的通信信道称为链路。MAC 协议:媒体访问控制协议,它规定了帧在链路上传输的规则。奇偶校验位:一种差错检测方式&…

基于gin-vue-admin[gin+gorm]手动实现crud(全)

使用Gin-Vue- Admin框架手动实现crud 在gva框架下自己手动实现一个CRUD的操作,该操作将会结合gen进行探讨学习,具体实现可以看下面代码的实现,项目目录层级分为api层,service层,model层,common层&#xff…

1/4、1/2、整车悬架天棚主动控制仿真分析合集

目录 前言 1. 1/4悬架系统 1.1数学模型 1.2仿真分析 2. 1/2悬架系统 2.1数学模型 2.2仿真分析 3. 整车悬架系统 3.1数学模型 3.2仿真分析 4.总结 参考文献 前言 对于天棚控制相比大家不陌生,它是由美国的Karnopp提出,利用假设的与天棚固连…

【数据结构】链表相关题目(简单版)

🚀write in front🚀 📜所属专栏: 初阶数据结构 🛰️博客主页:睿睿的博客主页 🛰️代码仓库:🎉VS2022_C语言仓库 🎡您的点赞、关注、收藏、评论,是…

软件测试10

Linux和数据库 1.Linux命令:软件测试第一个任务,一般都需要进行环境搭建,一部分环境搭建内容是在服务器上实现的,跟服务器交互需要使用Linux命令。(因为Linux没有图形化页面) 2.数据库:所有的软…

ccf-csp 202112-3登机牌条码

题目背景 西西艾弗岛景色优美,游人如织。但是,由于和外界的交通只能靠渡船,交通的不便严重制约了岛上旅游业的发展。西西艾弗岛管委会经过努力,争取到了一笔投资,建设了一个通用航空机场。在三年紧锣密鼓的主体建设后…

Jetpack Compose 中的动态加载、插件化技术探索

在传统的 Android 开发模式中,由于界面过分依赖于 Activity、Fragment这样的组件,一个业务模块中往往会存在着大量的 Activity 类,因此诞生了很多的插件化框架,这些插件化框架基本都是想方设法的使用各种Hook/反射手段来解决使用未…

c++11auto

autoc11中auto并不代表一种实际的数据类型,它只是一个类型声明的占位符,auto也并不是再所有场景下都能推导出变量的实际类型,使用auto不需要进行初始化,让编译器推导出它的实际类型,再编译阶段将auto占位符替换为真正的…

没有比这更详细的-压测工具Jmeter介绍及使用了

一、压测工具选型 1.1、前言 压力测试是每一个Web应用程序上线之前都需要做的一个测试,他可以帮助我们发现系统中的瓶颈问题,减少发布到生产环境后出问题的几率;预估系统的承载能力,使我们能根据其做出一些应对措施。所以压力测…

【Linux基础篇】一、Linux入门基础命令

一、Linux基础命令 1、Linux的目录结构 /,根目录是最顶级的目录了Linux只有一个顶级目录:/路径描述的层次关系同样适用/来表示/home/itheima/a.txt,表示根目录下的home文件夹内有itheima文件夹,内有a.txt 2、ls命令 功能&#…

数字孪生GIS智慧风场Web3D可视化运维系统

随着国家双碳目标的实施,新能源发电方式逐渐代替了污染大气层的火力发电,其中风力发电相比于光伏发电具有能量密度高、发电小时数长、生命周期达20-25年之久等独特的优势。风能取之不尽、用之不竭,在新型能源互联网下,风力发电有可…

三、GC算法垃圾回收器

文章目录(持续更新中... ...CMS and G1)概述如何判断对象存活引用计数法根可达算法GC算法(垃圾回收算法)分代收集理论标记-清除算法复制算法标记-整理算法垃圾回收器概述Serial收集器Parallel收集器Parallel Old收集器CMS收集器G1收集器常用的收集器组合…

STM32实战项目-串口打印

前言: 本小结主要实现串口打印功能,主要将上一结的状态机运行次数,通过串口在串口终端上打印出来,硬件电路上主要是TTL转USB驱动电路,软件上主要有状态机函数,串口发送函数等调试工具是串口助手。 目录 1…

机器学习学习记录1:假设空间

我们可以把学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集"匹配" 的假设,即能够将训练集中的瓜判断正确的假设.假设的表示一旦确定,假设空间及其规模大小就确定了.对于西瓜问题,这里我们…

[MySQL索引]2.索引的底层原理(一)

索引的底层原理(一)B-树索引B树索引tips: ​ 通过使用malloc/new来申请4字节的内存,但是操作系统不是说每一次用户申请4字节内存,我就只分配4字节,这样申请次数多了就要涉及频繁的用户态和内核态的切换,开销…

AM5728(AM5708)开发实战之安装Debian 10桌面操作系统

一 环境搭建 准备一个SD卡启动卡,能够正常引导板卡启动,后续会把Debian 10镜像安装到SD卡ext4分区 准备两个U盘,一个格式化成fat32文件系统,另一个格式化成ext4文件系统 下载Debian 10镜像,镜像名字为debian-10.4.0-a…

【前端】一个更底层库React,附教程

Reat是什么?React在UI里最火的也是最好的库,React是一个做UI的库,具体来说是做UI组件的库,专注于做mvc中的v,它是一个更底层的工具库。为你应用的每一个状态设计简洁的视图,当数据变动时 React 能高效更新并…

Linux发行版本与发行版的简单的介绍

Linux linux下有很多发行的版本,或者称之为魔改版本。以下介绍一些常见的版本,以避免名词的混淆。 linux是提供了一个内核,就像是谷歌的内核一样,QQ浏览器就是使用的谷歌的内核,也算是一个发行版本。 Ubuntu&#x…