数据挖掘(2)数据预处理

news2025/1/14 0:51:54

一、数据预处理

1.1概述

  1. 数据预处理的重要性
    1. 杂乱性:如命名规则。
    2. 重复性:同一客观事再
    3. 不完整性:
    4. 噪声数据:数据中存在错误或异常的现象。
  2. 数据预处理的常见方法
    1. 数据清洗:去掉数据中的噪声,纠正不一致。
    2. 数据集成:将多个数据源合成一致的数据存储
    3. 数据变换(转换):对数据的格式进行转换,如数据的归一化处理。
    4. 数据归约(消减):通过聚集、删除冗余属性、局类等方法,来实现数据的压缩。

 1.2数据清洗

1.空缺值

  1. 忽略该元组:
    • 其中一条记录中有属性值被遗漏
    • 缺少类标号
    • 但是,当某一类属性的空缺值占百分比很大,若直接忽略,则会使挖掘性能变得非常差。
      • eg:Y:N=1:1,忽略后会变成Y:N=3:1
      • 人工填写空缺值
      • 使用属性的平均值来填充空缺值
      • 使用与给定元组属同一类的平均值来代替
      • 使用一个全局变量填充空缺值(不推荐)
      • 使用最可能的值填充空缺值
        • 回归、贝叶斯、判定树归纳确定

2.噪声数据的处理

  1. 分箱方法(重点)

分箱的步骤:

  1. 先排 序排序,将其分到等深(等宽)的箱中
  2. 按箱的平 均 值(在出现极端数据的情况下,不能用均值处理)、中 值、边界(用左右边界进行替换)进行平滑

等深分箱(分块)

按记录数进行分箱,每箱具有相同的记录数,每箱的记录数称为箱的权重,也称箱子的深度。

等宽分箱

在整个属性值的区间上平均分布,即每个箱的区间范围设定为一一个常量,称为箱子的宽度。

聚类方法
  1. 相似、向邻近的数据集合在一起形成各个聚类集合。
  2. 特点:直接形成一簇,不需要先验知识。
  3. 查找孤立点,消除噪声
线性回归
  1. 通过回归方程获得拟合函数
人机结合共同检测

3.不一致数据

  1. 人工更正
  2. 利用知识工程工具
    • 属性之间的函数依赖关系
  3. 数据字典

1.3数据集成和变换

  1. 数据集成:将来自多个数据源的数据合并到一起
  2. 数据变换:对数据进行规范化操作,将其转换成适合于数据挖掘的形式。
1.数据集成
  1. 需要统一原始数据中的所有矛盾之处
    • 同名异义、异名同义、单位不不统一、字长不一致。
  2. 需要注意的问题:
    • 模式匹配
      • 整合不同数据源中的元数据。
      • 进行实 体 识 别
      • 借助于数据字典、元数据
    • 数据冗余   
      • 计算相关分析检测: r_{a,b}=\frac{\sum(A-\overline{A})(B-\overline{B})}{(n-1)\sigma_A\sigma_B}
      • 若有高的相关系数,则可以去除掉。
    • 数据值冲突
      • 产生原因:表示、比例、编码不同
      • 比如:单位不统一、成绩的百分之和五分值。
2.数据变换(重点)

常用方法:

  1. 平滑处理:消除噪声
    • 分箱
  2. 聚集操作:对数据进行综合
    • 函数:avg(),count(),min(),max()…
    • 数据规范化:将数据转换到一个较小的范围内,两个数据相差比较大。
    • 最小-最大规范化
      • 将原始属性映射到区间[new_min,new_max]
      • 公式:v'=\frac{v-min_A}{max_A-min_A}(new\_max_A-new\_min_A)+new\_min_A
    • z-score规范化
      • 根据均值、标准差进行计算
      • 常用于:最大值、最小值未知
      • 不保证取值区间一致,但新的取值满足01分布
      • v'=\frac{v-avg_A}{standard\_dev_A}
    • 小数定标规范化

1.4数据规约

1. 数据规约的标准:
  1. 时间:原始数据集挖掘时间:t,数据规约时间:t0,挖掘后时间t’,满足: t_0+t'≤t 
  2. 性能:归约后得到的数据比原数据小的多,并可以产生相同或差不多的结果。
2. 策略:
  1. 数据立方体聚集:
  2. 维 归 约 ( 重 点 ) 
    1.  主要检测并删除不相关、弱相关或冗余的属性维
    2. .方法:属性子集选择
      1.  目标:寻找出最小的属性子集,并确保新数据子集的概率分布尽可能接近原来的数据集的概率分布。
      2. 启发式算法找出"好的’子集
        1.  逐步向前选择:选择原属性集中最好的属性,并将它添加到该集合中。
        2. 逐步向后删除:由整个属性集开始,每一步都删除现在属性集中最坏的属性。
        3. 向前选择和向后删除结合:每一步选择一个最好的属性,并在剩余属性中删除一个最坏的属性。
        4. 判定树归纳:出现在判定树中的属性形成规约后的属性子集。

1.5数据离散化(重点)

1.三种类型的属性值
  1. 标称型(名称、名义):数值来自于无序集合,不需要离散化,如性别、地名、人名。
    • 不可比、不可加
  2. 序数型:来自于有序集合,不需要离散化,如等级
    • 可比、不可加
  3. 连续型:实数值,需要离散化,如温度、体重、考试成绩。
    • 可比、可加
2.离散化技术
  1. 分箱
  2. 基于熵的离散化
  3. 通过自然划分分段
  4. 聚类(不推荐)

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1057979.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C语言】循环结构程序设计 (详细讲解)

前言:前面介绍了程序中常常用到的顺序结构和选择结构,但是只有这两种结构是不够的,还有用到循环结构(或者称为重复结构)。因为在日常生活中或是在程序所处理的问题中常常遇到需要重复处理的问题。 【卫卫卫的代码仓库】 【选择结构】 【专栏链…

C语言数组和指针笔试题(五)(一定要看)

这里写目录标题 指针运算笔试题解析题目1解析结果 题目2解析结果 题目3解析结果 题目4解析结果 题目5解析结果 题目6解析结果 题目7解析结果 题目8解析结果 感谢各位大佬对我的支持,如果我的文章对你有用,欢迎点击以下链接 🐒🐒🐒个人主页 &a…

【智能家居项目】裸机版本——设备子系统(LED Display 风扇)

🐱作者:一只大喵咪1201 🐱专栏:《智能家居项目》 🔥格言:你只管努力,剩下的交给时间! 输入子系统中目前仅实现了按键输入,剩下的网络输入和标准输入在以后会逐步实现&am…

生鲜蔬果同城配送社区团购小程序商城的作用是什么

生鲜蔬果行业作为市场主要支撑之一,从业商家众多的同时消费者也从不缺,尤其对中高城市,生鲜蔬果除了传统线下超市、市场经营外,线上更是受到大量消费者信任,而很多商家也是自建了生鲜蔬果商城多场景生意经营。 那么通…

家具商家通过商城小程序发展的作用是什么

家具商品覆盖床具、桌椅茶几、沙发等多个细分种类,市场需求较高,而传统消费者也是通过线下方式购买配送,但随着线下经营痛点显现,如流量匮乏拓客难、无法满足同城外地客户随时购物需求、营销难、经营难等,因此不少商家…

第九章 动态规划 part14 1143. 最长公共子序列 1035. 不相交的线 53. 最大子序和

第五十六天| 第九章 动态规划 part14 1143. 最长公共子序列 1035. 不相交的线 53. 最大子序和 一、1143. 最长公共子序列 题目链接: 题目介绍: 思路: 本题和“最长重复子数组”区别在于**这里不要求是连续的了,但要有相对顺序*…

安防监控用品经营商城小程序搭建

安防监控产品种类很多,如监控摄像头、烟感、机房系统、对讲机等,虽然不是每个家庭都需要,但却占据着市场不小份额,其应用度也非常广泛, 而在实际销售方面,除了门店、入驻第三方电商平台或朋友圈售卖外&…

Docker 容器监控 - Weave Scope

Author:rab 目录 前言一、环境二、部署三、监控3.1 容器监控 - 单 Host3.2 容器监控 - 多 Host 总结 前言 Docker 容器的监控方式有很多,如 cAdvisor、Prometheus 等。今天我们来看看其另一种监控方式 —— Weave Scope,此监控方法似乎用的人…

ctfshow—1024系列练习

1024 柏拉图 有点像rce远程执行,有四个按钮,分别对应四份php文件,开始搞一下。一开始,先要试探出 文件上传到哪里? 怎么读取上传的文件? 第一步:试探上传文件位置 直接用burp抓包,…

PowerPoint如何设置密码?

PowerPoint,也就是PPT,是很多人工作中经常用的办公软件,而PPT和Word、Excel等一样可以设置密码保护。 PPT可以设置两种密码,一种是“打开密码”,也就是需要密码才能打开PPT;还有一种是设置成有密码的“只读…

python实现http/https拦截

python实现http拦截 前言:为什么要使用http拦截一、技术调研二、技术选择三、使用方法前言:为什么要使用http拦截 大多数爬虫玩家会直接选择API请求数据,但是有的网站需要解决扫码登录、Cookie校验、数字签名等,这种方法实现时间长,难度高。需求里面不需要高并发,有没有…

Docker系列--在容器中安装JDK的方法(有示例)

原文网址:Docker系列--在容器中安装JDK的方法(有示例)_IT利刃出鞘的博客-CSDN博客 简介 说明 本文介绍如何在容器中安装JDK。 为什么要装JDK? JDK里有很多工具,比如jps、jstack、jmap等,可以排查问题。 本文目标 给Ubuntu系…

【数据结构】海量数据处理

【数据结构】海量数据处理 前言 海量数据处理是指基于海量数据的存储和处理,正因为数据量太大,所以导致要么无法在短时间内迅速处理,要么无法一次性装入内存。 对于时间问题,就可以采用位图、布隆过滤器等数据结构来解决。对于…

摄影后期图像编辑软件Lightroom Classic 2023 mac中文特点介绍

Lightroom Classic 2023 mac是一款图像处理软件,是数字摄影后期制作的重要工具之一,lrc2023 mac适合数字摄影后期制作、摄影师、设计师等专业人士使用。 Lightroom Classic 2023 mac软件特点 高效的图像管理:Lightroom Classic提供了强大的图…

分布式应用程序协调服务 ZooKeeper 详解

目录 1、ZooKeeper简介 2、ZooKeeper的使用场景 3、ZooKeeper设计目的 4、ZooKeeper数据模型 5、ZooKeeper几个重要概念 5.1、ZooKeeper Session 5.2、ZooKeeper Watch 5.3、Consistency Guarantees 6、ZooKeeper的工作原理 6.1、Leader Election 6.2、Leader工作流…

Docker中MySql容器的数据挂载

1.查看是否有数据卷 docker inspect mysql 说明:Name的值是随机生成的不是命令的。因此没有数据卷。 2. 目录挂载 说明:本地目录不允许简写;在执行docker runi命令时,使用-v本地目录:容器内目录可以完成本地目录挂载…

Python之函数、模块、包库

函数、模块、包库基础概念和作用 A、函数 减少代码重复 将复杂问题代码分解成简单模块 提高代码可读性 复用老代码 """ 函数 """# 定义一个函数 def my_fuvtion():# 函数执行部分print(这是一个函数)# 定义带有参数的函数 def say_hello(n…

列表的增删改查和遍历

任务概念 什么是任务 任务是一个参数为指针,无法返回的函数,函数体为死循环不能返回任务的实现过程 每个任务是独立的,需要为任务分别分配栈称为任务栈,通常是预定义的全局数组,也可以是动态分配的一段内存空间&#…

农产品团购配送商城小程序的作用是什么

农产品覆盖稻麦油蛋等多种细分类目,各地区经营商家众多,随着人们生活品质提升,对食物的要求也在提升,绿色无污染无激素的农产品往往受到不少人喜爱,而在销售中,也有不少人选择自建商城线上经营。 通过【雨…

【软考】磁盘工作原理 计算最多最少读取时间

这个题目重复看了三四遍讲解,才完全搞懂计算过程,特此记录 解析 磁头不会停止旋转 单缓冲区:读取完一个物理块后,只有等该物理块处理完成,才能继续读取后面的物理块。 最长时间 摆放顺序如下: 从 R0 开始…