数据挖掘——数据预处理

news2025/1/7 21:08:21

数据挖掘——数据预处理

  • 数据预处理
    • 数据预处理 ——主要任务
    • 数据清洗
      • 如何处理丢失的数据
      • 如何处理噪声数据
      • 如何处理不一致数据
    • 数据集成
      • 相关分析
        • 相关系数(也成为皮尔逊相关系数)
        • 协方差
    • 数据规约
      • 降维法:PCA主成分分析
      • 降数据——抽样法
      • 数据压缩

数据预处理

数据预处理 ——主要任务

  • 数据清理
    • 填写缺失值,平滑噪声数据,识别或删除离群,并解决不一致问题
  • 数据集成
    • 整合多个数据库,多维数据集或文件
  • 数据规约
    • 降维
    • 降数据
    • 数据压缩
  • 数据转换
    • 规范化
    • 离散化

数据清洗

  • 属性值缺失:
    • 例如,职业=“ ”(丢失)
  • 噪音,错误或离群
    • 例如,工资=“-10”(错误)
  • 不一致的代码或不符的名称
    • 年龄=“42”生日=“03/07/1997”
    • 曾经评级“1,2,3”,现在评级“A,B,C”

如何处理丢失的数据

  • 忽略元组:当类标号缺少时通常这么做(监督式机器学习中训练集缺乏类标签)。当每个属性缺少值比例比较大时,效果比较差
  • 手动填写遗漏值:工作量大
  • 自动填写
    • 使用属性的平均值填充空缺值
    • 最有可能的值:基于诸如贝叶斯公式或决策树推理

如何处理噪声数据

箱线图检测离群数据:删除离群点
在这里插入图片描述

如何处理不一致数据

  • 不一致的代码或不符的名称
    • 年龄=“42”生日=“09/24/1998”
    • 曾经评级“1,2,3”,现在评级“A,B,C”
  • 方法
    • 计算推理、替换
    • 全局替换

数据集成

将来自多个数据源的数据组合成一个连贯的数据源
在这里插入图片描述

  • 整合多个数据库经常发生数据冗余
    • Object identification:相同的属性或对象可能有不同的名字在不同的数据库中
    • Derivable data:一个属性可能是“派生”的另一个表中的属性,例如,跑步能力
  • 通过相关性分析和协方差分析可以检测到冗余的属性
  • 仔细集成来自多个数据源,可能有助于减少/避免冗余和不一致的地方,并提高读取速度和质量

相关分析

相关系数(也成为皮尔逊相关系数)

r p , q = ∑ ( p − p ˉ ) ( q − q ˉ ) ( n − 1 ) σ p σ q = ∑ ( p q ) − n p q ‾ ( n − 1 ) σ p σ q r_{p, q}=\frac{\sum(p-\bar{p})(q-\bar{q})}{(n-1) \sigma_{p} \sigma_{q}}=\frac{\sum(p q)-n \overline{p q}}{(n-1) \sigma_{p} \sigma_{q}} rp,q=(n1)σpσq(ppˉ)(qqˉ)=(n1)σpσq(pq)npq
其中 n n n是元组的数目,而 p p p q q q是各属性的具体值, σ p σ_p σp σ q σ_q σq是各自的标准偏差。

  • 当r>0时,表示两变量正相关,r<0时,两变量为负相关。
  • 当|r|=1时,表示两变量为完全线性相关,即为函数关系。
  • 当r=0时,表示两变量间无线性相关关系。
  • 当0<|r|<1时,表示两变量存在一定程度的线性相关。且|r|越接近1, 两
    变量间线性关系越密切;|r|越接近于0,表示两变量的线性相关越弱。
  • 一般可按三级划分:|r|<0.4为低度线性相关;0.4≤|r|<0.7为显著性相关;
    0.7≤|r|<1为高度线性相关。
协方差

Cov ⁡ ( p , q ) = E ( ( p − p ˉ ) ( q − q ˉ ) ) = ∑ i = 1 n ( p i − p ˉ ) ( q i − q ˉ ) n r p , q = Cov ⁡ ( p , q ) σ p σ q \begin{array}{c}\operatorname{Cov}(p, q)=E((p-\bar{p})(q-\bar{q}))=\frac{\sum_{i=1}^{n}\left(p_{i}-\bar{p}\right)\left(q_{i}-\bar{q}\right)}{n} \\r_{p, q}=\frac{\operatorname{Cov}(p, q)}{\sigma_{p} \sigma_{q}}\end{array} Cov(p,q)=E((ppˉ)(qqˉ))=ni=1n(pipˉ)(qiqˉ)rp,q=σpσqCov(p,q)

  • 其中n是元组的数目,p和q是各自属性的具体值, σp和σq是各自的标准差
    • 正相关: C o v ( p , q ) > 0 Cov(p,q)>0 Covp,q>0
    • 负相关: C o v ( p , q ) < 0 Cov(p,q) <0 Covp,q<0
    • 不相关: C o v ( p , q ) = 0 Cov(p,q) =0 Covp,q=0
  • 可具有某些对随机变量的协方差为0,但不是独立的。一些额外的假设(例如,数据是否服从多元正态分布)做了协方差为0意味着独立。

它可以简化计算:
C o v ( A , B ) = E ( ( A − A ˉ ) ( B − B ˉ ) ) = ∑ i = 1 n ( a i − A ˉ ) ( b i − B ˉ ) n = E ( A B ) − A ˉ B ˉ Cov(A,B)=E((A-\bar{A})(B-\bar{B}))=\frac{\sum_{i=1}^n(a_i-\bar{A})(b_i-\bar{B})}{n}=E(AB)-\bar{A}\bar{B} Cov(A,B)=E((AAˉ)(BBˉ))=ni=1n(aiAˉ)(biBˉ)=E(AB)AˉBˉ

数据规约

为什么数据规约(datareduction)
由于数据仓库可以存储TB的数据,因此在一个完整的数据集上运行时,复杂的数据分析可能需要一个很长的时间。

数据规约三种方法

  1. 降维
  2. 降数据
  3. 数据压缩

降维法:PCA主成分分析

在这里插入图片描述

  • PCA主成分分析法核心idea
    • 数据中很多属性之间可能存在这样或那样的相关性
    • 能不能找到一个方法,将多个相关性的属性组合仅仅形成一个属性

降数据——抽样法

在这里插入图片描述

  • 简单随机抽样(SimpleRandomSampling)
    • 相等的概率选择
    • 不放回抽样(Samplingwithout replacement)
      • 一旦对象被选中,则将其删除
    • 有放回抽样(Samplingwithreplacement)
      • 选择对象不会被删除
  • 分组抽样
    • 每组抽相近个数
    • 用于偏斜数据

样本大小对数据质量的影响:

  • 从8000个点分别抽2000和500个点
    • 2000个点的样本保留了数据集的大部分结构
    • 500个点的样本丢失了许多结构
      在这里插入图片描述

数据压缩

在这里插入图片描述

  • 函数映射:给定的属性值更换了一个新的表示方法,每个旧值与新的值可以被识别
  • 方法
    • 规范化:按比例缩放到一个具体区间
      • 最小 - 最大规范化
      • Z-得分正常化
      • 小数定标规范化
    • 离散化

最小-最大规范化
v ′ = v − min ⁡ A m a x A − min ⁡ A ( n e w _ m a x A − n e w − min ⁡ A ) + n e w − min ⁡ A v^{\prime}=\frac{v-\min A}{max A-\min A}\left(\right. \left.new\_max A-n e w_{-} \min A\right)+ new_{-} \min A v=maxAminAvminA(new_maxAnewminA)+newminA
v v v即需要规范的数据

z-分数规范化
v ′ = v − 均值 A 标准 差 A v'=\frac{v-均值A}{标准差_A} v=标准Av均值A

离散化方法

  • 非监督离散化法
    • 等宽法:根据属性的值域来划分,使每个区间的宽度相等
    • 等频法:根据取值出现的频数来划分,将属性的值域划分成个小区间,并且要求落在每个区间的样本数目相等
    • 聚类:利用聚类将数据划分到不同的离散类别

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2272843.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Unity-Mirror网络框架-从入门到精通之CCU示例

文章目录 前言什么是CCU&#xff1f;测试结果最后 前言 在现代游戏开发中&#xff0c;网络功能日益成为提升游戏体验的关键组成部分。Mirror是一个用于Unity的开源网络框架&#xff0c;专为多人游戏开发设计。它使得开发者能够轻松实现网络连接、数据同步和游戏状态管理。本文…

如何在 Ubuntu 22.04 上安装 Nagios 服务器教程

简介 在本教程中&#xff0c;我们将解释如何在 Ubuntu 22.04 上安装和配置 Nagios&#xff0c;使用 Apache 作为 Web 服务器&#xff0c;并通过 Let’s Encrypt Certbot 使用 SSL 证书进行保护。 Nagios 是一个强大的监控系统&#xff0c;它可以帮助组织在 IT 基础设施问题影…

大语言模型训练所需的最低显存,联邦大语言模型训练的传输优化技术

联邦大语言模型训练的传输优化技术 目录 联邦大语言模型训练的传输优化技术大语言模型训练所需的最低显存大语言模型训练所需的最低显存 基于模型微调、压缩和分布式并行处理的方法,介绍了相关开源模型及技术应用 核心创新点 多维度优化策略:综合运用基于模型微调、模型压缩和…

Javascript算法——贪心算法(一)

贪心算法详解&#xff08;JavaScript&#xff09;&#xff08;局部最优->全局最优&#xff09; 贪心算法&#xff08;Greedy Algorithm&#xff09;是一种在每一步选择中都采取当前状态下的最优选择&#xff08;局部最优&#xff09;的算法设计方法。通过局部最优解的累积&…

141.《mac m系列芯片安装mongodb详细教程》

文章目录 下载从官网下载安装包 下载后双击解压出文件夹安装文件名修改为 mongodb配置data存放位置和日志log的存放位置启动方式一方式二方式二:输入mongo报错以及解决办法 本人电脑 m2 pro,属于 arm 架构 下载 官网地址: mongodb官网 怎么查看自己电脑应该下载哪个版本,输入…

【ArcGISPro/GeoScenePro】裁剪和打包栅格数据

检查并处理扫描地图 数据 https://arcgis.com/sharing/rest/content/items/535efce0e3a04c8790ed7cc7ea96d02d/data 使用标准相机或扫描仪创建的数字影像通常存储在 RGB 颜色模型中,这意味着这些影像将由红色、绿色和蓝色三个栅格组成。 此扫描地图在提供给您之前已在坐标系…

【C++】B2109 统计数字字符个数

博客主页&#xff1a; [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: C 文章目录 &#x1f4af;前言&#x1f4af;题目描述与输入输出要求题目&#xff1a;统计数字字符个数样例输入输出 &#x1f4af;方法分析与代码实现方法 1&#xff1a;使用 fgets 读取输入并手动判断数字字符代码实…

基于32单片机的智能语音家居

一、主要功能介绍 以STM32F103C8T6单片机为控制核心&#xff0c;设计一款智能远程家电控制系统&#xff0c;该系统能实现如下功能&#xff1a; 1、可通过语音命令控制照明灯、空调、加热器、窗户及窗帘的开关&#xff1b; 2、可通过手机显示和控制照明灯、空调、窗户及窗帘的开…

git理解记录

文章目录 1. 背景2. 基本概念3. 日常工作流程4. 其他常见操作4.1 merge合并操作4.2 tag打标签操作4.3 remoute远程操作4.4 撤销修改 git理解记录 1. 背景 git作为分布式版本控制系统&#xff0c;开源且免费&#xff0c;相比svn集中式版本控制系统存在速度快(HEAD指针指向某次co…

开启宝塔Nginx防火墙支付返回失败解决方法

1.把/plugin.php加到Nginx防火墙URL白名单 包括支付服务器回调ip 2.如果支持带参数 /plugin.php?idzhifufm:notify 加到Nginx防火墙标准模式-URL白名单带参数 如果上面都不行 就把下面的IP加入白名单 39.107.193.172 47.94.194.103 47.104.216.190

平安产险安徽分公司携手安徽中医药临床研究中心附属医院 共筑儿童安全防护网

为响应金融知识普及教育号召&#xff0c;平安产险安徽分公司联动安徽中医药临床研究中心附属医院&#xff0c;于近日在朝霞小学举办了一场儿童安全防范与健康守护活动。此次活动旨在提升学生的安全防范意识&#xff0c;守护儿童健康成长&#xff0c;同时有力推动金融知识与传统…

Elasticsearch:Lucene 2024 年回顾

作者&#xff1a;来自 Elastic Chris Hegarty 2024 年对于 Apache Lucene 来说又是重要的一年。在本篇博文中&#xff0c;我们将探讨主要亮点。 Apache Lucene 在 2024 年表现出色&#xff0c;发布了许多版本&#xff0c;包括三年来的首次重大更新&#xff0c;其中包含令人兴奋…

Unity打包问题集(持续更新)

1.报错&#xff1a;CommandWithNoStdoutInvokationFailure: Unable to start ADB server. Please make sure the Android SDK is installed and is properly configured in the Editor. See the Console for more details. 大致意思就是打不开ADB的服务器&#xff0c;请检查安卓…

SpringBoot环境和Maven配置

SpringBoot环境和Maven配置 1. 环境准备2. Maven2.1 什么是Maven2.2 为什么要学 Maven2.3 创建一个 Maven项目2.4 Maven核心功能2.4.1 项目构建2.4.2 依赖管理2.4.3 Maven Help插件 2.5 Maven 仓库2.5.1本地仓库2.5.2 中央仓库2.5.3 私有服务器, 也称为私服 2.6 Maven设置国内源…

【HarmonyOS应用开发——ArkTS语言】欢迎界面(启动加载页)的实现【合集】

目录 &#x1f60b;环境配置&#xff1a;华为HarmonyOS开发者 &#x1f4fa;演示效果&#xff1a; &#x1f4d6;实验步骤及方法&#xff1a; 一、在media文件夹中添加想要使用的图片素材​ 二、在entry/src/main/ets/page目录下创建Welcome.ets文件 1. 整体结构与组件声…

【数据可视化-11】全国大学数据可视化分析

&#x1f9d1; 博主简介&#xff1a;曾任某智慧城市类企业算法总监&#xff0c;目前在美国市场的物流公司从事高级算法工程师一职&#xff0c;深耕人工智能领域&#xff0c;精通python数据挖掘、可视化、机器学习等&#xff0c;发表过AI相关的专利并多次在AI类比赛中获奖。CSDN…

NLP项目实战——基于Bert模型的多情感评论分类(附数据集和源码)

在当今数字化的时代&#xff0c;分析用户评论中的情感倾向对于了解产品、服务的口碑等方面有着重要意义。而基于强大的预训练语言模型如 Bert 来进行评论情感分析&#xff0c;能够取得较好的效果。 在本次项目中&#xff0c;我们将展示如何利用 Python 语言结合transformers库&…

各种数据库类型介绍

1.关系型数据库&#xff08;Relational Databases, RDBMS&#xff09; 关系型数据库是基于关系模型组织的数据库&#xff0c;其数据结构以表格的形式存在&#xff0c;表格之间通过外键等关系相互关联。它们支持复杂的SQL&#xff08;Structured Query Language&#xff09;查询…

创龙3588——debian根文件系统制作

文章目录 build.sh debian 执行流程build.sh源码流程 30-rootfs.sh源码流程 mk-rootfs-bullseys.sh源码流程 mk-sysroot.sh源码流程 mk-image.sh源码流程 post-build.sh 大致流程系统制作步骤 build.sh debian 执行流程 build.sh 源码 run_hooks() {DIR"$1"shiftf…

倾斜摄影相机在不动产确权登记和权籍调查中的应用

一、项目背景 1.1 项目背景 为贯彻落实中央、国务院关于实施乡村振兴战略、关于“扎实推进房地一体的农村集体建设用地和宅基地使用权确权登记颁证&#xff0c;完善农民闲置宅基地和闲置农房政策&#xff0c;探索宅基地所有权、资格权、使用权‘三权分置’”的要求&#xff0…