数仓中数据清洗的方法

数仓中数据清洗的方法

news2025/9/19 15:25:15

在数据采集的过程中，需要从不同渠道获取数据并汇集在数仓中，采集的原始数据首先需要进行解析，然后对不准确、不完整、不合理、格式、字符等不规范数据进行过滤清洗，清洗过的数据才能更加符合需求，从而使后续的数据分析应用更为准确。因此在数据分析、挖掘、可视化实现以及统计报表之前，做好相关的数据清洗工作意义重大。

一、数据清洗概述

数据清洗是指对数据进行重新审查和校验的过程中，发现并纠正数据文件中可识别的错误，按照一定的规则把错误或冲突的数据洗掉，包括检查数据一致性，处理无效值和缺失值等，数据清理一般是由计算机而不是人工完成。

二、数据清洗原理

利用数理统计、数据挖掘和预定义清理规则等有关技术将“脏数据”处理掉，从数据源中检测并消除错误、不一致、不完整和重复等数据，为满足要求提供高质量的数据。数据清理的标准模型是将数据输入到数据清理处理器，通过一系列步骤清理数据，然后以期望的格式输出清理过的数据。

三、数据清洗的方法

数据清洗的方法包括：

处理缺失值；
删除重复项；
处理离群值；
格式和类型转换；
数据归一化；
数据集成；
数据转换；
数据简化。

以下分别对这8类方法进行介绍。

1. 处理缺失值

处理缺失值：指的是在数据分析过程中处理缺失值（即数据集中缺少的数据）的方法。常通过以下几种方式完成（选择哪种方法取决于缺少的数据量和手头的具体问题），包括:

删除：删除行/列中缺失的值

归纳：用统计数据(均值，中位数，模态)或预测(回归，kNN)填充缺失值

插值：根据其他样本的值估计缺失值

外推:根据趋势预测缺失值

匿名化:掩盖或扰乱缺失的值以保持隐私。

2.删除重复项

删除重复项：指的是识别并消除数据集中重复或冗余的条目。这是数据清理和预处理中的一个重要步骤，可以确保对唯一且准确的数据执行分析。重复可能是由于人为错误、数据输入错误或数据源中的不一致造成的。有几种方法可以删除重复项（方法的选择将取决于数据的具体要求和正在执行的分析），包括:

删除：删除所有重复的行

保留首行：保留重复行的首行数据，并删除其余的行

保留末行：保留重复行的末尾数据，并删除其余的行

自定义：定义一个自定义方法来确定要保留或删除哪些副本。

3.处理异常值

处理异常值：是指识别和处理数据集中与其余数据显著不同的极端值的过程。异常值可能会对数据分析的结果产生重大影响，如果处理不当，可能会使结果发生偏差。处理异常值有几种方法，包括:

移除：移除离群数据点

修剪：只保留指定百分比的数据，丢弃极端值

替换：用更接近其他数据点的指定值替换极端值

归纳：将异常值替换为统计值，例如平均值或中位数

转换：转换数据以减少异常值的影响，例如log-transformation。

方法的选择将取决于数据的具体要求和正在执行的分析。重要的是要考虑异常值对结果的潜在影响，并仔细选择适当的方法来处理它们。

4.格式和类型转换

格式和类型转换：是指将一种数据格式转换为另一种格式或数据类型的过程。例如，将字符串转换为数字，或将数字格式化为特定的字符串形式。

5.数据归一化

数据归一化：是指将数据标准化为具有相同量纲和相对大小关系的数据集。这有助于防止特定数据特征在模型中具有过多影响力，并且提高了模型的稳健性和准确性。常见的数据标准化方法包括Min-Max，Z-Score等。

6.数据集成

数据集成：是指将来自多个来源的数据组合到单个统一视图中的过程。目标是协调数据源之间的差异，消除冗余信息，并提供一致、准确的数据表示。这使组织能够更全面地了解他们的数据，并更好地将其用于决策和分析。

7.数据转换

数据转换：是指将数据从一种格式或结构转换为另一种格式或结构，以使其更适合分析或满足特定要求的过程。此过程涉及到将数据从源格式映射到目标格式，并且通常涉及到操作聚合或在该过程中过滤数据。数据转换的目标是确保数据的一致性、准确性和可用性，并且可以轻松地与其他数据源集成。

8.数据简化

数据简化：是指对数据进行简化或汇总，以减少数据的大小或复杂性，使其更易于管理、分析和可视化的过程。数据缩减的目标是保留最重要和最相关的信息，同时消除冗余或不相关的数据。这可以通过数据压缩、聚合或降维等技术来实现。通过减少数据的大小，组织可以缩短处理时间，使其更容易处理大型数据集。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1251858.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

手写模拟Spring底层原理（Spring启动流程）（思维导图）

手写模拟Spring底层原理（Spring启动流程）（思维导图）

阅读更多...

5、LED流水灯

5、LED流水灯

LED流水灯思路：每次LED灯熄灭后，下一个LED灯亮 #include <REGX52.H> #include <INTRINS.H>void Delay500ms() //12.000MHz {unsigned char i, j, k;_nop_();i 4;j 205;k 187;do{do{while (--k);} while (--j);} while (--i); }void m…

阅读更多...

3.读取字符串【2023.11.25】

3.读取字符串【2023.11.25】

1.问题描述请使用 input 函数读取一串字符串，然后将其输出。 2.解决思路输入一行字符串。将读入的变量输出。 3.代码实现 strinput("请输入一个字符串") print(str)4.运行结果

阅读更多...

brat文本标注工具——安装

brat文本标注工具——安装

目录一、Linux系统安装 1. centOS系统 2. Ubuntu系统 3. macOS系统 4.说明二、Google Chrome安装 1. 打开命令行，切换到管理者权限 2. 安装依赖 3. 下载Google浏览器的安装包 4. 安装Google Chrome 三、yum更新四、Apache安装安装Apache 启动Apac…

阅读更多...

【Python百宝箱】Python轻松操控邮件：SMTP、POP3和IMAP的魅力

【Python百宝箱】Python轻松操控邮件：SMTP、POP3和IMAP的魅力

前言在数字时代，电子邮件作为信息传递的主要手段，对个人和企业的日常工作至关重要。Python提供了多个强大的库，使得电子邮件的发送和接收变得轻松而灵活。本文将深入介绍Python中与电子邮件相关的主要库，为读者提供从基础到高级…

阅读更多...

局域网的网络ip不稳定问题

局域网的网络ip不稳定问题

在局域网的多个设备，互相通信时好时坏，不稳定。遭遇过的情况如下： 用两个开发板：972开发板1和2，网口同时互相ping，出现1ping 2通--此时2ping 1不通，过段时间，1ping2不通--但2ping又…

阅读更多...

数据结构——堆的实现（详解）

数据结构——堆的实现（详解）

呀哈喽，我是结衣。堆的介绍如果有一个关键码的集合K {k0,k1,k2,…,kn-1},把它的所有元素按照完全二叉树的顺序储存方式储存在一个一维数组中，并满足：Ki<K2i1且ki<K2i2(Ki>K2i1且Ki>-K2i2)i 1,2,3…,则称为小堆（或…

阅读更多...

Linux的基本指令（二）

Linux的基本指令（二）

目录前言学前补充 touch指令 mkdir指令 rmdir指令 rm指令通配符* man指令 cp指令 mv指令(重要) 补充内容： 1、如何快速在Linux中写出代码 2、如何看待如此多的Linux指令 cat指令前言关于Linux的基本指令我们会分三到四篇文章进行分析&#xff0c…

阅读更多...

【Docker】Docker 仓库管理和Docker Dockerfile

【Docker】Docker 仓库管理和Docker Dockerfile

作者简介： 辭七七，目前大二，正在学习C/C，Java，Python等作者主页： 七七的个人主页文章收录专栏： 七七的闲谈欢迎大家点赞 👍 收藏 ⭐ 加关注哦！💖&#x1f…

阅读更多...

js无法请求后端接口，别的都可以？

js无法请求后端接口，别的都可以？

在每个接口的控制器中加入以下代码即可： header(Access-Control-Allow-Methods:*); header("Access-Control-Allow-Origin:*"); 如果嫌麻烦可以添加在api初始函数里面

阅读更多...

jpom学习

jpom学习

jpom学习整理jpom 一键安装部署会需要 mvn跟jdk环境 # 安装服务端和 jdk、maven 环境 yum install -y wget && \ wget -O install.sh https://jpom.top/docs/install.sh && \ bash install.sh Server jdkmvndocker安装安装docker挂载方式安装 docker …

阅读更多...

学习分布式事务Seata看这一篇就够了，建议收藏

学习分布式事务Seata看这一篇就够了，建议收藏

一、事务的特性 ACID特性 A（Atomic）：原子性，构成事务的所有操作，要么都执行完成，要么全部不执行，不可能出现部分成功部分失败的情况。 C（Consistency）：一致…

阅读更多...

个体卫生室电子处方操作流程，私人诊所用什么电子处方系统软件，佳易王诊所电子处方软件配方模板如何设置

个体卫生室电子处方操作流程，私人诊所用什么电子处方系统软件，佳易王诊所电子处方软件配方模板如何设置

个体卫生室电子处方操作流程，私人诊所用什么电子处方系统软件，佳易王诊所电子处方软件配方模板如何设置 1、一般电子处方系统的操作流程为：由医师使用软件开电子处方，打印后核对信息医师签字，然后由药剂师审核单据&am…

阅读更多...

电压调整型脉宽调制控制集成电路芯片D7500，工作电压范围7V ～ 40V，输出电流（Max）可达200mA，具有欠压锁定功能

电压调整型脉宽调制控制集成电路芯片D7500，工作电压范围7V ～ 40V，输出电流（Max）可达200mA，具有欠压锁定功能

D7500/D7500F SMPS 控制器电路，是一块电压调整型脉宽调制控制集成电路。内部包含5V 基准电压电路、两个误差放大器、触发电路、控制输出电路、脉宽调制比较器、死区时间比较器及一个振荡器。该电路可转换频率1kHz至300kHz， 基准电压(Vref)的精确度提…

阅读更多...

Multi-modal brain tumor image segmentation based on improved U-net model

Multi-modal brain tumor image segmentation based on improved U-net model

THE ARCHITECTURE OF IMPROVED NETWORK MODEL 作者未提供代码

阅读更多...

ChatGPT文章批量改写伪原创软件说明文档

ChatGPT文章批量改写伪原创软件说明文档

大家好，我是淘小白~ 最近有很多朋友咨询，chatGPT文章改写插件和改写软件，这个软件之前已经做出来了，用的朋友不是很多，这几天有不少咨询的，现在把说明文档补一下，(#^.^#) 1、软件语言 Pytho…

阅读更多...

LeetCode 1457. 二叉树中的伪回文路径：深度优先搜索(DFS) + 位运算优化

LeetCode 1457. 二叉树中的伪回文路径：深度优先搜索(DFS) + 位运算优化

【LetMeFly】1457.二叉树中的伪回文路径：深度优先搜索(DFS) 位运算优化力扣题目链接：https://leetcode.cn/problems/pseudo-palindromic-paths-in-a-binary-tree/ 给你一棵二叉树，每个节点的值为 1 到 9 。我们称二叉树中的一条路径是「…

阅读更多...

TikTok 将开源“云中和”边缘加速器

TikTok 将开源“云中和”边缘加速器

“从某种意义上说，我们正在努力破解云的骨干网，以造福于我们，”TikTok产品管理基础设施经理Vikram Siwach指出，他解释了该公司即将开源的“全球服务加速器”的好处，这是一个可编程的边缘平台，可将应用程序需…

阅读更多...

【2023传智杯】第六届传智杯程序设计挑战赛AB组-ABC题解题分析详解【JavaPythonC++解题笔记】

【2023传智杯】第六届传智杯程序设计挑战赛AB组-ABC题解题分析详解【JavaPythonC++解题笔记】

本文仅为第六届传智杯程序设计挑战赛-题目解题分析详解的解题个人笔记，个人解题分析记录。本文包含：第六届传智杯程序设计挑战赛题目、解题思路分析、解题代码、解题代码详解文章目录一.前言二.比赛题目（AB俩组）A题题目B题题目C题题目三.解题代码A题解题思路解题代码【J…

阅读更多...

华为ensp：单臂路由

华为ensp：单臂路由

通过单臂路由实现vlan之间的互通将vlan和trunk配置好，我直接就在r1上演示单臂路由我们要在r1的e0/0/0上面随便配置个ip，如果你不在接口上配置ip那就无法开启协议 R1 interface e0/0/0 进入真实接口随便配置个ip ip add 192.168.10.1 24 再进入子接…

阅读更多...

推荐文章

最新文章