数据清理在数据科学中的重要性

news2024/9/21 20:42:06

什么是数据清理?

推荐:使用 NSDT场景编辑器 助你快速搭建可编辑的3D应用场景

在数据科学中,数据清理是识别不正确数据并修复错误的过程,以便最终数据集可供使用。错误可能包括重复字段、格式不正确、字段不完整、数据不相关或不准确以及数据损坏。

数据清理在数据科学中的重要性


在数据科学项目中,清理阶段在数据管道中的验证之前。在管道中,每个阶段引入输入并创建输出,从而改进每一步的数据。数据管道的好处是每个步骤都有特定的用途并且是独立的,这意味着数据经过彻底检查。

数据清理在数据科学中的重要性

数据很少以现成的形式到达;事实上,可以自信地说,数据永远不会完美无缺。当从不同的来源和现实世界的环境中收集数据时,数据必然包含大量错误并采用不同的格式。因此,数据清理的意义就出现了——使数据无错误、相关且易于被模型吸收。

处理来自多个来源的大量数据集时,可能会发生错误,包括重复或错误分类。这些错误极大地影响了算法的准确性。值得注意的是,数据清理和组织可能会消耗数据科学家 80% 的时间,这凸显了其在数据管道中的关键作用。

数据清理示例

下面是数据清理如何修复数据集中的错误的三个示例。

数据格式化

数据格式设置涉及将数据转换为特定格式或修改数据集的结构。确保一致性和结构良好的数据集对于避免数据分析过程中的错误至关重要。因此,在清洁过程中采用各种技术是必要的,以保证准确的数据格式。这可能包括将分类数据转换为数值,并将多个数据源合并为一个统一的数据集。

空值/缺失值

数据清理技术在解决数据问题(如缺失值或空值)方面起着至关重要的作用。这些技术涉及使用相关信息估计和填补数据集中的空白。

例如,考虑位置字段。如果字段为空,科学家可以使用数据集或类似数据集中的平均位置数据填充该字段。虽然不是完美无缺的,但拥有最可能的位置比根本没有位置信息更可取。这种方法可确保提高数据质量并增强数据集的整体可靠性。

识别异常值

在数据集中,某些数据点可能与其他数据点缺乏任何实质性联系(例如,在价值或行为方面)。因此,在数据分析过程中,这些异常值具有显着扭曲结果的能力,导致误导的预测和有缺陷的决策。但是,通过实施各种数据清理技术,可以识别和消除这些异常值,最终确保数据集的完整性和相关性。

数据清理在数据科学中的重要性


数据清理的好处

数据清理提供了一系列好处,这些好处对数据的准确性、相关性、可用性和分析有重大影响。

  • 准确性 - 使用数据清理工具和技术可显著减少数据集中包含的错误和不准确性。这对于数据分析非常重要,有助于创建做出准确预测的模型。
  • 可用性 - 一旦清理并正确格式化,数据就可以应用于许多用例,使其更易于访问,因此可以在一系列项目类型中使用。
  • 分析 - 干净的数据使分析阶段更加有效,使分析师能够获得更深入的见解并提供更可靠的结果。
  • 高效的数据存储 - 通过删除不必要和重复的数据,存储成本得以降低,因为只需要保留相关的、有价值的数据,无论是在现场服务器还是云数据仓库上。
  • 治理 - 数据清理可以帮助组织遵守严格的法规和数据治理,保护个人隐私并避免任何处罚。最近几个月颁布了更多的数据合规法律。一个例子是最近的德克萨斯州消费者隐私法(TDPSA),该法禁止某些数据做法,例如收集出于收集目的而不合理必要的个人客户数据。

数据清理过程:8 个步骤

数据管道的数据清理阶段由八个常见步骤组成:

  • 删除重复项
  • 删除不相关的数据
  • 资本化的标准化
  • 数据类型转换
  • 异常值的处理
  • 错误的修复
  • 语言翻译
  • 任何缺失值的处理

1. 删除重复项

利用多个数据源的大型数据集极有可能出现错误,包括重复项,尤其是在新条目未经过质量检查时。重复数据是冗余的,会占用不必要的存储空间,因此需要进行数据清理以提高效率。重复数据的常见实例包括重复的电子邮件地址和电话号码。

2. 删除不相关的数据

要优化数据集,删除不相关的数据字段至关重要。这将导致更快的模型处理,并实现更集中的方法来实现特定目标。在数据清理阶段,任何与项目范围不一致的数据都将被删除,仅保留完成任务所需的必要信息。

3. 资本化的标准化

标准化数据集中的文本对于确保一致性和促进轻松分析至关重要。更正大小写尤其重要,因为它可以防止创建可能导致混乱和混乱数据的虚假类别。

4. 数据类型转换

当使用Python处理CSV数据时,分析师通常依赖Pandas,这是首选的数据分析库。但是,在某些情况下,Pandas 在有效处理数据类型方面存在不足。为了保证准确的数据转换,分析人员采用清洁技术。这可确保在应用于实际项目时可以轻松识别正确的数据。

5. 异常值的处理

异常值是与其他点缺乏相关性的数据点,与数据集的整体上下文有很大偏差。虽然异常值偶尔可以提供有趣的见解,但它们通常被视为应删除的错误。

6. 错误的修复

确保模型的有效性至关重要,在数据分析阶段之前纠正错误至关重要。此类错误通常是由于没有适当检查程序的手动数据输入造成的。示例包括数字不正确的电话号码、没有“@”符号的电子邮件地址或未标点的用户反馈。

7. 语言翻译

数据集可以从以不同语言编写的各种来源收集。但是,当使用此类数据进行机器翻译时,评估工具通常依赖于单语自然语言处理(NLP)模型,该模型一次只能处理一种语言。值得庆幸的是,在数据清理阶段,人工智能工具可以通过将所有数据转换为统一的语言来拯救。这确保了整个翻译过程中更大的一致性和兼容性。

8. 任何缺失值的处理

数据清理的最后步骤之一是解决缺失值。这可以通过删除具有缺失值的记录或采用统计技术来填补空白来实现。全面了解数据集对于做出这些决策至关重要。

总结

数据清理在数据科学中的重要性永远不能被低估,因为它可以显着影响数据模型的准确性和整体成功。通过彻底的数据清理,数据分析阶段可能会输出有缺陷的结果和不正确的预测。

在数据清理阶段需要纠正的常见错误是重复数据、缺失值、不相关的数据、异常值以及将多种数据类型或语言转换为单一形式。

原文链接:数据清理在数据科学中的重要性 (mvrlink.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/855805.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于kettle实现pg数据定时转存mongodb

mogodb 待创建 基于kettle实现pg数据定时转存mongodb_kettle 实时迁移 mongodb_呆呆的私房菜的博客-CSDN博客

链表和哈希Set

1 LinkedList集合类 LinkedList集合类底层是使用双向链表实现的,相较于ArrayList,更方便进行增删操作。 在增删查改方面,新增了头尾操作,比如从头部插入、尾部插入、头部删除、尾部删除、头部查询和尾部查询等操作。由于有头尾的…

SpringCloud实用篇3----Docker

1.初识Docker 1.1 什么是Docker 微服务虽然具备各种各样的优势,但服务的拆分通用给部署带来了很大的麻烦。 分布式系统中,依赖的组件非常多,不同组件之间部署时往往会产生一些冲突。在数百上千台服务中重复部署,环境不一定一致…

gitblit windows部署

1.官网下载 往死慢,我是从百度找的1.9.1,几乎就是最新版 http://www.gitblit.com/ 2.解压 下载下来是一个zip压缩包,直接解压即可 3.配置 3.1.配置资源库路径 找到data文件下的gitblit.properties文件,用Notepad打开 **注意路…

云原生可观测框架 OpenTelemetry 基础知识(架构/分布式追踪/指标/日志/采样/收集器)...

什么是 OpenTelemetry? OpenTelemetry 是一个开源的可观测性框架,由云原生基金会(CNCF)托管。它是 OpenCensus 和 OpenTracing 项目的合并。旨在为所有类型的可观测信号(如跟踪、指标和日志)提供单一标准。 https://opentelemetry.iohttps://www.cncf.io…

微服务Eureka注册中心

目录 一、Eureka的结构和作用 二、搭建eureka-server 三、服务注册 四、服务发现 假如我们的服务提供者user-service部署了多个实例,如图: 存在的问题: order-service在发起远程调用的时候,该如何得知user-service实例的ip地址…

SpringCloud 尚硅谷 微服务简介以及Eureka使用

写在前面 该系列博客仅用于本人学习尚硅谷课程SpringCloud笔记,其中的错误在所难免,如有错误恳请指正。 官方源码地址:https://github.com/zzyybs/atguigu_spirngcloud2020 什么是SpringCloud Spring Cloud是微服务一站式服务解决方案&…

芒果 TV 基于 Flink 的实时数仓建设实践

公司简介:芒果 TV 作为湖南广电旗下互联网视频平台,在“一云多屏,多元一体”的战略指导下,通过内容自制,培植核心竞争力,从独播、独特走向独创,并通过市场化运作完成 A 轮、B 轮融资&#xff0c…

数据库活动监控(DAM)

在当今数据驱动的世界中,组织在保护存储在数据库中的机密数据并确保其完整性方面面临着越来越多的挑战。数据库审计通过提供全面的数据库活动监控方法,在应对这些挑战方面发挥着至关重要的作用。 数据库活动监控(Database Activity Monitori…

【Redis】初学Redis

目录 使用Redisyum安装redis启动redis操作redis设置远程连接 Redis路线Redis 使用Redis yum安装redis 使用命令,直接将Redis安装到linux服务器: yum -y install redis启动redis redis-server /etc/redis.conf &操作redis redis-cli设置远程连接…

最新AI创作系统ChatGPT程序源码+详细搭建部署教程+微信公众号版+H5源码/支持GPT4.0+GPT联网提问/支持ai绘画+MJ以图生图+思维导图生成!

使用Nestjs和Vue3框架技术,持续集成AI能力到系统! 新增 MJ 官方图片重新生成指令功能同步官方 Vary 指令 单张图片对比加强 Vary(Strong) | Vary(Subtle)同步官方 Zoom 指令 单张图片无限缩放 Zoom out 2x | Zoom out 1.5x新增GPT联网提问功能、手机号注…

集合Collection-List-ArrayList学习

一、集合 集合是数据容器。相较于数组集合具有以下几个特点: 数组一旦创建,长度不可改变。集合的长度会自动扩容。集合具有很多数组没有的功能函数API数组元素的存储特点单一,不同的集合有不同的存储特点。 1. Collection顶层接口 Collect…

Python-OpenCV中的图像处理-图像梯度

Python-OpenCV中的图像处理-图像梯度 图像梯度Sobel 算子和 Scharr 算子Laplacian 算子 图像梯度 图像梯度,图像边界等使用到的函数有: cv2.Sobel(), cv2.Scharr(), cv2.Laplacian() 等原理:梯度简单来说就是求导。Op…

Kotlin反射访问androidx.collection.LruCache类私有变量

Kotlin反射访问androidx.collection.LruCache类私有变量 androidx.collection.LruCache类中定义了一个名为map的LinkedHashMap,map存储了所有LruCache的数据,有时候需要遍历访问该LinkedHashMap,取出里面的值,但是LruCache代码实…

Jenkins+Docker+SpringCloud微服务持续集成

JenkinsDockerSpringCloud微服务持续集成 JenkinsDockerSpringCloud持续集成流程说明SpringCloud微服务源码概述本地运行微服务本地部署微服务 Docker安装和Dockerfile制作微服务镜像Harbor镜像仓库安装及使用在Harbor创建用户和项目上传镜像到Harbor从Harbor下载镜像 微服务持…

SQL SERVER 异地备份到远程共享文件夹异常处理

SQL SERVER 异地备份到远程共享文件夹异常处理 SQL Server 异地备份到远程共享文件夹异常处理 - 灰信网(软件开发博客聚合) -- 允许配置高级选项 EXEC sp_configure show advanced options, 1 GO -- 重新配置 RECONFIGURE GO -- 启用xp_cmdshell EXEC sp…

github版面混乱加载不出的解决办法

最近出现打开github 界面加载不成功,网页访问乱码,打开chrome的检查发现 github的github.githubassets.com 拒绝访问, 解法: 1.先打开hosts文件所在的目录C:\Windows\System32\drivers\etc 2.右键点击hosts文件-选择用记事本或者…

Apache2.4源码安装与配置

环境准备 openssl-devel pcre-devel expat-devel libtool gcc libxml2-devel 这些包要提前安装,否则httpd编译安装时候会报错 下载源码、解压缩、软连接 1、wget下载[rootnode01 ~]# wget https://downloads.apache.org/httpd/httpd-2.4.57.tar.gz --2023-07-20 …

【前端 | CSS】flex布局

基本概念 Flexible模型,通常被称为 flexbox,是一种一维的布局模型。它给 flexbox 的子元素之间提供了强大的空间分布和对齐能力 我们说 flexbox 是一种一维的布局,是因为一个 flexbox 一次只能处理一个维度上的元素布局,一行或者…

无货源跨境电商购物平台快速搭建(微商城、小程序、APP、网站)

无货源跨境电商购物平台的快速搭建可以通过以下步骤完成,并且可以同时开发微商城、小程序、APP和网站以满足不同用户的需求。 第一步:需求分析 在搭建之前,需要对平台的需求进行详细的分析。包括用户需求、功能需求、技术需求等等。这一步是…