ML 系列:机器学习和深度学习的深层次总结(06)— 提升数据质量

news2024/9/22 10:56:50

一、说明

在AI数据挖掘中,对原始数据的预处理是必须的技术手段,本篇将对数据预处理的一系列注意事项进行展示。

二、关于数据预处理

注意: 在本章中,讨论的技术和方法基于 Roy Jafari 的《Hands-On Data Preprocessing in Python》一书,该书为理解和实施有效的数据预处理工作流提供了有价值的参考。

数据预处理是指在应用机器学习算法之前准备数据以进行分析的技术和过程。这些步骤包括数据清理、数据规范化、数据缩减、将原始数据转换和组织成算法可以轻松使用的格式。数据预处理的目的是提高数据质量、减少噪声并消除任何不一致或可能的错误。

数据清理涉及删除或更正数据中的任何错误、不一致或缺失值。数据转换涉及将数据转换为更适合分析的格式,例如将分类数据转换为数值数据或降低数据的维度。数据规范化涉及缩放数据以确保其位于特定范围内,这对于某些机器学习算法可能很重要。数据集成涉及将来自多个来源的数据合并到单个数据集中。数据缩减涉及通过仅选择最相关的特征或样本来减小数据集的大小。

数据清理的过程可能因项目而异,并且无法提供有关如何执行数据清理的清晰分步说明,但是,我们可以将数据清理过程分为三个级别,如下所示:

三、清理一级

此级别是指数据的明显清理,大多数可用数据不需要此阶段的清理。如果数据集具有以下特征,则我们认为该数据集位于第一级:

  • 数据应具有标准结构。

  • 列的标题应清晰且可编码。

  • 每行数据都有一个唯一的标识符。

这种清理的一个例子可以认为我们有几个文本文件,如下图所示,如图 2 所示,这些数据没有适当的结构,应该以标准格式合并,以便对其进行分析。

在这里插入图片描述
在图 3 中,我们将文本数据以集成的方式转换为以下形式。
在这里插入图片描述
图 3.集成数据以达到数据清理的一级
在图 3 中,每一行都分配给一个文本文件,现在可以说这些数据处于数据清理的第一级。

四、清理二级

此级别是指 解包、重组和重新构建表。与一级数据清理不同,在一级数据清理中,样品不需要特殊分析,而在此级别的清理中,通常需要进行分析。如前所述,图 3 中的数据处于第一级清洗,如果我们注意每一行的名称,我们可以提取城市、月份和日期的名称,现在如果我们想要第二级清洗数据,具体打开数据的名称, 得到图 4。
在这里插入图片描述
图 4. 解压缩数据名称并向数据添加不同的列
在第二级数据清理中,可以进行更多的分析,例如以这样一种方式解包数据内容,即四个词的重复次数 [‘vote’, ‘tax’, ‘campaign’, ‘economy’] 并根据如图 5 所示向数据添加列,作为此分析的结果。
在这里插入图片描述
图 5. 解压缩数据内容并向数据添加不同的列
为了进一步分析,可以可视化添加的四列的不同值,如图 6 所示。
在这里插入图片描述
在这里插入图片描述
图 6. 可视化不同月份四个单词的重复次数

五、结论

在第 1 级中,我们清理了表格,但没有注意数据结构或记录的值。在第 2 级中,我们关注的是拥有一个能够支持我们分析目标的数据结构,但我们仍然没有太多关注记录值的正确性或适当性。这就是数据清理级别 3 的目标。在数据清理级别 III 中,我们将重点关注记录值,并采取措施确保解决与数据中记录的值相关的三个问题。首先,我们将确保检测到数据中的缺失值,我们知道发生这种情况的原因,并已采取适当的措施来解决这些问题。其次,我们将确保我们采取了适当的措施,以确保记录的值是正确的。第三,我们将确定已检测到数据中的极值点,并已采取适当措施解决它们。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2154903.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

洪涝洪水滑坡灾害数据集 灾害 2300张 带标注 voc yolo

洪涝洪水滑坡灾害数据集 灾害 2300张 带标注 voc yolo 洪涝洪水滑坡灾害数据集 数据集描述 该数据集是一个专门用于检测和识别洪涝、洪水和滑坡等自然灾害的数据集,旨在帮助研究人员和开发者训练和评估基于深度学习的目标检测模型。数据集涵盖了两种常见的自然灾害…

【shell脚本4】Shell脚本学习--字符串和数组

目录 字符串 拼接字符串 获取字符串长度 截取字符串 查找字符串 数组 总结 字符串 字符串是shell编程中最常用最有用的数据类型(除了数字和字符串,也没啥其它类型好用了),字符串可以用单引号,也可以用双引号&am…

WinRAR技巧:如何高效制作RAR分卷压缩文件

RAR分卷压缩是一种将大文件分割成多个较小文件的技术,便于在存储空间有限或网络传输条件受限的情况下传输和存储。本文将详细介绍如何使用WinRAR压缩软件来制作RAR分卷压缩文件。 我们先将压缩包内的文件解压出来,然后查看一下,然后打开WinR…

OceanBase 的并发简述笔记

OceanBase的并发简述笔记一、并发说明 OceanBase的并发分为并发DDL、并发DML。并分为分区并行与分区内并行。 一个CPU 可以运行多个线程(时间片段)。 (租户)min_cpu*(集群)px_workers_per_cpu_quota 租户可拥有的线程数 二、数据分发与数据重分布 数据分发: Parti…

C++ | Leetcode C++题解之第413题等差数列划分

题目&#xff1a; 题解&#xff1a; class Solution { public:int numberOfArithmeticSlices(vector<int>& nums) {int n nums.size();if (n 1) {return 0;}int d nums[0] - nums[1], t 0;int ans 0;// 因为等差数列的长度至少为 3&#xff0c;所以可以从 i2 开…

ps学习。

有大量的图要扣&#xff0c;淘宝5-15块扣一个&#xff0c;尽管蛮便宜的&#xff0c;但是架不住量大啊&#xff0c;还是好好ps&#xff0c;也能省一大笔钱。 填充 在这里有个油漆桶&#xff0c;一开始也叫渐变色&#xff0c;堆放在一起了&#xff0c;我觉得这不是个好设计。。…

第100+25步 ChatGPT学习:概率校准 Histogram Binning

基于Python 3.9版本演示 一、写在前面 最近看了一篇在Lancet子刊《eClinicalMedicine》上发表的机器学习分类的文章&#xff1a;《Development of a novel dementia risk prediction model in the general population: A large, longitudinal, population-based machine-learn…

Dify 中的讯飞星火平台工具源码分析

本文主要对 Dify 中的讯飞星火平台工具 spark 进行了源码分析&#xff0c;该工具可根据用户的输入生成图片&#xff0c;由讯飞星火提供图片生成 API。通过本文学习可自行实现将第三方 API 封装为 Dify 中工具的能力。 源码位置&#xff1a;dify-0.6.14\api\core\tools\provide…

巨潮股票爬虫逆向

目标网站 aHR0cDovL3dlYmFwaS5jbmluZm8uY29tLmNuLyMvSVBPTGlzdD9tYXJrZXQ9c3o 一、抓包分析 请求头参数加密 二、逆向分析 下xhr断点 参数生成位置 发现是AES加密&#xff0c;不过是混淆的&#xff0c;但并不影响咱们扣代码 文章仅提供技术交流学习&#xff0c;不可对目标服…

Java 分布式锁:原理与实践

在分布式系统中&#xff0c;多个节点同时操作共享资源的情况非常普遍。为了保证数据的一致性&#xff0c;分布式锁 应运而生。分布式锁 是一种跨多个服务器的互斥锁&#xff0c;用于协调分布式环境下的资源访问。 本文将介绍 Java 实现分布式锁 的几种常见方式&#xff0c;并结…

基于VUE的医院抗生素使用审核流程信息化管理系统

开发背景 随着医疗行业的快速发展和信息技术的不断进步&#xff0c;医院内部管理系统的信息化建设变得尤为重要。抗生素作为治疗感染性疾病的重要药物&#xff0c;在临床使用过程中需要严格控制以避免滥用导致的耐药性问题。传统的抗生素使用审核流程往往依赖于人工审核&#x…

一,初始 MyBatis-Plus

一&#xff0c;初始 MyBatis-Plus 文章目录 一&#xff0c;初始 MyBatis-Plus1. MyBatis-Plus 的概述2. 入门配置第一个 MyBatis-Plus 案例3. 补充说明&#xff1a;3.1 通用 Mapper 接口介绍3.1.1 Mapper 接口的 “增删改查”3.1.1.1 查询所有记录3.1.1.2 插入一条数据3.1.1.3 …

推荐3个AI论文、AI查重、AI降重工具

什么是AI论文、AI查重、AI降重工具&#xff1f; AI论文 AI论文指的是以人工智能&#xff08;AI&#xff09;相关主题为研究对象的学术论文。这类论文通常包含以下内容&#xff1a; 研究问题&#xff1a;针对某个特定的AI问题或领域的研究。方法&#xff1a;介绍用于解决问题…

UnLua实现继承

一、在蓝图中实现继承 1、创建父类&#xff0c;并绑定Lua脚本 2、创建子类蓝图&#xff0c;如果先创建的子类&#xff0c;可以修改父类继承 注意&#xff0c;提示选择继承父类的接口&#xff01; 二、在Lua中实现继承 1、在父类Lua脚本中实现函数 BP_CharacterBase.lua func…

SysML图例-智能家居

DDD领域驱动设计批评文集>> 《软件方法》强化自测题集>> 《软件方法》各章合集>>

spring boot(学习笔记第二十课) vue + spring boot前后端分离项目练习

spring boot(学习笔记第二十课) vue spring boot前后端分离项目练习 学习内容&#xff1a; 后端程序构建前端程序构建 1. 后端程序构建 前后端分离结构 前后端就是前端程序和后端程序独立搭建&#xff0c;通过Restful API进行交互&#xff0c;进行松耦合的设计。后端程序构建…

【吊打面试官系列-MySQL面试题】MySQL_fetch_array 和 MySQL_fetch_object 的区别是什么?

大家好&#xff0c;我是锋哥。今天分享关于【MySQL_fetch_array 和 MySQL_fetch_object 的区别是什么&#xff1f;】面试题&#xff0c;希望对大家有帮助&#xff1b; MySQL_fetch_array 和 MySQL_fetch_object 的区别是什么&#xff1f; 以下是 MySQL_fetch_array 和 MySQL_fe…

VisionPro - 基础 - 模板匹配技术和在VP中的使用 - PMAlign - PatMax (5)- 非线性模板变形匹配

前言&#xff1a; 本机继续对VP的PatMax 算子进行说明&#xff1a;本节讲非线性变形的模板匹配。 Non-Linear Pattern Deformation By default, PatMax requires that each boundary point in the instance of a pattern found in a run-time image closely correspond to a b…

低空经济火爆,稀缺无人机教员培训详解

随着科技的飞速发展和低空经济的日益火爆&#xff0c;无人机技术已广泛应用于航拍、农业、物流、救援、环境监测等多个领域&#xff0c;成为推动社会经济发展的新引擎。然而&#xff0c;无人机行业的快速发展也催生了对专业无人机教员的迫切需求。本文将从基础理论学习、实操技…

[Redis][List]详细讲解

目录 0.前言1.常用命令1.LPUSH / RPUSH2.LPUSHX / RPUSHX3.LRANGE4.LPOP / RPOP5.LINDEX6.LINSERT7.LLEN8.LREM9.LTRIM10.LSET 2.阻塞版本命令0.是什么&#xff1f;1.BLPOP / BRPOP 3.内部编码(旧版本&#xff0c;仅供参考)1.ziplist(压缩链表)2.linkedlist(链表)3.quicklist(快…