【数据挖掘 | 数据预处理】缺失值处理 重复值处理 文本处理 确定不来看看?

news2025/1/12 7:40:40

在这里插入图片描述

🤵‍♂️ 个人主页: @AI_magician
📡主页地址: 作者简介:CSDN内容合伙人,全栈领域优质创作者。
👨‍💻景愿:旨在于能和更多的热爱计算机的伙伴一起成长!!🐱‍🏍
🙋‍♂️声明:本人目前大学就读于大二,研究兴趣方向人工智能&硬件(虽然硬件还没开始玩,但一直很感兴趣!希望大佬带带)

在这里插入图片描述

【深度学习 | 核心概念】那些深度学习路上必经的核心概念,确定不来看看? (一)
作者: 计算机魔术师
版本: 1.0 ( 2023.8.27 )

摘要: 本系列旨在普及那些深度学习路上必经的核心概念,文章内容都是博主用心学习收集所写,欢迎大家三联支持!本系列会一直更新,核心概念系列会一直更新!欢迎大家订阅

该文章收录专栏
[✨— 《深入解析机器学习:从原理到应用的全面指南》 —✨]

数据预处理

处理缺失值

这些方法的选择取决于数据集的特点、缺失值的模式以及所使用的分析方法。在实际应用中,需要根据具体情况选择适当的方法,并进行验证和评估,以确保处理缺失值的有效性和合理性。

当数据存在空值时(除了看缺失值个数,建议看缺失值的比例, 更具有代表性),

# 自定义analysis函数,实现数据信息探索的描述性统计分析和缺失值分析
def analysis(data):
    print('描述性统计分析结果为:\n', data.describe())
    print('各属性缺失值占比为:\n', 100*(data.isnull().sum() / len(data)))
名称介绍优缺点
删除删除包含缺失值的数据行或列。优点:简单快捷,适用于缺失值较少的情况。缺点:可能会丢失有用的信息,特别是当缺失值的模式与其他变量相关时。如果缺失值占比较大,可能导致样本减少。
插补使用统计方法估计缺失值,并填充数据。常见的插补方法包括均值、中位数、众数、回归等。 或者根据数据实际场景填补, 比如电商手机数据同等系列其他数据可以补充优点:保留样本量,不会丢失数据。缺点:可能引入估计误差,可能改变数据的分布和关系。插补方法的选择和质量对结果影响较大。
标记使用特殊值(如NaN、-1)或标签(如"Unknown", “其他”)来标记缺失值。优点:简单直观,不会改变数据的分布和关系。缺点:在某些算法中可能会引入偏差。处理标记值的方式需要小心,以免引入错误。
分类将缺失值作为一个特殊的类别对待。优点:不会丢失信息,适用于缺失值有特别含义的情况。缺点:可能会使数据变得更复杂,某些算法可能需要额外的调整才能处理分类特征。
多重插补使用多个插补模型,通过迭代的方式进行插补优点:可以更准确地估计缺失值,并提供不确定性估计。缺点:计算复杂度较高,可能需要更长 的处理时间。需要小心处理迭代过程中的收敛性和稳定性。
模型预测使用机器学习模型来预测缺失值。可以使用其他特征作为输入,预测缺失值。优点:可以更准确地估计缺失值,考虑了特征之间的关系。缺点:计算复杂度较高,需要训练和调整模型。可能会引入模型预测误差。
插补法

对于时间序列的数据,以下几种插值方法比较常用和建议使用:

  1. 线性插值:线性插值是最简单和常用的插值方法之一。它假设数据在两个已知数据点之间是线性变化的,通过计算两个已知数据点之间的线性函数来填充空值。线性插值简单、快速,并且可以适用于大多数情况。

  2. 拉格朗日插值:拉格朗日插值是一种多项式插值方法,它通过计算一个多项式函数来逼近数据的变化。拉格朗日插值可以更准确地拟合数据的非线性变化,但对于大规模数据集和高阶多项式,计算量可能较大。

  3. 样条插值:样条插值是一种平滑的插值方法,通过拟合一条平滑的曲线来逼近数据的变化。样条插值可以处理数据的曲线和趋势变化,常用的样条插值方法包括线性样条插值、三次样条插值等。

  4. 时间序列模型插值:对于时间序列数据,可以使用时间序列模型来预测和填充空值。常用的时间序列模型包括ARIMA模型、指数平滑模型、神经网络模型等。这些模型可以根据时间的趋势、季节性等特征来预测未来的数值,并填充空值。

选择插值方法时,应根据时间序列数据的性质和特征选择最适合的方法。对于平稳的时间序列,线性插值或拉格朗日插值可能足够;对于非线性或具有季节性的时间序列,样条插值或时间序列模型插值可能更合适。

此外,还可以根据数据的连续性和周期性来选择插值方法。例如,对于缺失的周期性数据,可以使用周期性插值方法,如周期移动平均或周期性线性插值。

处理重复值

方法名称方法介绍优缺点
删除重复值从数据集中删除所有重复的观测值或行。优点:简单快捷;缺点:可能会导致数据丢失,特别是在其他列的值也存在差异的情况下。
唯一化保留数据集中的唯一值,并删除重复的观测值或行。优点:保留了数据集中的唯一信息;缺点:可能会导致数据丢失,特别是在其他列的值也存在差异的情况下。
标记重复值标记数据集中的重复值,以便后续分析中可以识别它们。优点:保留了数据集中的所有信息,并能够识别重复值;缺点:可能会增加数据集的大小,增加后续处理的复杂性。
聚合数据将重复值聚合成单个值,例如计算平均值或合并文本字符串。优点:保留了数据集中的所有信息,并提供了汇总的结果;缺点:根据具体情况,可能会引入汇总误差或信息丢失。
保留第一个/最后一个仅保留重复值中的第一个或最后一个观测值,删除其他重复值。优点:简单易行;缺点:可能会引入偏差,因为保留的观测值可能不代表整个重复值组的特征。

这些方法可以根据具体的数据集和分析需求选择和调整。在处理重复值之前,通常还需要对数据进行排序,以确保相邻观测值之间的一致性。此外,了解数据集中的重复值产生的原因也是很重要的,这有助于确定最适合的处理方法。

注意在使用pd.drop_duplicates() 选择subset某一列避免全部删除

文本处理

当涉及到自然语言处理(NLP)任务时,文本预处理是一个重要的步骤。它旨在将原始文本数据转换为机器学习算法可以理解和处理的格式。下面是几种常见的文本预处理算法,包括它们的介绍以及优缺点。

名称介绍优缺点
分词(Tokenization)将文本拆分为词(或标记)的过程。常见的方法是使用空格或标点符号来分隔词语。例如jieba库(等 )优点:简单快速,适用于大多数NLP任务。缺点:无法处理歧义和特殊情况(如缩写词和复合词)。
停用词去除(Stop Word Removal)停用词是在文本中频繁出现但通常不携带太多信息的单词(如“the”、“is”、“and”等)。该算法的目标是从文本中去除这些停用词。一般来说有现成的停用词, 实际还要根据实际问题去除额外不需要的文本优点:减少数据维度,提高后续步骤的效果。缺点:有时可能会去除一些重要的上下文信息。
规范化(Normalization)将文本中的单词转换为标准形式,以消除词形变化对分析的影响。例如,将单词的时态、数目和人称转换为统一形式。优点:减少词汇的多样性,提高模型的泛化能力。缺点:可能导致一些信息的丢失。
词干提取(Stemming)通过去除单词的后缀,将单词转换为它的词干形式。例如,将“running”、“runs”和“ran”转换为“run”。优点:简单快速,适用于一些信息检索任务。缺点:可能得到不是真正存在的词汇形式。
词形还原(Lemmatization)将单词还原为它的基本形式(称为词元),具有语义上的准确性。例如,将“am”、“are”和“is”还原为“be”。优点:提供更准确的词汇形式,适用于要求高精度的任务。缺点:计算成本较高,速度较慢。
清洗(Cleaning)去除文本中的噪声、表情、特殊字符和HTML标签或表情符号(一般是&字母;)等非文本数据。根据数据集去除对目标无用的数据,例如电商数据默认好评”您没有填写内容,默认好评“优点:提高文本质量,减少不相关的信息。缺点:可能会丢失一些有用的特征。
编码(Encoding)将文本转换为数字表示形式,以便机器学习算法能够处理。常见的编码方法包括独热编码、词袋模型和词嵌入。优点:方便算法处理,保留了一定的语义信息。缺点:可能无法捕捉词语之间的关系和上下文信息。

这些算法通常会根据具体任务和数据集的特点进行组合使用。选择适当的文本预处理步骤取决于任务的目标和数据的特点。

在这里插入图片描述

						  🤞到这里,如果还有什么疑问🤞
					🎩欢迎私信博主问题哦,博主会尽自己能力为你解答疑惑的!🎩
					 	 🥳如果对你有帮助,你的赞是对博主最大的支持!!🥳

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1149827.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CESM模型教程

详情点击公众号链接:CESM模型教程 第一:运行前的准备 CESM 运行的系统和软件环境 CESM需要什么运行环境 CESM2.0运行环境的搭建 第二:Linux系统及编译 CESM 运行需要的Linux及编译 Linux的基础 Linux编译的基础 基于Make 和CMake的编译…

ubuntu(18.04) 安装 blast

1、下载 https://ftp.ncbi.nlm.nih.gov/blast/executables/blast/LATEST/2、解压,配置环境变量 tar zvxf ncbi-blast-2.14.1-x64-linux.tar.gz解压后改名为 blast 配置环境变量,可以不配置 使用的时候直接绝对路径使用 vim ~/.bashrc 将下面添加道最…

Goland连接服务器/虚拟机远程编译开发

创建SSH连接 SSH用于与远程服务器建立连接 Settings -> Tools -> SSH Configurations 添加新的ssh连接,Host为ip地址,Username为用户名,认证方式这里选择密码验证 全部填完后可以点击Test Connection测试连接是否成功 创建Deployment…

【Overload游戏引擎细节分析】PBR材质Shader---完结篇

PBR基于物理的渲染可以实现更加真实的效果,其Shader值得分析一下。但PBR需要较多的基础知识,不适合不会OpenGL的朋友。 一、PBR理论 PBR指基于物理的渲染,其理论较多,需要的基础知识也较多,我在这就不再写一遍了&…

带有强大提醒功能的电脑便签工具

在这个充满节奏感的现代生活中,每一天都需要精确规划和提醒,以确保工作计划得以按时完成。为了做到这一点,你需要一款强大的电脑便签工具,它不仅能让你记录工作计划,还能在关键时刻提醒你。 在电脑上记录工作计划是一…

【Amazon】跨AWS账号资源授权存取访问

文章目录 一、实验框架图二、实验过程说明三、实验演示过程1、在A账号中创建S3存储桶2、在A账号创建S3存储桶访问策略3、在A账号创建信任开发账号的角色4、在B账号为用户添加内联策略5、在B账号中切换角色,以访问A账号中的S3资源 四、实验总结 一、实验框架图 本次…

pgAdmin 4 v7.8 发布,PostgreSQL 开源图形化管理工具

导读pgAdmin 是 PostgreSQL 领先的开源图形化管理工具。pgAdmin 4 旨在满足新手和有经验的 Postgres 用户的需求,提供强大的图形界面,简化了数据库对象的创建、维护和使用。 pgAdmin 开发团队日前发布了 pgAdmin 4 v7.8 版本,这个版本包括 21…

外汇天眼:以下平台牌照被撤销,速度远离!

监管信息早知道!外汇天眼将每周定期公布监管牌照状态发生变化的交易商,以供投资者参考,规避投资风险。如果平台天眼评分过高,建议投资者谨慎选择,因为在外汇天眼评分高不代表平台没问题! 以下是监管牌照发生…

【地理位置识别】IP归属地应用的特点

IP归属地应用是一类用于确定特定IP地址的地理位置信息(通常是城市、地区或国家)的工具和服务。以下是IP归属地应用的几个主要特点: 地理位置识别: IP归属地应用主要用于确定IP地址的地理位置。这可以帮助组织更好地了解其网站访问…

CAD需要学c语言嘛?

CAD需要学c语言嘛? AutoCAD 和 C 语言没有关系的。 如果非要说是 AutoCAD 和哪个编程语言有关系,那应该是 VBA, 可以通过 VBA 编程,最近很多小伙伴找我,说想要一些c语言资料,然后我根据自己从业十年经验,熬…

免费提取视频号视频工具有哪些,这个4种方法亲测可用!

很多朋友对视频号都是比较依赖的,另外关于视频号视频下载,一直想找一个关于免费提取视频的方法,今天我就来聊聊该如何使用。 方法一:录屏 在选择需要的设备,并在应用商店搜索录屏工具,或者直接采用手机自…

亚马逊,速卖通,美客多如何打造爆款商品,排名提升榜首

1、产品Listing的完整性 Listing是亚马逊A9算法认识你产品的基础,在发布一条listing的时候,尽可能地做到最好!在准备一条listing之前,一定事先要收集、整理足够多的产品关键词,在优化listing内容的时候填充进去。仔细观察优秀竞品…

《进化优化》第12章 差分进化算法

文章目录 算法流程12.1 基本差分进化算法12.2 差分进化的变种12.2.1 试验向量12.2.2 变异向量12.2.3 比例因子的调整 12.3 离散优化12.3.1 混合整数差分进化12.3.2 离散差分进化 12.4 差分进化与遗传算法 算法流程 12.1 基本差分进化算法 差分进化是为了优化n维连续域中的函数…

人工智能云服务(Alaas)

目录 1、概念介绍 2、人工智能云服务解决了什么问题? 2.1 节约部署成本 2.2 海量数据和机器学习 2.3 降低用户使用人工智能服务的成本 3、人工智能云服务的类型 3.1 公有云 3.2 私有云 3.3 混合云 4、人工智能云服务案例 4.1 微信小程序 “识花君” 4.2…

文件改名,轻松添加前缀顺序编号,文件改名更高效!

您是否曾经需要批量修改文件名,并希望在文件名中添加特定的前缀或顺序编号?现在,我们为您带来了一款全新的文件改名工具,帮助您轻松解决这个问题! 第一步,进入文件批量改名高手主页面,在板块栏…

为什么我觉得Rust比C++复杂得多?

为什么我觉得Rust比C复杂得多? Rust自学确实有一定门槛,很多具体问题解决起来搜索引擎也不太帮的上忙,会出现卡住的情况,卡的时间长了就放弃了。最近很多小伙伴找我,说想要一些c语言资料,然后我根据自己从…

MySQL扩展语句和约束条件

MySQL扩展语句 create TABLE if not exists ky32 (id int(4) zerofill primary key auto_inc rement, #表示该字段可以自增长,默认从1开始每条记录会自动递增1name varchar(10) not null,cradid int(10) not null unique key,hobby varchar (50))&#x…

如何找现货黄金代理

虽然现货黄金并不是非常难以掌握的投资品种,但投资新手在刚刚进入这个市场的时候,有很方面的事情都不太了解,需要比较专业的人士从旁提供一些适切的指导,才可以在交易中做到趋利避害,在控制风险的前提下,获…

前端环境的安装 Node npm yarn

一 node npm 1.下载NodeJS安装包 下载地址:Download | Node.js 2.开始安装 打开安装包后,一直Next即可。当然,建议还是修改一下安装位置,NodeJS默认安装位置为 C:\Program Files 3.验证是否安装成功 打开DOS命令界面&#…

Keil Map信息解析

基本功能: 1.在Keil里面,通过App.Map复制所有信息。然后解析剪辑版内容。 2.随意输入一个函数内存地址,即可遍历出该内存地址属于哪个.c或者函数名。或者能遍历出变量。 强化功能: 1.通过Keil5 命令 Save xxxxxxx\1.Hex 0x200173…