【Pandas驯化-15】Pandas中几个特征工程函get_dummies、factorize、diff、rank技巧

news2025/1/10 10:07:01

【Pandas驯化-15】Pandas中几个特征工程函get_dummies、factorize、diff、rank技巧
 
本次修炼方法请往下查看
在这里插入图片描述

🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合,智慧小天地!
🎇 相关内容文档获取 微信公众号
🎇 相关内容视频讲解 B站

🎓 博主简介:AI算法驯化师,混迹多个大厂搜索、推荐、广告、数据分析、数据挖掘岗位 个人申请专利40+,熟练掌握机器、深度学习等各类应用算法原理和项目实战经验

🔧 技术专长: 在机器学习、搜索、广告、推荐、CV、NLP、多模态、数据分析等算法相关领域有丰富的项目实战经验。已累计为求职、科研、学习等需求提供近千次有偿|无偿定制化服务,助力多位小伙伴在学习、求职、工作上少走弯路、提高效率,近一年好评率100%

📝 博客风采: 积极分享关于机器学习、深度学习、数据分析、NLP、PyTorch、Python、Linux、工作、项目总结相关的实用内容。

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

🌵文章目录🌵

  • 🎯 1. 基本介绍
  • 💡 2. 使用方法
      • 2.1 pd.get_dummies函数使用
      • 2.2 pd.factorize函数使用
      • 2.3 pd.diff函数使用
      • 2.4 pd.rank函数使用
  • 🔍 3. 注意事项
  • 🔧 4. 总结

下滑查看解决方法

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

  

🎯 1. 基本介绍

  pd.get_dummies:有时在进行特征工程时,当某列的值的种类不是大于20且不同的值的label差异性比较大时,像LR算法则一定需要将其进行one-hot编码,即使使用像xgb/gbm这样的算法,进行one-hot编码也会在拟合效果上有想不到的提升,当然如果对算法的速度有特别的要求,则需要去折中选择。
  pd.factorize: 这个函数主要对数据进行编码操作的,将类别数据转换为相关数值型数据
   diff():,在时序问题中,有时需要提取不同时间的差值特征,比如说前一天和后一天的差值,这是可以采用diff方法,其用法如下:

💡 2. 使用方法

2.1 pd.get_dummies函数使用

  使用 get_dummies 创建指示变量。下面为get_dummies的具体用法

import pandas as pd
import numpy as np

# 创建示例 DataFrame
df = pd.DataFrame({
    'Color': ['Green', 'Red', 'Green', 'Blue', 'Red', 'Blue'],
    'Value': [1, 2, 3, 4, 5, 6]
})

# 创建指示变量
dummies_df = pd.get_dummies(df['Color'])

print(dummies_df)

   Blue  Green  Red
0   0.0    1.0   0.0
1   0.0    0.0   1.0
2   0.0    1.0   0.0
3   1.0    0.0   0.0
4   0.0    0.0   1.0
5   1.0    0.0   0.0

2.2 pd.factorize函数使用

  使用 factorize 对分类数据进行编码。函数语法如下:

# 对 'Color' 列进行编码
encoded_df = pd.factorize(df['Color'])

print(encoded_df)

(array([0, 1, 0, 2, 1, 2]), array(['Blue', 'Green', 'Red'], dtype=object))

2.3 pd.diff函数使用

  diff()函数是Pandas中用于计算差分的函数。它可以计算两个相邻元素之间的差异,并返回一个新的Series或DataFrame。

# 计算 'Value' 列的一阶差分
diff_df = df['Value'].diff()

print(diff_df)
0    NaN
1    1.0
2    1.0
3    1.0
4    1.0
5    1.0
Name: Value, dtype: float64

2.4 pd.rank函数使用

  使用 rank 计算排名。可以对dataframe中的某列数据进行从0-1递增的增加数据,这个可以在特征工程中经常会被用到对连续的数据进行排序。

# 计算 'Value' 列的排名
rank_df = df['Value'].rank(method='min')

print(rank_df)
0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
5    6.0
Name: Value, dtype: float64

🔍 3. 注意事项

  对上述的各个函数在使用的过程中需要注意的一些事项,不然可能会出现error,具体主要为:

  • get_dummies 默认情况下会忽略 NaN 值,如果需要包含 NaN,可以设置 drop_first=False。
  • factorize 返回的是编码后的数据和原始类别的映射,适用于处理未知类别。
    使用 diff 时,差分的第一步将是 NaN,因为它没有前一个值进行比较。
  • rank 方法有多种参数可以控制排名的计算方式,如 method 参数可以设置为 ‘min’、‘max’ 或 ‘average’。

🔧 4. 总结

  本文介绍了 Pandas 中的四个特征工程函数:get_dummies、factorize、diff 和 rank。这些函数在处理分类数据、计算数据变化和排名时非常有用。通过实际的代码示例和输出结果,我们可以看到这些函数的应用效果。掌握这些技巧可以帮助你更高效地进行特征工程。希望这篇博客能够帮助你更好地理解并应用这些特征工程技巧。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1859231.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JAVA SDK 整合 AI 大语言模型

目前主流模型厂商的 SDK 并没有很好的支持 JAVA 环境,主流还是使用的 Python ,如果希望将 AI 功能集成到业务中来,则需要找找有没有一些现成的开源项目,但是这种项目一般需要谨慎使用,以防有偷取 app_key 等风险问题 前…

python爬虫必须要高匿IP吗 ?

各个平台搜索关键词就可以找到不同品牌的代理IP了。 找倒是不难,难的是能从中挑选出靠谱且合适的代理品牌。 在选择代理IP这块,不建议使用免费和超低价的代理,因为这一类的代理往往非常不稳定,很多都被网站拉黑过,特…

比较(四)利用python绘制平行坐标图

比较(四)利用python绘制平行坐标图 平行坐标图(Parallel coordinate plot)简介 平行坐标图可以显示多变量的数值数据,最适合用来同一时间比较许多变量,并表示它们之间的关系。缺点也很明显, 不…

Pandas中将列类型从字符串转换为日期时间格式

在Pandas中处理数据时,遇到时间序列数据并不罕见,我们知道Pandas是在python中处理时间序列数据的非常有用的工具。 让我们看看如何将字符串的字符串列(dd/mm/yyyy格式)转换为datetime格式。如果日期的格式不正确,我们…

分享:Khoj:你的全能AI助手

在数字化时代,我们每天都会面对海量的信息,如何高效地管理和检索这些信息,同时提升工作效率,成为了许多人关注的焦点。为此,Khoj应运而生——一个功能强大、灵活多变的个人化AI助手,旨在助力用户轻松驾驭信…

AI绘画Stable Diffussion 实操教程: 真人图片秒变动漫风,亲手绘制你的专属动漫头像

大家好,我是向阳 你是否曾幻想过自己置身于动漫世界,拥有那些令人羡慕的二次元特征?随着人工智能技术的飞速发展,这一幻想已不再遥不可及。在本文中,我们将一起揭开Stable Diffusion技术的神秘面纱,探索如…

STM32学习笔记(十一)--SPI总线协议详解

概述:Serial Peripheral Interface,一组多从 传输速率比I2C快 但是线多 无应答 是一种同步(具有时钟线需要同步时钟SCL)、串行(一位一位的往一个方向发送)、全双工(发送接收同时)通…

Nvidia Isaac Sim图编程OmniGraph 入门教程 2024(6)

Nvidia Isaac Sim 入门教程 2024 版权信息 Copyright 2023-2024 Herman YeAuromix. All rights reserved.This course and all of its associated content, including but not limited to text, images, videos, and any other materials, are protected by copyright law. …

嵌入式实验---实验八 ADC电压采集实验

一、实验目的 1、掌握STM32F103ADC电压采集程序设计流程; 2、熟悉STM32固件库的基本使用。 二、实验原理 1、使用STM32F103R6采集可变电阻上的电压信号,并通过计算把当前ADC转换值和电压值显示在LCD1602液晶屏上; 2、对照电压表读数&…

《昇思25天学习打卡营第1天|ghqt》

参与这个类活动,我会坚持完成它的。目前MindSpore文档里面的内容还看的不是很懂,希望自己在能不断进步。 第一天学到的内容—— 昇腾应用使能:华为各大产品线基于MindSpore提供的AI平台或服务能力MindSpore:支持端、边、云独立的…

【自然语言处理系列】安装nltk_data和punkt库(亲测有效)

目录 一、下载nltk_data-gh-pages.zip数据文件 二、将nltk_data文件夹移到对应的目录 三、测试 四、成功调用punkt库 问题: 解决方案: 在使用自然语言处理库nltk时,许多初学者会遇到“nltk.download(punkt)”无法正常下载的问题。本…

FL Studio 21.2.3官方中文版重磅发布,手把手教你图文安装

FL Studio 21.2.3官方中文版重磅发布纯正简体中文支持,更快捷的音频剪辑及素材管理器,多样主题随心换! 在数字音乐制作领域,FL Studio一直以其强大的功能和用户友好的界面而备受赞誉。随着技术的不断进步和音乐制作需求的日益增长…

HarmonyOS Next开发学习手册——应用启动框架AppStartup

概述 AppStartup提供了一种简单高效的初始化组件的方式,开发者可以使用AppStartup来显示的设置组件的初始化顺序以及之间的依赖关系,支持异步初始化组件加速应用的启动时间。开发者需要分别为待初始化的组件实现AppStartup提供的 StartupTask 接口&…

达梦(DM8)数据库备份与还原(逻辑备份)一

一、达梦数据库的逻辑备份分四种级别的导出(dexp)与导入(dimp)的备份 第一种是:数据库级:导出或导入数据库中所有的对象。主要参数是:FULL 第二种是:用户级别:导出或导…

Kafka精要

Apach Kafka 是一款分布式流处理框架,用于实时构建流处理应用。它有一个核心 的功能广为人知,即 作为企业级的消息引擎被广泛使用 kafka设计 Kafka 将消息以 topic 为单位进行归纳 将向 Kafka topic 发布消息的程序成为 producers. 将预订 topics 并消…

实例080 进度条百分比显示

本文仅供学习交流,严禁用于商业用途,如本文涉及侵权请及时联系本人将于及时删除 目录 1.实例说明 2.技术要点 3.实现过程 4.实例结果 5.示例拓展 2.10 进度条控件典型实例进度条控件(Progress)用于显示程序的进度&#xff0c…

乐鑫云方案研讨会回顾|ESP RainMaker® 引领创业潮,赋能科创企业

近日,乐鑫信息科技 (688018.SH) ESP RainMaker 云生态方案线下研讨会和技术沙龙在深圳成功举办,吸引了众多来自照明电工、新能源、安防、宠物等垂类领域的客户与合作伙伴。活动现场,与会嘉宾围绕产品研发、测试认证、品牌构建、跨境电商等多维…

File文件转Blob文件,临时路径浏览器可查看

fileToBlob (file) { var reader new FileReader(); reader.readAsArrayBuffer(file); reader.onload function (event) { let blob new Blob([event.target.result], { type: file.type }); //{ type: file.type } 预览blob发现乱码可能是type不对 要获取file文件的type …

[C++深入] --- malloc/free和new/delete

1 new运算符的拓展 1.1 自由存储区与堆的概念 在C++中,内存区分为5个区,分别是堆、栈、自由存储区、全局/静态存储区、常量存储区。 自由存储区是C++基于new操作符的一个抽象概念,凡是通过new操作符进行内存申请,该内存即为自由存储区。 new操作符从自由存储区(free st…

qml:导入B站Up主的FluentUI插件

文章目录 文章介绍如何加载1、下载代码2、官方文档和组件介绍 运行FluentUI新建自己的qml项目,并导入FluentUI调用组件,展示效果图 文章介绍 up主“会磨刀的小猪”模仿微软Fluent风格写的界面,可以理解为用qt和qml写出的win10/win11风格的界…