【Pandas驯化-15】Pandas中几个特征工程函get_dummies、factorize、diff、rank技巧
本次修炼方法请往下查看
🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合,智慧小天地!
🎇 相关内容文档获取 微信公众号
🎇 相关内容视频讲解 B站
🎓 博主简介:AI算法驯化师,混迹多个大厂搜索、推荐、广告、数据分析、数据挖掘岗位 个人申请专利40+,熟练掌握机器、深度学习等各类应用算法原理和项目实战经验。
🔧 技术专长: 在机器学习、搜索、广告、推荐、CV、NLP、多模态、数据分析等算法相关领域有丰富的项目实战经验。已累计为求职、科研、学习等需求提供近千次有偿|无偿定制化服务,助力多位小伙伴在学习、求职、工作上少走弯路、提高效率,近一年好评率100% 。
📝 博客风采: 积极分享关于机器学习、深度学习、数据分析、NLP、PyTorch、Python、Linux、工作、项目总结相关的实用内容。
🌵文章目录🌵
- 🎯 1. 基本介绍
- 💡 2. 使用方法
- 2.1 pd.get_dummies函数使用
- 2.2 pd.factorize函数使用
- 2.3 pd.diff函数使用
- 2.4 pd.rank函数使用
- 🔍 3. 注意事项
- 🔧 4. 总结
下滑查看解决方法
🎯 1. 基本介绍
pd.get_dummies:
有时在进行特征工程时,当某列的值的种类不是大于20且不同的值的label差异性比较大时,像LR算法则一定需要将其进行one-hot编码,即使使用像xgb/gbm这样的算法,进行one-hot编码也会在拟合效果上有想不到的提升,当然如果对算法的速度有特别的要求,则需要去折中选择。
pd.factorize:
这个函数主要对数据进行编码操作的,将类别数据转换为相关数值型数据
diff():
,在时序问题中,有时需要提取不同时间的差值特征,比如说前一天和后一天的差值,这是可以采用diff方法,其用法如下:
💡 2. 使用方法
2.1 pd.get_dummies函数使用
使用 get_dummies 创建指示变量。下面为get_dummies的具体用法
import pandas as pd
import numpy as np
# 创建示例 DataFrame
df = pd.DataFrame({
'Color': ['Green', 'Red', 'Green', 'Blue', 'Red', 'Blue'],
'Value': [1, 2, 3, 4, 5, 6]
})
# 创建指示变量
dummies_df = pd.get_dummies(df['Color'])
print(dummies_df)
Blue Green Red
0 0.0 1.0 0.0
1 0.0 0.0 1.0
2 0.0 1.0 0.0
3 1.0 0.0 0.0
4 0.0 0.0 1.0
5 1.0 0.0 0.0
2.2 pd.factorize函数使用
使用 factorize 对分类数据进行编码。函数语法如下:
# 对 'Color' 列进行编码
encoded_df = pd.factorize(df['Color'])
print(encoded_df)
(array([0, 1, 0, 2, 1, 2]), array(['Blue', 'Green', 'Red'], dtype=object))
2.3 pd.diff函数使用
diff()函数是Pandas中用于计算差分的函数。它可以计算两个相邻元素之间的差异,并返回一个新的Series或DataFrame。
# 计算 'Value' 列的一阶差分
diff_df = df['Value'].diff()
print(diff_df)
0 NaN
1 1.0
2 1.0
3 1.0
4 1.0
5 1.0
Name: Value, dtype: float64
2.4 pd.rank函数使用
使用 rank 计算排名。可以对dataframe中的某列数据进行从0-1递增的增加数据,这个可以在特征工程中经常会被用到对连续的数据进行排序。
# 计算 'Value' 列的排名
rank_df = df['Value'].rank(method='min')
print(rank_df)
0 1.0
1 2.0
2 3.0
3 4.0
4 5.0
5 6.0
Name: Value, dtype: float64
🔍 3. 注意事项
对上述的各个函数在使用的过程中需要注意的一些事项,不然可能会出现error,具体主要为:
- get_dummies 默认情况下会忽略 NaN 值,如果需要包含 NaN,可以设置 drop_first=False。
- factorize 返回的是编码后的数据和原始类别的映射,适用于处理未知类别。
使用 diff 时,差分的第一步将是 NaN,因为它没有前一个值进行比较。 - rank 方法有多种参数可以控制排名的计算方式,如 method 参数可以设置为 ‘min’、‘max’ 或 ‘average’。
🔧 4. 总结
本文介绍了 Pandas 中的四个特征工程函数:get_dummies、factorize、diff 和 rank。这些函数在处理分类数据、计算数据变化和排名时非常有用。通过实际的代码示例和输出结果,我们可以看到这些函数的应用效果。掌握这些技巧可以帮助你更高效地进行特征工程。希望这篇博客能够帮助你更好地理解并应用这些特征工程技巧。