目录
一. 统计及组合特征
1)统计特征
2)业务特征
3)组合特征
(a)简单组合特征
(b)模型特征组合
二. 特征变换
1)对数变换(Logarithmic Transformation)
(a)简介
(b)代码
2)Box_Cox变换
(a)简介
(b)代码
一. 统计及组合特征
基本特征(时间特征与空间特征)具体内容可见第一期。
1)统计特征
2)业务特征
除了前面常见的统计特征包括平均值、方差、最大值、最小值、中位数、偏度、峰度等。还有一部分特征是业务统计特征,这部分需要结合到业务场景做具体统计,可以帮助我们更好地理解数据的分布和特点,为后续的模型训练和预测提供有用的信息。
3)组合特征
组合特征是指将原始特征进行组合,生成新的特征。通过组合不同的特征,可以发现特征之间的关联性,提高模型的表现。常见的组合特征包括特征相加、相乘、相除、取平均值等操作。通过合理地组合特征,可以提高模型的泛化能力和预测准确度。
(a)简单组合特征
再比如,我们把category A和B替换成user,item
(b)模型特征组合
GBDT+LR模型具体可参考这篇文章:GBDT+LR——特征工程模型化-CSDN博客
综合利用业务的统计特征和组合特征可以帮助我们更好地挖掘数据的潜在信息,提高模型的性能和效果。在特征工程的过程中,需要根据具体的问题和数据特点来选择合适的统计特征和组合特征,从而提高模型的预测能力。
二. 特征变换
1)对数变换(Logarithmic Transformation)
(a)简介
(b)代码
2)Box_Cox变换
(a)简介
(b)代码
Bye!