前言:
feature scaling 即为特征归一化、标准化,是数据预处理中的重要技术。在实际运用中,使用梯度下降算法的模型都需要归一化,包括线性回归、逻辑回归、支持向量机、神经网络等模型。但对决策树模型并不适用,因为信息增益、信息增益比、基尼指数跟特征是否经过归一化是无关的。
1、归一化的原因
- 对数据做特征归一化是为了消除特征尺度不同所带来的影响,使特征具有可比性。
- 数值归一化后能加快收敛速度,更容易找到梯度下降的最优解。在基于梯度更新对模型求解的过程中,未归一化的数值特征在求解时,梯度下降较为抖动,模型难以收敛,而归一化后的数值特征较为稳定,进而减少梯度下降的次数,模型更容易收敛。
2、常用的feature scaling
- Mean Normalization(均值归一化)
- min-max normalization
3、类别型特征转换为数值型特征
- 序列编码
- one-hot编码
对于类别取值较多(转换成onehot编码维度会很高)的情况下注意如下问题:
1.使用稀疏向量来节省空间
2.需配合特征选择来降低维度,一方面在逻辑回归模型中,维度的增加会导致参数的数量的增加,容易引起过拟合问题;另一方面,只有部分维度对于分类、预测是有效的。
- 二进制编码
4、为什么需要特征组合?如何处理高维组合特征?
- 提高对复杂关系的拟合能力,挖掘数据内部的关系
- 对于高维组合特征,常采用降维的方法,主要有PCA、LDA、SVD、稀疏自编码、word2vec
如有不足之处,欢迎指正
参考文献
1.一文彻底搞懂,为什么数据要做特征归一化和标准化!
2.百面机器学习—1.特征工程