-
特征工程的定义
特征工程(Feature Engineering)特征工程是将原始数据转化成更好的表达问题本质的特征的过程,使得将这些特征运用到预测模型中能提高对不可见数据的模型预测精度。
特征工程简单讲就是发现对因变量y有明显影响作用的特征,通常称自变量x为特征,特征工程的目的是发现重要特征。
如何能够分解和聚合原始数据,以更好的表达问题的本质?这是做特征工程的目的。 “feature engineering is manually designing what the input x’s should be.” “you have to turn your inputs into things the algorithm can understand.”
特征工程是数据挖掘模型开发中最耗时、最重要的一步。 -
多项式回归定义
研究一个因 变量与一个或多个自变量间多项式的回归分析方法,称为多项式回归(Polynomial Regression)。 如果自变量只有一个时,称为一元多项式回归;如果自变量有多个时,称为 多元多项式 回归。 -
实例
如房价预测问题,
【x就是通过x1和x2这两个变量创造出来的新的变量,这个就是构造特征,是特征工程的内容】
【曲线的拟合程度可能更高,更符合题目要求】
注:如果我们采用多项式回归模型,在运行梯度下降算法前,特征缩放非常有必要。【也就是归一化处理,因为有的数据值很大,有的值很小】
参考内容:
深度了解特征工程 - 正阳的文章 - 知乎 https://zhuanlan.zhihu.com/p/111296130
百度百科
吴恩达机器学习笔记