一、什么是特征工程
机器学习领域的大神Andrew Ng(吴恩达)老师说“Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learning” is basically feature engineering. ”
注:业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已
特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程
意义:会直接影响机器学习的效果
二、用什么做特征工程
目前就是sklearn
三、特征工程的位置与数据处理的比较
1、pandas
一个数据读取非常方便以及基本的处理格式的工具
2、sklearn
对于特征的处理提供了强大的接口
3、特征工程包含内容
(1)特征抽取
(2)特征预处理
(3)特征降维
4、特征抽取/特征提取
比如有一篇英文短文,要对文章进行分类:
机器学习算法 -- 统计方法 -- 数学公式
数学公式不能处理字符串,要把文本字符串转换成数值的类型
问题:文本类型转换成数值怎么转?
分类船仓位
问题:类型转换成数值?
onehot编码或者哑变量
四、特征提取
1、什么是特征提取
将任意数据(如文本或图像)转换为可用于机器学习的数字特征
注:特征值化是为了计算机更好的去理解数据
(1)字典特征提取(特征离散化)
(2)文本特征提取
(3)图像特征提取(深度学习将介绍)
2、特征提取API
sklearn.feature_extraction