机器学习帮助我们找到数据中的模式,然后我们用这些模式来预测新的数据点。为了获得正确的预测,我们必须构建数据集并正确地转换数据。在《数据准备和特征工程》系列文章中,笔者将重点介绍这两个关键步骤。在【机器学习7:特征工程】一文中,笔者已经简单介绍过特征工程相关内容,读者可以先温习一下。
如前所述,《数据准备和特征工程》系列文章的关注点是构建数据集和转换数据。
需要注意的是:
- 上图展示的是一个典型的流程,可能并不适合每个项目。主要适用于线性回归和神经网络。
- 所显示的过程并不总是连续的。例如,我们可以在转换数据后分割数据,也可能需要收集更多数据。即使在训练开始之后,也可能需要修改特征集,留下那些有效的,去除无效的。
在机器学习项目中,用于数据准备和转换的时间通常占据整个项目时间的一半以上!!!