作为机器学习流程的一部分,特征工程是对数据进行转化以提高机器学习性能的艺术。
当前有关机器学习的讨论主要以模型为中心。更应该关注以数据为中心的机器学习方法。
本书旨在介绍流行的特征工程技术,讨论何时以及如何运用这些技术的框架。我发现,有些书籍只关注其中一方面,有时可能显得有些单薄。专注于概述的书籍往往忽略了实际应用的一面,而专注于框架的书籍可能让读者产生疑问:“为什么这样做有效呢?”
本书面向已经踏入机器学习领域并寻求提升能力与技能的机器学习工程师和数据科学家。假设读者已经掌握机器学习、交叉验证、参数调优以及使用 Python 和 scikit-learn 进行模型训练的基础知识。本书在此基础上进一步拓展,将特征工程流程直接融入现有的机器学习框架中,以提供更深入的学习体验。
特征工程的四个步骤包括特征理解、特征结构化、特征优化和特征评估。
特征理解--为了更好地解释数据。
特征结构化--为了在机器学习中有效组织数据。
特征优化--为了尽可能地从数据中提取信号和模式。
特征评估--根据机器学习调整特征工程。
数据科学家将超过一半的时间都花费在整理和操作数据上;值得花费充分的时间来整理数据集,以使所有下游任务更加轻松和有效。
优秀的特征工程能够产生更高效的数据集,使我们能够采用更快速、更小的模型,而不是依赖于通过混乱数据训练出来的缓慢而复杂的模型。
本书提供了许多案例研究,帮助读者真正学习和运用特征工程技术。
● 识别和实现特征转换
● 用非结构化数据构建ML(机器学习)流程
● 量化并尽量避免ML流程中的偏见
● 使用特征存储构建实时ML流程
● 通过操纵输入数据来增强现有ML流程
精彩试读