预处理是指在将数据提供给算法之前对数据进行的转换。数据预处理是一种用于将原始数据转换为干净数据集的技术。换句话说,无论何时从不同来源收集数据,它都是以原始格式收集的,这对于分析是不可行的。
数据预处理的需要
- 为了从机器学习项目中的应用模型中获得更好的结果,数据格式必须采用正确的方式。一些特定的机器学习模型需要特定格式的信息,例如随机森林算法不支持空值,因此要执行随机森林算法,空值必须从原始原始数据集中进行管理。
- 另一个方面是数据集的格式化方式应该是在一个数据集中执行不止一种机器学习和深度学习算法,并从中选择最好的算法。