目的 模型在一套训练集和数据集上表现优秀,不能说明问题,只有在众多不同的训练集和测试集上表现都优秀,模型才具有真正的泛化能力。 通过交叉验证,验证模型的泛化能力,帮助我们认识模型。 常用方法之K折交叉验证 分为K折,每次留一份作为验证集,K-1份训练集 带交叉验证的学习曲线 对于带交叉验证的学习曲线,不仅要高准确率,而且方差想对要小。 其他交叉验证 K折 :按顺序取训练集和测试集 ShuffleSplit 侧重于让测试集数据分布在数据的全方位之内。 StratifiedKFold 训练数据和测试数据必须在每个标签分类中占有相同的比例。 避免折数过大 造成 运算效率慢预测方差大