训练误差代表分类方法对于现有训练样本集的拟合程度
泛化误差代表此方法的泛化能力,即对于新的样本数据的分类能力如何
模型的训练误差比较高,则称此分类模型欠拟合
模型的训练误差低但是泛化误差比较高,则称此分类模型过拟合
对于欠拟合问题,可以通过增加分类属性的数量、选取合适的分类属性等方法,提高模型对于训练样本的拟合程度
解决过拟合问题
一方面要注意数据训练集的质量,选取具有代表性样本的训练样本集。
另一方面要避免决策树过度增长,通过限制树的深度来减少数据中的噪声对于决策树构建的影响,一般可以采取剪枝的方法
剪枝是用来缩小决策树的规模,从而降低最终算法的复杂度并提高预测准确度,包括预剪枝和后剪枝两类
预剪枝的思路是提前终止决策树的增长,在形成完全拟合训练样本集的决策树之前就停止树的增长,避免决策树规模过大而产生过拟合
后剪枝策略先让决策树完全生长,之后针对子树进行判断,用叶子结点或者子树中最常用的分支替换子树,以此方式不断改进决策树,直至无法改进为止