文章目录
-
- 介绍
-
- 教程
- 下载数据
- 加载R包
- 导入数据
- 数据预处理
- 数据描述
- 特征选择
- 数据切割
- 调节参数
- 构建模型
- 预测测试数据
- 评估模型
-
- 模型准确性
- 混淆矩阵
- 模型评估指标
- ROC Curve
- PRC Curve
- 特征的重要性
- 模型解释
- 保存模型
- 总结
- 系统信息
介绍
随机森林是常用的非线性用于构建分类器的算法,它是由数目众多的弱决策树构建成森林进而对结果进行投票判断标签的方法。
随机森林用于分类器的算法过程,
- 随机切分样本,然后选择2/3用于建模,剩余1/3用于验证袋外误差;
- 随机选择特征构建决策树,每个叶子节点分成二类;
- 根据GINI系数判断分类内部纯度程度,进行裁剪树枝;
- 1/3数据预测,根据每个决策树的结果投票确定标签;
- 输出标签结果,并给出OOB rate
随机的含义在于样本和特征是随机选择去构建决策树,这可以有效避免偏差,另外弱分类器组成强分类器也即是多棵决策树组成森林能提升模型效果。
教程
本文旨在通过R语言实现lightGBM,总共包含:
- 下载数据
- 加载R包
- 数据预处理
- 数据切割
- 特征选择
- 设置参数
- 构建模型
- 预测测试数据
- 评估模型