决策树算法实战

news2026/2/12 1:27:56

本实战主要目标是讲解如何使用sklearn库来构造决策树，包括其中的一些参数的使用，以及参数调优对模型精确度的影响。

1. 数据处理

导入Pandas和Matplotlib两个库。

# 导入Pandas和Matplotlib两个库
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd

此次实验没有CSV数据文件，我们采用sklearn模块中的内置数据集，直接加载内置的房价数据集，根据房子的价格和一些影响因素，来预测最终的结果。

from sklearn.datasets.california_housing import fetch_california_housing
housing = fetch_california_housing()
print(housing.DESCR)# 内置数据集

可以简单打印一下数据信息，具体代码与结果如图5-33所示。第一条代码中.shape表示数据的维度，输出的信息表示整个文件有8个特征及20640条数据。第二条代码表示打印数据集中的第一行数据信息。

2. 模型的建立

从sklearn中导入tree模块，在tree模块里可以用决策树分类或者回归，预测类别值或连续值都是可以的。使用sklearn分两步，第一步是将树模型实例化出来，传入参数max_depth控制树的最大深度。第二步是用实例出来的变量来进行训练，相当于构造一个树模型。其中，传入两个参数x,y，这里的x取数据集中的第6列和第7列，相当于指定某些特征来建模；y相当于label，即结果值。

# 实例化树模型
from sklearn import tree
print(housing.target)
dtr = tree.DecisionTreeRegressor(max_depth=2) # 控制深度
dtr.fit(housing.data[:,[6,7]],housing.target) # 取第6列和第7列

执行语句输出模型的参数，如图5-34所示，除了设定的参数，有些参数是默认的，一般情况下我们只需要调整部分参数即可。

3. 模型可视化

模型可视化显示需要借助第三方工具。首先要安装graphiviz，其官方网站地址是http://www.graphviz.org/，进入页面后单击Download按钮，根据计算机版本选择安装文件，安装后将bin目录下的路径添加到环境变量即可使用。

接下来要构造可视化树模型，代码结构差不多，唯一需要调整的是构造对象的变量名字，以及图中的特征名字，就是dataframe中用什么名字就指定那个名字，代码如下：

# 可视化构造树模型
dot_data = \
tree.export_graphviz(
    dtr,# 变量名
    out_file=None,
    feature_names=housing.feature_names[6:8],# 名字
    filled=True,
    impurity=False,
    rounded=True
)

另外，还需要安装一个pydotplus库，使用pip install pydotplus命令即可安装。把数据参数传进去并指定画图的颜色，代码如下：

import pydotplus
graph = pydotplus.graph_from_dot_data(dot_data)
graph.get_nodes()[7].set_fillcolor("#FFF2DD")
from IPython.display import Image
Image(graph.create_png())

结果如图5-35所示。如此就完成了决策树的可视化的过程。

所以说，调用Python的内置模块还是很方便的，不需要在cmd命令窗口上去进行一些操作，构造好的决策树图还可以保存到本地，方便查看，操作也很简单。

graph.write_png("dtr_white_backgroud.png")

本文节选自《机器学习实战（视频教学版）》，获出版社和作者授权发布。

《图神经网络基础、模型与应用实战（人工智能技术丛书）》(兰伟，叶进，朱晓姝)【摘要书评试读】- 京东图书 (jd.com)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1707463.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

决策树算法实战

相关文章

svg画简单的立方体

数据大屏vue3+ts+axios+MockJS+dataV+echarts

利用预测大模型完成办公室饮水机剩余热水量

YOLOv8猫狗检测:从SwanLab可视化训练到Gradio Demo网站

打工人都在偷偷做的副业项目—steam搬砖

es安装错误Exception in thread “main“ java.nio.file.NoSuchFileException解决方案

【Linux命令】--- Linux下的分卷压缩与解压

JavaWeb Servelt原理

centos7防火墙入站白名单配置

基于springboot+vue+Mysql的逍遥大药房管理系统

七人拼购新模式：革新购物体验，共创价值

面试准备-八股【面试准备】

在组件外使用pinia的坑

广告界的奥斯卡：揭秘成功广告策划的核心要素

three.js能实现啥效果？看过来，这里都是它的菜（08）

网络——多区域OSPF配置（OSPF系列第1篇）

【全开源】班级管家微信小程序（FastAdmin+ThinkPHP）

JD3-40/23漏电继电器 AC220V 50-500mA 0.1s 导轨安装

CRMEB开源商城系统：全开源、高灵活性的电商解决方案

快写猪好用吗 #知识分享#笔记#学习方法