【机器学习】从理论到实践:决策树算法在机器学习中的应用与实现

news2024/10/23 12:28:00

  📝个人主页:哈__

期待您的关注 

目录

📕引言

⛓决策树的基本原理

1. 决策树的结构

2. 信息增益

熵的计算公式

信息增益的计算公式

3. 基尼指数

4. 决策树的构建

🤖决策树的代码实现

1. 数据准备

2. 决策树模型训练

3. 决策树的可视化

4. 决策树的解释

🍎决策树在机器学习中的应用

1. 分类任务

2.决策树在回归任务中的应用

3. 特征选择

4. 异常检测

🎇决策树的优缺点

优点

缺点

💡决策树的改进方法

剪枝

集成方法

随机森林

梯度提升树

总结


📕引言

决策树是一种广泛应用于分类和回归任务的监督学习算法。它通过将数据集划分成不同的子集来做出决策,直观且易于理解。在本篇文章中,我们将深入剖析决策树的原理,并通过具体的代码实例展示其在机器学习中的应用。

⛓决策树的基本原理

1. 决策树的结构

决策树由节点和边组成,其中每个节点表示数据集的某个特征,每条边表示特征的某个值所对应的分支。决策树的最顶端称为根节点,叶节点代表决策结果。以下是一个简单的决策树示例图:


2. 信息增益

决策树的构建过程依赖于一个重要概念:信息增益。信息增益用于衡量某个特征在划分数据集时所带来的纯度提升。常用的纯度度量包括熵、基尼指数等。

熵的计算公式

熵(Entropy)用于衡量数据集的不确定性,其计算公式为:

H(S) = -\sum_{i=1}^{c} p_i \log_2 p_i

 其中,S是数据集,c是类别数,p_i 是第 i 类的概率。

信息增益的计算公式

信息增益(Information Gain)用于衡量选择某个特征进行数据划分时,数据集纯度的提升,其计算公式为:

IG(S, A) = H(S) - \sum_{v \in \text{values}(A)} \frac{|S_v|}{|S|}I

其中,A是特征,S_v 是根据特征 A的值 v划分的数据子集。


3. 基尼指数

基尼指数(Gini Index)是另一种常用的纯度度量方法,用于衡量数据集的不纯度,其计算公式为:

Gini(S) = 1 - \sum_{i=1}^{c} p_i^2

其中,p_i是第 i 类的概率。


4. 决策树的构建

决策树的构建过程可以归纳为以下步骤:

  1. 选择最佳特征进行数据集划分:选择使得信息增益最大化或基尼指数最小化的特征。
  2. 根据特征值划分数据集:将数据集根据选定特征的不同取值划分为若干子集。
  3. 递归构建子树:在每个子集上递归构建子树,直到满足停止条件(如所有样本属于同一类别或特征用尽)。

以下是决策树构建过程的伪代码:

函数 BuildTree(data, features):
    如果 data 中所有实例属于同一类别:
        返回该类别
    如果 features 为空或 data 为空:
        返回 data 中出现次数最多的类别
    选择使信息增益最大的特征 A
    创建节点 node,并将其标记为特征 A
    对于特征 A 的每个可能取值 v:
        子数据集 sub_data = 由 data 中特征 A 的值为 v 的实例构成
        如果 sub_data 为空:
            在 node 上创建叶节点,标记为 data 中出现次数最多的类别
        否则:
            在 node 上创建子节点,并将子节点连接到 BuildTree(sub_data, features \ {A})
    返回 node

🤖决策树的代码实现

接下来,我们通过具体代码展示如何在Python中实现决策树,并应用于分类任务。

1. 数据准备

我们使用一个简单的数据集来演示决策树的构建过程。

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris

# 加载Iris数据集
data = load_iris()
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(df.drop(columns=['target']), df['target'], test_size=0.3, random_state=42)

2. 决策树模型训练

我们使用Scikit-Learn中的DecisionTreeClassifier来训练决策树模型。

from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# 初始化决策树分类器
clf = DecisionTreeClassifier(criterion='entropy', max_depth=3, random_state=42)

# 训练模型
clf.fit(X_train, y_train)

# 预测
y_pred = clf.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f'决策树模型的准确率: {accuracy:.2f}')

3. 决策树的可视化

我们可以使用Scikit-Learn的export_graphviz函数和graphviz库来可视化决策树。

from sklearn.tree import export_graphviz
import graphviz

# 导出决策树
dot_data = export_graphviz(clf, out_file=None, 
                           feature_names=data.feature_names,  
                           class_names=data.target_names,  
                           filled=True, rounded=True,  
                           special_characters=True)  

# 使用graphviz渲染决策树
graph = graphviz.Source(dot_data)  
graph.render("decision_tree")  # 生成决策树的PDF文件

4. 决策树的解释

在实际应用中,决策树的解释能力非常重要。我们可以通过以下方式解读决策树的结果:

  • 特征重要性:决策树可以计算每个特征的重要性,反映其在树中进行决策时的重要程度。

    import matplotlib.pyplot as plt
    import numpy as np
    
    feature_importances = clf.feature_importances_
    features = data.feature_names
    
    indices = np.argsort(feature_importances)
    
    plt.figure(figsize=(10, 6))
    plt.title("Feature Importances")
    plt.barh(range(len(indices)), feature_importances[indices], align="center")
    plt.yticks(range(len(indices)), [features[i] for i in indices])
    plt.xlabel("Relative Importance")
    plt.show()
    
  • 决策路径:我们可以追踪决策树在做出某个预测时的决策路径。

    sample_id = 0  # 样本索引
    node_indicator = clf.decision_path(X_test)
    leaf_id = clf.apply(X_test)
    
    sample_path = node_indicator.indices[node_indicator.indptr[sample_id]:node_indicator.indptr[sample_id + 1]]
    print(f'样本 {sample_id} 的决策路径:')
    for node_id in sample_path:
        if leaf_id[sample_id] == node_id:
            print(f'--> 叶节点 {node_id}')
        else:
            print(f'--> 节点 {node_id}, 判断特征:{features[clf.tree_.feature[node_id]]}, 阈值:{clf.tree_.threshold[node_id]:.2f}')
    

🍎决策树在机器学习中的应用

决策树在机器学习中有广泛的应用,主要体现在以下几个方面:

1. 分类任务

决策树在分类任务中应用广泛,如垃圾邮件分类、疾病诊断等。以下是使用决策树进行分类任务的示例代码:

from sklearn.datasets import load_wine
from sklearn.metrics import classification_report

# 加载葡萄酒数据集
wine_data = load_wine()
X_wine = wine_data.data
y_wine = wine_data.target

# 划分训练集和测试集
X_train_wine, X_test_wine, y_train_wine, y_test_wine = train_test_split(X_wine, y_wine, test_size=0.3, random_state=42)

# 训练决策树分类器
wine_clf = DecisionTreeClassifier(criterion='gini', max_depth=5, random_state=42)
wine_clf.fit(X_train_wine, y_train_wine)

# 预测
y_pred_wine = wine_clf.predict(X_test_wine)

# 评估模型
print(classification_report(y_test_wine, y_pred_wine, target_names=wine_data.target_names))

2.决策树在回归任务中的应用

决策树同样适用于回归任务,例如房价预测、股票价格预测等。决策树回归模型通过将数据集划分为若干区域,并对每个区域内的样本进行平均来进行预测。以下是一个使用决策树进行回归任务的示例代码:

from sklearn.datasets import load_boston
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error

# 加载波士顿房价数据集
boston = load_boston()
X_boston = boston.data
y_boston = boston.target

# 划分训练集和测试集
X_train_boston, X_test_boston, y_train_boston, y_test_boston = train_test_split(X_boston, y_boston, test_size=0.3, random_state=42)

# 初始化决策树回归器
regressor = DecisionTreeRegressor(criterion='mse', max_depth=5, random_state=42)

# 训练模型
regressor.fit(X_train_boston, y_train_boston)

# 预测
y_pred_boston = regressor.predict(X_test_boston)

# 计算均方误差
mse = mean_squared_error(y_test_boston, y_pred_boston)
print(f'决策树回归模型的均方误差: {mse:.2f}')

3. 特征选择

决策树可以用于特征选择,通过计算特征的重要性来筛选出对预测结果影响最大的特征。这在高维数据集的处理上尤其有用。

# 计算特征重要性
feature_importances = regressor.feature_importances_
features = boston.feature_names

# 打印特征重要性
for name, importance in zip(features, feature_importances):
    print(f'Feature: {name}, Importance: {importance:.2f}')

4. 异常检测

决策树还可以用于异常检测,通过构建深度较大的树来识别数据集中异常点。较深的叶节点通常对应于异常样本。

from sklearn.ensemble import IsolationForest

# 初始化隔离森林模型
iso_forest = IsolationForest(n_estimators=100, contamination=0.1, random_state=42)

# 训练模型
iso_forest.fit(X_train_boston)

# 预测异常
anomalies = iso_forest.predict(X_test_boston)
print(f'异常样本数量: {sum(anomalies == -1)}')

🎇决策树的优缺点

优点

  1. 直观易懂:决策树的结构类似于人类的决策过程,易于理解和解释。
  2. 无需特征缩放:决策树对数据的缩放不敏感,不需要进行特征归一化或标准化。
  3. 处理缺失值:决策树能够处理数据集中的缺失值。
  4. 非线性关系:决策树能够捕捉数据中的非线性关系。

缺点

  1. 容易过拟合:决策树在训练数据上表现良好,但在测试数据上可能表现不佳,需要通过剪枝等方法进行优化。
  2. 对噪声敏感:决策树对数据中的噪声较为敏感,容易导致模型不稳定。
  3. 偏向于多值特征:决策树在选择特征时偏向于取值较多的特征,可能导致偏差。

💡决策树的改进方法

剪枝

剪枝是通过删除决策树中的一些节点来减少模型的复杂度,防止过拟合。剪枝方法主要包括预剪枝和后剪枝。

  • 预剪枝:在构建决策树的过程中,通过限制树的最大深度、最小样本数等参数来防止树的过度生长。
  • 后剪枝:在决策树构建完成后,通过评估子树的重要性来剪除不重要的子树。

集成方法

集成方法通过结合多个决策树的预测结果来提高模型的稳定性和准确性,常见的集成方法包括随机森林和梯度提升树。

随机森林

随机森林通过构建多棵决策树,并对每棵树的预测结果进行投票来获得最终结果,有效减少了单棵决策树的过拟合问题。

from sklearn.ensemble import RandomForestRegressor

# 初始化随机森林回归器
rf_regressor = RandomForestRegressor(n_estimators=100, max_depth=5, random_state=42)

# 训练模型
rf_regressor.fit(X_train_boston, y_train_boston)

# 预测
rf_y_pred = rf_regressor.predict(X_test_boston)

# 计算均方误差
rf_mse = mean_squared_error(y_test_boston, rf_y_pred)
print(f'随机森林回归模型的均方误差: {rf_mse:.2f}')

梯度提升树

梯度提升树通过逐步构建多个决策树,每棵树都在之前所有树的基础上进行改进,从而提高模型的准确性。

from sklearn.ensemble import GradientBoostingRegressor

# 初始化梯度提升回归器
gb_regressor = GradientBoostingRegressor(n_estimators=100, max_depth=3, random_state=42)

# 训练模型
gb_regressor.fit(X_train_boston, y_train_boston)

# 预测
gb_y_pred = gb_regressor.predict(X_test_boston)

# 计算均方误差
gb_mse = mean_squared_error(y_test_boston, gb_y_pred)
print(f'梯度提升回归模型的均方误差: {gb_mse:.2f}')

总结

本文详细介绍了决策树的基本原理、构建过程及其在机器学习中的应用。通过详细的代码示例,我们展示了如何使用决策树进行分类和回归任务,并探讨了决策树的优缺点及其改进方法。希望通过本文的介绍,读者能够更深入地理解决策树算法,并能在实际应用中灵活运用这一强大的工具。

无论是在特征选择、分类任务、回归任务还是异常检测中,决策树都展现出了其独特的优势和广泛的应用前景。通过不断优化和改进,决策树将在更多的机器学习任务中发挥重要作用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1843255.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Studying-代码随想录训练营day15| 222.完全二叉树的节点个数、110.平衡二叉树、257.二叉树的所有路径、404.左叶子之和

第十五天,二叉树part03💪,编程语言:C 目录 257.完全二叉树的节点个数 110.平衡二叉树 257.二叉树的所有路径 404.左叶子之和 总结 257.完全二叉树的节点个数 文档讲解:代码随想录完全二叉树的节点个数 视频讲解…

Mistral AI 发布 Codestral-22B,精通 80+ 编程语言,22B 参数超越 70B Code Llama

前言 大型语言模型 (LLM) 在代码生成领域展现出巨大的潜力,但现有的模型在支持的编程语言数量、生成速度和代码质量方面仍存在局限性。法国 AI 独角兽 Mistral AI 近期发布了其首款代码生成模型 Codestral-22B,宣称在多项指标上超越了 GPT-4 和 Llama3&…

计算机网络:应用层 - 万维网 HTTP协议

计算机网络:应用层 - 万维网 & HTTP协议 万维网 WWW统一资源定位符 URL 超文本传输协议 HTTP非持续连接持续连接非流水线流水线 代理服务器HTTP报文 万维网 WWW 万维网是一个大规模的、联机式的信息储藏所。万维网用链接的方法能非常方便地从互联网上的一个站点…

企业的差旅费用还能更节省吗?

对于多数企业而言,差旅成本是仅次于人力资源成本的第二大可控成本。 差旅成本除了差旅产品采购费用、差旅服务费用这些显性成本外,还有预订时间消耗、审批环节、报销流程、票据核查等隐性成本。 据调研数据显示:企业对于专业差旅管理的认知度…

测试服务器端口是否打开,服务器端口开放异常的解决方法

在进行服务器端口开放性的测试时,我们通常使用网络工具来验证目标端口是否响应特定的协议请求。常用的工具包括Telnet、Nmap、nc(netcat)等。这些工具可以通过发送TCP或UDP数据包到指定的IP地址和端口,然后分析返回的数据包&#…

「Python-docx 专栏」docx 获取页面大小、设置页面大小(纸张大小)

本文目录 前言一、docx纸张大小介绍1、document.xml① 关于 document.xml 的一些知识点② 纸张大小在哪里③ 纸张大小都有啥④ EMU对应的尺寸列表二、获取docx纸张大小1、完整代码2、运行效果图三、python为docx设置纸张大小1、完整代码2、效果图前言 今天的这边文章,我们来说…

DNS部署与安全

一、DNS 英文全称:Domain Name Service 含义:域名服务 作用:为客户机提供域名解析服务 二、域名组成 域名组成概述 (1)如"www.sina.com.cn”是一个域名,从严格意义上讲,“sina.com.cn”…

总结 CSS 选择器的常见用法

一,什么是css 在前端网页中,css就相当于化妆术,把一个很生硬的网页页面变得排版有序起来。 CSS可以对网页中的元素位置进行像素级精准控制,实现美化页面的效果,也能做到页面的样式和结构分离。 二,css的基…

前端下载文件流,axios设置responseType: arraybuffer/blob无效

项目中调用后端下载文件接口,设置responseType: arraybuffer,实际拿到的数据data是字符串 axios({method: post,url: /api/v1/records/recording-file/play,// 如果有需要发送的数据,可以放在这里data: { uuid: 06e7075d-4ce0-476f-88cb-87fb0a1b4844 }…

COSMOSPANDA星际熊猫闪耀助阵2023中国(广州)国际时尚产业大会

在2023年12月27日至12月29日于广州海心沙盛大举行的2023中国(广州)国际时尚产业大会上,备受瞩目的星际熊猫以其独特的IP精神与理念,成为本次活动的焦点。 打造“时尚之都”是提升广州国际知名度、消费繁荣度、商业活跃度的重要抓…

Python 基础:异常

目录 一、异常概念二、处理异常2.1 抛出异常2.2 使用 try-except 代码块2.3 使用 try-except-else 代码块2.4 静默失败 三、总结 遇到看不明白的地方,欢迎在评论中留言呐,一起讨论,一起进步! 本文参考:《Python编程&a…

《A DECODER-ONLY FOUNDATION MODEL FOR TIME-SERIES FORECASTING》阅读总结

介绍了一个名为TimeFM的新型时间序列预测基础模型,该模型受启发于自然语言处理领域的大语言模型,通过再大规模真实世界和合成时间序列数据集上的预训练,能够在多种不同的公共数据集上实现接近最先进监督模型的零样本预测性能。 该模型使用真…

数据资产与用户体验优化:深入挖掘用户数据,精准分析用户需求与行为,优化产品与服务,提升用户体验与满意度,打造卓越的用户体验,赢得市场认可

一、引言 在数字化时代,数据已经成为企业最宝贵的资产之一。通过深入挖掘和分析用户数据,企业能够精准把握用户需求和行为,从而优化产品与服务,提升用户体验和满意度。这不仅有助于企业在激烈的市场竞争中脱颖而出,还…

人工智能系列:一文让你读懂什么是模式识别

目录 1.什么是模式识别 1.1人工智能和模式识别 1.2信息感知 1.3计算机模式识别 1.4模式识别应用 1.5模式识别发展简史 1.6相关问题和领域 2.模式识别形式化 2.1模式和模式识别 2.2模式表示 2.3特征空间 2.4特征空间中的分类 2.5一个例子 3.模式识别系统流程 4.模…

【维护服务器安全,如何应对恶意的威胁行为?】

随着互联网的迅猛发展,网络服务器成为现代社会中不可或缺的基础设施。然而,恶意攻击行为也日益猖獗,技术不断升级,给网络服务器的安全带来了严峻挑战。下面德迅云安全就分享一些常见的危害服务器安全的行为,和相应的应…

某棋牌渗透测试

前言 由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,文章作者不为此承担任何责任。 一、信息收集 这里通过fofa进行收集,语法为:body某棋牌 && titlexxx 图1-1 fofa资产收集 …

JetBrains IDEA 新旧UI切换

JetBrains IDE 新旧UI切换 IntelliJ IDEA 的老 UI 以其经典的布局和稳定的性能,成为了许多开发者的首选。而新 UI 则在此基础上进行了全面的改进,带来了更加现代化、响应式和高效的用户体验。无论是新用户还是老用户,都可以通过了解和适应这…

apple watch上watchOS网络低级别和高级别区别,以及使用tcp/udp或者websocket的限制条件

可以直接看官方文档:TN3135: Low-level networking on watchOS | Apple Developer Documentation 高级网络:包括 URLSession 中的 HTTP 和 HTTPS 支持,以及在此之上的任何代码层。 低层网络:包括网络框架、 NSStream 和任何其他…

根据滚珠丝杆规格适配丝杆支撑座!

丝杆支撑座是机械设备中常见的支撑座装置,支撑着滚珠丝杆,起到稳定和支撑的作用,避免丝杆弯曲变形和震动,从而保证设备的稳定运行。那么,我们应该如何正确选择丝杆支撑座呢? 在选择丝杆支撑座时&#xff0c…

数据结构试题 16-17

先这样吧,,专业课不是统考,我发现每年的卷子风格都不太一样,侧重点也不一样。以及21的和16的发生了很大的改变。等明年1月再看看吧 那就先over啦 数据结构撒花!!!!!&am…