机器学习——决策树特征选择准则

news2025/1/10 2:21:27

机器学习——决策树特征选择准则

决策树是一种强大的机器学习模型,它可以用于分类和回归任务。决策树通过树状结构对数据进行分类,每个内部节点表示一个特征,每个叶节点表示一个类别或一个数值。在决策树构建的过程中,特征的选择准则起着至关重要的作用。本篇博客将介绍决策树模型以及常用的特征选择准则,包括熵和条件熵、信息增益、信息增益比和基尼指数,并通过Python代码实现。

1. 决策树模型

决策树是一种基于树状结构进行决策的模型,它通过一系列的特征测试将数据集分割成不同的子集,直到数据集中的所有样本都属于同一个类别或达到预定义的停止条件为止。决策树有两种类型:分类树和回归树。在分类树中,叶节点表示类别标签;而在回归树中,叶节点表示数值。

2. 特征选择准则

2.1 熵和条件熵

熵是表示随机变量不确定性的度量,定义为:

H ( X ) = − ∑ i = 1 n p ( x i ) log ⁡ p ( x i ) H(X) = -\sum_{i=1}^{n} p(x_i) \log p(x_i) H(X)=i=1np(xi)logp(xi)

其中, p ( x i ) p(x_i) p(xi)是随机变量 X X X取值为 x i x_i xi的概率。

条件熵是在已知随机变量 Y Y Y的条件下,随机变量 X X X的不确定性,定义为:

H ( X ∣ Y ) = − ∑ i = 1 n ∑ j = 1 m p ( x i , y j ) log ⁡ p ( x i ∣ y j ) H(X|Y) = -\sum_{i=1}^{n} \sum_{j=1}^{m} p(x_i, y_j) \log p(x_i|y_j) H(XY)=i=1nj=1mp(xi,yj)logp(xiyj)

其中, p ( x i , y j ) p(x_i, y_j) p(xi,yj) X X X取值为 x i x_i xi Y Y Y取值为 y j y_j yj的联合概率, p ( x i ∣ y j ) p(x_i|y_j) p(xiyj)是在已知 Y Y Y的条件下, X X X取值为 x i x_i xi的条件概率。

2.2 信息增益

信息增益是特征选择准则中常用的指标,表示在已知某个特征的条件下,对数据集分类的不确定性减少的程度。信息增益越大,说明特征对分类的贡献越大。信息增益的计算公式为:

Gain ( D , A ) = H ( D ) − H ( D ∣ A ) \text{Gain}(D, A) = H(D) - H(D|A) Gain(D,A)=H(D)H(DA)

其中, D D D是数据集, A A A是某个特征, H ( D ) H(D) H(D)是数据集 D D D的熵, H ( D ∣ A ) H(D|A) H(DA)是在已知特征 A A A的条件下,数据集 D D D的条件熵。

2.3 信息增益比

信息增益比是信息增益与特征自身熵的比值,用于解决信息增益偏向选择取值较多的特征的问题。信息增益比的计算公式为:

Gain_ratio ( D , A ) = Gain ( D , A ) H A ( D ) \text{Gain\_ratio}(D, A) = \frac{\text{Gain}(D, A)}{H_A(D)} Gain_ratio(D,A)=HA(D)Gain(D,A)

其中, H A ( D ) H_A(D) HA(D)是特征 A A A的熵。

2.4 基尼指数

基尼指数是衡量数据集纯度的指标,定义为数据集中随机抽取两个样本,类别不一致的概率。基尼指数越小,数据集的纯度越高。基尼指数的计算公式为:

G i n i ( D ) = ∑ k = 1 ∣ Y ∣ p k ( 1 − p k ) Gini(D) = \sum_{k=1}^{|\mathcal{Y}|} p_k (1 - p_k) Gini(D)=k=1Ypk(1pk)

其中, ∣ Y ∣ |\mathcal{Y}| Y是类别的个数, p k p_k pk是数据集 D D D中属于类别 k k k的样本的比例。

3. Python实现

接下来,让我们通过Python代码实现一个简单的决策树模型,并使用信息增益作为特征选择准则。我们将使用DecisionTreeClassifier类来构建决策树,并在西瓜数据集上进行分类。

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt

# 加载西瓜数据集
iris = load_iris()
X, y = iris.data, iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 构建决策树模型
clf = DecisionTreeClassifier(criterion='entropy', random_state=42)
clf.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = clf.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

# 绘制决策树可视化图形
plt.figure(figsize=(12, 8))
plot_tree(clf, filled=True, feature_names=iris.feature_names, class_names=iris.target_names)
plt.show()

在这里插入图片描述

运行以上代码,将得到决策树模型在测试集上的准确率。在这个例子中,我们使用了iris数据集,采用信息增益作为特征选择准则。

结论

本篇博客介绍了决策树模型以及常用的特征选择准则,包括熵和条件熵、信息增益、信息增益比和基尼指数。这些特征选择准则在决策树的构建过程中起着关键作用,帮助选择最优的特征来进行节点的分裂,从而提高模型的分类性能。

在Python实现部分,我们使用DecisionTreeClassifier类构建了一个简单的决策树模型,并在iris数据集上进行了分类实验。通过实验结果,我们可以看到决策树模型在测试集上达到了较高的准确率,这表明特征选择准则的选择对模型的性能具有重要影响。

总的来说,决策树模型是一种简单且有效的机器学习模型,特征选择准则的选择对决策树的构建和分类性能具有重要影响。在实际应用中,我们需要根据具体问题的特点和数据集的情况来选择合适的特征选择准则,以获得更好的分类结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1535528.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Avalonia(11.0.2)+.NET6 打包运行到银河麒麟V10桌面系统

操作系统配置 项目结构 .net版本 这次我们是在银河麒麟V10系统上打包运行Avalonia(11.0.2)+.NET6.0的程序 开始打包 准备Linux下的桌面快捷方式以及图标 调整AvaloniaApplication2.Desktop.csproj的配置项,重点看下图红色线圈出来的部分,里面涉及到了LinuxPath的设置。完整的配…

【论文精读】OTA: Optimal Transport Assignment for Object Detection(物体探测的最优传输分配)

OTA最优传输 🚀🚀🚀摘要一、1️⃣ Introduction---介绍二、2️⃣Related Work---相关工作2.1 🎓 Fixed Label Assignment--静态标签分配2.2 ✨Dynamic Label Assignment--动态标签分配 三、3️⃣Method---论文方法3.1 &#x1f39…

深度学习基础知识概述

深度学习理论 神经网络基础:感知机、前向传播、反向传播、激活函数 神经网络是深度学习的基础,它受到人脑结构的启发而设计。神经网络由许多相互连接的单元或节点组成,这些单元模拟生物神经元的功能。下面,我们将详细讲解神经网…

个人网站制作 Part 14 添加网站分析工具 | Web开发项目

文章目录 👩‍💻 基础Web开发练手项目系列:个人网站制作🚀 添加网站分析工具🔨使用Google Analytics🔧步骤 1: 注册Google Analytics账户🔧步骤 2: 获取跟踪代码 🔨使用Vue.js&#…

java.lang.String final

关于String不可变的问题:从毕业面试到现在,一个群里讨论的东西,反正码农面试啥都有,这也是我不咋喜欢面试代码,因为对于我而言,我并不喜欢这些面试。知道或不知道基本没啥含氧量,就是看看源代码…

【java】10.面向对象

一、类和对象 1.1 类和对象的理解 客观存在的事物皆为对象 ,所以我们也常常说万物皆对象。 * 类 * 类的理解 * 类是对现实生活中一类具有共同属性和行为的事物的抽象 * 类是对象的数据类型,类是具有相同属性和行为的一组对象的集合 * 简单理解&am…

PHP连接达梦数据库

PDO是一种在PHP中连接数据库的接口,可以通过PDO接口使用PHP连接达梦数据库。 1、安装PHP环境 检查当前环境是否安装PHP [rootlocalhost ~]# php -v 当前环境并未安装PHP,需要进行安装,选择安装PHP7.3版本。 2、安装 epel-release源和源管…

2024.03.21作业

自由发挥实现一个登录窗口的应用场景 widget.h #ifndef WIDGET_H #define WIDGET_H#include <QPen> #include <QBrush> #include <QPainter> #include <QWidget>QT_BEGIN_NAMESPACE namespace Ui { class Widget; class Painter; } QT_END_NAMESPACE…

C语言:自定义类型:结构体

目录 1. 前言 2. 结构体初识 3. 结构体创建变量 3.1 方法一 3.2 方法二 4. 结构体初始化 5. 结构体自引用 6. 结构体的大小 6.1 结构体对齐规则 6.2 常规结构体 6.3 结构体成员含数组 6.4 结构体嵌套结构体 6.5 为什么存在结构体对齐&#xff1f; 6.6 修改默认对…

软考高级:软件架构评估-质量属性:可用性概念和例题

作者&#xff1a;明明如月学长&#xff0c; CSDN 博客专家&#xff0c;大厂高级 Java 工程师&#xff0c;《性能优化方法论》作者、《解锁大厂思维&#xff1a;剖析《阿里巴巴Java开发手册》》、《再学经典&#xff1a;《Effective Java》独家解析》专栏作者。 热门文章推荐&am…

Golang Gorm 自动分批查询

场景&#xff1a; 目标查询全量数据&#xff0c;但需要每次Limit分批查询&#xff0c;保护数据库 文档&#xff1a; https://gorm.io/zh_CN/docs/advanced_query.html // Param: // dest 目标地址 // batchSize 大小 // fc 处理函数func (db *DB) FindInBatc…

leetcode 18.四数之和 java

题目 思路 整体在三数之和的基础上进行修改。&#xff08;所有需要修改的地方&#xff0c;我在代码里加了//改 的注释&#xff09; 大的一个思路就是&#xff0c;在三数之和的外面再套一层循环。相当于固定前两个数。然后这道题目标值变成一个参数了&#xff0c;不是三数之和…

上位机图像处理和嵌入式模块部署(qmacvisual轮廓查找)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 前面我们说过&#xff0c;图像的处理流程一般都是这样的&#xff0c;即灰度化-》降噪-》边缘检测-》二值化-》开闭运算-》轮廓检测。虽然前面的几个…

Springboot 整合 Knife4j (API文档生成工具)

目录 一、Knife4j 介绍 二、Springboot 整合 Knife4j 1、pom.xml中引入依赖包 2、在application.yml 中添加 Knife4j 相关配置 3、打开 Knife4j UI界面 三、关于Knife4j框架中常用的注解 1、Api 2、ApiOperation ​3、ApiOperationSupport(order X) ​4、ApiImplici…

模态框被div class=modal-backdrop fade in覆盖的问题

模态框被<div class"modal-backdrop fade in">覆盖的问题 起因&#xff1a;在导入模态框时页面被一层灰色的标签覆盖住 F12查看后发现是一个<div class"modal-backdrop fade in"> 一开始以为是z-index的问题&#xff0c;但经过挨个修改后感觉…

SpringBoot项目如何打包成war包,并部署在tomcat上运行

项目场景&#xff1a; 正常情况下&#xff0c;我们开发 SpringBoot 项目&#xff0c;由于内置了Tomcat&#xff0c;所以项目可以直接启动&#xff0c;部署到服务器的时候&#xff0c;直接打成 jar 包&#xff0c;就可以运行了。 有时我们会需要打包成 war 包&#xff0c;放入外…

【漏洞复现】福建科立迅通信指挥调度平台down_file.php sql注入漏洞

漏洞描述 福建科立迅通信调度平台 20240318 以及之前版本存在一个严重漏洞,影响了文件 api/client/down_file.php 的一个未知功能。攻击者可以通过操纵参数 uuid 发起 SQL 注入攻击。攻击者可以远程发起攻击。 免责声明 技术文章仅供参考,任何个人和组织使用网络应当遵守…

ROS机器人入门第一课:ROS快速体验——python实现HelloWorld

文章目录 ROS机器人入门第一课&#xff1a;ROS快速体验——python实现HelloWorld一、HelloWorld实现简介&#xff08;一&#xff09;创建工作空间并初始化&#xff08;二&#xff09;进入 src 创建 ros 包并添加依赖 二、HelloWorld(Python版)&#xff08;二&#xff09;进入 r…

Axure 中继器的Repeater属性的使用

dataCount 中继器当中存在多少条数据&#xff0c;总数。 visibleltemCount 中继器列表中可见项数量&#xff0c;也就是当前页面显示的数量。 pageCount 获取中继器分页的总数量&#xff0c;即能够获取分页后共有多少页。 pageIndex 获取中继器当前显示的页码

易大师B版运势测算系统源码-八字周易运势塔罗-含视频搭建教程

2024最新易大师B版运势测算系统源码-八字周易运势塔罗等测算源码 基于上个版本再次做了数据优化和部分bug修复&#xff0c;青狐独家维护版本。 测算周易系统一直都是很好变现和运营的&#xff0c;玩法操作也比较简单&#xff0c;也很容易被百度收录推广。 大致功能&#xff1a…