机器学习 | 决策树 Decision Tree

机器学习 | 决策树 Decision Tree

news2025/3/4 20:27:37

—— 分而治之，逐个击破

把特征空间划分区域

每个区域拟合简单模型

分级分类决策

1、核心思想和原理

举例：
- 特征选择、节点分类、阈值确定

2、信息嫡

熵本身代表不确定性，是不确定性的一种度量。

熵越大，不确定性越高，信息量越高。

为什么用log？—— 两种解释，可能性的增长呈指数型；log可以将乘法变为加减法。

联合熵 的物理意义：观察一个多变量系统获得的信息量。

条件熵 的物理意义：知道其中一个变量的信息后，另一个变量的信息量。

给定了训练样本 X ，分类标签中包含的信息量是什么。

信息增益（互信息）

代表了一个特征能够为一个系统带来多少信息。

熵的分类

熵的本质：特殊的衡量分布的混乱程度与分散程度的距离

决策树的本质

3、决策树分类

4、基尼系数

基尼系数运算稍快；

物理意义略有不同，信息熵表示的是随机变量的不确定度；

基尼系数表示在样本集合中一个随机选中的样本被分错的概率，也就是纯度。

基尼系数越小，纯度越高。

模型效果上差异不大。

5、决策树剪枝

为什么要剪枝？

复杂度过高。

预测复杂度：O(logm)

训练复杂度：O(n x m x logm)

logm为数的深度，n为数据的维度。

容易过拟合

为非参数学习方法。

目标：

降低复杂度

解决过拟合

手段：

限制深度（结点层数)

限制广度(叶子结点个数)

—— 设置超参数

6、决策树回归

基于一种思想：相似输入必会产生相似输出。

取节点平均值。

7、优缺点和适用条件

优点：

符合人类直观思维

可解释性强

能够处理数值型数据和分类型数据

能够处理多输出问题

缺点：

容易产生过拟合

决策边界只能是水平或竖直方向

不稳定，数据的微小变化可能生成完全不同的树

参考于

Chapter-07/7-4 决策树分类.ipynb · 梗直哥/Machine-Learning - Gitee.com

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1317399.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

maui中实现加载更多 RefreshView跟ListView 跳转到详情页传参（3）

maui中实现加载更多 RefreshView跟ListView 跳转到详情页传参（3）

效果如图这里的很多数据是通过传参过来的的。代码例表页加入跳转功能： <ListView ItemsSource"{Binding Items}" ItemAppearing"OnItemAppearing" ItemTapped"OnItemTapped" RowHeight"70" Margin"20"…

阅读更多...

【C++11特性篇】一文助小白轻松理解 C++中的【左值＆左值引用】【右值＆右值引用】

【C++11特性篇】一文助小白轻松理解 C++中的【左值＆左值引用】【右值＆右值引用】

前言大家好吖，欢迎来到 YY 滴C系列 ，热烈欢迎！ 本章主要内容面向接触过C的老铁主要内容含： 欢迎订阅 YY滴C专栏！更多干货持续更新！以下是传送门！ 目录一.【左值＆左值引用】&…

阅读更多...

【漏洞复现】CVE-2023-36076：smanga漫画阅读系统远程命令执行漏洞复现附POC 附SQL注入和任意文件读取

【漏洞复现】CVE-2023-36076：smanga漫画阅读系统远程命令执行漏洞复现附POC 附SQL注入和任意文件读取

漏洞描述无需配置，docker直装的漫画流媒体阅读工具。以emby plex为灵感，为解决漫画阅读需求而开发的漫画阅读器。在windows环境部署smanga安装环境面板，首先安装小皮面板，下载smanga项目，导入数据库，登录smanga，windows部署smanga。 /php/manga/delete.php接口处存在未…

阅读更多...

arthas获取spring bean

arthas获取spring bean

参考文章 arthas获取spring bean 写一个工具Util package com.example.lredisson.util;import org.springframework.beans.BeansException; import org.springframework.context.ApplicationContext; import org.springframework.context.ApplicationContextAware; import o…

阅读更多...

工具在手，创作无忧：一键下载安装Auto CAD工具，让艺术创作更加轻松愉悦！

工具在手，创作无忧：一键下载安装Auto CAD工具，让艺术创作更加轻松愉悦！

不要再浪费时间在网上寻找Auto CAD的安装包了！因为你所需的一切都可以在这里找到！作为全球领先的设计和绘图软件，Auto CAD为艺术家、设计师和工程师们提供了无限的创作潜力。不论是建筑设计、工业设计还是室内装饰，Auto CAD都能助…

阅读更多...

ES-组合与聚合

ES-组合与聚合

ES组合查询 1 must 满足两个match才会被命中 GET /mergeindex/_search {"query": {"bool": {"must": [{"match": {"name": "liyong"}},{"match_phrase": {"desc": "liyong"}}]}}…

阅读更多...

Next.js 学习笔记（一）——安装

Next.js 学习笔记（一）——安装

安装系统要求： Node.js 18.17 或更高版本支持 macOS、Windows（包括 WSL）和 Linux 自动安装我们建议使用 create-next-app 启动一个新的 Next.js 应用程序，该应用程序会自动为你设置所有内容。要创建项目，请运行&…

阅读更多...

HPV治疗期间如何预防重复感染？谭巍主任讲述具体方法

HPV治疗期间如何预防重复感染？谭巍主任讲述具体方法

众所周知，人乳头瘤病毒(HPV)是一种常见的性传播疾病，感染后可能会引起生殖器疣、宫颈癌等疾病。在治疗期间，预防重复感染非常重要。今日将介绍一些预防HPV重复感染的方法。 1. 杜绝不洁性行为在治疗期间，患者应该避免与感染HPV…

阅读更多...

SQL、Jdbc、JdbcTemplate、Mybatics

SQL、Jdbc、JdbcTemplate、Mybatics

数据库：查询（show、select）、创建（create)、使用(use)、删除(drop)数据库表：创建（【字段】约束、数据类型）、查询、修改（alter *add）、删除 DML：增加(inse…

阅读更多...

R语言｜分面中嵌入趋势线

R语言｜分面中嵌入趋势线

简介关于分面的推文，小编根据实际科研需求，已经分享了很多技巧。例如： 分面中添加不同表格分面中添加不同的直线基于分面的面积图绘制分面中的细节调整汇总基于分面的折线图绘制最近科研中又遇到了与分面相关的需求：…

阅读更多...

Java 第12章异常本章作业

Java 第12章异常本章作业

1 编程两数相除的异常处理各自属于哪些异常： 数据格式不正确 NumberformatException 缺少命令行参数 ArrayIndexOutOfBoundsException 除0异常处理 ArithmeticException ArrayIndexOutOfBoundsException 为数组下标越界时会抛出的异常，可以在检测到命…

阅读更多...

day20_22mysql数据库(简单了解)

day20_22mysql数据库(简单了解)

为什么使用数据库数据出存储在哪里？ 硬盘，光盘，U盘，网盘，内存（临时数据） 为什么数据库数据储存在哪里？ 硬盘、网盘、U盘、光盘、内存（临时存储） 数据…

阅读更多...

[密码学]AES

[密码学]AES

advanced encryption standard，又名rijndael密码，为两位比利时数学家的名字组合。分组为128bit，密钥为128/192/256bit可选，对应加密轮数10/12/14轮。基本操作为四种： 字节代换（subBytes transformatio…

阅读更多...

Python MySQL数据库连接与基本使用

Python MySQL数据库连接与基本使用

一、应用场景 python项目连接MySQL数据库时，需要第三方库的支持。这篇文章使用的是PyMySQL库，适用于python3.x。二、安装 pip install PyMySQL三、使用方法导入模块 import pymysql连接数据库 db pymysql.connect(hostlocalhost,usercode_space…

阅读更多...

深入了解Linux网络配置：常见面试问题及解答

深入了解Linux网络配置：常见面试问题及解答

学习目标： 解释Linux网络配置的重要性和作用引入常见的面试问题学习内容： 如何查看当前系统的IP地址和网关信息？ 解答：可以使用ifconfig命令来查看当前系统的IP地址和网关信息。通过运行ifconfig命令，将会列出所有可…

阅读更多...

【C++】STL 容器 - string 字符串操作 ⑤ ( string 字符串查找 | find 函数查找字符串 | rfind 函数查找字符串 )

【C++】STL 容器 - string 字符串操作 ⑤ ( string 字符串查找 | find 函数查找字符串 | rfind 函数查找字符串 )

文章目录一、string 字符查找 - find 函数查找字符串1、string 类 find 函数原型说明2、代码示例 - 字符串查找3、代码示例 - 统计字符串子串二、string 字符查找 - rfind 函数查找字符串1、string 类 rfind 函数原型说明2、代码示例 - rfind 字符串查找一、string 字符查找…

阅读更多...

如何查看PHP信息

如何查看PHP信息

创建一个 PHP 文件，比如 info.php，在其中添加以下代码： <?php phpinfo(); ?>访问这个文件（例如，在浏览器中输入 http://localhost/info.php），它会显示 PHP 的所有配置信息。在这个页面…

阅读更多...

论文降重同义词替换的实践经验与改进建议快码论文

论文降重同义词替换的实践经验与改进建议快码论文

大家好，今天来聊聊论文降重同义词替换的实践经验与改进建议，希望能给大家提供一点参考。以下是针对论文重复率高的情况，提供一些修改建议和技巧，可以借助此类工具： 标题：论文降重同义词替换的实践经验与改…

阅读更多...

Linux 下的PROC虚拟文件夹的介绍

Linux 下的PROC虚拟文件夹的介绍

#江南的江 #每日鸡汤：其一半亩方塘一鉴开,天光云影共徘徊。问渠哪得清如许?为有源头活水来 #初心和目标：在网络安全中崭露头角 PROC 一.proc的文件里的文件是对于计算机的基本信息的介绍。其中数字文件是代表着进程，其余的例如cpuinfo…

阅读更多...

[NOI2015] 程序自动分析（并查集）

[NOI2015] 程序自动分析（并查集）

题解最后的结果与约束条件的顺序无关，可以先考虑相等条件，再考虑不等条件。由于题目中i和j的数据范围较大，需要用到离散化。代码 #include <cstdio> #include <cstring> #include <iostream> #include <algorithm>…

阅读更多...

推荐文章

最新文章