机器学习实验七:决策树-基于信贷数据集,使用sklearn中相关库实现决策树的构造

news2025/1/15 23:00:29

决策树-基于信贷数据集,使用sklearn中相关库实现决策树的构造

如下图数据集,住房 (1表示拥有住房,0表示没有住房) ;婚姻 (0表示单身1表示已婚,2表示离异) ;年收入一栏中单位为1000元; (拖欠贷款一栏0表示不拖欠,1表示拖欠)

  1. 讨论sklearn中tree.DecisionTreeClassifier()重要的参数有哪些,怎么调整;
  2. 使用tree.DecisionTreeClassifier()、 graphviz函数,选择合适的算法,构造并绘制决策树

在基于信贷数据集的决策树实验中,可知决策树模型的性能和泛化能力受到许多因素的影响,包括决策树的深度、节点划分的准则、样本数量等。并且,注意tree.DecisionTreeClassifier()的重要参数,以及使用graphviz函数将构造出的决策树导出为DOT格式描述,并使用该库将其可视化展示。 

(a)sklearn中tree.DecisionTreeClassifier()重要的参数有:

  • criterion(划分质量指标):表示衡量划分质量的指标,常用的有基尼系数(gini)和信息熵(entropy)两种,默认为基尼系数。默认值为"gini",也可以选择"entropy"。可以通过设置不同的准则来调整模型的复杂度和性能。
  • Splitter选择节点分裂的策略:用于选择节点分裂的策略。默认值为"best",表示选择最优的分裂点。也可以选择"random",表示随机选择分裂点。通过选择不同的策略,可以调整模型的随机性和性能。
  • min_samples_leaf(叶子节点所需最小样本数:表示叶子节点最少需要的样本数,默认为1,表示叶节点至少包含1个样本。如果某个叶子节点的样本量太小,则会和其他叶子节点合并。可以通过设置最小样本数来控制模型的复杂度和防止过拟合。
  • min_samples_split(内部节点划分所需最小样本数):表示划分一个内部节点需要的最小样本数,默认为2,表示至少需要2个样本才能进行分裂,如果样本量太小则不适合使用决策树。可以通过增加或减少最小样本数来控制模型的复杂度和防止过拟合。
  • max_features(划分时考虑的最大特征数):表示在划分数据集时考虑的最大特征数,默认为 None,即考虑所有特征。可以选择"auto",表示考虑所有特征的平方根;"sqrt",表示考虑所有特征的平方根;"log2",表示考虑所有特征的对数;或者一个整数值,表示考虑固定数量的特征。可以通过调整特征数量来控制模型的复杂度和性能。
  • max_depth(最大深度):表示决策树的最大深度,用于防止过拟合,默认为 None,即不限制最大深度。可以通过设置最大深度来控制模型的复杂度和防止过拟合。

 

运行结果:

打开信贷.pdf出现

如若没有查看是否在终端pip安装了 pydotplus和graphviz

运行代码:

from sklearn import tree
import numpy as np
from io import StringIO
import pydotplus

X = np.array([[1, 0, 125],[0, 1, 100],[0, 0, 70],[1, 1, 120],
              [0, 2, 95],[0, 1, 60],[1, 2, 220],[0, 0, 85],
              [0, 1, 75],[0, 0, 90]])
y = np.array([[0], [0], [0], [0], [1],
              [0], [0], [1], [0], [1]])
tree_model = tree.DecisionTreeClassifier(criterion='gini',
                                         max_depth=None,
                                         min_samples_leaf=1,
                                         ccp_alpha=0.0)
tree_model.fit(X, y)
dot_data = StringIO()
feature_names = ['House', 'Marriage', 'Annual salary']
target_names = ['No default', 'Default']
tree.export_graphviz(tree_model,
                     out_file=dot_data,
                     feature_names=feature_names,
                     class_names=target_names,
                     filled=True,
                     rounded=True,
                     special_characters=True)
graph = pydotplus.graph_from_dot_data(dot_data.getvalue())

graph.write_pdf("信贷.pdf")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1140849.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

将CSDN或Confluence文章转为微信公众号格式

最近在更公众号文章,苦于排版和格式,就找了一个比较方便的方法,简单易用,排版也不错。 文章提取 有的文章是已经发布在其它平台了,比如CSDN或Confluence,可以使用飞书剪存方便的将文章提取出来&#xff0…

JavaScript在IE和标准浏览器下的兼容性处理

目录 ​编辑 前言 1. 事件对象的获取 2. 获取浏览器窗口的宽度和高度 3. 获取事件的目标元素 4. 阻止事件的默认行为 5. 阻止事件冒泡 6. 设置和获取元素的属性 7. 类名的操作 8. AJAX的兼容性处理 9. DOM元素的操作 10. 样式的获取和设置 总结 前言 在Web开发中…

VSCode安装使用(含插件保姆级教程)

前言 工欲善其事,必先利其器 对于我们每一位软件工程师来说,都要有自己顺手的 IDE 开发工具,它就是我们的武器。 一个好用的 IDE 不仅能提升我们的开发效率,还能让我们保持愉悦的心情,这样才是非常 Nice 的状态 &…

喜讯 | 同立海源CGT核心原料CD28单抗完成FDA DMF备案

喜 讯 GOOD NEWS 近日,北京同立海源生物科技有限公司(简称“同立海源”)的CGT核心原料CD28单抗成功获得美国FDA DMF备案,DMF备案号:038820。 您的细胞治疗研究项目在进行临床申请或新药注册的文件中可直接引用DMF备…

国家数据局国考招录12人;两万字全景讲解Agent;当基座LLM公司开始转2C;「霉霉说中文」视频的3种实现方案 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🉑 国家数据局正式揭牌,今年计划在国考中招录12人 10月25日上午,国家数据局正式揭牌,由国家发展和改革…

三季度毛利“转正”的零跑,四季度已经打响“第一枪”?

近日,零跑汽车发布了2023年第三季度财报。整体来看,零跑三季度营收和交付均取得较大突破,尤其在交付方面,零跑的C系列车型更是取得了超十倍的涨幅。与此同时,零跑C系列的新车型也爆出了动态。零跑即将推出新车型C10&am…

36二叉树-翻转二叉树

目录 LeetCode之路——226. 翻转二叉树 分析 解法一:深度优先搜索 解法二:广度优先搜索 简单总结 LeetCode之路——226. 翻转二叉树 给你一棵二叉树的根节点 root ,翻转这棵二叉树,并返回其根节点。 示例 1: 输…

字符串中sizeof和strlen的区别

sizeof算的整个数组的大小和数据类型所占空间大小&#xff0c;strlen算的是有效字符的大小 sizeof() #include <stdio.h>int main() {char cdata[128];printf("cdata%d\n",sizeof(cdata));//计算数组大小printf("int%d\n",sizeof(int));//计算数据…

一种报警短视频录像快速检索方法

视频监控系统在家庭、园区、酒店、工地、景区、交通等领域有着重要作用&#xff0c;随着智能算法的发展尤其是深度学习在安防监控场景下的应用&#xff0c;智能分析算法已经非常准确&#xff0c;终端设备触发的报警和智能分析服务触发的报警更加的实时&#xff0c;业务场景更加…

分享8个分布式Kafka的使用场景

Kafka 最初是为海量日志处理而构建的。它保留消息直到过期&#xff0c;并让消费者按照自己的节奏提取消息。与它的前辈不同&#xff0c;Kafka 不仅仅是一个消息队列&#xff0c;它还是一个适用于各种情况的开源事件流平台。 1. 日志处理与分析 下图显示了典型的 ELK&#xff0…

运放芯片测试方法有哪些,能进行自动化测试吗?

非在线测量法&#xff1a;在集成电路未焊入电路时&#xff0c;通过测量其各引脚之间的直流电阻值与已知正常同型号集成电路各引脚之间的直流电阻值进行对比&#xff0c;以确定其是否正常。 在线测量法&#xff1a;利用电压测量法、电阻测量法及电流测量法等&#xff0c;通过在…

ab压力测试

标题相关概念 QPS&#xff0c;每秒查询 QPS&#xff1a;Queries Per Second意思是“每秒查询率”&#xff0c;是一台服务器每秒能够相应的查询次数&#xff0c;是对一个特定的查询服务器在规定时间内所处理流量多少的衡量标准。 互联网中&#xff0c;作为域名系统服务器的机…

MySQL:字符串中的数字、英文字符、汉字提取 Num_char_extract函数

用法 Num_char_extract(字段名,取值类型)&#xff0c;取值类型说明&#xff1a;0只取数字&#xff0c;1只取字母&#xff0c;2数字字母&#xff0c;3只取汉字 实验 以下是表里有特殊字符的这个字符串 使用Num_char_extract函数 现在我需要取出来这个字段的字母部分 可以看…

【Note详细图解】中缀表达式如何转为后缀表达式?数据结构

中缀表达式 中缀表达式&#xff08;中缀记法&#xff09;是一个通用的算术或逻辑公式表示方法&#xff0c;操作符是以中缀形式处于操作数的中间&#xff08;例&#xff1a;3 4&#xff09;&#xff0c;中缀表达式是人们常用的算术表示方法。 前缀或后缀记法不同的是&#xf…

MySQL Insert 后獲得主鍵

插入數據庫后&#xff0c;獲得主鍵。

作用域的概念及作用?作用域的分类?.js 属于哪种作用域?

目录 前言 作用域的概念及作用 作用域的分类 1. 全局作用域 2. 局部作用域 JavaScript的作用域 作用域链 闭包 总结 前言 作用域是编程语言中的一个基本概念&#xff0c;它定义了变量和函数的可访问性。了解作用域对于编写可靠和高效的代码至关重要。在JavaScript中&a…

RuoYi-Vue-SqlServer配置

项目链接 https://gitee.com/linkxs/RuoYi-Vue-SqlServerhttps://gitee.com/linkxs/RuoYi-Vue-SqlServer 服务端Eclipse编译 需要在 /ruoyi-common/pom.xml 中注释掉这些exclusion才能在Eclipse编译。实际maven编译&#xff0c;可以把这一块打开。 客户端ruoyi-ui编译 使用…

老师都在用的成绩发布系统

成绩查询系统&#xff0c;不是什么高科技&#xff0c;就是通过一些代码和Excel表格的配合&#xff0c;实现学生自主查询成绩的功能。对&#xff0c;你没听错&#xff0c;就是自主查询&#xff0c;不再需要学生一个个问老师成绩了。 先说说系统的原理吧。当老师需要发布成绩时&a…

C语言实现字符串比较

完整代码&#xff1a; /*编一个程序&#xff0c;将两个字符串 s1 和 s2 比较&#xff0c;若 s1>s2&#xff0c;输出一个正数&#xff1b;若 s1s2&#xff0c; 输出 0&#xff1b;若 s1<s2&#xff0c;输出一个负数。不要用 strcpy 函数。两个字符串用 gets 函数 读入。输…

竞赛 深度学习实现行人重识别 - python opencv yolo Reid

文章目录 0 前言1 课题背景2 效果展示3 行人检测4 行人重识别5 其他工具6 最后 0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; **基于深度学习的行人重识别算法研究与实现 ** 该项目较为新颖&#xff0c;适合作为竞赛课题方向&#xff0c…