编程实现基于信息熵/基尼指数划分选择的决策树算法

news2024/10/1 1:21:13

编程实现基于信息熵/基尼指数划分选择的决策树算法

手动建立一个csv文件

#csv的内容为
Idx,color,root,knocks,texture,navel,touch,density,sugar_ratio,label
1,dark_green,curl_up,little_heavily,distinct,sinking,hard_smooth,0.697,0.46,1
2,black,curl_up,heavily,distinct,sinking,hard_smooth,0.774,0.376,1
3,black,curl_up,little_heavily,distinct,sinking,hard_smooth,0.634,0.264,1
4,dark_green,curl_up,heavily,distinct,sinking,hard_smooth,0.608,0.318,1
5,light_white,curl_up,little_heavily,distinct,sinking,hard_smooth,0.556,0.215,1
6,dark_green,little_curl_up,little_heavily,distinct,little_sinking,soft_stick,0.403,0.237,1
7,black,little_curl_up,little_heavily,little_blur,little_sinking,soft_stick,0.481,0.149,1
8,black,little_curl_up,little_heavily,distinct,little_sinking,hard_smooth,0.437,0.211,1
9,black,little_curl_up,heavily,little_blur,little_sinking,hard_smooth,0.666,0.091,0
10,dark_green,stiff,clear,distinct,even,soft_stick,0.243,0.267,0
11,light_white,stiff,clear,blur,even,hard_smooth,0.245,0.057,0
12,light_white,curl_up,little_heavily,blur,even,soft_stick,0.343,0.099,0
13,dark_green,little_curl_up,little_heavily,little_blur,sinking,hard_smooth,0.639,0.161,0
14,light_white,little_curl_up,heavily,little_blur,sinking,hard_smooth,0.657,0.198,0
15,black,little_curl_up,little_heavily,distinct,little_sinking,soft_stick,0.36,0.37,0
16,light_white,curl_up,little_heavily,blur,even,hard_smooth,0.593,0.042,0
17,dark_green,curl_up,heavily,little_blur,little_sinking,hard_smooth,0.719,0.103,0

代码

import csv
from sklearn.feature_extraction import DictVectorizer
from sklearn import preprocessing
from sklearn import tree
from matplotlib import pyplot as plt
import graphviz
import os     
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

os.environ["PATH"] += os.pathsep + 'C:\Program Files\Graphviz\\bin'
def is_number(n):
    is_number = True
    try:
        num = float(n)
        is_number = num == num
    except ValueError:
        # 不是float类型则返回false
        is_number = False
    return is_number

def loadData(filename):
    data = open(filename,'r',encoding='utf-8')
    reader = csv.reader(data)
    headers = next(reader) # 通过调用next方法来一行一行的读取数据
 
    featureList =[] # 添加属性数据
    labelList = [] # 添加结果
    
    for row in reader:# 每行每行的来
        labelList.append(row[len(row)-1])
        rowDict = {}
        for i in range(1,len(row)-1):
            # 跳过序号和结果
            # 对于每个属性数据,
            if is_number(row[i]) == True:
                rowDict[headers[i]] = float(row[i])
            else:
                rowDict[headers[i]] = row[i]
        featureList.append(rowDict)
        
    return featureList,labelList

def createDTree_information(featureList,labelList):
    # 对离散值进行编码处理
    vec = DictVectorizer()
    dummyX = vec.fit_transform(featureList).toarray()
 
    lb = preprocessing.LabelBinarizer()
    dummyY = lb.fit_transform(labelList)
 
    
    clf = tree.DecisionTreeClassifier(criterion='entropy')
    clf = clf.fit(dummyX,dummyY)

    target_name=['0','1']
 
    dot_data = tree.export_graphviz(clf,
                                feature_names=vec.get_feature_names_out(),
                                class_names=target_name,
                                out_file=None,
                                filled=True,
                                rounded=True)
    graph = graphviz.Source(dot_data)
    return graph

def createDTree_GiNi(featureList,labelList):
    # 对离散值进行编码处理
    vec = DictVectorizer()
    dummyX = vec.fit_transform(featureList).toarray()
 
    lb = preprocessing.LabelBinarizer()
    dummyY = lb.fit_transform(labelList)
 
    
    clf = tree.DecisionTreeClassifier(criterion='entropy')
    clf = clf.fit(dummyX,dummyY)
    target_name=['0','1']
 
    dot_data = tree.export_graphviz(clf,
                                feature_names=vec.get_feature_names_out(),
                                class_names=target_name,
                                out_file=None,
                                filled=True,
                                rounded=True)
    graph = graphviz.Source(dot_data)
    return graph
featureList,labelList = loadData('watermelo.csv')
graph = createDTree_information(featureList,labelList)
graph_gini = createDTree_GiNi(featureList,labelList)
print('以基尼指数作为划分准则的决策树')
graph_gini 
print('以信息熵作为划分准则的决策树')
graph

注意,前面导包的时候path的值是Graphviz的bin文件夹路径,这个Graphviz要手动去官网离线下载,然后记住它的安装位置
输出:以基尼指数作为划分准则的决策树
基尼指数划分
以信息熵作为划分准则的决策树
信息熵

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2066029.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux驱动学习之点灯(五,设备树没用平台设备总线)

创建一个设备树节点 /{led:led{compatible"led";led_pin<&gpio0 22 GPIO_ACTIVE_HIGH &gpio0 21 GPIO_ACTIVE_HIGH>;status"okay";} } OF函数介绍 查找属性 of_gpio_named_count of_gpio_named_count 函数用于获取设备树某个属性里面定…

Calendar 控件 自定义重汇效果

自定义样式代码&#xff1a; <UserControl.Resources><c:MarginWithScheduleConverter x:Key"MarginWithScheduleConverter"/><Style TargetType"GroupBox" BasedOn"{StaticResource GroupBoxStyle}"/><Style x:Key"C…

Linux系统管理体系-服务管理

1、管理命令 systemctl 管理服务 开机自启动管理正在运行的服务 1&#xff09;检查sshd远程连接服务状态 systemctl status sshd systemctl status 单个或者多个服务名2&#xff09;如何设置服务开启 #运行服务 systemctl start sshd #开机自启动 systemctl enable sshd #…

【opencv】SIFT(尺度不变特征变换)算法?

关键词&#xff1a;SIFT Algorithm 文章目录 一、介绍二、什么是 SIFT 算法&#xff1f;三、人类与机器识别3.1 SIFT 在计算机视觉中的应用3.2 SIFT 关键点的优势3.3 示例演示 四、关键点定位关键点选择 五、入学指导任务5.1 计算大小和方向5.2 创建震级和方向的直方图5.3 关键…

【LLM大模型论文日更】| QAEA-DR:一个用于密集检索的统一文本增强框架

论文&#xff1a;https://arxiv.org/pdf/2407.20207代码&#xff1a;未开源机构&#xff1a;鹏城实验室领域&#xff1a;稠密检索发表&#xff1a;arXiv 研究背景 研究问题&#xff1a;这篇文章要解决的问题是密集检索&#xff08;Dense Retrieval&#xff09;中&#xff0c;将…

Windows:Node.js下载与安装教程

1、进入nodejs官网&#xff1a;https://nodejs.org/en 2、配置系统参数 3、运行cmd&#xff0c;输入 node -v 出现安装版本即安装成功

Keil C51 插件 检测所有if语句

此插件解决的问题 Keil 插件 -- Python 代码 import chardet, sys, glob, re from pathlib import Pathfrom collections import deque# 变量名字典 key--数据名 value--数据s类型 variable_dic {}# 初始化一个空的二维数组 matrix [] # 列表的头数据 header_list [] # 列表…

Tina5 Linux开发

准备开发环境 首先准备一台 Ubuntu 20.04 / Ubuntu 18.04 / Ubuntu 16.04 / Ubuntu 14.04 的虚拟机或实体机&#xff0c;其他系统没有测试过出 BUG 不管。 更新系统&#xff0c;安装基础软件包 sudo apt-get update sudo apt-get upgrade -y sudo apt-get install build-ess…

保护网站安全,了解常见的几种网络攻击

随着互联网技术的迅猛发展&#xff0c;网站作为信息展示和交互的重要平台&#xff0c;面临着日益复杂的网络攻击威胁。从简单的口令入侵到复杂的分布式拒绝服务&#xff08;DDoS&#xff09;攻击&#xff0c;网络攻击手段层出不穷&#xff0c;给网站所有者带来了巨大的挑战。今…

sqlilabs less21-25关手工注入

第21关 一.登录页面 二 .Burp Suite 抓包&#xff0c;进入重放器 三.查询数据库 先进行编码 )and updatexml(1,concat(1,database()),1)# 四.查表&#xff0c;先进行编码 )and updatexml(1,concat(1,(select group_concat(table_name) from information_schema.tables where…

王老师 linux c++ 通信架构 笔记(五)编译后生成的 nginx 可执行程序的启动与 nginx 选项

&#xff08;22&#xff09; 启动 nginx &#xff1a; 上网测试一下&#xff1a; 端口号 介绍&#xff1a; &#xff08;23&#xff09; 因为 nginx 监听知名端口号 80 &#xff0c;http 服务。也可以知名端口号&#xff0c;格式如下&#xff1a; 生产环境下可以设置 ngi…

扬中网站建设创建网站

扬中网站建设&#xff1a;打造企业更强大的数字名片 随着互联网的发展&#xff0c;网站已经成为企业不可或缺的一部分。对于扬中市的企业而言&#xff0c;建设一个专业的网站不仅能提升品牌形象&#xff0c;更能拓展市场&#xff0c;提高竞争力。本文将为您介绍扬中网站建设的重…

【jetson交叉编译(1)】nvidia jetson 系列开发板交叉编译方法,CUDA依赖程序

资源 Toolchain Information jetson-linux jetpack 文章目录 资源1 方案1 qemu-aarch64-static和docker 容器编译jetson2 方案2 模拟器交叉编译器2.1 应对库缺失的情况&#xff0c;进行环境准备2.1.1 模拟器(方案1)2.1.2 在jetson上面进行安装&#xff08;方案2&#xff09; 2…

yolov8行人车辆检测与计数系统

yolov8行人车辆检测与计数系统&#xff08;PythonYOLOv8deepsort车辆追踪深度学习模型清新界面&#xff09; &#xff08;1&#xff09;YOL v8算法实现&#xff0c;模型一键切换更新&#xff1b; &#xff08;2&#xff09;检测图片、视频等图像中的各目标数目&#xff1b; &am…

2024数学建模国赛水奖攻略(也可适用其他比赛)

很多同学私信我&#xff0c;问学校要求参加数模比赛&#xff0c;但对建模和编程不太擅长&#xff0c;又不想浪费时间&#xff0c;该怎么办。今天我想和大家分享一些关于数学建模比赛的经验&#xff0c;特别是如何水奖的攻略。 一、选题技巧 有句话说得好&#xff0c;选择比努力…

彻底解决win7系统文件夹选项高级设置是空白

需求背景 win7系统的文件夹选项-高级设置里面是空白的,效果图如下。 解决方法 1、新建txt文本文档 2、文档内容 复制下面的内容到txt文件中,然后保存。 Windows Registry Editor Version 5.00[HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\Explorer\Ad…

第七届强网杯-PWN-【WTOA】

文章目录 参考WebAssemblyWasmtime调试逆向源码exp 参考 WebAssembly实践指南——C和Rust通过wasmtime实现相互调用实例 WebAssembly WebAssembly是一种可移植的二进制指令集格式&#xff0c;其本身与平台无关&#xff0c;类似于Java的class文件字节码。 WebAssembly本来的…

Springsecurity中的Eureka报错:Cannot execute request on any known server

完整报错信息&#xff1a; com.netflix.discovery.shared.transport.TransportException: Cannot execute request on any known server 报错体现&#xff1a; 访问eureka控制面板&#xff1a; 访问测试地址&#xff1a; 控制台报错&#xff1a; 可能的报错原因&#xff…

Python之列表解析和用matplotlib模块绘制图形

列表解析用matplotlib模块绘制成图形导入模块numpy阵列将列表转为阵列arrange函数创建阵列广播 使用matplotilib将阵列绘制成图 列表解析 列表解析式用紧凑的方式来构造列表。 语法&#xff1a; [表达式 for循环 条件] 例如&#xff1a;要得到0-20的偶数列表。需要在0-20中循环…

CyberScraper-2077+simple-one-api:使用大模型爬虫

大模型相关目录 大模型&#xff0c;包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容 从0起步&#xff0c;扬帆起航。 swift与Internvl下的多模态大模型分布式微调指南&#xff08;附代码和数据&#xff…