机器学习实战记录(1)

news2024/11/24 23:56:40

决策树——划分数据集

def splitDataSet(dataSet, axis, value):		
	retDataSet = []										#创建返回的数据集列表
	for featVec in dataSet: 							#遍历数据集
		if featVec[axis] == value:
			reducedFeatVec = featVec[:axis]				#去掉axis特征
			reducedFeatVec.extend(featVec[axis+1:]) 	#将符合条件的添加到返回的数据集
			retDataSet.append(reducedFeatVec)
	return retDataSet		  							#返回划分后的数据集

这个代码就是按axis划分,然后每次把它去掉。

1.

def splitDataSet(dataSet, axis, value):
  • dataSet:这是输入的数据集,通常是一个二维列表,其中每个子列表代表一个样本,最后一项通常是标签(分类)。
  • axis:这个参数是整数,表示当前划分的特征的索引位置。假设我们的数据集有多个特征(列),axis 就指定了你想要按哪一个特征来划分数据集。
  • value:这个参数是我们在数据集中按 axis 这个特征划分时,要求该特征的取值为 value。即:我们希望选择所有在此特征上值为 value 的样本。

返回的 retDataSet

retDataSet 是一个空列表,用来保存符合条件的子集。函数会遍历 dataSet,每次找到符合条件的样本(即特征 axis 的值为 value),就将该样本的特征信息(去掉当前特征)加入到 retDataSet

2.

retDataSet = []  # 创建返回的数据集列表

  • 创建一个空的列表 retDataSet,用来保存符合条件的子集。
 

python

复制代码

for featVec in dataSet: # 遍历数据集中的每一个样本

  • 使用 for 循环遍历 dataSet 中的每一行数据(每个 featVec)。每个 featVec 是一个样本,它包含多个特征值,通常最后一个元素是标签(类别)

if featVec[axis] == value:

  • 对于每一个样本 featVec,判断该样本的特征 axis 对应的取值是否等于 value。如果该样本在 axis 特征上的取值与 value 相等,就满足条件,应该将该样本加入返回的子集 retDataSet 中。

reducedFeatVec = featVec[:axis] # 去掉当前特征(axis)

  • 通过 featVec[:axis] 获取当前样本的特征,去掉 axis 位置的特征。比如,如果数据集中有5个特征(第0列到第4列),且 axis = 2,那么 featVec[:axis] 就是将样本中第2列之前的特征提取出来(不包括第2列),即 [featVec[0], featVec[1]]

reducedFeatVec.extend(featVec[axis+1:]) # 将符合条件的特征值部分加入返回的数据集

  • featVec[axis+1:] 表示去掉了 axis 位置的特征后的部分,即从 axis+1 到最后的特征。将这部分特征信息添加到 reducedFeatVec 中。extend 方法会将一个列表的元素加入到另一个列表中,确保 reducedFeatVec 包含了除了当前特征 axis 外的所有特征。

return retDataSet # 返回划分后的数据集

  • 最后,函数返回划分后的子集 retDataSet,它包含了所有在特定特征 axis 上取值为 value 的样本(每个样本去掉了 axis 特征)。

假设有如下数据集(dataSet):

dataSet = [
    ['青年', '否', '否', '一般', '不放贷'],
    ['青年', '否', '是', '好', '放贷'],
    ['青年', '是', '否', '好', '放贷'],
    ['青年', '是', '是', '一般', '不放贷'],
    ['中年', '否', '否', '一般', '不放贷'],
    ['中年', '否', '是', '好', '放贷'],
    ['中年', '是', '否', '好', '放贷'],
    ['中年', '是', '是', '一般', '不放贷'],
    ['老年', '否', '否', '一般', '不放贷'],
    ['老年', '否', '是', '好', '放贷'],
    ['老年', '是', '否', '好', '放贷'],
    ['老年', '是', '是', '一般', '不放贷']
]

假设我们希望根据第二个特征“是否有工作”(axis=1)进行划分,我们调用 splitDataSet 函数,并指定取值

result = splitDataSet(dataSet, 1, '否')

在这个例子中,axis=1 表示我们正在根据第二个特征(“是否有工作”)进行划分,value='否' 表示我们选择特征值为“否”的样本。调用 splitDataSet 函数后,返回的 result 是:

[
    ['青年', '否', '否', '一般', '不放贷'],
    ['青年', '否', '是', '好', '放贷'],
    ['中年', '否', '否', '一般', '不放贷'],
    ['中年', '否', '是', '好', '放贷'],
    ['老年', '否', '否', '一般', '不放贷'],
    ['老年', '否', '是', '好', '放贷']
]

这些样本的第二个特征都是“否”。可以看到,函数成功地将数据集按第二个特征值为“否”进行划分,且去除了“是否有工作”这一特征,返回了包含其余特征的子集。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2246959.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【51单片机】LCD1602液晶显示屏

学习使用的开发板:STC89C52RC/LE52RC 编程软件:Keil5 烧录软件:stc-isp 开发板实图: 文章目录 LCD1602存储结构时序结构 编码 —— 显示字符、数字 LCD1602 LCD1602(Liquid Crystal Display)液晶显示屏是…

如何使用AWS Lambda构建一个云端工具(超详细)

首发地址(欢迎大家访问):如何使用AWS Lambda构建一个云端工具(超详细) 1 前言 1.1 无服务器架构 无服务器架构(Serverless Computing)是一种云计算服务模型,它允许开发者构建和运行…

【Isaac Sim】相关问题汇总

目录 一、安装点击Install时报错二、启动时报 Failed to create any GPU devices三、加载Isaac Sim自带模型或示例时报 Isaac Sim is not responding 一、安装点击Install时报错 报错: request to https://asset.launcher.omniverse.nvidia.com/… failed, reason:…

Spring-02-springmvc

2. 什么是SpringMVC 2.1. 概述 Spring MVC是Spring Framework的一部分,是基于Java实现MVC的轻量级Web框架。 为什么要学习SpringMVC呢? Spring MVC的特点: 轻量级,简单易学高效 , 基于请求响应的MVC框架与Spring兼容性好,无缝…

深度学习之目标检测的技巧汇总

1 Data Augmentation 介绍一篇发表在Big Data上的数据增强相关的文献综述。 Introduction 数据增强与过拟合 验证是否过拟合的方法:画出loss曲线,如果训练集loss持续减小但是验证集loss增大,就说明是过拟合了。 数据增强目的 通过数据增强…

qt添加模块

以QtNetwork模块为例 方式一 扩展-qt vs tools-qt project settings 方式二 右键选中项目-属性-qt project settings 方法三 在此界面选择select modules,即可进行相应模块添加

【信息系统项目管理师】第2章:信息技术发展 考点梳理

文章目录 2.1 信息技术及其发展2.1.1 计算机软硬件2.1.2 计算机网络2.1.3 存储和数据库2.1.4 信息安全2.1.5 信息技术的发展 2.2 新一代信息技术及应用2.2.1 物联网2.2.2 云计算2.2.3 大数据2.2.4 区块链2.2.5 人工智能2.2.6 虚拟现实 2.1 信息技术及其发展 2.1.1 计算机软硬件…

【线程】Java多线程编程

【线程】Java多线程编程 一、前言一个最简单的多线程编程示例可以使用的工具 二、创建线程的方式三、Thread类中重要的属性和方法3.1 构造方法3.2 常见属性 一、前言 当有多个线程的时候,这些线程的执行顺序是不确定的。这一点,是我们之前提到的操作系统…

unsloth vlm模型Qwen2-VL、Llama 3.2 Vision微调案例

T4卡15G显卡训练 参考: https://github.com/unslothai/unsloth 按自己显卡cuda版本安装 免费colab微调代码: Qwen2-VL: https://colab.research.google.com/drive/1whHb54GNZMrNxIsi2wm2EY_-Pvo2QyKh?usp=sharing from unsloth import FastVisionModel # NEW instead …

window11编译pycdc.exe

一、代码库和参考链接 在对python打包的exe文件进行反编译时,会使用到uncompyle6工具,但是这个工具只支持python3.8及以下,针对更高的版本的python则不能反编译。 关于反编译参考几个文章: Python3.9及以上Pyinstaller 反编译教…

oracle如何配置第二个监听优化数据传输

oracle如何配置第二个监听优化数据传输 服务器两个网卡,配置两个不同IP和端口的监听。 归档日志量每天很大,为了不影响业务,需要配置一个单独的万兆网络来专门的传输归档日志到DG库,这里就涉及到在19c中增加一个监听用来使用专门…

Kafka Stream实战教程

Kafka Stream实战教程 1. Kafka Streams 基础入门 1.1 什么是 Kafka Streams Kafka Streams 是 Kafka 生态中用于 处理实时流数据 的一款轻量级流处理库。它利用 Kafka 作为数据来源和数据输出,可以让开发者轻松地对实时数据进行处理,比如计数、聚合、…

用 Python 从零开始创建神经网络(九):反向传播(Backpropagation)

反向传播(Backpropagation) 引言1. 分类交叉熵损失导数(Categorical Cross-Entropy loss derivative)2. 分类交叉熵损失导数 - 代码实现3. Softmax激活函数导数(Softmax activation derivative)4. Softmax激…

TCP vs UDP:如何选择适合的网络传输协议?

在网络通信中,TCP(Transmission Control Protocol)和UDP(User Datagram Protocol)是两种非常重要的传输层协议。它们各有特点,适用于不同类型的应用场景。本文将详细探讨TCP和UDP协议的结构、优缺点及应用&…

06、Spring AOP

在我们接下来聊Spring AOP之前我们先了解一下设计模式中的代理模式。 一、代理模式 代理模式是23种设计模式中的一种,它属于结构型设计模式。 对于代理模式的理解: 程序中对象A与对象B无法直接交互,如:有人要找某个公司的老总得先打前台登记传达程序中某个功能需要在原基…

递归算法专题一>Pow(x, n)

题目&#xff1a; 解析&#xff1a; 代码&#xff1a; public double myPow(double x, int n) {return n < 0 ? 1.0 / pow(x,-n) : pow(x,n); }private double pow(double x, int n){if(n 0) return 1.0;double tmp pow(x,n / 2);return n % 2 0 ? tmp * tmp : tmp …

游戏引擎学习第20天

视频参考:https://www.bilibili.com/video/BV1VkBCYmExt 解释 off-by-one 错误 从演讲者的视角&#xff1a;对代码问题的剖析与修复过程 问题的起因 演讲者提到&#xff0c;他可能无意中在代码中造成了一个错误&#xff0c;这与“调试时间标记索引”有关。他发现了一个逻辑问题…

C语言:操作符详解1

一.操作符的分类 算术操作符&#xff1a;、-、* 、 /、% 移位操作符&#xff1a;<< >> 位操作符&#xff1a;& | ^ 赋值操作符&#xff1a; 、、-、*、/、%、<<、>>、&、|、^ 单目操作符&#xff1a;!、、--、&、*、、-、~、sizeo…

Harbor2.11.1生成自签证和配置HTTPS访问

文章目录 HTTPS的工作流程部署Harbor可参考上一篇文章生成自签证书1.修改/etc/hosts文件2.生成证书a.创建存放证书路径b.创建ca.key密钥c.创建ca.crtd.创建给Harbor服务器使用密钥 yunzhidong.harbor.com.keye.创建给Harbor服务器使用证书签名请求文件 yunzhidong.harbor.com.c…

c++--------《set 和 map》

c--------《set 和 map》 1 set系列的使⽤1.1 set类的介绍1.2 set的构造和迭代器1.3 set重要接口 2 实现样例2.1: insert和迭代器遍历使⽤样例&#xff1a;2.2: find和erase使⽤样例&#xff1a; 练习3.map系列的使用3.1 map类的介绍3.1.1 pair类型介绍 3.2 map的数据修改3.3mu…