【机器学习】P24 随机森林算法(1) 实现 “鸢尾花” 预测

news2024/9/22 19:27:39

随机森林算法 Random Forest Algorithm

  • 随机森林算法
  • 随机森林算法实现分类鸢尾花

随机森林算法

随机森林(Random Forest)算法 是一种 集成学习(Ensemble Learning)方法,它由多个决策树组成,是一种分类、回归和特征选择的机器学习算法。

在随机森林中,每个决策树都是独立地训练的,每棵树的建立都是基于随机选取的 特征子集 和随机选取的 训练样本集

  • 在分类问题中,随机森林采用投票的方式来决定最终分类结果;
  • 在回归问题中,随机森林采用平均值的方式来预测结果。

下述内容将围绕随机森林算法实现一个著名的分类问题:鸢尾花预测;而实现回归问题,即波士顿房价通过随机森林算法预测将在【机器学习】P25 随机森林算法(2) 实现 “波士顿房价” 预测 中呈现;


随机森林算法实现分类鸢尾花

鸢尾花数据与特征:
鸢尾花,又称花卉之王,是一种常见的花卉植物,由于其具有多种颜色和品种,因此备受欣赏。在机器学习中,鸢尾花品种主要分为三类,其区分主要通过

  • 萼片长度(sepal length)
  • 萼片宽度(sepal width)
  • 花瓣长度(petal length)
  • 花瓣宽度(petal width)

四大属性来进行区分,如下图所示,我们截取 sklearn 中鸢尾花训练集前十个数据,通过 pandas 进行查看。

import pandas as pd

samples = X_train[:10]
targets = y_train[:10]
df = pd.DataFrame(samples, columns=iris.feature_names[:4])
df["Target"] = targets
df.insert(0, "Index", df.index+1)

print(df.to_string(index=False))

在这里插入图片描述

随机森林分类鸢尾花的操作步骤:

  • 首先导入了需要的库和数据集;
  • 然后将数据集拆分为训练集和测试集;
  • 接下来,创建一个包含10个决策树的随机森林分类器 n_estimators=10,并使用训练集拟合模型;
  • 然后使用测试集预测结果,并计算模型的准确率。
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# 加载 iris 数据集
iris = load_iris()
X, y = iris.data, iris.target

# 将数据集拆分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# 创建随机森林分类器
rf = RandomForestClassifier(n_estimators=10)

# 使用训练集拟合模型
rf.fit(X_train, y_train)

# 获取每个决策树的预测结果
tree_predictions = []
for tree in rfc.estimators_:
    tree_predictions.append(tree.predict(X_test))

# 预测测试集
y_pred = rf.predict(X_test)

# 打印每个决策树的前十个测试案例的预测结果
for i, tree_prediction in enumerate(tree_predictions):
    print(f"Tree {i} predictions:", tree_prediction[:10])

# 打印随机森林的前十个测试案例的预测结果
print("Random forest predictions:", y_pred[:10])

# 计算模型精度
accuracy = rf.score(X_test, y_test)
# accuracy = sum(y_pred == y_test) / len(y_test)
print("Accuracy:", accuracy)

通过将随机森林的10个决策树打印各自对前十个测试案例的预测结果,还是发现存在不同的分类结果,但是最终都是按照投票的方式,得到最终的预测结果,并且达到准确率 100%

在这里插入图片描述

最后还可通过输入四个属性来获取预测的结果:

# 输入待预测的四个属性
input_data = [[5.1, 3.5, 1.4, 0.2],
              [7.0, 3.2, 4.7, 1.4],
              [6.3, 2.9, 5.6, 1.8],
              [4.8, 3.4, 1.9, 0.2]]

# 预测输入数据的分类
output_data = rf.predict(input_data)

# 输出预测结果
print(output_data)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/453072.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OS实战笔记(8)-- 设置基本OS基本工作环境

本笔记会搭建OS实战所需的虚拟机环境,主要是创建好虚拟机,设置虚拟机启动硬盘,在启动盘上安装Grub。 由于本专题是个人在业余时间除了Unity学习之外做的,没有时间和精力去解答具体的问题。本笔记中的实验个人在做的过程中除了遇到…

17.集合

集合 集合类是Java数据结构的实现。Java的集合类是java.util包中的重要内容,它允许以各种方式将元素分组,并定义了各种使这些元素更容易操作的方法。Java集合类是Java将一些基本的和使用频率极高的基础类进行封装和增强后再以一个类的形式提供。集合类是…

整理现有的wiki私服项目

文章目录 核心功能现有项目wikijsBookStackmediawikiTiddlyWikigollumdokuwikixwiki 总结参考 核心功能 查找编辑 在线/离线内链【核心】代码高亮图表、表达式生成多媒体(图片、音频、视频)管理 协作(用户管理模式/github模式) 修…

JVM 关键点详解

一,JVM 的主要组成部分及其作用 JVM包含两个子系统和两个组件,两个子系统为Class loader(类装载)、Execution engine(执行引擎); 两个组件为Runtime data area(运行时数据区)、Native Interface(本地接口)。 Class loader(类装载): 根据给定的全限定名类…

【Linux网络】部署YUM仓库及NFS服务

部署YUM仓库及NSF服务 一、YUM仓库1.1、YUM仓库概述1.2准备安装来源1.3在软件仓库加载非官方RPM包组1.4yum与apt 二、配置yam源与制作索引表2.1配置FTP源2.2配置国内在线yum源2.3在线源与本地源同时使用2.4建立软件包索引关系表的三种方法 三、nfs共享存储服务3.1安装软件&…

LVS负载均衡群集——NAT模式实操

1.1 群集的的定义及意义 群集的定义 Cluster,集群(也称群集)由多台主机构成,但对外只表现为一一个整体,只提供一-个访问入口(域名或IP地址), 相当于一台大型计算机。 群集的作用 对于企业服务的的性能提升…

数学知识四

容斥原理 S表示面积,下面公式可求出不相交的面积 2个圆的公式是这样 4个圆的面积是 总面积-所有俩俩相交的面积所有三三相交的面积-四四相交的面积,公式里加和减互相出现。 从n个集合里面挑一个一直到从n个集合里面挑n个 1-10中,能被2&#x…

【KingSCADA】如何创建新应用

大家好,我是雷工! 今天学习使用KingSCADA3.8创建一个新的应用,以下为学习过程和操作笔记。 一、前言 KingSCADA3.8集成开发环境是基于工程的应用管理模式,实现了对多个应用的集中开发和管理的功能,一个工程可以同时管理多个应用…

【WinForm】Android手机群控工具-桌面程序开发实现

如何将手下多个Android手机统一管理起来呢,这里是用通过终端输入adb命令来实现控制多个手机的,具体怎么做,接下来给讲一讲。 使用adb工具包 首先,需要准备一套工具,以下是adb工具套件,是在Android SDK开发…

lanuage-driven semantic segmentation

CLIP 改进工作串讲(上)【论文精读42】_哔哩哔哩_bilibili更多论文:https://github.com/mli/paper-reading, 视频播放量 64310、弹幕量 274、点赞数 1939、投硬币枚数 1332、收藏人数 821、转发人数 438, 视频作者 跟李沐学AI, 作者简介 &…

window安装cplex20.1.0启动报错: ilog.odms.ide.opllang.IloOplLangPlugin

通过0-1背包问题看穷举法、贪心算法、启发式算法(JAVA) 模拟退火(SA)算法实例介绍(JAVA) 遗传算法(GA)实例介绍(JAVA) CPLEX求解器入门案例 java集成Cplex:Cplex下载、IDEA环境搭建、docker部署 windo…

线性链表 反转 -(递归与非递归算法)_20230420

线性链表 反转 -(递归与非递归算法)_20230420 前言 线性链表反转是非常有趣的算法,它可以采用多种方式实现,比较简洁的方法是递归反转;传统的方式是利用迭代反转,设定三个变量,采用类似滚动数组的方式,实…

React Hooks生命周期

文章目录 前言一、类组件的生命周期1、什么是类组件2、生命周期钩子 二、函数组件生命周期1、什么是函数组件2、模拟类组件生命周期钩子 三、为什么要使用生命周期1、我们能在钩子里面干什么2、PureComponent和React.memo区别 总结 前言 最近在写react项目,所以一直…

【Java网络编程】Socket套接字

哈喽,大家好~我是你们的老朋友: 保护小周ღ,本期为大家带来的是网络编程的前提概念 Socket 套接字,操作系统提供Socket 用于封装底层的协议细节和通信逻辑,使应用程序可以通过简单直观的API与网络进行交互。所以客观的…

在poetry虚拟环境下打包exe

本博客介绍了在poetry虚拟环境下打包exe的流程,包含两个部分 打包的基本流程打包过程中遇到的问题 打包的基本流程 copy打包工具到本地,(share:\公用共享\芯片部\乔羽\img_generate\系统部提供的打包exe工具) 用poetry搭建虚拟环境 在打包…

微积分入门

文章目录 前言初期积分微分微积分问题 后期极限 ε \varepsilon ε- δ \delta δ极限勒贝格积分 结语 前言 微积分总共走过了两个时期。首先是牛顿和莱布尼茨利用无穷小量定义微分和积分,并且发现了微分和积分的关系,这是第一个时期,这时的…

如何在元宇宙中促进品牌增长:消费者喜好的热点调查

欢迎来到Hubbleverse 🌍 关注我们 关注宇宙新鲜事 📌 预计阅读时长:5分钟 本文仅代表作者个人观点,不代表平台意见,不构成投资建议。 音乐和旅游是用户被元宇宙虚拟体验所吸引的前两个领域。根据Reach 3 Insights的…

ArrayList 的特点及优缺点

前面讲过,数组有很多缺点且使用不太方便,但是我们存储数据的时候很多情况又不得不使用它,那么有没有对数组封装一下的类,让我们更方便呢?答案是有的,他就是 ArrayList,他是一个基于数组的集合&a…

Ceph入门到精通- storcli安装

storcli 是LSI公司官方提供的Raid卡管理工具,storcli已经基本代替了megacli,是一款比较简单易用的小工具。将命令写成一个个的小脚本,会将使用变得更方便。 安装简单,Windows系统下解压出来以后可以直接运行。 Linux系统默认位置…

CGI, FastCGI, WSGI, uWSGI, uwsgi一文搞懂

1. CGI # 1、通用网关接口(Common Gateway Interface/CGI)是一种重要的互联网技术,可以让一个客户端,从网页浏览器向执行在网络服务器上的程序请求数据。CGI描述了服务器和请求处理程序之间传输数据的一种标准。 # 2、CGI程序可以…