决策树算法:随机森林民主算法【02/2】

news2025/1/18 11:48:47

决策树民主:随机森林算法

一、介绍:

        记住您在阅读亚马逊上的所有评论后进行的最后一次购买,或者在查看 IMDb 评级后您观看的以前的电影。人类是社会动物,他人的意见和行为自然会影响我们。我们的决定在很大程度上取决于“群体智慧”的概念,即群体的集体决策和选择可以平均个人的偏见和错误,并提出更准确的答案。

        随机森林算法的工作方式类似,其中最终决策是通过对多个机器学习模型的输出执行多数计数或平均值来做出的。要理解随机森林算法,我们必须熟悉决策树打包集成学习,因为这两个概念构成了骨干。

二、决策树:

        决策树是一种监督学习算法它使用树状结构根据输入数据做出决策。它将数据划分为分支,并将结果分配给叶节点。

        简单来说,决策树是 if-else 语句的广泛集合。在这里,我添加了一个指向我上一篇文章的链接,其中我已经清楚地解释了决策树算法。

三、装袋集成学习:

        bagging 代表 引导聚合。它是使用最广泛的集成学习技术之一。集成学习是一种结合多个机器学习模型以创建更准确、更健壮的模型的技术。有许多集成学习技术,例如:

  • 装袋
  • 提高
  • 堆垛

简单来说,bagging 集成学习技术结合了多个机器学习模型的结果,以提高整体性能。

构成Bagging Ensemble Learning技术思想的两个最重要的概念是Bootstrapping和Aggregation。

3.1 引导:

        Bootstrapping是机器学习中的一个统计术语,是指将大型数据集随机采样为小子集。此外,每个引导示例用于训练多个模型。

        这是减少过度拟合的一种非常有效的方法。此方法提高了整体机器学习模型的准确性和鲁棒性。我们可以通过对行和列或两者进行采样来实现引导,如下所示:

  • 使用替换的行采样:在此方法中,从数据集中选择随机行并进行替换,这意味着子数据集中可以多次出现每一行。
  • 无保留的行采样: 在此方法中,从数据集中选择随机行而不进行替换,这意味着每行在子数据集中只能出现一次,这意味着子数据集中的所有行都是唯一的。
  • 列/特征采样与替换: 在此方法中,从数据集中选择随机列或特征并进行替换,这意味着每个列可以在子数据集中多次出现。
  • 无保留的列/特征采样: 在此方法中,从数据集中选择随机列或特征而不进行替换,这意味着每列在子数据集中只能出现一次,这意味着子数据集中的所有列都是唯一的。
  • 行和列的组合采样: 在此方法中,为子数据集选择随机行和列。

3.2 集合体:

聚合是指袋装集成学习的最后阶段,在该阶段中,我们根据各自袋装集成学习中使用的多个机器学习模型的输出,在分类的情况下执行多数计数,在回归问题的情况下执行平均值

聚合可提高模型的准确性。通过组合多个数据点,模型可以了解有关数据基础分布的更多信息。

 

Bagging Ensemble Learning,来源:作者图片

四、什么是随机森林算法?

随机森林是一种监督式机器学习算法,可提高决策树的性能和预测能力。 随机森林中的术语“森林”是指在训练阶段协同工作的决策树的集合。

        随机森林算法由Leo Breiman和Adele Cutle给出。

最重要的关键是,如果bagging ensemble learning技术中使用的所有机器学习模型或算法都是决策树,则称为随机森林。

        在分类的情况下,它执行多数计数,而在回归中,它计算多个决策树的平均值。

决策树和随机森林,来源:作者图片

 

上图显示了数据如何在 n 个决策树之间划分,每个决策树生成不同的结果。我们在分类问题的情况下执行多数计数,在回归的情况下执行平均值。

五、随机森林算法如何工作?

        在这里,我将向你们直观地了解随机森林算法在幕后的工作原理,并附上逐步解释。

5.1. 导入数据集:

        在这里,我采用一个包含 400 行和五列的数据集,其中三列被选择为输入:“性别”、“年龄”和“估计工资”,“购买”列设置为输出。

import pandas as pd
df = pd.read_csv('social_network.csv')
df.head()
 

我对数据集的分类“性别”列执行了一个热编码,并删除了该列的“用户ID”:

df = df.iloc[:, 1:]
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df['Gender'] = le.fit_transform(df['Gender'])
df.head()
 

2. 将整个数据集拆分为训练和测试子数据集:

在此步骤中,我将整个数据集拆分为训练集和测试集;我没有使用 sklearn 模型选择,而是手动执行了它。我在 .sample 方法的帮助下通过传递 replace = False 选择了随机的唯一行

# train dataset:
df_train = df.sample(350, replace=False)
# random 350 rows will be selected
# and all rows will be unique because, replace = False

# test dataset:
df_test = df.sample(50, replace=False)
x_test = df_test.iloc[:, :3]
y_test = df_test.iloc[:, 3]

3. 引导:

        正如我所提到的,在随机森林算法中,相同的数据集被划分为不同的子数据集,每个子数据集被馈送到不同的决策树。基于这个概念,我编写了一个引导函数,将整个数据集拆分为不同行的随机子集。

        我通过将整个数据集划分为多个子集来执行引导。具体来说,“行采样与替换”。

# function to randomly select specified number of rows from the training dataset:
from sklearn.preprocessing import StandardScaler
def random_rows(df, n):
    df = df.sample(n, replace=True) # replace=True, there will be duplicate rows 
    sc = StandardScaler()
    x_train = df.iloc[:, :3].values
    x_train = sc.fit_transform(x_train)
    y_train = df.iloc[:, 3]
    return x_train, y_train
x_train, y_train = random_rows(df_train, 115)
# random 115, rows will be selected from the training dataset

print(x_train)
print(y_train)

输出:x_train

 

output: y_train

 

从行索引号中我们可以清楚地看到,所有行都是随机选择的子集。

4. 构建多个决策树模型:

        在这里,我为三种决策树算法创建了三个子集;所有三个子数据集都将具有可替换的随机行,这意味着同一行可以出现多次。

x1, y1 = random_rows(df_train, 115)
x2, y2 = random_rows(df_train, 115)
x3, y3 = random_rows(df_train, 115)

Three decision tree models are as follows:

from skleran.tree import DecisionTreeClassifier
# decision tree model 1:
dt1 = DecisionTreeClassifier()
dt1.fit(x1, y1)

# decision tree model 2:
dt2 = DecisionTreeClassifier()
dt2.fit(x2, y2)

# decision tree model 3:
dt3 = DecisionTreeClassifier()
dt3.fit(x3, y3)

5. 测试阶段:

在最后阶段,我将输入值从测试数据集传递到所有决策树并执行多数计数。

print(x_test.head())
print(y_test.head())

输出:x_test

 

输出:y_test

 

xs = sc.fit_transform(x_test)
test = xs[3,:].reshape(1, 3)
print("Result of decision tree 1: ", dt1.predict(test))
print("Result of decision tree 2: ", dt2.predict(test))
print("Result of decision tree 3: ", dt3.predict(test))
 

        所有决策树的上述结果显示多数计数为 [1]。因此,最终值为 [1]。为了证明结果,我们可以看到测试数据集中行索引 307 的值为 [1],因此进行了验证。

六、使用 sklearn 库实现随机森林算法:

# imported the required libraries:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.tree import DecisionTreeClassifier
import matplotlib.pyplot as plt
import seaborn as sns

# imported the dataset:
df = pd.read_csv('social_network.csv')
df = df.iloc[:, 1:]

# performed One Hot Encoding on the gender column: 
le = LabelEncoder()
df['Gender'] = le.fit_transform(df['Gender'])

# split the dataset into train and test:
x = df.iloc[:, 0:3].values
y = df.iloc[:, 3]
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=42, test_size=0.2)

# decision tree algorithm model:
dt = DecisionTreeClassifier()
dt.fit(x_train, y_train)

# random forest model:
rf = RandomForestClassifier(n_estimators=300)
rf.fit(x_train, y_train)

# testing phase for both decision tree and random forest
y_pred1 = dt.predict(x_test)
y_pred2 = rf.predict(x_test)

# accuracy score and cofusion matrix of decision tree and random forest:
print("Accuracy Score of decision tree: ", accuracy_score(y_test, y_pred1))
sns.heatmap(confusion_matrix(y_test, y_pred1), annot=True)
plt.title("Confusion Matrix of Decision Tree")
plt.show()

print("Accuracy Score of random forest: ", accuracy_score(y_test, y_pred2))
sns.heatmap(confusion_matrix(y_test, y_pred1), annot=True)
plt.title("Confusion Matrix of Random Forest")
plt.show()

 

 决策树和随机森林的混淆矩阵

从上面的例子中,我们可以看到单个决策树的准确率得分为:85%,而随机森林的准确率得分为:91%,准确率提高了近6%。

七、随机森林算法的优点:

        在多个优点中,最重要的两个是:

  • 准确性:随机森林是一种非常精确的算法,特别擅长处理具有许多特征的复杂数据集。
  • 鲁棒性:随机森林是一种稳健的算法,这意味着它不容易受到数据中的噪声或异常值的影响。因为异常值分布在多个子数据集中。

八、结论:

        请记住,我提到了决策树的民主:随机森林,因为随机森林像民主一样运作。在民主国家,具有多数投票规则的政党,同样是随机森林,在分类问题的情况下根据多数票做出最终决定。在这里,我添加了一个指向在乳腺癌数据集上执行的随机森林算法项目的链接。GitHub - mrinmoyxb/Breast-Cancer-Detection-Model: Machine Learning Breast Cancer Detection model performed using Random Forest Algorithm

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/926179.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

书单背景图片哪里找?如何制作成视频?

有没有小伙伴们发现,如今很多热门的短视频平台有很多使用书单文案制作的视频,很多情感博主会配上一些精致的图片,唯美的背景承载着一些美好的文案内容。这种类型的视频让不少的小伙伴都想制作专属于自己的视频来投稿,那么小伙伴们…

泡泡玛特上半年收入超28亿元 净利润超去年全年

8月22日,泡泡玛特发布2023中期业绩。数据显示,上半年实现营收28.14亿元,经调整净利润5.35亿元,同比增长42.3%,其中净利润4.77亿元,超去年全年净利润。海外业务延续高速增长态势并首次披露利润情况&#xff…

FOC控制框架图

pmsm电机数学模型以及FOC控制框图(开源小项目FOC控制BLDC电机)_foc 框图_栋哥爱做饭的博客-CSDN博客 电机控制----FOC框架讲解_foc电机控制_修才生的博客-CSDN博客

pdf编辑文字怎么编辑?这几种简单编辑方法看一看

pdf编辑文字怎么编辑?PDF文件是一种普遍的文档格式,但是在编辑时却比较困难。幸运的是,有许多PDF编辑器可以帮助我们轻松地编辑PDF文件。本文将介绍一些简单的PDF编辑方法,跟着我一起来看看吧! 第一种方法:…

2.4G芯片G350规格书介绍,小体积易开发

给大家介绍一款2.4g芯片,G350是宇凡微电子开发的一款低成本、高集成度的无线收发芯片,内置了发射机、接收机、频率综合器和GFSK调制解调器,以满足各种无线通信需求。无论是在电子标签、无线遥控、无线键盘鼠标、智能家居、工业通信还是商用近…

vue页面中想在input框用户输入的参数后加单位的方法

<el-form-item label"金重" prop"weight"><el-input v-model"form.weight" placeholder"请输入金重"><template #append><div>g</div></template></el-input></el-form-item>

项目开展CICD的实践探路 | 京东物流技术团队

本文介绍了作者对CICD的理解以及在项目中开展CICD的几种场景&#xff0c;总结了每种场景实践的关键节点、带来的收益&#xff0c;以及结合具体项目开展的实际应用。读者可以借鉴本文中描述的场景&#xff0c;或借鉴文中提到的实践方式&#xff0c;在项目中开展CICD&#xff0c;…

【PHP】PHP开发教程-PHP开发环境安装

1、PHP简单介绍 PHP&#xff08;全称&#xff1a;Hypertext Preprocessor&#xff09;是一种广泛使用的开放源代码脚本语言&#xff0c;特别适用于Web开发。它嵌入在HTML中&#xff0c;通过在HTML文档中添加PHP标记和脚本&#xff0c;可以生成动态的、个性化的Web页面。 PHP最…

Java小项目|拼图小游戏|黑马

项目技术需求 Java基础 基本if、forio流File集合JFrame【看得懂就行】 项目素材以及打包exe&#xff1a; 链接&#xff1a;https://pan.baidu.com/s/1rPazJezTwS9O6e8BoYNIYA?pwd6666 项目运行截图 项目来源 哔哩哔哩-黑马程序员上 哔哩哔哩-黑马程序员下 项目介绍&…

mac电脑免费垃圾清理软件有哪些?CleanMyMac好用不好用?

CleanMyMac是一款功能强大的mac垃圾清理软件&#xff0c;它可以帮助我们快速扫描和删除mac上的垃圾文件&#xff0c;释放磁盘空间&#xff0c;提升系统速度。本文将为你介绍CleanMyMac这款mac垃圾清理软件&#xff0c;以及CleanMyMac怎么关闭开机启动。 mac垃圾清理软件有很多…

SAP 资产屏幕增强(AS01/AS02/AS03)

导语&#xff1a;最新需要在资产屏幕上增加增强字段&#xff08;效果图在最后&#xff09;&#xff0c;下面分享一下实现过程。 一、在表中增强字段 本次增强的是【资产主数据->源】中的字段&#xff0c;选择储存在ANLU表中。 二、创建屏幕 在函数组XAIS中创建屏幕9001 在…

unity 模型显示在UI上 并交互(点击、旋转、缩放)

1.在Assets创建 Render Texture&#xff08;下面会用到&#xff09;&#xff0c;根据需要设置Size 2.创建UIRawImage&#xff0c;并把Render Texture赋上 3.创建相机&#xff0c;如下图&#xff1a; 4.基本UI的准备工作完成&#xff0c;剩下的就是代码了&#xff0c;值得一提&a…

qt 实现音视频的分贝检测系统

项目场景&#xff1a; 目前的产品经常播放m3u8流&#xff0c;有的视频声音正常&#xff0c;有的视频声音就偏低&#xff0c;即使放到最大音量声音也是比较小&#xff0c;所以就产生了某种需求&#xff0c;能否自动感知视频声音的大小&#xff0c;如果发现声音比较小的情况&…

vue3项目初始

yarn add types/node -D是这个 下面 少到了S 这一步 就是 配置配置 src

高通 A12 设置-存储 存储总大小显示不正确问题

总存储大小计算原理&#xff1a; 系统获取存储大小是通过获取”/system”和”/data” 两个Directory 的和来计算的&#xff0c;即Environment.getDataDirectory().getTotalSpace() Environment.getRootDirectory().getTotalSpace() 问题一 &#xff1a;实际存储大小大于等于1…

网安周报|国防承包商Belcan泄露了带有漏洞列表的管理员密码

1.国防承包商Belcan泄露了带有漏洞列表的管理员密码 网络新闻研究团队发现了一个开放的 Kibana 实例&#xff0c;其中包含有关 Belcan、其员工和内部基础设施的敏感信息。Belcan 是一家政府、国防和航空航天承包商&#xff0c;提供全球设计、软件、制造、供应链、信息技术和数字…

企业在选择低代码平台时,应该注意哪些方面?

在 IT行业&#xff0c;“低代码”这个词可以说是近几年的热词了。低代码开发平台&#xff08;Low-Code Platform&#xff09;是一种新型的软件开发工具&#xff0c;它可以通过少量代码快速开发应用程序。通过采用低代码技术&#xff0c;开发者可以减少自己编写和测试应用程序的…

国际数字影像文创产业园开展企业法律的讲座

2023年8月18日14:30-16:10由成都市金牛区人民政府五块石街道办事处指导&#xff0c;国际数字影像文创产业园区、成都树观法律咨询服务有限公司主办&#xff0c;成都目莓商业运营管理有限公司协办的“法律讲座沙龙”活动在数媒大厦5楼共享会议室成功开展。 本次活动主题为“企业…

网络工程----小型网络配置1

此次作业设计&#xff1a; 硬件&#xff1a;二层交换机、三层交换机、路由、服务器、pc 配置知识&#xff1a;dhcp, dns配置&#xff0c;vlan划分&#xff0c;不同vlan间通信&#xff0c;静态路由&#xff0c;Nat动态地址&#xff0c; nat server映射&#xff0c;acl 配置命…

海外ios应用商店优化排名因素之评级与评论

评分显示在搜索结果中&#xff0c;直接影响转化率&#xff0c;而评论可以在应用页面上看到&#xff0c;评级和评论是我们无法直接控制的因素。但是我们仍然可以通过了解用户的需求并兑现承诺来尝试改进它。 1、关于用户的评论。 抱怨的用户在讲述某个问题时总是会给出最好的反…