机器学习8:在病马数据集上进行算法比较(ROC曲线与AUC)

news2025/1/15 17:18:39

ROC曲线与AUC。使用不同的迭代次数(基模型数量)进行 Adaboost 模型训练,并记录每个模型的真阳性率和假阳性率,并绘制每个模型对应的 ROC 曲线,比较模型性能,输出 AUC 值最高的模型的迭代次数和 ROC 曲线。

使用Python的scikit-learn库来训练Adaboost模型,并记录每个模型的真阳性率和假阳性率,并绘制每个模型对应的ROC曲线。然后比较模型性能,并输出AUC值最高的模型的迭代次数和ROC曲线。

 下面是一个示例代码,用于在病马数据集上进行Adaboost模型的训练、绘制ROC曲线和计算AUC值:

如果你的是csv文件

import numpy as np
import pandas as pd
from sklearn.ensemble import AdaBoostClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_curve, auc
import matplotlib.pyplot as plt

# 加载数据集,这里假设数据已经存储在名为data的DataFrame中
# 请根据实际情况修改加载数据集的代码
data = pd.read_csv('your_dataset.csv')

# 假设数据集中最后一列为标签,其余列为特征
X = data.iloc[:, :-1]
y = data.iloc[:, -1]

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 初始化基模型数量列表和对应的AUC值列表
n_estimators_list = [50, 100, 150, 200]
auc_list = []

# 训练Adaboost模型,并计算每个模型的AUC值
for n_estimators in n_estimators_list:
    ada_model = AdaBoostClassifier(n_estimators=n_estimators, random_state=42)
    ada_model.fit(X_train, y_train)
    y_score = ada_model.decision_function(X_test)
    fpr, tpr, thresholds = roc_curve(y_test, y_score)
    roc_auc = auc(fpr, tpr)
    auc_list.append(roc_auc)
    
    # 绘制ROC曲线
    plt.plot(fpr, tpr, label='n_estimators = %d, AUC = %0.2f' % (n_estimators, roc_auc))

# 找到AUC值最高的模型的迭代次数
best_n_estimators = n_estimators_list[np.argmax(auc_list)]

# 设置图形参数
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Curve for Adaboost Model')
plt.legend(loc='lower right')
plt.show()

# 输出AUC值最高的模型的迭代次数和ROC曲线
print("AUC值最高的模型的迭代次数:", best_n_estimators)

在病马数据集上进行算法比较(ROC曲线与AUC)

  1. 使用不同的迭代次数(基模型数量)进行 Adaboost 模型训练,并记录每个模型的真阳性率和假阳性率,并绘制每个模型对应的 ROC 曲线,比较模型性能,输出 AUC 值最高的模型的迭代次数和 ROC 曲线。
  2. 计算不同基模型数量下的AUC值,画出“分类器个数-AUC”关系图
  3. 讨论:随着弱分类器个数的增加,AUC的值会如何变化?为什么?如果AUC值随着弱分类器的增加而增加,是否表示弱分类器个数越多越好呢?
  4. 我们能否根据AUC的曲线图找到最优的弱分类器个数?怎么找?

数据集是horseColicTest.txt和horseColicTraining.txt,不是csv文件

使用不同的迭代次数(基模型数量)进行 Adaboost 模型训练,并记录每个模型的真阳性率和假阳性率,并绘制每个模型对应的 ROC 曲线,比较模型性能,输出 AUC 值最高的模型的迭代次数和 ROC 曲线。

import numpy as np
import pandas as pd
from sklearn.ensemble import AdaBoostClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_curve, auc
import matplotlib.pyplot as plt

# 加载训练集和测试集
train_data = pd.read_csv('horseColicTraining.txt', delimiter='\t', header=None)
test_data = pd.read_csv('horseColicTest.txt', delimiter='\t', header=None)

# 假设数据集中最后一列为标签,其余列为特征
X_train = train_data.iloc[:, :-1]
y_train = train_data.iloc[:, -1]
X_test = test_data.iloc[:, :-1]
y_test = test_data.iloc[:, -1]

# 初始化基模型数量列表和对应的AUC值列表
n_estimators_list = [50, 100, 150, 200]
auc_list = []

# 训练Adaboost模型,并计算每个模型的AUC值
for n_estimators in n_estimators_list:
    ada_model = AdaBoostClassifier(n_estimators=n_estimators, random_state=42)
    ada_model.fit(X_train, y_train)
    y_score = ada_model.decision_function(X_test)
    fpr, tpr, thresholds = roc_curve(y_test, y_score)
    roc_auc = auc(fpr, tpr)
    auc_list.append(roc_auc)

    # 绘制ROC曲线
    plt.plot(fpr, tpr, label='n_estimators = %d, AUC = %0.2f' % (n_estimators, roc_auc))

# 找到AUC值最高的模型的迭代次数
best_n_estimators = n_estimators_list[np.argmax(auc_list)]

# 设置图形参数
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Curve for Adaboost Model')
plt.legend(loc='lower right')
plt.show()

# 输出AUC值最高的模型的迭代次数和ROC曲线
print("AUC值最高的模型的迭代次数:", best_n_estimators)

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1235550.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

编译器优化代码研究

《Effective C》条款21: /** * 结论:对自定义类型对象表达式objA*objB objC; * 定义friend MyInt operator*(const MyInt& lhs,const MyInt& rhs) * 编译器优化后:operator*()函数内直接在调用接收处构造(此处的匿名临时对象)&am…

万宾科技智能井盖传感器的特性一览

在不断发展的智慧城市技术领域,科学技术的创新永无止境。智能井盖传感器是科学进步带来的高科技产品,为促进城市生命线并保障地上地下连接点安全提供保障。它就在我们脚下,正在悄然改变城市基础设施和公共服务。智能井盖传感器成为现代城市规…

SD-WAN技术:重新定义网络连接方式

随着数字化转型的不断加速,企业对网络的需求呼之欲出。传统的WAN网络由于配置复杂、成本高昂以及带宽利用率低等问题而面临挑战。这时SD-WAN技术的出现正好派上了用场,通过其虚拟化、自动化和智能化的技术手段,大幅度提高了企业网络性能和可靠…

最新AIGC创作系统ChatGPT系统源码,支持最新GPT-4-Turbo模型,支持DALL-E3文生图,图片对话理解功能

一、AI创作系统 SparkAi创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型国内AI全模型。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。那么如…

基于晶体结构算法优化概率神经网络PNN的分类预测 - 附代码

基于晶体结构算法优化概率神经网络PNN的分类预测 - 附代码 文章目录 基于晶体结构算法优化概率神经网络PNN的分类预测 - 附代码1.PNN网络概述2.变压器故障诊街系统相关背景2.1 模型建立 3.基于晶体结构优化的PNN网络5.测试结果6.参考文献7.Matlab代码 摘要:针对PNN神…

系统之家U盘重装系统Win10方法步骤

用户发现自己电脑上的Win10系统出现问题了,想要通过重装系统来解决问题。但是,用户还不清楚具体重新安装Win10系统的步骤,接下来小编给大家详细介绍利用U盘完成Win10系统重装的方法,在这里用户需要下载系统之家装机大师软件&#…

Kubeadm部署Kubernetes Containerd集群

文章目录 概述一、硬件系统二、基础配置设置主机名配置主机名与IP地址解析关闭防火墙与selinux时间同步(ntp)升级系统内核配置内核转发及网桥过滤*安装ipset及ipvsadm关闭SWAP分区 三、Containerd准备Containerd获取下载解压Containerd配置文件生成并修改Containerd启动及开机自…

金蝶云星空套打设计平台导出套打模板和导入套打模板

文章目录 金蝶云星空套打设计平台导出套打模板和导入套打模板A环境导出套打模板B环境导入套打模板 金蝶云星空套打设计平台导出套打模板和导入套打模板 A环境导出套打模板 导出后: B环境导入套打模板 不要在已设计好的模板导入,会被覆盖 一定记得&am…

Java —— String类

目录 1. String类的重要性 2. 常用方法 2.1 字符串构造 2.2 String对象的比较 2.3 字符串查找 2.4 转化 1. 数值和字符串转化 2. 大小写转换 3. 字符串转数组 4. 格式化 2.5 字符串替换 2.6 字符串拆分 2.7 字符串截取 2.8 其他操作方法 2.9 字符串常量池 2.9.1 创建对象的思考…

程序员如何“升级打怪”?我用了这几个“歪瓜”!

不会吧?不会吧?计算机本命专业出身、以及半路出家的,混了几年了,还在新手村?对得起这几年摸的鱼? 思考一下:如何从小白一跃为大师,从此走上人生巅峰、迎娶白富美?变强只…

ArcGIS如何处理并加载Excel中坐标数据?

做GIS行业的各位肯定免不了跟数据打交道,其中数据的处理说复杂也复杂,因为我们要花时间去做数据的转换及调整工作,那说简单也简单,因为我们有很多的工具可以使用,那么今天我就给大家带来处理Excel中的GIS数据中的其中一…

时间序列预测(9) — Informer源码详解与运行

目录 1 源码解析 1.1 文件结构 1.2 mian_informer.py文件 1.3 模型训练 1.4 模型测试 1.5 模型预测 2 Informer模型 2.1 process_one_batch 2.2 Informer函数 2.3 DataEmbedding函数 2.4 ProbAttention稀疏注意力机制 2.5 Encoder编码器函数 2.6 Decoder解码器函数…

2023.11.20 关于 Spring MVC 详解

目录 MVC 工作流程 Spring MVC 掌握三个功能 创建 Spring MVC 项目 推荐安装插件 EditStarters 安装步骤 使用方法 实现连接功能 基础注解 RequestMapping 指定 GET 和 POST 方法类型 ResponseBody 获取参数 传递 单个 或 多个参数 参数重命名 RequestParam …

【优秀毕设】基于vue+ssm+springboot的网上购物商城系统设计

摘 要 随着科学技术的飞速发展,社会的方方面面、各行各业都在努力与现代的先进技术接轨,通过科技手段来提高自身的优势,网上商城购物系统当然也不能排除在外。网上商城购物系统是以实际运用为开发背景,运用软件工程原理和开发方…

k8s无法删除pv,pvc问题

问题: 在k8s里面创建了pv,pvc删除时报错:error: resource(s) were provided, but no name was specified 解决: 正确的删除顺序:1.先删除pod2.再删除pv 3.在删除pvc 删除pv,pvc命令: kubect…

关于“计算机中由于找不到msvcr120.dll,无法继续执行代码5种解决方法

今天,我想和大家分享一下关于“由于找不到msvcr120.dll,无法继续执行代码5种解决方法”的话题。在我们日常的使用中,有时候会遇到这样的问题:在运行某个程序时,突然提示“无法继续执行代码,因为找不到msvcr120.dll”。…

【VRTK】【VR开发】【Unity】6-设置interactor和虚拟手

【概述】 本篇先了解什么是interactor,什么是interactable。接着开始实操设置VRTK提供的默认控制器模型,其实就是两个长方体。接下来将长方体更换成更沉浸的带动画动作的虚拟手。最后则是介绍如何自由设置自定义手。 【Interactor和Interactable】 Interactor:互动动作的…

预约线上发布会 | “星星之火”精彩观点抢先看

11 月 17 日,北京市星辰天合科技股份有限公司(简称:XSKY星辰天合)在北京首钢园举办了主题为“星星之火”的 XSKY 星海全闪架构暨星飞存储发布会,到场嘉宾共同见证了全新的分布式全闪架构“星海(XSEA&#x…

QTableView表头Header增加复选框Checkbox

原文出处&#xff1a;Qt 之 QHeaderView 添加复选框_qtableview添加复选框-CSDN博客 这哥们只贴了部分代码&#xff0c;我还是把它弄好分享给大家吧 DTableHeaderView.h #ifndef DTABLEHEADERVIEW_H #define DTABLEHEADERVIEW_H#include <QHeaderView>class DTableHea…

【Sql】sql server还原数据库的时候,提示:因为数据库正在使用,所以无法获得对数据库的独占访问权。

【问题描述】 sql server 还数据库的时候&#xff0c;提示失败。 点击左下角进度位置&#xff0c;可以得到详细信息&#xff1a; 因为数据库正在使用&#xff0c;所以无法获得对数据库的独占访问权。 【解决方法】 针对数据库先后执行下述语句&#xff0c;获得独占访问权后&a…