ML之LoR:基于泰坦尼克号数据集分别利用Platt校准和等距回归校准算法实现概率校准进而提高二元分类模型的预测准确性(模型提效)应用案例

news2025/1/10 2:01:17

ML之LoR:基于泰坦尼克号数据集分别利用Platt校准和等距回归校准算法实现概率校准进而提高二元分类模型的预测准确性(模型提效)应用案例

目录

基于泰坦尼克号数据集分别利用Platt校准和等距回归校准算法实现概率校准进而提高二元分类模型的预测准确性(模型提效)应用案例

# 1、定义数据集

# 2、数据预处理/特征工程

# 2.1、缺失值填充

# 2.2、定义入模特征

# 2.3、特征类型划分

# 2.4、特征编码

# T1、独热编码

# 2.5、分离特征与标签

# 3、模型训练与评估

# 3.1、切分训练集和测试集

# 3.2、建立模型

# 3.3、模型训练并评估

# T0、直接使用LoR模型评估

# T1、利用Platt校准概率后模型评估:5折交叉验证+使用sigmoid函数校准概率,来预测出未校准的概率

# 计算AUC和F1

# 利用Platt校准方法校准概率并绘制校准曲线

# 计算Brier分数:计算经过Platt校准后的概率的Brier得分。Brier得分是一种评估二元分类器概率预测准确性的指标,它度量了预测的概率与真实标签之间的距离。

# 绘制Calibration Curve:真实的正例概率、预测的正例概率

# T2、基于Platt校准再利用等距回归概率校准后模型评估:对校准后的概率结果进行等距回归

# 校准概率

# 计算AUC和F1

# 计算Brier分数

# 绘制Calibration Curve


相关文章
ML之LoR:基于泰坦尼克号数据集分别利用Platt校准和等距回归校准算法实现概率校准进而提高二元分类模型的预测准确性(模型提效)应用案例
ML之LoR:基于泰坦尼克号数据集分别利用Platt校准和等距回归校准算法实现概率校准进而提高二元分类模型的预测准确性(模型提效)应用案例实现代码

基于泰坦尼克号数据集分别利用Platt校准和等距回归校准算法实现概率校准进而提高二元分类模型的预测准确性(模型提效)应用案例

# 1、定义数据集

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]

# 2、数据预处理/特征工程

# 2.1、缺失值填充

# 2.2、定义入模特征

after featuresIN………………………………………………
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Survived  891 non-null    int64  
 1   Pclass    891 non-null    int64  
 2   Age       891 non-null    float64
 3   Fare      891 non-null    float64
 4   Sex       891 non-null    object 
 5   Embarked  889 non-null    object 
dtypes: float64(2), int64(2), object(2)
memory usage: 41.9+ KB
None

# 2.3、特征类型划分

cat_cols 2 ['Sex', 'Embarked']

# 2.4、特征编码

# T1、独热编码

after get_dummies………………………………………………
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Survived    891 non-null    int64  
 1   Pclass      891 non-null    int64  
 2   Age         891 non-null    float64
 3   Fare        891 non-null    float64
 4   Sex_female  891 non-null    uint8  
 5   Sex_male    891 non-null    uint8  
 6   Embarked_C  891 non-null    uint8  
 7   Embarked_Q  891 non-null    uint8  
 8   Embarked_S  891 non-null    uint8  
dtypes: float64(2), int64(2), uint8(5)
memory usage: 32.3 KB

# 2.5、分离特征与标签

# 3、模型训练与评估

# 3.1、切分训练集和测试集

# 3.2、建立模型

# 3.3、模型训练并评估

# T0、直接使用LoR模型评估

auc_scor: 0.8582990750256937
f1_scor: 0.7317073170731706

# T1、利用Platt校准概率后模型评估:5折交叉验证+使用sigmoid函数校准概率,来预测出未校准的概率

# 计算AUC和F1

Platt Calibration:
auc_Platt: 0.8606971565604659
f1_Platt: 0.7195121951219512

# 利用Platt校准方法校准概率并绘制校准曲线

# 计算Brier分数:计算经过Platt校准后的概率的Brier得分。Brier得分是一种评估二元分类器概率预测准确性的指标,它度量了预测的概率与真实标签之间的距离。

# 绘制Calibration Curve:真实的正例概率、预测的正例概率

# 将概率分为10个区间

# T2、基于Platt校准再利用等距回归概率校准后模型评估:对校准后的概率结果进行等距回归

# 校准概率

# 计算AUC和F1

Isotonic Regression:
auc_Iso: 0.8810808496060294
f1_Iso: 0.7631578947368423

# 计算Brier分数

# 绘制Calibration Curve

 # 如果模型预测的概率与真实概率完全吻合,则曲线应该是一条45度直线。通过比较校准曲线与理想曲线,可以直观地评估模型的校准效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/530067.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

网络安全35岁是新时代挑战?

前言 对于一个工作不下于4年的人来说&#xff0c;我觉得我有一定的思考沉淀来回答这个问题。 说说我的一些经历吧。 普通一本毕业&#xff0c;专业是自动化&#xff0c;大学由于挂科太多没拿到学位证到上海找实习&#xff0c;一开始做的是开发&#xff0c;从16年到19年都是做…

如何在线安装Axure插件?

当我们需要进行原型设计时&#xff0c;Axure 成为了专门为此而生的专业级设计产品&#xff0c;也是产品经理必备的工具之一。通过使用 Axure&#xff0c;设计人员可以更好地了解实际项目的实施方式&#xff0c;并与产品经理进行更有效的合作&#xff0c;以评估范围和技术可行性…

HTTP1.1(五)URI编码

一 URI编码 ① ASCII wiki 说明&#xff1a; man ascii 观察 ② 为什么要进行URI编码 RFC3986规定&#xff1a;uri中只允许包含a-zA-Z、0-9、-_.~4个特殊字符以及所有保留字符 URI特殊字符 ③ 保留字符与非保留字符 ④ URI百分号%编码方式 说明&#xff1a; 一般是非…

自学网络安全必经的三个阶段(含路线图)

一、为什么选择网络安全&#xff1f; 这几年随着我国《国家网络空间安全战略》《网络安全法》《网络安全等级保护2.0》等一系列政策/法规/标准的持续落地&#xff0c;网络安全行业地位、薪资随之水涨船高。 未来3-5年&#xff0c;是安全行业的黄金发展期&#xff0c;提前踏入…

【pytest】html报告修改和汉化

前言 Pytest框架可以使用两种测试报告&#xff0c;其中一种就是使用pytest-html插件生成的测试报告&#xff0c;但是报告中有一些信息没有什么用途或者显示的不太好看&#xff0c;还有一些我们想要在报告中展示的信息却没有&#xff0c;最近又有人问我pytest-html生成的报告&a…

算法 DAY59 单调栈2 503.下一个更大元素II 42. 接雨水 84.柱状图中最大的矩形

503.下一个更大元素II 难点在于如何是实现数组的循环 但使用模拟遍历两次的时候注意始终使用index&#xff0c;别出现越界 class Solution { public:vector<int> nextGreaterElements(vector<int>& nums) {stack<int> st;st.push(0);vector<int>…

图和简单图

图的定义 一个图G定义为一个有序对&#xff08;V,E&#xff09;&#xff0c;记为V&#xff08;V,E&#xff09;&#xff0c;其中 V是一个非空集合&#xff0c;称为顶点集或点集&#xff0c;其元素称为顶点或点。E是由V中的点组成的无序点对构成的集合&#xff0c;称为边集&am…

.NET开发问题记录——TransactionScope出错:“与基础事务管理器的通信失败”的解决方法

文章目录 前言问题产生使用TransactionScope进行事务控制 分布式事务&#xff08;Distributed Transaction Coordinator&#xff09;未开启原因该伙伴事务管理器已经禁止了它对远程/网络事务的支持。 System.Transactions.TransactionManagerCommunicationException: 与基础事务…

Reference Doc

场景&#xff1a; reference doc 是springboot官方文档

【C++入门编程常见问题】(小白必看)

常见问题 vsstudio快捷键 快速注释组合键 ctrlk ctrlc 取消注释快捷键 ctrlk ctrl u 支持垃圾回收机制 大多数面向对象编程语言具有垃圾回收机制。早期的C语言不具备垃圾回收机制&#xff0c;这意味着申请的内存资源在使用完成后&#xff0c;需要程序员自己释放。直到C11标…

springcloud-alibaba (01)linux下Nacos单节点安装和部署

Nacos 一&#xff0c;下载解压 Nacos二&#xff0c;使用外部存储器&#xff08;可选&#xff09;三&#xff0c;Nacos配置四&#xff0c;防火墙配置五&#xff0c;启动nacos 一&#xff0c;下载解压 Nacos 首先确保你的系统上已经安装了 Java&#xff0c;可以运行以下命令检查&…

B站C语言学习,颠覆谭浩强C语言,可能是最好的C语言视频 【自用笔记】

文章目录 数据类型字符&#xff0c;整型&#xff0c;浮点型sizeof 展示字节大小 变量 常量变量变量&#xff1a;全局变量 /局部变量变量的使用变量的作用域和生命周期 常量const修饰的常变量#define定义的标识符常量枚举常量 数据类型字符&#xff0c;整型&#xff0c;浮点型si…

[LitCTF 2023] crypto,pwn,rev

这个比赛有巨多的题&#xff0c;而且基本上都很简单&#xff0c;队里答疯了。其实没大意思&#xff0c;本来不想写了&#xff0c;可又没啥可写&#xff0c;这周也就干点这个&#xff0c;算是放松吧。 Crypto 1,HEX 略 2,梦想是红色的&#xff0c;略 3&#xff0c;原来你也玩…

es7.x 通过java api实现常规操作

一 es7.x 1.1 配置pom文件 <dependencies><dependency><groupId>org.elasticsearch</groupId><artifactId>elasticsearch</artifactId><version>7.8.0</version></dependency><!-- elasticsearch的客户端 -->&…

Springboot启动失败 DB连不上竟然是maven配置的问题

Springboot启动失败&#xff1a;Failed to instantiate [javax.sql.DataSource]。 最开始以为是DB版本后&#xff0c;需要升级驱动版本&#xff0c;但更新驱动版本还是不行&#xff0c;而且另外一个项目同样驱动同样配置可以启动。 后面发现代码读取不到yml文件中的配置信息。…

zigbee MQTT控制小米蓝牙插座开和关 型号Xiao Mi zigbee ZNCZ02LM 或支持zigbee的插座或设备

zigbee MQTT控制小米蓝牙插座开和关 型号Xiao Mi zigbee ZNCZ02LM 或支持zigbee的插座或设备 硬件准备 小米蓝牙插座&#xff0c;型号: Xiao Mi zigbee ZNCZ02LM 或支持zigbee的插座或设备 zigbee设备&#xff0c;型号: CC2531设备 参考链接: https://github.com/Koenkk/zi…

Linux高并发服务器开发01:Linux系统编程入门

GCC 什么是GCC GCC工作流程 GCC常用的参数选项 GCC和G的区别 静态库 什么是库 静态库的制作 先编译生成对应的.o文件 gcc -c add.c sub.c mult.c div.c -I …/include/ 再将.o文件打包成静态库 ar rcs libcalc.a add.o sub.o mult.o div.o 使用的时候-l指定库名称 gcc main.c…

[C++]AVL树、红黑树以及map、set封装

目录 前言&#xff1a; 1 AVL树 1.1 AVL树的概念 1.2 AVL树结点的定义 1.3 AVL树插入 1.4 插入结点的调整 1.5 AVL树的旋转调整 1.5.1 右单旋 1.5.2 左单旋 1.5.3 左右双旋 1.5.4 右左双旋 1.5.4种旋转的判断方式 2 红黑树 2.1 红黑树概念 2.2 红黑树与AVL树的比…

路径规划算法:基于飞蛾扑火算法的路径规划算法- 附代码

路径规划算法&#xff1a;基于飞蛾扑火优化的路径规划算法- 附代码 文章目录 路径规划算法&#xff1a;基于飞蛾扑火优化的路径规划算法- 附代码1.算法原理1.1 环境设定1.2 约束条件1.3 适应度函数 2.算法结果3.MATLAB代码4.参考文献 摘要&#xff1a;本文主要介绍利用智能优化…

Linux基本指令-3

文章目录 一、 d a t e date date [选项] 格式1、常用选项&#xff1a;2、运用实例&#xff1a; 二、 c a l cal cal [选项] [年份]1、常用选项&#xff1a;2、运用实例&#xff1a; 三、 f i n d find find[路径] [ − n a m e ] [-name] [−name] 文件名1、…