《机器学习》—— 通过下采样方法实现银行贷款分类问题

news2024/11/15 17:33:24

文章目录

  • 一、什么是下采样方法?
  • 二、通过下采样方法实现银行贷款分类问题
  • 三、下采样的优缺点

一、什么是下采样方法?

机器学习中的下采样(Undersampling)方法是一种处理不平衡数据集的有效手段,特别是在数据集中某些类别的样本数量明显多于其他类别时。下采样的主要目的是通过减少多数类样本的数量来平衡数据分布,从而提高模型的泛化能力和准确性。

二、通过下采样方法实现银行贷款分类问题

  • 具体步骤
    • 1、读取并查看数据
    • 2、数据标准化
    • 3、下采样解决样本不均衡问题
    • 4、划分数据集
    • 5、训练模型并建立最优模型
    • 6、传入测试数据集进行测试
  • 1、读取并查看数据
    • 这里有一份含有**28万+**数据的csv文件

    • 通过pandas方法读取此文件

      # 通过pandas方法读取creditcard.csv文件,并用data变量接收
      data = pd.read_csv("creditcard.csv")
      data.head()  # 查看data的前几行,默认是5行
      
    • 如下图所示:
      在这里插入图片描述

    • 这个数据的最后一列“Class”标签用来标注是否正常,0表示正常,1表示异常

    • 我们可以通过画出条形图来观察两类标签的样本个数

      import matplotlib.pyplot as plt
      """绘制条形图,查看正负样本个数"""
      labels_count = pd.value_counts(data['Class'])
      plt.title("正负例样本数")
      plt.xlabel("类别")
      plt.ylabel("帧数")
      labels_count.plot(kind='bar')
      plt.show()
      
    • 结果如下:在这里插入图片描述

    • 可以看出0和1标签的样本数据个数相差的非常多,0标签有28万+,而1标签只有几百多,这便是不平衡数据集

  • 2、数据标准化
    • 我们数据的倒数第二(Amount)列可以看出,这一列的特征数值,比其他列特征数值要大很多,如果不做调整就传入模型训练,将会占有很大的权重,导致最后的结果很大的程度上都只受这一个特征的影响
    • 通过观察,可以发现,前面的特征数据都是在-1~1之间,所以我们可以用Z标准化的方法,改变其数值范围
      from sklearn.preprocessing import StandardScaler
      """数据标准化:Z标准化"""
      scaler = StandardScaler()
      # a = data[['Amount']]  # 返回dataframe数据,而不是series
      # 用StandardScaler中的fit_transform实现Z标准化
      data['Amount'] = scaler.fit_transform(data[['Amount']])
      
    • 结果如下:
      在这里插入图片描述
  • 3、下采样解决样本不均衡问题
    • 通过随机抽取0特征标签中的数据与1特征标签数量相同,并将两个特征拼接为一个新的数据集

      # 数据的第一列(Time)没有作用,删除
      data = data.drop(['Time'], axis=1)  # 删除无用列
      
      """下采样解决样本不均衡问题"""
      positive_eg = data[data['Class'] == 0]  # 获取所有标签(Class)为0的数据
      negative_eg = data[data['Class'] == 1]  # 获取所有标签(Class)为1的数据
      np.random.seed(seed=3)    # 随机种子,保证每次执行这个代码,随机抽选的结果都是一样
      # 
      positive_eg = positive_eg.sample(len(negative_eg))   # sample 表示随机从参数里面选择数据,并和1标签的数据数量相同
      # 拼接数据
      data_c = pd.concat([positive_eg, negative_eg])   # 把两个pandas数据组合为一个
      
    • 可以再次通过绘制条形图观察数据

      labels_count = pd.value_counts(data_c['Class'])
      plt.title("正负例样本数")
      plt.xlabel("类别")
      plt.ylabel("帧数")
      labels_count.plot(kind='bar')
      plt.show()
      
    • 结果如下:
      在这里插入图片描述

  • 4、划分数据集
    • 这里我们划分两类数据集,一类是经过下采样处理后,形成的小部分数据集,另一类是划分原始数据集
    • 划分下采样后的数据集用于模型训练,划分原数据集最后传入模型预测出结果,观察模型的性能是否有所提高
      from sklearn.model_selection import train_test_split
      # 对下采样数据划分
      x_s = data_c.drop('Class', axis=1)  # 去除标签列作为训练数据
      y_s = data_c.Class  # 得到标签列
      # 划分出30%的测试集,并抛出随机种子,为了后面每次的运行,随机划分的都是相同的数据
      x_s_train, x_s_test, y_s_train, y_s_test = train_test_split(x_s, y_s, test_size=0.3, random_state=0)
      
      # 对原数据划分
      x = data.drop('Class', axis=1)
      y = data.Class
      x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=0)
      
  • 5、训练模型并建立最优模型
    • 交叉验证选择较优惩罚因子

    • 建立最优模型

      # 交叉验证选择较优惩罚因子
      scores = []
      c_param_range = [0.01, 0.1, 1, 10, 100]  # 参数
      for i in c_param_range:  # 第1次循环的时候C=0.01,5个逻辑回归模型
          lr = LogisticRegression(C=i, penalty='l2', solver='lbfgs', max_iter=1000)
          score = cross_val_score(lr, x_s_train, y_s_train, cv=8, scoring='recall')  # 交叉验证
          score_mean = sum(score) / len(score)  # 交叉验证后的值 召回率
          scores.append(score_mean)  # 存放所有的交叉验证召回率
          print(score_mean)  # 将不同的C参数分别传入模型, 分别看看哪个模型效果更好
      
      best_c = c_param_range[np.argmax(scores)]  # 找到scores中最大的值对应的C参数
      print("........最优惩罚因子为:{}........".format(best_c))
      
      """建立最优模型"""
      lr = LogisticRegression(C=best_c, penalty='l2', max_iter=1000)
      lr.fit(x_s_train, y_s_train)
      
    • 运行结果为:

  • 6、传入测试数据集进行测试
    • predict 方法接受一个数组(或类似数组的结构,如列表的列表、Pandas DataFrame等),其中包含了要预测的目标变量的新数据点。然后,它使用训练好的模型对这些数据点进行预测,并返回一个包含预测结果的数组

    • metrics.classification_report 是 scikit-learn(一个流行的 Python 机器学习库)中的一个函数,用于展示主要分类指标的文本报告。这个函数特别适用于评估分类模型的性能,尤其是在处理多类分类问题时。它提供了每个类别的精确度(precision)、召回率(recall)、F1 分数(F1-score)和支持度(support,即每个类别的真实样本数量)的详细报告。

      from sklearn import metrics
      
      # 传入下采样后的测试数据
      test_s_predicted = lr.predict(x_s_test)
      print(metrics.classification_report(y_s_test, test_s_predicted))
      
      # 传入原数据的测试数据
      test_predicted = lr.predict(x_test)
      print(metrics.classification_report(y_test, test_predicted))
      
      
    • 结果如下:
      在这里插入图片描述

    • 下面是未使用下采样方法,使用原数据进行模型训练后的结果
      在这里插入图片描述

    • 对比两次不同数据训练出的结果可以看出,通过下采样的方法处理数据后可以大大提高模型的性能

三、下采样的优缺点

  • 优点:
    • 提升分类器准确率:通过减少多数类样本的数量,使得数据集中不同类别的样本数量更加均衡,从而有助于提升分类器对少数类样本的识别能力,进而提升整体分类准确率。
    • 降低训练时间:由于数据集的大小减少,模型的训练时间也会相应缩短。
    • 降低过拟合风险:减少多数类样本的数量可以降低模型对多数类样本的过度拟合,提高模型的泛化能力。
  • 缺点:
    • 降低数据集代表性:随机欠采样可能会剔除一些重要的多数类样本,导致数据集的代表性降低。这可能会影响模型的性能,特别是当被剔除的样本包含对分类任务至关重要的信息时。
    • 信息损失:由于剔除了部分多数类样本,数据集中的信息量也会相应减少。这可能会导致模型在训练过程中无法充分学习到多数类的特征分布,从而影响模型的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2057205.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

YUM和NFS

文章目录 yum软件仓库的提供方式RPM软件包的来源Linux系统各家厂商用的安装源命令---yum 配置本地yum源具体操作 搭建ftp yum仓库环境具体操作实操环境服务端一、安装 vsftpd服务二、创建一个文件,并且挂载三、开启服务四、查看挂载 客户端五、备份六、搭建ftp yum仓…

Word--两列(两栏、多栏、多列)文档中间插入横跨两列(多列)的表格

最终效果如下图所示 最终效果展示图 即:在原本是两列(两栏、多栏、多列)显示的Word文档中,插入一个横跨两列的表格,并且不影响文字排列,表格上侧的文字自动排序,表格下侧的文字自动排序&#…

JUC阻塞队列(三):PriorityBlockingQueue

1、PriorityBlockingQueue 介绍 PriorityBlockingQueue 是一个优先级队列,它不满足队列的先进先出特点; PriorityBlockingQueue 会对队列的数据进行排序,排序规则是数据的优先级; PriorityBlockingQueue是基于二叉堆来实现优先级的…

鸿蒙(API 12 Beta3版)【DRM会话管理(ArkTS)】数字版权保护

DRM会话管理(MediaKeySession)支持媒体密钥管理及媒体解密等,MediaKeySession实例由系统管理里的MediaKeySystem实例创建和销毁。 开发步骤 导入相关接口,导入方法如下。 import { drm } from kit.DrmKit;导入BusinessError模块&…

巡检机器人的使用方法和维护保养

在当今快速发展的工业环境中,智能巡检机器人正逐渐成为提升运维效率和安全性的重要工具。旗晟机器人凭借其核心技术团队和多年的行业经验,推出了多款高效、智能的巡检机器人,旨在帮助企业实现设备运维的智能化升级。本文将介绍旗晟巡检机器人…

第1章-02-Python环境安装与测试

🏆作者简介,黑夜开发者,CSDN领军人物,全栈领域优质创作者✌,CSDN博客专家,阿里云社区专家博主,2023年CSDN全站百大博主。 🏆数年电商行业从业经验,历任核心研发工程师,项目技术负责人。 🏆本文已收录于专栏:Web爬虫入门与实战精讲。 🎉欢迎 👍点赞✍评论⭐收…

ensp小实验(ospf+dhcp+防火墙)

前言 今天给大家分享一个ensp的小实验,里面包含了ospf、dhcp、防火墙的内容,如果需要文件的可以私我。 一、拓扑图 二、实训需求 某学校新建一个分校区网络,经过与校领导和网络管理员的沟通,现通过了设备选型和组网解决方案&…

JUC- Synchronized原理

对象头概念 以 32 位虚拟机为例 Klass Word:指向类对象的指针,标明这个对象的类型 普通对象 |--------------------------------------------------------------| | Object Header (64 bits) | |---------------…

第二十二讲 python中traceback 模块

目录 1. traceback 模块概述 2.捕获和记录异常 3.traceback 模块的函数 3.1 traceback.format_exc() 3.2 traceback.format_exception(etype, value, tb) 3.3 traceback.print_exc() 3.4 traceback.extract_tb(tb) 1. traceback 模块概述 traceback 模块提供了多种函数&#xf…

django实现手机号归属地查询

要在 Django 中创建一个手机归属地查询页面,前端部分通常包括一个输入框用于输入手机号码和一个按钮用于提交查询请求,随后在页面上显示查询结果。 1. 前端页面设计 在 Django 中,创建一个模板文件(例如 phone_location_query.h…

Linux 基础命令大全

Linux是一个功能强大、灵活的操作系统,为用户提供了稳定性、安全性和庞大的开发者和用户社区。它是个人和企业使用的流行选择。 当涉及到Linux基础命令时,以下是一些常用的命令及其功能介绍: 1.ls 查看目录 语法:ls [选项] [文件…

【知识分享】ubuntu22.04-ESP32环境搭建

文章目录 一、概要二、环境及工具介绍三、名词解释四、环境搭建 一、概要 手上有一块安信可的WIFI开发板,用的是乐鑫的ESP32模组。刚好最新装了双系统,貌似在Linux环境使用gcc编译器会快一些。     万事开头难,要在Linux环境下进行开发工…

探索数据结构:哈希表的分析与实现

✨✨ 欢迎大家来到贝蒂大讲堂✨✨ 🎈🎈养成好习惯,先赞后看哦~🎈🎈 所属专栏:数据结构与算法 贝蒂的主页:Betty’s blog 1. 哈希的引入 1.1. 哈希的概念 无论是在顺序结构还是在树形结构中&am…

mq-direct交换机

把消息分发给不同的人,不是所有人都收到 例如 已加入伙伴计划作者,发加入激励的消息,未加入伙伴计划的就发邀请的消息,不同的微服务发送不同的消息 交换机 direct交换机,要指定key,可以同时收到&#xf…

<数据集>鸟类识别数据集<目标检测>

数据集格式:VOCYOLO格式 图片数量:16287张 标注数量(xml文件个数):16287 标注数量(txt文件个数):16287 标注类别数:10 标注类别名称:[Chestnut Munia, Zebra Dove, Garden Sunbird, Collared Kingfish…

用基础项目来理解spring的作用

简介 spring官方的解释过于专业化,初学者可能比较难懂,接下来我将通过一个最基础的Java项目来尽可能的展示spring中的作用及spring的底层是如何来实现的。 项目结构 该项目是一个简单的JavaSE项目,没有maven或者tomcat等其他。只在控制台进…

【UE5】基于摄像机距离逐渐剔除角色

效果 步骤 1. 新建一个工程,在内容浏览器中添加第三人称游戏内容包 2. 找到第三人称角色的材质实例“MI_Quinn_01”并打开 找到材质实例的父项材质“M_Mannequin” 打开材质“M_Mannequin” 在材质图表中添加如下节点 此时运行效果如文章开头所示。 参考视频&#…

node版本8.x→16.x,前端维护火葬场,问题及解决方案总结

为了后续的工程开发,我需要升级我的node,在此之前我的node版本是8,这个版本太老了,从8升级到16的跨度太大,对于以前的许多项目,产生了非常多维护方面的问题,历时四天终于全部解决了,…

python中的randint如何使用

python中的randint用来生成随机数,在使用randint之前,需要调用random库。random.randint()是随机生成指定范围内的整数,其有两个参数,一个是范围上限,一个是范围下限。 具体用法如下: import random print…

Redis系列之事务

概述 Redis事务提供一种将多个命令打包,然后一次性、按顺序地执行的机制,在事务执行的期间不会主动中断,服务器在执行完事务中的所有命令之后,才会继续处理其他客户端的其他命令。 三个重要的保证: 批量操作在发送E…