《机器学习》—— 使用过采样方法实现逻辑回归分类问题

news2024/11/27 18:36:36

文章目录

  • 一、什么是过采样方法?
  • 二、使用过采样方法实现逻辑回归分类问题
  • 三、过采样的优缺点

本篇内容是 基于Python的scikit-learn库中sklearn.linear_model 类中的 LogisticRegression()逻辑回归方法实现的,其内容中只是在处理训练集的方法上与以下链接内容里的不同,在其他的方面都是一样的,可以放在一起看。

  • 《机器学习》—— 通过下采样方法实现逻辑回归分类问题:
    https://blog.csdn.net/weixin_73504499/article/details/141367509

一、什么是过采样方法?

  • 过采样(Over-sampling)是数据预处理中的一种技术,主要用于处理不平衡数据集(imbalanced datasets)问题。在不平衡数据集中,某些类别的样本数量远多于其他类别,这可能导致机器学习模型在训练时偏向于多数类,从而忽略了少数类,进而在预测时表现出对少数类的低准确率。
  • 过采样的基本思想是通过增加少数类(即样本数量较少的类别)的样本来改善数据集的平衡性
  • 本篇我们使用过采样方法中的合成少数类过采样技术(SMOTE, Synthetic Minority Over-sampling Technique)对数据集进行过采样操作
    • 合成少数类过采样技术(SMOTE, Synthetic Minority Over-sampling Technique)是一种复杂的过采样方法,它通过生成新的少数类样本来增加其数量。SMOTE算法首先选择少数类中的一个样本,然后在其最近的k个邻居(这些邻居也属于少数类)中随机选择一个样本,并在两个样本之间的连线上随机生成一个新的样本。这个过程可以重复多次,以生成足够数量的新样本。

二、使用过采样方法实现逻辑回归分类问题

  • 具体步骤:

    • 1、读取并查看数据
    • 2、数据标准化
    • 3、切分原始数据
    • 4、过采样解决样本不均衡问题
    • 5、训练模型并建立最优模型
    • 6、传入测试数据集进行测试
  • 1、读取并查看数据

    • 这里有一份含有28万+数据的csv文件

    • 通过pandas方法读取此文件

      # 通过pandas方法读取creditcard.csv文件,并用data变量接收
      data = pd.read_csv("creditcard.csv")
      data.head()  # 查看data的前几行,默认是5行
      
    • 如下图所示:
      在这里插入图片描述

    • 这个数据的最后一列“Class”标签用来标注是否正常,0表示正常,1表示异常

    • 我们可以通过画出条形图来观察两类标签的样本个数

      import matplotlib.pyplot as plt
      """绘制条形图,查看正负样本个数"""
      labels_count = pd.Series.value_counts(data['Class'])
      plt.title("正负例样本数")
      plt.xlabel("类别")
      plt.ylabel("帧数")
      labels_count.plot(kind='bar')
      plt.show()
      
    • 结果如下:
      在这里插入图片描述

    • 可以看出0和1标签的样本数据个数相差的非常多,0标签有28万+,而1标签只有几百多,这便是不平衡数据集

  • 2、数据标准化

    • 我们数据的倒数第二(Amount)列可以看出,这一列的特征数值,比其他列特征数值要大很多,如果不做调整就传入模型训练,将会占有很大的权重,导致最后的结果很大的程度上都只受这一个特征的影响
    • 通过观察,可以发现,前面的特征数据都是在-1~1之间,所以我们可以用Z标准化的方法,改变其数值范围
      from sklearn.preprocessing import StandardScaler
      """数据标准化:Z标准化"""
      scaler = StandardScaler()
      # a = data[['Amount']]  # 返回dataframe数据,而不是series
      # 用StandardScaler中的fit_transform实现Z标准化
      data['Amount'] = scaler.fit_transform(data[['Amount']])
      # 删除无用列(第一列没有作用)
      data = data.drop(['Time'], axis=1)  
      
    • 结果如下:
      在这里插入图片描述
  • 3、切分原数据

    • 对原始数据进行切分,切出20%作为测试集,其余的为训练集
      # 切分数据集
      x_whole = data.drop('Class', axis=1) # # 去除标签列作为训练数据
      y_whole = data.Class  # 得到标签列
      # 划分出20%的测试集,并抛出随机种子,为了后面每次的运行,随机划分的都是相同的数据
      x_train_w, x_test_w, y_train_w, y_test_w = train_test_split(x_whole, y_whole, test_size=0.2, random_state=0)
      
  • 4、过采样解决样本不均衡问题

    • 使用SMOTE算法通过生成新的少数类样本来增加其数量

      # 进行过采样操作
      from imblearn.over_sampling import SMOTE
      
      oversampler = SMOTE(random_state=0)  # 随机种子
      os_x_train, os_y_train, = oversampler.fit_resample(x_train_w, y_train_w)  # 人工拟合数据
      # os_x_train:传入模型训练的训练数据
      # os_y_train:传入模型训练的标签数据
      
    • 可以再次通过绘制条形图观察数据

      """绘制图形,查看正负样本个数"""
      # 通过标签数据来查看
      labels_count = pd.Series.value_counts(os_y_train)
      plt.title("正负例样本数")
      plt.xlabel("类别")
      plt.ylabel("帧数")
      labels_count.plot(kind='bar')
      plt.show()
      
    • 结果如下:
      在这里插入图片描述

    • 可以看出通过SMOT算法,让1标签的数据量增加到与0标签相同的数量

  • 5、训练模型并建立最优模型

    • 交叉验证选择较优惩罚因子

    • 建立最优模型

      # 交叉验证选择较优惩罚因子
      scores = []
      c_param_range = [0.01, 0.1, 1, 10, 100]  # 参数
      for i in c_param_range:  # 第1次循环的时候C=0.01,5个逻辑回归模型
          lr = LogisticRegression(C=i, penalty='l2', solver='lbfgs', max_iter=1000)
          score = cross_val_score(lr, x_train_w, y_train_w, cv=10, scoring='recall')  # 交叉验证
          score_mean = sum(score) / len(score)  # 交叉验证后的值 召回率
          scores.append(score_mean)  # 存放所有的交叉验证召回率
          print(score_mean)  # 将不同的C参数分别传入模型, 分别看看哪个模型效果更好
      
      best_c = c_param_range[np.argmax(scores)]  # 找到scores中最大的值对应的C参数
      print("........最优惩罚因子为:{}........".format(best_c))
      
      """建立最优模型"""
      lr = LogisticRegression(C=best_c, penalty='l2', max_iter=1000)
      lr.fit(os_x_train, os_y_train)
      
    • 运行结果为:
      在这里插入图片描述

  • 6、传入测试数据集进行测试

    • predict 方法接受一个数组(或类似数组的结构,如列表的列表、Pandas DataFrame等),其中包含了要预测的目标变量的新数据点。然后,它使用训练好的模型对这些数据点进行预测,并返回一个包含预测结果的数组。

    • metrics.classification_report 是 scikit-learn(一个流行的 Python 机器学习库)中的一个函数,用于展示主要分类指标的文本报告。这个函数特别适用于评估分类模型的性能,尤其是在处理多类分类问题时。它提供了每个类别的精确度(precision)、召回率(recall)、F1 分数(F1-score)和支持度(support,即每个类别的真实样本数量)的详细报告。

      from sklearn import metrics
      
      # 传入原数据切分后的训练数据进行测试
      train_predicted_w = lr.predict(x_train_w)
      print(metrics.classification_report(y_train_w,train_predicted_w))
      
      # 传入原数据切分后的测试数据进行测试
      test_predicted_w = lr.predict(x_test_w)
      print(metrics.classification_report(y_test_w, test_predicted_w))
      
    • 结果如下:
      在这里插入图片描述

    • 下面是未使用过采样方法,使用原数据进行模型训练后的结果
      在这里插入图片描述

    • 对比两次不同数据训练出的结果可以看出,通过过采样的方法处理数据后可以大大提高模型的性能

三、过采样的优缺点

  • 优点:

    • 平衡数据集:过采样通过增加少数类样本的数量,有助于平衡训练数据集中各个类别之间的比例,从而提高机器学习模型对少数类别的分类性能。
    • 不引入偏见:在合成新的少数类样本时,过采样方法(如SMOTE算法)并不依赖于多数类样本,因此不会引入对多数类的任何偏见。
  • 缺点:

    • 过拟合风险:过度依赖过采样可能导致模型对训练数据过拟合,从而在未知数据上表现不佳。这是因为模型可能过于关注少数类的特征,而忽略了数据的整体分布。
    • 增加计算成本:过采样方法需要合成新的样本,这会增加数据集的规模,进而增加训练和预测的计算成本。
    • 引入噪声:在合成新的少数类样本时,过采样方法可能引入一定程度的噪声,这可能对模型的性能产生不利影响。
    • 类别平衡失衡:过采样可能会导致数据集类别的平衡性失衡,特别是当过采样比例过高时,会使得多数类样本的比例相对较低,从而可能导致模型对多数类样本的分类性能下降。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2060580.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

进程与线程(7)

IPC通信方式: 一、共享内存 system v : 共享内存 是一块,内核预留的空间 最高效的通信方式 (避免了用户空间 到 内核空间的数据拷贝) 二、IPC对象操作通用框架: key值 > 申请 》读写 》关闭 》卸载 1.ftok函数:…

【Dash】Dash中@callback() 回调函数的Output() 参数

一、Dash 中的 callback() 在Python中,callback是一个用于注册回调函数的装饰器 Dash 的回调机制允许开发者创建交互式的Web应用,通过回调函数可以实现前端界面与后端逻辑的交互。 二、callback() 的概念、定义和应用场景 概念 callback 是 Dash 框…

视觉表征学习中的世界模型:自监督方法的新篇章

人工智能咨询培训老师叶梓 转载标明出处 计算机视觉中,表征学习是一个核心问题。如何让机器像人类一样理解图像内容,是实现高级视觉任务的关键。传统的自监督学习方法往往依赖于数据的变换来预测其变化,例如遮蔽图像建模(Masked …

SpringBoot:将单体项目拆分成微服务项目

💥 该系列属于【SpringBoot基础】专栏,如您需查看其他SpringBoot相关文章,请您点击左边的连接 目录 一、项目准备 二、拆分商品服务和购物车服务 1. 商品服务 (1)创建模块 (2)填写依赖 &a…

数学生物学-1-指数增长与衰退(Exponential Growth and Decay)

我们注意到数学专业的学生往往没有生物学系统的思维,而生物专业的学生则常常对数学感到恐惧。许多生物专业的学生可能一直对科学感兴趣,部分原因是他们认为生物学是一个不需要任何数学技能或背景就可以研究的科学领域。我认为这是不对的思维。 虽然大多…

Fortify相比其他扫描工具的优势在哪里?

最新发布的 Fortify 22.1.0 版本,不仅能高度兼容最新的软件技术,同时继续保持对运营环境常见的应用安全用例的广泛兼容性。经过强化的 Fortify 进一步提升了性能、准确性、可扩展性和易用性。 无论是运行 DevSecOps、开展云计算转型,还是确保…

Mac移动硬盘选什么格式最好 Mac怎么用ntfs移动硬盘

在使用Mac电脑的过程中,很多用户可能有需要扩展存储空间的需求。选择合适的移动硬盘格式对于数据传输的效率和兼容性至关重要。本文将详细介绍Mac移动硬盘选什么格式好,以及Mac怎么用ntfs移动硬盘,帮助用户优化Mac的使用体验。 一、Mac移动硬…

【具体数学 Concrete Mathematics】1.1.2 平面上的直线

【具体数学 Concrete Mathematics】1.1.2 平面上的直线

仿照ContentLoadingProgressBar 的特点在Android项目中自定义Loading对话框

ContentLoadingProgressBar 是 Android 中的一个控件,继承自 ProgressBar。它在 ProgressBar 的基础上添加了一些特殊功能,主要用于在加载内容时显示进度。它的一些主要特点如下: 自动隐藏和显示:ContentLoadingProgressBar 会在…

引发C++程序内存泄漏的常见原因分析与排查方法总结

目录 1、概述 2、内存泄漏与程序的位数 3、调用哪些接口去动态申请内存? 4、引发内存泄漏的常见原因总结 4.1、通过malloc/new等动态申请的内存,在使用完后,没有调用free/delete去释放(也可能是调用了上面讲到的HeapAlloc或V…

计算机专业大四毕业生如何在一天内完成开题报告?一招教你解锁开题报告写作技巧

💕💕作者:计算机源码社 💕💕个人简介:本人 八年开发经验,擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等,大家有这一块的问题可以一起交流&…

SQL Server数据库 创建表,和表的增删改查

打开SQL Server工具,连接服务器 右击数据库,创建新的数据库 新建表 填写列,我添加了Id,Name,Sex,Age,和class列 右键表刷新一下就有了 我又同时创建了一个Class表 点击新建查询,现在写代码添加数据,也可以操作表来对数据进行添加 …

GEC6818开发板显示BMP格式图片

1、BMP格式图片 bmp格式图片是没有经过任何压缩过的图片,缺点是为文件尺寸比较大,不适合传播;优点是文件必须要解码器可以读出来直接使用。 虽然BMP格式文件内部存储的就是RGB数据,无需任何解码,但毕竟RGB数据是纯数据,没有任何图片尺寸、色深等具体信息,因此我们需要了…

滴滴二季度GTV达963亿元 经调整EBITA盈利13亿元

8月21日,滴滴在其官网发布2024年二季度业绩报告。 二季度,包括中国出行和国际业务在内的核心平台交易量为38.75亿单,较去年同期增长17.4%。其中,中国出行总单量为30.04亿单,较去年同期增长12.3%;国际业务总…

python爬虫--pyquery解析库整理

前言 欢迎来到我的博客 个人主页:北岭敲键盘的荒漠猫-CSDN博客 本文整理python的爬虫解析库pyquery的语法 简洁快速的整理,建议有前端基础的人看 pyquery解析原理 pyquery的原理就是拿到网站的前端源码后,我们根据我们需求信息所在的标签进行筛选。 选…

C语言第15篇

1.阅读下面的程序 #include<stdio.h> void main() { int i,j; i010; j9; printf("%d,%d",i-j,ij); } 则程序的运行结果是________. A) 1,19 B) -1,19 C) 1,17 D) -1,17 提示&#xff1a;八进制 2.以下程序段__________. x-1; do { xx*…

Aria2安装和使用-Mac版

起因是需要网盘下载&#xff0c;无奈限速很烦&#xff0c;查找很多方案后&#xff0c;最终决定使用Aria2 Tampermonkey。 其中Aria2是一款开源轻量的下载软件&#xff0c;简单来说就是可以通过URL直接下载。 Tampermonkey则是一款插件&#xff0c;我这里是.crx结尾的谷歌插件…

WPF调用CEF插件运行时启动CefSharp.BrowserSubprocess.exe三个进程

cefsharp.browsersubprocess.exe 是CefSharp&#xff08;一个基于Chromium的开源浏览器控件&#xff09;的一部分。这个可执行文件通常在以下情况下启动&#xff1a; 渲染进程&#xff1a;CefSharp使用多进程架构&#xff0c;类似于Chrome浏览器。cefsharp.browsersubprocess.e…

【网络】HTTPS——HTTP的安全版本

1.HTTP的问题 1、使用明文通信 HTTP协议不具备给通讯内容加密的功能&#xff0c;所有使用HTTP协议通信的请求和响应的内容无法进行加密,都是使用明文发送。由于HTTP属于TCP/IP协议族的协议&#xff0c;按照TCP/IP协议族的通讯机制&#xff0c;HTTP在整个通讯线路上都存在被窃听…

商务场合的白酒艺术,助你轻松搭建人脉

在繁忙的商务世界中&#xff0c;每一次会面都可能是开启新机遇的钥匙。而在这些重要的场合中&#xff0c;白酒不仅仅是一种饮品&#xff0c;更是一种文化的载体、一种沟通的桥梁。今天&#xff0c;就让我们一起探讨如何在商务场合中&#xff0c;通过豪迈白酒&#xff08;HOMANL…