《机器学习》—— 通过下采样方法实现逻辑回归分类问题

news2025/1/9 15:05:20

文章目录

  • 一、什么是下采样方法?
  • 二、通过下采样方法实现逻辑回归分类问题
  • 三、下采样的优缺点

一、什么是下采样方法?

机器学习中的下采样(Undersampling)方法是一种处理不平衡数据集的有效手段,特别是在数据集中某些类别的样本数量明显多于其他类别时。下采样的主要目的是通过减少多数类样本的数量来平衡数据分布,从而提高模型的泛化能力和准确性。

二、通过下采样方法实现逻辑回归分类问题

  • 具体步骤
    • 1、读取并查看数据
    • 2、数据标准化
    • 3、下采样解决样本不均衡问题
    • 4、划分数据集
    • 5、训练模型并建立最优模型
    • 6、传入测试数据集进行测试
  • 1、读取并查看数据
    • 这里有一份含有28万+数据的csv文件

    • 通过pandas方法读取此文件

      # 通过pandas方法读取creditcard.csv文件,并用data变量接收
      data = pd.read_csv("creditcard.csv")
      data.head()  # 查看data的前几行,默认是5行
      
    • 如下图所示:
      在这里插入图片描述

    • 这个数据的最后一列“Class”标签用来标注是否正常,0表示正常,1表示异常

    • 我们可以通过画出条形图来观察两类标签的样本个数

      import matplotlib.pyplot as plt
      """绘制条形图,查看正负样本个数"""
      labels_count = pd.Series.value_counts(data['Class'])
      plt.title("正负例样本数")
      plt.xlabel("类别")
      plt.ylabel("帧数")
      labels_count.plot(kind='bar')
      plt.show()
      
    • 结果如下:在这里插入图片描述

    • 可以看出0和1标签的样本数据个数相差的非常多,0标签有28万+,而1标签只有几百多,这便是不平衡数据集

  • 2、数据标准化
    • 我们数据的倒数第二(Amount)列可以看出,这一列的特征数值,比其他列特征数值要大很多,如果不做调整就传入模型训练,将会占有很大的权重,导致最后的结果很大的程度上都只受这一个特征的影响
    • 通过观察,可以发现,前面的特征数据都是在-1~1之间,所以我们可以用Z标准化的方法,改变其数值范围
      from sklearn.preprocessing import StandardScaler
      """数据标准化:Z标准化"""
      scaler = StandardScaler()
      # a = data[['Amount']]  # 返回dataframe数据,而不是series
      # 用StandardScaler中的fit_transform实现Z标准化
      data['Amount'] = scaler.fit_transform(data[['Amount']])
      
    • 结果如下:
      在这里插入图片描述
  • 3、下采样解决样本不均衡问题
    • 通过随机抽取0特征标签中的数据并与1特征标签数量相同,并将两个特征拼接为一个新的数据集

      # 数据的第一列(Time)没有作用,删除
      data = data.drop(['Time'], axis=1)  # 删除无用列
      
      """下采样解决样本不均衡问题"""
      positive_eg = data[data['Class'] == 0]  # 获取所有标签(Class)为0的数据
      negative_eg = data[data['Class'] == 1]  # 获取所有标签(Class)为1的数据
      np.random.seed(seed=3)    # 随机种子,保证每次执行这个代码,随机抽选的结果都是一样
      positive_eg = positive_eg.sample(len(negative_eg))   # sample 表示随机从参数里面选择数据,并和1标签的数据数量相同
      # 拼接数据
      data_c = pd.concat([positive_eg, negative_eg])   # 把两个pandas数据组合为一个
      
    • 可以再次通过绘制条形图观察数据

      labels_count = pd.value_counts(data_c['Class'])
      plt.title("正负例样本数")
      plt.xlabel("类别")
      plt.ylabel("帧数")
      labels_count.plot(kind='bar')
      plt.show()
      
    • 结果如下:
      在这里插入图片描述

  • 4、划分数据集
    • 这里我们划分成两类数据集,一类是经过下采样处理后,形成的小部分数据集,另一类是划分原始数据集
    • 划分下采样后的数据集用于模型训练,划分原数据集最后传入模型预测出结果,观察模型的性能是否有所提高
      from sklearn.model_selection import train_test_split
      # 对下采样数据划分
      x_s = data_c.drop('Class', axis=1)  # 去除标签列作为训练数据
      y_s = data_c.Class  # 得到标签列
      # 划分出30%的测试集,并抛出随机种子,为了后面每次的运行,随机划分的都是相同的数据
      x_s_train, x_s_test, y_s_train, y_s_test = train_test_split(x_s, y_s, test_size=0.3, random_state=0)
      
      # 对原数据划分
      x = data.drop('Class', axis=1)
      y = data.Class
      x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=0)
      
  • 5、训练模型并建立最优模型
    • 交叉验证选择较优惩罚因子

    • 建立最优模型

      # 交叉验证选择较优惩罚因子
      scores = []
      c_param_range = [0.01, 0.1, 1, 10, 100]  # 参数
      for i in c_param_range:  # 第1次循环的时候C=0.01,5个逻辑回归模型
          lr = LogisticRegression(C=i, penalty='l2', solver='lbfgs', max_iter=1000)
          score = cross_val_score(lr, x_s_train, y_s_train, cv=8, scoring='recall')  # 交叉验证
          score_mean = sum(score) / len(score)  # 交叉验证后的值 召回率
          scores.append(score_mean)  # 存放所有的交叉验证召回率
          print(score_mean)  # 将不同的C参数分别传入模型, 分别看看哪个模型效果更好
      
      best_c = c_param_range[np.argmax(scores)]  # 找到scores中最大的值对应的C参数
      print("........最优惩罚因子为:{}........".format(best_c))
      
      """建立最优模型"""
      lr = LogisticRegression(C=best_c, penalty='l2', max_iter=1000)
      lr.fit(x_s_train, y_s_train)
      
    • 运行结果为:

  • 6、传入测试数据集进行测试
    • predict 方法接受一个数组(或类似数组的结构,如列表的列表、Pandas DataFrame等),其中包含了要预测的目标变量的新数据点。然后,它使用训练好的模型对这些数据点进行预测,并返回一个包含预测结果的数组

    • metrics.classification_report 是 scikit-learn(一个流行的 Python 机器学习库)中的一个函数,用于展示主要分类指标的文本报告。这个函数特别适用于评估分类模型的性能,尤其是在处理多类分类问题时。它提供了每个类别的精确度(precision)、召回率(recall)、F1 分数(F1-score)和支持度(support,即每个类别的真实样本数量)的详细报告。

      from sklearn import metrics
      
      # 传入下采样后的测试数据
      test_s_predicted = lr.predict(x_s_test)
      print(metrics.classification_report(y_s_test, test_s_predicted))
      
      # 传入原数据的测试数据
      test_predicted = lr.predict(x_test)
      print(metrics.classification_report(y_test, test_predicted))
      
      
    • 结果如下:
      在这里插入图片描述

    • 下面是未使用下采样方法,使用原数据进行模型训练后的结果
      在这里插入图片描述

    • 对比两次不同数据训练出的结果可以看出,通过下采样的方法处理数据后可以大大提高模型的性能

三、下采样的优缺点

  • 优点:
    • 提升分类器准确率:通过减少多数类样本的数量,使得数据集中不同类别的样本数量更加均衡,从而有助于提升分类器对少数类样本的识别能力,进而提升整体分类准确率。
    • 降低训练时间:由于数据集的大小减少,模型的训练时间也会相应缩短。
    • 降低过拟合风险:减少多数类样本的数量可以降低模型对多数类样本的过度拟合,提高模型的泛化能力。
  • 缺点:
    • 降低数据集代表性:随机欠采样可能会剔除一些重要的多数类样本,导致数据集的代表性降低。这可能会影响模型的性能,特别是当被剔除的样本包含对分类任务至关重要的信息时。
    • 信息损失:由于剔除了部分多数类样本,数据集中的信息量也会相应减少。这可能会导致模型在训练过程中无法充分学习到多数类的特征分布,从而影响模型的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2069218.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

VTK随笔三:坐标系统、空间变换、VTK管线、VTK智能指针

一、坐标系统 Model坐标系统:定义模型时所采用的坐标系统,通常是局部的笛卡尔坐标系。World坐标系统:是放置Actor的三维空间坐标系,Actor(vtkActor类)其中的一个功能就是负责将模型从Model坐标系统变换到World坐标系统。每一个模…

python动画:实现贝塞尔曲线【bezier】

贝塞尔曲线在计算机图形学中用于绘制形状、用于 CSS 动画和许多其他地方。它们是一件非常简单的事情,值得学习一次,然后在矢量图形和高级动画的世界中感到舒适。 一.控制点 贝塞尔曲线由控制点可能有 2、3、4 或更多。 例如,二次贝塞尔曲线…

基于java教师课堂教学质量评价系统设计与实现

课题背景 高等学校的根本任务是培养人才,课堂教学是高校完成人才培养的重要环节,因此, 教师教学质量的高低对学生掌握和运用知识的程度有着密不可分的作用,为了保证教师的教学质量,教学评价成为了各高校衡量教师教学质…

大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化

点一下关注吧!!!非常感谢!!持续更新!!! 目前已经更新到了: Hadoop(已更完)HDFS(已更完)MapReduce(已更完&am…

盘古信息IMS MCM制造协同管理系统:为中小企业数字化转型量身打造的数字化方案

近年来,全球经济的不稳定性,给中小企业的经营和发展带来了巨大的挑战。为提升企业竞争力,中小企业纷纷谋求数字化转型路径,优化生产流程、提高运营效率、降低生产成本,以应对变幻莫测的市场环境。IMS MCM是盘古信息为广…

go中 panicrecoverdefer机制

go的defer机制-CSDN博客 常见panic场景 数组或切片越界,例如 s : make([]int, 3); fmt.Println(s[5]) 会引发 panic: runtime error: index out of range空指针调用,例如 var p *Person; fmt.Println(p.Name) 会引发 panic: runtime error: invalid m…

IT 人员配置的演变趋势:2024 年上半年的见解

随着我们深入研究 2024 年的动态格局,IT 人员配置领域在前六个月见证了几个值得注意的趋势和变化。 这些发展不仅反映了企业不断变化的需求,也凸显了技术对劳动力动态的变革性影响。 以下是在这个关键年份上半年塑造 IT 人员配置的一些关键趋势的详细介…

Python办公自动化smtplib实现自动发送邮件

学好python自动化,走遍天下都不怕!! 今天主要学习如何利用python自动化分析处理数据并以附件形式发送邮箱。需要安装配置python的运行环境,以及电脑支持Excel文件,有可以正常使用的邮箱。还需要用到python的第三方模块…

剧本杀门店预约小程序,提高消费者体验

当下,剧本杀行业一直处于活跃的状态,不管是线下聚会还是休闲娱乐,剧本杀游戏都是消费者的选择,剧本杀市场具有非常大的发展前景。 剧本杀门店预约系统是一个高效、便捷的游戏预约方式,能够帮助消费者便捷预约&#xf…

基于ssm的爱心捐赠管理系统的设计与实现(论文+源码)_kaic

摘 要 在互联网高速发展的现在,许多的办公与应用从传统的实体办理变为了在线处理。网购与网淘商品的浏览也从大街小巷变为了在线预览,从而使网上用户更好地对物品产生客观、全面立体的认知,并且对物品的对比也更加的省时省力。 爱心捐赠管…

一个简单的springboot项目(有源码)

开发一个springboot项目 代码迭代整合工具 gitee建模意义程序处理方式开发功能的步骤web服务网络状态码 web应用的开发分层springboot的作用 springboot框架搭建框架中各组件作用框架的演变如何提取hive中的表结构创建springboot 工程的引导模版 要选择aliyun ,否则…

java ssl使用自定义证书或忽略证书

1.证书错误 Caused by: sun.security.provider.certpath.SunCertPathBuilderException: unable to find valid certification path to requested target 2.生成客户端证书 openssl x509 -in <(openssl s_client -connect 192.168.11.19:8101 -prexit 2>/dev/null) -ou…

linux neo4j 切换知识图谱

neo4j 安装 linux neo4j的安装可以浏览这篇文章&#xff1a; ubuntu sudo apt-get install neo4j 配置安装与设置远程访问 引言 如果你是window用户&#xff0c;直接下载桌面版进行安装与使用即可&#xff1b; 我有一台linux的服务器&#xff0c;想部署在上面&#xff0c;不…

UE5.4内容示例(5)UI_CommonUI - 学习笔记

https://www.unrealengine.com/marketplace/zh-CN/product/content-examples 《内容示例》是学习UE5的基础示例&#xff0c;可以用此熟悉一遍UE5的功能 UI_CommonUI可以看这个视频学习&#xff0c;此插件处于Beta状态&#xff0c;应用UI游戏方面&#xff0c;支持手柄等多输入端…

打饭-GYM

打饭 我还不信了&#xff0c;手动模拟一遍 再来了好看一点的图 ji12345a[i]21341120x3f0x3f0x3f0x3f0x3f114220x3f0x3f0x3f0x3f103520x3f0x3f0x3f0x3f9min(332,42)4020x3f0x3f0x3f8min(332,35)min(332,40)3190x3f0x3f7min(262,33)332490x3f0x3f6min(172,33)3120x3f0x3f0x3f5min…

【前端基础篇】JavaScript基础介绍

文章目录 前言初始JavaScriptJavaScript是什么发展历史JavaScript和HTML和CSS之间的关系JavaScript的运行过程JavaScript的组成 JavaScript的书写形式行内式内嵌式外部式注释 输入输出基础语法变量数据类型 运算符 JavaScript对象对象new关键字 常用对象数组创建数组数组操作函…

电影票api接口对接开发过程中需要注意什么?

电影票API接口对接过程需要考虑以下几个关键点&#xff1a; 1.了解API接口基础&#xff1a; 获取接口文档&#xff0c;理解其结构、请求方式、参数和返回数据格式。 2.接入流程&#xff1a; 使用API密钥或令牌进行身份验证。利用沙箱环境无风险测试。选择合适的编程语言实现…

Centos LVM磁盘合并方法

Centos LVM磁盘合并方法 使用fdisk -l命令查看机器增加了2块物理磁盘&#xff0c;一块40G另一块50G 需要将这两块盘的空间合并在一起&#xff0c;而且还需要动态扩展即在不关机的情况下操作 使用pvcreate将两块新增的物理磁盘加入物理卷 [rootlocalhost ~]# pvcreate /dev/sdb…

6G网络的关键技术、应用前景与挑战并存的科技征途

移动通信技术正以前所未有的速度迭代更新&#xff0c;而6G技术的研发与商用化进程渐渐成为了当前科技领域的热点与焦点。在5G技术尚未完全普及的今天&#xff0c;全球各国已纷纷将目光投向了更加充满想象的6G网络时代。本文将探讨全球6G研发的最新进展&#xff0c;特别是欧盟与…

Webots与ROS1、ROS2接口变迁-2024-

三大免费仿真器CoppeliaSim、Gazebo和Webots。 Gazebo接口总结&#xff1a; Gazebo与ROS1、ROS2接口变迁-2005-2024--CSDN博客 缺点&#xff1a;版本绑定策略 早期webots版本和ros版本绑定 后期&#xff0c;webots接口最新版本和ros特定版本最匹配。 例如&#xff1a; 最好按…