机器学习：逻辑回归--下采样

机器学习：逻辑回归--下采样

news2025/3/12 12:48:23

目录

前言

一、为什么使用下采样

1.例如：

2.导致：

3.办法：

4.结果：

二、代码实现

1.完整代码

2.导入库

3.可视化混淆矩阵

4.导入数据

5数据预处理

6.下采样

7.取出训练集和测试集

8.建立模型

9.进行测试

总结

前言

下采样（Downsampling）是一种在数据处理中减少样本数量的技术。这种方法通常用于减少数据集的大小，以便进行更高效的计算或处理。下采样可以应用于不同类型的数据，包括信号、图像和分类数据。

一、为什么使用下采样

creditcard（点击这里下载文件）
有时我们的标签数据两极分化太严重

1.例如：

标签为0的数据28w条，为1的数据只有400多条

2.导致：

这样训练出来的模型，使用测试集进行测试之后，对不同真实值的数据预测的结果差别很大，那么这个模型也就是一个不可用的模型

3.办法：

这时就需要使用下采样方法：

从数据量多的标签数据里随机选择与数据量少的标签数据等量的数据，并组合成小数据集

4.结果：

使用下采样训练模型之后，测试集的召回率有了很大提高。

二、代码实现

1.完整代码

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np


# 可视化混淆矩阵
def cm_plot(y, yp):
    from sklearn.metrics import confusion_matrix
    import matplotlib.pyplot as plt

    cm = confusion_matrix(y, yp)
    plt.matshow(cm, cmap=plt.cm.Blues)
    plt.colorbar()
    for x in range(len(cm)):
        for y in range(len(cm)):
            plt.annotate(cm[x, y], xy=(y, x), horizontalalignment='center',
                         verticalalignment='center')
            plt.ylabel('True label')
            plt.xlabel('Predicted label')
    return plt

# 导入数据
data = pd.read_csv("creditcard.csv")

# 数据标准化: Z标准化
from sklearn.preprocessing import StandardScaler  # 可对多列进行标准化

scaler = StandardScaler()
a = data[['Amount']]  # 取出来变成df数据 因为fit_transform()需要传入df数据
data['Amount'] = scaler.fit_transform(a)  # 对Amount列数据进行标准化
data = data.drop(['Time'], axis=1)  # 删除无用列

"""下采样"""
positive_eg = data[data['Class'] == 0]
negative_eg = data[data['Class'] == 1]
np.random.seed(seed=22)  # 随机种子
positive_eg = positive_eg.sample(len(negative_eg))  # 从标签为0的样本中随机抽取与标签1数量相同的样本
data_c = pd.concat([positive_eg, negative_eg])  # 拼接数据 成为小数据集

plt.rcParams['font.sans-serif'] = ['SimHei']  # 设置字体
plt.rcParams['axes.unicode_minus'] = False  # 解决符号显示为方块的问题
labels_count = pd.value_counts(data_c['Class'])  # 统计0有多少个数据，1有多个数据
plt.title("正负例样本数")
plt.xlabel("类别")
plt.ylabel("频数")
labels_count.plot(kind='bar')  # 生成一个条形图，展示每个类别的样本数量。
plt.show()

# 随机取数据
from sklearn.model_selection import train_test_split

# 从小数据集中取出训练集和测试集
x_c = data_c.drop('Class', axis=1)
y_c = data_c.Class
x_c_train, x_c_test, y_c_train, y_c_test = \
    train_test_split(x_c, y_c, test_size=0.3, random_state=0)  # 随机取数据

# 从大数据集里取出训练集和测试集
x_w = data.drop('Class', axis=1)
y_w = data.Class
x_w_train, x_w_test, y_w_train, y_w_test = \
    train_test_split(x_w, y_w, test_size=0.3, random_state=0)  # 随机取数据

# 交叉验证选择较优惩罚因子 λ
from sklearn.model_selection import cross_val_score  # 交叉验证的函数
from sklearn.linear_model import LogisticRegression

# k折交叉验证选择C参数   使用小数据集
scores = []
c_param_range = [0.01, 0.1, 1, 10, 100]  # 待选C参数
for i in c_param_range:
    lr = LogisticRegression(C=i, penalty='l2', solver='lbfgs', max_iter=1000)  # 创建逻辑回归模型  lbfgs 拟牛顿法
    score = cross_val_score(lr, x_c_train, y_c_train, cv=8, scoring='recall')  # k折交叉验证 比较召回率
    score_mean = sum(score) / len(score)
    scores.append(score_mean)
    # print(score_mean)

best_c = c_param_range[np.argmax(scores)]  # 寻找到scores中最大值的对应的C参数
print(f"最优惩罚因子为:{best_c}")

# 建立最优模型  使用小数据集训练模型
lr = LogisticRegression(C=best_c, penalty='l2', max_iter=1000)
lr.fit(x_c_train, y_c_train)

"""绘制混淆矩阵"""
from sklearn import metrics

# 使用小数据集的训练集进行出厂前测试
train_predicted = lr.predict(x_c_train)  # 训练集特征数据x的预测值
# print(metrics.classification_report(y_c_train, train_predicted))  # 传入训练集真实的结果数据 与预测值组成矩阵
# cm_plot(y_train, train_predicted).show()   # 可视化混淆矩阵

# 使用小数据集的训练集进行测试
test_predicted = lr.predict(x_c_test)
# print(metrics.classification_report(y_c_test, test_predicted))
# cm_plot(y_test, test_predicted).show()

# 使用大数据集进行测试
w_test_predicted = lr.predict(x_w_test)
print(metrics.classification_report(y_w_test, w_test_predicted))

# 设置阈值  比较每个阈值的召回率 选出最优阈值  测试模型的阈值 用小数据集的测试集
thresholds = [0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9]
recalls = []
for i in thresholds:
    y_predict_proba = lr.predict_proba(x_w_test)  # 每条数据分类的预测概率
    y_predict_proba = pd.DataFrame(y_predict_proba)
    y_predict_proba = y_predict_proba.drop([0], axis=1)  # axis=1 表示删除列而不是行 与下面两行代码联动
    y_predict_proba[y_predict_proba[[1]] > i] = 1  # 数据大于i即判断为1类 人为设置阈值
    y_predict_proba[y_predict_proba[[1]] <= i] = 0
    a = y_predict_proba[y_predict_proba[1] > i]
    # cm_plot(y_w_test, y_predict_proba[1]).show()
    recall = metrics.recall_score(y_w_test, y_predict_proba[1])  # 计算召回率
    recalls.append(recall)
    print(f"{i} Recall metric in the testing dataset: {recall:.3f}")

2.导入库

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

3.可视化混淆矩阵

这是通用代码

# 可视化混淆矩阵
def cm_plot(y, yp):
    from sklearn.metrics import confusion_matrix
    import matplotlib.pyplot as plt

    cm = confusion_matrix(y, yp)
    plt.matshow(cm, cmap=plt.cm.Blues)
    plt.colorbar()
    for x in range(len(cm)):
        for y in range(len(cm)):
            plt.annotate(cm[x, y], xy=(y, x), horizontalalignment='center',
                         verticalalignment='center')
            plt.ylabel('True label')
            plt.xlabel('Predicted label')
    return plt

4.导入数据

# 导入数据
data = pd.read_csv("creditcard.csv")

5数据预处理

对特征数据进行标准化
去除无用数据

# 数据标准化: Z标准化
from sklearn.preprocessing import StandardScaler  # 可对多列进行标准化

scaler = StandardScaler()
a = data[['Amount']]  # 取出来变成df数据 因为fit_transform()需要传入df数据
data['Amount'] = scaler.fit_transform(a)  # 对Amount列数据进行标准化
data = data.drop(['Time'], axis=1)  # 删除无用列

6.下采样

分别取出各标签的数据
随机种子可以保证每一次取出来的随机数据是固定的
使用sample函数进行下采样操作
拼接数据组成小数据集
绘制各标签数据条形图

"""下采样"""
positive_eg = data[data['Class'] == 0]
negative_eg = data[data['Class'] == 1]
np.random.seed(seed=22)  # 随机种子
positive_eg = positive_eg.sample(len(negative_eg))  # 从标签为0的样本中随机抽取与标签1数量相同的样本
data_c = pd.concat([positive_eg, negative_eg])  # 拼接数据 成为小数据集

plt.rcParams['font.sans-serif'] = ['SimHei']  # 设置字体
plt.rcParams['axes.unicode_minus'] = False  # 解决符号显示为方块的问题
labels_count = pd.value_counts(data_c['Class'])  # 统计0有多少个数据，1有多个数据
plt.title("正负例样本数")
plt.xlabel("类别")
plt.ylabel("频数")
labels_count.plot(kind='bar')  # 生成一个条形图，展示每个类别的样本数量。
plt.show()

7.取出训练集和测试集

分别取出小数据集和大数据集的训练集和测试集

# 随机取数据
from sklearn.model_selection import train_test_split

# 从小数据集中取出训练集和测试集
x_c = data_c.drop('Class', axis=1)
y_c = data_c.Class
x_c_train, x_c_test, y_c_train, y_c_test = \
    train_test_split(x_c, y_c, test_size=0.3, random_state=0)  # 随机取数据

# 从大数据集里取出训练集和测试集
x_w = data.drop('Class', axis=1)
y_w = data.Class
x_w_train, x_w_test, y_w_train, y_w_test = \
    train_test_split(x_w, y_w, test_size=0.3, random_state=0)  # 随机取数据

8.建立模型

使用k折交叉验证获取最佳C参数，使用的是小数据集
使用最佳C参数建立逻辑回归模型

# 交叉验证选择较优惩罚因子 λ
from sklearn.model_selection import cross_val_score  # 交叉验证的函数
from sklearn.linear_model import LogisticRegression

# k折交叉验证选择C参数   使用小数据集
scores = []
c_param_range = [0.01, 0.1, 1, 10, 100]  # 待选C参数
for i in c_param_range:
    lr = LogisticRegression(C=i, penalty='l2', solver='lbfgs', max_iter=1000)  # 创建逻辑回归模型  lbfgs 拟牛顿法
    score = cross_val_score(lr, x_c_train, y_c_train, cv=8, scoring='recall')  # k折交叉验证 比较召回率
    score_mean = sum(score) / len(score)
    scores.append(score_mean)
    # print(score_mean)

best_c = c_param_range[np.argmax(scores)]  # 寻找到scores中最大值的对应的C参数
print(f"最优惩罚因子为:{best_c}")

9.进行测试

代码：

"""绘制混淆矩阵"""
from sklearn import metrics

# 使用小数据集的训练集进行出厂前测试
train_predicted = lr.predict(x_c_train)  # 训练集特征数据x的预测值
# print(metrics.classification_report(y_c_train, train_predicted))  # 传入训练集真实的结果数据 与预测值组成矩阵
# cm_plot(y_train, train_predicted).show()   # 可视化混淆矩阵

# 使用小数据集的训练集进行测试
test_predicted = lr.predict(x_c_test)
# print(metrics.classification_report(y_c_test, test_predicted))
# cm_plot(y_test, test_predicted).show()

# 使用大数据集进行测试
w_test_predicted = lr.predict(x_w_test)
print(metrics.classification_report(y_w_test, w_test_predicted))

结果：

显然，测试集的召回率大大提高，且更加平均，模型更加优秀

总结

下采样方法适用于数据集中类别分布极不均衡的情况，能够平衡类别分布，可以减少过拟合的风险，使训练出的模型更加优秀。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2056560.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Spring模块详解Ⅰ

Spring模块详解Ⅰ

目录 SpringSpring框架的主要功能模块1. Core Container（核心容器）2. Data Access/Integration（数据访问与集成）3. Web4. AOP (Aspect-Oriented Programming，面向切面编程)5. Instrumentation（工具集&#…

阅读更多...

CentOS7设置默认免密登录用户root

CentOS7设置默认免密登录用户root

CentOS7设置默认免密登录用户root 步骤1、打开要更改的 CentOS 系统2、切换到root用户2、reboot重启系统步骤 1、打开要更改的 CentOS 系统 2、切换到root用户 2、reboot重启系统

阅读更多...

前端（Vue）动态换肤的通用解决方案及原理分析（1）

前端（Vue）动态换肤的通用解决方案及原理分析（1）

动态换肤原理分析比如此处将来会实现换肤功能，所以我们不能直接写死，而需要通过一个动态的值进行指定。 <el-menu:default-active"activeMenu":collapse"!$store.getters.sidebarOpened":background-color"$store.getters…

阅读更多...

手机使用技巧：如何恢复Android手机不见的短信

手机使用技巧：如何恢复Android手机不见的短信

在您的 Android 手机上丢失短信可能是一种令人沮丧的经历，尤其是在文本包含重要信息的情况下。幸运的是，有一些方法可以在Android上恢复已删除的短信。在这篇博文中，我们将讨论几种在Android手机上恢复已删除短信的方法。为什么需要恢复Andr…

阅读更多...

测绘程序设计|认识VS2017|VS2017新建项目|VS2017使用技巧

测绘程序设计|认识VS2017|VS2017新建项目|VS2017使用技巧

由于微信公众号改变了推送规则，为了每次新的推送可以在第一时间出现在您的订阅列表中，记得将本公众号设为星标或置顶喔~ 分享了如何使用VS2017新建项目、VS2017的项目结构以及一些使用技巧~ 🌿前言 Visual Studio作为微软旗下一款热门的编程…

阅读更多...

C语言典型例题46

C语言典型例题46

《C程序设计教程（第四版）——谭浩强》题目： 习题3.6 企业发放的奖金根据利润提成。利润I低于或等于100 000元的，奖金可提成10%； 利润高于100 000元，低于200000元&…

阅读更多...

干货分享！渗透测试成功的8个关键

干货分享！渗透测试成功的8个关键

01 知道为什么要测试执行渗透测试的目的是什么？是满足审计要求？是你需要知道某个新应用在现实世界中表现如何？你最近换了安全基础设施中某个重要组件而需要知道它是否有效？或者渗透测试根本就是作为你定期检查防御健康的一项例行…

阅读更多...

2024年【电工（高级）】试题及解析及电工（高级）复审考试

2024年【电工（高级）】试题及解析及电工（高级）复审考试

题库来源：安全生产模拟考试一点通公众号小程序 2024年【电工（高级）】试题及解析及电工（高级）复审考试，包含电工（高级）试题及解析答案和解析及电工（高级）复审…

阅读更多...

C语言——字符函数、字符串函数和内存函数

C语言——字符函数、字符串函数和内存函数

目录 1.字符分类函数 2.字符转换函数 3.字符串函数 3.1strlen 函数 3.1.1 strlen函数的模拟实现 3.1.1.1第一种方法：计算器方法 3.1.1.2 第二种方法：指针-指针 3.1.1.3 第三种方法：递归 3.2 strcpy 函数 3.2.1 strcpy函数的模拟实现…

阅读更多...

成为Python砖家(4): 装饰器的简单理解

成为Python砖家(4): 装饰器的简单理解

第一次理解 Python 中的装饰器（decorator），是Python中一个非常强大的工具，它是一个返回函数的函数。上面这个定义很简洁，但是没说清楚。第二次理解装饰器，是一个接收函数 func、返回封装后的函数 wr…

阅读更多...

计算机Java项目｜基于SpringBoot的农商对接系统的设计与实现

计算机Java项目｜基于SpringBoot的农商对接系统的设计与实现

作者主页：编程指南针作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验，被多个学校常年聘为校外企业导师，指导学生毕业设计并参…

阅读更多...

基于Shader实现的UGUI描边解决方案遇到的bug

基于Shader实现的UGUI描边解决方案遇到的bug

原文链接：https://www.cnblogs.com/GuyaWeiren/p/9665106.html 使用这边文章介绍的描边解决方案时遇到了一些问题，就是文字的描边经常会变粗，虽然有的时候也可以正常显示描边，但是运行一会儿描边就不正常了，而且不正常…

阅读更多...

【数据分享】《新疆省统计年鉴》（2000-2022）

【数据分享】《新疆省统计年鉴》（2000-2022）

而今天要限时免费分享的数据就是2000-2022年间出版的《新疆省统计年鉴》并以多格式提供免费下载。（无需分享朋友圈即可获取） 数据介绍《新疆省统计年鉴》是记录新疆维吾尔自治区历年来社会经济发展情况的重要资料汇编，涵盖了从2000年至…

阅读更多...

海外仓物流的最后一步至关重要！电商的复购、好评全都要靠它！

海外仓物流的最后一步至关重要！电商的复购、好评全都要靠它！

在跨境电商物流链中，尾程派送是直接影响消费者购物体验的关键环节。作为物流流程的最后一步，尾程派送的效率和准确性关系到商品能否及时、安全地送达客户手中。这不仅关乎消费者的满意度，也关乎电商企业的品牌形象和市场竞争力。尤其是在依托…

阅读更多...

睡眠质量不好该怎么调理

睡眠质量不好该怎么调理

1、运动：睡前多做些小运动，但不要做太剧烈的运动，比如跑步、散步、打太极拳等，适当的运动有益于睡眠。　　2、远离扰乱睡眠的食物：不要喝咖啡、茶和其他刺激性的重口味的东西。睡前最好喝一杯牛奶或温水，这…

阅读更多...

字节序大小端

字节序大小端

概述 1. MSB、LSB2. 最高有效字节、最低有效字节3. 大小端4. 如何判断本机大小端5. 大小端转换 1. MSB、LSB 以整数“157”为例 MSB ：单个字节中的最高位 2^7 128 LSB ：单个字节中的最低位 2^0 0 2. 最高有效字节、最低有效字节以整形“0x0102030…

阅读更多...

极速闪存启动：SD与SPI模式的智能初始化指南

极速闪存启动：SD与SPI模式的智能初始化指南

最近很多客户朋友在询问我们 CS 创世 SD NAND 能不能使用 SPI 接口，两者使用起来有何区别，下面为大家详细解答。 SD MODE: CS 创世 SD NAND 支持 SD 模式和 SPI 模式，SD NAND 默认为 SD 模式，上电后，其初始化过程如下…

阅读更多...

【MySQL】5.0 入门学习（五）——MySQL源码了解及MySQL初始化设置

【MySQL】5.0 入门学习（五）——MySQL源码了解及MySQL初始化设置

1.0 MySQL源码目录主要包括：客户端代码、服务端代码、测试工具、其他库文件。当然，看懂源代码得有一定的C语言基础。 image image.gif BUILD：各种平台的编译脚本，可以用来制作各平台的二进制版本 client：客户端目录…

阅读更多...

推荐编译器插件：Fitten Code 更快更好的AI助手

推荐编译器插件：Fitten Code 更快更好的AI助手

✨✨ 欢迎大家来访Srlua的博文（づ￣3￣）づ╭❤～✨✨ 🌟🌟 欢迎各位亲爱的读者，感谢你们抽出宝贵的时间来阅读我的文章。我是Srlua小谢，在这里我会分享我的知识和经验。&am…

阅读更多...

【springboot】自定义starter

【springboot】自定义starter

自定义一个starter，实现获取系统和程序信息。 0. 项目结构 org.springframework.boot.autoconfigure.AutoConfiguration.imports 文件是用来加载自动配置类的，该文件必须放在META-INF/spring/目录下。 1. 创建项目创建一个普通的maven项目，使…

阅读更多...

推荐文章

最新文章