机器学习的一百个概念(3)上采样

news2025/4/3 6:32:39

前言

本文隶属于专栏《机器学习的一百个概念》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和参考文献请见[《机器学习的一百个概念》


ima 知识库

知识库广场搜索:

知识库创建人
机器学习@Shockang
机器学习数学基础@Shockang
深度学习@Shockang

正文

在这里插入图片描述

🎯 基础概念与应用场景

1.1 什么是上采样?

上采样(Oversampling)是机器学习中解决类别不平衡问题的关键技术之一。其核心思想是通过增加少数类样本的数量,使数据集中各类别的样本数量趋于平衡,从而提高模型对少数类的学习能力。

在这里插入图片描述

1.2 应用场景

上采样技术在以下场景中特别有价值:

  1. 🏦 金融风控

    • 信用卡欺诈检测(欺诈样本占比<0.1%)
    • 贷款违约预测(违约样本通常<5%)
  2. 🏥 医疗诊断

    • 罕见疾病识别
    • 医学图像异常检测
  3. 🔍 异常检测

    • 工业设备故障预测
    • 网络安全入侵检测
  4. 📱 用户行为分析

    • 用户流失预警
    • 精准营销响应预测

🚀 上采样技术的演进

2.1 技术发展历程

在这里插入图片描述

2.2 核心技术分类

  1. 传统采样方法

    • Random Oversampling
    • SMOTE及其变体
    • ADASYN
  2. 现代智能采样方法

    • 基于GAN的采样
    • 自适应动态采样
    • 深度学习结合采样

🛠 主流上采样方法详解

3.1 SMOTE算法原理

SMOTE(Synthetic Minority Over-sampling Technique)是最经典的上采样算法之一。其工作流程如下:

在这里插入图片描述

核心公式:
X n e w = X i + λ × ( X k n n − X i ) X_{new} = X_i + \lambda \times (X_{knn} - X_i) Xnew=Xi+λ×(XknnXi)
其中:

  • X i X_i Xi 为原始少数类样本
  • X k n n X_{knn} Xknn 为选择的近邻样本
  • λ \lambda λ 为0到1之间的随机数

3.2 ADASYN算法

ADASYN(Adaptive Synthetic Sampling)是SMOTE的改进版本,其特点是根据样本分布自适应地生成新样本。

关键改进:

  1. 引入密度分布权重
  2. 自适应样本生成数量
  3. 关注难分样本

计算密度比:
r i = Δ i K r_i = \frac{\Delta_i}{K} ri=KΔi
其中:

  • Δ i \Delta_i Δi 为K近邻中多数类样本数
  • K K K 为近邻总数

3.3 基于GAN的上采样

生成对抗网络(GAN)在上采样中的应用:

在这里插入图片描述

优势:

  • 生成样本质量高
  • 可保持复杂特征
  • 具有更好的泛化性

💡 实践应用与案例分析

4.1 信用卡欺诈检测案例

实验数据特征:

  • 总样本量: 284,807
  • 欺诈交易: 492 (0.17%)
  • 正常交易: 284,315

性能对比:

方法准确率召回率F1分数
原始数据0.9990.6420.781
SMOTE0.9970.8930.874
ADASYN0.9960.9010.882
GAN采样0.9980.9120.891

4.2 代码实现示例

from imblearn.over_sampling import SMOTE
from sklearn.model_selection import train_test_split
import numpy as np

# 创建SMOTE对象
smote = SMOTE(random_state=42)

# 应用SMOTE
X_resampled, y_resampled = smote.fit_resample(X, y)

# 数据集划分
X_train, X_test, y_train, y_test = train_test_split(
    X_resampled, 
    y_resampled, 
    test_size=0.2, 
    random_state=42
)

📊 性能评估与优化建议

5.1 评估指标选择

在不平衡数据集中,应重点关注:

  1. ROC曲线与AUC值
  2. PR曲线(Precision-Recall)
  3. F1分数
  4. Cohen’s Kappa系数

5.2 交叉验证策略

在这里插入图片描述

5.3 参数优化建议

  1. SMOTE参数调优:

    • k_neighbors: 5-10
    • sampling_strategy: auto/dict
    • random_state: 固定随机种子
  2. 集成策略:

    • Bagging与上采样结合
    • Boosting与上采样结合
    • 投票/堆叠集成

⚠️ 常见陷阱与解决方案

6.1 数据泄露问题

避免在整个数据集上进行上采样,正确流程:

在这里插入图片描述

6.2 过拟合防护

  1. 数据增强技术:

    • 添加噪声
    • 特征扰动
    • 随机旋转/平移
  2. 正则化策略:

    • L1/L2正则化
    • Dropout
    • Early Stopping

6.3 样本质量控制

  1. 异常检测:

    • IsolationForest
    • LocalOutlierFactor
    • One-Class SVM
  2. 质量评估指标:

    • 样本间距离分布
    • 特征空间覆盖率
    • 类内方差分析

🔮 总结与展望

7.1 技术选择建议

根据数据特征选择合适的上采样方法:

场景特征推荐方法原因
小数据集SMOTE/ADASYN实现简单,效果可控
高维数据GAN/VAE更好的特征学习能力
时序数据时序SMOTE保持时序特性
图像数据条件GAN保持视觉特征

7.2 未来发展趋势

  1. 🤖 与深度学习深度融合

    • 自编码器结合
    • 对抗生成网络优化
    • 迁移学习应用
  2. 📈 自适应动态采样

    • 在线学习支持
    • 实时调整策略
    • 多目标优化
  3. 🎯 可解释性增强

    • 样本生成过程可视化
    • 质量评估体系完善
    • 决策依据透明化

7.3 实践建议

  1. 数据预处理

    • 特征工程先行
    • 异常值处理
    • 标准化/归一化
  2. 采样策略

    • 逐步增加采样比例
    • 多种方法对比
    • 交叉验证验证
  3. 模型选择

    • 从简单模型开始
    • 逐步增加复杂度
    • 集成学习考虑

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2325260.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

分秒计数器设计

一、在VsCode中写代码 目录 一、在VsCode中写代码 二、在Quartus中创建工程与仿真 1、建立工程项目文件md_counter 2、打开项目文件&#xff0c;创建三个目录 3、打开文件trl&#xff0c;创建md_counter.v文件 4、打开文件tb&#xff0c;创建md_counter_tb.v文件 5、用VsCod…

Flink介绍——发展历史

引入 我们整个大数据处理里面的计算模式主要可以分为以下四种&#xff1a; 批量计算&#xff08;batch computing&#xff09; MapReduce Hive Spark Flink pig流式计算&#xff08;stream computing&#xff09; Storm SparkStreaming/StructuredStreaming Flink Samza交互计…

12. STL的原理

目录 1. 容器、迭代器、算法 什么是迭代器? 迭代器的作用&#xff1f; 迭代器的类型&#xff1f; 迭代器失效 迭代器的实现细节&#xff1a; 2. 适配器 什么是适配器&#xff1f; 适配器种类&#xff1a; 3. 仿函数 什么是仿函数&#xff1f; 仿函数与算法和容器的…

OSPFv3 的 LSA 详解

一、复习&#xff1a; OSPFv3 运行于 IPv6 协议上&#xff0c;所以是基于链路&#xff0c;而不是基于网段&#xff0c;它实现了拓扑和网络的分离。另外&#xff0c;支持一个链路上多个进程&#xff1b;支持泛洪范围标记和泛洪不识别的报文&#xff08;ospfv2 的行为是丢弃&…

python 原型链污染学习

复现SU的时候遇到一道python原型链污染的题&#xff0c;借此机会学一下参考&#xff1a; 【原型链污染】Python与Jshttps://blog.abdulrah33m.com/prototype-pollution-in-python/pydash原型链污染 文章目录 基础知识对父类的污染命令执行对子类的污染pydash原型链污染打污染的…

入栈操作-出栈操作

入栈操作 其 入栈操作 汇编代码流程解析如下&#xff1a; 出栈操作 其 出栈操作 汇编代码流程解析如下&#xff1a;

C++ 多态:面向对象编程的核心概念(一)

文章目录 引言1. 多态的概念2. 多态的定义和实现2.1 实现多态的条件2.2 虚函数2.3 虚函数的重写/覆盖2.4 虚函数重写的一些其他问题2.5 override 和 final 关键字2.6 重载/重写/隐藏的对比 3. 纯虚函数和抽象类 引言 多态是面向对象编程的三大特性之一&#xff08;封装、继承、…

Python数据可视化-第3章-图表辅助元素的定制

教材 本书为《Python数据可视化》一书的配套内容&#xff0c;本章为第3章-图表辅助元素的定制 本章主要介绍了图表辅助元素的定制&#xff0c;包括认识常用的辅助元素、设置坐标轴的标签、设置刻度范围和刻度标签、添加标题和图例、显示网格、添加参考线和参考区域、添加注释文…

springboot实现异步导入Excel的注意点

springboot实现异步导入Excel 需求前言异步导入面临的问题实现异步如何导入大Excel文件避免OOM&#xff1f;异步操作后&#xff0c;如何通知导入结果&#xff1f;如何加快导入效率&#xff1f;将导入结果通知给用户后&#xff0c;如何避免重复通知&#xff1f; 优化点完结撒花&…

Linux练习——有关硬盘、联网、软件包的管理

1、将你的虚拟机的网卡模式设置为nat模式&#xff0c;给虚拟机网卡配置三个主机位分别为100、200、168的ip地址 #使用nmtui打开文本图形界面配置网络 [rootrhcsa0306 ~]# nmtui #使用命令激活名为 ens160 的 NetworkManager 网络连接 [rootrhcsa0306 ~]# nmcli c up ens160 #通…

论文阅读:GS-Blur: A 3D Scene-Based Dataset for Realistic Image Deblurring

今天介绍一篇 2024 NeurIPS 的文章&#xff0c;是关于真实世界去模糊任务的数据集构建的工作&#xff0c;论文作者来自韩国首尔大学 Abstract 要训练去模糊网络&#xff0c;拥有一个包含成对模糊图像和清晰图像的合适数据集至关重要。现有的数据集收集模糊图像的方式主要有两…

Cocos Creator Shader入门实战(七):RGB不同算法效果的实现,及渲染技术、宏定义、属性参数的延伸配置

引擎&#xff1a;3.8.5 您好&#xff0c;我是鹤九日&#xff01; 回顾 上篇文章&#xff0c;讲解了Cocos Shader如何通过setProperty动态设置材质的属性&#xff0c;以及设置属性时候的一些注意事项&#xff0c;比如&#xff1a; 一、CCEffect部分properties参数的设定后&…

算法学习记录:递归

递归算法的关键在于回复现场&#xff0c;dfs&#xff08;&#xff09;函数返回值、结束条件、它的作用。 目录 1.综合练习 2. 二叉树的深搜 1.综合练习 39. 组合总和 - 力扣&#xff08;LeetCode&#xff09; 关键在画出的决策树当中&#xff0c;前面使用过的2、3&#xff0c;…

可发1区的超级创新思路(python\matlab实现):MPTS+Lconv+注意力集成机制的Transformer时间序列模型

首先声明,该模型为原创!原创!原创!且该思路还未有成果发表,感兴趣的小伙伴可以借鉴! 应用场景 该模型主要用于时间序列数据预测问题,包含功率预测、电池寿命预测、电机故障检测等等。 一、模型整体架构(本文以光伏功率预测为例) 本模型由多尺度特征提取模块(MPTS)…

三、分类模块,通用组件顶部导航栏Navbar

1.封装通用组件顶部导航栏Navbar 不同效果 Component export struct MkNavbar {Prop title: string Prop leftIcon: ResourceStr $r("app.media.ic_public_left")ProprightIcon: ResourceStr $r("app.media.ic_public_more")PropshowLeftIcon: boolean…

PHY——LAN8720A 寄存器读写 (二)

文章目录 PHY——LAN8720A 寄存器读写 (二)工程配置引脚初始化代码以太网初始化代码PHY 接口实现LAN8720 接口实现PHY 接口测试 PHY——LAN8720A 寄存器读写 (二) 工程配置 这里以野火电子的 F429 开发板为例&#xff0c;配置以太网外设 这里有一点需要注意原理图 RMII_TXD0…

Flutter_学习记录_AppBar中取消leading的占位展示

将leading设置为null将automaticallyImplyLeading设置为false 看看automaticallyImplyLeading的说明&#xff1a; Controls whether we should try to imply the leading widget if null. If true and [AppBar.leading] is null, automatically try to deduce what the leading…

未来派几何风格包装徽标品牌海报标牌logo设计无衬线英文字体安装包 Myfonts – Trakya Sans Font Family

Trakya Sans 是一种具有几何风格的现代无衬线字体。Futura、Avant Garde 等。它具有现代条纹&#xff0c;这是宽度和高度协调的结果&#xff0c;尤其是在小写字母中&#xff0c;以支持易读性。 非常适合广告和包装、编辑和出版、徽标、品牌和创意产业、海报和广告牌、小文本、寻…

C语言深度解析:从零到系统级开发的完整指南

一、C语言的核心特性与优势 1. 高效性与直接硬件控制 C语言通过编译为机器码的特性&#xff0c;成为系统级开发的首选语言。例如&#xff0c;Linux内核通过C语言直接操作内存和硬件寄存器&#xff0c;实现高效进程调度。 关键点&#xff1a; malloc/free直接管理内存&#…

ctfshow WEB web8

首先确定注入点&#xff0c;输入以下payload使SQL恒成立 ?id-1/**/or/**/true 再输入一下payload 使SQL恒不成立 ?id-1/**/or/**/false 由于SQL恒不成立, 数据库查询不到任何数据, 从而导致页面空显示 由以上返回结果可知&#xff0c;该页面存在SQL注入&#xff0c;注入点…