Python实现SMOGN算法解决不平衡数据的回归问题

news2024/11/25 16:15:39

  本文介绍基于Python语言中的smogn包,读取.csv格式的Excel表格文件,实现SMOGN算法,对机器学习、深度学习回归中,训练数据集不平衡的情况加以解决的具体方法。

  在不平衡回归问题中,样本数量的不均衡性可能导致模型在预测较少类别的样本时表现较差;为了解决这个问题,可以使用SMOTE(Synthetic Minority Over-sampling Technique)算法或SMOGN(Synthetic Minority Over-Sampling Technique for Regression with Gaussian Noise)算法来生成合成样本来平衡数据集。

  SMOTE算法的基本思想是通过对少数类样本进行插值,生成一些合成样本,从而增加少数类样本的数量;这些合成样本是通过选取少数类样本和它们的近邻样本之间的差异来生成的。而SMOGN算法则是对SMOTE算法的进一步完善,在生成新样本的同时,还增加了高斯噪声,且在生成新样本(过采样)的同时还可以将原本数量较多的大样本减少(欠采样);因此,SMOGN算法相较SMOTE算法更为合理一些。

  在Python中,我们可以基于现有的第三方库smogn包,来完成SMOGN算法;而SMOTE算法则实现起来较为麻烦一些,还要自己写函数(imblearn.over_sampling.SMOTE虽然可以实现SMOTE算法,但其只适用于分类场景,在回归场景中无法使用);再加上既然SMOGN算法相较SMOTE算法更为合理一些,所以我们这里就只介绍SMOGN算法的Python实现。

  首先,我们需要配置需要的smogn包。此时,我们需要打开Anaconda Prompt软件;这一软件的具体位置如下图所示。

  由于我希望在一个名称为py38Python虚拟环境中配置、使用smogn包,因此首先通过如下的代码进入这一虚拟环境;关于虚拟环境的创建与进入,大家可以参考文章Anaconda中Python虚拟环境的创建、使用与删除(https://blog.csdn.net/zhebushibiaoshifu/article/details/128334614)。

activate py38

  运行上述代码,即可进入指定的虚拟环境中。随后,我们输入如下的代码。

pip install smogn

  接下来,输入y即可开始smogn包的配置工作。再稍等片刻,出现如下图所示的情况,即说明smogn包已经配置完毕。

  接下来,我们通过如下的代码,即可实现对不平衡数据的SMOGN算法操作。

# -*- coding: utf-8 -*-
"""
Created on Tue Jul 11 13:56:36 2023

@author: fkxxgis
"""

import smogn
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv(r"E:\01_Reflectivity\99_Model_Training\00_Data\02_Extract_Data\26_Train_Model_New\Train_Model_0711.csv")
df_nona = df.dropna()

df_smogn = smogn.smoter(
    data = df_nona,
    y = "inf_dif",
    k = 3)

plt.hist(df_nona["inf_dif"], bins = 50)
plt.hist(df_smogn["inf_dif"], bins = 50)

  代码的整体思路也很简单,首先就是读取一下.csv格式的Excel表格文件,随后基于smogn.smoter()函数进行SMOGN算法的实现;其中,上述代码用到了3个参数,第一个参数表示需要加以处理的全部数据,第二个参数则表示我们的因变量,第三个参数是在进行过采样时,判断样本距离所用到的邻域个数。关于这个函数详细的参数介绍,大家可以参考其官方网站;我们这里就不再赘述了。代码最后,就是绘制2个直方图,看看我们的SMOGN算法效果。

  运行上述代码,即可开始SMOGN算法的实现。在运行时,将会看到如下所示的进度条。不过不得不说,在数据量比较大的时候,程序运行真的会很慢很慢。

  如下图所示,我们一共要完成6个进度条,才算完成全部的SMOGN算法。

  接下来,我们可以对比一下直方图。如下图所示,是我们执行SMOGN算法前的因变量直方图。

  下图则是执行SMOGN算法后的因变量直方图。

  可以看到,只能说效果一般,其中数据的少数部分,稍微有些增多;而数据原本的主要部分,甚至也被增多了。当然,这和我们前面smogn.smoter()函数的参数设置是有关的,大家如果希望进一步调整SMOGN算法的效果,可以自行尝试修改smogn.smoter()函数的参数。

  我这里就没有花更多时间对参数加以修改了——因为通过这样的方法完成SMOGN算法的Python实现,实在是太慢了;不如用R语言来实现,速度非常快,且效果也非常好,另外其还可以同时实现SMOGN算法与SMOTE算法。具体在R语言中的实现方法,我们将在下一篇博客中加以介绍。

  至此,大功告成。

欢迎关注:疯狂学习GIS

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/744891.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

解决Navicat连接Oracle报ORA-28547

《进入Oracle官网》 下载Instant Client Products --------------》Oracle Database download database --------------》Download Oracle Database X Instant Client - C/C Drivers (OCI, OCCI, ODBC) and Utilities Download Now 根据自己的操作系统下载对应的Oracle …

【深入浅出Apache Jackrabbit】第三章 Repository 配置文件

系列文章目录 第一章 初见 Apache Jackrabbit 第二章 Apache Jackrabbit 入门 第三章 Repository 配置文件 第四章 Apache Jackrabbit 文件存储 第五章 Apache Jackrabbit 版本管理 文章目录 系列文章目录一、创建一个 Repository 配置文件二、初始化 Repository Apache Jackr…

基于单片机的智能温控风扇的设计与实现

功能介绍 以STM32单片机作为主控系统; 液晶显示当前温度,风速等级,自动手动模式息; DS18B20检测当前的温度; 按键设置温度上限; 手动模式下: 直接控制风扇档位,可以开启/关闭风扇&a…

DragGAN在Windows11中下载安装

DragGAN是一种颠覆性的新型图像生成和编辑技术,它实现了前所未有的用户对图像创作过程的控制能力。使用DragGAN,用户可以用鼠标拖放的方式在空白画布上概括构思图像,系统会自动生成图像细节。例如,用户可以拖拽画一个矩形作为“汽…

js原生实现楼层效果

html文件 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title><style>* {m…

TPU编程竞赛系列|第九届 “互联网+”大学生创新创业大赛产业命题赛道,算能6项命题入选!

近日&#xff0c;第九届中国国际“ 互联a网 ” 大学生创新创业大赛产业命题正式公布&#xff0c;算能提交的六 项企业命题成功入选正式赛题。算能六项赛题主要围绕国产 TPU 芯片的边缘计算系统和 RISC-V 架构处理器来设计&#xff0c;且为参赛选手提供了超强算力开发板等硬件资…

前端vue入门(纯代码)29_路由的params参数

手机里的钞票薄情寡义,身上的赘肉不离不弃&#xff01; 【27.Vue Router--路由的params参数】 params属性起到的作用和query差不多&#xff0c;都是用于传递和接收参数&#xff0c;只不过&#xff0c;它是在src/router/index.js文件中进行配置 // 该文件专门用于创建整个应用…

逆向某安卓游戏native层登录协议的过程记录

前言 主要参考白龙哥的unidbg学习&#xff1a;SO逆向实战十三篇 用到工具&#xff1a; frida(HOOK看参数) unidbg&#xff08;模拟&#xff09; ida&#xff08;静态分析&#xff09; charles&#xff08;抓包&#xff09; 准备 此处省略一大堆获取So文件流程&#xff0c;…

单片机编程要求的C语言水平和技能

如果你想从事单片机工作&#xff0c;你需要具备一定水平的C语言编程技能。以下是一些建议的技能和知识&#xff0c;可以帮助你为单片机编程做好准备&#xff1a; 熟悉C语言基础&#xff1a;掌握C语言的基本语法、数据类型、控制结构和函数等。这是你开始学习单片机编程的基础。…

实操:用Flutter构建一个简单的微信天气预报小程序

​ 微信小程序是一种快速、高效的开发方式&#xff0c;Flutter则是一款强大的跨平台开发框架。结合二者&#xff0c;可以轻松地开发出功能丰富、用户体验良好的微信小程序。 这里将介绍如何使用Flutter开发一个简单的天气预报小程序&#xff0c;并提供相应的代码示例。 1. 准备…

《C语言初阶篇》循环语句还没搞懂?这篇文章带你轻松学会循环语句!

&#x1f3ac; 鸽芷咕&#xff1a;个人主页 &#x1f525; 个人专栏:《快速入门C语言》《C语言初阶篇》 ⛺️生活的理想&#xff0c;就是为了理想的生活! 文章目录 前言&#x1f4ac; 循环语句的介绍&#x1f4ac; while 语句的介绍&#x1f4ad; while中的break&#x1f4ad;…

numpy 多项式函数回归与插值拟合模型;ARIMA时间序列模型拟合

参考&#xff1a; https://blog.csdn.net/mao_hui_fei/article/details/103821601 1、多项式函数回归拟合 import numpy as np from scipy.optimize import leastsq import pylab as plx np.arange(1, 17, 1) y np.array([4.00, 6.40, 8.00, 8.80, 9.22, 9.50, 9.70, 9.86,…

ELK 企业级日志分析系统----elk的部署

文章目录 一、ELK 简介1.1 ElasticSearch介绍1.2 ELK的组件ElasticSearchKiabanaLogstash可以添加的其它组件 1.3 为什么要使用 ELK1.4 完整日志系统基本特征1.5 ELK 的工作原理&#xff1a; 二、elk环境部署2.1 ELK Elasticsearch 集群部署&#xff08;在Node1、Node2节点上操…

vue3 处理elementPlus的Tree树状结构的选中和编辑数据回显

<!-- 添加角色 请求菜单:props"{ children: children, label: name }" children:后端返回的子集结构的key label&#xff1a;name后端返回的名字&#xff1a;data"menus" menus是后端返回的菜单权限列表--><el-treeref"elTreeRef":dat…

Studio One6免费版音乐人常用的编曲软件

Studio One是Pre sounds公司首次研究开发宿主软件的成果。Studio One在其研发环节就吸取了市面上其他宿主软件的优缺点并且做了专业的调研整改。将其他宿主软件的优点经过改良融合在一起&#xff0c;将不足之处进行舍弃或者优化。 Studio One是一款功能强大的编曲软件&#xff…

clickonce 发布winform 桌面快捷键打不开程序

错误应用程序名称: applaunch.exe&#xff0c;版本: 4.8.9032.0&#xff0c;时间戳: 0x6250a8ba 错误模块名称: KERNELBASE.dll&#xff0c;版本: 10.0.22621.1778&#xff0c;时间戳: 0x63f72683 异常代码: 0xe0434352 错误偏移量: 0x000000000006536c 错误进程 ID: 0x0x3E84 …

arm学习stm32之spi总线数码管倒计时,裸机开发,soc

由于时间没有用时间计时器操作&#xff0c;有些误差&#xff0c;后续有空会翻新计时器版本 main.c #include "spi.h" extern void printf(const char *fmt, ...); void delay_ms(int ms) {int i,j;for(i 0; i < ms;i)for (j 0; j < 1800; j); } int num[10…

pdf怎么进行分割,三个实用的方法!

许多朋友在使用PDF文件时&#xff0c;常常遇到需要拆分文件的问题。那么该如何进行操作呢&#xff1f;实际上&#xff0c;我们通常所说的拆分也可以理解为分割&#xff0c;即将一个PDF文件分成两个或多个部分。现在&#xff0c;我将推荐三款工具&#xff0c;通过记灵在线工具&a…

漏洞复现 || eGroupWare spellchecker.php 远程命令执行漏洞

0x01 阅读须知 我爱林的技术文章仅供参考,此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等(包括但不限于)进行检测或维护参考,未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失,均由使用…

Java-通过IP获取真实地址

文章目录 前言功能实现测试 前言 最近写了一个日志系统&#xff0c;需要通过访问的 IP 地址来获取真实的地址&#xff0c;并且存到数据库中&#xff0c;我也是在网上看了一些文章&#xff0c;遂即整理了一下供大家参考。 功能实现 这个是获取正确 IP 地址的方法&#xff0c;可…