随机分类,保持均衡水平Python

news2024/9/21 4:36:52

1、目的:
10000个样本有4个指标,按照逾期金额分10类,确保每类别逾期金额均衡。
2、数据:

3、思路:
将10000个样本按照逾期金额排序,
等距分箱为2500个类别
增加一列随机数
根据类别和随机数升序排列
增加一列赋值
按照分类的逾期金额求随机数

以下为10000个样本有4个指标,按照逾期金额分10类的代码逻辑。
4、代码实现
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from pandas import Series,DataFrame as df
import random

#1)获取数据
file_data= pd.read_csv(“D:\data\paixu.csv”)
file_data.shape
file_data.head()

#1)逾期金额升序排序
file_data1=file_data.sort_values(by=[‘yqje’],ascending=[True])

#2)等距分箱形成aa列
file_data1[‘aa’]=pd.cut(file_data1.yqje,2500,labels=range(0,2500))

#3)赋值一列bb为随机数
random_nums=np.random.randint(0,10000,size=10000)
file_data1[‘bb’]=random_nums

#4)根据aa 和bb列排序
file_data1=file_data1.sort_values(by=[‘aa’,‘bb’],ascending=[True,False])

#5)按照排序规则赋值1 2 3 4
values=[1,2,3,4,5,6,7,8,9,10]
new_col = [values[i % len(values)] for i in range(len(file_data1))]
file_data1[‘cc’]=new_col

#6)结论、
group_mean=file_data1.groupby(‘cc’)[‘yqje’].mean()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2118026.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MCU6.用keil新建项目

1.新建项目 打开keil4 2.选择单片机的类型 STC并没有出现在其中,但兼容8051芯片,选Atmel的AT89C51或AT89C52均可 本文选AT89C52 弹出的窗口点否 3.查看项目 4.新建文件 5.保存文件 6.将文件添加到工程 双击Source Group 1 点击Add 7.添加已有的工程 如果要添加已有的工程 8…

Java并发编程实战 09 | 为什么需要

什么是守护线程? 守护线程(Daemon Thread)是Java中的一种特殊线程,那么相对于普通线程它有什么特别之处呢? 在了解守护线程之前,我们先来思考一个问题:JVM在什么情况下会正常退出?…

腾讯公众号种类这么多,为什么小程序能脱颖而出

在微信公众平台中,公众号和小程序是两种不同的功能实体,它们各自承担着不同的角色和使命。然而,随着小程序的崛起,它在众多功能中逐渐脱颖而出,成为商家和开发者的新宠。具体分析如下: 技术优势与用户体验 …

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过…

顶点照明渲染路径

1. 顶点照明渲染路径处理光照的方式 基本思想就是所有的光都按照逐顶点的方式进行计算的,在内置渲染管线中,它只会最多记录8个光源的数据,只会将光相关的数据填充到那些逐顶点相关的内置光源变量 顶点照明渲染路径仅仅是前向渲染路径的一个…

Mybatis-PlusDruid数据源

一、Mybatis-Plus简介 (一)什么是Mybatis-Plus Mybatis-Plus是一个Mybatis(OPENS NEW WINDOW)的增强工具,在Mybatis的基础上只做增强不做改变,为简化开发。 (二)Mybatis-Plus的优…

C语言之头文件,预处理命令#include

0 为什么要添加头文件?为什么要使用头文件? 可以看下下面图片左边,是不使用头文件,假设我们为了实现某些功能,编写的函数,全部声明在主函数之前,写几个函数还行,如果是大型项目&…

Hadoop压缩技术与Hive文件格式详解

目录 文件格式和压缩 Hadoop压缩概述 压缩格式 Hive文件格式 Text File ORC 1)文件格式 2)结构 3)建表语句 Parquet 1)文件格式 2)结构 3)建表语句 压缩 Hive表数据进行压缩 1)TextFil…

对话 IDC:一文带你了解低代码的技术趋势和平台选型

近日,葡萄城的活字格企业级低代码开发平台入选《中国低代码开发平台技术评估,2024》技术代表厂商,并在可视化开发、集成能力、开放性和兼容性以及生态能力维度获得五星评价。这一荣誉见证了葡萄城在低代码领域的技术实力与创新成果。 为进一…

Python 基本库用法:数学建模

文章目录 前言数据预处理——sklearn.preprocessing数据标准化数据归一化另一种数据预处理数据二值化异常值处理 numpy 相关用法跳过 nan 值的方法——nansum和nanmean展开多维数组(变成类似list列表的形状)重复一个数组——np.tile 分组聚集——pandas.…

不是你不想做 AI 产品,只是 UI 太贵劝退了你

"我有一个绝妙的 AI 产品创意!" "有想法就动起来呀~" "呃...还是算了吧,UI 太贵了,请不起" 相信不少人都有过这样的内心独白。 可能脑海中已经构思了无数个精彩的页面,甚至连细节都已经了然于胸。 但,在你准备大展拳脚的时候,现实给了…

鸿蒙开发5.0【弱引用】 使用

开发者需要依靠弱引用解决垃圾回收相关的内存管理问题。 强引用:默认的引用类型,被强引用的对象不会被垃圾回收。弱引用:允许对象在没有其他强引用时被垃圾回收,不会阻止垃圾回收器回收该对象。 场景一:使用弱引用打…

揭秘!老人帕金森与嗜睡之谜:是病症常态还是另有隐情?

在关爱老年人健康的道路上,帕金森病这一神经退行性疾病总是牵动着无数家庭的心。随着病情的发展,不少患者家属会发现,家里的老人似乎比以前更容易感到疲倦,甚至频繁出现嗜睡的情况。这不禁让人疑惑:老人帕金森会一直想…

数学建模——Box-Cox变换

用途:当某个随机变量 X X X 不服从正态分布的时候,可以尝试通过这种变换将其变成正态分布。 两个常用的变换 对数变换:已知随机变量 X X X,如果有 ln ⁡ X ∼ N ( μ , σ 2 ) \ln X\sim N(\mu,\sigma^2) lnX∼N(μ,σ2)&…

快被右下角的windows Defender烦死了,怎么让它消失?

前言 前段时间有小伙伴问:Windows自带的杀毒软件Windows Defender怎么关掉? 原因是无论在Windows Defender软件界面里怎么关闭,它都会拦截到某些软件和文件。 而且对于强迫症患者来说,右下角始终有个图标,还带了个x的…

【开源风云】从若依系列脚手架汲取编程之道(四)

📕开源风云系列 🍊本系列将从开源名将若依出发,探究优质开源项目脚手架汲取编程之道。 🍉从不分离版本开写到前后端分离版,再到微服务版本,乃至其中好玩的一系列增强Plus操作。 🍈希望你具备如下…

有了室内外一体化人行导航,你还怕迷路吗?

在快节奏的现代生活中,无论是穿梭于繁华的都市丛林,还是漫步于错综复杂的购物中心,迷路似乎成了不少人的“小确丧”。然而,随着科技的飞速发展,一项革命性的创新——室内外一体化人行导航系统,正悄然改变着…

CAN总线(一)

CAN总线(Controller Area Network Bus),从名字上可以知道,CAN总线构建的是一种局域网网路,每个挂载在CAN总线上的设备都可以利用这个局域网去发送自己的消息,也可以接收局域网的各种消息,每个设…

解锁高效驱动密码:SiLM8260A系列SiLM8260ABCS-DG 集成米勒钳位的双通道隔离驱动芯片

附上SiLM8260A同系列型号参考: SiLM8260ADCS-DG 12.5V/11.5V SiLM8260ABCS-DG 8.5V/7.5V SiLM8260AACS-DG 5.5V/5V SiLM8260AGCS-DG 3.5V/3V SiLM8260ABCS-DG是一款集成了米勒钳位功能的双通道隔离驱动芯片,它精准地满足了上述严苛条件。具备…

Excel排序错误原因之一

# Excel日常表格中的文字排序乱了,在系统语言更改成英语之后,不再按照首字母的顺序排列,且强制设置序列顺序也无济于事。 Excel表格内的排序尝试 表格基础选项就有“排序”,在其自定义选项中的“选项”设置处设置“拼音排序”&am…