python 的cut与qcut

news2026/2/10 9:43:09

我想要实现多分类，样本不是均匀分布的

使用cut，可以实现自定义范围分类
使用qcut，可以实现每个分类的个数大致相等

cut 与 qcut方法使用

参考 https://www.cnblogs.com/Motimer/p/16006313.html

1、cut方法

pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates=‘raise’, ordered=True)

（1）参数

X：被切分的类数组（array-like）数据，必须是1维的。不能是DataFrame。

bins：被切割后的区间，有3中形式：int, sequence of scalars, or IntervalIndex。

int：代表将X平分成bins份，x的范围在每侧扩展0.1%，以包括X的最大值和最小值。

sequence of scalars（标量序列）：被分割后每一个bin的区间边缘，此时x没有扩展。

IntervalIndex：定义要使用的精确区间。

right：bool型，默认为True。是否包括最右边的边缘，比如right=True，bins=[1,2,3,4]，则区间为(1,2]、(2,3]、(3,4]；right=False，则区间为(1,2）、(2,3）、(3,4）。

labels：给分割后的bins打标签。必须与箱子长度相同，比如bins=[1,2,3]，划分后有两个区间(1,2]、(2,3]，则labels长度必须为2。如果labels=False，则返回X中的数据在第几个 bin中(从0开始)。

retbins：bool型，默认为False。是否将分割后的bins返回，当bins为一个int型的标量比较有用，这样可以得到划分后的区间。

precision：保留区间小数点的位数，默认为3.

include_lowest：bool型，默认为False。第一个间隔是否应包含在内。

duplicates：是否允许重复区间。raise：不允许，drop：允许。

ordered：bool型，默认为True。True对结果进行排序，False不排序。

（2）返回值

out：Categorical, Series, or ndarray。分区后x中的每个值在那个bin中，如果指定了labels则返回对应的label。

bins：分割后的区间，当指定retbins为True时返回。

（3）举例
　先生成一些测试数据

df = pd.DataFrame([x**2 for x in range(11)],columns=['number',]) # 指数列， 10个数
df

在这里插入图片描述
1

df['cut_group'] = pd.cut(df['number'],4) #（按照数据值由小到大的顺序将数据分成4份，并且使每组值的范围大致相等。）
df

在这里插入图片描述
2

df['cut_group'] = pd.cut(df['number'],bins=[0,4,8,12,16,20]) #（bins参数：按照指定的边界值对变量进行分割）
df

在这里插入图片描述
3

df['cut_group'] = pd.cut(df['number'],bins=[0,4,8,12,16,20],right=False,labels=False)#（labels为False，返回值在第几个bin中）
df

在这里插入图片描述
4

df['cut_group'] = pd.cut(df['number'],bins=[0,4,8,12,16,20],right=False,labels=['第一','第二','第三','第四','第五',])#（返回自定义标签名）
df

在这里插入图片描述
5 返回划分区间

df['cut_group'],bins = pd.cut(df['number'],4,retbins=True)#（retbins参数：获取边界值的列表）
bins

在这里插入图片描述
6

df['cut_group'] = pd.cut(df['number'],bins=[0,4,8,12,16,20],right=True,include_lowest=True) #（第二）
df

在这里插入图片描述

2、qcut方法

pandas.qcut(x, q, labels=None, retbins=False, precision=3, duplicates=‘raise’)
　（1）参数
　　x：一维 ndarray 或系列
　　q：整数或浮点数的list-like，分位数。 10 表示十分位数，4 表示四分位数等。交替排列的分位数，例如[0, .25, .5, .75, 1.] 四分位数。
　　labels：数组或假，默认无。用作结果箱的标签。必须与生成的 bin 长度相同。如果为 False，则仅返回 bin 的整数指示符。如果为 True，则引发错误。
　　retbins：布尔型，可选。是否返回(箱，标签)。如果 bins 作为标量给出，则可能很有用。
　　precision：整数，可选。存储和显示 bin 标签的精度。
　　duplicates：{默认 ‘raise’, ‘drop’}，可选。
　　
　　 (2)举例
1

df = pd.DataFrame([x**2 for x in range(11)],columns=['number',])
df['cut_group'] = pd.qcut(df['number'],4)#（按变量的数量来对变量进行分割，把变量由小到大分成四组，并且让每组变量的数量相同）
df

在这里插入图片描述

# 跟cut()一样， 我们可以通过在qcut()设置retbins参数， 获取每个分组的边界值列表。
df['cut_group'], bins = pd.qcut(df['number'],4,retbins=True)
bins

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/29609.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

python 的cut与qcut

1、cut方法

2、qcut方法

相关文章

x86和arm框架下的centOS

NoSQLBooster4MongoDB - 用SQL查询MongoDB

离线安装PostgreSQL数据库(v13.4版本)

转铁蛋白修饰硬脂酸/棕榈酸 TF-PEG-C18 Stearic Acid/C16, palmitic acid

G. Good Key, Bad Key(暴力)

操作系统：进程的创建（fork函数）、进程的替换（exec函数）

使用.NET简单实现一个Redis的高性能克隆版（一）

shell命令以及运行原理

D. Fixed Point Guessing(二分+交互式问题)

吐血经验，怎么把OAK相机的镜头模组拆下来？

[AI] LRTA*(K) 搜索算法

第四章：JVM运行时参数

Win11杜比全景声无法正常运行的解决方法教学

【Selenium】Selenium4 Grid

13.练习题（年月日，打字游戏）

面试学习总结

蓝桥杯刷题（三）

Seata安装并注册集成到Nacos服务上

小侃设计模式（十四）-职责链模式

HTML+CSS简单的网页制作期末作业关于我的家乡——四川文化网页介绍 DW大学生网页作业制作设计 Dreamweaver简单网页成品