实现功能
将dataframe某列的值分成不同区间并计算每个区间的频数
实现代码
import pandas as pd
# 创建dataframe
data = {'Name':['Tom1', 'Jack1', 'Steve1', 'Ricky1', 'Tom2', 'Jack2', 'Steve2', 'Ricky2'],'Score':[78,60,59,42,88,34,69,142]}
df = pd.DataFrame(data)
print(df)
# 定义区间和标签
bins = [0, 60, 80, 90, float('inf')]
labels = ['<=60', '60-80', '80-90', '90+']
# 将 Score 列的值分入不同区间,并计算频数
counts = pd.cut(df['Score'], bins=bins, labels=labels).value_counts().sort_index()
print(counts)
实现效果
本人读研期间发表5篇SCI数据挖掘相关论文,现在某研究院从事数据挖掘相关科研工作,对数据挖掘有一定认知和理解,会结合自身科研实践经历不定期分享关于python机器学习、深度学习、数据挖掘基础知识与案例。
致力于只做原创,以最简单的方式理解和学习,关注我一起交流成长。
邀请三个朋友关注V订阅号:数据杂坛,即可在后台联系我获取相关数据集和源码,送有关数据分析、数据挖掘、机器学习、深度学习相关的电子书籍。