Python学习——数据排序及分箱pd.cut\pd.qcut

news2024/11/26 11:47:56

文章目录

  • 1 排序
    • 1.1 按照索引排序 df.sort_index
    • 1.2 按照值进行排序 df.sort_values
    • 1.3 数值型数据快速排序 df.nlargest
  • 2 分箱(离散化)
    • 2.1 pd.cut
      • 2.1.1 均匀切分,等距分箱
      • 2.1.2 指定切分点切分
    • 2.2 pd.qcut

1 排序

dataFrame进行排序时,可以按照索引排序,也可以按照值进行排序。

1.1 按照索引排序 df.sort_index

df.sort_index()  #按照索引进行排序,默认升序排序,axis决定按照行索引还是列索引
ascending=False  #降序
df.reset_index()  #重置索引,把原来的索引列转化成一个普通列,行索引用位置信息做索引名

二维列表排序
在这里插入图片描述在这里插入图片描述

1.2 按照值进行排序 df.sort_values

df.sort_values(by = '列名') #按照某一列进行排序
df.sort_values(by =[ '列名','列名'],ascending=[False,True])

在这里插入图片描述

1.3 数值型数据快速排序 df.nlargest

df.列名.nlargest() #默认取前五个,先排序,取前五名
df.nlargest(5,'列名')
df.列名.nsmallest() #默认取后五个,先排序,取后五名
df.nsmallest(5,'列名')

在这里插入图片描述

2 分箱(离散化)

2.1 pd.cut

pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False)
 
用途:返回 x 中的每一个数据 在bins 中对应 的范围
参数:
# x : 必须是一维数据
# bins: 不同面元(不同范围)类型:整数,序列如数组, 和IntervalIndex
# right: 最后一个bins是否包含最右边的数据,默认为True
# precision:精度 默认保留三位小数
# retbins: 即return bins 是否返回每一个bins的范围 默认为False

2.1.1 均匀切分,等距分箱

例:按照总分列进行分组,pd.cut(df.总分,n) 是把这一列数基于数值区间的大小分为n组,即(max-min)/n,然后统计每个数在哪一个区间,这样至于每个区间内有几个数就不一定了。

pd.cut(df.总分,3,labels=["不及格","及格","优秀"])

在这里插入图片描述在这里插入图片描述

2.1.2 指定切分点切分

ser0=pd.cut(df.score,[300,400,600,800],labels=["不及格","及格","优秀"])
ser0

在这里插入图片描述

2.2 pd.qcut

等深分箱:每个离散化的类别中样本个数相似

 pandas.qcut(x, q, labels=None, retbins=False, precision=3, duplicates=raise)
 
用途:基于样本分位数划分数据。即把一组数字按大小区间进行分区
参数:
# x:是数据 1d ndarray或Series
# q:整数或分位数数组;定义区间分割方法

例:按照总分列进行分组,pd.qcut(a,n) 就是把这一列数的个数等分为n组,然后根据每组数据的大小值确定分组区间。

pd.qcut(x, q)

在这里插入图片描述

参考链接:https://blog.csdn.net/tcy23456/article/details/84797418

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/587389.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

最全面的WMS系统选购指南:从功能到价格一网打尽

WMS(仓库管理系统)是一款能够提高仓储和物流企业效率的重要工具,并且能够帮助客户更好地管理他们的供应链网络。但是市面上有很多不同的WMS系统,如何选出最适合自己的系统呢?下面将为您介绍全面的WMS系统选购指南。 功…

软件工程师,不懂点设计模式怎么行

设计模式的圣经 提起设计模式,就不得不提《设计模式——可复用面向对象软件的基础》这本经典著作。1995年,GOF(Gang Of Four),也就是Erich Gamma, Richard Helm, Ralph Johnson, John Vlissides这四个人,合…

感谢你们为科技创新和社会进步做出的贡献

感谢你们为科技创新和社会进步做出的贡献 近日中国科技发展事件 据中国载人航天工程办公室消息,北京时间2023年5月30日6时42分,神舟十六号载人飞行任务航天员乘组出征仪式在酒泉卫星发射中心问天阁圆梦园广场举行。6时44分,中国载人航天工程…

Linux:虚拟网卡技术tun/tap

一、介绍 Linux中的TAP网络接口详解是Linux网络管理中的很重要的一部分,它可以用来建立虚拟网络,模拟网络,管理网络流量以及实现安全网络功能等。本文将介绍TAP网络接口的基本原理、如何使用它进行网络管理、与以太网的区别&#x…

在 I/O 看未来 | Flutter 和 Dart 最新进展

作者 / Google 开发者框架和语言 (含 Flutter、Dart 和 Go) 产品经理/用户体验总监 Tim Sneath 今年的 Google I/O 大会在位于加利福尼亚州山景城的总部附近举办,我们怀着无比激动的心情面向全球直播了这场盛会! 就在三个多月前,我们在肯尼亚…

软考A计划-试题模拟含答案解析-卷十二

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例 👉关于作者 专注于Android/Unity和各种游戏开发技巧,以及各种资源分享&am…

带电接10kV空载电缆线路与架空线路连接引线(绝缘手套作业法)

一、现场复勘 1.核对线路及杆塔号 线路双重名称及杆号无误。 2.检查杆身质量 3.检查电杆埋深 4.检查导线固定情况 检查作业点导线有无烧伤、断股。 5.检查气象条件 作业前需进行湿度和风速的测量,风力大于5级,或湿度大于80%时,不宜带电作…

Microsoft Build 2023 After Party - 上海站

点击蓝字 关注我们 编辑:Alan Wang 排版:Rani Sun 微软 Reactor 为帮助广开发者,技术爱好者,更好的学习 .NET Core, C#, Python,数据科学,机器学习,AI,区块链, IoT 等技术&#xff0…

企业级信息系统开发讲课笔记4.4 Spring Boot加载自定义配置文件

文章目录 零、学习目标一、为什么需要加载自定义配置文件二、使用PropertySource加载自定义配置文件(一)创建Spring Boot项目(二)创建自定义配置文件(三)创建自定义配置类(四)编写测…

一款射频芯片的layout设计指导案例-篇章1

RTL8762C是瑞昱一款超低功耗蓝牙芯片,瑞昱的硬件设计指导书中,关于该芯片的layout设计指导很有普适性的参考指导意义,如下为笔者做过一定简化的芯片最小系统原理图—— PCB Layout建议分如下几个点—— 元件布局顺序 按如下顺序布置元件&…

可视化搭建 - 场景实战

接下来用实战来说明该可视化搭建框架是否好用,以下几条原则需要始终贯穿在下面每个实战场景中: 复杂的业务场景,背后使用的框架 API 是简单的。底层 API 并不为业务场景特殊编写,而是具有很强的抽象性,很容易挖掘出其他…

23种设计模式之状态模式(State Pattern)

前言:大家好,我是小威,24届毕业生,在一家满意的公司实习。本篇文章将23种设计模式中的状态模式,此篇文章为一天学习一个设计模式系列文章,后面会分享其他模式知识。 如果文章有什么需要改进的地方还请大佬不…

Zabbix API开发实战,创建报警媒介和代码示例(付源码)

Zabbix API开始发挥重要作用,尤其是在Zabbix与第三方软件(如配置和事件管理系统)的集成以及日常任务的自动化方面。如果没有一些自动化,管理对数千台主机的监控是非常困难的。 API是在Zabbix 1.8中引入的,并且已经被广…

多语言电商系统_国际化电商系统流程

跨境电商系统是基于计算机技术和互联网平台的一种电子商务系统。它通常包括前端电商网站或应用程序、后台管理系统、物流管理系统、支付系统等多个模块,可以通过网络实现商品展示、订单管理、支付结算、物流配送等电商流程的自动化处理。 跨境电商系统基本流程包括…

JWT | 一分钟掌握JWT | 概念及实例

作者:Mars酱 声明:本文章由Mars酱编写,部分内容来源于网络,如有疑问请联系本人。 转载:欢迎转载,转载前先请联系我! 什么是JWT JWT的全称是Json Web Token。是基于RFC 7519开放标准的&#xff…

玩转ChatGPT:视频制作

一、写在前面 最近,在码深度学习图像识别的相关知识和代码,这一part,看看能否用小Chat搞一个介绍视频。 简单问小Chat: 咒语:我怎么使用你做一个视频?需要配合什么软件生成?? 大意…

2023.5.22-5.28 AI行业周刊(第149期):毕业10年后的实验室聚会

周末和实验室,无锡这边师兄弟们相聚了一次,之前在无锡这边的江南大学读书,后来工作后大家大多数也都留在了无锡。 我们研究生时的实验室,专门有一个微信群,从02年入学,到17年入学,多年各界的师…

Node.JS学习 | Babel | webpack | ES6

💗wei_shuo的个人主页 💫wei_shuo的学习社区 🌐Hello World ! Node.JS Node.JS能够在服务器端运行JavaScript的开放源代码、跨平台运行环境;Node.js采用Google开发的V8运行代码,使用事件驱动、非阻塞IO和异…

Python常用数据结构

Python 提供了多种内置的数据结构,用于存储和组织数据。以下是一些常见的 Python 数据结构: 1.列表(List):列表是一个有序、可变的数据集合,可以包含任意类型的元素。列表使用方括号 [] 表示,元…

谷歌周彦祺:LLM浪潮中的女性科学家多面手丨智源大会嘉宾风采

导读 大模型研发竞赛如火如荼,谷歌紧随OpenAI其后推出PalM2、Gemini等系列模型。Scaling Law是否仍然适用于当下的大模型发展?科技巨头与初创企业在竞争中各有哪些优势和劣势?模型研究者应秉持哪些社会责任? 2023智源大会「基础模…