Pandas数据分析教程-描述性统计量

news2024/10/5 13:57:19

pandas基础介绍-命令模版

  • 描述性统计量
    • pandas 统计函数
    • 相关与协方差
    • 唯一值,频次统计,成员关系
      • 1. Series.unique()
      • 2. Series/DataFrame/array.value_counts()
      • 3. Series.isin()
      • 4. get_indexer() 索引对应转换

本文介绍pandas中一些常用的描述性统计量相关知识,包括pandas统计函数、相关系数与协方差、唯一值、频次统计和成员关系。希望可以帮助到有需要的小伙伴。

描述性统计量

pandas 统计函数

从 Series 中提取单个值(如总和或平均值)的方法,或从 DataFrame 的行或列中提取一系列值的方法。与 NumPy 数组上的类似方法相比,它们具有针对缺失数据的内置处理,默认跳过。

  • 以sum举例
#默认沿行计算,得到每一列的和
df.sum()
df.sum(axis='index')
#通过制定axis 变为沿列计算,得到每一行的和
df.sum(axis='columns')

#若不想跳过缺失数据,某行中有NA 则结果就为NA,使用 skipna
df.sum(axis='columns',skipna=False)

可以选择的参数:
在这里插入图片描述

  • 求达到最大值时的索引 df.idxmax()
  • 数字类型和非数字类型统计描述 df.describe()
    数字类型返回非零计数、均值、方差、最大最小值等。非数字烈性返回元素出现的频次
  • 其他描述性统计方法
    在这里插入图片描述
    在这里插入图片描述

相关与协方差

  • 相关性
# 返回矩阵各个列之间的相关性系数
df.corr()

#计算某两列之间的相关性
df['col1'].corr(df['col2'])

#计算某列与整个矩阵之间的相关性
df.corrwith(df['col']
  • 协方差
# 返回矩阵各个列之间的协方差
df.cov()

#计算某两列之间的协方差
df['col1'].cov(df['col2'])

在这里插入图片描述

唯一值,频次统计,成员关系

1. Series.unique()

返回Series中元素去掉重复值的结果,不排序

2. Series/DataFrame/array.value_counts()

Series 统计某一列各种值出现的次数
DataFrame 把每一行当做整体,统计其出现的次数

Series.value_counts()
df.value_counts()

#计算DF中每一列每个值出现的次数
df.apply(pd.value_counts).fillna(0)

3. Series.isin()

判断元素是否在Series中,返回布尔值

mask = obj.isin(['b','c'])
obj[mask]

4. get_indexer() 索引对应转换

Index_A.get_indexer(Series_B) 得到B的值对应的A种的索引的数组

to_match = pd.Series(['c','a','b','b','c','a'])
unique_vals = pd.Series(['c','b','a'])

indices = pd.Index(unique_vals).get_indexer(to_match)

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/933258.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【考研数学】线性代数第四章 —— 线性方程组(2,线性方程组的通解 | 理论延伸)

文章目录 引言四、线性方程组的通解4.1 齐次线性方程组4.2 非齐次线性方程组 五、方程组解的理论延伸 引言 承接前文,继续学习线性方程组的内容,从方程组的通解开始。 四、线性方程组的通解 4.1 齐次线性方程组 (1)基础解系 —…

从“芯”出发,国产IDE来了?网友:VS Code 姊妹款?

点击上方“程序猿技术大咖”,关注并选择“设为星标” 回复“加群”获取入群讨论资格! 昨天日本核污水排放刷屏,今天却被一条github issues 霸屏:Vscode,你们是否与中国合作过?(Vscode, have you…

22.查找,线性表的查找

目录 一. 查找的基本概念 二. 线性表的查找 (1)顺序查找(线性查找) (2)折半查找(二分或对分查找) (3)分块查找 一. 查找的基本概念 查找表是由同一类型的数据元素(…

深度学习11:Transformer

目录 什么是 Transformer? Encoder Decoder Attention Self-Attention Context-Attention 什么是 Transformer(微软研究院笨笨) RNN和Transformer区别 Universal Transformer和Transformer 区别 什么是 Transformer? ​ …

python下timer定时器常用的两种实现方法

前言 大家早好、午好、晚好吖 ❤ ~欢迎光临本文章 话不多说,直接开搞,如果有什么疑惑/资料需要的可以点击文章末尾名片领取源码 方法一,使用线程中现成的: 这种一般比较常用,特别是在线程中的使用方法,下…

python3GUI--PyQt5打包心得(详细图文演示)

文章目录 一.前言二.准备工作&介绍1.准备2.介绍1.pyinstaller2.pipenv 三.项目打包1.准备2.打包1.打包参数2.虚拟环境 三.总结 一.前言 有朋友私信问我,如何把项目打包和如何减小打包后的文件体积。笔…

HarmonyOS应用开发者高级认证练习题

系列文章目录 HarmonyOS应用开发者基础认证练习题 HarmonyOS应用开发者高级认证练习题 文章目录 系列文章目录前言一、判断二、单选三、多选 前言 本文所有内容来源于个人进行HarmonyOS应用开发者系列认证的学习过程中所做过的练习题,所有答案均是个人作答&#x…

深度学习4. 循环神经网络 – Recurrent Neural Network | RNN

目录 循环神经网络 – Recurrent Neural Network | RNN 为什么需要 RNN ?独特价值是什么? RNN 的基本原理 RNN 的优化算法 RNN 到 LSTM – 长短期记忆网络 从 LSTM 到 GRU RNN 的应用和使用场景 总结 百度百科维基百科 循环神经网络 – Recurre…

css滚动条样式这样修改下很漂亮

<!DOCTYPE html> <html> <head> <meta charset"utf-8"> <title>滚动条样式修改下很漂亮(不支持IE)</title> <style type"text/css"> * { margin: 0; padding: 0; } .box { width: 300px; height: 100px; margin…

Linux系统编程:线程控制

目录 一. 线程的创建 1.1 pthread_create函数 1.2 线程id的本质 二. 多线程中的异常和程序替换 2.1 多线程程序异常 2.2 多线程中的程序替换 三. 线程等待 四. 线程的终止和分离 4.1 线程函数return 4.2 线程取消 pthread_cancel 4.3 线程退出 pthread_exit 4.4 线程…

在编辑器中使用正则

正则是一种文本处理工具&#xff0c;常见的功能有文本验证、文本提取、文本替换、文本切割等。有一些地方说的正则匹配&#xff0c;其实是包括了校验和提取两个功能。 校验常用于验证整个文本的组成是不是符合规则&#xff0c;比如密码规则校验。提取则是从大段的文本中抽取出…

探索AIGC人工智能(Midjourney篇)(二)

文章目录 利用Midjourney进行LOGO设计 用ChatGPT和Midjourney的AI绘画&#xff0c;制作儿童绘本故事 探索Midjourney换脸艺术 添加InsightFaceSwap机器人 Midjourney打造专属动漫头像 ChatGPT Midjourney画一幅水墨画 Midjourney包装设计之美 Midjourney24节气海报插画…

【车载开发系列】常用开发工具一览

【车载开发系列】常用开发工具一览 常用开发工具一览 【车载开发系列】常用开发工具一览一. HexView(十六进制查看编辑器)二. VSB Vehicle Systems Builder三. MULTI IDE四. CANoe五. CANalyzer网络分析测试工具六. CasePlayer2七. Renesas Flash Programmer八. Ecu Spectrum九…

红黑树基础理解

一、数据结构 1.数组 a.内存地址连续&#xff0c;使用之前必须要指定数组长度 b.可以通过下标访问的方式访问成员&#xff0c;查询效率高 c.增删操作会带来性能消耗效率相对差点(要防止数据下标越界的问题&#xff0c;需要动态扩容&#xff09; 2.链表 &#xff1a;单向链表…

ICP算法

一、ICP 迭代最接近点&#xff08;ICP&#xff09;&#xff1a;给定两个点集。估计R&#xff0c;t以对齐两个点。 找到点的对应关系估算R&#xff0c;t基于R&#xff0c;t&#xff0c;计算误差和分数重复执行上述步骤直到收敛 传统ICP&#xff1a;根据距离进行计算&#xff0c…

使用Python统计小说语言描写的字数

说明&#xff1a;最早出现这个需求&#xff0c;来自博主阅读《罪与罚》&#xff0c;书中陀思妥耶夫斯基有太多的语言描述&#xff0c;以至于我想知道这本书中到底出现了多少对白。文本介绍如果使用python程序统计一本书中的对话&#xff0c;角色名称&#xff0c;标点符号。 找…

深度学习模型数值稳定性——梯度衰减和梯度爆炸的说明

文章目录 0. 前言1. 为什么会出现梯度衰减和梯度爆炸&#xff1f;2. 如何提高数值稳定性&#xff1f;2.1 随机初始化模型参数2.2 梯度裁剪&#xff08;Gradient Clipping&#xff09;2.3 正则化2.4 Batch Normalization2.5 LSTM&#xff1f;Short Cut&#xff01; 0. 前言 按照…

读取SD卡图片bin文件显示LCD上

读取SD卡bin文件显示图片 Coding 环境搭建&#xff1a; 硬件平台&#xff1a;STM32H750XBH6开发环境&#xff1a;STM32CubeMX V6.8.1KEIL V5.28.0.0STM32H750固件版本&#xff1a;package V1.11.0仿真下载驱动&#xff1a;ST-Link 前言&#xff1a;STM32H750XBH6 的flash只…

零基础学习正演的数值模拟(含代码)

摘要: 本贴从零开始学习正演的数值模拟方法. 包括相应的偏微分基础、声波方程、雷克子波、均匀速度场的模拟、一般速度场的模拟. 1. 偏微分基础 本小节仅涉及高等数学相关知识, 与领域无关. 1.1 导数 引例: 物体从一维坐标的原点开始移动, 在 t t t 时刻, 它在坐标轴的位置…

汤普森采样(Thompson sampling): 理论支持

目录 一、UCB与TS算法数学原理1、Upper Confidence Bounds 数学原理2、Thompson sampling 数学原理a、TS 基本数据原理1. beta 分布2. 共轭分布与共轭先验3. 采样的编程实现 b、TS 算法流程1. TS算法基础版本2. Batched Thompson Sampling 二、UCB与TS算法的优缺点1、TS算法的优…