【Pandas】pandas用法解析(二)

news2024/9/27 9:30:32

一、生成数据表

二、数据表信息查看

三、数据表清洗

四、数据预处理

————————————————

目录

五、数据提取

1.按索引提取单行的数值

2.按索引提取区域行数值

3.重设索引

4.设置日期为索引

5.提取4日之前的所有数据

6.使用iloc按位置区域提取数据

7.适应iloc按位置单独提起数据

8.使用ix按索引标签和位置混合提取数据

9.判断city列的值是否为北京

10.判断city列里是否包含beijing和shanghai,然后将符合条件的数据提取出来

11.提取前三个字符,并生成数据表

六、数据筛选

1.使用“与”进行筛选

2.使用“或”进行筛选

3.使用“非”条件进行筛选

4.对筛选后的数据按city列进行计数

5.使用query函数进行筛选

6.对筛选后的结果按prince进行求和

七、数据汇总

1.对所有的列进行计数汇总

2.按城市对id字段进行计数

3.对两个字段进行汇总计数

4.对city字段进行汇总,并分别计算prince的合计和均值

八、数据统计

1.简单的数据采样

2.手动设置采样权重

3.采样后不放回

4.采样后放回

5.数据表描述性统计

6.计算列的标准差

7.计算两个字段间的协方差

8.数据表中所有字段间的协方差

9..两个字段的相关性分析

10.数据表的相关性分析

九、数据输出

1.写入Excel

2.写入到CSV


五、数据提取

主要用到的三个函数:loc,iloc和ix。

loc函数按标签值进行提取,iloc按位置进行提取,ix可以同时按标签和位置进行提取。

1.按索引提取单行的数值

df_inner.loc[3]

2.按索引提取区域行数值

df_inner.iloc[0:5]

3.重设索引

df_inner.reset_index()

4.设置日期为索引

df_inner=df_inner.set_index('date') 

5.提取4日之前的所有数据

df_inner[:'2013-01-04']

6.使用iloc按位置区域提取数据

df_inner.iloc[:3,:2] #冒号前后的数字不再是索引的标签名称,而是数据所在的位置,从0开始,前三行,前两列。

7.适应iloc按位置单独提起数据

df_inner.iloc[[0,2,5],[4,5]] #提取第0、2、5行,4、5列

8.使用ix按索引标签和位置混合提取数据

df_inner.ix[:'2013-01-03',:4] #2013-01-03号之前,前四列数据

9.判断city列的值是否为北京

df_inner['city'].isin(['shanghai'])

10.判断city列里是否包含beijing和shanghai,然后将符合条件的数据提取出来

df_inner.loc[df_inner['city'].isin(['beijing','shanghai'])] 

11.提取前三个字符,并生成数据表

pd.DataFrame(df_inner['category'].str[:3])

六、数据筛选

使用与、或、非三个条件配合大于、小于、等于对数据进行筛选,并进行计数和求和。

df_inner['price']=df_inner['price'].fillna(df_inner['price'].mean())

df_inner['city']=df_inner['city'].str.lower()
df_inner['city']=df_inner['city'].map(str.strip)
df_inner['city']=df_inner['city'].replace('sh', 'shanghai')

df_inner['group'] = np.where(df_inner['price'] > 3000,'high','low')

df_inner.reset_index()
df_inner=df_inner.set_index('date')

1.使用“与”进行筛选

df_inner.loc[(df_inner['age'] > 25) & (df_inner['city'] == 'shanghai'), ['id','city','age','category','gender']]

2.使用“或”进行筛选

df_inner.loc[(df_inner['age'] > 25) | (df_inner['city'] == 'shanghai'), ['id','city','age','category','gender']] 

3.使用“非”条件进行筛选

df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age','category','gender']].sort(['id']) 

4.对筛选后的数据按city列进行计数

df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age','category','gender']].sort(['id']).city.count()

5.使用query函数进行筛选

df_inner.query('city == ["beijing", "shanghai"]')

6.对筛选后的结果按prince进行求和

df_inner.query('city == ["beijing", "shanghai"]').price.sum()

七、数据汇总

主要函数是groupby和pivote_table

1.对所有的列进行计数汇总

df_inner.groupby('city').count()

2.按城市对id字段进行计数

df_inner.groupby('city')['id'].count()

3.对两个字段进行汇总计数

df_inner.groupby(['city','age'])['id'].count()

7.16-20

4.对city字段进行汇总,并分别计算prince的合计和均值

df_inner.groupby('city')['price'].agg([len,np.sum, np.mean]) 

八、数据统计

数据采样,计算标准差,协方差和相关系数

1.简单的数据采样

df_inner.sample(n=3) 

2.手动设置采样权重

weights = [0, 0, 0, 0, 0.5, 0.5]
df_inner.sample(n=2, weights=weights) 

 3.采样后不放回

df_inner.sample(n=6, replace=False) 

4.采样后放回

df_inner.sample(n=6, replace=True)

5.数据表描述性统计

df_inner.describe().round(2).T #round函数设置显示小数位,T表示转置

6.计算列的标准差

df_inner['price'].std()

7.计算两个字段间的协方差

df_inner['price'].cov(df_inner['m-point']) 

8.数据表中所有字段间的协方差

df_inner.cov()

9..两个字段的相关性分析

df_inner['price'].corr(df_inner['m-point']) #相关系数在-1到1之间,接近1为正相关,接近-1为负相关,0为不相关

10.数据表的相关性分析

df_inner.corr()

九、数据输出

分析后的数据可以输出为xlsx格式和csv格式

1.写入Excel

df_inner.to_excel('excel_filename.xlsx', sheet_name='pandas_ok') 

2.写入到CSV

df_inner.to_csv('csv_filename.csv') 

————————————————
参考链接:https://blog.csdn.net/yiyele/article/details/80605909

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/657145.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java线程生命周期详解

前言一、线程的生命周期二、线程状态转换三、线程生命周期示例结束语 前言 Java中的线程生命周期是多线程开发的核心概念。了解线程的生命周期以及它们如何进行状态转换对于编写有效且无错误的多线程程序至关重要。 一、线程的生命周期 Java线程主要有以下几个状态&#xff…

离散数学题目收集整理练习(期末过关进度80%~100%)完结撒花

✨博主:命运之光 🦄专栏:离散数学考前复习(知识点题) 🍓专栏:概率论期末速成(一套卷) 🐳专栏:数字电路考前复习 🌟博主的其他文章&…

UG NX二次开发(C#)-外部模式-导出dwg格式文件

文章目录 1、前言2、在UG NX界面中导出DWG的操作2.1 打开三维模型2.2 创建二维工程制图2.3 导出工程图纸3、采用NXOpen(C#)二次开发实现1、前言 在我们实际使用过程中,经常会用到不同软件之间的数据转换,数据转换是通过通用标准文件来实现的。当然,在三维转二维过程中,dwg…

4.部署Placement服务

Placement服务是从nova服务中拆分出来的组件,Placement组件应该在 Nova之前安装; Placement服务用于跟踪节点资源(比如计算节点,存储资源池,网络资源池等)的使用情况,提供自定义资源的能力&…

CSS基础学习--14 Position(定位)

一、定义 position属性指定了元素的定位类型 position 属性的五个值: staticrelativefixedabsolutesticky 元素可以使用的顶部,底部,左侧和右侧属性定位。然而,这些属性无法工作,除非是先设定position属性。他们也有…

scratch lenet(1): 读写 pgm 图像文件

scratch lenet(1): 读写 pgm 图像文件 文章目录 scratch lenet(1): 读写 pgm 图像文件1. 目的2. pgm 格式介绍2.1 概要2.2 meta 信息2.3 像素内容 3. 创建 .pgm 文件4. 使用C语言读取 .pgm 灰度图文件4.1 实现4.2 解释 5. 使用C语言保存 .pgm 灰度图文件 1. 目的 最近在 githu…

车载软件架构 —— 闲聊几句AUTOSAR OS(四)

我是穿拖鞋的汉子,魔都中坚持长期主义的工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 没有人关注你。也无需有人关注你。你必须承认自己的价值,你不能站在他人的角度来反对自己。人生在世,最怕的就是把别人的眼光当成自己生活的唯一标准。到最…

初识Telegraf、InfluxDB和Grafana铁三角形成的监控可视化解决方案

文章目录 前言原始的监控靠人盯进化的监控靠批处理脚本高端的监控靠完整的可视化解决方案Telegraf、InfluxDB和Grafana铁三角TelegrafInfluxDBGrafana Grafana仪表板展示服务器资源总览负载和内存使用网络带宽磁盘IOIO延迟其他指标进程信息 总结 前言 数据监控目前用于各行各业…

Cracking C++(13): 读取不超过n个字符

文章目录 1. 目的2. 正确用法实例3. 纠正错误用法3.1 错误用法3.2 让 AddressSanitizer 告诉你错误3.3 解释 4. 总结 1. 目的 在读取 pgm 格式图像的 meta 信息时, 使用了 %2s 这个格式串, 之前不是很了解, 尝试后发现, 如果不小…

花上半小时帮你快速熟悉微服务架构

本文将介绍微服务架构和相关的组件,介绍他们是什么以及为什么要使用微服务架构和这些组件。本文侧重于简明地表达微服务架构的全局图景,因此不会涉及具体如何使用组件等细节。 要理解微服务,首先要先理解不是微服务的那些。通常跟微服务相对…

读发布!设计与部署稳定的分布式系统(第2版)笔记02_停飞的代码异常

1. 以前“计划内的停机”很正常,现在则不被接受 2. 高可用性架构 2.1. CF系统不会遇到任何常见的单点失效问题 2.1.1. 硬件的每一部分都有冗余 2.1.1.1. CPU 2.1.1.2. 驱动器 2.1.1.3. 网卡 2.1.1.4. 电源 2.1.1.5. 网络交换机 2.1.1.6. 风扇 2.1.2. 为了…

Redis哨兵模式的配置

1.环境准备 master节点1个slave节点2个sentinel【哨兵】节点3个redis版本5.0.3操作系统:Centos7 2.主从节点配置 创建redis-conf目录,此目录用于存放主从节点的配置文件 复制redis.conf,然后创建三个配置文件:redis-6379.conf&…

循环缓冲题目

题目:一环形缓冲区由 6 个缓冲区 0~5 组成,其中 Full 表示装满数据的缓冲区,Empty 表示空缓冲区。按照顺时针方向,指针 Pf 指向第一个 “满” 缓冲区,指针 Pe 指向第一个 “空” 缓冲区。进程 In 在 Pe 指示下不断向 E…

XSS数据接收网站——XSS在线平台

文章目录 前言使用步骤1、进入到xss在线平台主页2、创建项目3、生成攻击poc4、查看返回结果 前言 平台的网址是: 链接: XSS在线平台 使用步骤 1、进入到xss在线平台主页 2、创建项目 我的项目,点击创建,项目名称和描述随便填,…

Docker安装和使用,Docker拉取Mysql.

Docker Unbuntu安装dockerdocker的相关操作开启docker服务查看镜像搜索镜像拉取镜像删除镜像运行容器查看容器停止运行容器重新运行容器删除容器构建一个Docker镜像登陆Dockerhub提交镜像到dockerhub退出dockerhub进入正在运行的容器的交互式终端其他docker操作 docker拉取mysq…

qemu arm Linux 环境测试交叉编译的 glib 库 测试用例 tests

环境搭建 ubuntu 20.04 arm 平台交叉编译 glib 库 交叉编译 glib 库 glib 库 本身带有大量的测试用例 tests,分别在 glib 各个模块目录下的 tests 目录,如果是 ARM Linux 平台的交叉编译,可以开启 installed_tests 选项 开启 glib tests 测…

2.pixi.js编写的塔防游戏(类似保卫萝卜)-场景编辑器

游戏说明 一个用pixi.js编写的h5塔防游戏,可以用electron打包为exe,支持移动端,也可以用webview控件打包为app在移动端使用 环境说明 cnpm6.2.0 npm6.14.13 node12.22.7 npminstall3.28.0 yarn1.22.10 npm config list electron_mirr…

一种正弦信号叠加高频噪声的信号基频率准确测量方法

1.问题 当信号叠加有高频噪声时,特别是类似有变频器这类强干扰源存在的情况下,如何测得信号的准确频率,是个问题。FFT要求长时间采样,对于嵌入式应用,采样点数和时间消耗都是个问题。而即使用示波器的波形叠加功能&…

Debian12 U盘安装

今天买了一个蓝牙适配器,想着在我的Centos7上把这个蓝牙使用起来,但遗憾的是即使经过淘宝客服的远程操作也无法正常使用起来,原因是我的Centos版本太低,有些头文件缺失内容导致编译不过,然后蓝牙驱动无法正常安装。在客…

【八】spring boot集成数据库连接池druid

spring boot集成数据库连接池druid 最近在进行程序优化的过程中发现程序瓶颈在数据库连接这块,于是开始研究怎么对数据库连接池参数进行调优,在这个过程中发现很多人使用druid很不规范,经常会出现导入的包和配置参数不对应的情况,…