个人主页:在线OJ的阿川
大佬的支持和鼓励,将是我成长路上最大的动力
阿川水平有限,如有错误,欢迎大佬指正
Python 初阶
Python–语言基础与由来介绍
Python–注意事项
Python–语句与众所周知
数据清洗前 基本技能
数据分析—技术栈和开发环境搭建
数据分析—Numpy和Pandas库基本用法及实例
数据整理前 必看
数据分析—三前奏:获取/ 读取/ 评估数据
数据分析—数据清洗操作及众所周知
这是目录
- <font color= f28e16 size=5>合并拼接数据
- <font color= f28e16 size=5>分组数据
- <font color= f28e16 size=5>众所周知
合并拼接数据
将多个DataFrame的数据进行合并或者拼接
- concat 将不同的DataFrame进行拼接
- ignore_index=True 参数忽视原本DataFrame的索引
- axis 参数可以指定纵向和横向合并
- merge 根据不同的DataFrame的相同列进行合并
- on 该参数锁定条件列进行合并
- left-on 左边指定列
- right-on 右边指定列
- suffixes 该参数可修改列名后缀
-
how 该参数 决定以什么样的方式合并
-
join 根据索引去合并
- lsuffix 修改左边后缀
- rsuffix 修改右边后缀
- how 该参数决定以什么样方式合并
- inner(默认方式) 保留左右表都有匹配的值
- outer 保留左右表的所有值,若有匹配不上的,则用NaN填充
- left 保留 左边的值,用右边的值去匹配,若匹配不上则填充NaN
- right 保留 右边的值,用左边的值去匹配,若匹配不上则填充NaN
分组数据
将DataFrame的数据进行分组
- groupby 根据选择条件进行分组,且应该提取相应的变量,做相应的聚合操作
会生成一个实例,但看不到究竟长什么样
因为实例中一个单元格里有多个数据情况,并不是有效的表格,数据要提取到具体的,再用聚合函数
将多个数据 聚合成单个数据,从而符合一个单元格中一个数据的规则
众所周知
聚合函数是可将多个Series变成单个数据的函数
常见的有
count 得到元素的数量
first 得到第一个元素
last 得到最后一个元素
mean(默认的聚合方式) 得到所有元素平均值
median 得到所有元素中位数
min 得到所有元素的最小值
max 得到所有元素的最大值
std 得到所有元素的标准差
var 得到所有元素的方差
prod 得到所有元素的积
sum 得到所有元素的和
- cut 根据范围进行精细分组
- [ ] 分箱标准
- 即想要的分组范围进行划分
- labels 该参数对切片空间进行命名
- [ ] 分箱标准
- query 条件筛选
- pivot_table 透视表,基于原始数据对表进行重塑
- index 该参数可以指定索引
- columns 该参数可以指定列名
- values 该参数可以指定值
- aggfunc 该参数 指定聚合方式
- .loc.loc 层次化索引,可以针对处理多个索引的pivot_table透视表
- reset_index 重置索引
好的,到此为止啦,祝您变得更强
想说的话
实不相瞒,写的每篇博客都要写五六个小时(加上自己学习和纸质笔记,共八九小时吧),很累,希望大佬支持
道阻且长 行则将至 |
---|
个人主页:在线OJ的阿川大佬的支持和鼓励,将是我成长路上最大的动力 |