Pandas 是一个强大的 Python 数据分析库,提供了大量用于数据处理和分析的功能。以下是一些 Pandas 库中常用的功能:
数据创建和操作
- Series 和 DataFrame:创建一维的 Series 和二维的 DataFrame 对象。
- 数据导入:从 CSV、Excel、SQL 数据库等导入数据。
- 数据导出:将 DataFrame 导出为 CSV、Excel、SQL 数据库等格式。
- 数据合并:使用
concat
、merge
和join
方法合并数据集。
数据选择
- 列选择:使用列名或列索引选择列。
- 行选择:使用行索引选择行。
- 条件选择:使用布尔索引根据条件选择数据。
loc
和iloc
:基于标签和位置的索引选择。
数据清洗
- 处理缺失值:使用
dropna
、fillna
等方法处理缺失数据。 - 重复值处理:使用
duplicated
和drop_duplicates
检测和删除重复数据。 - 数据类型转换:使用
astype
方法转换数据类型。 - 数据重塑:使用
pivot
、melt
、stack
和unstack
方法重塑数据。
数据分组和聚合
- 分组:使用
groupby
方法按一个或多个键分组数据。 - 聚合:使用
agg
、sum
、mean
、max
、min
等方法对分组后的数据进行聚合。
数据转换
- 排序:使用
sort_values
和sort_index
方法对数据进行排序。 - 索引设置:使用
set_index
和reset_index
方法设置和重置索引。 - 数据透视表:使用
pivot_table
方法创建数据透视表。
数据分析
- 描述性统计:使用
describe
方法获取数据的快速统计摘要。 - 相关性分析:使用
corr
方法计算列之间的相关性。 - 时间序列分析:使用时间序列相关的方法进行日期范围选择、频率转换等。
数据可视化
- 绘图:使用
plot
方法绘制线图、柱状图、饼图等。
这些功能只是 Pandas 库中的一部分,但它们是进行数据分析时最常使用的功能。Pandas 的强大之处在于其能够以直观和高效的方式处理大量数据,从而使得数据分析工作变得更加容易。