【实战指南】揭秘Pandas：从零开始掌握数据处理与分析的超级工具箱

news2025/4/22 1:46:59

Series

创建 Series

访问数据

DataFrame

创建 DataFrame

读取 CSV 文件

写入 CSV 文件

基本操作

查看前几行:

查看后几行:

描述性统计:

选择列:

选择行:

条件筛选:

排序:

合并数据:

Pandas 是一个强大的 Python 库，主要用于数据分析和数据处理。它提供了两种主要的数据结构：Series 和 DataFrame。

Series

Series 是一个一维的标签数组，它可以容纳任何数据类型（整数、字符串、浮点数、Python对象等）。Series 的轴标签统称为索引

创建 Series

import pandas as pd

# 使用列表创建 Series
s = pd.Series([1, 3, 5, np.nan, 6, 8])

访问数据

# 访问第一个元素
print(s[0])

# 切片访问多个元素
print(s[0:3])

DataFrame

DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）。DataFrame 的轴索引包括行索引和列索引。

创建 DataFrame

data = {'Name': ['Tom', 'Nick', 'John', 'Tom'],
        'Age': [20, 21, 19, 20]}
df = pd.DataFrame(data)

读取 CSV 文件

df = pd.read_csv('path/to/yourfile.csv')

写入 CSV 文件

df.to_csv('path/to/newfile.csv', index=False)

基本操作

查看前几行:

  print(df.head())

查看后几行:

  print(df.tail())

描述性统计:

  print(df.describe())

选择列:

  print(df['Name'])

选择行:

  print(df[df['Age'] > 20])

条件筛选:

  mask = df['Name'] == 'Tom'
  print(df[mask])

排序:

  print(df.sort_values(by='Age'))

合并数据:

  df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                      'B': ['B0', 'B1', 'B2', 'B3'],
                      'key': ['K0', 'K1', 'K0', 'K1']})
  
  df2 = pd.DataFrame({'C': ['C0', 'C1'],
                      'D': ['D0', 'D1']},
                     index=['K0', 'K1'])
  
  result = pd.merge(df1, df2, left_on='key', right_index=True)