深入解析Pandas DataFrame：数据组织策略——宽格式与长格式的应用与转换

news2026/3/11 17:09:14

在数据科学和数据分析领域，如何组织数据是一个关键步骤。

Pandas DataFrame 作为 Python 中处理和分析数据的强大工具，提供了灵活的数据组织方

式，其中按行展开（宽格式）和按列展开（长格式）是最常见的两种形式。

按行展开（宽格式）

宽格式数据是数据组织的一种传统方式，特别适用于每个记录具有固定字段的情况。

特点

易于理解：每一行代表一个完整的记录，每一列代表一个特定的属性，符合人们阅读表

格的习惯。

关系型数据库友好：宽格式与关系型数据库的结构相匹配，便于数据的存储和查询。

示例

import pandas as pd

# 宽格式数据示例

data = {

    'Name': ['Alice', 'Bob', 'Charlie'],

    'Age_2020': [25, 30, 35],

    'Age_2021': [26, 31, 36],

    'City': ['New York', 'Los Angeles', 'Chicago']

}

df_wide = pd.DataFrame(data)

print(df_wide)

输出

在这个例子中，每个人的年龄在两个不同的年份都有记录，但数据是按列分开展示的。

按列展开（长格式）

长格式数据适用于记录具有多个观测值的情况，尤其是时间序列数据或面板数据。

特点

灵活性：长格式可以轻松处理不同时间点或不同条件下的多个观测值。

数据分析友好：在进行时间序列分析或分组聚合时，长格式数据更加直观和方便。

示例

import pandas as pd

# 长格式数据示例

data = {

    'Name': ['Alice', 'Alice', 'Bob', 'Bob', 'Charlie', 'Charlie'],

    'Year': [2020, 2021, 2020, 2021, 2020, 2021],

    'Age': [25, 26, 30, 31, 35, 36]

}

df_long = pd.DataFrame(data)

print(df_long)

输出

在这个例子中，每个人的年龄在不同年份的记录被展平为单独的行。

宽格式到长格式的转换

在实际应用中，我们经常需要根据分析需求在不同格式之间转换数据。

Pandas 的 melt 函数是实现这一转换的强大工具。

转换过程：

id_vars：指定哪些列是标识变量，即在转换过程中保持不变的列。

var_name：指定新 DataFrame 中用于存储原列名的列的名称。

value_name：指定新 DataFrame 中用于存储原列值的列的名称。

示例

# 宽格式到长格式的转换

df_wide = pd.DataFrame({

    'Name': ['Alice', 'Bob', 'Charlie'],

    'Age_2020': [25, 30, 35],

    'Age_2021': [26, 31, 36]

})

df_long = df_wide.melt(id_vars='Name', var_name='Year', value_name='Age')

print(df_long)

输出