掌握这10个Pandas函数，助你彻底了解数据集

news2026/2/12 12:08:44

10个帮助你完全理解数据集的Pandas 函数

长按关注《Python学研大本营》，加入读者群，分享更多精彩扫码关注《Python学研大本营》，加入读者群，分享更多精彩

Pandas是用于探索性数据分析 (EDA)的最佳 Python 模块。

许多初级数据科学家认为他们需要处理的大部分问题都来自花哨的深度学习模型。

然而，实际上，很多问题都来自数据。

探索和清理数据听起来很无聊，而且不像训练最先进的 AI 模型那么酷。但如果你想成为一名专业的数据科学家，探索性数据分析和数据预处理也是必不可少的技能。

幸运的是，有许多很棒的工具可以帮助您了解数据集。著名的 Python 数据处理模块 Pandas 就是其中之一。

本文将介绍 Pandas 的 10 个超级有用的功能，这些功能经常用于探索性数据分析目的。

首先，让我们导入 Pandas 模块并使用著名的“ Netflix Movies and TV Shows ”数据集作为示例数据制作一个 DataFrame。

（https://www.kaggle.com/datasets/shivamb/netflix-shows?resource=download）

import pandas as pd
df = pd.read_csv('netflix_titles.csv')

1. head() 或 tail()：检查 DataFrame的前五行或最后五行

当您收到一个新数据集时，没有什么比直接查看数据表更直观的了。

但是，有时数据集太大而无法逐行遍历。通过检查 DataFrame 的前 5 行或后 5 行来获得第一印象是个好主意。至少，它可以帮助您了解数据的基本结构。

在 Pandas 中，head()和tail()函数用于此目的：

df.head()

执行 head() 函数的结果

df.tail()

tail() 函数的执行结果

2.形状：了解行数和列数

因为 Pandas DataFrame 是一个二维表。这张表格的“形状”对我们来说是重要的信息。我们可以直接通过shape属性获取：

df.shape

输出是：

(8807, 12)

它告诉我们这个数据集有 8807 行和 12 列。

3. columns：列出所有的列名

该columns属性可以告诉您 DataFrame 的所有列的名称。

df.columns

输出是：

Index(['show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added','release_year', 'rating', 'duration', 'listed_in', 'description'],dtype='object')

4. index：获取索引的范围

同样，您可以通过该index属性了解 DataFrame 的索引范围：

df.index

它将打印以下信息：

RangeIndex(start=0, stop=8807, step=1)

5. info()：获取有关 DataFrame 的更多详细信息

Pandas 中还有另一个函数可以为您提供有关 DataFrame 的更多详细信息 - info().

df.info()

执行上述函数后的结果如下：

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       8807 non-null   object
 1   type          8807 non-null   object
 2   title         8807 non-null   object
 3   director      6173 non-null   object
 4   cast          7982 non-null   object
 5   country       7976 non-null   object
 6   date_added    8797 non-null   object
 7   release_year  8807 non-null   int64 
 8   rating        8803 non-null   object
 9   duration      8804 non-null   object
 10  listed_in     8807 non-null   object
 11  description   8807 non-null   object
dtypes: int64(1), object(11)
memory usage: 825.8+ KB

6. describe()：数值列的基本统计分析

如果某一列的数据是数值型的，我们可以通过该describe()函数得到一些基本但重要的统计指标，比如均值/最小值/最大值、标准差等。

df.describe()

上述代码的结果如下：

Pandas DataFrame 的“describe”函数的结果

7. isna()：检测DataFrame的缺失值

处理缺失值是一件令人头疼的事情。好消息是 Pandas 有一个功能可以帮助我们方便地检测缺失值—— isna().

df.isna()

Pandas isna() 函数的结果

如上所示，该isna()函数将返回一个 DataFrame，其中包含与原始 DataFrame 大小相同的布尔值。所有为NA值的单元格，例如None或numpy.NaN将是True。和其他单元格会False。

有时，返回相同大小的大型 DataFrame 并不是一个好主意。我们可以在方法any()之后添加函数isna()来了解列是否包含NA值：

df.isna().any()

isna().any() 函数的结果

顺便说一下，isnull()函数是Pandas中isna()函数的别名，它们的工作方式相同。

当然，notna()功能是相反的。它是检测现有（非缺失）值。

8. unique()：获取一列的所有唯一值

对于分类列，最好知道它的所有不同值。该unique()功能可以为您提供预期的结果。

例如，我们想知道该country列的所有唯一国家名称：

df.country.unique()

结果是：

执行Pandas“独特”功能的结果

9. value_counts()：获取DataFrame中唯一值的计数

此外，如果我们想知道分类列的每个不同值的计数，我们可以使用以下value_counts()方法：

df.value_counts('country')

同样，让我们执行上面的代码：

运行 value_counts() 函数的结果

10. query()：随心所欲地探索 DataFrame

对于更复杂的数据探索任务，query()函数是终极工具。借助它，您可以像使用 SQL 查询数据库表一样方便地查询 Pandas DataFrames。

例如，让我们执行一个简单的查询：

df.query('release_year>=2021')

查询结果

您甚至可以添加多个条件：

df.query('release_year>=2021 & type=="Movie"')

多条件查询结果