这20个Pandas函数可以完成80%的数据科学工作

news2025/1/16 5:06:15

Pandas 是数据科学社区中使用最广泛的库之一,它是一个强大的工具,可以进行数据操作、清理和分析。本文将提供最常用的 Pandas 函数以及如何实际使用它们的样例。我们将涵盖从基本数据操作到高级数据分析技术的所有内容,到本文结束时,你会深入了解如何使用 Pandas 并使数据科学工作流程更高效。

1、pd.read_csv ()

read_csv用于读取CSV(逗号分隔值)文件并将其转换为pandas DataFrame。

 import pandas as pd
 df = pd.read_csv('Popular_Baby_Names.csv')

在这个例子中,pd.read_csv函数读取文件’ data.csv '并将其转换为一个DataFrame,它有许多选项,如sep, header, index_col, skiprows, na_values等。

 df = pd.read_csv('Popular_Baby_Names.csv', sep=';', header=0, index_col=0, skiprows=5, na_values='N/A')

这个例子读取CSV文件data.csv,使用;作为分隔符,第一行作为标题,第一列作为索引,跳过前5行,将N/ a替换为NaN。

2、df.describe ()

df.describe()方法用于生成DataFrame的各种特征的汇总统计信息。它返回一个新的DataFrame,其中包含原始DataFrame中每个数值列的计数、平均值、标准差、最小值、第25百分位、中位数、第75百分位和最大值。

 print(df.describe())

通过向方法传递适当的参数,还可以包括或排除某些列,比如排除非数值列。

 df.describe(include='all')  # include all columns

 df.describe(exclude='number') # exclude numerical columns

3、df.info ()

df.info()可以获得DataFrame的简明摘要,包括每列中非空值的数量、每列的数据类型以及DataFrame的内存使用情况。

 print(df.info())

4、df.plot ()

df.plot()可以从DataFrame创建各种类型的图。默认情况下,它在DataFrame中创建所有数值列的线状图。但是你也可以通过参数kind来指定你想要创建的图形类型。可选选项有line、bar、barh、hist、box、kde、density、area、pie、scatter和hexbin。

在下面的例子中,将使用.plot()方法绘制数值变量和分类变量。对于分类变量,将绘制条形图和饼状图,对于数值变量,将绘制箱形图。

 df['Gender'].value_counts().plot(kind='bar')

 df['Gender'].value_counts().plot(kind='pie')

 df['Count'].plot(kind='box')

它还支持许多其他选项,如title

,

xlabel

,

ylabel

,

legend

,

grid

,

xlim

,

ylim

,

xticks

,

yticks等,df.plot()只是matplotlib的一个方便包装。所以matplotlib的参数都可以在df.plot中使用

5、df.iloc ()

.iloc()函数用于根据索引选择行和列

 print(df.iloc[0])

 print(df.iloc[:2])

 print(df.iloc[:, 0])

 print(df.iloc[:, :2])

 print(df.iloc[1, 1])

在上面的例子中,df.Iloc[0]选择第一行,Iloc[:2]选择前两行,Iloc[:, 0]选择第一列,Iloc[:,:2]选择前两列,Iloc[1,1]选择位于(第二行,第二列)(1,1)位置的元素。

.iloc()只根据它们基于整数的索引选择行和列,所以如果您想根据它们的标签选择行和列,应该使用.loc()方法,如下所示。

6、df.loc ()

.loc()函数用于根据DataFrame中基于标签的索引选择行和列。它用于根据基于标签的位置选择行和列。

 print(df.loc[:, ['Year of Birth', 'Gender']])

在上面的例子中,df.loc[:, [‘Year of Birth’, ‘Gender’]]选择名为’出生年份’和’性别’的列。

7、df.assign ()

.assign()函数用于根据现有列的计算向DataFrame添加新列。它允许您在不修改原始数据的情况下添加新列。该函数会返回一个添加了列的新DataFrame。

 df_new = df.assign(count_plus_5=df['Count'] + 5)
 df_new.head()

在上面的例子中,df.assign()第一次被用来创建一个名为’count_plus_5’的,值为count + 5的新列。

原始的df保持不变,返回新的df_new,并添加了新的列。.assign()方法可以在一个链中多次使用,可以在一行代码中添加多个新列。

8、df.query ()

.query()函数可以根据布尔表达式过滤数据。可以使用类似于SQL的查询字符串从DataFrame中选择行。该函数返回一个新的DataFrame,其中只包含满足布尔表达式的行。

 df_query = df.query('Count > 30 and Rank < 20')
 df_query.head()

 df_query = df.query("Gender == 'MALE'")
 df_query.head()

在上面的例子中,使用df.query()来选择Count大于30且Rank小于30的行,第二次使用df.query()来选择Gender为’MALE’的行。

原始的DataFrame df保持不变,df_query返回过滤后新的DataFrame。

.query()方法可以与任何有效的布尔表达式一起使用,当你希望基于多个条件筛选DataFrame,或者当条件复杂且难以使用标准索引操作符表示时,它非常有用。

另外请记住.query()方法很慢,所以如果性能很关键,应该尽量避免使用。

9、df.sort_values ()

.sort_values()函数可以按一列或多列对数据进行排序。它根据一个或多个列的值按升序或降序对DataFrame进行排序。该函数返回一个按指定列排序的新DataFrame。

 df_sorted = df.sort_values(by='Count')
 df_sorted.head()

 df_sorted = df.sort_values(by='Rank', ascending=False)
 df_sorted.head()

 df_sorted = df.sort_values(by=['Count', 'Rank'])
 df_sorted.head()

在上面的例子中,第一次使用df.sort_values()按“Count”升序对DataFrame排序,第二次使用按“Rank”降序排序,最后一次使用按多个列“Count”和“Rank”排序。

.sort_values()方法可用于DataFrame的任何列,当希望基于多个列对DataFrame进行排序时,或者当希望按列降序对DataFrame进行排序时,它非常有用。

10、df.sample ()

.sample()函数可以从数据帧中随机选择行。它返回一个包含随机选择的行的新DataFrame。该函数采用几个参数,可以控制采样过程。

 df_sample = df.sample(n=2, replace=False, random_state=1)
 df_sample

 df_sample = df.sample(n=3, replace=True, random_state=1)
 df_sample

 df_sample = df.sample(n=2, replace=False, random_state=1, axis=1)
 df_sample

在上面的例子中,第一次使用df.sample()随机选择2行,第二次使用df.sample()随机选择3行,最后一次使用df.sample()随机选择2列。

当希望随机选择数据子集进行测试或验证时,或者当希望随机选择行样本进行进一步分析时,.sample()方法非常有用。random_state参数对于再现性很有用,使用axis=1参数可以选择列。

11、df.isnull ()

isnull()方法返回一个与原始DataFrame形状相同的DataFrame,通过True或False值,指示原始DataFrame中的每个值是否缺失。缺失的值NaN或None,在结果的DataFrame中将为True,而非缺失的值将为False。

 df.isnull()

12、df.fillna ()

fillna()方法用于用指定的值或方法填充DataFrame中的缺失值。默认情况下,它用NaN替换缺失的值,也可以指定一个不同的值来代替,一般情况下可以使用以下的参数:

  • value:指定用来填充缺失值的值。可以是标量值,也可以是不同列的值的字典。
  • method:指定用于填充缺失值的方法。可以是’ffill’(向前填充)或’bfill’(向后填充)或’interpolate’(插值值)或’pad’或’backfill’
  • axis:指定填充缺失值的轴。它可以是0(行)或1(列)。
  • inplace:是将缺失的值填充到位(修改原始的DataFrame),还是返回一个新的DataFrame。
  • limit:指定要填充的连续缺失值的最大数量。
  • downcast:指定一个值字典,用于向下转换列的数据类型。
 df.fillna(0)
 
 df.fillna(method='ffill')
 
 df.fillna(method='bfill')
 
 df.interpolate()

需要注意的是,fillna()方法返回一个新的DataFrame,并不修改原始的DataFrame。如果想修改原始的DataFrame,可以使用inplace参数并将其设置为True。

 df.fillna(0, inplace=True)

13、df.dropna ()

df.dropna()可以从DataFrame中删除缺失值或空值。它从DataFrame中删除至少缺失一个元素的行或列。可以通过调用df.dropna()删除包含至少一个缺失值的所有行。

 df = df.dropna()

如果只想删除包含至少一个缺失值的列,可以使用df.dropna(axis=1)

 df = df.dropna(axis=1)

你还可以设置thresh参数,只保留至少具有阈值非na /null值的行/列。

 df = df.dropna(thresh=2)

14、df.drop ()

df.drop()可以通过指定的标签从DataFrame中删除行或列。它可以用于删除一个或多个基于标签的行或列。

你可以通过调用df.drop()来删除特定的行,并传递想要删除的行的索引标签,并将axis参数设置为0(默认为0)。

 df_drop = df.drop(0)

这将删除DataFrame的第一行。

也可以通过传递一个索引标签列表来删除多行:

 df_drop = df.drop([0,1])

这将删除DataFrame的第一行和第二行。可以通过传递想要删除的列的标签并将axis参数设置为1来删除列:

 df_drop = df.drop(['Count', 'Rank'], axis=1)

15、pd.pivot_table ()

pd.pivot_table()可以从DataFrame创建数据透视表。透视表是一种以更有意义和更有组织的方式总结和聚合数据的表。在下面的例子中,将创建一个以Ethnicity为索引的透视表,并汇总计数的总和。这用于了解数据集中每个Ethnicity的计数。

 pivot_table = pd.pivot_table(df, index='Ethnicity', values='Count', aggfunc='sum')
 pivot_table.head()

通过指定多个索引和值参数,可以在透视表中包含更多列,还可以包括多个aggfunc函数。

 pivot_table = pd.pivot_table(df, index=['Ethnicity','Gender'], values= 'Count' , aggfunc=['sum','count'])
 pivot_table.head(20)

16、df.groupby ()

df.groupby()用于根据一个或多个列对DataFrame的行进行分组。并且可以对组执行聚合操作,例如计算每个组中值的平均值、和或计数。

df.groupby()返回一个GroupBy对象,然后可以使用该对象对组执行各种操作,例如计算每个组中值的和、平均值或计数。

 grouped = df.groupby('Gender')
 print(grouped.mean())

 grouped = df.groupby(['Gender', 'Ethnicity'])
 print(grouped.sum())

17、df.transpose ()

df.transpose()用于转置DataFrame的行和列,这意味着行变成列,列变成行。

 df_transposed = df.transpose()
 df_transposed.head()

也可以使用df上的T属性来实现。df.T和df.transpose()是一样的。

18、df.merge ()

df.merge()可以根据一个或多个公共列组合两个dataframe。它类似于SQL join。该函数返回一个新的DataFrame,其中只包含两个DataFrame中指定列中的值匹配的行。

 df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'],
                    'value': [1, 2, 3, 4]})
 df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'],
                    'value': [5, 6, 7, 8]})
 
 merged_df = df1.merge(df2, on='key')
 print(merged_df)

两个df通过key列进行了合并,相同的列名会被添加x和y。

你也可以通过分别传递how = ’ left '、how = ’ right '或how = ’ outer '来使用左连接、右连接和外连接。

还可以通过将列列表传递给on参数来合并多个列。

 merged_df = df1.merge(df2, on=['key1','key2'])

还可以使用left_on和right_on参数指定要合并的不同列名。

 merged_df = df1.merge(df2, left_on='key1', right_on='key3')

merge()函数有许多选项和参数,可以控制合并的行为,例如处理缺失的值,保留所有行还是只保留匹配的行,合并哪些列等等。

19、df.rename ()

df.rename()可以更改DataFrame中一个或多个列或行的名称。可以使用columns参数更改列名,使用index参数更改行名。

 df_rename = df.rename(columns={'Count': 'count'})
 df_rename.head()

也可以使用字典一次重命名多个列:

 df_rename = df.rename(columns={'Count': 'count', 'Rank':'rank'})
 df_rename.head()

重命名索引:

 df_rename = df.rename(index={0:'first',1:'second',2:'third'})
 df_rename.head()

20、df.to_csv ()

df.to_csv()可以将DataFrame导出到CSV文件。与上面的Read_csv作为对应。调用df.to_csv()将DataFrame导出到CSV文件:

 df.to_csv('data.csv')

可以通过传递sep参数来指定CSV文件中使用的分隔符。默认情况下,它被设置为“,”。

 df.to_csv('path/to/data.csv', sep='\t')

也可以通过将列名列表传递给columns参数来只保存DataFrame的特定列,通过将布尔掩码传递给索引参数来只保存特定的行。

 df.to_csv('path/to/data.csv', columns=['Rank','Count'])

还可以使用index参数指定在导出的CSV文件中包含或不包含dataframe的索引。

 df.to_csv('path/to/data.csv', index=False)

使用na_rep参数将导出的CSV文件中缺失的值替换为指定的值。

 df.to_csv('path/to/data.csv', na_rep='NULL')

总结

以上这20个pandas函数,绝对可以帮助我们万行80%以上的任务,我们这里只是简单的总结,想group,merge等参数比较多并且常用的函数可以通过pandas的文档进一步熟悉,这将对我们的工作有很大的帮助。

https://avoid.overfit.cn/post/a8b2e01b2bda48699230e840cef04080

作者:Youssef Hosni

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/178510.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux】Linux调试器——gdb使用

前言 学习完 gcc/g 后我们已经能够在 Linux 下进行C/C编程了&#xff0c;但是既然涉及到了编程在怎么能没有调试呢&#xff1f;于是我们想更近一步的话就要学习gdb的使用了。由于Linux的服务器端没有图形化操作界面&#xff0c;用gdb进行调试你可能不太习惯&#xff0c;但这是必…

凌玮科技将在创业板上市:预计募资净额约8亿元,曾踩雷民生理财

近日&#xff0c;广州凌玮科技股份有限公司&#xff08;下称“凌玮科技”&#xff0c;SZ:301373&#xff09;开启申购&#xff0c;并于2023年1月19日披露了首次公开发行股票并在创业板上市网下发行初步配售结果等。本次冲刺上市&#xff0c;凌玮科技的发行价为33.73元/股&#…

【owt-server】webrtc agent

owt server 5.0 代码。m88版本。首选关注js层,作为owner对内部模块的调用 分为三大模块:rtc conn ,rtc framejs 服务以及js 服务都有的微服务框架代码 : addon中初始化全部底层组件 // Copyright (C) <2019> Intel Corporation // // SPDX-License-Identifier: Apach…

ricequant量化的基础是什么?

ricequant量化的基础包括了开仓、买入、止盈、止损方法等等方面&#xff0c;但是在股票量化中要想执行开仓、买入、止损等必须要借助一些股票交易接口来进行数据的存储和获取&#xff0c;其中就包括了通达信接口跟程序化交易接口的结合量化开展&#xff0c;同时注意l2数据接口获…

JAVA中static、final、static final的区别

1 问题当我们在使用java写类的属性时总会用到很多的类型去修饰它&#xff0c;比如字符串String&#xff0c;整数型int&#xff0c;但是我们偶尔也会遇到 static、final、static final&#xff0c;那么他们的区别是什么呢&#xff1f;2 方法finalfinal可以修饰属性、方法、类&am…

linux基本功系列之wc命令实战

文章目录一. wc命令介绍二. 语法格式及常用选项三. 参考案例3.1 统计指定文件的行数&#xff0c;单词数&#xff0c;字节数3.2 统计字节数3.3 只统计单词数3.4 统计字符数3.4 统计行数3.5 统计最长的行的长度总结前言&#x1f680;&#x1f680;&#x1f680; 想要学好Linux&am…

Norbit多波束(iWBMS)和前视声纳(WBMS FLS)的使用简介

Norbit多波束&#xff08;iWBMS&#xff09;是最近两年崛起的轻量级多波束产品&#xff0c;它的换能器是弧形的&#xff0c;与我们平常所见的Reson7125、T50P以及EM2040D的平面换能器不同。它的水下单元集成POS MV&#xff08;Position and Orientation Systems for Marine Ves…

JVM【性能监控与调优】

概述 大厂面试题 支付宝&#xff1a; 支付宝三面&#xff1a;JVM性能调优都做了什么&#xff1f; 小米&#xff1a; 有做过JVM内存优化吗&#xff1f; 从SQL、JVM、架构、数据库四个方面讲讲优化思路 蚂蚁金服&#xff1a; JVM的编译优化 jvm性能调优都做了什么 JVM诊…

Ubuntu下为可执行文件和脚本文件(.sh)生成桌面快捷方式

1、前言在Ubuntu中&#xff0c;有些软件是安装的&#xff0c;如deb的安装包&#xff0c;用dpkg -i安装。 有些软件可能是不需要安装&#xff0c;直接解压tar.gz这类文件直接就可以运行了。 但是每次运行的时候都要输入一遍命令十分麻烦&#xff0c;因此想把它建个快捷方式放到桌…

动态规划算法刷题笔记【状压dp】

二进制枚举子集 a&1 1 判断是否为奇数&#xff0c;如果为1&#xff0c;则为奇数因为奇数二进制末位一定是1&#xff0c;所以 与1 得到的结果是1 例 这里&#xff0c;1<<14——214——第15位是1&#xff0c;可以表示14个1 i&&#xff08;1<<j&#xff09;…

Linux|奇怪的知识---CPU温度监控

前言&#xff1a; 最近我的台式机电脑CPU风扇由于积灰严重&#xff0c;噪音比较大&#xff0c;因此更换了CPU风扇。 更换比较简单没什么好说的&#xff0c;但我想清楚的知道我的CPU温度到底是多少&#xff0c;进而知道这个新风扇是否能给CPU一个清凉的环境&#xff0c;因此需…

20230125使AIO-3568J开发板在Android12下默认为简体中文

20230125使AIO-3568J开发板在Android12下默认为简体中文 2023/1/25 10:05 缘起&#xff1a;国人还是喜欢看简体中文的菜单&#xff01;^_ 百度搜索&#xff1a;rk3568 android 12 中文 CSDN&#xff1a;rk3568 ANDROID11 中文 1、build/make/target/product/full_base.mk Z:\an…

Mongodb下载与安装

Mongodb下载https://pan.baidu.com/s/1mFRK3Cn0jW_ysmC9HaGvzg 提取码&#xff1a;0068 下载完成后解压&#xff1b; 设置数据存储位置&#xff1a; bin目录新建文件夹&#xff1a; data下再新建db文件夹&#xff1a; bin目录下cmd&#xff1b; 设置数据存储位置&#x…

centos7安装RocketMQ教程

安装rocketmq 安装RocketMQ首先你的系统上得有JDK的环境&#xff0c;最低1.8 安装JDK 这里我以centos7为例进行安装 #64位 wget --no-cookies --no-check-certificate --header "Cookie: gpw_e24http%3A%2F%2Fwww.oracle.com%2F; oraclelicenseaccept-securebackup-co…

为 TDesignBlazor 添加暗黑模式

本文将讲述我为 TDesignBlazor 开源项目提交 PR 的经历&#xff0c;主要介绍暗黑模式功能的实现以及之后如何在项目中使用。我将会分享我在实现这一功能时遇到的问题&#xff0c;以及我是如何解决这些问题的。我希望通过我的经历能够鼓励更多的人参与开源项目&#xff0c;为 TD…

CE训练教程进阶,步骤 9: 注入++

目录 一、找出存放四个玩家健康值的地址 二、找出修改数据的代码 三、找出是谁调用了修改指令 四、分析玩家的内存数据 五、注入修改代码 六、C语言代码注入 相对于前面8个步骤&#xff0c;步骤9稍微要难一点&#xff0c;所以单独写。 步骤9是在步骤7的基础上&#xff0c…

Flowable进阶学习(六)网关

文章目录排他网关案例&#xff1a;并行网关案例&#xff1a;包容网关案例&#xff1a;事件网关网关(gateway)用来控制流程的流向。来实现复杂的审批流程。网关的分类包括&#xff1a;排他网关、并行网关、包容网关、事件网关。排他网关 exclusive gateway也成为异域网关XORgat…

Python数据可视化之图表组成元素

1.1绘制 matplotlib 图表组成元素的主要函数matplotlib 是如何组织内容的&#xff1f;在一个图形输出窗口中&#xff0c;底层是一个 Figure实例&#xff0c;我们通常称之为画布&#xff0c;包含一些可见和不可见的元素。在画布上&#xff0c;自然是图形&#xff0c;这些图形就是…

Allegro如何自动居中走线操作指导

Allegro如何自动居中走线操作指导 Allegro支持自动将走线居中到两个孔的中间,避免手动去调整的麻烦,类似下图 具体操作如下 点击Spread Between VoidsOptions选择需要居中走线的层面,并且Void clearance输入0

OpenGL ES着色器语言(GLSL ES)规范 ——上篇

文章目录前言OpenGL ES基础一段基本的着色器代码大小写和分号数据值类型、命名规范、类型转换运算符矢量和矩阵矢量和矩阵类型矢量构造、访问矩阵构造、访问矢量矩阵运算规则特殊类型—结构体和数组结构体数组取样器总结前言 着色器语言通过控制GPU来进行前端图形的渲染&#…