从Pandas快速切换到Polars :数据的ETL和查询

news2024/9/29 13:16:22

对于我们日常的数据清理、预处理和分析方面的大多数任务,Pandas已经绰绰有余。但是当数据量变得非常大时,它的性能开始下降。

我们以前的两篇文章来测试Pandas 1.5.3、polar和Pandas 2.0.0之间的性能了,Polars 正好可以解决大数据量是处理的问题,所以本文将介绍如何将日常的数据ETL和查询过滤的Pandas转换成polars。

Polars的优势

Polars是一个用于Rust和Python的DataFrame库。

  • Polars利用机器上所有可用的内核,而pandas使用单个CPU内核来执行操作。
  • Polars比pandas相对轻量级,没有依赖关系,这使得导入Polars的速度更快。导入Polars只需要70毫秒,而导入pandas需要520毫秒。
  • Polars进行查询优化减少了不必要的内存分配。它还能够以流方式部分或全部地处理查询。
  • Polars可以处理比机器可用RAM更大的数据集。

ETL

Extract, Transform, and Load (ETL)的过程是怎样的:

“提取、转换和加载(ETL)是将来自多个数据源的数据组合到称为数据仓库的过程。ETL使用一组业务规则来清理和组织原始数据,并为存储、数据分析和机器学习(ML)做好准备。可以通过数据分析解决特定的业务智能需求(例如预测业务决策的结果、生成报告、减少操作效率低下,等等)。(来源:AWS)

Polars和Pandas都支持从各种来源读取数据,包括CSV、Parquet和JSON。

 df=pl.read_csv('data.csv')
 df=pl.read_parquet('data.parquet')
 df=pl.read_json('data.json')

对于数据的读取方面和Pandas基本一致。

转换是ETL中最重要、最困难和最耗时的步骤。

polar支持Pandas函数的一个子集,所以我们可以使用熟悉的Pandas函数来执行数据转换。

 df=df.select(['A', 'C'])
 df=df.rename({‘A’: ‘ID’, ‘C’: ‘Total’})
 df=df.filter(pl.col('A') >2)
 df=df.groupby('A').agg({'C': 'sum'})

这些Pandas函数都可以直接使用。

创建新列:

 df = df.with_column(pl.col(‘Total’) / 2, ‘Half Total’)

处理空值:

 df=df.fill_null(0)
 df_filled=df.fill_null('backward')
 df=df.fillna(method='ffill')

Dataframe 的合并

 #pandas
 df_join=pd.merge(df1, df2, on='A')
 #polars
 df_join=df1.join(df2, on='A')

连接两个DF

 #pandas
 df_union=pd.concat([df1, df2], ignore_index=True)
 #polars
 df_union=pl.vstack([df1, df2])

polar使用与Pandas相同的函数来将数据保存到CSV、JSON和Parquet文件中。

 # CSV
 df.to_csv(file)
 # JSON
 df.to_json(file)
 # Parquet
 df.to_parquet(file)

最后,如果你还需要使用Pandas做一些特殊的操作,可以使用:

 df.to_pandas()

这可以将polar的DF转换成pandas的DF。

最后我们整理一个简单的表格:

数据的查询过滤

我们的日常工作中,数据的查询是最重要,也是用的最多的,所以在这里我们再整理下查询过滤的操作。

首先创建一个要处理的DataFrame。

 # pandas
 import pandas as pd
 
 # read csv
 df_pd = pd.read_csv("datasets/sales_data_with_stores.csv")
 
 # display the first 5 rows
 df_pd.head()

 # polars
 import polars as pl
 
 # read_csv
 df_pl = pl.read_csv("datasets/sales_data_with_stores.csv")
 
 # display the first 5 rows
 df_pl.head()

polars首先显示了列的数据类型和输出的形状,这对我们来说非常好。下面我们进行一些查询,我们这里只显示一个输出,因为结果都是一样的:

1、按数值筛选

 # pandas
 df_pd[df_pd["cost"] >750]
 df_pd.query('cost > 750')
 
 # polars
 df_pl.filter(pl.col("cost") >750)

2、多个条件查询

pandas和polar都支持根据多个条件进行过滤。我们可以用“and”和“or”逻辑组合条件。

 # pandas
 df_pd[(df_pd["cost"] >750) & (df_pd["store"] =="Violet")]
 
 # polars
 df_pl.filter((pl.col("cost") >750) & (pl.col("store") =="Violet"))

3、isin

pandas的isin方法可用于将行值与值列表进行比较。当条件包含多个值时,它非常有用。这个方法的polar版本是" is_in "。

 # pandas
 df_pd[df_pd["product_group"].isin(["PG1", "PG2", "PG5"])]
 
 # polars
 df_pl.filter(pl.col("product_group").is_in(["PG1", "PG2", "PG5"]))

4、选择列的子集

为了选择列的子集,我们可以将列名传递给pandas和polar,如下所示:

 cols= ["product_code", "cost", "price"]
 
 # pandas (both of the following do the job)
 df_pd[cols]
 df_pd.loc[:, cols]
 
 # polars
 df_pl.select(pl.col(cols))

5、选择行子集

pandas中可以使用loc或iloc方法选择行。在polar则更简单。

 # pandas
 df_pd.iloc[10:20]
 
 # polars
 df_pl[10:20]

选择相同的行,但只选择前三列:

 # pandas
 df_pd.iloc[10:20, :3]
 
 # polars
 df_pl[10:20, :3]

如果要按名称选择列:

 # pandas
 df_pd.loc[10:20, ["store", "product_group", "price"]]
 
 # polars
 df_pl[10:20, ["store", "product_group", "price"]]

按数据类型选择列:

我们还可以选择具有特定数据类型的列。

 # pandas
 df_pd.select_dtypes(include="int64")
 
 # polars
 df_pl.select(pl.col(pl.Int64))

总结

可以看到polar与pandas非常相似,所以如果在处理大数据集的时候,我们可以尝试使用polar,因为它在处理大型数据集时的效率要比pandas高,我们这里只介绍了一些简单的操作,如果你想了解更多,请看polar的官方文档:

https://avoid.overfit.cn/post/de7324ae4d3541d184e1c5eb579273db

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/438336.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

电影《忠犬八公》观后感

上周看了电影《忠犬八公》,整部电影是以一条狗为故事线演绎的,之前看电影《忠犬帕尔玛》的时候,同事就推荐了《忠犬八公》,以为说的是同一部电影,去维基百科查过才知道,中国版的冯小刚为主演的《忠犬八公》…

全景丨0基础学习VR全景制作,平台篇第五章:开场封面功能

大家好欢迎观看蛙色平台使用教程 开场封面功能,现已支持开场图片和开场视频两种呈现方式, 分别针对PC端和移动设备访问分别设置呈现图片、视频内容,满足市场主流需求。 开场图片 传达主旨 1、全局-开场封面-图片 2、分别对PC端和移动设备访…

手动构建自己的docker容器镜像实战

前言 之前的实战中,我们实战中,我们使用的镜像都是镜像仓库已有的镜像。 已有的镜像都是别人已经开发好上传的。今天我们一起来看看如何构建自己的镜像并上传到镜像仓库中。 🏠个人主页:我是沐风晓月 🧑个人简介&…

[计算机图形学]光线追踪前瞻:阴影图(前瞻预习/复习回顾)

一、前言 我们前面学习过了光栅化,而光栅化会有一系列问题,比如:全局的光线传输,阴影。我们之前讲着色的时候说了,我们认为着色是一个局部的操作,我们只考虑着色点本身,并不考虑其它物体的遮挡对…

3Dconnexion SpaceMouse Enterprise 企业版有线3D鼠标

3Dconnexion SpaceMouse Enterprise 企业版有线3D鼠标 企业版有线3D鼠标SpaceMouse Enterprise凭借六自由度(6DoF)传感器,以及标准和自定义快速视图的一键访问功能,你可以比以往更加轻松自如地查看3D模型。轻轻操纵控制帽即可流畅…

表白墙 - 进阶(MySQL版本) - 持久化存储

想要解决上面那个版本存在的问题:服务器重启,数据不丢失。 最好的办法:将数据存储到硬盘上。 存储的方式: 1、直接使用 流对象 写入文本文件 2、借助数据库 我们采取的方式:是 MySQL 数据库的方式 来实现 持久化存储。…

Python卷积详解

文章目录 卷积函数对比测试卷积应用 卷积函数 python提供了多种卷积方案,相比之下,定义在ndimage中的卷积函数,在功能上比numpy和signal中的卷积要稍微复杂一些,这点仅从输入参数的多少就可略窥一二 numpy.convolve(a, v, modef…

拥抱汽车行业新时代,移远通信着力打造“七大产品技术生态”

汽车市场和消费者的需求正在发生日新月异的变化。以往中国新能源汽车的推广,大多倚重政策补贴,而如今新能源汽车已经走过了这个阶段,开始变成消费者自愿选择。除了汽车的电动化,“智能化”是不少车型拨动消费者心弦的另一主要因素…

光学仿真小作品集

光学仿真小作品集 传播方向与 z 轴平行的二维平面波自由空间中的传输传播方向与 z 轴有一定夹角的二维平面波自由空间中的传输 本文将展示一些作者本人平时自制的光学仿真小作品。 传播方向与 z 轴平行的二维平面波自由空间中的传输 传播方向与 z 轴有一定夹角的二维平面波自由…

(九)【软件设计师】计算机系统-浮点数习题

文章目录 一、2009年下半年第3、4题二、2011年上半年第5题三、2012年下半年第3题四、2015年上半年第1题五、2015年下半年第3题六、2016年下半年第3题七、2018年上半年第1题八、2020年下半年第3题 知识点回顾 (八)【软件设计师】计算机系统—浮点数 一、…

怎么使用AS推送项目到Github上,一文解决!

废话不多说,直接发车了!在android studio上推送项目到GitHub上有个基本可以解决所有推送失败问题的步骤,如下图: 路径:File —— Setting —— Version Control —— GitHub —— 加号,添加用户 上述步骤是…

河道船舶识别检测系统 python

河道船舶识别检测系统通过ppythonYOLOv5网络模型算法技术,河道船舶识别检测系统对画面中的船只进行7*24小时实时监测,若发现存在进行违规采砂或者捕鱼立即自动抓拍触发告警。与C / C等语言相比,Python速度较慢。也就是说,Python可…

mui.ajax

mui.ajax(http:xxxxxxxxxx/login,//请求的地址{data:{},//传给服务器的数据,一般在post请求中dataType:json,//服务器返回数据的格式;type:post,//HTTP请求类型;目前仅支持post/gettimeout:5000,//设置超时时间async:true,//是否异步&#xf…

应急照明和疏散指示系统在化工厂房中的设计与产品选型

【摘 要】《消防应急照明和疏散指示系统技术标准》(GB 51309-2018)的颁布,使应急照明和疏散指示的设计理念及设计方案发生了颠覆性的改变。化工企业在进行系统设计时也有其自身的特点及问题,现根据实际案例,解析化工企业应急照明和疏散指示系…

echrts 工程项目可视化

Echarts 常用各类图表模板配置 注意: 这里主要就是基于各类图表,更多的使用 Echarts 的各类配置项; 以下代码都可以复制到 Echarts 官网,直接预览; 图标模板目录 Echarts 常用各类图表模板配置一、工程项目可视化二、…

记录-new Date() 我忍你很久了!

这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 大家平时在开发的时候有没被new Date()折磨过?就是它的诸多怪异的设定让你每每用的时候,都可能不小心踩坑。造成程序意外出错,却一下子找不到问题出处,那…

受安全威胁困扰的时代的可见性和人工智能

安全漏洞和事件以惊人的规律性发生,媒体报道的大人物,只是发生的实际数量的一小部分。 就在上周,横跨澳大利亚和新西兰的主要金融服务提供商 Latitude Financial 公布了影响其 1400 万客户的网络攻击和数据泄露的详细信息。 如果我们要确保…

一致性框架设计方案

补充组件依赖 前言 对于供应链业务,一般对数据一致性要求高。且由于业务复杂,可能会存在一个业务功能触发几个异步操作的场景,且要保证相关操作同时触发或不触发。 为了降低技术设计难度、代码编写难度,特意设计最终一致性框架&a…

Vue - 实现垂直菜单分类栏目,鼠标移入后右侧出现悬浮二级菜单容器效果(完整示例源码,详细代码注释,一键复制开箱即用)

前言 网上的教程都太乱了,各种杂乱无注释代码、图片资源丢失、一堆样式代码,根本无法改造后应用到自己的项目中。 本文实现了 在 Vue / Nuxt 项目中,垂直分类菜单项,当用户鼠标移入菜单后,右侧自动出现二级分类悬浮容器盒子效果, 您可以直接复制源码,然后按照您的需求再…

pyecharts从入门到精通-地图专题BMap-世界地图和中国城市地图

文章目录 参考安装与查看pyecharts地图实现-BMap案例演示案例演示-杭州热门旅行线路图拓展-pyecharts中BMap源码 参考 官方文档:https://pyecharts.org/#/zh-cn/quickstart Bmap - Hiking_trail_in_hangzhou 安装与查看pyecharts 安装pyecharts pip install pyecharts2.0.3…