Pandas的30个高频函数使用介绍

news2024/11/15 5:00:56

Pandas是Python中用于数据分析的一个强大的库,它提供了许多功能丰富的函数。本文介绍其中高频使用的30个函数。
在这里插入图片描述

  1. read_csv(): 从CSV文件中读取数据并创建DataFrame对象。
import pandas as pd   
df = pd.read_csv('data.csv')   
  1. read_excel(): 从Excel文件中读取数据并创建DataFrame对象。
df = pd.read_excel('data.xlsx')   
  1. to_excel(): 输出数据并保存在新的excel文件中。
df.to_excel('data_output.xlsx')   
  1. head(): 返回前n行数据(默认为5)。
print(df.head(5))   
  1. tail(): 返回最后n行数据(默认为5)。
print(df.tail(5))   
  1. shape: 返回DataFrame的形状(行数和列数)。
rows, cols = df.shape   
print(f"Rows: {rows}, Columns: {cols}")   
  1. columns: 返回DataFrame的列名列表。
column_names = df.columns   
print(column_names)   
  1. index: 返回DataFrame的索引列表。
index_list = df.index   
print(index_list)   
  1. describe(): 生成描述性统计信息,包括计数、平均值、标准差等。
statistics = df.describe()   
print(statistics)   
  1. info(): 返回DataFrame的信息摘要,包括索引、列、非空值数量和内存信息。
print(df.info())   
  1. dtypes: 返回每列的数据类型。
data_types = df.dtypes   
print(data_types)   
  1. drop(): 删除指定行或列。
df = df.drop('column_name', axis=1)   
  1. sort_values(): 根据指定列的值对DataFrame进行排序。
df_sorted = df.sort_values('column_name')   
  1. loc[]: 通过标签选择数据。
df=pd.DataFrame({'Column1': [1,0,0,0,0,0,2,2],      
 'Column2': [1,1,0,0,0,0,2,2],     
 'Column3': [0,0,0,1,0,0,2,2],      
 'Column4': [1,0,0,1,0,0,2,2]})   
df.loc[:,'Column2']   
  1. iloc[]: 通过整数位置选择数据。
cell_data = df.iloc[1, 2]   
  1. at[]: 选择单个元素。
element_value = df.at[1, 'Column4']   
  1. iat[]: 选择单个元素。
element_value = df.iat[1, 2]   
  1. isnull(): 检查缺失值。
missing_values = df.isnull()   
  1. notnull(): 检查非缺失值。
non_missing_values = df.notnull()   
  1. fillna(): 填充缺失值。
df_filled = df.fillna(0)   
  1. replace(): 替换值。
df_replaced = df.replace(old_value, new_value)   
  1. rename(): 重命名列名。
df_renamed = df.rename(columns={'old_name': 'new_name'})   
  1. set_index(): 设置索引列。
df_indexed = df.set_index('column_name')   
  1. reset_index(): 重置索引。
df_reset = df.reset_index()   
  1. groupby(): 根据指定列对数据进行分组。
grouped = df.groupby('column_name')   
  1. agg(): 对分组后的数据应用聚合函数。
aggregated = grouped.agg({'column_name': ['sum', 'mean']})   
  1. unique(): 查找该列唯一值。
df=pd.DataFrame({'Column1': [1,0,0,0,0,0,2,2],       
 'Column2': [1,1,0,0,0,0,2,2],      
 'Column3': [0,0,0,1,0,0,2,2],       
 'Column4': [1,0,0,1,0,0,2,2]})   
list(df['Column1'].unique())#唯一值是0,1,2   
  1. concat(): 连接两个或多个DataFrame。
df_concatenated = pd.concat([df1, df2])   
  1. merge(): 合并两个DataFrame,根据一个或多个键进行连接。
merged_df = pd.merge(df1, df2, on='key')   
  1. apply(): 应用函数至指定行或列。
df['new_column'] = df['column_name'].apply(lambda x: x * 2)  # 对列应用函数   

以上这些函数覆盖了从数据加载、预处理、转换到分析的各个阶段。Pandas的强大之处在于其函数的灵活性和易用性,使得数据分析工作变得简单高效。

关于Python技术提升

由于文章篇幅有限,文档资料内容较多,需要这些文档的朋友,可以加小助手微信免费获取,【保证100%免费】,中国人不骗中国人。

在这里插入图片描述

                                     **(扫码立即免费领取)**

全套Python学习资料分享:

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了,还有环境配置的教程,给大家节省了很多时间。

三、全套PDF电子书

书籍的好处就在于权威和体系健全,刚开始学习的时候你可以只看视频或者听某个人讲课,但等你学完之后,你觉得你掌握了,这时候建议还是得去看一下书籍,看权威技术书籍也是每个程序员必经之路。

四、入门学习视频全套

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

五、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。


在这里插入图片描述

如有侵权,请联系删除。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1975950.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

嗖嗖移动业务大厅(JDBC)

一、项目介绍 1、项目背景: 该项目旨在模拟真实的移动业务大厅,。用户可以注册新卡、查询账单、管理套餐、充值话费、打印消费记录等功能。同时,项目还模拟了用户使用场景,如通话、上网、发短信等,并根据套餐规则进行相应的扣费…

AutoCAD ObjectArx二次开发(二) 关于程序入口的介绍

在上一章节中,我们介绍了环境搭建和程序插件的加载,基本的编程模板(框架)已经准备就绪。接下来,我们将开始编写自己的业务逻辑。ARX开发的核心在于将自定义函数注册到库中,并通过指定的调用命令来实现功能。…

【论文解读|Data Intelligence】 Large Knowledge Model: Perspectives and Challenges

论文链接:Large Knowledge Model: Perspectives and Challenges (sciengine.com) 来源: Data Intelligence 论文介绍: 文章简述了人类语言和世界知识的紧密关系,对比了语言模型和知识图谱在表示和处理人类知识方面的优缺点&…

Candance Allegro 入门教程笔记:PCB封装库的组成元素

文章目录 一、PCB封装库的组成元素二、使用Padstack Edictor制作封装焊盘引脚三、PCB Editor软件创建贴片封装(STM32F103T8U6 QFN36 为例)1.引入库2.读入数据 一、PCB封装库的组成元素 一般来说,针对于Allegro软件,完整的封装是由…

blender里的辉光

cycle的辉光, 点开支持后期效果 eevee的辉光,直接点bloom就行。 eevee的透明

GORM更新操作(Save、Update、Updates)

在 Go 语言的 Web 开发中,GORM 是一个广泛使用的 ORM (Object-Relational Mapping) 框架。它提供了一种流畅的方式来处理数据库的交互,其中包括记录的更新操作。GORM中的更新操作主要是update、updates、save这几种 操作前的准备工作:声明模…

C语言进阶版第五课—函数递归

文章目录 1. 什么是函数递归2. 函数递归的思想3. 函数递归的限制4. 函数递归练习4.1 n的阶乘4.2 按照顺序打印一个整数的每一位4.3 自定义函数不允许创建变量,求字符串长度 1. 什么是函数递归 函数递归就是函数自己调用自己 图片中的函数test(&#xff0…

Monaco 使用 TypeDefinitionProvider

Monaco 中的 TypeDefinitionProvider 和 ImplementationProvider、DefinitionProvider 类似,右键点击变量名称,现在 “选择转到类型定义”, 跳到指定位置。 通过 registerTypeDefinitionProvider 添加 TypeDefinitionProvider 处理方法 实现…

力扣SQL50 按日期分组销售产品 group_concact

Problem: 1484. 按日期分组销售产品 👨‍🏫 参考题解 select sell_date, count(distinct product) num_sold,group_concat(distinct product order by productseparator ,) products from activities group by sell_date

度量与增长——OrionX AI算力管理工具的企业价值解读

从科学计算到人工智能,从AI模型开发到AI模型训练,从双精度到半精度,从OPENGL到CUDA,GPU都扮演着关键角色。本文主要从运维的人员的角度出发,来探讨GPU使用过程中遇到的管理问题和创新性解决办法。 GPU的管理和监控 相…

《电容-排容》

节省电路板空间:将多个电容集成在一个封装里,减小了占用的电路板面积。 便于安装和布线:提高生产效率和电路布局的便利性。 一致性较好:由于是同一批次生产,各电容的性能参数较为一致。 【参数】品牌,封…

网络云相册实现--nodejs后端+vue3前端

目录 主页面 功能简介 系统简介 api 数据库表结构 代码目录 运行命令 主要代码 server apis.js encry.js mysql.js upload.js client3 index.js 完整代码 主页面 功能简介 多用户系统,用户可以在系统中注册、登录及管理自己的账号、相册及照片。 每…

Maven实战(四)- 生命周期和插件

Maven实战(四)- 生命周期和插件 文章目录 Maven实战(四)- 生命周期和插件1.何为生命周期2.生命周期2.1.Clean生命周期2.1.Default生命周期2.3.Site生命周期 3.Maven插件3.1.插件目标3.2.插件绑定3.2.1.内置插件3.2.2.自定义插件 4…

算法学习day28

一、寻找右区间(二分法) 题意:题目很容易理解 但是转换为二分法有点晦涩 给你一个区间数组 intervals ,其中 intervals[i] [starti, endi] ,且每个 starti 都 不同 。区间 i 的 右侧区间 可以记作区间 j ,并满足 startj > e…

gptpdf深度解析:开源文档处理技术全攻略

目录 一、引言二、gptpdf 是什么?三、gptpdf 的功能特性1. 精准的 PDF 元素解析能力2. 对复杂文档结构的处理示例3. 高效的处理速度4. 低成本的优势 四、gptpdf 应用场景1. 学术研究与文献处理2. 企业文档管理3. 软件开发中的文档转换 五、gptpdf 代码示例1. 基本的…

【Vue3】组件通信之v-model

【Vue3】组件通信之v-model 背景简介开发环境开发步骤及源码总结 背景 随着年龄的增长,很多曾经烂熟于心的技术原理已被岁月摩擦得愈发模糊起来,技术出身的人总是很难放下一些执念,遂将这些知识整理成文,以纪念曾经努力学习奋斗的…

图像梯度与几种算子

“滤波器”也可以称为“卷积核”,“掩膜”,“算子”等。 1、Sobel算子 Sobel算子是一个33的卷积核,利用局部差分寻找边缘,计算得到梯度的近似值。x和y方向的Sobel算子分别为: 梯度有方向,对于一个图像&a…

电子元器件—三极管(一篇文章搞懂电路中的三极管)(笔记)(面试考试必备知识点)

三极管的定义及工作原理 1. 定义 三极管(Transistor)是一种具有三层半导体材料(P-N-P 或 N-P-N)构成的半导体器件,用于信号放大、开关控制和信号调制等应用。三极管有三个引脚:发射极(Emitter…

SpringBoot智慧旅游在线平台的设计与实现(源码+论文+部署讲解等)

博主介绍:✌全网粉丝10W,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌ 技术范围:SpringBoot、Vue、SSM、HLM…

从地铁客流讲开来:地铁客运量特征

1.数据来源 数据来源:MetroWatch地铁观察 | 地铁客流量数据 在做城市地铁客流数据的整理及可视化这块其实国内已经有很多大牛一直在做无偿免费的更新,其中覆盖多城市且每日更新数据的主要有两个:一个是地铁数据库 | 地铁客流量查询 (metrod…