Python 利用pandas处理CSV文件(DataFrame的基础用法)

news2024/9/23 3:22:13

前面介绍过通过Python标准库中的CSV模块处理CSV文件:
Python 利用CSV模块处理数据

相比CSV模块,pandas的功能更加强大,本文将简单介绍如何通过pandas来处理CSV文件。

文章目录

  • 一、pandas简介
  • 二、用法示例
    • 2.1 读取CSV文件
      • 2.1.1 read_csv参数
      • 2.1.2 "坏行"的处理
    • 2.2 引用数据
      • 2.2.1 位置索引和标签索引
      • 2.2.2 使用[]引用数据
      • 2.2.3 使用.loc属性通过标签引用数据
      • 2.2.4 使用.iloc属性通过位置引用数据
    • 2.3 数据过滤
    • 2.3 写回csv文件

一、pandas简介

pandas是一个第三方数据分析库,其集成了大量的数据分析工具,可以方便的处理和分析各类数据。这是一个第三方库,使用下面的命令可以安装pandas:

pip install pandas

利用pandas处理CSV文件主要分为3步:

  1. 通过read_csv()函数,将数据转化为pandas的DataFrame(数据帧)对象,这是一个二维数据对象,集成了大量数据处理方法。
  2. 操作DataFrame对象,通过自带的方法,完成各种数据处理。
  3. 通过DataFrame对象的to_csv()方法将数据写回CSV文件。

二、用法示例

我们先创建一个示例文件,将下面的数据拷贝到文件employees.csv中并保存:

emp_no,birth_date,first_name,last_name,gender,salary
1,1953-09-02,Georgi,Facello,M,1000
2,1964-06-02,Bezalel,Simmel,F,2000
3,1959-12-03,Parto,Bamford,M,3000
4,1954-05-01,Chirstian,Koblick,M,4000
5,1955-01-21,Kyoichi,Maliniak,M,5000
6,1953-04-20,Anneke,Preusig,F,6000
7,1957-05-23,Tzvetan,Zielinski,F,7000
8,1958-02-19,Saniya,Kalloufi,M,8000
9,1952-04-19,Sumant,Peac,F,9000

数据对应的excel格式,作为参考:
在这里插入图片描述

2.1 读取CSV文件

保证employees.csv文件在当前目录下(或提供文件的绝对路径也可以),例如示例文件保存在d:\dir1目录下,先切换到该目录下:

import os
os.chdir(r'd:\dir1')

在这里插入图片描述

pandas的read_csv函数可以读取CSV文件,并返回一个DataFrame对象,首次使用要先导入pandas模块,使用read_csv()函数读取csv文件,并将返回的DataFrame对象赋给变量名df:

import pandas as pd
df = pd.read_csv('employees.csv')
df

在这里插入图片描述

2.1.1 read_csv参数

read_csv()在读取过程中有很多自定义设置,上面的示例中只提供了文件名,其他参数都采用了默认值。根据数据格式的不同,可能需要对某些参数进行调整,read_csv函数的常用参数如下:

  • sep/delimiter:分隔符,默认为逗号,相当于sep=‘,’,如果文件内容以非逗号分隔,需要显式指定此参数或者使用sep=None来让pandas自己判断分隔符。
  • delim_whitespace:是否以空格作为分隔符,相当于sep=‘\s+’,当这个参数被设置为True时,不能使用sep参数。
  • header:指定第几行作为列名,并指定数据的起始行,默认header=0,表示第1行作为列名(编号从0开始),数据从第二行开始。如果数据中没有列名,需要指定header=None,这样从第1行开始全部都会当成数据。
  • names:用来自定义列名
  • index_col:指定某一列作为行索引(默认是0开始的整数)
  • usecols:选择列的子集,即只读取指定列

示例:仅选取部分列,只读取emp_no,first_name, salary 这3列,使用参数usecols指定这3列:

df1 = pd.read_csv('employees.csv', usecols=['emp_no', 'first_name', 'salary'])

在这里插入图片描述

自定义列名:读取数据并使用col1~col6定义列名,由于原数据第一行为列名,使用header=0指定第一行为列名,这样第一行不会被读作数据。然后使用names参数重新指定列名:

name_list = ['col1', 'col2', 'col3','col4','col5','col6'] 
df2 = pd.read_csv('employees.csv', header=0, names=name_list)

在这里插入图片描述

2.1.2 "坏行"的处理

很多时候我们得到数据格式并不规范,可能出现有些行数据缺失,有些行数据又多。read_csv函数在遇到数据缺失的列会自动用NaN(在pandas中代表空值)来填充(我们把文件中第七行的salary删除,重新读取后,可以看到会用自动用NaN填充):

df2 = pd.read_csv('employees.csv')

在这里插入图片描述

但是对于数据列多的行,默认是报错的。在文件第8行后多加一列数据,提示解析错误,期望6列,但是有7列:

df3 = pd.read_csv('employees.csv')

在这里插入图片描述

对于这类错误,我们可以用on_bad_lines='skip’来跳过这些行,不影响其他数据的读取,从结果也上可以看到emp_no为8的数据被忽略了:

df3 = pd.read_csv('employees.csv', on_bad_lines='skip')

在这里插入图片描述

2.2 引用数据

在完成文件的读取后我们就获得了一个DataFrame对象,利用其自带的方法可以快速进行数据预处理,相对于使用Python代码,可以节约大量逻辑编写的时间。

对数据进行处理的第一步就是引用数据,pandas常用的数据引用方法有:

  • 使用[]对数据进行引用
  • 使用.loc属性通过标签对数据进行引用
  • 使用.iloc属性通过位置对数据进行引用

2.2.1 位置索引和标签索引

在引用数据前先弄清楚位置索引和标签索引:

  • 位置索引:行/列的位置编号,从0开始,公差为1的等差数列,0,1,2,3,4….,一定是数字
  • 标签索引:行/列的"别名",可以自定义。其中行方向的标签索引又叫"索引标签",列方向的标签索引又叫"列标签"。
    标签索引如果未显式指定,则默认和位置索引相同。

例如下面的df,红框中的都是标签索引:

  • 列标签是emp_no, birth_date ……,
  • 索引标签由于未显式指定,所以和位置索引相同,为0,1,2,3,4….,但它不是位置索引。
    在这里插入图片描述
    在标签索引中,可以通过df.index和df.columns属性来分别查看索引标签和列标签:
df.index
df.columns

在这里插入图片描述

通过给对应的属性赋值,可以改变标签,通过下面的例子可以直观看到,红框中的0,1,2,3…是索引标签,而不是位置标签:

df.index = [0,1,2,3,'a','b','c','d','e']

在这里插入图片描述

2.2.2 使用[]引用数据

使用df[‘列标签’]的格式,通过列标签可以引用数据列,例如选择frist_name列:

df['first_name']

在这里插入图片描述

如果要引用多个列,以列表的形式传入多个列,例如选择emp_no, first_name, last_name这3列:

df[['emp_no', 'first_name', 'last_name']]

在这里插入图片描述

使用df[start:stop:step]的格式,可以通过位置索引引用行,这和标准的Python切片语法相同(这里不详细介绍):

df[0:4] # 注意[0:4]含头不含尾,即位置索引为0,1,2,3的行

在这里插入图片描述

df[::2]  # 每隔一行选择,start和stop省略代表全部,2代表步长

在这里插入图片描述

df[::-1] # 负的步长代表从结尾开始选择,-1即相当于倒序

在这里插入图片描述

2.2.3 使用.loc属性通过标签引用数据

使用[]的引用方式可能有些复杂,它在引用列的时候用的是标签索引,而在引用行的时候是位置索引。

pandas提供了更直观的.loc和.iloc属性:

  • .loc专门使用标签索引来引用数据(分片含结尾)
  • .iloc专门使用位置索引来引用数据(分片不含结尾)

使用df.loc[‘索引标签’, ‘列标签’]可以引用数据。标签之间用逗号分隔,标签内部的分片用冒号分隔,省略则代表全部。注意,.loc属性中的分片是包含结尾的,这和标准的python分片语法不同。

引用a行(返回的是pandas一维数据类型Series):

df.loc['a']    # 列标签省略,代表所有列,相当于df.loc['a',:]

在这里插入图片描述

引用birth_date列:

df.loc[:,'birth_date']    # 行标签省略,代表所有行,用:占位

在这里插入图片描述

引用a-e行,及emp_no到last_name列,注意e行和last_name列都是包含在分片结果中的:

df.loc['a':'e', 'emp_no':'last_name']

在这里插入图片描述

引用a行,birth_date列的单一元素(没有分片):

df.loc['a', 'birth_date']

在这里插入图片描述

2.2.4 使用.iloc属性通过位置引用数据

.iloc的使用方式和.loc很像,只是将索引标签换成了位置标签。语法为df.iloc[‘行位置索引’, ‘列位置索引’],注意.iloc的分片是不包含结尾的(和python相同)。

引用第1,2行:

df.iloc[0:2]    # 引用行位置索引为0,1的行,2是不包含在结果中的,相当于df.iloc[0:2, :]

在这里插入图片描述

引用第1,2列:

df.iloc[:,0:2]    # 行位置索引的:表示全部行

在这里插入图片描述

引用1,2行的3,4列数据:

df.iloc[0:2, 2:4]

在这里插入图片描述

数据引用配合赋值符号’=',即可以修改DataFrame中的值,例如将emp_no为9的salary改为9999

df.loc['e', 'salary'] = 9999

在这里插入图片描述

其他的数据引用方式还有通过属性进行引用,但这种方式存在缺陷,不推荐,这里也不进行介绍。重点掌握.loc和.iloc的方法即可。

2.3 数据过滤

DataFrame的数据过滤非常方便,例如我要选择salary大于5000的数据,下面表达式即是salary列测试结果,由bool型数据组成:

df['salary']>5000

在这里插入图片描述

只需要将其再代入df,即可筛选出满足条件的数据:

df[ df['salary']>5000 ]

在这里插入图片描述

或者使用query方法,基于字符串形式的条件,直接过滤出结果:

df.query('salary>5000')

在这里插入图片描述

2.3 写回csv文件

完成数据处理后,使用DataFrame对象自带的to_csv方法来将数据写回文件,主要参数与read_csv类似:

  • sep:分隔符,默认是逗号。
  • columns:指定哪些列写入文件
  • header:是否将标题写入文件,默认是True
  • index:是否将行索引写入文件,默认是True

假设要将salary>5000的数据筛选出来后,重新写入一个CSV文件,你可以直接调用DataFrame的to_csv方法:

df_result = df.query('salary>5000')
df_result.to_csv('result.csv', index=False)

在这里插入图片描述
在这里插入图片描述

本文的案例只是展示了最简单及最常用的DataFrame数据处理方法,实际pandas的数据处理功能远远不止这些,有兴趣的同学可以自行深入探索。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1910878.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

3D模型进入可快速编辑时代,51建模网赋能Web3D展示!

丰富多样的Web3D展示形式,离不开强大的3D互动引擎作为坚实后盾。51建模网依托WebGL技术的先进力量,匠心打造了一款在线3D模型编辑器,它不仅能够迅速优化3D模型效果,更能够生成引人入胜的3D互动内容,让创意无界&#xf…

【问题记录】Windows中Node的express无法直接识别

问题描述 在使用express_generator的时候windows平台中出现无法识别express命令的问题,另外就算添加了全局环境变量也没用。 问题解决 查看官方文档发现在node版本8之前的时候使用的是express,但是之后的版本使用npx,这个工具的出现主要想…

数字身份管理发展趋势:IAM 和数据安全相结合

数据安全和IAM作为网络安全领域中不同的学科而存在。然而,随着越来越多的组织利用云服务,情况发生了显著的转变。许多公司现在将重要的安全控制(例如管理存储、应用程序和网络的控制)委托给他们选择的云服务提供商(CSP)。 图:用户与云服务商职…

C++ QT实现验证码功能

codearea.h #ifndef RENDERAREA_H #define RENDERAREA_H#include <QList> #include <QPainterPath> #include <QRect> #include <QWidget>#define DEF_CODECOUNT 4 // 验证码默认位数#define DEF_NOISYPOINTCOUNT 60 // 噪点数量 #define DEF_C…

印尼“支付宝” DANA 如何借力 OceanBase 实现3个“关键零”

当前&#xff0c;移动支付在东南亚正迅猛发展&#xff0c;据谷歌、淡马锡与贝恩公司发布的报告预测&#xff0c;东盟地区蓬勃兴起的移动支付市场有望在2030年突破至2万亿美元的交易规模。 在此背景下&#xff0c;DANA作为印尼——东南亚最大经济体中的一员&#xff0c;秉持着推…

【docker 把系统盘空间耗没了!】windows11 更改 ubuntu 子系统存储位置

系统&#xff1a;win11 ubuntu 22 子系统&#xff0c;docker 出现问题&#xff1a;系统盘突然没空间了&#xff0c;一片红 经过排查&#xff0c;发现 AppData\Local\packages\CanonicalGroupLimited.Ubuntu22.04LTS_79rhkp1fndgsc\ 这个文件夹竟然有 90GB 下面提供解决办法 步…

磁力搜索引擎是什么?为什么有些资源喜欢用磁力链接?

磁力链接是什么东西&#xff1f;在日常生活中&#xff0c;我们接触的比较多的下载链接是直链。 所谓的直链简单来说就是直接指向服务器文件资源的链接&#xff0c;如B站app的下载链接&#xff0c;这种链接有统一的服务器提供保障&#xff0c;通常比较稳定&#xff0c;可以追溯源…

数据结构 —— Dijkstra算法

数据结构 —— Dijkstra算法 Dijkstra算法划分集合模拟过程打印路径 在上次的博客中&#xff0c;我们解决了使用最小的边让各个顶点连通&#xff08;最小生成树&#xff09; 这次我们要解决的问题是现在有一个图&#xff0c;我们要找到一条路&#xff0c;使得从一个顶点到另一个…

java之数组练习

思路&#xff1a; 代码&#xff1a; public static void main(String[] args) {char[] arrnew char[26];for (char i0;i<arr.length;i ){arr[i] (char) (Ai);}System.out.println(arr);} 结果&#xff1a;

VMware使用技巧

目录 1. 系统快照 1.1 拍摄快照 1.2 查看快照 1.3 应用/删除快照 2. 克隆虚拟机 3. 删除虚拟机 1. 系统快照 1.1 拍摄快照 将当前系统的状态保存下来&#xff0c;如果将来系统出现不可修复的故障&#xff0c;使用快照可以恢复操作系统&#xff1b; CentOS7——拍照—…

【STM32】MDK的编译过程及文件类型全解

1.编译过程简介 编译&#xff1a;MDK软件使用的编译器是armcc和armasm&#xff0c; 它们根据每个c/c和汇编源文件编译成对应的以“.o”为后缀名的对象文件(Object Code&#xff0c;也称目标文件)&#xff0c; 其内容主要是从源文件编译得到的机器码&#xff0c;包含了代码、数据…

Object方法重写

这篇文章大家随意看看就好&#xff0c;只是一点理解的东西&#xff0c;当然你也可以认真调查。 我们需要知道Obecj是java中的一个类&#xff0c;是所有类的父类&#xff0c;即超类。对&#xff0c;超级赛亚人的那个超。 我们需要关注其中的equals、tostring这两个方法。 例如&…

汇川Easy系列PLC使用本地脉冲5轴设置

根据官网手册可以看到&#xff0c;Easy302往上的系列都是支持本地5轴脉冲控制的 常规汇川PLC本地脉冲轴配置时&#xff0c;脉冲和方向的输出点都是成对出现的&#xff0c;但是easy如果要使用5轴的话&#xff0c;就需要自己定义方向 可以看到&#xff0c;Y0,Y1这两个点是单独…

接口测试课程结构

课程大纲 如图&#xff0c;接下来的阶段课程&#xff0c;依次专项讲解如下专题&#xff0c;能力级别为中级&#xff0c;进阶后基本为中高级&#xff1a; 1.接口基础知识&#xff1b; 2.抓包工具&#xff1b; 3.接口工具&#xff1b; 4.mock服务搭建&#xff08;数据模拟服务&am…

国产PLC能否使用无线通讯终端来实现无线通讯?让我们一探究竟

在工业生产车间内&#xff0c;PLC被广泛应用于自动化控制的各个环节。随着智能化工厂的建设&#xff0c;许多PLC仍处于信息孤岛状态&#xff0c;现要将厂区内分散的PLC都建立通讯&#xff0c;如果重新布线工厂量大且不美观&#xff0c;此时就需要用到工业PLC无线通讯设备来解决…

Presto报错:[Presto requires an Oracle or OpenJDK JVM (found Red Hat, Inc.)]

启动前: 已经搭建了jdk环境hadoop的jdk环境配置没有问题 启动Presto时&#xff0c;报错 解决方案: 可能是presto自身变量配置没生效在presto路径下找到bin目录, 进入启动脚本launcher 在 exec "$(dirname “ 0 " ) / l a u n c h e r . p y " " 0"…

守护舌尖安全,破解EHS管理难题,食品加工企业的可持续发展之路

在当今社会&#xff0c;食品安全与环境保护已成为全球关注的热点&#xff0c;食品加工企业作为连接农业与消费者的关键环节&#xff0c;其环境、健康与安全&#xff08;EHS&#xff09;管理水平直接关系到产品的质量和企业的可持续发展。然而&#xff0c;食品加工企业在EHS管理…

面壁智能发布端侧 AI 应用开发平台;快手推出肖像动画技术 LivePortrait丨 RTE 开发者日报

开发者朋友们大家好&#xff1a; 这里是 「RTE 开发者日报」 &#xff0c;每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE&#xff08;Real-Time Engagement&#xff09; 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「…

C# Winform自制多轴力臂(简单易懂,方便扩展)

WinForms框架广泛应用于上位机开发领域&#xff0c;其中对力臂的精准控制是常见需求之一。本文深入探讨了如何创建自定义的多轴力臂图形控件&#xff0c;不仅涵盖了力臂图形控件的角度调节机制&#xff0c;还详细展示了如何实现力臂运动的生动动态效果&#xff0c;为开发者提供…

AE-时间轴的基础操作

目录 预览&#xff08;快捷键空格&#xff09; 调整时间线显示比例&#xff08;Alt鼠标滚轮&#xff09; 控制预览长度&#xff08;B/N&#xff09; 逐帧移动&#xff08;笔记本&#xff1a;按住fn上下方向键&#xff09; 视频剪切&#xff08;ctrlshiftD&#xff09; 剪…