快乐学Python,DataFrame的基本操作

news2025/1/10 23:44:28

在上一篇文章中,我们了解了如何使用 pandas 的函数来从多种数据源:csv、excel 和 html 网页。其中不管是哪一种数据读取的方式,最终返回的都是一个 DataFrame 对象。

对于 DataFrame 对象,我们只是简单将其打印出来,这一篇我们来学习围绕 DataFrame 的基本操作(添加行、列,删除行、列,排序等),除了 DataFrame,也会介绍另外一个重要的 pandas 数据结构: Series。

首先介绍 pandas 中的三个最常见的概念:index、Series 和 DataFrame。

1、数据的“目录”: index

index 也叫索引,索引是计算机科学中非常常见的概念,可能听起来会有点陌生,但其实应该很早之前就打过交道了。比如看一本书,书的目录就是书本内容的索引。所以通俗意义上,索引可以理解为就是存储了如何访问某块数据方式的数据。拿目录的例子来说,目录本身也是数据,但这个数据的内容是如何访问另一块数据(书的正文)。

在我们之前的文章中,我们也或多或少和索引打过交道。比如我们通过列表的下标访问列表的某个元素,比如 a[5] ,这个 5 也叫列表的索引。字典的场景中,我们通过 key 来访问字典中的某个元素,比如: student[“name”],这个 “name” 的字符串,也属于字典的索引。

2、一维数据序列:Series

Series 本身是一种数据类型,很像我们之前打过交道的列表,是存储多个数据元素的容器。事实上,我们也可以直接使用一个列表来创建一个 Series。但与列表不同的是,Series 一般由两部分组成:index 和 values。

  • values 容易理解,顾名思义就是存储了 Series 里面的所有元素的值,所以 values 部分可以认为就是和列表是等价的。
  • index 部分代表代表 Series 的索引。根据上面对于索引的定义,index 部分的数据就是为了能方便地定位到 values 里面的数据。

Series 有一个单独的索引项,这就使得它既支持类似列表一样的数字索引,也支持类似字典一样的用字符串或者其他 Python 对象来做索引。对于 Series,可以简单理解成是一个列表和字典的集合体。

接下来用几个实例来简单介绍一下 Series 的概念。

(1)直接从列表创建 Series

import pandas as pd

# 通过列表创建 Series

ser1 = pd.Series([1,3,5,7])

# 通过 notebook 打印 ser1

ser1

输出显示如下:

0    1

1    3

2    5

3    7

dtype: int64

输出有两列,第一列是 index,第二列是 values, values 就是我们传入的列表,而 index 则是对应的序号。当我们只使用列表来创建 Series 对象时,会生成默认的索引。即类似列表那样,每一个元素的位置作为索引。Series 对象也具备 index 和 values 属性,这样我们可以单独访问这两个部分。

print("values: ", ser1.values)

print("index: ", ser1.index)

从以下输出结果可以看到,values 其实就是我们传入的列表,而 index 则是一个 RangeIndex 的对象。

values:  [1 3 5 7]

index:  RangeIndex(start=0, stop=4, step=1)

对于这个 Series 对象,我们可以通过 index 的值来获得对应 values 里面的值。比如 index 等于 1 对应的是 values 里面的 3。在代码中想要获得 1 对应的值就可以这样:

ser1[1]
输出就是:
3

(2)创建 Series,并指定索引

在上面的例子中,我们直接从一个列表创建了 Series,Series 为其分配了默认的 index,即元素在列表中的位置作为其对应的 index,比如 5 是列表 1,3,5,7 中的第三个数字,则它的 index 就是 2(从 0 开始数起)。

除了这种方式,Series 还支持我们在创建的时候指定对应的索引。

# 使用列表创建 Series,并指定其索引为另一个列表

ser2 = pd.Series([1,3,5,7], index=["a", "b", "c", "d"])

# 使用 notebook 打印 ser2

ser2

输出为:

a    1

b    3

c    5

d    7

dtype: int64

可以看到,我们指定了一个由 4 个字符串的列表作为数字列表的索引。两个列表的元素是一一对应的关系,比如字符串 “a” 就是数字 1 的索引,字符串 “b” 就是数字 3 的索引。可以验证一下:

print(ser2["d"])
输出:
7

总结一下, Series 可以看成是高级的列表或者字典,当不指定 index 的时候,Series 会生成默认的位置索引,这样的 Series 就像是一个列表。而当我们指定了 index 之后,则可以通过 index 列表中的元素来访问对应的 values 中的元素,就像字典的 key-value 结构一样。

整体来说,Series 通过将 index 和 values 分别存储的机制,实现了列表和字典的结合

3、二维数据表:DataFrame

看完了 Series,现在我们来看上一篇经常出现的 DataFrame。在上一篇文章中,我们都是从各种文件中加载数据,之后直接存储为 DataFrame。这个部分我们来一步步地揭开 DataFrame 的神秘面纱。

(1)DataFrame 的组成

DataFrame 是一个由行和列组成的二维表格。DataFrame 其实就是由 Series 组成的,DataFrame 的某一行,或者某一列都是一个 Series。

下面我们来实验一下,将上一篇文章生成的tv_rating.csv文件加载到进来读取一下:

# 加载电视剧评分数据

df_rating = pd.read_csv("tv_rating.csv")

# 输出评分的 DataFrame

df_rating

输出为:

在上述表格中,无论是列(比如标题、评分)或者行(比如第二行、第三行)都是 Series。其中 title、rating、stars 则是列的索引。而 0、1、2…9719 是行的索引。

# 获取 rating 这一列,存储在ser_rating 变量中

ser_rating = df_rating["rating"]

# 输出 ser_rating 这个 Series

print(ser_rating)

# 分割一下,方便查看

print("------------分割一下------------")

# 查看数据的类型

print(type(ser_rating))

0       3.7分

1       4.0分

2       4.6分

3       3.4分

4       4.4分

        ... 

3595    4.0分

3596    4.0分

3597    1.0分

3598    2.0分

9719    4.6分

Name: rating, Length: 9719, dtype: object

------------分割一下------------

<class 'pandas.core.series.Series'>

可以看到,分数的这一列被打印出来,格式和上面的 Series 是一样的,左边是 index,右边是 values。之后我们通过 type 函数获得了 ser_rating 变量的类型,确实也是 Series。

除了输出某一列,我们还可以用行索引,来单独输出某一行。比如我们输出第二行:欢喜一家人之加油宝贝,对应的索引是 1。我们可以用如下的代码获取这一行。

# DataFrame 通过 loc 函数可以查看行索引对应的值

# 取出行索引为 1 的行,存储在 ser_1 变量中

ser_1 = df_rating.loc[1]

# 打印 ser1 这个 Series

print(df_rating.loc[1])

# 分割一下,方便查看

print("------------分割一下------------")

# 查看数据的类型

print(type(df_rating.loc[1]))

输出为:

可以看到,我们拿到的 ser_1 仍然是一个 Series 类型的对象。左边的 title、rating、stars是index,右边的"欢喜一家人之加油宝贝"“4.0分” 等是 values。因为 ser_1 是一个 Series,所以如果我们要拿这一行中的某个数据,比如评分,直接写 ser_1[“rating”] 就可以实现。

对比通过行索引取出的行 Series 和 通过列索引取出的列 Series 不难发现,列 Series 的 index 是 DataFrame 的行头,而行 Series 的 index 则是 DataFrame 的列名。

(2)DataFrame 的创建

既然 DataFrame 是一个个 Series 组成的,那自然我们可以用 Series 来构造出 DataFrame。

构造 DataFrame 最常见的方式是用多个行 Series 的形式来创建,不同的行 Series 的长度应该是一致的(因为表格中每一行的元素个数都需要相等)。

# 将列索引保存在 index_arr 变量中

index_arr = ["姓名", "年龄", "籍贯", "部门"]

# 构建小明、小亮、小E的行 Series,并使用我们创建好的 index_arr 作为 Series 的index

ser_xiaoming = pd.Series(["小明", 22, "河北","IT部"], index= index_arr)

ser_xiaoliang = pd.Series(["小亮", 25, "广东","IT部"], index = index_arr)

ser_xiaoe = pd.Series(["小E", 23, "四川","财务部"], index=  index_arr)

# 直接将三个 Series 以列表的形式作为 DataFrame 的参数,创建 DataFrame

df_info = pd.DataFrame([ser_xiaoming, ser_xiaoliang, ser_xiaoe])

# 使用 notebook 打印 DataFrame

df_info

输出:


可以看到,表格已经被成功的打印出来,这说明我们已经将内容正确构建出了 DataFrame。

4、基本操作

(1)添加行

DataFrame 提供了 append 的方法,用于添加一行,用法如下:

# 新建一个行 Series,存储在 ser_xiaoh变量中

ser_xiaoh = pd.Series(["小红", 28, "福建", "财务部"], index = index_arr)

# 调用 append 方法添加到DataFrame 中

# 设置 ignore_index 的含义是让 DataFrame 自动生成行索引

# 调用 append 之后,会返回一个新的 DataFrame,我们将其保存回 df_info 变量

df_info = df_info.append(ser_xiaoh, ignore_index= True)

# 查看添加后的DataFrame

df_info

输出后可以看到,小红的记录已经追加到了末尾。

(2)添加列

添加一列一般有两种情况,如果我们要添加的列,所有行的值都相同的话,我们可以直接以单个值赋值给新添加的列 Series 即可。如下所示:

# 直接将新添加的列名当作 DataFrame 的列索引,对其赋新的值

df_info["考核结果"] = "合格"

# 查看

df_info

输出为:

(3)删除行或列

DataFrame 提供了 drop 方法来删除某一行或者某一列。

我们先以删除列举例,比如要删除刚才我们添加的“考核结果”这一列

# labels 是要删除的列名

# axis = 1 代表要删除的是列

# inplace = True 代表删除直接在 df_info 中生效。

df_info.drop(labels = "考核结果", axis=1, inplace= True)

# 查看

df_info

输出为:


接下来是删除行,以删除小 E 这一行为例:

# labels 是要删除行的 index,小E的index是2

# axis = 0 代表要删除的是行

df_info.drop(labels=2, axis=0, inplace=True)

# 查看

df_info

输出结果如下,可以看到,小 E 那一行记录已经被成功删除。

(4)单个单元格的查看与修改

查看单元格:

# loc 属性后面跟中括号,中括号里面第一个元素是行索引,第二个元素是列索引

# 小亮的行索引是1,我们想查看籍贯,所以列索引就是籍贯

df_info.loc[1, "籍贯"]

输出为:

'广东'

学会了查看之后,修改就比较简单了,直接给 loc 属性选出来的单元格赋值即可。

# 对行索引为1,列索引为 籍贯 的单元格赋值,赋值 广西

df_info.loc[1, "籍贯"] = "广西"

# 查看 DataFrame

df_info

输出,可以看到,小亮的籍贯已经被修改为广西。

(5)DataFrame 的排序

在数据分析的任务中,对数据集进行排序是非常常见的诉求。拿我们电视剧评分的数据集来说,可能我们希望分析高分的电影和低分的电影分别都有些什么特征。做这样的分析,首先第一步就是需要将我们的 DataFrame 按评分排序。我们以之前我们从 csv 加载的 DataFrame, df_rating 为例。

DataFrame 提供了 sort_values 方法来实现排序,用法如下。

# by 参数代表要按 rating 这个列索引来排序

# inplace = True 的含义和上面说的一样,代表更新当前的DataFrame,而不是返回一个新的

df_rating.sort_values(by = "rating", inplace=True)

# 查看排序后的 DataFrame

df_rating

输出为:


可以看到,整个 DataFrame 不再是按行头的索引排序,而是按照电视剧的评分从低到高来排序了。

如果想看从高到低呢?自然也是支持的。只需要将是否升序排序的参数:ascending 设置为False 即可。

# 在刚才的基础上,增加 ascending=False,代表按降序排序

df_rating.sort_values(by="rating", inplace=True, ascending=False)

# 查看

df_rating

输出为:

(6)取前 N 个和后 N 个

在排序后,我们对数据表要进行分析,比如对高分进行分析,我们往往需要看多几个条目。但是每次输出 DataFrame 的时候,Notebook 一般只会选择前五个和末尾五个组成摘要进行表格的输出。如果默认的表格打印不满足我们的需求,我们可以使用 DataFrame 的 head 函数和 tail 函数来输出前 N 个和 后 N 个的数据。

举个例子,我们希望分别分析 20 条高分电视剧和 20 条低分电视剧。可以按如下方式实现:

# head 函数返回 DataFrame 的前 N 条记录,N就是函数参数指定的值

# 这里我们指定 20 

df_rating.head(20)

输出为:


输出最后的 20 条的原理是类似的,只不过换成 tail 函数。

# tail 函数,返回DataFrame 的末尾的 N 条记录,N就是函数的参数

# 这里的N,我们指定 20

df_rating.tail(20)

输出为:

(7)获取 DataFrame 的行数和列数

很多时候,从数据文件加载为 DataFrame 的时候,我们首先会看这个 DataFrame 有多少行、多少列。 DataFrame 提供了 shape 属性来返回行数和列数的信息。

shape 属性返回一个元组,这个数据结构我们之前没有介绍过,不过你可以简单把他当一个列表用即可,shape 属性返回的元组有两个元素,第一个就是行数,第二个就是列数。

比如那 df_rating 这个 DataFrame 为例,打印其行列数信息,代码如下:

# shape 属性,返回一个元祖,第一个是行数,第二个元素是列数

shape = df_rating.shape

# 打印行数和列数

print("行数:", shape[0])

print("列数:", shape[1])

输出为:

更多技术文章欢迎关注:服务端技术精选

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1412621.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Mac M1 Parallels CentOS7.9 Deploy 禅道

禅道官网下载地址: https://www.zentao.net/download/max4.10-83276.html 一、官网下载 二、解压安装 将下载好的包传至CentOS7.9虚拟机 zhinian192 ~ % scp Downloads/ZenTaoPMS-max4.10-zbox_arm64.tar.gz root10.211.55.36:~ ZenTaoPMS-max4.10-zbox_arm64.tar.gz …

分享5款专注于实用功能的小众软件

​ 电脑上的各类软件有很多&#xff0c;除了那些常见的大众化软件&#xff0c;还有很多不为人知的小众软件&#xff0c;专注于实用功能&#xff0c;简洁干净、功能强悍。 1.视频播放——Potplayer ​ Potplayer是一款功能强大的视频播放软件&#xff0c;支持各种格式的视频文…

Stable Diffusion插件Recolor实现黑白照片上色

今天跟大家分享一个使用Recolor插件通过SD实现老旧照片轻松变彩色&#xff0c;Recolor翻译过来的含义就是重上色&#xff0c;该模型可以保持图片的构图&#xff0c;它只会负责上色&#xff0c;图片不会发生任何变化。 一&#xff1a;插件下载地址 https://github.com/pkuliyi…

eNSP学习——利用三层交换机实现VLAN间路由

目录 背景 实验内容 实验目的 实验步骤 实验拓扑 实验编址 实验步骤 基本配置 配置三层交换机实现VLAN间通信 背景 虽说单臂路由可以实现不同VLAN之间主机的通信&#xff0c;但该技术存在一些局限性&#xff0c;比如带宽、转发效率等。 三层交换机在原有二层交换机…

2024最新Python安装教程且编写程序(一分钟版)

一分钟版 最近由于换了新电脑&#xff0c;所以重新安装Python 且Python也更新了多个版本&#xff0c;是时候更新啦 这是下载安装步骤的详细记录&#xff0c;望对需要学习Python的小伙伴有所帮助 那么我们在哪里下载呢&#xff1f; 打开这个网址 CNPM Binaries Mirror (npmmi…

2007-2022年全国货币供应量M2、失业率、CPI、第三方互联网支付、出口、人口等宏观经济指标数据(年度、季度)

2007-2022年全国货币供应量M2、失业率、CPI、第三方互联网支付、出口、人口等宏观经济指标数据&#xff08;年度、季度&#xff09; 1、时间&#xff1a;2007-2022年&#xff08;季度、年度&#xff09; 2、指标&#xff1a; 季度指标&#xff1a;时间、GDP不变价累计值(亿元…

使用EtherNET转Profinet网关配置EtherNET/IP地址说明

EtherNET转Profinet网关配置EtherNET/IP地址是将两种网络之间的连接进行设置和调整&#xff0c;以便实现数据的传输和信息的交互。这个过程中&#xff0c;需要对EtherNET/IP地址进行配置&#xff0c;以确保数据能够正确地在网络之间传递。通过配置EtherNET/IP地址&#xff0c;可…

为看清LED发光字而生!这款仪表仪盘摄像头最近火了

对于使用仪表仪盘、出入口道闸、地磅等设备的老板来说&#xff0c;想日常监控设备显示屏&#xff0c;但是因为反光、频闪等问题&#xff0c;常规摄像头无法看清LED显示屏文字。为了解决这一痛点&#xff0c;中维世纪专门推出定制款——仪表仪盘专用场景摄像机。 仪表仪盘专用场…

安装 nvm

前言&#xff1a; nvm 即 node 版本管理工具 (node version manager)&#xff0c;好处是方便切换 node.js 版本。 通过将多个 node 版本安装在指定路径&#xff0c;然后通过 nvm 命令切换时&#xff0c;就会切换我们环境变量中 node 命令指定的实际执行的软件路径。 使用场景…

Android App开发-简单控件(1)——文本显示

本章介绍了App开发常见的几类简单控件的用法&#xff0c;主要包括&#xff1a;显示文字的文本视图、容纳视图的常用布局、响应点击的按钮控件、显示图片的图像视图等。然后结合本章所涉及的知识&#xff0c;完成一个实战项目“简单计算器”的设计与实现。 1.1 文本显示 本节介绍…

Angular响应式表单表单验证触发另一个字段校验

Angular响应式表单校验联动 前言表单字段日期校验函数效果 前言 在某些业务场景中&#xff0c;校验某表单字段的同时也需要校验另外一个与之相关的字段&#xff0c;例如开始时间和结束时间&#xff0c;要求结束时间必须晚于开始时间。在angular 响应式表单中改如何实现该需求呢…

Numpy的学习 第三课 数组的相关数学使用

1. 聚合函数 注意这些都是针对数组或者其他来进行操作的 1. sum/min/max/average 我们一般只用前两个 第一个是数组&#xff0c;第二个是行 列 和之前一样&#xff0c;但是又不太一样 这里&#xff0c;0时&#xff0c;是每一列的值&#xff0c;1时&#xff0c;是每一行的…

DataKit迁移MySQL到openGauss

前言 本文将分享DataKit迁移MySQL到openGauss的项目实战&#xff0c;供广大openGauss爱好者参考。 1. 下载操作系统 https://www.openeuler.org/zh/download https://support.huawei.com/enterprise/zh/doc/EDOC1100332931/1a643956 https://support.huawei.com/enterprise…

3d gaussian splatting介绍整理

3D 高斯分布是用于实时辐射场渲染的 3D 高斯分布中描述的一种光栅化技术&#xff0c;它允许实时渲染从小图像样本中学习到的逼真场景。 paper github 本文翻译整理自&#xff1a; blog: Introduction to 3D Gaussian Splatting DDPMs - Part 2 给出一些2D图片&#xff0c;用…

uniapp组件库Line 线条 的适用方法

目录 #平台差异说明 #基本使用 #线条类型 1.3.7 #兼容性 #API #Props 此组件一般用于显示一根线条&#xff0c;用于分隔内容块&#xff0c;有横向和竖向两种模式&#xff0c;且能设置0.5px线条&#xff0c;使用也很简单。 #平台差异说明 AppH5微信小程序支付宝小程序百…

JVM系列-8.GC调优

&#x1f44f;作者简介&#xff1a;大家好&#xff0c;我是爱吃芝士的土豆倪&#xff0c;24届校招生Java选手&#xff0c;很高兴认识大家&#x1f4d5;系列专栏&#xff1a;Spring原理、JUC原理、Kafka原理、分布式技术原理、数据库技术、JVM原理&#x1f525;如果感觉博主的文…

C++哈希表模拟实现unordered_map 与unordered_set

哈希概念 unordered系列的关联式容器&#xff08;如unordered_map unordered_set&#xff09; 之所以效率比较高&#xff0c;是因为其底层使用了哈希结构 顺序结构以及平衡树 中&#xff0c;元素关键码与其存储位置之间没有对应的关系&#xff0c;因此在 查找一个元素 时&am…

C#-前后端分离连接mysql数据库封装接口

C#是世界上最好的语言 新建项目 如下图所示选择框红的项目 然后新建 文件夹 Common 并新建类文件 名字任意 文件内容如下 因为要连接的是mysql数据库 所以需要安装 MySql.Data.MySqlClient 依赖; using MySql.Data.MySqlClient; using System.Data;namespace WebApplication1.…

git用法总结

以gitee为例&#xff0c;GitHub也可参考本文 创建远程仓库 在自己的gitee主页 创建本地仓库 在文件夹下&#xff0c;右键→git bash here git init添加gitignore vi .gitignoregitignore里的内容根据自己实际情况设置&#xff0c;这里举个例子 # #开头的是注释 # Prer…

【LeetCode】每日一题 2024_1_25 计算 K 置位下标对应元素的和(位运算/调库)

文章目录 LeetCode&#xff1f;启动&#xff01;&#xff01;&#xff01;题目&#xff1a;计算 K 置位下标对应元素的和题目描述代码与解题思路 LeetCode&#xff1f;启动&#xff01;&#xff01;&#xff01; 今天状态调整正式结束&#xff0c;寒假学习正式开始。 题目&…