【数据分析】pandas (三)

news2024/9/24 23:21:00

基本功能

在这里,我们将讨论pandas数据结构中常见的许多基本功能
让我们创建一些示例对象:

index = pd.date_range(“1/1/2000”, periods=8)
s = pd.Series(np.random.randn(5), index=[“a”, “b”, “c”, “d”, “e”]).
df = pd.DataFrame(np.random.randn(8, 3), index=index, columns=[“A”, “B”, “C”])

head 和 tail

要查看一个Series或DataFrame对象的部分内容,可以使用head()和tail()方法。要显示的元素的默认数量是5个,但是可以传递一个自定义的数字。
一般head为前面5行,tail为后面5行

long_series = pd.Series(np.random.randn(1000))
long_series.head()
0 -1.157892
1 -1.344312
2 0.844885
3 1.075770
4 -0.109050
dtype: float64

long_series.tail(3)
997 -0.289388
998 -1.020544
999 0.589993
dtype: float64

属性和基础数据

Pandas对象具有许多属性,使您能够访问元数据

  • shape给出对象的轴尺寸,与narray一致
  • Axis label
    Series:索引(仅轴)
    DataFrame:索引(行)和列

df
df[:2]

          A         B         C

2000-01-01 0.646715 -0.533237 0.512050
2000-01-02 0.473347 -1.401934 -0.101406
2000-01-03 -1.736713 0.793529 0.600978
2000-01-04 -0.105295 -0.154846 -0.121468
2000-01-05 0.740262 0.009942 0.508145
2000-01-06 0.152475 0.010283 0.599246
2000-01-07 1.909515 -0.662262 1.074580
2000-01-08 -2.146941 -1.081284 0.282604

  		 A         B         C

2000-01-01 0.646715 -0.533237 0.512050
2000-01-02 0.473347 -1.401934 -0.101406

pandas的对象(index,Series,DataFrame)可以被认为是数组的容器,他保存实际数据并进行实际计算。对于许多数据类型,底层数组是numpy.ndarry。但是pandas和第三方库可能会扩展Numpy的类型系统以添加对自定义数组的支持。
要获取 Index 或 Series中的数据,使用==.arry==

s
a 0.591348
b -0.209001
c 0.632891
d -0.148446
e -0.161156
dtype: float64

s.array

PandasArray
[ 0.4691122999071863, -0.2828633443286633, -1.5090585031735124,
-1.1356323710171934, 1.2121120250208506]
Length: 5, dtype: float64

s.index,array

PandasArray
[‘a’, ‘b’, ‘c’, ‘d’, ‘e’]
Length: 5, dtype: object

如果你需要一个Numpy数组,使用to_numpy()或者numpy.asarray()

s.to_numpy()
[out]:
array([ 0.4691, -0.2829, -1.5091, -1.1356, 1.2121])

np.asarray(s)
[out]
array([ 0.4691, -0.2829, -1.5091, -1.1356, 1.2121])

to_numpy()对numpy.ndarry的结果有一些控制,例如,考虑带时区的日期时间。numpy没有dtype,来表示具有时区意识的日期时间,所以有两种可能有用的表示:

  1. numpy.ndarray带有Timestamp对象,每一个都有正确的tz
  2. 一个datetime64[ns] dtype numpy.ndarray,其中的值在转化为UTC和时区是被丢弃。

时区可以使用dtype=object

In [14]: ser = pd.Series(pd.date_range(“2000”, periods=2, tz=“CET”))
In [15]: ser.to_numpy(dtype=object)
Out[15]:
array([Timestamp(‘2000-01-01 00:00:00+0100’, tz=‘CET’),
Timestamp(‘2000-01-02 00:00:00+0100’, tz=‘CET’)], dtype=object)

或者丢弃 dtype=‘datetime64[ns]’

In [16]: ser.to_numpy(dtype=“datetime64[ns]”)
Out[16]:
array([‘1999-12-31T23:00:00.000000000’, ‘2000-01-01T23:00:00.000000000’],
dtype=‘datetime64[ns]’)

Merage,join,concatenate and compare

pandas提供了各种工具,可以在连接/合并类型操作的情况下,轻松地将Series或DataFrame与用于索引和关系代数功能的各种集合逻辑组合在一起。
此外,pandas还提供了比较两个Series或DataFrame并总结其差异的实用程序

连接对象

**concat()**功能(在主pandas名称空间中)完成沿一个轴执行连接操作的所有繁重工作,同时在其他轴上执行索引(如果有的话)可选集合逻辑。下面给一个简单的示例:

df1 = pd.DataFrame(
{
“A”: [“A0”, “A1”, “A2”, “A3”],
“B”: [“B0”, “B1”, “B2”, “B3”],
“C”: [“C0”, “C1”, “C2”, “C3”],
“D”: [“D0”, “D1”, “D2”, “D3”],
},
index=[0, 1, 2, 3],
)

df2 = pd.DataFrame(
{
“A”: [“A4”, “A5”, “A6”, “A7”],
“B”: [“B4”, “B5”, “B6”, “B7”],
“C”: [“C4”, “C5”, “C6”, “C7”],
“D”: [“D4”, “D5”, “D6”, “D7”],
},
index=[4, 5, 6, 7],
)
df3 = pd.DataFrame(
{
“A”: [“A8”, “A9”, “A10”, “A11”],
“B”: [“B8”, “B9”, “B10”, “B11”],
“C”: [“C8”, “C9”, “C10”, “C11”],
“D”: [“D8”, “D9”, “D10”, “D11”],
},
index=[8, 9, 10, 11],
)
frames = [df1, df2, df3]
result = pd.concat(frames)

在这里插入图片描述

pd.concat(
objs,
axis=0,
join=“outer”,
ignore_index=False,
keys=None,
levels=None,
names=None,
verify_integrity=False,
copy=True,
)

  • objs:一个Series或者一个DataFrame对象的序列或映射,如果传递了dict,则将排序后的键用作keys参数,除非传递了dict,在这种情况下将选择值(见下文)。任何None对象都将被静默丢弃,除非它们都是None,在这种情况下会引发ValueError
  • axis:{0,1,…} 默认为0 表示连接的轴
  • join:{’ inner ', ’ outer ‘},默认为’ outer '。如何处理其他轴上的索引。外为并,内为交
  • ignore_index:boolean,默认为False。如果为True,则不要使用连接轴上的索引值。生成的轴将被标记为0,…,n - 1。如果您正在连接对象,其中连接轴没有有意义的索引信息,则这很有用。注意,在连接中仍然尊重其他轴上的索引值。
  • keys:顺序,默认为None,使用传递的键作为最外层构建分层索引。如果通过了多个级别,则应该包含元组。
  • levels:序列列表,默认为None。用于构造MultiIndex的特定级别(惟一值)。否则,它们将从键中推断出来。
  • names:生成的层次索引中级别的名称。
  • verify_integrity:boolean,默认为False。检查新连接的轴是否包含重复项。相对于实际的数据连接,这可能非常昂贵。
  • copy:boolean,默认为True。如果为False,则不要复制不必要的数据。

result = pd.concat(frames, keys=[“x”, “y”, “z”])

在这里插入图片描述

result.loc[“y”]
      A  B  C   D
4 A4 B4 C4 D4
5 A5 B5 C5 D5
6 A6 B6 C6 D6
7 A7 B7 C7 D7

值得注意的是,concat()生成数据的完整副本,并且不断重用该函数可能会对性能造成重大影响。如果需要在多个数据集上使用操作,请使用列表推导式。

在其他轴上设置逻辑

将多个 DataFrame 粘合在一起时,您可以选择如何处理其他轴(除了连接的轴之外)。这可以通过以下两种方式完成:

  • 将它们全部结合起来,join=‘outer’. 这是默认选项,因为它的结果为零
  • 采取交叉路口,join=‘inner’。
    以下是每种方法的示例。首先,默认join=‘outer’ 行为:

In [8]: df4 = pd.DataFrame(
…: {
…: “B”: [“B2”, “B3”, “B6”, “B7”],
…: “D”: [“D2”, “D3”, “D6”, “D7”],
…: “F”: [“F2”, “F3”, “F6”, “F7”],
…: },
…: index=[2, 3, 6, 7],
…: )
…:

In [9]: result = pd.concat([df1, df4], axis=1)

在这里插入图片描述
这里也是一样的join=‘inner’:

In [10]: result = pd.concat([df1, df4], axis=1, join=“inner”)

在这里插入图片描述

append

pd.append() 函数专门用于在 dataframe 对象后 添加新的行,如果添加的列名不在 dataframe 对象中,将会被当作新的列进行添加。

s = pd.DataFrame(np.random.randn(5,3), index=[“a”, “b”, “c”, “d”, “e”],columns=[“A”, “B”, “C”])
s2 = pd.DataFrame(np.random.randn(5,3), index=[“a”, “b”, “c”, “d”, “e”],columns=[“B”, “E”, “F”])

  A         B         C

a 0.457078 1.023073 -0.562775
b 1.298108 -0.759387 0.524104
c -2.316800 -1.842333 -0.027894
d 1.588192 -0.024175 0.554156
e 1.881850 -0.979311 -1.519555
B E F
a 0.382541 1.595857 1.304981
b 1.924457 0.115844 0.495387
c -1.054523 0.170910 -0.299745
d 0.754534 0.392500 -0.675588
e -0.269393 1.920908 0.899837

a=s.append(s2,sort=True)

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/854424.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

BDA初级分析——界定问题

数据分析,从界定问题开始 一、界定问题的作用 如何从现有台式机企业客户中挑选出那些想购买服务器的企业客户? 问题中的陷阱,隐藏的假设条件 假设1: 在购买服务器的客户中,只有0.01%的客户是购买过公司台式机的客户&#xff0…

超详细的Linux基础命令

文章目录 前言Linux目录结构Linux命令通用格式ls 命令什么是工作目录什么是 HOME 目录 目录切换相关命令cd 命令pwd 命令 特殊的路径符创建目录文件操作相关命令touch 命令cat 命令more 命令cp 命令mv 命令rm 命令通配符 查找命令which 命令find 命令按文件名查找文件按文件大小…

无人驾驶实战-第十一课(控制理论)

在七月算法上报了《无人驾驶实战》课程,老师讲的真好。好记性不如烂笔头,记录一下学习内容。 课程入口,感兴趣的也可以跟着学一下。 ————————————————————————————————————————— 无人驾驶中控制系…

1、如何实现两台电脑之间数据相互读写

一、确保两台电脑在同一个局域网中,可以使用网线【动态配置】进行两台电脑互连。 二、静态配置: 将IP地址和网关设为192.168.0.1,目的是让这台电脑做另一台电脑的网关,子网掩码一点击会自动添加。第二台电脑同样打开设置,此处IP地…

[oeasy]python0082_[趣味拓展]控制序列_清屏_控制输出位置_2J

光标位置 回忆上次内容 上次了解了键盘演化的过程 ESC 从 组合键到 独立按键 ESC的作用 是 进入 控制序列配置 控制信息控制信息 \033[y;xH 设置光标位置\033[2J 清屏 这到底怎么控制???🤔谁来实现这些功能? 控制…

【大数据】Flink 详解(二):核心篇 Ⅱ

Flink 详解(二):核心篇 Ⅱ 22、刚才提到 State,那你简单说一下什么是 State。 在 Flink 中,状态 被称作 state,是用来保存中间的计算结果或者缓存数据。根据状态是否需要保存中间结果,分为 无状…

【Linux】网络基础1

文章目录 网络基础11. 计算机网络背景1.1 网络发展 2. 认识协议2.1 网络协议2.2 OSI七层模型2.3 TCP/IP五层(或四层)模型 3. 网络传输基本流程3. 1 数据报封装和分用 4. 网络中的地址管理4.1 认识IP地址 5. 认识MAC地址 网络基础1 1. 计算机网络背景 1…

(番外篇)Michael.W基于Foundry精读Openzeppelin第22期——内联汇编staticcall

(番外篇)Michael.W基于Foundry精读Openzeppelin第22期——内联汇编staticcall 0. 版本1. 关于内联汇编staticcall2. foundry代码验证2.1 目标合约2.2 返回数据字节长度为322.3 返回数据字节长度为642.4 返回数据为动态数组 0. 版本 [forge-std]&#xf…

腾讯云COS的快速接入

背景 最近在研究一个剪贴板粘贴工具,实现粘贴图片,返回可访问的地址,这个在我的哔哩哔哩上有出一期视频🤭。但是,我发现部分博客平台不能正常的转载我的图片链接,于是研究了一下腾讯云的COS(阿…

MySQL数据库面试题:如何优化呢?

文章目录 优化字段类型的选择优化索引的使用优化SQL语句事务与隔离级别并发事务的问题与解决undo log和redo log的区别事务的隔离性与MVCCMySQL主从同步原理分库分表的经验水平分库的应用 在数据库开发中,创建表是一个至关重要的步骤,优化设计可以显著提…

【非欧几里得域信号的信号处理】使用经典信号处理和图信号处理在一维和二维欧几里得域信号上应用低通滤波器研究(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

遍历集合List的五种方法以及如何在遍历集合过程中安全移除元素

一、遍历集合List的五种方法 测试数据 List<String> list new ArrayList<>(); list.add("A");list.add("B");list.add("C");1. 普通for循环 普通for循环&#xff0c;通过索引遍历 for (int i 0; i < list.size(); i) {Syst…

《UNUX环境高级编程》(14)高级I/O

1、引言 2、 非阻塞I/O 系统调用分为两类&#xff1a;低速系统调用和其他系统调用。低速系统调用是可能会使进程永远阻塞的一类系统调用&#xff0c;包括&#xff1a; 如果某些文件类型&#xff08;如读管道、终端设备和网络设备&#xff09;的数据并不存在&#xff0c;读操作…

国产低功耗蓝牙HS6621CxC/6621Px系列支持Find My网络功能方案芯片

目录 什么是“Find My“&#xff1f;HS6621系列简介 什么是“Find My“&#xff1f; “Find My”是苹果公司于19年前推出的针对失物追踪&#xff0c;Find My iPhone&#xff08;查找我的iPhone&#xff09;和Find My Friends&#xff08;查找朋友&#xff09;的结合体应用。为…

【CSS3】CSS3 动画 ④ ( 使用动画制作地图热点图 )

文章目录 一、需求说明二、动画代码分析1、地图背景设置2、热点动画位置测量3、热点动画布局分析4、动画定义5、小圆点实现6、波纹效果盒子实现7、延迟动画设置 三、代码示例 一、需求说明 实现如下效果 , 在一张地图上 , 以某个位置为中心点 , 向四周发散 ; 核心 是实现 向四周…

go-zero 是如何做路由管理的?

原文链接&#xff1a; go-zero 是如何做路由管理的&#xff1f; go-zero 是一个微服务框架&#xff0c;包含了 web 和 rpc 两大部分。 而对于 web 框架来说&#xff0c;路由管理是必不可少的一部分&#xff0c;那么本文就来探讨一下 go-zero 的路由管理是怎么做的&#xff0c…

速卖通,国际站店铺想要增加曝光,提升销量,测评补单有效果吗?

作为一个卖家&#xff0c;成功运营速卖通店铺需要一系列的策略和技巧 1.借助平台的力量对于成长期的店铺来说&#xff0c;平台本身是最大的流量来源。如何从平台那儿获取更多的支持则成为这个阶段最重要的难题。以速卖通为例&#xff0c;经过反复测试&#xff0c;平台给普通卖家…

LeetCode练习习题集【4月 - 7 月】

LEETCODE习题集【4月-7月总结】 简单 数组部分 1.重复数 题目&#xff1a; 在一个长度u为 n 的数组 nums 里的所有数字都在 0&#xff5e;n-1 的范围内。数组中某些数字是重复的&#xff0c;但不知道有几个数字重复了&#xff0c;也不知道每个数字重复了几次。请找出数组中…

蛋糕小程序商店制作攻略教程分享

想要开发一个蛋糕小程序商店&#xff0c;可以通过以下步骤进行操作&#xff1a; 1.首先&#xff0c;我们需要注册登录账号&#xff0c;进入操作后台。找到并点击【商城】中的【去管理】进入商城的后台管理页面。然后再点击【小程序商城】模块中的【去装修】进入小程序商城的制作…

【torch.nn.PixelShuffle】和 【torch.nn.UnpixelShuffle】

文章目录 torch.nn.PixelShuffle直观解释官方文档 torch.nn.PixelUnshuffle直观解释官方文档 torch.nn.PixelShuffle 直观解释 PixelShuffle是一种上采样方法&#xff0c;它将形状为 ( ∗ , C r 2 , H , W ) (∗, C\times r^2, H, W) (∗,Cr2,H,W)的张量重新排列转换为形状为…