pandas使用---Series/DataFrame

news2024/12/23 9:00:18

借鉴

Pandas 常用函数 | 菜鸟教程Pandas 常用函数 以下列出了 Pandas 常用的一些函数及使用实例: 读取数据 函数说明 pd.read_csv(filename)读取 CSV 文件; pd.read_excel(filename)读取 Excel 文件; pd.read_sql(query, connection_object)从 SQL 数据库读取数据; pd.read_json(json_string)从 JSON 字符串中读取数据; pd.read_..icon-default.png?t=N7T8https://www.runoob.com/pandas/pandas-functions.html

安装

pip3 install pandas -i https://pypi.douban.com/simple

数据结构

Series与DataFrame的区别

DataFrame 和 Series 是 Pandas 库中两个重要的数据结构,它们具有以下区别:

DataFrame:

  • DataFrame 是一个二维表格,由行和列组成。
  • 每列可以是不同的数据类型(整数、浮点数、字符串等)。
  • DataFrame 可以被认为是由多个 Series 组成的字典。
  • 可以通过列名来访问和操作数据。
  • 常用于处理结构化的、表格状的数据。

Series:

  • Series 是一个一维标记数组,类似于带有索引的列表。
  • 每个元素都具有唯一的标签(索引),默认从 0 开始。
  • Series 中的数据类型可以是任意类型(整数、浮点数、字符串等)。
  • 可以通过索引来访问和操作数据。
  • 常用于处理一维的、列状的数据。

因此,可以将 DataFrame 视为一个表格,其中每列是一个 Series,而每个 Series 都具有相同的索引,它们在一起形成了一个完整的数据集。

Series

Pandas Series 类似表格中的一个列(column),类似于一维数组,可以保存任何数据类型。

Series 由索引(index)和列组成,函数如下:

pandas.Series( data, index, dtype, name, copy)

参数说明:

  • data:一组数据(ndarray 类型)。

  • index:数据索引标签,如果不指定,默认从 0 开始。

  • dtype:数据类型,默认会自己判断。

  • name:设置名称。

  • copy:拷贝数据,默认为 False。

创建一个简单的 Series 实例:

import pandas as pd

a = [1, 2, 3]

myvar = pd.Series(a)

print(myvar[1])

输出结果如下: 

 

我们可以根据索引值读取数据:

从上图可知,如果没有指定索引,索引值就从 0 开始,

import pandas as pd

a = [1, 2, 3]

myvar = pd.Series(a)

print(myvar[1])

输出结果如下:

2

我们可以指定索引值,如下实例: 

import pandas as pd

a = ["Google", "Runoob", "Wiki"]

myvar = pd.Series(a, index = ["x", "y", "z"])

print(myvar)

输出结果如下: 

 根据索引值读取数据:

import pandas as pd

a = ["Google", "Runoob", "Wiki"]

myvar = pd.Series(a, index = ["x", "y", "z"])

print(myvar["y"])

输出结果如下:

Runoob

我们也可以使用 key/value 对象,类似字典来创建 Series:

import pandas as pd

sites = {1: "Google", 2: "Runoob", 3: "Wiki"}

myvar = pd.Series(sites)

print(myvar)

输出结果如下:

 

从上图可知,字典的 key 变成了索引值。

如果我们只需要字典中的一部分数据,只需要指定需要数据的索引即可,如下实例:

import pandas as pd

sites = {1: "Google", 2: "Runoob", 3: "Wiki"}

myvar = pd.Series(sites, index = [1, 2])

print(myvar)

输出结果如下: 

设置 Series 名称参数:

import pandas as pd

sites = {1: "Google", 2: "Runoob", 3: "Wiki"}

myvar = pd.Series(sites, index = [1, 2], name="RUNOOB-Series-TEST" )

print(myvar)

输出结果如下: 

 

DataFrame

DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。

DataFrame 构造方法如下:

pandas.DataFrame( data, index, columns, dtype, copy)

参数说明:

  • data:一组数据(ndarray、series, map, lists, dict 等类型)。

  • index:索引值,或者可以称为行标签。

  • columns:列标签,默认为 RangeIndex (0, 1, 2, …, n) 。

  • dtype:数据类型。

  • copy:拷贝数据,默认为 False。

Pandas DataFrame 是一个二维的数组结构,类似二维数组。

实例 - 使用列表创建

import pandas as pd

data = [['Google',10],['Runoob',12],['Wiki',13]]

df = pd.DataFrame(data,columns=['Site','Age'],dtype=float)

print(df)

输出结果如下: 

实例 - 使用 ndarrays 创建

以下实例使用 ndarrays 创建,ndarray 的长度必须相同, 如果传递了 index,则索引的长度应等于数组的长度。如果没有传递索引,则默认情况下,索引将是range(n),其中n是数组长度。ndarrays 可以参考:NumPy Ndarray 对象

import pandas as pd

data = {'Site':['Google', 'Runoob', 'Wiki'], 'Age':[10, 12, 13]}

df = pd.DataFrame(data)

print (df)

输出结果如下:

实例 - 使用字典创建

import pandas as pd

data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]

df = pd.DataFrame(data)

print (df)

输出结果为:

没有对应的部分数据为 NaN

 Pandas 可以使用 loc 属性返回指定行的数据,

如果没有设置索引,第一行索引为 0,第二行索引为 1,以此类推:

import pandas as pd

data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}

# 数据载入到 DataFrame 对象
df = pd.DataFrame(data)

# 返回第一行
print(df.loc[0])
# 返回第二行
print(df.loc[1])

输出结果如下:

注意:返回结果其实就是一个 Pandas Series 数据。

也可以返回多行数据,使用 [[ ... ]] 格式,... 为各行的索引,以逗号隔开:

 返回第一行和第二行

import pandas as pd

data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}

# 数据载入到 DataFrame 对象
df = pd.DataFrame(data)

# 返回第一行和第二行
print(df.loc[[0, 1]])

输出结果为:

注意:返回结果其实就是一个 Pandas DataFrame 数据。

 我们可以指定索引值,如下实例:

import pandas as pd

data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}

df = pd.DataFrame(data, index = ["day1", "day2", "day3"])

print(df)

输出结果为:

Pandas 可以使用 loc 属性返回指定索引对应到某一行:

import pandas as pd

data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}

df = pd.DataFrame(data, index = ["day1", "day2", "day3"])

# 指定索引
print(df.loc["day2"])

 输出结果为:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1039268.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ElasticSearch从入门到精通(二)

ElasticSearch 高级操作 bulk批量操作 批量操作-脚本 #批量操作 #1.删除5号 #新增8号 #更新2号 name为2号 POST _bulk {"delete":{"_index":"person1","_id":"5"}} {"create":{"_index":"person…

jvm深入研究文档--程序执行专业户-虚拟机栈--jvm底层探索(2)

阿丹: JVM的内存分区包括以下几个部分: 堆区(Heap) - 这是JVM的主要部分,用于存储实例对象和大多数Java对象,如数组和用户定义的类。 方法区(Method Area) - 这是线程私有的&#x…

前端项目练习(练习-004-webpack-02)

学习前,首先,创建一个web-004项目,内容和web-003一样。(注意将package.json中的name改为web-004) 前面的例子,成功将js文件打包到了dist中,但是我们有三个文件,css,js和h…

微信公众号开发(BUG集)

1.微信公众平台接口错误:不合法的自定义菜单使用用户 地址:解决地址 2.微信公众平台接口错误:invalid ip 180.101.72.196 ipv6 ::ffff:180.101.72.196, not in whitelist rid: 6511420b-60c59249-01084d02 白名单离开放服务器IP

第六章 Scala if..else与循环

1 IF…ELSE 语句 Scala IF…ELSE 语句是通过一条或多条语句的执行结果(True或者False)来决定执行的代码块。 1.1 if 语句 if 语句有布尔表达式及之后的语句块组成。 if(布尔表达式) {// 如果布尔表达式为 true 则执行该语句块 }如果布尔表达式为 tru…

BUUCTF SimpleRev

题目:BUUCTF SimpleRev 查壳,没壳,64位 ida打开一通分析 main(): while ( 1 ){while ( 1 ){printf("Welcome to CTF game!\nPlease input d/D to start or input q/Q to quit this program: ");v4 getchar();if ( v4 ! 100 &…

Marvell/Cisco/Broadcom 三巨头的51.2T交换芯片

最近在恶补Freya产品100/200/400/800GE AN/LT端口自适应和链路学习的知识,主要用在基于56Gb/s 的400G,112GGb/s的800G,和1.6Tbps高速接口上,当其使用DAC/AEC/ACC cable时,如果实现端口性能的自动调整。好奇的去拓展了下…

浅谈低压电力电容器常见故障分析及预防措施

安科瑞 华楠 【摘要】为了可以有效实现提高电力电容器故障解决效率,就需要针对其故障诊断技术展开研究,而状态量监测作为提高故障诊断技术效率与质量重要因素,其对电力电容器故障诊断工作而言,有着重要影响意义。基于此&#xff…

多来客推出新版短视频矩阵系统,携手灰豚AI大模型引领行业革新。

9月20日,本地生活行业代表多来客本地生活服务saas系统又上线新版短视频矩阵群控功能,并引入灰豚ai大模型,为商家全面解决了矩阵群控营销的痛点。该系统为本地生活服务商业内首创。 短视频矩阵群控系统 多来客上线于2022年3月份,是国内著名的短视频平台本…

SpringBoot 学习(十)分布式理论

12. 分布式理论 12.1 简介 分布式系统是若干独立计算机的集合,这些计算机对于用户来说就像单个相关系统。 分布式是一组通过网络进行通信、为了完成共同的任务而协调工作的计算机节点组成的系统,其目的是利用更多的机器,处理更多的数据。 …

Vieworks首款采用CoF接口的工业相机亮相!

Vieworks首款CoF(CoaXPress-over-Fiber)接口数字相机,具有高速度、高分辨率。 VC-21MDF-M/C460I在2100万全分辨率下可达到454fps的速率。CoF这个新接口支持传输高达80 Gbps的图像数据,加之配备Vieworks的创新技术,该相机不仅帧速…

钻孔主轴铝铸件微小孔φ2mm钻孔加工方案

随着工业技术的不断发展,铝铸件在现代制造业中发挥着越来越重要的作用。而在铝铸件的制造过程中,微小孔加工一直是一个重要而又具有挑战性的工艺。在这个过程中,钻孔主轴作为一种重要的工具,可以有效地完成铝铸件微小孔的加工。 …

[C++随笔录] list使用

list使用 构造函数insert && 迭代器push_back && pop_back && push_front && pop_fronterasesort && find && reverse list的底层结构就是 带头双向循环链表 构造函数 // 默认构造 list<int> lt; cout << "l…

PyQt5 自定义开关按钮(2)

效果展示 代码展示 from PyQt5.QtCore import Qt, pyqtSignal, QTimer, QRectF, QRect from PyQt5.QtGui import QFont, QColor, QPainter, QPainterPath from PyQt5.QtWidgets import QWidgetclass SwitchBtn(QWidget):clicked = pyqtSignal(bool)# 组件常量BORDER_WIDTH = 4…

【LeetCode-简单题】501. 二叉搜索树中的众数

文章目录 题目方法一&#xff1a;暴力哈希方法二&#xff1a;利用二叉搜索树的特性&#xff08;递归双指针&#xff09; 题目 方法一&#xff1a;暴力哈希 这是针对于普通二叉树的解法 统计number出现次数 然后将次数最大的众数集 取出来 Map<Integer , Integer > map …

世界前沿技术发展报告2023《世界信息技术发展报告》(五)先进计算技术

&#xff08;五&#xff09;先进计算技术 1. 概述2. 超级计算机2.1 美国首台E级超级计算机Crusher上线试运行2.2 欧洲最强大的超级计算机落成2.3 美国英伟达与微软公司联合开发人工智能超级计算机 3. 新型计算技术3.1 中国北京航空航天大学提出“混合概率逻辑计算”机制3.2 奥地…

港联证券:绿柱成交量放大什么意思?

这是许多股民常常遇到的问题。股票的价格涨跌往往与它的成交量有着紧密的联络&#xff0c;而绿柱扩展也意味着股票的成交量在上升&#xff0c;这或许是功德&#xff0c;也或许是坏事。本文将从不同角度评论绿柱成交量扩展的意义。 首要&#xff0c;关于绿柱扩展的情况&#xf…

负载均衡器监控

什么是负载均衡器 负载均衡建立在现有网络结构之上&#xff0c;它提供了一种廉价有效透明的方法扩展网络设备和服务器的带宽、增加吞吐量、加强网络数据处理能力、提高网络的灵活性和可用性。其意思就是分摊到多个操作单元上进行执行&#xff0c;例如Web服务器、FTP服务器、企…

MySQL数据库入门到精通7--进阶篇( InnoDB引擎)

6. InnoDB引擎 6.1 逻辑存储结构 InnoDB的逻辑存储结构如下图所示: 1). 表空间 表空间是InnoDB存储引擎逻辑结构的最高层&#xff0c; 如果用户启用了参数 innodb_file_per_table(在 8.0版本中默认开启) &#xff0c;则每张表都会有一个表空间&#xff08;xxx.ibd&#xff0…

centos 6使用yum安装软件

1. 执行以下命令&#xff0c;查看当前操作系统 CentOS 版本。 cat /etc/centos-release返回结果如下图所示&#xff0c;则说明当前操作系统版本为 CentOS 6.9。 2. 执行以下命令&#xff0c;编辑 CentOS-Base.repo 和CentOS-Epel.repo文件。 vim /etc/yum.repos.d/CentOS-Bas…