pandas速学-DataFrame

news2026/3/31 6:05:05

一、理解DataFrame

他是一个表格结构：DataFrame 是一个表格型的数据结构

他是有序的，不同值类型：它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型值）。

他可以被看做一个由series组成的字典：DataFrame 既有行索引也有列索引，它可以被看做由 Series 组成的字典（共同用一个索引）。

他对应二维数组：

Pandas DataFrame 是一个二维的数组结构，类似二维数组。

二、参数理解

pandas.DataFrame( data, index, columns, dtype, copy)
'''
data：一组数据(ndarray、series, map, lists, dict 等类型)。

index：索引值，或者可以称为行标签。

columns：列标签，默认为 RangeIndex (0, 1, 2, …, n) 。

dtype：数据类型。

copy：拷贝数据，默认为 False。


'''

三、对象创建方式：

使用列表创建DataFram：

import pandas as pd

data = [['Google',10],['Runoob',12],['Wiki',13]]

df = pd.DataFrame(data,columns=['Site','Age'],dtype=float)

print(df)

通过官场以上代码我们可以发现：

1、二维数组最内层是一行的数据

2、列名在使用DataFrame()函数时，通过columns参数进行了指定，参数形式为列表。其中dtype还指定了float类型。

运行结果如下：

在创建时并没有指定index，所以索引是从0开始的。

使用ndarrys创建DataFram：

import pandas as pd

data = {'Site':['Google', 'Runoob', 'Wiki'], 'Age':[10, 12, 13]}

df = pd.DataFrame(data)

print (df)

这里ndarrys是numpy里的，暂理解为多维数组。

这里的多维数组为字典的value是一个列表。

从代码来看，这种多维数组是DataFrame（）函数的标准入参之一，此时多维数组，或者说字典的keys，就是列名，每个子序列对应一个列的数据。

运行如下：

以下为一个多个字典构成的列表数据生成DataFrame的案例：

这里的字典是作为列表的一个元素

import pandas as pd

data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]

df = pd.DataFrame(data)

print (df)

从上述可知，这种结构数据在生成DataFrame时，列表内部字典的keys会成为表格的列，多个字典代表多行数据。

运行如下：

   a   b     c
0  1   2   NaN
1  5  10  20.0

pandas可以使用 loc 属性返回指定行的数据，如果没有设置索引，第一行索引为 0，第二行索引为 1，以此类推：

import pandas as pd

data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}

# 数据载入到 DataFrame 对象
df = pd.DataFrame(data)

# 返回第一行
print(df.loc[0])
# 返回第二行
print(df.loc[1])

需要注意的是，这里loc[索引]是返回的行数据。

返回指定多行时，可以使用df.loc[0,1],形如此类。

DataFrame生成时也可以指定索引值，以下是个小案例：

import pandas as pd

data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}

df = pd.DataFrame(data, index = ["day1", "day2", "day3"])

print(df)

对这种指定了索引的DataFrame我们依然可以使用loc[索引名]来获取其值。

如下：

import pandas as pd

data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}

df = pd.DataFrame(data, index = ["day1", "day2", "day3"])

# 指定索引
print(df.loc["day2"])

运行如下：
calories    380
duration     40
Name: day2, dtype: int64

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/609631.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

pandas速学-DataFrame

一、理解DataFrame

二、参数理解

三、对象创建方式：

相关文章

chatgpt赋能python：PythonIP匹配

【学习日记2023.6.4】之 Linux入门

数据链路层：虚拟局域网（VLAN）

mybatis源码学习之mybatis执行流程分析

K8S部署Hadoop集群（七）

UnityVR--EventManager--事件中心3

自制操作系统第三站

MySQL存储引擎概述

TiDB亿级数据亚秒响应查询整体架构

在地质区划图上绘制伪震中

chatgpt赋能python：Python办公自动化：优化SEO工作效率的关键

一文说透ES6中的箭头函数表达式

【数据结构每日一题】队列——用栈实现队列

【AI绘图】五、stable diffussion模型的介绍与使用

Python数据分析script必备知识(四)

「详细教程」使用git将本地项目上传至Github仓库（MacOS为例）

QMessageBox信息模态对话框详细使用教程，对象创建栈和指针类型，对话框的风格样式设置，不要浪费实时间自己封装了，图文并茂，看图说话。

Android开发 LogDog （日志狗）V2.0.0

javascript基础二十六：JavaScript中如何实现函数缓存？有哪些应用场景？

Linux邮件发送教程：深入了解mail命令