Pandas的数据结构

news2024/10/5 14:22:30

Pandas的数据结构

处理CSV 文件

CSV(Comma-Separated Values,逗号分隔值,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。

Pandas 可以很方便的处理 CSV 文件,本文以 nba.csv 为例,你可以下载 nba.csv 或打开 nba.csv 查看。

import pandas as pd

df = pd.read_csv('nba.csv')
print(df.to_string())

to_string() 用于返回 DataFrame 类型的数据,如果不使用该函数,则输出结果为数据的前面 5 行和末尾 5 行,中间部分以 … 代替。

image-20221112122554515

我们也可以使用 to_csv() 方法将 DataFrame 存储为 csv 文件:

import pandas as pd
   
# 三个字段 name, site, age
nme = ["Google", "Runoob", "Taobao", "Wiki"]
st = ["www.google.com", "www.runoob.com", "www.taobao.com", "www.wikipedia.org"]
ag = [90, 40, 80, 98]
   
# 字典
dict = {'name': nme, 'site': st, 'age': ag} 
df = pd.DataFrame(dict)
# 保存 dataframe
df.to_csv('site.csv')

执行成功后,我们打开 site.csv 文件,显示结果如下:

img


数据处理

head()

head( n ) 方法用于读取前面的 n 行,如果不填参数 n ,默认返回 5 行。

tail()

tail( n ) 方法用于读取尾部的 n 行,如果不填参数 n ,默认返回 5 行,空行各个字段的值返回 NaN

info()

info() 方法返回表格的一些基本信息:(下面为基本信息)

image-20221112143613212

处理JSON格式数据

标准的JSON格式文件

Pandas 可以很方便的处理 JSON 数据,本文以 sites.json 为例,内容如下:

[
   {
   "id": "A001",
   "name": "菜鸟教程",
   "url": "www.runoob.com",
   "likes": 61
   },
   {
   "id": "A002",
   "name": "Google",
   "url": "www.google.com",
   "likes": 124
   },
   {
   "id": "A003",
   "name": "淘宝",
   "url": "www.taobao.com",
   "likes": 45
   }
]

to_string() 用于返回 DataFrame 类型的数据,我们也可以直接处理 JSON 字符串。

import pandas as pd

df = pd.read_json('sites.json')
print(df.to_string())

输出结果为:

image-20221112144550600

JSON 对象与 Python 字典具有相同的格式,所以我们可以直接将 Python 字典转化为 DataFrame 数据

import pandas as pd


# 字典格式的 JSON                                                                                              
s = {
    "col1":{"row1":1,"row2":2,"row3":3},
    "col2":{"row1":"x","row2":"y","row3":"z"}
}

# 读取 JSON 转为 DataFrame                                                                                          
df = pd.DataFrame(s)
print(df)

输出结果为:

image-20221112145600249

内嵌的 JSON 数据

假设有一组内嵌的 JSON 数据文件 nested_list.json

{
    "school_name": "ABC primary school",
    "class": "Year 1",
    "students": [
    {
        "id": "A001",
        "name": "Tom",
        "math": 60,
        "physics": 66,
        "chemistry": 61
    },
    {
        "id": "A002",
        "name": "James",
        "math": 89,
        "physics": 76,
        "chemistry": 51
    },
    {
        "id": "A003",
        "name": "Jenny",
        "math": 79,
        "physics": 90,
        "chemistry": 78
    }]
}

使用以下代码格式化完整内容:

import pandas as pd

df = pd.read_json('nested_list.json')
print(df)

输出结果为:

image-20221112150139850

这时我们就需要使用到 json_normalize() 方法将内嵌的数据完整的解析出来

mport pandas as pd
import json

# 使用 Python JSON 模块载入数据
with open('nested_list.json','r') as f:
    data = json.loads(f.read())

# 展平数据
df_nested_list = pd.json_normalize(
    data,
    record_path =['students'],
    meta=['school_name', 'class']
)
print(df_nested_list)

data = json.loads(f.read()) 使用 Python JSON 模块载入数据。

json_normalize() 使用了参数 record_path 并设置为 [‘students’] 用于展开内嵌的 JSON 数据 students

显示结果还没有包含 school_name 和 class 元素,如果需要展示出来可以使用 meta 参数来显示这些元数据:

image-20221112151519013

更复杂嵌套:点击查看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/5180.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【强化学习】深入浅出强化学习--机器人找金币

文章目录Grid_mdp.py定义和初始化从环境状态构建观测值ResetStepRenderingClose注册环境参考文章Grid_mdp.py 定义和初始化 首先自定义环境,自定义的环境将继承gym.env环境。在初始化的时候,可以指定环境支持的渲染模式(例如human,rgb_arra…

项目实战 | YOLOv5 + Tesseract-OCR 实现车牌号文本识别

项目实战 | YOLOv5 Tesseract-OCR 实现车牌号文本识别 最近看到了各种各样的车牌识别,觉得挺有意思,自己也简单搞一个玩玩😼。 传统的图像处理算法我也不太会,就直接用深度学习的方法实现吧。 文章目录项目实战 | YOLOv5 Tesser…

docker基础篇——万字解读小鲸鱼

目录 前言 为什么会出现docker? 背景 docker理念 容器和虚拟机比较 容器发展简史 容器虚拟化技术 Why Docker docker的基本组成 镜像(image) 容器(container) 仓库(repository) 总结 第一个docker镜像——hello-world run干了什么 …

Spring Boot与Shiro实现权限管理04

1.实现用户管理 1.1 用户列表 首先创建dto,用于请求与响应数据的传输。在common包下创建dto包,在该包下创建UserDto.java类。 Data AllArgsConstructor NoArgsConstructor public class UserDto implements Serializable {private Integer id;private…

云原生|kubernetes|本地存储hostpath-provisioner部署以及无token密码方式登陆dashboard的部署

前言: kubernetes的存储类大家应该都知道,常用的有nfs-client-provisioner这样插件形式,其实还有一种本地存储类的插件,只是这个估计很冷门,生产上网络存储持久卷还是主流的,本文将介绍一种本地存储类插件…

Linux基本命令简单介绍

Linux基本命令前言ls命令pwd命令cd命令touch命令mkdirrmdir指令rm命令前言 本文主要简单介绍一下高频使用的Linux基本命令和一些比较快捷的热键; 废话不多说,直接进入主题!!! ls命令 语法: ls 选项目录…

OSPF高级配置——虚链路介绍与配置

作者简介:一名在校云计算网络运维学生、每天分享网络运维的学习经验、和学习笔记。 座右铭:低头赶路,敬事如仪 个人主页:网络豆的主页​​​​​​ 目录 前言 一.虚链路及其配置 1.虚链路概述 2.配置虚链路的规则及特点 …

进程的状态

目录前言一、运行态二、终止态三、阻塞态四、挂起态五、Linux中的其他进程状态1. R(running):运行态2. S(sleeping):睡眠状态3. D(disk sleeping):阻塞状态4. Z和X状态:死亡与僵尸5. T(Stopping):暂停状态6.t(tracing stopping):追踪暂停状态总结前言 在…

手把手教你实现红黑树

目录 一.红黑树介绍与优势 二.红黑树的特性 ①所有节点不是黑色就是红色 ②根节点为黑色 ③红色节点的左右孩子节点必须为黑色 ④每一条路径均含有相同的黑色节点数 ⑤叶子节点为黑色 三.红黑树实现原理 (一).插入节点颜色选择 (二…

web安全渗透之钓鱼网站提权

本实验实现1:要生成一个钓鱼网址链接,诱导用户点击,实验过程是让win7去点击这个钓鱼网站链接,则会自动打开一个文件共享服务器的文件夹,在这个文件夹里面会有两个文件,当用户分别点击执行后,则会…

【数据结构】单链表(不带头结点)基本操作详解——C语言实现

🚀 作者简介:一名在后端领域学习,并渴望能够学有所成的追梦人。 🐌 个人主页:蜗牛牛啊 🔥 系列专栏:🛹初出茅庐C语言、🛴数据结构 📕 学习格言:博…

Flink系列文档-(YY08)-Flink核心概念

1 核心概念 1.1 基础概念 用户通过算子api所开发的代码,会被flink任务提交客户端解析成jobGraph然后,jobGraph提交到集群JobManager,转化成ExecutionGraph(并行化后的执行图)然后,ExecutionGraph中的各个…

日志冲突怎么解决?slf4j和log4j的区别?看完这一篇,这些都是小意思啦

文章目录一.你的烦恼二.前置知识介绍三.说一说让你头大的各种日志依赖1.Slf4j的核心依赖2.log4j的jar包依赖3.slf4j对于log4j的桥接包的依赖4.log4j对于slf4j的逆转包四.再举一些常见小例子使用slf4j作为门面,log4j作为实现需要引入的依赖使用slf4j作为门面,logback作为实现需要…

[ Linux ] 重定向的再理解,以及文件系统的理解、inode和软硬链接

在上篇文章我们了解了Linux中文件描述符和重定向以及缓冲区的理解,本篇文章我们要对了解一下重定向的再理解、文件系统以及引出inode的意义和软硬链接。 目录 0.重定向 0.1标准输出 标准错误 为什么perror2后面跟了一个success 1.inode 1.1 inode理解 一个in…

一文吃透JavaScript中的DOM知识及用法

文章目录一、前言二、DOM框架三、认识DOM节点四、JS访问DOM1、获取节点2、改变 HTML3、改变 CSS4、检测节点类型5、操作节点间的父子及兄弟关系6、操作节点属性7、创建和操作节点五、快速投票一、前言 DOM:Document Object Model(文档对象模型&#xff0…

指针的进阶应用之双指针、三指针

在牛客网和leetcode等网站刷题的过程中,时常会遇到一些使用双指针和三指针解决问题的实例。今天,我来介绍这两种方法,相信你会对指针的应用会提高一个档次。 目录移除元素删除有序数组中的重复项合并两个有序数组在下面的讲解的过程中&#x…

初步认识系统调用

目录前言一、什么是进程?1、进程与程序的区别?2、什么是进程的控制块二、什么是系统调用?三、认识几个比较简单的系统调用接口1、查看进程2、获取进程的pid/ppid(1).getpid/getppid(2)getpid/getppid的使用3、创建进程的方法总结前言 之前我们…

Redis系列:Redis持久化机制与Redis事务

Redis 是个基于内存的数据库。那服务一旦宕机,内存中数据必将全部丢失。所以丢失数据的恢复对于 Redis 是十分重要的,我们首先想到是可以从数据库中恢复,但是在由 Redis 宕机时(说明相关工作正在运行)且数据量很大情况…

LeetCode刷题记录01

1704判断字符串的两半是否相似序题目我的思路我的代码提交结果其他解简述思路提交结果总结序 我的日常碎碎念:今天下班在看综艺,看到群里班长开了个会议,于是决定开始学习,他说今天的每日一题好简单,让我也去刷一下。嗯…

数组的定义与使用

文章目录数组的基本概念为什么要使用数组什么是数组数组的创建及初始化数组的创建数组的初始化数组的使用数组中元素的访问遍历数组数组是引用类型基本数据类型与引用类型变量的区别认识null数组的应用场景保存数据作为函数的参数参数传基本数据类型参数传数组类型作为函数的返…