Pandas处理数据,基本应用

news2024/11/11 5:43:59

Pandas是一个Python包,提供快速、灵活且表达力强的数据结构,旨在使处理“关系型”或“带标签”数据。专门设计用于进行数据分析和操作,它是建立在numpy之上,提供了易于使用的数据结构和数据分析工具。Pandas最主要的数据结构是DataFrame和Series。

主要特点:

  1. 数据结构:
  • Series:一种类似于一维数组的对象,可以存储任何数据类型(整数、字符串、浮点数等)。Series有一个关联的索引,这个索引默认是整数,但也可以是任何唯一的可哈希对象。
  • DataFrame:类似于二维大小可变的、由不同类型的列组成的表格,具有行标签和列标签。DataFrame可以被看作是由多个Series组成的集合。
  1. 数据操作:
  • Pandas提供了多种方法来操作数据,包括但不限于:添加、删除数据,选择子集,排序数据,合并数据集,处理缺失数据等。
  1. 数据清洗:
  • 提供了许多方便的方法来清洗数据,如去除重复项、填充或删除缺失值、替换值等。
  1. 时间序列功能:
  • Pandas在处理时间序列数据方面非常强大,支持日期范围的生成、频率转换以及移动窗口统计等。
  1. 读写文件格式:
  • 支持多种数据格式的读取和写入,例如CSV、Excel、SQL数据库等。

目录

安装Pandas

创建一个DataFrame

读取数据

查看数据

数据选择

1. 方括号[]选择单列或多列

2. 条件表达式选择,在方括号内部

3. 按标签选择:df.loc[row, col]

4. 按位置选择:df.iloc[row, col]

处理缺失值

df.dropna(): 删除含有缺失值的行或列

df.fillna(value): 用特定值填充缺失值。

数据清洗

删除不需要的列.drop

重命名列.rename

检测重复值

去除重复行

apply函数

分组与聚合

合并数据


Pandas数据表格表示

一个DataFrame中的每一列都是Series

安装Pandas

Pandas可以通过pip或conda安装:

pip install pandas

创建一个DataFrame

当使用Python列表字典时,字典键将用作列标题,每个列表中的值将用作DataFrame的列

import pandas as pd
df = pd.DataFrame(
    {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnell, Miss. Elizabeth",
        ],
        "Age": [22, 35, 58],
        "Sex": ["male", "male", "female"],
    }
)
df

选择pandas DataFrame的单个列时,结果是一个pandas Series,选择该列:在方括号[]中使用列标签。

读取数据

从csv文件读取数据:

pd.read_csv('data_path.csv')

从Excel文件读取数据:

pd.read_excel('data_path.xlsx')

查看数据

  • df.head(n): 查看前n行,默认前5行。
  • df.tail(n): 查看最后n行,默认最后5行。
  • df.describe(): 提供数据的基本统计摘要。

  • df.info(): 显示DataFrame的信息概览。

数据选择

1. 方括号[]选择单列或多列

# 单列
df['col1']
# 多列
df[['col1', 'col2']]

2. 条件表达式选择,在方括号内部

df[df['col1'] > 33]
df[df['col2'].isin(['v1', v2])]

3. 按标签选择:df.loc[row, col]

有效输入:单个标签,标签列表或数组,切片对象,例:

df.loc[1, 'col'] # 选择行索引为1,列标签为'col'的数据
df.loc[[1,2,4], 'col'] # 选择行索引为1,2,4,列标签为'col'的数据
df.loc[[1,2,4], ['col1', 'col2']] # 选择行索引为1,2,4,列标签为'col1'和'col2'的数据

df.loc[1:3, 'col'] # 行切片,包头包尾
df.loc[1:3, 'col1':'col3'] # 多行多列,包头包尾

4. 按位置选择:df.iloc[row, col]

有效输入:一个整数,一个整数列表或数组,一个带有整数的切片对象

df.iloc[2,3] # 获取单个元素,行索引2,列索引3的数据
df.iloc[[1,3,5], [0,1]] # 获取多行多列,行索引1,3,5 列索引0,1的数据

# 切片选择
df.iloc[2:5, 0:3] # 包头不包尾

处理缺失值

df.dropna(): 删除含有缺失值的行或列

常用的参数及其说明:

  • axis:指定是要删除行还是列中的 NaN 值。

如果 axis=0 或 axis='index',则删除包含 NaN 的行。

如果 axis=1 或 axis='columns',则删除包含 NaN 的列。

  • how:指定如何判断哪些行或列应该被删除。

'any':如果至少有一个 NaN,则该行/列会被删除(默认值)。

'all':只有当所有值都是 NaN 时才删除该行/列。

thresh:设置每行或每列中非空值的最小数量。如果某行或某列的非空值少于这个阈值,则该行/列将被删除。

  • subset:指定 DataFrame 的一个子集(列),只在这个子集中检查 NaN 值。
  • inplace:如果设置为 True,则直接修改原始 DataFrame;如果为 False(默认),则返回一个新的 DataFrame 并保留原 DataFrame 不变。

df.fillna(value): 用特定值填充缺失值。

数据清洗

删除不需要的列.drop

df.drop(columns=['col_name']): 删除'col_name'列

重命名列.rename

df.rename(columns={'old_name': 'new_name'})

检测重复值

df.duplicated(subset=['col_name'])

去除重复行

df.drop_duplicates(subset=['所属板块'], keep='first')

keep属性:first/last/False:保留每个重复组中
 

apply函数

apply函数允许用户沿着DataFrame的某个轴应用自定义函数

DataFrame.apply(func, axis=0)

  • func:一个函数
  • axis:0沿列方向,1沿行方向应用

Series.apply(func, axis=0)

例:

新增一列,是col列数据*2

df['new_col'] = df['col'].apply(lambda x: x*2)

分组与聚合

groupby和agg按照指定列进行分组,然后进行聚合统计

# 按照'col1'列分组,统计分组后'col2'列的平均值
df.group('col1')['col2'].mean()

df.groupby('所属板块').agg({'阅读人次': 'mean', '发布时间':'min'})

合并数据

pd.concat([df1, df2]):垂直(默认,axix=0)或水平连接(axis=1)两个DataFrame

pd.merge(left, right, on='key'): 内连接或外连接两个DataFrame

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2115735.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

开启Hyper-V之后用不了VMware了,怎么破?

正文共:800 字 7 图,预估阅读时间:1 分钟 前面我们介绍了如何在Windows 10操作系统中启用Hyper-V虚拟化服务(什么?Windows自带的Hyper-V虚拟化你都没用过?),但是在启用Hyper-V服务之…

vulhub spring 远程命令执行漏洞(CVE-2016-4977)

1.执行以下命令启动靶场环境并在浏览器访问 cd /vulhub/spring/CVE-2016-4977#进入漏洞环境所在目录 docker-compose up -d #启动靶场 docker ps #查看容器信息 2.输入以下命令测试环境 192.168.0.107:8080/oauth/authorize?response_type${2*2}&client_idacme&sc…

RMSE 和 RMS 介绍

RMSE(Root Mean Square Error)和 RMS(Root Mean Square)都是衡量误差或数据变动的统计量。它们在数据分析、机器学习和统计中应用广泛。以下是它们的详细介绍: 1. RMSE(均方根误差) 定义&…

【verilog】1. 流水灯例程

文章目录 前言一、定义概念 缩写1. verilog 二、性质三、代码分解释四、完整代码参考文献 前言 数电课设 一、定义概念 缩写 1. verilog Verilog 是一种以代码形式来描述数字系统和电路的硬件描述语言 (HDL)。它由 Gateway Design Automation 在 20 世纪 80年代中期开发&a…

9.06.

#include "mywidget.h"mywidget::mywidget(QWidget *parent): QMainWindow(parent) {/*---------------------窗口设置(无边框)----------------------*/this->setWindowFlag(Qt::FramelessWindowHint);//窗口大小this->resize(590,950)…

大数据之Flink(二)

4、部署模式 flink部署模式: 会话模式(Session Mode)单作业模式(Per-Job Mode)应用模式(Application Mode) 区别在于集群的生命周期以及资源的分配方式;以及应用的main方法到底在…

WireShark过滤器

文章目录 一、WireShark过滤器概念1. 捕获过滤器(Capture Filters)2. 显示过滤器(Display Filters)3. 捕获过滤器与显示过滤器的区别4. 过滤器语法结构实际应用场景 二、WireShark捕获数据包列表1. **No.(序号&#xf…

vulhub ThinkPHP5 5.0.23远程代码执行漏洞

步骤一:.执行以下命令启动靶场环境并在浏览器访问 cd thinkphp/5.0.23-rcedocker-compose up -ddocker ps 步骤二:访问靶机环境 步骤三:/index.php?scaptcha 步骤四:利用HackBar _method__construct&filter[]system&me…

心理辅导新篇章:Spring Boot学生评估系统

1 绪论 1.1 研究背景 现在大家正处于互联网加的时代,这个时代它就是一个信息内容无比丰富,信息处理与管理变得越加高效的网络化的时代,这个时代让大家的生活不仅变得更加地便利化,也让时间变得更加地宝贵化,因为每天的…

优化边缘设备上的大型语言模型(LLM)--tinychat

文章目录 一、项目启动1.背景:针对不同操作系统架构的4bit权重重排2.初始环境配置下载LLaMA2-7B-chat模型 3.项目启动项目结构说明评估不同优化技术可能遇到的bug以及措施1.macOS上部署 二、各种优化技术实现1.前置条件2.优化----循环展开3.优化----多线程4.优化---…

OpenCV结构分析与形状描述符(6)带统计的连通组件计算函数connectedComponentsWithStats()的使用

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 connectedComponentsWithStats 函数计算布尔图像的连通组件标记图像,并为每个标记产生统计信息。 该函数接受一个具有4或8连通性的二…

盘点4款可以免费帮你将语音转换成文字的工具

我们在寻找语音转文字的工具的时候,不能只考虑他是否免费,还需要关注这个工具的转换准确度,减少第二次修改的麻烦,以及它的转换速度,以便可以有效的提高我们工作效率。基于这些,我要给大家推荐几个既可以免…

2024Java基础总结+【Java数据结构】(2)

面向对象07:简单小结类与对象 面向对象08:封装详解 面向对象09:什么是继承 ctrlh看类的关系,所有的类都默认的或间接继承Object 面向对象10:Super详解 super注意点: super调用父类的构造方法,必须在构造方…

白小白为波司登新品创作歌曲《登峰之路》,穿越风雨守护前行者

随着天气渐凉,波司登品牌推出全新新品——轻薄羽绒叠变系列,作为波司登品牌的新品推荐官,歌手白小白为波司登创作并演唱《轻薄羽绒叠变》系列主题曲《登峰之路》。歌曲中,白小白以激昂澎湃,明快有力的旋律以及深情又充…

【Unity小技巧】物体遮挡轮廓描边效果

前言: 效果展示: 遮挡描边 Demo下载 所用插件 QuickOutline描边插件(在Demo里) 实现步骤 物体挂载Outline组件,做如下处理 Outline Mode(描边模式):Outline Hidden(遮挡模式显示…

让中学生也能一下子认识5000年都无人能识的无穷大自然数

黄小宁 5000多年来数学一直未能证明存在>N一切数的标准无穷大自然数及其倒数,从而一直否定存在这类数,正如西医否定人体存在经络系统那样。 x轴各元点的坐标x变为的有序数对 ( x , y2 x)是平面点p的坐标,点p的全体是直线y2x。 x可变成一…

HOT100(八)动态规划

1、爬楼梯 ①动态规划 (1)时间复杂度 O(n) ,空间复杂度 O(n)的做法 开辟一个长度为 n1 的状态数组f,f[i]表示走到第i个台阶的方案数。初始化f[0]1(在台阶底部,不需要移动也视为一种方法),f[1…

HNU-2023电路与电子学-实验3

写在前面: 本次实验是完成cpu设计的剩余部分,整体难度比上一次要小,细心完成就能顺利通过全部测评 一、实验目的 1.了解简易模型机的内部结构和工作原理。 2.分析模型机的功能,设计 8 重 3-1 多路复用器。 3.分析模型机的功能…

Oracle再度发起开发人员调查,细节满满

作者:IT邦德 中国DBA联盟(ACDU)成员,10余年DBA工作经验, Oracle、PostgreSQL ACE CSDN博客专家及B站知名UP主,全网粉丝10万 擅长主流Oracle、MySQL、PG、高斯及Greenplum备份恢复, 安装迁移,性能优化、故障…

GO学习笔记(4) strconv/time

目录 strconv包1、string与bool之间的转换2、string与int之间的转换 time包1、常用常量定义2、Now()获取当前年月日时分秒3、Format()时间格式化4、Parse()/ ParseInLocation()解析时…