002.数据分析_Pandas初识

news2025/1/15 21:02:10

无奋斗不青春

我 的 个 人 主 页:👉👉 失心疯的个人主页 👈👈
入 门 教 程 推 荐 :👉👉 Python零基础入门教程合集 👈👈
虚 拟 环 境 搭 建 :👉👉 Python项目虚拟环境(超详细讲解) 👈👈
PyQt5 系 列 教 程:👉👉 Python GUI(PyQt5)文章合集 👈👈
Oracle数据库教程:👉👉 Oracle数据库文章合集 👈👈
优 质 资 源 下 载 :👉👉 资源下载合集 👈👈
优 质 教 程 推 荐:👉👉 Python爬虫从入门到入狱系列 合集👈👈

分隔线

Pandas初识

    • 初识Pandas
      • 概念
      • 安装
      • Pandas对象常用方法

初识Pandas

  • 官方文档:https://pandas.pydata.org/docs/

概念

  • Pandas 是一个开源的第三方 Python 库,从 Numpy 和 Matplotlib 的基础上构建而来,享有数据分析“三剑客之一”的盛名(NumPy、Matplotlib、Pandas)

  • Pandas 已经成为 Python 数据分析的必备高级工具,它的目标是成为强大、灵活、可以支持任何编程语言的数据分析工具

  • Pandas主要实现了数据分析的五个重要环节:

    1. 加载数据
    2. 整理数据
    3. 操作数据
    4. 构建数据模型
    5. 分析数据
    
  • Pandas主要特点

    1. 提供了一个简单、高效、带有默认标签(也可以自定义标签)的 DataFrame对象(二维表对象)。
    2. 能够快速得从不同格式的文件中加载数据(比如 Excel、CSV 、SQL文件),然后将其转换为可处理的对象;
    3. 能够按数据的行、列标签进行分组,并对分组后的对象执行聚合和转换操作;
    4. 能够很方便地实现数据归一化操作和缺失值处理;
    5. 能够很方便地对DataFrame的数据列进行增加、修改或者删除的操作;
    6. 能够处理不同格式的数据集,比如矩阵数据、异构数据表、时间序列等;
    7. 提供了多种处理数据集的方式,比如构建子集、切片、过滤、分组以及重新排序等
    
  • Pandas应用

    1. Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。
    2. Pandas 可以对各种数据进行运算操作,比如归并、再成形、选择,还有数据清洗和数据加工特征。
    3. Pandas 广泛应用在学术、金融、统计学等各个数据分析领域
    
  • Pandas核心数据结构

    • Pandas 的主要数据结构是 Series(一维数据)DataFrame(二维数据)
    • Series是一种类似于一维数组的对象,它由一组数据(各种 Numpy 数据类型)以及一组与之相关的数据标签(即索引)组成。
    • DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)
    数据结构维度说明
    Series1Series是一维数据结构,其维数不可以改变
    该结构能够存储各种数据类型,比如字符数、整数、浮点数、Python 对象等
    Series用nameindex属性来描述数据值
    DataFrame2DataFrame 是一种二维表格型数据的结构
    既有行索引index,也有列索引columns
    在创建该结构时,可以指定相应的索引值

安装

  • Pandas是第三方库,因此需要自行安装
    pip install pandas
    

Pandas对象常用方法

  • 创建Series对象(一维数据)
    pd.Series(data=None index=None, dtype=None, name=None, copy= None, fastpath= lib.no_default)
    
    # 参数详解
    # data      # 数据源
    # index     # 设置标签索引
    # dtype     # 输出系列的数据类型
    # name      # 为Series对象(即列)命名
    # copy      # 指定是否强制创建data源数据的副本,默认为False
    # fastpath  # 是否启用快速路径。默认为 False
    
  • 创建DataFrame对象(二维数据)
    pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
        
    # 参数详解
    # data      # 源数据
    # index     # 设置行索引,用于标识每行数据
    # columns   # 设置列索引,用于标识每列数据
    # dtype     # 指定DataFrame的数据类型
    # copy      # 是否复制数据,
    
  • 判断空值
    # 判断数据中是否有空值(None)
    pd.isnull(s)        # 数据中有空值(None),则返回True
    
    # 判断数据中是否没有空值(None)
    pd.notnull(s)       # 数据中有空值(None),则返回False
    
  • 文件读取
    # 读取 CSV 文件
    pd.read_csv(filename)
    
    # 读取Excel文件
    pd.read_excel(filename)
    
    # 从SQL数据库读取数据
    pd.read_sql(query, connection_object)
    
    # 从JSON字符串中读取数据
    pd.read_json(json_string)
    
    # 从HTML页面中读取数据
    pd.read_html(url)
    
  • 数据合并
    # 将多个数据框按照行或列进行合并
    pd.concat([df1, df2])
    
    # 按照指定列将两个数据框进行合并
    pd.merge(df1, df2, on=column_name)
    
  • 数据解析
    # 将内嵌的数据完整的解析出来
    pd.json_normalize()
    

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1796883.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于pulseaudio实现一个边录边播的demo

文章目录 前言一、主要APIpa_simple_newpa_simple_readpa_simple_write 二、C代码实现三、注意事项1、必须装有 libpulsedev 包2、编译方式3、运行说明 前言 通过上一讲,我们实现了一个加载pulseaudio的module-loopback的功能来实现侦听,那么除了加载模…

软件杯 题目:基于深度学习卷积神经网络的花卉识别 - 深度学习 机器视觉

文章目录 0 前言1 项目背景2 花卉识别的基本原理3 算法实现3.1 预处理3.2 特征提取和选择3.3 分类器设计和决策3.4 卷积神经网络基本原理 4 算法实现4.1 花卉图像数据4.2 模块组成 5 项目执行结果6 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 基…

【Python深度学习系列】网格搜索神经网络超参数:批量大小和迭代周期数(案例+源码)

这是我的第297篇原创文章。 一、引言 在深度学习中,超参数是指在训练模型时需要手动设置的参数,它们通常不能通过训练数据自动学习得到。超参数的选择对于模型的性能至关重要,因此在进行深度学习实验时,超参数调优通常是一个重要的…

C++初阶学习第十一弹——探索STL奥秘(六)——深度刨析list的用法和核心点

前言: 在前面,我们已经学习了STL中的string和vector,现在就来讲解STL中的最后一个部分——list的使用及其相关知识点,先说明一点,因为我们之前已经讲过了string和vector的接口函数等用法,list的这些用法与它…

【Python报错】已解决IndentationError: expected an indented block

解决Python报错:IndentationError: expected an indented block Python是一种非常注重可读性的编程语言,其中缩进是语法的一部分。如果你在使用Python时遇到了IndentationError: expected an indented block的错误,这意味着你的代码缩进不正确…

Bandizip 专业版正版激活码 - 超好用文件解压缩工具

要说新电脑必装的软件,一定少不了解压缩工具。面对各式各样的压缩包,总要有一个速度快、稳定安全、功能多、支持格式广的工具才行。 好多用户推荐,用过都说好的 Win 端解压缩工具:Bandizip 值得你一试! 无论是解压速度…

Python必会的UnitTest单元测试框架详解单元测试框架

用Python搭建自动化测试框架,我们需要组织用例以及测试执行,这里博主推荐Python的标准库——UnitTest。 什么是UnitTest框架 UnitTest单元测试框架详解是xUnit系列框架中的一员,如果你了解xUnit的其他成员,那你用UnitTest单元测试…

【Python报错】已解决AttributeError: ‘function‘ object has no attribute ‘read‘

解决Python报错:AttributeError: ‘function’ object has no attribute ‘read’ 在使用Python进行文件操作时,我们经常使用open函数来打开文件,并使用read方法来读取文件内容。如果你遇到了AttributeError: function object has no attribu…

DL4YHF频率计折腾记

DL4YHF大佬原创的频率计https://www.qsl.net/dl4yhf/freq_counter/freq_counter.html有很多种魔改型号,各位大佬都开源了代码。 DL4YHF频率计电路十分简洁,本来想自己DIY一个,动手之前在淘宝一搜,果然没有让我失望,一…

Linux驱动应用编程(三)UART串口

本文目录 前述一、手册查看二、命令行调试串口1. 查看设备节点2. 使用stty命令设置串口3. 查看串口配置信息4. 调试串口 三、代码编写1. 常用API2. 例程线程优化 前述 在开始实验前,请一定要检查测试好所需硬件是否使用正常,不然调试过程中出现的问题&am…

[Algorithm][动态规划][两个数组的DP][正则表达式匹配][交错字符串][两个字符串的最小ASCII删除和][最长重复子数组]详细讲解

目录 1.正则表达式匹配1.题目链接2.算法原理详解3.代码实现 2.交错字符串1.题目链接2.算法原理详解3.代码实现 3.两个字符串的最小ASCII删除和1.题目链接2.算法原理详解3.代码实现 4.最长重复子数组1.题目链接2.算法原理详解3.代码实现 1.正则表达式匹配 1.题目链接 正则表达…

Redis Key过期监听配置

默认情况下在Windows系统中双击redis-server.exe用的是内置的配置文件 如果希望用这两个配置文件 redis.windows.conf:这是用于在Windows上运行Redis服务器的标准配置文件。可以使用这个文件通过命令行启动Redis服务器。redis.windows-service.conf:这是…

解锁机器学习的无限可能:深入探究scikit-learn的强大功能

解锁机器学习的无限可能:深入探究scikit-learn的强大功能 第一部分:背景和功能介绍 在数据科学和机器学习领域,scikit-learn(简称sklearn)是一个广泛使用的Python库。它提供了简单高效的工具用于数据挖掘和数据分析&a…

Echarts 在折线图的指定位置绘制一个图标展示

文章目录 需求分析需求 在线段交汇处用一个六边形图标展示 分析 可以使用 markPoint 和 symbol 属性来实现。这是一个更简单和更标准的方法来添加标记点在运行下述代码后,你将在浏览器中看到一个折线图,其中在 [3, 35] (即图表中第四个数据点 Thu 的 y 值为 35 的位置)处…

CAN总线学习笔记-CAN物理层

CAN介绍 CAN总线:控制器局域网总线(类似一个局域网网络,网络中任何一个节点都可以向其他节点发送数据) CAN总线特性: 两根通信线(CAN_H、CAN_L) 差分信号通信,抗干扰能力强 高速CAN…

十足正式在山东开疆拓土!首批店7月初开业,地区便利店现全新面貌!

十足便利店将正式进军山东市场,以济南、淄博两座城市为核心发展起点,目前济南市已经有三家十足门店正在装修施工中,首批15家门店将于7月初开业,这标志着十足集团市场战略布局迈出了至关重要的一步。 随着3月份罗森品牌在济南成功开…

Python语言进阶学习

目录 一、类、对象和成员方法 二、构造方法 三、面向对象 (1)封装 (2)继承 单继承 多继承 复写 super:调用父类同名成员 (3)多态 (4)抽象类 五、Python操作…

Codeforces Round 951 (Div. 2) C、D(构造、线段树)

1979C - Earning on Bets 构造题:观察到k范围很小,首先考虑最终硬币总数可以是多少,我们可以先假设最终的硬币总数为所有k取值的最小公倍数,这样只需要满足每个结果添加1枚硬币即可赚到硬币。 // Problem: C. Earning on Bets //…

MacOS M系列芯片一键配置多个不同版本的JDK

第一步:下载JDK。 官网下载地址:Java Archive | Oracle 选择自己想要下载的版本,一般来说下载一个jdk8和一个jdk11就够用了。 M系列芯片选择这两个,第一个是压缩包,第二个是dmg可以安装的。 第二步:编辑…

9.1.1 简述目标检测领域中的单阶段模型和两阶段模型的性能差异及其原因

9.1目标检测 场景描述 目标检测(Object Detection)任务是计算机视觉中极为重要的基础问题,也是解决实例分割(Instance Segmentation)、场景理解(Scene Understanding)、目标跟踪(Ob…