我 的 个 人 主 页:👉👉 失心疯的个人主页 👈👈
入 门 教 程 推 荐 :👉👉 Python零基础入门教程合集 👈👈
虚 拟 环 境 搭 建 :👉👉 Python项目虚拟环境(超详细讲解) 👈👈
PyQt5 系 列 教 程:👉👉 Python GUI(PyQt5)文章合集 👈👈
Oracle数据库教程:👉👉 Oracle数据库文章合集 👈👈
优 质 资 源 下 载 :👉👉 资源下载合集 👈👈
优 质 教 程 推 荐:👉👉 Python爬虫从入门到入狱系列 合集👈👈
Pandas初识
- 初识Pandas
- 概念
- 安装
- Pandas对象常用方法
初识Pandas
- 官方文档:https://pandas.pydata.org/docs/
概念
-
Pandas 是一个开源的第三方 Python 库,从 Numpy 和 Matplotlib 的基础上构建而来,享有数据分析“三剑客之一”的盛名(NumPy、Matplotlib、Pandas)
-
Pandas 已经成为 Python 数据分析的必备高级工具,它的目标是成为强大、灵活、可以支持任何编程语言的数据分析工具
-
Pandas主要实现了数据分析的五个重要环节:
1. 加载数据 2. 整理数据 3. 操作数据 4. 构建数据模型 5. 分析数据
-
Pandas主要特点
1. 提供了一个简单、高效、带有默认标签(也可以自定义标签)的 DataFrame对象(二维表对象)。 2. 能够快速得从不同格式的文件中加载数据(比如 Excel、CSV 、SQL文件),然后将其转换为可处理的对象; 3. 能够按数据的行、列标签进行分组,并对分组后的对象执行聚合和转换操作; 4. 能够很方便地实现数据归一化操作和缺失值处理; 5. 能够很方便地对DataFrame的数据列进行增加、修改或者删除的操作; 6. 能够处理不同格式的数据集,比如矩阵数据、异构数据表、时间序列等; 7. 提供了多种处理数据集的方式,比如构建子集、切片、过滤、分组以及重新排序等
-
Pandas应用
1. Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。 2. Pandas 可以对各种数据进行运算操作,比如归并、再成形、选择,还有数据清洗和数据加工特征。 3. Pandas 广泛应用在学术、金融、统计学等各个数据分析领域
-
Pandas核心数据结构
- Pandas 的主要数据结构是 Series(一维数据) 与 DataFrame(二维数据)
- Series是一种类似于一维数组的对象,它由一组数据(各种 Numpy 数据类型)以及一组与之相关的数据标签(即索引)组成。
- DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)
数据结构 维度 说明 Series 1 Series是一维数据结构,其维数不可以改变
该结构能够存储各种数据类型,比如字符数、整数、浮点数、Python 对象等
Series用name
和index
属性来描述数据值DataFrame 2 DataFrame 是一种二维表格型数据的结构
既有行索引index
,也有列索引columns
在创建该结构时,可以指定相应的索引值
安装
- Pandas是第三方库,因此需要自行安装
pip install pandas
Pandas对象常用方法
- 创建Series对象(一维数据)
pd.Series(data=None index=None, dtype=None, name=None, copy= None, fastpath= lib.no_default) # 参数详解 # data # 数据源 # index # 设置标签索引 # dtype # 输出系列的数据类型 # name # 为Series对象(即列)命名 # copy # 指定是否强制创建data源数据的副本,默认为False # fastpath # 是否启用快速路径。默认为 False
- 创建DataFrame对象(二维数据)
pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False) # 参数详解 # data # 源数据 # index # 设置行索引,用于标识每行数据 # columns # 设置列索引,用于标识每列数据 # dtype # 指定DataFrame的数据类型 # copy # 是否复制数据,
- 判断空值
# 判断数据中是否有空值(None) pd.isnull(s) # 数据中有空值(None),则返回True # 判断数据中是否没有空值(None) pd.notnull(s) # 数据中有空值(None),则返回False
- 文件读取
# 读取 CSV 文件 pd.read_csv(filename) # 读取Excel文件 pd.read_excel(filename) # 从SQL数据库读取数据 pd.read_sql(query, connection_object) # 从JSON字符串中读取数据 pd.read_json(json_string) # 从HTML页面中读取数据 pd.read_html(url)
- 数据合并
# 将多个数据框按照行或列进行合并 pd.concat([df1, df2]) # 按照指定列将两个数据框进行合并 pd.merge(df1, df2, on=column_name)
- 数据解析
# 将内嵌的数据完整的解析出来 pd.json_normalize()