文章目录
- 前言
- 一、pandas介绍
- 二、pandas优势
- 2.1 强大的数据结构支撑
- 2.2 优点
- 三、pandas学习路线
- 结语
- 相关导读
前言
一、pandas介绍
pandas 是 Python 的
核心数据分析支持库
,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。
pandas 的目标是成为 Python 数据分析实践与实战的必备高级工具,其长远目标是成为最强大、最灵活、可以支持任何语言的开源数据分析工具。经过多年不懈的努力,pandas 离这个目标已经越来越近了。
对于使用 Python 进行数据分析来说,pandas 几乎是无人不知,无人不晓的。
通俗来讲,pandas 是 Python 编程界的 Excel
。
pandas官方网站 点我,没有 VPN 访问较慢。
pandas中文网 点我,可以正常访问,较为人性化。
二、pandas优势
为什么 pandas 能成为 Python 数据分析的利器和核心支持库?
我想大概可以从以下几点中找到答案。
2.1 强大的数据结构支撑
pandas的主要数据结构是 Series(一维数据)与DataFrame(二维数据),这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型的用例。
对于 R 用户,DataFrame提供了比R语言 data.frame 更丰富的功能。pandas是基于NumPy开发,可以与其它第三方科学计算支持库完美集成。
2.2 优点
-
1.处理浮点与非浮点数据里的缺失数据,表示为NaN
-
2.大小可变
插入或删除DataFrame等多维对象的列;
- 3.自动、显示数据对齐
显示将对象与一组标签对齐,也可以忽略标签,在Series、DataFrame计算时自动与数据对齐;
- 4.强大、灵活的分组(group by)功能
拆分-应用-组合数据集,聚合、转换数据;
把Python和NumPy数据结构里不规则、不同索引的数据轻松地转换为DataFrame对象;
-
5.基于智能标签,对大型数据集进行切片、花式索引、子集分解等操作;
-
6.轴支持结构化标签:一个刻度支持多个标签;
-
7.成熟的IO工具
读取文本文件(CSV等支持分隔符地文件)、Excel文件、数据库等来源地数据,利用超快地HDF5格式保存/加载数据;
- 8.时间序列
支持日期范围生成、频率转换、移动窗口统计、移动窗口线性回归、日期位移等时间序列功能。
三、pandas学习路线
首先是 Series:
之后是 DataFrame :
结语
pandas 的学习注定会遇到很多困难,这让我想起了当初学习 Java 框架 Spring 的时候,感觉都看不下去了,乏味无趣,后面慢慢的发现,边学习边实践,拒绝拖延,是提高学习积极性的好办法。
相关导读
文章直达 | 链接 |
---|---|
上期回顾 | 【数据分析 - 基础入门之NumPy⑥】- NumPy案例巩固强化 |
下期预告 | 【数据分析 - 基础入门之pandas②】- pandas数据结构——Series |