1 Python数据分析概况
- 1.1 认识数据分析
- 1.2 熟悉Python数据分析的工具
- Python数据分析常用类库
- 1.3 Jupyter Notebook 快捷键
1.1 认识数据分析
数据分析是指用适当的分析方法对收集来的大量数据进行分析,提取有用信息和形成结论,对数据加以详细研究和概括总结的过程。
广义的数据分析包括狭义数据分析和数据挖掘。
狭义的数据分析是指根据分析目的,采用对比分析、分组分析、交叉分析和回归分析等分析方法,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用,得到一个特征统计量结果的过程。
数据挖掘则是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,通过应用聚类、分类、回归和关联规则等技术,挖掘潜在价值的过程。
数据分析的流程
1.2 熟悉Python数据分析的工具
目前主流的数据分析语言有Python、R、MATLAB这三种。其中,Python具有丰富和强大的库。
Python数据分析常用类库
1.IPython——科学计算标准工具集的组成部分
2.NumPy(Numerical Python)—— Python 科学计算的基础包
3.SciPy——专门解决科学计算中各种标准问题域的模块的集合
4.Pandas——数据分析核心库
5.Matplotlib——绘制数据图表的 Python 库
6.scikit-learn——数据挖掘和数据分析工具
7. Spyder——交互式 Python 语言开发环境
1.3 Jupyter Notebook 快捷键
“Esc”键:进入命令模式
“Y” 键:切换到代码单元
“M”键:切换到 Markdown 单元
“B”键:在本单元的下方增加一单元
“H”键:查看所有快捷命令
“Shift+Enter”组合键:运行代码
导出功能
Notebook 还有一个强大的特性,就是导出功能。可以将 Notebook 导出为多种格式,如HTML、Markdown、reST、PDF(通过 LaTeX)等格式。
导出功能可通过选择“File”→“Download as”级联菜单中的命令实现。