数据科学已经发展成为一个庞大的系统,包含数学、统计学、概率论、计算机、数据库、编程等各种理论技术。
目前在主流的数据科学领域一般有三大生态,一是以sas、matlab、spss等为代表的商业软件生态,二是围绕R语言建立起来的开源生态,三是目前较为火热的Python数据科学生态。
为什么Python会脱颖而出,成为数据科学的第三极,而且越来越受欢迎呢?
这是因为数据科学编程需要非常灵活的语言,编写代码很简单,但可以处理高度复杂的数学处理。
Python可以说最适合这样的需求,所以大量的数据科学库如春笋般冒出来,有的已经发展成高度完善的企业级库。
比如说Pandas、Numpy、Matplotlib、Sklearn、NLTK等,还有深度学习领域的Keras、Tensorflow、Pytorch、Caffe等,都是顶尖的数据科学工具。
Github上有一个项目,专门汇总了Python数据科学的核心知识点,并以速查表的形式,浓缩在一张张图片里。
速查表清单: