资料:
Spark基础入门-第一章-1.1-Spark简单介绍_哔哩哔哩_bilibili
(1)基础知识
Apache Spark 是用于大规模数据(large-scale data)处理的统一分析引擎。
分布式处理数据
PySpark模块
- Spark 和 Hadoop 有区别,不能完全取代 Hadoop
Spark 在内存中的运算速度比 Hadoop 的 MapReduce 快 100 倍
- 代码简单,API丰富,便于使用
df = spark.read.json("logs.json")
- 运行方式
Spark 支持多种运行方式,包括在 Hadoop 和 Mesos 上,也支持 Standalone 的独立运行模式,同时也可以运行在云 Kubernetes(Spark 2.3 开始支持)上。
对于数据源而言,Spark支持从HDFS、HBase、Cassandra 及 Kafka 等多种途径获取数据。
(2)Spark安装