在这我假设大家都是小白,那么Spark是什么?你为什么搜索它?思考一下。
首先,Spark是大数据处理框架的一种,那么什么是大数据处理框架?什么是大数据?字面意思懂得都懂。(如果不懂去百度)
大数据处理框架大题可以分为四层结构:用户层、分布式数据并行处理层、资源管理与任务调度层、物理执行层。
1.用户层:用户需要准备数据、开发用户代码、配置参数
2.分布式数据并行处理层:分布式数据并行处理层首先将用户提交的应用转化为较小的计算任务,然后通过调用底层的资源管理与任务调度层实现并行执行。
3.资源管理与任务调度层:负责管理存储计算等资源与调度数据处理任务
4.物理执行层:负责启动task(最小任务单位),执行每个task的数据处理步骤。
以上是大数据中对此类框架的概述,不同处理框架的内部的逻辑可以说核心思想类似,又不尽相同。请期待下一篇《谁能讲清楚Spark之Spark系统架构》