目录
1 逻辑优化阶段
2.1 逻辑计划解析
2.2 逻辑计划优化
2.2.1 Catalys的优化过程
2.2.2 Cache Manager优化
2 物理优化阶段
2.1 优化 Spark Plan
2.1.1 Catalyst 的 Join 策略
2.1.2 如何决定选择哪一种 Join 策略
2.2 Physical Plan
2.2.1 EnsureRequirements 规则
3 相关文章
Spark SQL 端到端的完整优化流程主要包括两个阶段:Catalyst 优化器和 Tungsten。其中,Catalyst 优化器又包含逻辑优化和物理优化两个阶段。为了把开发者的查询优化到极致,整个优化过程的运作机制设计得都很精密,
1 逻辑优化阶段
Catalyst 逻辑优化阶段分为两个环节:逻辑计划解析和逻辑计划优化。在逻辑计划解析中,
Catalyst 把“Unresolved Logical Plan”转换为“Analyzed Logical Plan”;在逻辑计划优化中,Catalyst 基于一些既定的启发式规则(Heuristics Based Rules),把“Analyzed