Spark AQE 自适应查询优化:
实现运行时优化,纠正因统计信息不准确导致生成的逻辑计划不完善或有误的问题
动态调整JOIN策略:类似于mapjoin优化,将sortMergejoin转换成broadcasthashjoin,也就是将小表当作广播变量分发到另一个表的所有节点上,如此可以减少大量的网络IO。
map后将数据量更大的分区分割成若干个较小的分区
spark3.0动态分区裁剪:与逻辑计划的谓词下推静态优化不同,这个是运行时的动态优化特性,如案列中小表的过滤,其实是基于维度表的裁剪的基础上,在join关联之前提前检测另一张事实表中对应条件的数据进行提前过滤。