一. 前言
我们知道,在Presto中,与inner join相比,left join会保留probe表(左表)的所有值,right join会保留build表(右表)的所有值。inner join的是实现在文章Presto之Hash Join 数据碰撞的实现过程_王飞活的博客-CSDN博客中已经介绍,本文主要是介绍在Presto中,Left Join和Right Join的实现和它们Inner Join的实现过程的区别。
二. Presto Left Join的实现
在Presto中,Left Join和Inner Join的整体流程基本是一样的,整体流程参考Presto之Hash Join 数据碰撞的实现过程_王飞活的博客-CSDN博客。
唯一的区别是,Left Join为了保留probe表的所有数据,因此与Inner Join相比多了一步:
在用Probe表每行数据与Build表探测的时候,如果发现是Left Join(Probe表是外表),则保留此行Probe表的数据,并且在Build表的输出中增加一列空值行与之对应。主要实现如下所示:
三. Presto Right Join的实现
在Presto中,Right Join的实现稍微比Left Join复杂,Right Join为了保留Build表的所有数据,使用了LookupJoinOperator和LookupOuterOperator两个算子实现的。LookupJoinOperator负责Build表和Probe表有交集部分的数据生成,LookupOuterOperator负责Build表中和Probe表无交集部分的数据生成。如下是一个Right Join的执行计划图:
Right Join的实现的过程如下所示:
1. Probe表和Hash表碰撞,看是否有相同的Join Key值。
此部分的实现参考 Presto之Hash Join 数据碰撞的实现过程_王飞活的博客-CSDN博客 。
2. 如果build表和probe表有交集,则将LoopupJoinOperator的输出PageBuilder中保留该行数据,并且在数据positionVisited中将该行数据postiiton的下标值为true(visitedPositions的位置为true,说明build表该行有和probe表有交集,否则说明无交集)。
3. 等LookUpJoinOperator计算完成Probe表和Build表交集结果后,LoopupOuterOperator将启动Build表与Probe表中无交集部分的结果的生成。LoopupOuterOperator将遍历visitedPositions,如果visitedPositions数组值为false,则通过保留Build表的数据,设置左表的数据为NULL,完成无交集部分结果的输出。
4. LookUpJoinOperator和LoopupOuterOperator的结果输出到同一个TaskOutputOperator中,完成Right Join计算结果的输出。