想真正学习或者提升自己的ETL领域知识的朋友欢迎进群,一起学习,共同进步。由于群内人员较多无法直接扫描进入,公众号后台加我微信入群,备注kettle。
场景:ETL沟通交流群内有小伙伴反馈,如何多个分支处理完毕之后记录下同步结果呢?或者是调用后续步骤、存储过程、三方接口等。
解决:使用步骤Blocking step进行阻塞处理即可。
1、 如下流程图中利用Blocking step步骤同时阻塞【模拟表输出1】和【模拟表输出2】两个步骤,只有当两个步骤都执行完毕之后数据才会通过Blocking step.
1) 表输出步骤加载数据,sql为select * from t1,t1表中有三条数据。
2)当前数据步骤为写日志步骤,打印数据读取记录。
3)延迟2秒和延迟3秒步骤可以暂停步骤立刻执行,添加为了演示执行顺序效果。
4)模拟表输出1和模拟表输出2实际上是写日志步骤,为了模拟表输出步骤,方便演示。
5)将模拟表输出1和模拟表输出2同时连接Blocking step步骤,之后打印日志记录最后一行数据。
注意:这里的最后一行数据不是表输入步骤中的最后一行数据,而是通过模拟表输出1和模拟表输出2两个步骤中的最后一条数据。
6)当前数据步骤使用的数据发送是Round-Robin轮询调度。
7)下面为执行的视频,需公众号查看。
2、上边的案例是采用Round-Robin轮询调度,下面我们调整数据发送为数据复制方式,该方式可以将当前数据的数据复制两份,每份的数据都是一样的。
这种情况适用于从A表读取数据,同时写入B表和C表,这种情况下Blocking step步骤依然有效。