马哈鱼数据血缘分析器是一个分析数据血缘关系的平台,支持对大量复杂的数据快速准确的分析,支持分批增量分析血缘。
本文主要介绍如何利用马哈鱼增量分析任务。
使用步骤
- 登录sqlflow-api(SQLFLow接口文档),http://127.0.0.1:8081/gspLive_backend/doc.html?lang=en
- 搜索submitPersistJob接口
- 第一次提交JOB
需要改动的参数说明:
dbvendor:数据库类型,如:dbvhive,dbvmysql
userId:用户id,on premise version默认是gudu|0123456789
incremental:是否为增量JOB,true/false
firstSubmit:是否为第一次提交,true/false
jobName:job名称,需要保证唯一
sqlfiles:要分析的文件,多个文件可以压缩成zip
-
后续增量提交JOB
其他参数和第一次提交一样,只需要设置要增量的job名称,修改firstSubmit为false,以及sqlfiles为增量的文件
测试效果
1,第一次分析
SQL:
CREATE TABLE table1(
id int,
name string);
insert into table1
(
id,
name
)
select t.id,t.name from table2 t;
结果:
得到 table2 -> table1 的table level data lineage
2,第二次增量分析
SQL:
insert into table2
(
id,
name
)
select t.table3_id,t.table3_name from table3 t;
结果:
得到增量分析后的结构:table3 -> table2 -> table1 的table level data lineage
3,第二次增量分析
SQL:
insert into table0
(
table0_id,
table0_name
)
select t.id,t.name from table1 t;
结果:
得到增量分析后的结构:table3 -> table2 -> table1 -> table0 的table level data lineage
以上就是对马哈鱼SQLFLow增量分析血缘任务的操作步骤,后续马哈鱼会将此功能集成到UI中。关于马哈鱼的等多功能,请参考下面链接:
参考
马哈鱼数据血缘关系分析工具中文网站: https://www.sqlflow.cn
马哈鱼数据血缘关系分析工具英文网站: https://docs.gudusoft.com
马哈鱼数据血缘关系分析工具在线使用: https://sqlflow.gudusoft.com