前言
Append模式每次都生成新的parquet文件,不涉及数据修改、去重。cow+insert一直是append模式,mor+insert在0.13.1后也统一走append写流程(HUDI-6045)
在0.13.1之前,mor+insert存在着写parquet和写log两种情况:
- 写parquet:
compaction.schedule.enabled = false
&clustering.async.enabled = true
,这时是append模式 - 写log:
compaction.schedule.enabled = true
&clustering.async.enabled = false
,这时走upsert写过程
append写过程比upsert简单直接得多,因此写入性能远优于upsert.
整体流程
- 与upsert写过程一样,借助
StreamWriteOperatorCoordinator