hudi表的数据一直在演变过程中,存储在文件系统中的数据文件也在不断增加和版本迭代,hudi提供了表级别的文件系统视图(filesystem view)来简单、直观地了解表中的数据分布情况、数据文件的状态和变化,以及数据的版本控制信息。文件系统视图提供了以下一些功能:
- 获取最新的base文件:整个表的、指定分区的、指定分区的文件组的(
BaseFileOnlyViewWithLatestSlice
) - 获取指定分区所有base文件、获取指定分区某版本(fileId+instant)的base文件(
BaseFileOnlyView
) - 获取最新分片信息:指定分区、指定文件组、指定分区未compact的、指定分区在某instant前的、指定分区在某instant范围的(
SliceViewWithLatestSlice
) - 获取指定分区所有分片(
SliceView
) - 获取指定分区所有分组、获取timeline、获取正compact的信息、获取正clustering的文件组、获取replacecommit产生的文件组(
TableFileSystemView
)
当然,文件系统视图持续进行着自我更新、重置,以保持最新视图。
- hudi 0.13.1
类图
TableFileSystemView
,BaseFileOnlyView
,BaseFileOnlyViewWithLatestSlic