这里对于hudi中有两种表,一种是MOR表,这个是hudi表,一种是COW表,
MOR表会产生日志,因为会有增删改的日子对数据的,然后COW是没有日志的,COW是copy on write
的意思.是复制的数据所以不会牵扯到该删的操作.
这里因为hudi有多版本控制,所以这里就有了合并日志和基本文件的操作,合并以后产生一个新的文件片.
还要知道,这里hudi用来操作数据的方式是,用的布隆过滤,而布隆过滤是有假阳性的,什么是假阳性,
这里可以看专门的一篇写布隆过滤的文章,假阳性就是,布隆过滤说没有那肯定这个数据不存在,
如果布隆过滤说有,那么不一定有.这个就是假阳性.
积累工作中常见算法_布隆过滤器_Bloom Filter_你说有那不一定有_2023-10-18 11:21:55_定时更新_打个时间戳---算法面试题001
然后我们再来看hudi中的索引机制,索引:
可以看到在hudi中有一个hoodie key这个东西,其实就是,用r