Hudi 概念
Apache Hudi 是一个支持插入、更新、删除的增量数据湖处理框架,有两种表类型:COW和MOR,可以自动合并小文件,Hudi自己管理元数据,元数据目录为.hoodie
。
Hudi提供表、事务、高效的追加/删除、高级索引、流接收服务、数据集群/压缩和并发性,同时将数据保持为开源文件格式。
支持流批一体
支持多种查询引擎(包括Apache Spark、Flink、Presto、Trino、Hive)
具体的概念可以查看官网Overview | Apache Hudi
本次学习以0.11.0版本为例
核心概念
如果您对Apache Hudi还比较陌生,那么熟悉几个核心概念是很重要的:
Hudi Timeline–Hudi 如何管理交易和其他表服务
Hudi文件存储-文件在存储中的布局方式
Hudi表类型–––COW(COPY_ON_WRITE)和MOR(MERGE_ON_READ)
Hudi查询类型–快照查询、增量查询、读取优化查询