Apache Paimon 是一种湖格式,可以使用 Flink 和 Spark 构建实时 数据糊 架构,用于流式和批处理操作。Paimon 创新地将湖格式和 LSM(日志结构合并树)结构相结合,将实时流式更新引入湖架构中。
Paimon 提供以下核心功能:
- 实时更新:
- 主键表支持大规模更新的写入,具有非常高的更新性能,通常通过 Flink 流处理实现。
- 支持定义合并引擎,根据您的喜好更新记录。去重以保留最后一行,或部分更新,或聚合记录,或第一行,由您决定。
- 支持定义变更日志生成器,在合并引擎的更新中生成正确完整的变更日志,简化您的流式分析。
- 大规模附加数据处理:
- 附加表(无主键)提供大规模批处理和流处理能力。自动小文件合并。
- 支持使用 z-order 排序进行数据压缩,优化文件布局,基于数据跳过使用 minmax 等索引提供快速查询。
- 数据湖能力:
- 可扩展的元数据:支持存储 PB 级大规模数据集和存储大量分区。
- 支持 ACID 事务、时间旅行和模式演变。
如上所示的架构:
读/写:Paimon 支持多样化的数据读写和执行 OLAP 查询的方式。
对于读取,它支持从以下方式消费数据:
- 历史快照(批处理模式ÿ