Lookup Join显著增强，Paimon1.0版本如何做的？

Lookup Join显著增强，Paimon1.0版本如何做的？

news2026/2/11 1:14:15

Hi，大家好，我们又满血复活了。

2025年开年更新频率不快，一方面是大模型如火如荼，也一直在补相关知识；另外一方面，新的一年里身体健康被我摆到了第一位，不会像前几年那么卷了。

后续我们的更新会变得佛系，内容也偏向简单和科普，不会在像前两年更新的非常有深度，面向更广泛的受众(曲高和寡加上精力有限)。主要精力会放在大数据提高班上，内容上也会扩展到大模型和数据结合的领域。

今天要更新的文章是Paimon1.0版本新特性的解读。

前几天Paimon1.0版本公告发布，这个版本是一个里程碑意义的稳定版本，内核上的优化设计是这个版本主要考虑的因素。这个版本中有一些能力提升，其中一个很重要的优化点是Lookup性能优化，也是今天我们要讲的内容。

本地 Lookup是Paimon点查LSM结构的基础能力，它是如下能力的基础结构：

lookup changelog-producer:点查历史文件生成changlog
主键表deletion vectors模式:点查历史文件生成deletion vectors
Flink Lookup Join：当Join条件是维表的主键时，会使用本地 Lookup 的方式

之前的版本使用 HashFile 来解决 Lookup 问题，它有两个缺点：

生成HashFile写入时，磁盘会拷贝多次。
HashFile 的压缩率太差

目前Paimon仅支持AVRO、ORC和Parquet文件格式。在历史版本中，当用作Lookup join时，Paimon会将列格式数据动态转换为key-value 格式数据。

这种数据格式在几十GB数据下其实没什么问题，但是对于超大维度表，性能下降明显。因此在新的版本中，Paimon引入了新的基于sort lookup store的key-value文件格式，并且Paimon可以下载 key-value格式文件并使用主键检索数据。

Paimon社区把这种文件格式命名为PFile，并且PFile文件格式仅用于主键表。当在append-only table中配置时，paimon会抛出异常。下面是PFile的文件结构：

这个文件有4部分：Data Index、Leaf Index、Level Block Index、Trailer。

这个文件的格式的读写分别是怎样的呢？

写入Pfile的步骤如下：

在数据块中写入键值记录，直到数据块填满
压缩字节并将其刷新到存储
生成块索引并将其写入数据索引块

读取PFile的步骤如下：

会先打开文件，先读取 foot info，然后从file foot中读取block index和bloom filter，搜索给定主键的特定数据块，然后从数据块中读取数据。

对于查表，它会检查文件是否存在于本地磁盘中，下载该文件，然后获取给定主键的键值对。

以上就是Lookup join所需要的主键表所做的优化了。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2301593.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Vue前端开发-Vant组件之Button组件

Vue前端开发-Vant组件之Button组件

Vant 有丰富的UI组件，而基础组件是全部组件的核心，基础组件中将常用的元素做了二次的开发，封装成Vant格式组件，如按钮、图片和布局等，这些封装后的Vant组件，提供了更多面向实际应用的属性和事件&#xff0c…

阅读更多...

DeepSeek 接入PyCharm实现AI编程！（支持本地部署DeepSeek及官方DeepSeek接入）

DeepSeek 接入PyCharm实现AI编程！（支持本地部署DeepSeek及官方DeepSeek接入）

前言在当今数字化时代，AI编程助手已成为提升开发效率的利器。DeepSeek作为一款强大的AI模型，凭借其出色的性能和开源免费的优势，成为许多开发者的首选。今天，就让我们一起探索如何将DeepSeek接入PyCharm，实现高效、智…

阅读更多...

【Linux网络编程】应用层协议HTTP（请求方法，状态码，重定向，cookie，session）

【Linux网络编程】应用层协议HTTP（请求方法，状态码，重定向，cookie，session）

🎁个人主页：我们的五年 🔍系列专栏：Linux网络编程 🌷追光的人，终会万丈光芒 🎉欢迎大家点赞👍评论📝收藏⭐文章 Linux网络编程笔记： https://blog.cs…

阅读更多...

健康养生：从生活细节开启活力之旅

健康养生：从生活细节开启活力之旅

在忙碌的现代生活里，健康养生不再是一个抽象概念，而是关乎生活质量的关键。其实，只要掌握日常养生要点，就能轻松开启活力满满的健康生活。饮食是健康的基石。每日饮食需遵循 “彩虹原则”，摄入多种颜色食物。早餐时&…

阅读更多...

DeepSeek + Mermaid编辑器——常规绘图

DeepSeek + Mermaid编辑器——常规绘图

下面这张图出自：由清华大学出品的《DeepSeek：从入门到精通》。作为纯文本生成模型，DeepSeek虽不具备多媒体内容生成接口，但其开放式架构允许通过API接口与图像合成引擎、数据可视化工具等第三方系统进行协同工作，最终…

阅读更多...

【拥抱AI】GPT Researcher的诞生

【拥抱AI】GPT Researcher的诞生

一、GPT Researcher 研究过程总结 GPT Researcher 是一个开源的自主智能体，旨在通过利用人工智能技术实现高效、全面且客观的在线研究。它通过一系列创新的设计和优化，解决了传统研究工具（如 AutoGPT）中存在的问题，如…

阅读更多...

Redis7——基础篇（三）

Redis7——基础篇（三）

前言：此篇文章系本人学习过程中记录下来的笔记，里面难免会有不少欠缺的地方，诚心期待大家多多给予指教。基础篇： Redis（一）Redis（二） 接上期内容：上期完成了Redis的基本…

阅读更多...

MySQL登录问题总结

MySQL登录问题总结

不管何种数据库，使用的第一步都是先登录。 MySQL命令行登录语句：mysql -u username -P port -p -D database_name 登录MySQL的报错一般从报错信息都能得到反馈，常见报错原因分析如下，实例中的以test用户为例，登录环境为…

阅读更多...

Redis 持久化：从零到掌握

Redis 持久化：从零到掌握

Redis 作为一款广泛使用的内存数据库，虽然核心功能是基于内存提供高性能的数据存取，但在实际应用中，数据的持久化是不可忽视的。毕竟，内存中的数据一旦出现故障或重启，就会面临数据丢失的风险。因此，Redis …

阅读更多...

Mybatis MyBatis框架的缓存一级缓存

Mybatis MyBatis框架的缓存一级缓存

1. 缓存的概念缓存的概念在内存中临时存储数据，速度快，可以减少数据库的访问次数。经常需要查询，不经常修改的数据，不是特别重要的数据都适合于存储到缓存中。 2.Mybatis缓存 mybatis包含了一个非常强大的查询缓存特性&#…

阅读更多...

第1章大型互联网公司的基础架构——1.6 RPC服务

第1章大型互联网公司的基础架构——1.6 RPC服务

你可能在1.1节的引言中注意到业务服务层包括HTTP服务和RPC服务，两者的定位不一样。一般来说，一个业务场景的核心逻辑都是在RPC服务中实现的，强调的是服务于后台系统内部，所谓的“微服务”主要指的就是RPC服务；而HTTP服…

阅读更多...

idea-gradle打包运行配置

idea-gradle打包运行配置

最近接触了一个项目，使用gradle做为构建工具，这里记录一波，毕竟平时使用的都是maven idea 配置这里有个坑，Gradle Wrapper，配置的地址gradle下载超时这个配置修改成阿里的第一张第二张第二张配置的jvm貌似没啥用…

阅读更多...

（新版本onenet）stm32+esp8266/01s mqtt连接onenet上报温湿度和远程控制（含小程序）

物联网实践教程：微信小程序结合OneNET平台MQTT实现STM32单片机远程智能控制远程上报和接收数据——汇总前言之前在学校获得了一个新玩意：ESP-01sWIFI模块，去搜了一下这个小东西很有玩点，远程控制LED啥的，然后我就想…

阅读更多...

一键部署开源DeepSeek并集成到钉钉

一键部署开源DeepSeek并集成到钉钉

一键部署开源DeepSeek并集成到钉钉简介： DeepSeek发布了两款先进AI模型V3和R1，分别适用于对话AI、内容生成及推理任务。由于官方API流量限制，阿里云推出了私有化部署方案，无需编写代码即可完成部署，并通过计算巢AppF…

阅读更多...

【爬虫基础】第一部分网络通讯 P1/3

【爬虫基础】第一部分网络通讯 P1/3

前言 1.知识点碎片化：每个网站实现的技术相似但是有区别，要求我们根据不同的网站使用不同的应对手段。主要是常用的一些网站爬取技术。 2.学习难度：入门比web简单，但后期难度要比web难，在于爬虫工程师与网站开发及运维…

阅读更多...

车载音频配置（二）

车载音频配置（二）

目录 OEM 自定义的车载音频上下文动态音频区配置向前兼容性 Android 14 车载音频配置在 Android 14 中，AAOS 引入了 OEM 插件服务，使你可以更主动地管理由车载音频服务监督的音频行为。随着新的插件服务的引入，车载音频配置文件中添加了以下更改： • OEM 自定义的车…

阅读更多...

级联选择器多选动态加载

级联选择器多选动态加载

一.级联展示注：因为级联选择器这里是动态加载，因此如果上来选中一级就需要加载出后面三级的全部数据，依然会很卡，因此，和产品协商把一二级多选框去掉了，这样也避免了你选择一级不能实现子级被全部选中的问…

阅读更多...

华为动态路由-OSPF-骨干区

华为动态路由-OSPF-骨干区

华为动态路由-OSPF-骨干区一、OSPF简介 1、OSPF概述 OSPF是一种开放式的、基于链路状态的内部网关协议（IGP），用于在自治系统内部进行路由选择和通信。 OSPF是互联网工程任务组（IETF）定义的标准之一，被广…

阅读更多...

网络安全治理模型

网络安全治理模型

0x02 知识点安全的目标是提供可用性 Avialability机密性 confidentiality完整性 Integrity真实性 Authenticity不可否认性 Nonrepudiation 安全治理是一个提供监督、问责和合规性的框架信息安全系统 Information Security Management System ISMS 策略，工作程…

阅读更多...

企业软件合规性管理：构建高效、安全的软件资产生态

企业软件合规性管理：构建高效、安全的软件资产生态

引言在数字化转型的浪潮下，企业的软件使用方式日益多元化，涉及云端、订阅制、永久授权及浮动许可等多种模式。然而，随着软件资产的增多，企业面临着合规性管理的严峻挑战：非法软件使用、许可证管理不当、软件资产闲置…

阅读更多...

推荐文章

最新文章