YashanDB混合存储揭秘：行式存储如何为高效TP业务保驾护航（上）

news2026/2/15 9:12:25

上一篇文章《深度干货 | 揭秘YashanDB融合存储引擎》

https://mp.weixin.qq.com/s/yipJcEAH3fVA-_hnUvOiKA从存储结构、事务引擎、高可用等方面介绍了YashanDB存储引擎的整体架构。本篇为大家详细解读YashanDB行式存储技术。

背景

数据库底层组织数据的方式主要分为行式存储和列式存储两大类。YashanDB在存储引擎设计上采用融合架构，基于统一存储底座构建了不同的存储结构，支持In-place Update行式存储，适应在线事务处理场景(OLTP)；支持原位更新（In-place Update）和追加式（Append-only）两种列式存储，具备原生混合负载处理能力(HTAP)和海量数据分析能力(OLAP)。

YashanDB的堆表(Heap Table)在结构上采用的是行式存储，以行为粒度将数据随机存储在最小存储单元数据块上。行式存储的优势是数据以行汇聚，随机增删改查操作效率高，通常配合Btree等类型索引使用，提供高效的事务处理能力。缺点是查询时需要整行读出，如果只需要部分列的数据，就会扫描不必要的数据，同时很难利用向量化计算来进行加速，压缩率也没有列式存储高。

行式存储关键技术

在线事务处理(OLTP)是最常见的业务模型之一，通常具有以下特点：

要保证实时性，对数据库的响应时延要求很高；
要保证数据一致性，要求数据库提供强一致事务保证；
并发量高，要求数据库并发能力强。

YashanDB行式存储主要用于在线事务处理场景，在设计上根据其场景特点进行了针对性优化，本文将重点介绍其中的几个关键技术实践：

事务并发控制：优化传统MVCC机制，采用In-place Update的块级MVCC，提供事务高并发处理能力；
插入性能优化：通过提升并发性、批量化处理、减少日志产生等优化，降低事务处理过程中插入响应时延；
行存储结构：尽管In-place Update原位更新带来了性能的显著提升，但是宽行的存储设计成为了面临的关键挑战之一。因此，我们针对宽行设计行链接和行迁移机制，以确保对宽行的处理性能不受影响。

事务并发控制

YashanDB使用业内主流的MVCC机制(Multi-version Concurrency Control，多版本并发控制)实现事务并发控制，但MVCC的实现在不同的数据库差异较大，主要包含以下两种：

Append-only行级MVCC：更新数据时新增一条数据。这种方式的缺点是，历史版本数据与最新版本存储在一个空间，导致空间膨胀，最新版本的查询代价高，历史版本垃圾回收开销大，修改时需要拷贝整行。

图1 Append Only的行级MVCC

In-place Update 行级MVCC：更新记录时对原始数据进行覆盖。这种有独立的Undo空间存储历史数据，最新数据的更新是In-Place Update（原位更新），但由于每一行都要关联对应的历史版本记录，存储开销大。

图2 In-place Update的行级MVCC

YashanDB针对主流MVCC机制存在的问题，在设计上采用了In-place Update的块级MVCC。块级MVCC与行级MVCC最大的差别是，与历史版本(undo数据)关联的是事务而不是行，当需要查询行的历史版本(一致性版本)时，不再按行构建，而是通过数据块上的事务信息，构建整个数据块级别的历史版本，通常称之为一致性数据块(Consistent Read Block)。

块级MVCC优化了数据块内行的Undo空间开销，同一事务在同一数据块中修改不同行时产生的Undo可以进行合并，有效节省了存储空间开销。按块构建一致性版本提升了历史数据访问效率，同时在全局对一致性数据块进行缓存之后，可以跨会话共享，避免不同会话之间重复构建。