Clickhouse MergeTree 原理（一）

news2026/2/15 1:35:50

作者：俊达
MergeTree是Clickhouse里最核心的存储引擎。Clickhouse里有一系列以MergeTree为基础的引擎（见下图），理解了基础MergeTree，就能理解整个系列的MergeTree引擎的核心原理。
在这里插入图片描述

本文对MergeTree的基本原理进行介绍。

1 MergeTree引擎表创建

1、基本语法：

CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster]
(
    name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1] [TTL expr1],
    name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2] [TTL expr2],
    ...
    INDEX index_name1 expr1 TYPE type1(...) GRANULARITY value1,
    INDEX index_name2 expr2 TYPE type2(...) GRANULARITY value2
) ENGINE = MergeTree()
ORDER BY expr
[PARTITION BY expr]
[PRIMARY KEY expr]
[SAMPLE BY expr]
[TTL expr [DELETE|TO DISK 'xxx'|TO VOLUME 'xxx'], ...]
[SETTINGS name=value, ...]

2、关键属性说明
[partition by expr] : 分区键，分区键可以指定一个或多个字段，若不指定分区键时默认为其生成一个名为all的分区。[选填]

[order by expr] : 排序键，指定一个数据段内的数据排序规则。默认情况下主键与排序键相同。排序键可以是一个或多个字段。[必填]

[primary key expr] : 主键，若设置表primary key，表数据会按照主键字段生成一级索引；若无显式执行primary key,则使用order by字段作为主键排序。MergeTree主键允许重复数据。[选填]

[sample by expr] : 抽样表达式，声明使用何种方式进行抽样采集。[选填]

上面的这些属性，只有Order by是必填的。

下面是一个具体的例子：

CREATE TABLE local.metrics
(
    `tt` DateTime,
    `tags` Map(String, String),
    `metric` String,
    `value` Float64,
    `str_value` String
)
ENGINE = MergeTree
PARTITION BY toYYYYMMDD(tt)
ORDER BY (metric, tt)
SETTINGS index_granularity = 8192

2 MergeTree物理存储结构

1、Clickhouse中，一个MergeTree引擎表，由一个或多个分区（partition）组成。如果建表时没有制定分区条件，则所有的数据都位于同一个分区。

2、每一个分区，由1个或多个part组成。每一个part，对应clickhouse数据目录中的一个目录，该目录下存储了part对应的数据。

3、part是clickhouse数据存储、数据复制、数据合并的基本单位。每次insert数据，会写入到单独的part中。

4、part的数据一旦写入，就不会发生变化。只有在数据合并时，才会将被合并的part设置为inactive，等后台进程清理。

5、数据合并时，会对同一个分区（partition）中的part进行合并。不同分区的数据不会合并到一起。

我们可以通过system库中的parts表查看part信息。

ck01 :) select * from system.parts where table='metrics'\G

SELECT *
FROM system.parts
WHERE table = 'metrics'

Query id: 2948f29c-1f23-4f5e-b9a5-ac6006ce5383

Row 1:
──────
partition:                             20221129
name:                                  20221129_1_4_2
uuid:                                  00000000-0000-0000-0000-000000000000
part_type:                             Compact
active:                                1
marks:                                 2
rows:                                  3
bytes_on_disk:                         412
data_compressed_bytes:                 203
data_uncompressed_bytes:               92
marks_bytes:                           176
min_block_number:                      1
max_block_number:                      4
level:                                 2
data_version:                          1
primary_key_bytes_in_memory:           36
primary_key_bytes_in_memory_allocated: 8256
is_frozen:                             0
database:                              local
table:                                 metrics
engine:                                MergeTree
disk_name:                             default
path:                                  /data/clickhouse/clickhouse/store/def/def88518-fd7b-418d-a7dd-6564e38bba39/20221129_1_4_2/
...