【基础篇】ClickHouse 表结构设计

news2025/1/14 0:57:21

文章目录

  • 1. ClickHouse 表结构设计
    • 1. 表的创建
      • 与标准SQL的差异
      • 1. 创建普通表
      • 2. 创建物化视图
      • 3. 创建分布式表
    • 2. 表引擎
      • 1. MergeTree:
      • 2. Log:
      • 3. Memory:
      • 4. Distributed:
      • 5. Kafka:
      • 6. MaterializedView:
      • 7. File和URL:
    • 3. MergeTree 家族
      • 3.1. MergeTree:
      • 3.2. ReplacingMergeTree:
      • 3.3. SummingMergeTree:
      • 3.4. AggregatingMergeTree:
      • 3.5. CollapsingMergeTree:
      • 3.6. VersionedCollapsingMergeTree:
    • 4. Log 家族
      • 4.1. TinyLog:
      • 4.2. StripeLog:
      • 4.3. Log:
    • 5. Memory 和 File 家族
      • 5.1. Memory:
      • 5.1.2. File:
    • 6. Null 家族
    • 7. 外部数据表引擎(MySQL, HDFS, URL, etc.)
      • 7.1. MySQL:
      • 7.2. HDFS:
      • 7.3. URL:
    • 8. 分区和分片
      • 8.1. 什么是分区和分片
      • 8.2. 如何设置分区和分片
    • 9. 使用索引
    • 9.1. 什么是ClickHouse表索引
    • 9.2. 如何创建和使用索引:
  • 2. ClickHouse 表结构优化
    • 1. 数据去重
    • 2. 数据排序
    • 3. 数据抽样

在这里插入图片描述

1. ClickHouse 表结构设计

1. 表的创建

在ClickHouse中,创建表的基本语法如下:

CREATE TABLE table_name (
    column1 datatype,
    column2 datatype,
    ...
) ENGINE = engine

其中:

  • table_name 是要创建的表的名称。
  • column1, column2, ... 是表的列的名称,datatype 是各列的数据类型。
  • ENGINE 是表引擎的名称。在ClickHouse中,表引擎决定了数据的存储和索引方式。

例如,以下是一个创建名为users的表的示例,该表有id(整数类型,主键),name(字符串类型),age(整数类型)和country(字符串类型)的列:

CREATE TABLE users (
    id Int32,
    name String,
    age Int32,
    country String
) ENGINE = MergeTree()
ORDER BY id

与标准SQL的差异

虽然 ClickHouse 支持 SQL,但由于它是一个为了解决特定问题(例如,处理大数据和实时分析)而设计的数据库,因此它的 SQL 有一些特殊之处,包括在创建表时:

  1. 表引擎:在创建表的语句中,需要指定表引擎。这是 ClickHouse 的一项独特功能,表引擎决定了数据的存储方式和可用的查询处理。在标准 SQL 中,通常不需要指定表引擎。

  2. 排序顺序:在创建表的语句中,可以指定排序键,它决定了数据在磁盘上的排序顺序。在标准 SQL 中,数据的物理排序通常是不透明的。

  3. 数据类型:ClickHouse 支持一些标准 SQL 中没有的数据类型,例如 ArrayTupleMapUUID等。

  4. 主键和索引:与标准 SQL 不同,ClickHouse 不强调主键的概念,实际上,主键在 ClickHouse 中主要用于数据分区和执行数据采样查询。此外,ClickHouse 支持更灵活和强大的索引类型。

  5. 分区:ClickHouse 支持表分区,允许将数据在物理级别(例如,不同的磁盘或文件系统)上分割为更小、更易于管理的部分。这在标准 SQL 中不常见。

1. 创建普通表

普通表在ClickHouse中是最基础的数据存储结构。创建普通表需要定义列的名称和数据类型,以及使用的表引擎。最常用的表引擎是MergeTree。

创建普通表的SQL语句:

CREATE TABLE test_table (
    id UInt32,
    name String,
    age UInt8
) ENGINE = MergeTree()
ORDER BY id;

此表test_table有三列,分别是id(32位无符号整数)、name(字符串)和age(8位无符号整数)。表引擎是MergeTree,按id进行排序。

2. 创建物化视图

物化视图是一种特殊的表,它保存了基本表查询的结果。与普通视图不同,物化视图的数据是实际存储在磁盘上的,所以查询物化视图通常比查询基表要快。

创建物化视图的SQL语句:

CREATE MATERIALIZED VIEW mv_test_table AS
SELECT
    name,
    avg(age) as avg_age
FROM test_table
GROUP BY name;

此物化视图mv_test_table保存了test_table中每个name的平均age

3. 创建分布式表

分布式表是ClickHouse中的一个特殊表,它可以将数据存储在多个节点上。创建分布式表需要指定集群、数据库、基表和分片键。

创建分布式表的SQL语句:

CREATE TABLE dist_test_table AS test_table
ENGINE = Distributed('test_cluster', '', 'test_table', rand());

此分布式表dist_test_table将数据在名为test_cluster的集群上分配,基表是test_table,使用rand()函数作为分片键,即随机分配数据到各个节点上。

2. 表引擎

1. MergeTree:

说明:MergeTree是ClickHouse的主要表引擎,支持索引和数据分区,适用于大数据计算。

使用场景:适用于大数据分析,如用户行为分析、日志分析等。

示例:

CREATE TABLE example_merge_tree
(
    date Date,
    id UInt32,
    value String
) ENGINE = MergeTree()
PARTITION BY toYYYYMM(date)
ORDER BY (date, id)
SETTINGS index_granularity = 8192;

2. Log:

说明:Log表引擎用于存储日志和其他机器数据。不支持索引和数据分区。

使用场景:适用于小数据量的日志和其他机器数据的存储。

示例:

CREATE TABLE example_log
(
    event_time DateTime,
    event_type String,
    event_data String
) ENGINE = Log;

3. Memory:

说明:Memory表引擎将所有数据存储在RAM中,适用于临时表和小数据量。

使用场景:适用于需要快速访问和计算的小数据量场景。

示例:

CREATE TABLE example_memory
(
    key UInt32,
    value String
) ENGINE = Memory;

4. Distributed:

说明:Distributed表引擎用于在多个节点间分布查询和数据。它自动分发查询和数据到所有节点。

使用场景:适用于需要在多个节点间进行数据分析的分布式场景。

示例:

CREATE TABLE example_distributed
(
    date Date,
    id UInt32,
    value String
) ENGINE = Distributed('my_cluster', 'my_database', 'example_merge_tree', rand());

5. Kafka:

说明:Kafka表引擎用于和Kafka集成,可用于实时数据流处理。

使用场景:适用于实时数据处理,如日志实时处理、实时数据分析等。

示例:

CREATE TABLE example_kafka
(
    event_time DateTime,
    event_type String,
    event_data String
) ENGINE = Kafka()
SETTINGS
    kafka_broker_list = 'localhost:9092',
    kafka_topic_list = 'test_topic',
    kafka_group_name = 'test_group',
    kafka_format = 'JSONEachRow',
    kafka_num_consumers = 2;

6. MaterializedView:

说明:MaterializedView引擎用于预处理数据,可以提高查询性能。

使用场景:适用于需要对大数据进行预处理以提高查询性能的场景。

示例:

CREATE MATERIALIZED VIEW example_mv
ENGINE = AggregatingMergeTree()
PARTITION BY toYYYYMM(date)
ORDER BY (date, id)
AS
SELECT
    date,
    id,
    count() AS count
FROM example_merge_tree
GROUP BY date, id;

7. File和URL:

说明:File和URL表引擎用于对文件进行操作,例如CSV、Parquet等。

使用场景:适用于需要对文件进行操作的场景,如ETL操作、数据导入导出等。

示例:

CREATE TABLE example_file
(
    id UInt32,
    value String
) ENGINE = File(CSV, '/path/to/your/csv_file.csv');

CREATE TABLE example_url
(
    id UInt32,
    value String
) ENGINE = URL('http://example.com/data.csv', CSV);

3. MergeTree 家族

ClickHouse的MergeTree家族引擎是一组支持实时数据更新、查询和数据合并功能的表引擎。这些引擎为大数据场景提供了高性能的解决方案。以下是MergeTree家族的主要成员及其使用场景。
MergeTree家族引擎根据不同的业务场景提供了多种实时数据处理功能,为大数据场景下的实时计算提供了强大的支持。在进行数据建模时,可以根据具体需求选择合适的MergeTree引擎。

3.1. MergeTree:

说明:MergeTree是ClickHouse的基本表引擎,支持索引和数据分区。

使用场景:适用于大数据分析,如用户行为分析、日志分析等。

示例:

CREATE TABLE example_merge_tree
(
    date Date,
    id UInt32,
    value String
) ENGINE = MergeTree()
PARTITION BY toYYYYMM(date)
ORDER BY (date, id)
SETTINGS index_granularity = 8192;

3.2. ReplacingMergeTree:

说明:ReplacingMergeTree用于实时删除重复数据。当合并过程中发现相同的主键数据时,只保留最新的一条记录。

使用场景:适用于需要实时删除重复数据的场景,如实时去重、数据清洗等。

示例:

CREATE TABLE example_replacing_merge_tree
(
    date Date,
    id UInt32,
    value String
) ENGINE = ReplacingMergeTree()
PARTITION BY toYYYYMM(date)
ORDER BY (date, id)
SETTINGS index_granularity = 8192;

3.3. SummingMergeTree:

说明:SummingMergeTree用于实时对数值型字段进行求和。在合并过程中,具有相同主键的记录将被合并为一条记录,并对指定字段求和。

使用场景:适用于需要对数值型字段进行实时求和的场景,如计数器、流量统计等。

示例:

CREATE TABLE example_summing_merge_tree
(
    date Date,
    id UInt32,
    value UInt32
) ENGINE = SummingMergeTree(value)
PARTITION BY toYYYYMM(date)
ORDER BY (date, id)
SETTINGS index_granularity = 8192;

3.4. AggregatingMergeTree:

说明:AggregatingMergeTree用于实时对数据进行聚合。在合并过程中,具有相同主键的记录将被聚合为一条记录,根据指定的聚合函数进行计算。

使用场景:适用于需要实时聚合数据的场景,如统计、报表等。

示例:

CREATE TABLE example_aggregating_merge_tree
(
    date Date,
    id UInt32,
    value UInt32,
    countState AggregateFunction(count)
) ENGINE = AggregatingMergeTree()
PARTITION BY toYYYYMM(date)
ORDER BY (date, id)
SETTINGS index_granularity = 8192;

3.5. CollapsingMergeTree:

说明:CollapsingMergeTree用于实时删除重复数据。不同于ReplacingMergeTree,它使用一个名为Sign的列来表示记录的状态(1表示插入,-1表示删除)。在合并过程中,符号相反且其他列相同的记录会被抵消。

使用场景:适用于需要实时删除重复数据的场景,如数据同步、状态更新等。

示例:

CREATE TABLE example_collapsing_merge_tree
(
    date Date,
    id UInt32,
    value String,
    sign Int8
) ENGINE = CollapsingMergeTree(sign)
PARTITION BY toYYYYMM(date)
ORDER BY (date, id)
SETTINGS index_granularity = 8192;

3.6. VersionedCollapsingMergeTree:

说明:VersionedCollapsingMergeTree与CollapsingMergeTree类似,但它还使用一个名为Version的列来表示记录的版本。在合并过程中,版本较新的记录会覆盖版本较旧的记录。

使用场景:适用于需要实时删除重复数据并支持版本控制的场景,如数据历史记录、状态更新等。

示例:

CREATE TABLE example_versioned_collapsing_merge_tree
(
    date Date,
    id UInt32,
    value String,
    sign Int8,
    version UInt32
) ENGINE = VersionedCollapsingMergeTree(sign, version)
PARTITION BY toYYYYMM(date)
ORDER BY (date, id)
SETTINGS index_granularity = 8192;

4. Log 家族

ClickHouse的Log家族引擎是一组专门用于大数据日志处理的表引擎。这些引擎能够快速地处理大量日志数据,并以极高的性能对其进行查询。以下是Log家族的主要成员及其使用场景。

4.1. TinyLog:

说明:TinyLog是一种非常简单的引擎,它将所有列保存在一个文件中。不支持索引,所以查询速度较慢,但是插入速度快。

使用场景:适用于小型数据集和日志记录。

示例:

CREATE TABLE example_tinylog
(
    date Date,
    id UInt32,
    value String
) ENGINE = TinyLog;

4.2. StripeLog:

说明:StripeLog在存储结构上类似于TinyLog,但是数据分为几个部分(stripes)进行存储,每个stripe对应一个块(block)。不支持索引。

使用场景:适用于较大的日志记录。

示例:

CREATE TABLE example_stripelog
(
    date Date,
    id UInt32,
    value String
) ENGINE = StripeLog;

4.3. Log:

说明:Log是一种简单的引擎,它把每一列的数据分别存储在不同的文件中。不支持索引,适用于大量的日志数据。

使用场景:适合大量的日志记录和流数据。

示例:

CREATE TABLE example_log
(
    date Date,
    id UInt32,
    value String
) ENGINE = Log;

总结:Log家族引擎特别适合处理大量的日志数据,能够以极高的效率插入和查询数据。但是由于这些引擎不支持索引,所以查询性能会比MergeTree家族的引擎要差一些。在进行数据建模时,可以根据数据量和查询需求选择合适的Log引擎。

5. Memory 和 File 家族

ClickHouse中的Memory和File家族引擎分别用于在内存和文件系统中存储数据。以下是Memory和File家族的主要成员及其使用场景。

5.1. Memory:

说明:Memory引擎将所有数据存储在内存中。它支持实时查询,并且具有极高的查询速度。但是,由于它将所有数据保存在内存中,因此在服务器重启或崩溃时,数据会丢失。

使用场景:适用于需要快速查询的小型数据集,如缓存、临时表或实时分析。

示例:

CREATE TABLE example_memory
(
    date Date,
    id UInt32,
    value String
) ENGINE = Memory;

5.1.2. File:

说明:File引擎将数据保存在服务器的文件系统中。它支持将数据存储为各种文件格式(如CSV、Parquet、JSON等)。File引擎不支持索引,因此查询速度较慢。

使用场景:适用于需要将数据以特定文件格式存储的场景,如ETL操作、数据备份或离线分析。

示例:

CREATE TABLE example_file
(
    date Date,
    id UInt32,
    value String
) ENGINE = File(CSV);

总结:Memory和File家族引擎分别用于内存和文件系统中的数据存储。Memory引擎具有非常高的查询速度,适用于实时查询,但数据在服务器重启或崩溃时会丢失。File引擎适用于需要将数据存储为特定文件格式的场景,但查询速度较慢。在进行数据建模时,可以根据数据存储需求和查询需求选择合适的Memory或File引擎。

6. Null 家族

Null家族是ClickHouse中的一个特殊的表引擎家族,它基本上不会执行任何操作或存储任何数据。以下是Null家族的主要成员及其使用场景:

  1. Null:

说明:Null引擎不保存数据,并且不对数据进行任何操作。当你往这个表里面插入数据时,数据会被直接丢弃。对于从这个表中的查询,它总是返回一个空结果。

使用场景:Null引擎主要用于调试或测试,例如,你可能想要测试插入或查询的性能,而不实际保存任何数据。另一个常见用例是作为一个"黑洞"表,用来快速丢弃不需要的数据。

示例:

CREATE TABLE example_null
(
    date Date,
    id UInt32,
    value String
) ENGINE = Null;

总结:Null家族引擎基本上不执行任何操作,也不保存任何数据。尽管Null引擎在生产环境中的应用可能有限,但在调试和测试中可能很有用。

7. 外部数据表引擎(MySQL, HDFS, URL, etc.)

ClickHouse支持外部数据表引擎,这些引擎可以让你以类似于操作本地表的方式访问外部数据源。以下是一些常见的外部数据表引擎及其特点:

7.1. MySQL:

说明:MySQL表引擎允许你将MySQL数据库中的数据表作为ClickHouse本地表进行操作。这使得你可以方便地在ClickHouse中查询MySQL表数据。

使用场景:当你需要在ClickHouse中查询MySQL中的数据时,MySQL表引擎非常有用。

示例:

CREATE TABLE mysql_table
(
    id UInt32,
    name String,
    age UInt8
) ENGINE = MySQL('host:port', 'database_name', 'table_name', 'user', 'password');

7.2. HDFS:

说明:HDFS表引擎可以让你将Hadoop分布式文件系统(HDFS)中的数据表作为ClickHouse本地表进行操作。它支持各种文件格式,如Parquet、ORC、Avro等。

使用场景:当你需要在ClickHouse中查询HDFS中的数据时,HDFS表引擎非常有用。

示例:

CREATE TABLE hdfs_table
(
    id UInt32,
    name String,
    age UInt8
) ENGINE = HDFS('hdfs://host:port/path/to/data/file.parquet', 'Parquet');

7.3. URL:

说明:URL表引擎可以让你将远程文件(通过HTTP或HTTPS访问)作为ClickHouse本地表进行操作。它支持各种文件格式,如CSV、TSV、JSON等。

使用场景:当你需要在ClickHouse中查询远程文件中的数据时,URL表引擎非常有用。

示例:

CREATE TABLE url_table
(
    id UInt32,
    name String,
    age UInt8
) ENGINE = URL('https://example.com/data.csv', 'CSV', 'id UInt32, name String, age UInt8');

总结:外部数据表引擎可以让你方便地访问外部数据源,如MySQL、HDFS或URL等。这使得在ClickHouse中整合和查询多种数据源变得简单。

8. 分区和分片

分区和分片是在数据库中进行数据管理的两种常见技术,它们在ClickHouse中也有所应用。

  1. 分区 (Partitioning):
    • 分区是一种将数据表分解成更小、更易于管理的部分的技术。在ClickHouse中,你可以基于一个或多个列的值将表分区。每个分区可以单独进行操作,例如删除或合并。
    • 在创建表时,可以使用PARTITION BY子句定义分区键。例如,如果你有一个包含用户活动记录的表,你可能希望根据时间将数据分区,这样就可以轻松地删除旧的数据。

示例:

CREATE TABLE events
(
    date Date,
    event_id UInt32,
    user_id UInt32,
    ...
) ENGINE = MergeTree()
PARTITION BY toYYYYMM(date)
ORDER BY (date, event_id, user_id);
  1. 分片 (Sharding):
    • 分片是一种将数据分散到多个服务器的技术,以便有助于提高性能和可扩展性。在ClickHouse中,你可以使用分布式表引擎来实现分片。
    • 在创建分布式表时,你需要指定一个集群配置,以及要分片的本地表和分片键。然后ClickHouse会自动将数据分布到集群中的各个节点。

示例:

CREATE TABLE events_distributed
(
    date Date,
    event_id UInt32,
    user_id UInt32,
    ...
) ENGINE = Distributed('my_cluster', 'my_database', 'events', event_id);

在这个例子中,数据将根据event_id的值被均匀地分布到名为my_cluster的集群中的各个节点。

总的来说,分区和分片都是用来管理大量数据的有效方式。分区可以帮助提高查询性能并简化数据管理,而分片可以提供更高的查询并发性并增加数据存储容量。

8.1. 什么是分区和分片

ClickHouse是一种面向列的数据库管理系统(DBMS),用于在线分析处理(OLAP)。

在ClickHouse中,我们也可以看到分区和分片的概念。

  1. 分区(Partitioning):

    • 在ClickHouse中,分区是最大的数据组织单位。每个分区都包含表的一部分数据。你可以为每个月、每天或任何其他适合的时间段设置分区。
    • ClickHouse允许按照自定义表达式(通常是日期或时间)进行表分区。这样可以优化数据处理和查询,以及进行数据清理操作,例如,你可以删除整个分区来删除旧的数据。
  2. 分片(Sharding):

    • 分片在ClickHouse中是非常重要的概念。分片是为了在多台服务器上水平扩展ClickHouse集群,以增加处理能力和存储容量。
    • 数据在分片之间分布。当执行查询时,查询将并行发送到所有分片,各个分片独立处理其上的数据,然后返回结果,由协调者结合这些结果并返回最终结果。
    • 你可以配置任意数量的分片,每个分片可以有一个或多个副本。副本用于提供数据冗余和容错。

在ClickHouse中,分区和分片都是为了提供高效的数据处理和查询,以及高可用性和容错性。

8.2. 如何设置分区和分片

在ClickHouse中设置分区和分片需要在创建表时定义相应的参数。以下是如何设置分区和分片的详细说明和示例:
设置分区和分片主要涉及到PARTITION BY子句和Distributed引擎。首先,我们需要在创建表时设置分区键。然后,创建集群配置以及相应的本地表和分布式表,以实现数据分片。

  1. 设置分区:
    分区是通过在CREATE TABLE语句的PARTITION BY子句中指定分区键来实现的。分区键可以是一个表达式,通常是日期或时间字段。

示例:创建一个按月分区的表。

CREATE TABLE example_partitioned_table
(
    event_time DateTime,
    user_id Int32,
    event_type String,
    revenue Float64
) ENGINE = MergeTree()
PARTITION BY toYYYYMM(event_time)
ORDER BY (user_id, event_time);

在这个例子中,我们创建了一个名为example_partitioned_table的表,它包含四个字段:event_timeuser_idevent_typerevenue。表使用MergeTree引擎,并通过PARTITION BY toYYYYMM(event_time)按月进行分区。

  1. 设置分片:
    在设置分片时,我们需要首先创建一个集群配置,然后使用Distributed引擎创建分布式表。以下是创建分片的步骤:

步骤1:创建集群配置

config.xml文件中,添加集群配置,如下所示:

<remote_servers>
    <example_cluster>
        <shard>
            <replica>
                <host>example-host-01</host>
                <port>9000</port>
            </replica>
        </shard>
        <shard>
            <replica>
                <host>example-host-02</host>
                <port>9000</port>
            </replica>
        </shard>
    </example_cluster>
</remote_servers>

在这个例子中,我们创建了一个包含两个分片的集群配置,名为example_cluster。每个分片只有一个副本,对应于example-host-01example-host-02

步骤2:创建本地表

在每个分片上创建本地表。这个本地表结构与之前的例子相同,但增加了example_shard后缀。

CREATE TABLE example_local_table_example_shard
(
    event_time DateTime,
    user_id Int32,
    event_type String,
    revenue Float64
) ENGINE = MergeTree()
PARTITION BY toYYYYMM(event_time)
ORDER BY (user_id, event_time);

步骤3:创建分布式表

在每个分片上创建分布式表,使用Distributed引擎,并引用之前创建的集群配置和本地表。

CREATE TABLE example_distributed_table
(
    event_time DateTime,
    user_id Int32,
    event_type String,
    revenue Float64
) ENGINE = Distributed(example_cluster, currentDatabase(), example_local_table_example_shard);

现在,我们可以将数据插入到example_distributed_table中,数据会自动分布到不同的分片上。查询也会自动在所有分片上执行并汇总结果。

9. 使用索引

9.1. 什么是ClickHouse表索引

在数据库中,索引是一种数据结构,可以帮助快速查询、更新数据库表中的数据。索引可以根据定义所基于的表达式来创建,这个表达式通常是由一个或多个列的值组成的。在ClickHouse中,有两种主要的索引类型:主键索引和辅助索引。

  1. 主键索引:主键索引是在创建表时通过ORDER BY子句定义的。主键索引通常用于加速基于主键列的查询。当查询涉及到主键列时,ClickHouse将自动使用主键索引优化查询速度。主键索引要求行的键值唯一,这意味着在表中不能有具有相同键值的两行。

  2. 辅助索引:辅助索引是用于加速非主键列的查询操作。辅助索引需要使用特定的表引擎(如MergeTree系列引擎)并在该表引擎的参数中指定。与主键索引不同,辅助索引不要求行的键值唯一。辅助索引可以使用不同类型的索引,比如minmaxsetngrambf_v1等,这些索引类型对应不同的查询优化场景。

  1. minmax(最小最大)索引:这种索引类型存储每个数据块的最小值和最大值。当进行范围查询时,若查询范围与数据块的最小最大值不相交,则可以跳过这个数据块,从而加速查询。minmax索引适用于范围查询优化,如WHERE子句中的BETWEEN、>、<等操作。

  2. set(集合)索引:这种索引类型存储每个数据块的一个值集合。当查询某个特定值时,若该值不在数据块的值集合中,则可以跳过这个数据块。set索引适用于等值查询优化,如WHERE子句中的IN、=等操作。

  3. ngrambf_v1(N-gram布隆过滤器)索引:这种索引类型使用布隆过滤器存储每个数据块的N-gram值。当查询包含子字符串的字符串时,若子字符串的N-gram值不在数据块的布隆过滤器中,则可以跳过这个数据块。ngrambf_v1索引适用于模糊字符串匹配查询优化,如WHERE子句中的LIKE、ILIKE等操作。

9.2. 如何创建和使用索引:

在ClickHouse中,创建索引需要在定义表的时候指定。主键索引是通过ORDER BY子句在CREATE TABLE语句中定义的。辅助索引则需要使用特定的表引擎(如MergeTree系列引擎)并在该表引擎的参数中指定。

以下是创建和使用索引的示例:

  1. 创建主键索引:
CREATE TABLE example_table
(
    event_date Date,
    event_id Int32,
    revenue Float64
) ENGINE = MergeTree()
ORDER BY (event_date, event_id);

在这个例子中,我们创建了一个名为example_table的表,它有三个字段:event_dateevent_idrevenue。然后,我们通过ORDER BY (event_date, event_id)定义了一个主键索引,基于event_dateevent_id两个列。

  1. 创建辅助索引:
CREATE TABLE example_table
(
    event_date Date,
    event_id Int32,
    revenue Float64,
    INDEX revenue_index revenue TYPE minmax GRANULARITY 1
) ENGINE = MergeTree()
ORDER BY (event_date, event_id);

在这个例子中,我们在前一个例子的基础上增加了一个辅助索引revenue_index。这个索引基于revenue列,索引类型是minmax,粒度是1。

使用索引:

在执行查询时,ClickHouse会自动使用索引,以加速数据查询。例如,以下查询会利用前面定义的主键索引:

SELECT *
FROM example_table
WHERE event_date >= '2020-01-01'
AND event_id = 123;

在这个查询中,ClickHouse会利用主键索引,首先通过event_date快速找到满足条件的数据部分,然后在这个范围内通过event_id找到满足条件的数据行。

2. ClickHouse 表结构优化

在ClickHouse中,通过设计合理的表结构可以对数据查询进行优化。以下是一些常见的优化方法:

1. 数据去重

在创建表的时候,可以选择使用ReplacingMergeTree或CollapsingMergeTree引擎,它们可以自动进行数据去重。这在有大量重复数据,或者需要统计唯一值的场景下,可以大大提高查询效率。
使用ReplacingMergeTree引擎

CREATE TABLE example_replacing (
    id UInt32,
    name String,
    age UInt32,
    created_at DateTime
) ENGINE = ReplacingMergeTree()
ORDER BY (id)

这个示例使用了ReplacingMergeTree引擎,它会根据排序键(id)对数据进行去重。

2. 数据排序

在创建表的时候,可以通过ORDER BY子句指定数据的排序键。ClickHouse会根据排序键对数据进行预排序,这样在处理范围查询或排序查询时,可以更快地获取到结果。
:通过ORDER BY子句指定数据的排序键。

CREATE TABLE example_sorting (
    id UInt32,
    name String,
    age UInt32,
    created_at DateTime
) ENGINE = MergeTree()
ORDER BY (created_at, id)

这个示例根据created_at和id对数据进行排序。在进行范围查询或排序查询时,可以更快地获取结果。

3. 数据抽样

在创建表的时候,可以通过SAMPLE BY子句指定数据的抽样键。ClickHouse会根据抽样键对数据进行抽样存储,这样在处理大规模数据的统计查询时,可以通过抽样查询来快速获取近似结果。
:通过SAMPLE BY子句指定数据的抽样键。

CREATE TABLE example_sampling (
    id UInt32,
    name String,
    age UInt32,
    created_at DateTime,
    sampling_key UInt32
) ENGINE = MergeTree()
ORDER BY (created_at, id)
SAMPLE BY sampling_key

这个示例使用了sampling_key作为抽样键。在处理大规模数据的统计查询时,可以通过抽样查询来快速获取近似结果。

例如,要查询某个时间段内的平均年龄,可以使用带有SAMPLE子句的抽样查询:

SELECT avg(age)
FROM example_sampling
WHERE created_at >= '2021-01-01' AND created_at < '2021-02-01'
SAMPLE 0.1

这个查询只会处理大约10%的数据,但可以在短时间内获得近似的结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1016694.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Nacos单机启动的两种方式

说明&#xff1a;直接双击nacos的启动脚本&#xff0c;默认是集群&#xff08;cluster&#xff09;的方式&#xff1b; 需要单机启动&#xff0c;有以下两种方式&#xff1b; 方式一&#xff1a;命令行 在当前目录打开命令窗口&#xff0c;输入以下命令启动nacos startup.…

jdk1.8堆内存学习

jdk1.8堆内存启动时控制参数图解 堆大小年轻代&#xff08;Young Generation&#xff09;年老代&#xff08;Old Generation&#xff09; GC相关 -Xnoclassgc&#xff1a;关闭JVM垃圾回收功能 -XX:UseSerialGC&#xff1a;使用Serial垃圾收集器&#xff0c;单线程串型收集器&…

Linux安装包 | Git使用 | NFC搭建

dpgt使用 当谈到基于 Debian 的操作系统中的软件包管理工具时&#xff0c;dpkg 是一个重要的工具。它是 Debian 系统中用于安装、升级、配置和卸载软件包的命令行工具。以下是对 dpkg 的详细介绍&#xff1a; 软件包管理&#xff1a;dpkg 可以管理系统中的软件包。它可以安装单…

Acwing 829. 模拟队列

Acwing 829. 模拟队列 题目描述思路讲解代码展示 题目描述 思路讲解 队列是先进先出&#xff0c;类比排队买饭 代码展示 #include <iostream>using namespace std;const int N 100010;int m; int q[N], hh, tt -1;int main() {cin >> m;while (m -- ){string …

ArmSoM-W3之RK3588 Debian11详解

1. 简介 RK3588从入门到精通Debian 是⼀种完全⾃由开放并⼴泛⽤于各种设备的 Linux 操作系统。Rockchip在官⽅Debian发⾏版的基础上构建和适配了相关硬件功能 2. 环境介绍 硬件环境&#xff1a; ArmSoM-W3 RK3588开发板 软件版本&#xff1a; OS&#xff1a;ArmSoM-W3 Debia…

服务器中了DevicData勒索病毒怎么办?勒索病毒解密,数据恢复

近日&#xff0c;云天数据恢复中心收到许多中了勒索病毒的用户求助。其中有多位用户中的都是同一种勒索病毒&#xff0c;它就是DevicData勒索病毒。那接下来我们就从它的特征、处理方案以及后续维护三个方面来了解一下这种勒索病毒。 一、DevicData勒索病毒的特征 加密文件&am…

VSCode 远程开发,再也不用带电脑回家了~

VS Code几乎是所有的程序员必备的工具之一&#xff0c;据说全球一般的开发者都使用过VS Code这款工具。 今天为大家介绍一下 VS Code 实现远程办公的方法。 1、概 述 通常&#xff0c;我们都是每天到工作的办公室进行办公&#xff0c;但是&#xff0c;如果下班回家&…

【多线程案例】定时器

1. 定时器是什么&#xff1f; 定时器也是软件开发中的一个重要组件. 类似于一个 "闹钟". 达到一个设定的时间之后, 就执行某个指定好的代码. 定时器是一种实际开发中非常常用的组件. 比如网络通信中, 如果对方 500ms 内没有返回数据, 则断开连接尝试重连. 比如一个 …

【Markdown】图片缩放

▚ 01 原图表示 语法为&#xff1a; ![替代文本](图片链接地址)其中&#xff0c;替代文本是在无法显示图片时显示的替代文本&#xff0c;而图片链接是指向图片的URL或相对路径。 例如&#xff0c;插入Panda图片&#xff1a; ![panda](https://img-blog.csdnimg.cn/e5f3…

李开复:我家的AI是坠吼的

创新工场董事长、鸿海独立董事李开复&#xff0c;近日出席鸿海股东会暨媒体记者会时表示&#xff0c;人工智能&#xff08;AI&#xff09;是人类史上即将面临的最伟大技术革命&#xff0c;未来十年的改变将改写人类历史、重构所有产业&#xff0c;其发展大致可分三阶段&#xf…

uniapp风险等级(三级)

代码 ​ <template><view><view class"riskGrade"><label>风险等级: </label><span v-if"flag 0 || flag 1 || 2" class"item":style"[{background:flag0?color:flag1?color:flag2?color:}]"…

快速排序和归并排序的非递归形式

快速排序和归并排序都需要用递归的形式展开&#xff0c;那么有没有什么方法不需要递归就能实现归并和快速排序&#xff0c;有的&#xff01; 1.快速排序 我们可以借助栈来模拟递归。 递归的主要思想就是大事化小&#xff0c;小事化了。我们借助栈的 目的是将需要排序的“头” 和…

面试题:有了 for 循环 为什么还要 forEach ?

文章目录 **本质区别****for循环和forEach的语法区别****for循环和forEach的性能区别** js中那么多循环&#xff0c;for for…in for…of forEach&#xff0c;有些循环感觉上是大同小异今天我们讨论下for循环和forEach的差异。我们从几个维度展开讨论&#xff1a; for循环和fo…

RJ45网络信号浪涌保护器解决方案

RJ45网络信号浪涌保护器是一种用于保护网络设备免受雷击或其他高压电流干扰的装置&#xff0c;它可以有效地吸收和释放信号线路上的过电压&#xff0c;从而避免设备损坏或数据丢失。 RJ45信号浪涌保护器的应用领域和施工方案如下&#xff1a; 地凯科技RJ45网络信号浪涌保护器…

合肥综合性国家科学中心人工智能研究院-机器学习作业(一)

1.试析min-max规范化和z-score规范化的优缺点 可参考博客&#xff1a;https://wenku.csdn.net/answer/fdbf30eb204644e5b69fc533a3757268 2.试分析损失函数与性能度量的关系 损失函数和性能度量之间的关系可以根据优化目标来理解。损失函数的优化目标是最小化预测值与实际值之…

laravel框架 - 开发实战(目录结构,路由,控制器,模型,视图)

一、laravel框架的目录结构 app:应用目录&#xff0c;保存项目中的控制器、模型等 bootstrap:保存框架启动的相关文件 config:配置文件目录 database:数据库迁移文件和数据填充文件 public:应用入口文件index.php和前端资源文件&#xff08;如CSS、JavaScript等&#xff09…

都2023年了你还不学ts (一)

TypeScript基础语法入门 TypeScript究竟是什么&#xff1f; 他主要就是想把JavaScript里面不完美的一些语法来进行一个提升 就像官网中所说的 TypeScript is JavaScript with syntax for types. 例如我们看下面的这段代码 if ("" 0) {console.log(hello) }在Jav…

VS新功能:智能添加函数标记

今天&#xff0c;我们官宣 Visual Studio 预览版的两项新功能&#xff1a; 1) 标记类成员函数为 const。 2) 标记全局函数为 static。 标记类成员函数为 const 如果一个类成员函数不会修改对象的状态&#xff0c;则 Visual Studio 会给出建议&#xff0c;将这个函数标记为 c…

Python统计pdf中英文单词的个数

之前的文章提供了批量识别pdf中英文的方法,详见【python爬虫】批量识别pdf中的英文,自动翻译成中文上。以及自动pdf英文转中文文档,详见【python爬虫】批量识别pdf中的英文,自动翻译成中文下。    本文实现python统计pdf中英文字符的个数。 文章目录 一、要统计字符的pdf…

JDK14特性——GC的改进和优化

文章目录 G1的NUMA内存分配优化NUMA介绍目标 弃用SerialCMS,ParNewSerial Old理由 删除CMSCMS弊端其他垃圾收集器 ZGC on macOS and Windows G1的NUMA内存分配优化 NUMA介绍 NUMA就是非统一内存访问架构&#xff08;英语&#xff1a;non-uniform memory access&#xff0c;简…