【数仓建设系列之五】数仓选型架构概览

news2026/2/14 21:27:21

【数仓建设系列之五】实时数仓选型架构概览

离线数仓（Offline Data Warehouse）和实时数仓（Real-time Data Warehouse）是数仓领域两种常见的数据存储和处理架构，它们在数据处理的方式、目标和时间性上有所不同，本文将重点介绍目前主流实时数仓架构设计。

一、离线和实时数仓区别

1.离线数仓：

离线数仓是一种用于存储和处理大规模历史数据的架构。它的目标主要是支持复杂分析和数据挖掘任务，通常以批处理的方式进行数据处理。离线数仓的主要特点包括以下几点：

1.1 数据积累和历史分析

离线数仓主要用于存储历史数据，这些数据可以是从多个源头采集而来，经过ETL（清洗、转换和加载）后存储在数仓中，这些数据被用于支持复杂的数据分析、业务报表和决策支持，数据延迟基本都是T+1形式。

1.2 周期性批处理

离线数仓中的数据主要是按照批处理的方式，通过一定时间周期（如每日、每周）去加载和处理。

1.3 复杂查询和分析

离线数仓可以连接不同的数据集，也可以跨多个维度执行聚合，排序等操作。通过复杂的查询和分析，可以展示出历史数据的变化趋势和价值数据的提取等。

2.实时数仓：

实时数仓是一种用于存储和处理实时数据流的架构。它的主要目标是支持快速的实时数据分析、监控和反馈。实时数仓的特点包括：

2.1 实时数据流处理

实时数仓通过数据流式处理技术，可以实时地处理来自各种源头的数据流，允许数据在进入系统后立即被处理和分析。这些数据可以是日志数据、业务交易数据和传感数据等。

2.2 低延迟处理

实时数仓更加注重数据处理的低延迟性，在确保数据进入系统后，希望以很快的速度对数据进行分析处理。

2.3 快速查询和分析

通过这种低延迟的方式对数据进行快速处理和分析，使得用户能够及时地探索数据，发现实时趋势和异常。

离线数仓和实时数仓在功能定位和使用场景上有较大区别，选择使用哪种架构取决于业务需求、数据的时效性要求和技术架构的能力等。接下来，主要介绍一下主流实时数仓建设方案。

二、主流实时数仓架构选型

1.Kappa架构：

Kappa架构是大数据领域以流处理为主的主流实时数据分析架构之一，主要包含三部分：批处理层、流处理层和服务层，其核心思想是将数据分为冷热数据两类，冷数据走批处理层，热数据层走流处理层，但只使用一个数据处理管道来处理所有数据流。
在这里插入图片描述

冷数据（历史数据）通过Datax，Sqoop，FlinkCDC等离线手段同步至Kafka中；
热数据（增量数据）通过Flume，Canal，FlinkCDC，Debezium等实时手段同步至Kafka中；
通过计算引擎（Flink ,Spark）处理计算结果；
将计算结果存储至数仓，供数据服务，BI展示等；

优势：

适用于大规模、复杂的数据处理任务，具有高扩展性、高容错性和高性能等优点。
优化了Lambda架构，不需要将流批处理逻辑分离；

缺点：

数仓中只存储了处理计算后的结果，数据溯源难度大；
对集群计算资源要求高；

2.基于Kafka构建实时数仓

利用Kafka构建实时数仓也是目前业界比较流行的实时数仓架构之一。主要特点是在Kafka中进行数仓分层设计，所有数据都在Kafka的不同topic之间流转。
在这里插入图片描述

不同数据源的数据通过采集工具采集至Kafka，形成一个ODS层的topic；
通过计算引擎(Flink或者Spark)不断消费底层topic，将计算结果存储至紧邻的上层topic中；
将形成的ADS层数据推送或存储至外部存储，供分析同学使用；
（建议）将每层数据结果都实时同步到外部数仓中；

优势：

时效性高，能够快速不分析出数据的变化趋势，满足实时要求；
符合数仓基本建设规范，分层明确，数据结构清晰；

劣势：

Kafka自身定位是一个缓冲管道，基于Kafka构建实时数仓不太符合规范；
Kafka日志数据都具有一定时效性，数据可能会丢失；
当数据量过大时，数据溯源难度成几何增长；
需要较多的计算资源；

3.基于数据湖构建实时数仓

数据湖是一种存储架构，它使用分布式文件系统（如Hadoop HDFS）或对象存储（如Amazon S3）来存储各种类型和格式的原始数据，无论是结构化、半结构化还是非结构化数据。它支持存储大量的原始数据，无需事先定义数据模型或架构，这使得数据湖成为一个集中存储所有类型数据的地方。利用数据湖构建实时数仓和利用Kafka构建基本逻辑是一致的，只不过是数据存储介质发生了一些区别。
在这里插入图片描述

优势：

灵活性高，可以根据自己需求选定存储介质和计算引擎；
符合数仓基本建设规范，分层明确，数据结构清晰；
真正实现了流批一体计算；
数据湖产品多（iceberg,hudi,paimon,kudu），可以有多种选择方案;

劣势：

在处理大规模数据时需要大量的存储和计算资源；
构建和管理数据湖需要一系列不同的技术和工具，需要具备相应的技术能力和知识；

4.基于Doris构建实时数仓

Apache Doris 是一个基于 MPP 架构的高性能、实时的分析型数据库，仅需亚秒级响应时间即可返回海量数据下的查询结果，不仅可以支持高并发的点查询场景，也能支持高吞吐的复杂分析场景。Apache Doris 能够较好的满足报表分析、即席查询、统一数仓构建、数据湖联邦查询加速等使用场景，用户可以在此之上构建用户行为分析、AB 实验平台、日志检索分析、用户画像分析、订单分析等应用。

在这里插入图片描述