前言

本文隶属于专栏《大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！

本专栏目录结构和参考文献请见大数据技术体系

概述

在这里插入图片描述

Apache Druid 是一个实时分析型数据库，旨在对大型数据集进行快速的查询分析（OLAP 查询）。

Druid 最常被当作数据库用以支持摄取、高性能查询和高稳定运行的应用场景，通过 Druid 也常用作为 GUI 分析应用程序提供动力的数据存储，或者用作需要快速聚合的高并发 API 的后端。

Druid 最适合应用于面向事件类型的数据。

应用领域

Druid 常见的应用领城包括：

点击流分析（网络和移动分析）。
网络遥测分析（网络性能监控）。
服务器指标存储。
供应链分析（制造指标）。
应用程序性能指标。
数字营销/广告分析。
商业智能 /OLAP。

主要特征

Druid 的核心架构吸收和结合了数据仓库、时序数据库以及检索系统的优势，其主要特征如下：

列式存储：Druid 使用列式存销，这意味着在一个特定的数据套询中它只需要查询特定的列，这样极大地提高了部分列查询场景的性能。另外，每一列数据都针对特定数据类型做了优化存储，从而支持快速的扫描和聚合。
可扩展的分布式系统：Druid 通常以集群形式对外提供服务，集群规模可达数十甚至数百台，并且可以提供每秒数百万条记录的接收速率、数万亿条记录的保留存储以及亚秒级到几秒的查询延迟。
大规模并行处理：Druid 可以在集群中并行处理查询。
实时或批量摄取：Druid 可以实时（已经被摄取的数据立即可查）或批量摄取数据。
自修复、自平衡、易于操作：伸缩集群只需添加或删除服务，集群就会在后台自动重新平衡数据，而不会造成任何停机。如果任何一台 Druid 服务器发生故障，系统將自动绕过损坏。Druid 设计为 7 x 24h 全天候运行，不会出于任何原因而导致计划内停机，包括配置更改和软件更新。
不会丢失数据的云原生容错架构：一旦 Druid 摄取了数据，副本就安全地存储在深度存储介质（通常是云存储、HDFS 或共享文件系统）中。即使某个 Druid 服务发生故障，也可以以从深度存储中恢复效据，对于仅影响的少数 Druid 服务的有限故障，副本可确保在系统恢复时仍然可以进行查询。
快速过滤的紫引：Druid 使用由 CONCISE 或 Roaring 压缩的位图索引来创建索引，以支持快速过滤和跨多列搜素。
基于时间的分区：Druid 首先按时间对数据进行分区，另外同时可以根据其他字段进行分区，这意味着基于时间的查询将仅访问与查询时间范围匹配的分区，这将大大提高基于时间的数据的性能。
近似算法：Druid 应用了近似 count-distinct、近似排序以及近似直方图和分位数计算的算法，这些算法占用有限的内存使用量，通常比精确计算要快得多；对于精度要求比速度更重要的场景，Druid还提供了精确 count-distint 和精确排序。
自动汇总聚合：Druid 支持在数据摄取阶段进行数据汇总，这种汇总会部分预先聚合数据，并可以节省大量成本并提高性能。