[技术选型] ClickHouse和StarRocks的介绍

news2026/2/13 16:22:44

文章目录

- - 1.ClickHouse介绍
  - 2.StarRocks介绍

1.ClickHouse介绍

ClickHouse是面向联机分析处理（OLAP）的开源分析引擎。最初由俄罗斯第一搜索引擎Yandex开发，于2016年开源，开发语言为C++。由于其优良的查询性能，PB级的数据规模，简单的架构，在国内外公司被广泛采用。

它是列存数据库，具有完备的DBMS功能，备份列式存储和数据压缩。它的MPP架构易于扩展，易于维护。除此之外，它支持向量化的查询，完善的SQL以及实时的数据更新，查询速度可以达到亚秒级的响应。

在这里插入图片描述

那么ClickHouse的查询速度为什么会这么快呢？它类似于LSM tree,所有数据都是经过有序排列，提前做好聚合计算，再存储。并且它的数据存储格式自带索引。

其次，ClickHouse可以基于多个Key创建索引。它的二级索引采用Data skipping index。

在这里插入图片描述

ClickHouse的应用场景主要有四个方面。

第一，用户行为分析。ClickHouse将用户行为分析表制作成一张大的宽表，减少join的形式，实现路径分析、漏斗分析、路径转化等功能。除此之外，它还能支撑广告，营销和AB实验。

第二，实时BI报表。ClickHouse可以根据业务需求，实时制作及时产出，查询灵活的BI报表，包括订单分析，营销效果分析，大促活动分析等等。

第三，监控。ClickHouse可以将系统和应用监控指标通过流式计算引擎Flink,Spark streaming清洗处理以后，实时写入ClickHouse。结合Grafna进行可视化展示。

第四，用户画像。ClickHouse可以对各种用户特征进行数据加工，制作成包含全部用户的一张或多张用户特征表，提供灵活的用户画像分析，支撑广告，圈人等业务需求等等。

在这里插入图片描述

我们在ClickHouse的基础上做了一定的增强。首先，我们重构了In Memory Part写入模块，让它支持Flink单条写入，Flink Exactly Once事务写入以及Sharding Key写入。成功解决了写Distributed表的痛点，提升了整体性能。其次，它还支持DiskOSS。实现了冷热的分层存储，节约了成本。最后，我们实现了副本扩容和分片扩容，让扩容方式变得更灵活。

2.StarRocks介绍

在这里插入图片描述

StarRocks单节点100M/秒的写入速度，让它每秒可处理100亿行数据。StarRocks的综合查询速度比其他产品快10到100倍。数据秒级实时更新可见。其次，StarRocks支持数千用户同时分析，部分场景每秒可支持1万以上的QPS，TP99控制在1秒以内。最后，StarRocks基于多种数据模型，实现了极速分析，缩短业务交付时间。提升了数据工程师和分析师工作效率。

在这里插入图片描述

如上图所示，StarRocks的架构简洁明了，兼容MySQL协议，可使用各类MySQL客户端。并且支持FE、BE的水平扩展，从而实现自动均衡。让运维和使用都非常方便。

在这里插入图片描述

StarRocks的极速引擎，实现了全面向量化执行。它可以按列存储，按列计算。用更少的虚函数调用，更少的分支判断，更好地利用SIMD指令并且对CPU Cache更友好。其次，StarRocks向量化提升的效果明显。向量化Filter，向量化聚合和向量化Shuffle Join的效果都有几何倍数的提升。

在这里插入图片描述