实时数仓Hologres TPC-H及点查性能开箱测试

实时数仓Hologres是阿里云自研一站式实时数仓引擎，提供统一、实时、弹性、易用的一站式实时数仓引擎，分析性能打破TPC-H世界记录，一份数据可同时支持多维分析（OLAP）、即席分析（Ad Hoc）、点查（Servering）、向量计算等多种场景，替换各类OLAP 引擎(ClickHouse/Doris/Greenplum/Presto/Impala等)、KV 数据库(HBase/Redis等)。本次开箱测试主要通过96CU进行OLAP场景的TPC标准查询测试以及Serving场景会包含例如insert场景、update的场景，如果您也需要测试可以在官网购买59元150000CU时进行测试（1个96CU实例1小时消耗96CU时）

一、Hologres测试流程

OLAP场景通常主要会选用TPC标准查询测试。Serving场景会包含例如insert场景、update的场景，按照主键去进行整行更新、按照进主键去做部分列的更新以及key value的这种点查的性能测试。

Hologres现在仍然是TPCH-30000榜单的全球第一，领先第二名高达23%。OLAP的场景会选用TPCH数据集的数据和SQL进行测试。

最新发布的2.2版本重构了QO和QE，相比之前的1.x的版本性能大约提升100%。1.x的版本约为200秒左右，在2.2的版本约为110秒左右，性能提升非常明显。其中2.2版本也引入了很多优化，包括runtime filter的全场景支持。在支持local的runtime filter、global的runtime filter、HQE的RPC的连接的机制，以及worker内数据先进行合并，再进行worker的分发。包括QO在Plan的生成阶段，处理阶段都有一些新的优化，才能达到现在这个性能的这个效果。

以下为性能测试的流程及说明

1.1 创建实例

Hologres是存储计算分离的架构。存储使用高性能的盘古的DFS的存储，同时支持直读maxcomputer中的数据，实现高性能的透明加速，同时支持冷热数据分离的能力，支持多种的存储格式，包括适合serving场景的行存，以及适合OLAP场景的列存，以及行列共存。计算层使用容器化的部署，Hologres是16CU 1个容器的节点，例如购买实例的时候，32CU是两个节点。扩容为计算资源的扩容。

这是购买实例的界面。那么购买实例的时候，选择这个计算资源的信息，选择网络等信息即可创建实例。如果您也需要测试可以在官网购买59元150000CU时进行测试（1个96CU实例1小时消耗96CU时）

1.2 管控台

创建完毕之后，在实例的管控台上可以找到实例。点击具体的这个实例名称就可以进入实例详情页面。在这个页面上可以看到实现实例所在的可用区，实例的规格，计算资源有多少网络信息。例如比如说VPC的域名是什么.在测试的时候，需要购买一台VPC的ECS，需要从这个VPC的域名去连接实例。同时我们可以在管控台或者云监控里面去查询实例相关的这种监控信息。

1.2.1监控Metrics

每种类型的实例都提供15个以上的这种监控Metrics。其中包括不同引擎的QPS、RPS、latency, 还有binlog、serverless等等的这些运行情况，以便及时的了解例如任务的负载等等的一些情况。同时也提供锁、analyze等等健康度的指标，可以帮助大家快速的观察业务实例的运行状况以及发现异常，以便出现问题可以尽快去处理。

1.3 连接数据库

支持psql等PostgreSQL生态工具连接实例，同时我们提供了多种工具去开发和管理。对于开发的场景、调度的场景，推荐使用DataWorks 中的DataStudio作为开发和运维开发的这种平台。HoloWeb更适合作为运维平台、实例诊断。

1.3.1 创建表

Hologres里面有多种的表的存储格式。Hologres存在两种表，一种叫内表，一种叫外表。

内表

列存表：用于服务OLAP查询场景，默认建表类型
行存表：用于服务Key / Value查询场景、Flink的维度表场景
行列共存表：用于既有点查，又有OLAP查询的场景、非主键点查场景。

外表

外表：MaxCompute外表、OSS外表

建表语句示例

Hologres 从第一天起就支持了主键模型，支持主键的去重以及高性能的这种更新场景。建表时就可以设置主键，同时还支持多种存储格式，支持行存、列存、行列共存等等。可以设置聚簇索引 Clustering key 以及 Segment key 分段的键以及 Distribution key，数据会按照 Distribution key 打散数据变成一个分片。还有Bitmap和字典编码以及数据的生命周期。当然也支持设置表的注释，字段的注释等等。 Hologres是兼容PostgreSQL生态，建表语法与PostgreSQL相同，但是索引与PostgreSQL不同，Hologres支持的索引请参见设置表属性和索引。建表时选择合适的索引，能够使SQL在执行时快速命中数据，减少IO消耗，以更少的计算资源，实现更快的查询性能。下图是一个SQL从发起到获取数据的执行流程，可以通过下图理解每个索引的作用，以方便实际业务中更加方便高效的为表选择合适的索引。