领先一步,效率翻倍:PieCloudDB Database 预聚集特性让查询速度飞起来!

news2024/10/6 6:01:38

在大数据时代,如何有效地管理和处理海量数据成为了企业面临的核心挑战。为此,拓数派推出了首款数据计算引擎 PieCloudDB Database,作为一款全新的云原生虚拟数仓,旨在提供更高效、更灵活的数据处理解决方案。

PieCloudDB 的设计理念源于对用户使用体验和查询效率的深度理解。在实现存算分离的同时,PieCloudDB 专门设计和打造了全新的存储引擎「简墨」等模块。针对云场景和分析型场景,PieCloudDB 还设计了高效的预聚集(Pre-Aggregate)特性。本文将详细介绍 PieCloudDB 如何运用预聚集技术优化数据处理流程,改善用户体验。

作为云原生虚拟数仓,PieCloudDB 充分借助云计算所提供的基础设施服务,包括大规模分布式集群、虚拟机、容器等。这些特性使得 PieCloudDB 能更好地适应动态的和不断变化的工作负载需求。同时,PieCloudDB 也积极拓展其自身的特性,实现高可用、易扩展和弹性伸缩,以满足企业不断增长的业务需求。

PieCloudDB 实现了一个重要创新功能:预聚集(Pre-Aggregate)。 该功能通过 PieCloudDB 的全新的存储引擎「简墨」(JANM),在数据插入时即时计算数据列的 Aggregate 信息,并将其预先保存以供后续使用。这种方法摒弃了在查询时进行复杂计算的传统方式,从而大大提升了查询速度。此外,由于聚合数据保存在文件中,可以实现快速访问并直接应用于查询。

PieCloudDB 会根据用户的查询自动生成带有 Pre-Aggregate 的计划,使得查询过程尽可能地快速且准确。 当需要聚合数据时,系统会检查预存储的聚合值,并直接读取符合条件的 Aggregate 数据。这样避免了查询过程中扫描整个数据集的需求,可以大幅提升查询速度。

对于部分满足条件的块,PieCloudDB 将会回归原来的处理方式计算 Aggregate 值。 这样既能利用已经预聚合的数据,又只需计算缺少的部分,从而降低计算成本并提高运算效率。

1 预聚集的原理

为了能够增加 Aggregate 的查询性能,PieCloudDB 采用了以「空间」换取「时间」的策略,在写入数据的时候,在存储层中将相关的 Aggregate 进行预先计算并保存,从而在查询的时候可以快速找到需要的 Aggregate 数据。

上面解决了 Aggregate 数据来源问题,下面将介绍如何拿到预先计算的 Aggregate 数据。为了能够实现正确获取下推的 Aggregate 数据,PieCloudDB 的优化器与执行器被进一步改造,增加了两个新的 Pre-Aggregate 计算节点。改造前后的计划树(plan tree) 的对比如下图所示:

改造前后 plan tree 对比图

存储引擎「简墨」会在数据插入时,即时更新 Aggregate 信息。在上图中的 Pre-Aggregate 计算节点会从 AM(access method)中取出预先计算的 Aggregate 数据,如果没有找到合适的 Aggregate 数据,Pre-Aggregate 计算节点也会从 AM 中找出满足条件的 tuple 计算出对应的 Aggregate 数据,返回给上层计算节点使用。这样就解决了怎么正确找到下推的 Aggregate 数据的问题。

Pre-Aggregate 是 OLAP 优化技术中 Zone Maps 的具体实现。即预先计算一批元组属性值的聚合并预先保存,数据库检查预计算的聚集信息决定是否要访问该 block。即上面所述的如果找到可用的 Aggregate 数据则直接返回,否则访问该 block 检索具体元组。

对于带条件的 Pre-Aggregate 来说,其效果取决于预先计算所涉及的数据范围。PieCloudDB 将预聚集范围缩小至块文件,针对每个块文件分别进行预计算存储,从而保证带条件的预聚集查询效果。

2 预聚集的使用演示

下面给出了如何开启 Preagg Block Scan 以及支持 Block Skipping 的 Preagg Bitmap Block Scan 的使用方式。最后给出了对应的性能对比图。

2.1 Preagg Block Scan 使用方式

-- 创建 t 表
create table t(a int, b int, c int);

-- 写入三行数据
insert into t values(1,2,3);
insert into t values(3,3,5);
insert into t values(4,4,6);

-- 开启 preagg,默认是开启的
set pdb_enable_preagg = on;

-- 执行如下的 query
explain (costs off) select sum(b), avg(c), count(*) from t;
                   QUERY PLAN
------------------------------------------------
 Finalize Aggregate
   ->  Gather Motion 3:1  (slice1; segments: 3)
         ->  Pre-Aggregate Block Scan on t
 Optimizer: Postgres query optimizer
(4 rows)

-- 开启后的执行结果
select sum(b), avg(c), count(*) from t;
 sum |        avg         | count
-----+--------------------+-------
   9 | 4.6666666666666667 |     3
(1 row)

-- 关闭 preagg 
set pdb_enable_preagg = off;

-- 执行同一条 query
explain (costs off) select sum(b), avg(c), count(*) from t;
                   QUERY PLAN
------------------------------------------------
 Aggregate
   ->  Gather Motion 3:1  (slice1; segments: 3)
         ->  Seq Scan on t
 Optimizer: Postgres query optimizer
(4 rows)

-- 关闭后的执行结果
select sum(b), avg(c), count(*) from t;
 sum |        avg         | count
-----+--------------------+-------
   9 | 4.6666666666666667 |     3
(1 row)

2.2 Preagg Bitmap Block Scan 使用方式

create table t(a int, b int);
insert into t values(generate_series(1, 20), generate_series(100, 120));
insert into t values(generate_series(21, 60), generate_series(121, 160));

-- 开启 preagg,默认是开启的
set pdb_enable_preagg = on;
-- 下面是开启 Pre-Aggregate Bitmap Block Scan 的几个 guc
set enable_seqscan = off;
set enable_bitmapscan = on;
set enable_indexscan = on;

-- 执行如下的 query
explain (costs off) select max(a), sum(a) from t where a > 10 and a < 50;
                          QUERY PLAN
---------------------------------------------------------------
 Finalize Aggregate
   ->  Gather Motion 3:1  (slice1; segments: 3)
         ->  Partial Aggregate
               ->  Pre-Aggregate Bitmap Block Scan on t
                     Recheck Cond: ((a > 10) AND (a < 50))
                     ->  Bitmap Index Scan on t
                           Index Cond: ((a > 10) AND (a < 50))
 Optimizer: Postgres query optimizer
(8 rows)

-- 开启后的执行结果
select max(a), sum(a) from t where a > 10 and a < 50;
 max | sum
-----+------
  49 | 1170
(1 row)

-- 关闭 preagg 
set pdb_enable_preagg = off;

-- 执行同一条 query
explain (costs off) select max(a), sum(a) from t where a > 10 and a < 50;
                          QUERY PLAN
---------------------------------------------------------------
 Finalize Aggregate
   ->  Gather Motion 3:1  (slice1; segments: 3)
         ->  Partial Aggregate
               ->  Bitmap Heap Scan on t
                     Recheck Cond: ((a > 10) AND (a < 50))
                     ->  Bitmap Index Scan on t
                           Index Cond: ((a > 10) AND (a < 50))
 Optimizer: Postgres query optimizer
(8 rows)

-- 关闭后的执行结果
select max(a), sum(a) from t where a > 10 and a < 50;
 max | sum
-----+------
  49 | 1170
(1 row)

2.3 性能对比

测试表:

create table preaggdata (a int, b int);

测试语句:

explain analyze select sum(a), avg(a), count(*), max(b) from preaggdata;

耗时对比图如下所示:

耗时对比图

从上面的测试数据和对比图可以看出,未开启 Pre-Agg 时,随着数据量的增大,耗时不断增大,且增加的速度也会越来越快;而开启 Pre-Agg 时,耗时是平稳的增长的,增长的速度也不快。当数据量达到 10000K 时,实现了近 28 倍的速度提升。

3 预聚集未来演变之路

目前,Pre-Aggregate 采用「空间」换「时间」的策略来提升性能效率。为了扩大 Pre-Aggregate 的应用范围,优化用户体验,我们将不断推动技术研发,扩大应用场景,并提供更加丰富、多元的功能。

无论是通过优化数据处理方式,拓展支持的函数类型,还是引进新的查询处理机制,我们都在锲而不舍地努力实现这一目标。相信很快,Pre-Aggregate 将能够为复杂的查询场景提供更高效、更精准的解决方案,从而逐步深化其在数据分析和处理领域的应用影响力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1124352.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

京东平台销量销额数据查询:2023年9月京东空调行业品牌销售排行榜!

鲸参谋监测的京东平台9月份空调市场销售数据已出炉&#xff01; 鲸参谋数据显示&#xff0c;今年9月份&#xff0c;京东平台大家电品类——空调的整体销售呈现下滑。从数据来看&#xff0c;9月空调的月销量将近60万&#xff0c;环比下滑约59%&#xff0c;同比下滑约6%&#xff…

Python 类继承解释

一、说明 类继承是Python中数据科学家和机器学习工程师需要了解的一个重要概念。在这里&#xff0c;我们的专家解释了它的工作原理。 在Python中&#xff0c;类包含属性和方法。属性是存储数据的变量。类方法是属于类的函数&#xff0c;通常对类属性执行一些逻辑。在本文中&…

npm版本错误——npm ERR! code ERESOLVE 解决方法

起因 项目中echart版本过低&#xff0c;导致某些图表不能正确显示&#xff0c;所以大手一挥&#xff0c;将echart版本从4升级到了5&#xff0c; 再去运行项目的时候 就发现项目报错了 npm ERR! code ERESOLVE npm ERR! ERESOLVE unable to resolve dependency tree npm ERR! …

C++基础算法----正整数高精度加减乘除

4、正整数高精度 ​ 出现高精度的情况一般只有C会出现&#xff0c;python会无限制&#xff0c;java有大整数&#xff0c;所以基本上不用考虑&#xff0c;一般会出现四种情况 一个较大数A 一个较大数B一个较大数A - 一个较大数B一个较大数A * 一个数一个较大数A / 一个数 这里…

ubuntu系统由于英伟达显卡驱动问题黑屏或者其他报错开机无法进入系统解决办法!

背景&#xff1a; 硬件&#xff1a;CPU&#xff1a;AMD PRO 3955WX、硬盘&#xff1a;一块固态&#xff08;ubuntu&#xff09;一块固态&#xff08;windows&#xff09;双系统、英伟达丽台RTX4000显卡&#xff1b; 故障&#xff1a; 把显卡拆出来&#xff0c;拿到别的地方测…

分享一下商城小程序有哪些营销活动可以做的

随着移动支付的普及和电商行业的快速发展&#xff0c;商城小程序已成为消费者日常生活中不可或缺的一部分。小程序具有便捷性、即时性和个性化等特点&#xff0c;使得品牌商家能够更好地与消费者互动&#xff0c;提升销售额。本文将探讨商城小程序营销活动的几种形式&#xff0…

CentOS7日志文件及journalctl日志查看

一、日 志 文 件 说 明 tail /var/log/messages //系统启动后的信息和错误日志&#xff0c;是Red Hat Linux中最常用的日志之一 tail -f /var/log/secure //与安全相关的日志信息 tail /var/log/maillog //与邮件相关的日志信息 tail /var/log/cro…

8.canvas阴影设置

在canvas里面设置元素阴影相对来说比较简单&#xff0c;他有4个属性控制。 shadowOffsetX 描述阴影水平偏移距离的属性。 shadowOffsetY 描述阴影垂直偏移距离的属性。 shadowBlur 描述模糊效果程度的属性&#xff1b;它既不对应像素值也不受当前转换矩阵的影响。默认值是…

Python + Appium 自动化操作微信入门看这一篇就够了!

简介 Appium 是一个开源的自动化测试工具&#xff0c;支持 Android、iOS 平台上的原生应用&#xff0c;支持 Java、Python、PHP 等多种语言。 Appium 封装了 Selenium&#xff0c;能够为用户提供所有常见的 JSON 格式的 Selenium 命令以及额外的移动设备相关的控制命令&#…

Anaconda创建新的虚拟环境及Jupyter Notebok中、PyCharm中环境的使用

Anaconda创建新的虚拟环境 在windows开始菜单中【徽标键】&#xff0c;查找Anaconda文件夹并打开【Anaconda Prompt】 查看已有虚拟环境 conda env list1.创建 conda create --name mytest python3.7 # 创建一个名称为mytest&#xff0c;python版本为3.7的虚拟环境输入【…

【已解决】Word文档的“打开密码”在哪里设置?

我们知道&#xff0c;Word文档可以设置“打开密码”&#xff0c;保护文件不被随意打开&#xff0c;只有输入正确的密码才能打开文档。那这个“打开密码”要在哪里设置呢&#xff1f;不清楚的小伙伴往下看就知道啦。 在Word文档里&#xff0c;有两个路径可以设置“打开密码”。…

Activiti

文章目录 一、Activiti介绍&#xff08;一&#xff09;BPM&#xff08;一&#xff09;BPM软件&#xff08;一&#xff09;BPMN&#xff08;一&#xff09;使用步骤1、部署activiti2、流程定义2、流程定义部署2、启动一个流程实例2、用户查询待办任务2、用户办理任务2、流程结束…

文本生成图像工作简述5--对条件变量进行增强的 T2I 方法(基于辅助信息的文本生成图像)

目录 一、基于场景图的文本生成图像二、基于对话的文本生成图像三、基于属性驱动的文本生成图像四、基于边界框标注的文本生成图像五、基于关键点的文本生成图像六、其他基于辅助信息的文本生成图像 在传统的T2I方法中&#xff0c;常常使用一个固定的随机噪声向量作为输入&…

极智嘉(Geek+)柔性货箱到人拣选方案,助力Starlinks实现高效运营

近些年&#xff0c;电商业务席卷全球&#xff0c;一众企业蓬勃发展。比如沙特阿拉伯先进的物流与供应链解决方案供应商Starlinks的电子商务的销售额从6%增长到了23%。为满足日益增长的国际电商业务需求&#xff0c;以及订单交付时效性更高的要求&#xff0c;Starlinks与全球仓储…

中国人民大学与加拿大女王大学金融硕士——另辟蹊径往往能带来柳暗花明

莎士比亚曾说过&#xff0c;人生就是一部作品&#xff0c;谁有生活理想和实现的计划&#xff0c;谁就有好的情结和结尾&#xff0c;谁便能写得十分精彩和引人注目。人生之路&#xff0c;道阻且长。做好自己的规划&#xff0c;方能行稳致远。金融领域的你有计划在职读研&#xf…

双系统,grub系统选择界面字体大小调整!

背景&#xff1a; winodwsubuntu双系统&#xff0c;grub系统选择界面字体太小了&#xff0c;尤其是4K分辨率屏幕&#xff0c;影响观感&#xff0c;想要字体变大。 方法&#xff1a; 设置grub配置文件中的屏幕分辨率&#xff0c; 分辨率调小&#xff0c;字体就会变大&#xff…

formData对象打印不出来

用el-upload上传图片 以流的形式传给后台 所以用formData对象带数据 let formData new FormData() formData.append(name&#xff0c;monkey7) console.log(formData) 明明已经把数据append进去了 console.log在控制台却打印不出 后来发现他得用formData.get("xxx"…

【unity3D】Scroll Rect组件—制作下滑列表

&#x1f497; 未来的游戏开发程序媛&#xff0c;现在的努力学习菜鸡 &#x1f4a6;本专栏是我关于游戏开发的学习笔记 &#x1f236;本篇是unity的Scroll Rect组件 Scroll Rect组件 基础知识详细说明案例演示——制作一个简单的下滑框扩展 介绍&#xff1a;Scroll Rect组件是用…

如何搭建开源ERP平台Odoo并实现公网远程访问?——“cpolar内网穿透”

文章目录 前言1. 下载安装Odoo&#xff1a;2. 实现公网访问Odoo本地系统&#xff1a;3. 固定域名访问Odoo本地系统 前言 Odoo是全球流行的开源企业管理套件&#xff0c;是一个一站式全功能ERP及电商平台。 开源性质&#xff1a;Odoo是一个开源的ERP软件&#xff0c;这意味着企…

如何在Potplayer中使用公网访问群晖WebDav?

文章目录 1 使用环境要求&#xff1a;2 配置webdav3 测试局域网使用potplayer访问webdav4 内网穿透&#xff0c;映射至公网5 使用固定地址在potplayer访问webdav ​ 国内流媒体平台的内容让人一言难尽&#xff0c;就算是购买了国外的优秀作品&#xff0c;也总是在关键剧情上删删…