PolarDB-X 的 in 常量查询

news2024/11/25 22:59:12

场景

实际场景中经常需要根据一些常量指标做IN查询,并且IN值往往是分区键。例如在电商场景中,有两张表,买家表与订单表。订单的具体信息会记录到订单表中,该表按照订单ID进行哈希拆分;买家表则会保存买家ID及其关联的订单ID。一个买家经常需要查询其已购买的所有订单,一种普遍的做法是首先查询买家表获取该买家的所有订单ID,然后根据上述订单ID查询订单的具体信息。假设订单表有4个分片,买家A已下单的订单ID分别为1、 2、4、5和9,那么便会产生如下的SQL,即包含5个值的IN条件查询。

逻辑sql: select * from order where order_id in (1, 2, 4, 5, 9);

执行方式

不同于MySQL,PolarDB-X的架构可以分为计算层和存储层,存储层的DN 节点(数据节点)保存所有的数据。更多背景信息可以参考专栏文章 PolarDB-X 简介。

那么计算节点在收到这条逻辑SQL后,如何从DN节点拉取数据并进行计算呢?

Naive的执行方式

下发至所有分片的物理SQL中均包含所有的in值,如下所示。这种naive的执行方式会带来两个问题,一是随着订单表分片数的增多,需要扫描的分片数急剧增加,而该买家订单数据所在的分片数并未增加;二是随着in值的增多,下发的物理SQL在执行时会由索引扫描变为全表扫描,以上两个原因使得RT急剧升高。

分片1 物理sql: select * from order_01 where order_id in (1, 2, 4, 5, 9);
分片2 物理sql: select * from order_02 where order_id in (1, 2, 4, 5, 9);
分片3 物理sql: select * from order_03 where order_id in (1, 2, 4, 5, 9);
分片4 物理sql: select * from order_04 where order_id in (1, 2, 4, 5, 9);

基于动态裁剪的执行

由上述讨论可知,我们希望可以裁剪掉一定不包含所需数据的分片,由于in字段即为分区键,因此我们可以使用分区算法计算每个in值所属分区,如下所示。

hash(1) = 1, hash(2) = 2, hash(4) = 4, hash(5) = 1, hash(9) = 1

以上述例子为例,显然我们无需向分片3下发物理SQL。进一步地,因为分片1只可能包含订单ID为1、5和9的数据,而不可能包含订单ID为2或4的数据,于是我们可以进一步对物理SQL中包含的in值进行裁剪。

现在我们知道了需要下发的SQL涉及三个分片,那么如何下发这三条物理SQL呢,或者说下发SQL并等待结果的并行度是多少呢?显然,有两种极端,一是全部串行,该方式执行效率极低;二是全部并行,同时起有效分片数个线程向各个分片发送所有物理SQL,该方式的问题是如果分片数太多,会给系统带来非常大的压力,同时会有大量的线程上下文切换。综合考虑,我们默认将下发物理SQL的并行度设置为机器的CPU核数,使用类似滑动窗口的方式下发物理SQL。

此外,我们希望下发到每个分片的物理SQL中包含的in值不要太多,否则该SQL在DN节点执行时很有可能进行全表扫描而非预期的索引扫描。因此当in值较多时,我们会对in值进行切割,分批下发,执行流程如下图所示。

仍然以上述的例子为例,假设我们的CN节点只有两个核,假设每次下发的物理SQL中的in值不超过两个(当然实际中不会设置的这么小),那么我们会共计下发四条物理SQL,如下所示,其会被划分为两个批次,也就是说计算节点和数据节点需要有两次网络交互。试想一下,如果我们下发的物理SQL只有两条时,那么我们便可以在一个批次中完成所有物理SQL的下发,此时计算节点和数据节点只有一次网络交互。因此,当用户对于RT要求较高时,我们建议in值数量应当较少,以保证其涉及的分片数不超过CPU核数且每个分片只会下发一条物理SQL。

//第一次下发了两条物理sql
分片1 物理sql-1: select * from order_01 where order_id in (1, 5);
分片2 物理sql: select * from order_02 where order_id in (2);
//第二次下发了两条物理sql
分片1 物理sql-2: select * from order_01 where order_id in (9);
分片4 物理sql: select * from order_04 where order_id in (4);

in值数量不固定带来的挑战

为了加速SQL的执行,我们会对参数化SQL的执行计划进行缓存,而业务代码中的in值数量有时并不相同,这会使得执行计划的缓存空间可能会被仅是in值数量不同的SQL占满,导致其他SQL的执行计划失效。解决这个问题的思路也比较简单,我们会用一个问号来替代in的列表,从而避免上述情况的发生。

测试

我们在规格为2×16C64G的节点上,针对一张分表数为64,分表记录数为百万的表在不同in值数量、不同并发下进行了测试,分区方式为哈希分区,测试结果如下。

测试场景1-1

不同并发,不同in值数量,开启IN查询动态裁剪能力,查看RT变化。

测试场景1-2

不同并发,不同in值数量,关闭IN查询动态裁剪能力,查看RT变化。

测试场景2-1

不同并发,不同in值数量,开启IN查询动态裁剪能力,查看吞吐变化。

测试场景2-2

不同并发,不同in值数量,关闭IN查询动态裁剪能力,查看吞吐变化。

测试结论

● 开启IN查询的动态裁剪能力后,吞吐和RT都有明显的改善。
● 对于RT比较敏感的客户,建议in值数量不要取的太多。

总结

本篇首先介绍了in查询的一个经典应用场景,接着分析了分布式数据库中执行in查询sql时naive的执行方式,其执行效率非常低下。为了提高执行效率,我们进行了分区裁剪与in值裁剪。进一步地,考虑到物理SQL中的in值太多会使得存储节点在执行物理SQL时有更大的可能进行全表扫描而非预期的索引扫描,因此当一个分片涉及的in值较多时,我们会将in值进行分割,分批次下发in查询。为了防止并发量过大给系统带来巨大的压力,下发物理SQL的默认并发度为机器CPU核数。此外,我们还针对in值数量不同可能导致计划缓存失效的问题进行了优化。最后,我们测试了打开与关闭in查询动态裁剪的情况下,吞吐量与延迟的变化,测试结果表明开启IN查询的动态裁剪能力后,吞吐和RT都有明显的改善。此外,我们建议对于RT比较敏感的客户,in值数量不要取的太多。

作者:越寒

原文链接

本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/42822.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Flowable 中的网关、流程变量以及历史流程

今天这篇文章,松哥和大家梳理一下 Flowable 中的网关、流程变量以及历史流程的玩法。 1. 三大网关 Flowable 中网关类型其实也不少,常见的主要有三种类型,分别是: 排他网关并行网关包容网关 这三个里边最常用的当然就是排他网关…

苦等官方阿里云盘TV版久矣,终于期待一款TV版。

苦等官方阿里云盘TV版久矣,终于期待一款TV版。 一、获取链接: 链接:https://pan.baidu.com/s/19Z-2Lb4-lOSU14M83rivVA 提取码:o2z0 二、产品: 1、文件列表:确定键打开文件或文件夹,菜单键进…

华为19级专家10年心血终成百页负载均衡高并发网关设计实战文档

负载均衡(LoadBalance)的字面意思是将工作负载分担到多个工作单元上进行执行,它建立在现有网络结构之上,是构建分布式服务、大型网络应用的关键组件。 近十几年来,负载均衡技术层出不穷,令人眼花缭乱。如果…

[思考进阶]01 如何克服自己的无知?

除了要提升自己的技术能力,思维的学习和成长也非常非常重要,特推出此[思考进阶]系列,进行刻意练习,从而提升自己的认知。 有段时间我特别喜欢研究一些定律和法则,比如:熵增定律、懒蚂蚁效应、蝴蝶效应、吸引…

Java搭建宝塔部署实战毕设项目物品分类springboot管理系统源码

大家好啊,我是测评君,欢迎来到web测评。 本期给大家带来一套Java开发的物品分类springboot管理系统源码,适合准备做毕业设计的同学,可以下载搭建起来,在这基础上加一些功能,改改UI,随便写篇答题…

解决办法‘npm‘ 不是内部或外部命令,也不是可运行的程序或批处理文件。

今天使用了nvm这个node的保姆级版本管理工具,的确很香。 首先打开官网nvm.uihtm.com/ 下载安装过程很顺利,但是验证node及npm是否安装成功时,出现下面错误提示。 C:\Users\Administrator>npm -v npm 不是内部或外部命令,也不是可运行的…

里奥哈大使撰文 | 来一场云旅行吧,盘点里奥哈那些美轮美奂的酒庄~

俗话说得好,“里奥哈美酒夜光杯,欲买机票马上飞”(说得太好了,反正也去不了下次别说了)既然疫情当下,无法来一场说走就走的旅行,那我们就来云游一下里奥哈这个美轮美奂的酒庄吧! 说起…

2023年浙大MEM英语二作文干货模版:临阵磨枪可用

这些年来,通过杭州达立易考教育对英语二小作文的总结发现,书信形式成为主要考察的内容,而随着形式的变化和难度的提升,复合型题材逐渐成为侧重点,比如道歉信加建议信、感谢信加建议信等。我们不建议原班照背模版&#…

汇编语言快速回顾(以x86_64为例)

GAS (GNU Assembler) 是一款基于 Linux 的汇编器,主要供 GNU 项目使用,用于对 Linux 内核及其他软件进行进行汇编。 MASM (Microsoft Macro Assembler) 是微软操作系统的专属汇编器,于 1981 年随 Visual Studio 一起发布。 大学本科教育中有两…

小学生python游戏编程arcade----精灵调用图片的两种类

小学生python游戏编程arcade----精灵调用图片的两种类前言精灵调用图片的两种类1、第一种类的定义1.1 以文件名及缩放比例做初始参数1.2 利用变换图片的颜色更换角色的使用1.3 代码分析转换文件来不及调用,时间问题???&#xff1f…

【数据结构初阶】链式二叉树接口实现+痛苦的OJ题

递归心决:(xdm好好感悟) 1.确定递归的结束条件 2.确定递归的单层逻辑 3.确定递归的参数和返回值 文章目录一、链式二叉树接口1.二叉树的结构体2.手动造一棵二叉树3.二叉树前、中、后序遍历(递归的神圣大门开启)4.二叉树的结点个数5.二叉树的叶子结点个数6.二叉树的…

【毕业设计】深度学习动物识别系统 - 图像识别 python OpenCV

文章目录0 前言1 课题背景2 实现效果3 卷积神经网络3.1卷积层3.2 池化层3.3 激活函数:3.4 全连接层3.5 使用tensorflow中keras模块实现卷积神经网络4 inception_v3网络5 最后0 前言 🔥 Hi,大家好,这里是丹成学长的毕设系列文章&a…

Web前端大作业、基于HTML+CSS+JavaScript响应式个人相册博客网站

🎉精彩专栏推荐👇🏻👇🏻👇🏻 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业…

【DL with Pytorch】第 1 章 :深度学习与PyTorch简介

🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎 📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃 🎁欢迎各位→点赞…

1.每天进步一点点------爬虫应用场景

14天学习训练营导师课程: 杨鑫《Python 自学编程基础》 杨鑫《 Python 网络爬虫基础》 杨鑫《 Scrapy 爬虫框架实战和项目管理》 杨老师推荐自学Python的网站 w3schools 传送门 geeksforgeeks 传送门 realpython 传送门 学习之前读一读 来看看爬虫合不合法 传送…

安洵杯 2022 复现

babyphp 知识点&#xff1a;原生类的利用&#xff0c;session 反序列化<?php //something in flag.phpclass A {public $a;public $b;public function __wakeup(){$this->a "babyhacker";}public function __invoke(){if (isset($this->a) && $t…

[附源码]SSM计算机毕业设计文章管理系统查重PPTJAVA

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

Java 多线程为啥要有ThreadLocal,怎么用,这篇讲全了!

前面我们学习的线程并发时的同步控制&#xff0c;是为了保证多个线程对共享数据争用时的正确性的。那如果一个操作本身不涉及对共享数据的使用&#xff0c;相反&#xff0c;只是希望变量只能由创建它的线程使用&#xff08;即线程隔离&#xff09;就需要到线程本地存储了。 Ja…

艾美捷曲妥珠单抗Trastuzumab化学性质和特异性说明

艾美捷曲妥珠单抗Trastuzumab是人源化IgG1κ单克隆抗体&#xff0c;其以高亲和力选择性结合人表皮生长因子受体2蛋白HER2的细胞外结构域。曲妥珠单抗通过重组DNA技术在哺乳动物细胞&#xff08;中国仓鼠卵巢&#xff09;中产生。 艾美捷曲妥珠单抗Trastuzumab化学性质&#xff…

[附源码]SSM计算机毕业设计鲜花销售管理系统JAVA

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…