【Calcite源码学习】ImmutableBitSet介绍

news2025/1/24 11:03:42

Calcite中实现了一个ImmutableBitSet类,用于保存bit集合。在很多优化规则和物化视图相关的类中都使用了ImmutableBitSet来保存group by字段或者聚合函数参数字段对应的index,例如:

//MaterializedViewAggregateRule#compensateViewPartial()
ImmutableBitSet.Builder groupSet = ImmutableBitSet.builder();
groupSet.addAll(aggregateViewNode.getGroupSet());
groupSet.addAll(
    ImmutableBitSet.range(
        aggregateViewNode.getInput().getRowType().getFieldCount(),
        aggregateViewNode.getInput().getRowType().getFieldCount() + offset));

因此,本文我们就来看一看这个ImmutableBitSet一些核心的操作函数。

使用示例

这里我们介绍一个ImmutableBitSet使用的例子,后续相关的函数操作说明会使用这个例子:

ImmutableBitSet.Builder builder = ImmutableBitSet.builder();
builder.set(3);
builder.set(5);
builder.set(67);
builder.set(70);
builder.set(129);
ImmutableBitSet bitSet = builder.build();
System.out.println(bitSet.cardinality());
System.out.println(bitSet.nth(1));

如上所示,通常先构造一个Builder,然后set指定的bit位,最终构造生成ImmutableBitSet。下面来看一下主要的成员和关键函数。

主要成员

ImmutableBitSet中比较重要的几个成员变量如下所示:

private static final int ADDRESS_BITS_PER_WORD = 6;
private static final int BITS_PER_WORD = 1 << ADDRESS_BITS_PER_WORD;

private static final long[] EMPTY_LONGS = new long[0];

private static final ImmutableBitSet EMPTY = new ImmutableBitSet(EMPTY_LONGS);
  
private final long[] words;

这些变量含义如下:

  • 这里最主要的变量就是words,这是一个long类型的数组,实际存储设置的bit位;
  • Long是64位,使用6个bit就可以表示,因此ADDRESS_BITS_PER_WORD设置为6,用来进行一些二进制的左移和右移的运算;
  • BITS_PER_WORD表示将1左移6位,结果就是64。当words数组中存在多个成员的时候,取指定long成员对应的bit位时会用到,后面会详细介绍,这里不再赘述。

Builder相关函数

要使用ImmutableBitSet,我们首先需要构造一个ImmutableBitSet.Builder,因此先看一下这个Builder的关键函数。

set(int i)

set函数是最常用的,将指定位的bit设置为true,表示该位上面有值,对应的函数代码如下所示:

public Builder set(int bit) {
  if (words == null) {
    throw new IllegalArgumentException("can only use builder once");
  }
  int wordIndex = wordIndex(bit);
  if (wordIndex >= words.length) {
    words = Arrays.copyOf(words, wordIndex + 1);
  }
  words[wordIndex] |= 1L << bit;
  return this;
}

private static int wordIndex(int bitIndex) {
  return bitIndex >> ADDRESS_BITS_PER_WORD;
}

通过这个函数,就可以往Builder里面设置对应的bit位,上述代码主要处理逻辑如下:

  • 通过传入的bit位,获取在words中的索引,即数组的下标,通过wordIndex函数来实现。这个函数只有一行代码,即将传入的bit右移6位。其效果是:0~63会返回0,表示存储在words中的第一个long成员;64~127返回1,表示存储在words中的第二个long成员,以此类推;
  • 如果word索引大于当前数组的长度,则会扩容,数组长度+1;
  • 将1L左移bit位,并与指定index的数组成员,即words[wordIndex]进行或操作,并更新到当前数组成员,然后返回。

这里我们结合上述的例子来看一下:

//3 >> 6 = 0,表示wordIndex是0,存储在第一个long成员;1L << 3,得到的结果是0000 1000
builder.set(3);
//5 >> 6 = 0,表示wordIndex是0,存储在第一个long成员;1L << 5,得到的结果是0010 0000
builder.set(5);
//67 >> 6 = 1,表示wordIndex是1,存储在第二个long成员;1L << 67,得到的结果是0000 1000
builder.set(67);
//70 >> 6 = 1,表示wordIndex是1,存储在第二个long成员;1L << 70,得到的结果是0100 1000
builder.set(70);
//129 >> 6 = 2,表示wordIndex是2,存储在第三个long成员;1L << 129,得到的结果是0000 0010
builder.set(129);

这里我们只展示了二进制的最后8位,前面56位都是0,因此省略。此时,words包含3个long成员,分别是:

  • 第一个long成员的值就是0000 1000 | 0010 0000 = 0010 1000,十进制是40;
  • 第二个long成员的值就是0000 1000 | 0100 0000 = 0100 1000,十进制是72;
  • 第三个long成员的值就是0000 0010,十进制是2;

我们通过debug可以进行验证:
1
需要注意的是,在对1L进行左移操作时,由于long是64位的,因此我们需要先对bit进行64取余操作,因此上面大于64的左移操作实际效果如下:

1L << 67 => 1L << (67 % 64) => 1L << 3 => 0000 1000
1L << 70 => 1L << (70 % 64) => 1L << 6 => 0100 0000
1L << 129 => 1L << (129 % 64) => 1L << 1 => 0000 0010

build()

Builder填充完成之后,就可以通过build()方法来生成ImmutableBitSet对象了。这个函数比较简单,就是将words成员作为参数来构造ImmutableBitSet,同时将words成员本身置空。也就是说,Builder只能调用一次build(),这点需要注意。

addAll(ImmutableBitSet bitSet)

set方法只能设置单个bit位,如果想要批量设置的话,可以调用addAll()函数。这个函数有三个重载方法,这里我们看一下与ImmutableBitSet相关的:

public Builder addAll(ImmutableBitSet bitSet) {
  for (Integer bit : bitSet) {
    set(bit);
  }
  return this;
}

该方法比较简单,就是通过ImmutableBitSet的iterator()方法来获取每一个bit,然后set到当前的Builder中。关于iterator()处理逻辑,我们下面再介绍。

ImmutableBitSet相关函数

看完Builder常用的几个函数后,我们再来看一下ImmutableBitSet相关的函数。

cardinality()

这个函数会返回当前ImmutableBitSet包含的所有bit位,相关代码如下所示:

public int cardinality() {
  return countBits(words);
}

private static int countBits(long[] words) {
  int sum = 0;
  for (long word : words) {
    sum += Long.bitCount(word);
  }
  return sum;
}

可以看到,实际是通过countBits函数来进行统计的。该函数会遍历words数组所有的成员,依次统计每个成员包含的bit位,然后累计求和。在上述例子中,对应的cardinality就是5,表示一共有5个bit位被设置为true,前面两个成员分别包含2个为true的bit位,第三个成员包含1个。

nth(int)

该函数是Calcite中也会经常用到的。该函数的功能是取第n位对应的值,代码如下所示:

public int nth(int n) {
  int start = 0;
  for (long word : words) {
    final int bitCount = Long.bitCount(word);
    if (n < bitCount) {
      while (word != 0) {
        if ((word & 1) == 1) {
          if (n == 0) {
            return start;
          }
          --n;
        }
        word >>= 1;
        ++start;
      }
    }
    start += 64;
    n -= bitCount;
  }
  throw new IndexOutOfBoundsException("index out of range: " + n);
}

代码对应的主要处理逻辑如下:

  • 遍历words数组,通过每个成员包含的bit位数量,来确定第n个bit位于哪个数组成员;
  • 遍历的同时,更新每个数组成员对应的起始值start,第一个成员是0,第二个成员是64,第三个成员是128,依次类推;
  • 定位到对应的数组成员之后,循环处理这个long,每次右移1位,然后start加1;
  • 右移1位之后,判断long的最后一位是否为1;是的话,则表示该bit位被set过,然后再判断是否为第n个bit,是的话,则直接返回start。否则继续右移long,然后更新start。

我们结合上述示例来看一下这个处理过程。n=3时,整个流程如下所示:
2

iterator()

上面我们提到,Builder.addAll()函数主要就是通过ImmutableBitSet的迭代器iterator()来实现批量set的,这里我们就来看一下ImmutableBitSet是如何实现的。当我们使用for循环取ImmutableBitSet的成员时,会自动调用迭代器的next()函数不断获取下一个成员,next()函数实现:

//ImmutableBitSet#iterator()
@Override public Integer next() {
  int prev = i;
  i = nextSetBit(i + 1);
  return prev;
}

可以看到,这里主要是通过nextSetBit()函数来取下一个bit位的,下面我们看下这个函数的实现逻辑。

nextSetBit(int fromIndex)

这个函数是用来取给定bit位以及其之后的,下一个被set的bit位(包含fromIndex对应的bit位本身),函数代码如下所示:

public int nextSetBit(int fromIndex) {
  if (fromIndex < 0) {
    throw new IndexOutOfBoundsException("fromIndex < 0: " + fromIndex);
  }
  int u = wordIndex(fromIndex);
  if (u >= words.length) {
    return -1;
  }
  long word = words[u] & (WORD_MASK << fromIndex);
   while (true) {
    if (word != 0) {
      return (u * BITS_PER_WORD) + Long.numberOfTrailingZeros(word);
    }
    if (++u == words.length) {
      return -1;
    }
    word = words[u];
  }
}

函数代码主要的处理逻辑如下:

  • 获取传入index所在的数组成员下标,即位于第几个数组成员中;
  • 将word mask右移index位,例如index为3,则结果是1111 1000(省略mask前面的1),然后将该结果与对应的数组成员进行与操作,得到一个新的word。这行代码的目的是为了屏蔽index前面的成员,进行后续的比较。例如数组成员是1111 1111,与操作的结果则是1111 1000。那么word最后三个1(对应十进制的1、2、4)都被屏蔽;
  • 如果word为空,表示传入的index,不在当前这个word中,对应的bit没有被set,此时更新word为下一个数组成员。由于下一个数组成员的起始index是必定大于传入index的,因此word不需要进行上面的左移和与操作;
  • word不为空,先获取trailing zero数量,然后加上实际的offset即可(数组成员每往后移动一个,index起始offset就要加64)。

我们同样使用上述的例子来看一下。fromIndex设置为6时,整个流程如下所示:
2

get(int bitIndex)

该函数是用来判断bit set的指定bit位是否被set为true,函数代码如下:

public boolean get(int bitIndex) {
  if (bitIndex < 0) {
    throw new IndexOutOfBoundsException("bitIndex < 0: " + bitIndex);
  }
  int wordIndex = wordIndex(bitIndex);
  return (wordIndex < words.length)
      && ((words[wordIndex] & (1L << bitIndex)) != 0);
}

核心的代码逻辑就是words[wordIndex] & (1L << bitIndex),如果为0,表示对应bit没有被set,即为0。这里我们仍然结合上述例子来看:

//假设bitIndex为69,此时位于words的第二个数组成员,范围为64~127
1L << 69 => 1L << (75 % 69) => 1L << 6 => 0100 0000
0100 1000 & 0100 0000 = 0100 0000
//假设bitIndex为75,此时位于words的第二个数组成员,范围为64~127
1L << 75 => 1L << (75 % 64) => 1L << 11 => 1000 0000 0000
0000 0100 1000 & 1000 0000 0000 = 0

因此,get(69)返回true,对应上述示例的set(70);get(75)则返回false。

小结

本文主要介绍了Builder和ImmutableBitSet中的一些关键函数的处理逻辑,并结合示例展示了具体的用法。ImmutableBitSet还有不少其他的函数,其中大多都是基于上述的函数进行实现或者本身实现比较简单,这里不再一一介绍,有兴趣的同学可以自行阅读源码。
关于Calcite为什么要开发一个这样的bit set,笔者猜测应该是跟逻辑执行计划有关。使用ImmutableBitSet可以通过与操作快速判断字段对应的index是否在bit set中,效率比较高。后续阅读到planner优化相关的代码时,再做分享。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/346589.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

浏览器渲染原理JavaScript V8引擎

浏览器渲染原理 前言 在我们面试过程中&#xff0c;面试官经常会问到这么一个问题&#xff0c;那就是从在浏览器地址栏中输入URL到页面显示&#xff0c;浏览器到底发生了什么&#xff1f; 浏览器内有哪些进程&#xff0c;这些进程都有些什么作用&#xff1b;浏览器地址输入U…

【CentOS】有关时间的设置

目录环境信息date语法信息查看时间设置时间设置日期tzselecttimedatectl语法显示当前及所有时区修改时区hwclock语法读取硬件时钟使用硬件时钟设置系统时间使用系统时间设置硬件时钟如何理解硬件时钟和系统时钟环境信息 CentOS 7 date 语法信息 date --help用法&#xff1a…

Android - dimen适配

一、分辨率对应DPIDPI名称范围值分辨率名称屏幕分辨率density密度&#xff08;1dp显示多少px&#xff09;ldpi120QVGA240*3200.75&#xff08;120dpi/1600.75px&#xff09;mdpi160&#xff08;基线&#xff09;HVGA320*4801&#xff08;160dpi/1601px&#xff09;hdpi240WVGA4…

小白系列Vite-Vue3-TypeScript:011-登录界面搭建及动态路由配置

前面几篇文章我们介绍的都是ViteVue3TypeScript项目中环境相关的配置&#xff0c;接下来我们开始进入系统搭建部分。本篇我们来介绍登录界面搭建及动态路由配置&#xff0c;大家一起撸起来......搭建登录界面登陆接口api项目登陆接口是通过mockjs前端来模拟的模拟服务接口Login…

OpenStack手动分布式部署环境准备【Queens版】

目录 1.基础环境准备&#xff08;两个节点都需要部署&#xff09; 1.1关闭防火墙 1.2关闭selinux 1.3修改主机名 1.4安装ntp时间服务器 1.5修改域名解析 1.6添加yum源 2.数据库安装配置 2.1安装数据库 2.2修改数据库 2.3重启数据库 2.4初始化数据库 3.安装RabbitMq…

html网页加载ppt文件非ifram加载

今天有一个客户需求是加载一个ppt文件还要有翻页的效果&#xff0c;我搜索了很久也只有一个ifram加载。 所以我果断用了chtgpt然后发现了一个宝藏效果 代码如下&#xff1a; <!DOCTYPE html> <html> <head><title>PPT预览</title> </head>…

Seata-Server分布式事务原理加源码 (六) - Seata的AT模式

Seata-AT模式 概念&#xff1a;AT模式是一种无侵入的分布式事务解决方案&#xff0c;在 AT 模式下&#xff0c;用户只需关注自己的“业务 SQL”&#xff0c;用户的 “业务 SQL” 作为一阶段&#xff0c;Seata 框架会自动生成事务的二阶段提交和回滚操作。 整体机制 两阶段提…

Linux——线程同步(条件变量、POSIX信号量)和线程池

一.线程同步&#xff08;一&#xff09;.概念线程同步是一种多线程关系&#xff0c;指的是线程之间按照特定顺序访问临界资源&#xff0c;进而能够避免线程饥饿问题。所谓线程饥饿指的是某个线程长期“霸占”临界资源&#xff0c;导致其他线程无法访问该资源。而通过线程同步机…

【FPGA】Verilog:组合电路设计 | 三输入 | 多数表决器

前言&#xff1a;本章内容主要是演示Vivado下利用Verilog语言进行电路设计、仿真、综合和下载的示例&#xff1a;表决器&#xff08;三人表决器&#xff09;。 功能特性&#xff1a; 采用 Xilinx Artix-7 XC7A35T芯片 配置方式&#xff1a;USB-JTAG/SPI Flash 高达100MHz 的内部…

你是真的“C”——【经典面试知识点】数据在内存中的大小端存储方式

你是真的“C”——【经典面试知识点】数据在内存中的大小端存储方式&#x1f60e;前言&#x1f64c;大小端介绍&#x1f64c;什么大端小端呢&#xff1f;&#xff1a;大小端存储的标准定义&#xff1a;大端和小端存在的意义经典的面试题目&#x1f64c;总结撒花&#x1f49e;&a…

ICLR 2022—你不应该错过的 10 篇论文(上)

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 ICLR 2023已经放榜&#xff0c;但是今天我们先来回顾一下去年的ICLR 2022&#xff01; ICLR 2022将于2022年 4 月 25 日星期一至 4 月 29 日星期五在线举行&#xff08;连续第三年&#xff01;&#xf…

1.8配置OSPF特殊区域

1.4.3实验8:配置OSPF特殊区域 实验目的实现OSPF Stub区域的配置实现OSPF NSSA区域的配置描述Type-7 LSA的内容描述Type-7 LSA与Type-5 LSA之间的转换过程实验拓扑配置OSPF特殊区域实验拓扑如图1-18的所示:[1] 图1-18 配置OSPF特殊区域 实验步骤 配置I…

有趣的HTML实例(十一) 烟花特效(css+js)

为什么今天不做炒土豆丝呢&#xff0c;为什么呢为什么呢为什么呢为什么呢&#xff0c;坚持问上一个时辰&#xff0c;一般来说&#xff0c;第二天我们的饭桌上就会出现炒土豆丝。这件事告诉了我们求知欲的重要性&#xff0c;知之才幸福&#xff0c;不知不幸福。 ——《华胥引》 …

ch4_1存储器

1. 存储器的类型 1.1 按照存储介质来分类 半导体存储器&#xff1a; TTL&#xff0c; MOS 易失性 磁表面存储器&#xff1a; 磁头&#xff0c; 载磁体&#xff1b; 磁芯存储器&#xff1a; 硬磁材料&#xff0c; 环状元件 光盘存储器: 激光&#xff0c; 磁光材料; 1.2 按…

【SSL/TLS】准备工作:证书格式

证书格式1. 格式说明1.1 文件编码格式1.2 文件后缀格式2. xca导出格式1. 格式说明 1.1 文件编码格式 1. PEM格式: 使用Base 64 ASCII进行编码的纯文本格式。后缀为“.pem”, ".cer", ".crt", ".key" 2. DER格式 二进制编码格式&#xff0c;文件…

Day889.MySQL高可用 -MySQL实战

MySQL高可用 Hi&#xff0c;我是阿昌&#xff0c;今天学习记录的是关于MySQL高可用的内容。 正常情况下&#xff0c;只要主库执行更新生成的所有 binlog&#xff0c;都可以传到备库并被正确地执行&#xff0c;备库就能达到跟主库一致的状态&#xff0c;这就是最终一致性。但是…

喜茶、奈雪的茶“花式”寻生路

配图来自Canva可画 疫情全面开放不少人“阳了又阳”&#xff0c;电解质饮品成为热销品&#xff0c;梨子、橘子、柠檬等水果被卖断货&#xff0c;凉茶、黄桃罐头被抢购一空&#xff0c;喜茶的“多肉大橘”、奈雪的“霸气银耳炖梨”、蜜雪冰城的“棒打鲜橙”、沪上阿姨的“鲜炖整…

深度学习网络模型——RepVGG网络详解

深度学习网络模型——RepVGG网络详解0 前言1 RepVGG Block详解2 结构重参数化2.1 融合Conv2d和BN2.2 Conv2dBN融合实验(Pytorch)2.3 将1x1卷积转换成3x3卷积2.4 将BN转换成3x3卷积2.5 多分支融合2.6 结构重参数化实验(Pytorch)3 模型配置论文名称&#xff1a; RepVGG: Making V…

Java实现定时发送邮件

特别说明&#xff1a;邮件所采用的均为QQ邮件 一、邮箱准备 作为发送方&#xff0c;需要开启相关服务。 首先打开邮箱&#xff0c;然后选择设置&#xff0c;再选择账户 开启以下服务 我们可以在这里获取邮箱的授权码。 二、项目准备 2.1、依赖引入 <dependencies>…

二分法-蓝桥杯

一、二分法引入-猜数游戏二分法:折半搜索。二分的效率:很高&#xff0c;O(logn)例如猜数游戏&#xff0c;若n1000万&#xff0c;只需要猜log10 7 24次猜数游戏的代码&#xff1a;bin_search------>二分搜索把一个长度为n的有序序列上O(n)的查找时间&#xff0c;优化到了O(lo…