POLARDB IMCI 白皮书 云原生HTAP 数据库系统 一 列式数据是如何存储与处理的

news2024/11/25 12:39:01

c022ddb3dd8867d9393ba8c3fcbcf1f8.png

开头还是介绍一下群,如果感兴趣polardb ,mongodb ,mysql ,postgresql ,redis 等有问题,有需求都可以加群群内有各大数据库行业大咖,CTO,可以解决你的问题。加群请联系 liuaustin3 ,在新加的朋友会分到2群(共950人左右 1 + 2 + 3)新人会进入3群

第四部分将深入介绍列索引存储,这是PolarDB-IMCI处理分析查询的关键部分。PolarDB-IMCI支持高度调优的面向事务处理的云存储的基于行的存储引擎[14, 28]。然而,基于行的数据格式因其无法有效地访问分析查询而闻名。受领先的工业级数据库(例如Oracle [30]、SQL Server [32])的启发,PolarDB-IMCI通过内存中的列索引实现了双重数据格式,以增强OLAP功能。

89e5897002e9688980b58d5cf491a2a7.png

如图4所示,PolarDB-IMCI中的列索引作为现有行存储的补充存储。在PolarDB-IMCI中,表的列可以选择地参与列索引。PolarDB-IMCI将表的所有行分为多个行组,并进行追加式写入以提高写入性能。在行组中,数据的每一列都与一些统计元数据一起组织成数据包。为了提供快照隔离,每个行组都包含一个插入版本ID(VID)映射和一个删除版本ID映射来控制并发事务处理的可见性。由于行组是追加式的,因此删除操作需要显式提供给定主键的行ID以设置该行的删除版本。为此,PolarDB-IMCI实现了一个行ID定位器(即两层LSM树)来将主键映射到列索引中行的物理位置。

数据包布局。首先,将关系表分成多个行组,行组的大小可配置(即每个行组64K行),而剩余的行组则形成部分行组(例如,图4中的行组N)。为了实现快速数据摄取,行组是追加式的(§4.2)。也就是说,全尺寸的行组是不变的,而部分行组将以追加式方式完成。在行组内属于同一列的数据以压缩格式组织成数据包,以降低空间消耗。请注意,PolarDB-IMCI不会压缩部分数据包,因为它们会持续更新。

元数据。为了避免在查询执行过程中进行不必要的数据访问,PolarDB-IMCI为每个数据包维护一个包元数据。包元数据跟踪每个包的最小和最大值,以及采样直方图,这有益于列扫描。例如,当查询语句指定WHERE子句谓词时,可以使用所引用列的包元数据来检查是否可以跳过对该包的扫描。

为了更好地理解在数据包上进行DML操作的流程,现在我们描述如何在列索引数据结构上进行DML操作。

• 插入:将行插入列索引包括以下四个步骤。首先,列索引从其部分Packs中分配一个空的RID。其次,定位器通过主键更新插入的行的新RID(即在LSM树中添加新记录)。然后,列索引将行数据写入空槽中(例如,图4中行组N内的数据包)。最后,插入VID记录已插入数据的事务提交序列号(即时间戳)。由于插入VID映射维护每个插入数据的插入版本,因此也遵循只追加的写入模式。

• 删除:删除操作通过主键(PK)通过RID定位器检索行的RID,然后使用其事务提交序列号设置相应的删除VID。之后,从定位器中删除PK和RID之间的映射以确保数据一致性。

• 压缩:当部分包达到最大容量并且需要减少空间消耗时,其被转换为数据包,然后压缩到磁盘中。压缩过程采用写时复制模式,以避免访问争用。也就是说,在不更改部分包的情况下生成一个新的数据包,PolarDB-IMCI在压缩后更新元数据,以将部分包替换为新的数据包(即原子地更新指向新数据包的指针)。对于各种数据类型,列索引采用不同的压缩算法。数字列采用参考帧、增量编码和位压缩压缩的组合,而字符串列使用字典压缩。此外,由于数据包是不可变的,当活动事务大于所有VID时,该数据包的插入VID映射是无用的,即没有活动事务引用该插入VID映射。在这种情况下,PolarDB-IMCI删除行组内的插入VID映射,以减少内存占用。

• 压缩:当部分包达到最大容量并且需要减少空间消耗时,其被转换为数据包,然后压缩到磁盘中。压缩过程采用写时复制模式,以避免访问争用。也就是说,在不更改部分包的情况下生成一个新的数据包,PolarDB-IMCI在压缩后更新元数据,以将部分包替换为新的数据包(即原子地更新指向新数据包的指针)。对于各种数据类型,列索引采用不同的压缩算法。数字列采用参考帧、增量编码和位压缩压缩的组合,而字符串列使用字典压缩。此外,由于数据包是不可变的,当活动事务大于所有VID时,该数据包的插入VID映射是无用的,即没有活动事务引用该插入VID映射。在这种情况下,PolarDB-IMCI删除行组内的插入VID映射,以减少内存占用。

• 紧缩:删除操作可以在数据包中设置删除VID,为该数据包打洞。随着无效行数的增加,扫描性能和空间效率会下降。PolarDB-IMCI定期检测和重新排列底部的数据包,以保持列索引的无效行的低水位。例如,稀疏数据包,有效行少于一半,被选为下溢。然后,后台线程发出紧缩事务,每个迁移的有效行进行大量的更新操作,将选定数据包的所有有效行重新附加到部分包中。请注意,列索引的更新操作是原地的,因此在紧缩期间或之后,旧行仍然可以通过前台操作进行访问,从而实现非阻塞更新。在没有活动事务访问它们时,紧缩后的数据包将被永久删除。

972d4cb31fbc552742c258eac3c06ef0.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/743193.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

VMware ESXi 7.0 U3n macOS Unlocker OEM BIOS (标准版和厂商定制版)

VMware ESXi 7.0 U3n macOS Unlocker & OEM BIOS (标准版和厂商定制版) ESXi 7.0 标准版和 Dell (戴尔)、HPE (慧与)、Lenovo (联想)、Inspur (浪潮)、Cisco (思科) 定制版镜像 请访问原文链接:https://sysin.org/blog/vmware-esxi-7-u3-oem/,查看…

第一代Spring Cloud核心组件

第一代Spring Cloud核心组件(Spring Cloud Netflix) Eureka服务注册中心(服务注册中心:Eureka,Nacos,Zookeeper,Consul) Ribbon负载均衡 Hystrix熔断器 Feign远程调用组件(Feign RestTemplate Ribbon Hystrix) GateWay网关组件 Config分布式配置中心 …

刘铁猛C#教程笔记——详解类型,变量,和对象第1节

强/弱类型语言 强类型语言:所谓强类型语言就是变量的值十分依赖变量的类型,也就是说假如一个变量其类型是整型,那么你在为该整型变量进行赋值的时候就不可以为其赋值一个字符串类型的常量,C#语言就是典型的强类型语言弱类型语言&…

C# 颠倒二进制位

190 颠倒二进制位 颠倒给定的 32 位无符号整数的二进制位。 提示: 请注意,在某些语言(如 Java)中,没有无符号整数类型。在这种情况下,输入和输出都将被指定为有符号整数类型,并且不应影响您的…

微软MFC技术中的消息循环

我是荔园微风,作为一名在IT界整整25年的老兵,今天来聊聊微软MFC技术中的消息循环。 在很多windows程序中,都有如下代码: //Win32应用程序入口函数WinMain() int WINAPI WinMain(HINSTANCE hInstance, //指向当前实例的句柄…

全链路Python环境迁移

全链路Python环境迁移 在当前的Python环境中,安装一些库以后,如果换了一套Python环境,难道再来一次不停的pip install?当然不是。 第一步,使用pip freeze(冻结)备份当前Python库的环境 pip f…

《微服务架构设计模式》第六章 使用事件溯源开发业务逻辑

内容总结自《微服务架构设计模式》 使用事件溯源开发业务逻辑 一、传统持久化技术的问题二、什么是事件溯源三、好处和弊端四、实现事件存储库五、与Saga结合六、总结 一、传统持久化技术的问题 1、对象与关系的"阻抗失调" 所谓的对象与关系的“阻抗失调”是一个古…

ThreadLocal与InheritableThreadLocal及线程池的影响

在web开发中使用了ThreadLocal本地线程存储拦截器解析的用户信息,方便在下文代码中调用,但是在springboot中使用Async开启异步操作时,就会造成,子线程无法拿到父本地线程数据。拿到一些脏数据。 1.InheritableThreadLocal 在这个…

常用技巧总结

本文总结了本人在日常工作学习中遇到的问题及其解决方法,没有固定的涉及领域 目的就是为了在下一次遇到类似问题的时候方便查找,从而快速解决问题 本文不定时更新~ 目录 Windows使用 如何实现桌面图标随意排列 文件资源管理器相关 显示隐藏文件 修改…

深度学习06-深度卷积生成对抗网络(DCGAN)

文章目录 概述原理简介专业术语零填充转置卷积 生成动漫图像算力选择数据集目录规划源代码数据源加载定义配置类定义模型 训练可视化绘制损失绘制生成器图像变化 其他项目CycleGANstargan 概述 GAN(Generative Adversarial Network)是一种生成模型&…

flutter开发实战-日志logger写入文件及print

flutter开发实战-日志logger写入文件及print 在开发中,需要日志logger写入文件,方便日后查看出现的问题。这里记录之前的实现方案。 使用的日志插件是logger 一、引入日志插件 在工程中pubspec.yaml引入logger logger: ^1.4.0二、代码实现 使用比较…

听GPT 讲K8s源代码--pkg(一)

在 Kubernetes 代码仓库中,pkg/api和pkg/apis目录都包含用于定义 Kubernetes API 对象的代码,但它们的作用略有不同。 pkg/api目录包含 Kubernetes 的旧版本 API 对象定义,这些定义在 Kubernetes 1.7 版本之前使用。这些对象定义已经过时&…

第四课:Figma 图标设计

图形绘制小技巧 绘制正圆 O shift 正方体 R shift,右侧属性面板可调整描边显示方向,描边类型; 直线 L shift 带角度的箭头 shift L ,按住 shift 键调整以 45 度角调整箭头方向,右侧属性面板可调节箭头方向和线条…

文献里的分子对接方法2

珍珠贝肉水解物中的新型抗氧化肽以及它们的抗氧化活性机制。 关于摘要: 自由基和衰老以及很多疾病都有关联。 抗氧化肽具有良好的抗氧化活性和吸收性,是抗氧化剂研究的热点之一。 这篇文献的研究中,纯化珍珠贝肉水解液、经过蛋白质组学鉴定…

大模型与端到端会成为城市自动驾驶新范式吗?

摘要: 最近可以明显看到或者感受到第一梯队的城市自动驾驶量产已经进入快车道,他们背后所依靠的正是当下最热的大模型和端到端的技术。 近期,城市自动驾驶量产在产品和技术上都出现了新的变化。 在产品层面,出现了记性行车或者称…

【python】逻辑中断(and or)

今天学习javascript的时候竟然有一个额外收获:逻辑中断。而且我实验了一下,逻辑中断同样适用于python。 0 and 2返回: 0 1 and 2返回: 2 0 and 2返回的是0,而1 and 2返回的是2。就是因为在0那里出现了逻辑中断。 解…

Git的使用以及在IDEA2022中使用Git

目录 前言 一、Git下载与安装 二、Git常用命令 1.全局设置 2.获取Git仓库-在本地初始化Git仓库 3.获取Git 仓库-从远程仓库克隆 4.Git工作区、暂存区、版本库 概念以及工作区中文件状态 (1)工作区、暂存区、版本库 (2) G…

centos7.9 rc.local启动失败

最近在虚拟机上整个centos7.9,想要把程序设置成开机自启动,发现rc.local状态是failed,重启服务器也没用。 自己之前写过两篇相关的博客 centos7重启后/etc/rc.local中的脚本没有执行_lanren312的博客-CSDN博客 centos7开机运行java的sh脚本…

Sui 8192:如何使用Sui对象撼动游戏领域

Ethos通过其Sui 8192游戏不仅展示了对象在Sui上的力量,还展示了基于对象的游戏如何有力地撼动游戏行业。每个玩家在移动游戏中的方块时都会铸造一个新的对象,类似于铸造NFT,这为每个独立玩过的游戏提供了永久上链的机会。 Sui 8192游戏的规则…

10.4.4 终端机的环境设置: stty, set

在 tty1 ~ tty6 这六个命令行的终端机(terminal) 环境中登陆,登陆的时候我们可以取得一些字符设置的功能。举例来说,我们可以利用倒退键 (backspace,就是那个←符号的按键) 来删除命令列上的字符…