AntDB-M高性能设计之hash索引动态rehash

news2024/12/23 8:55:42

AntDB-M支持hash索引、btree索引等索引类型,hash索引以hash表的方式实现,一个简单的hash表示意图如图1所示。hash桶下的元素节点为单向或者双向链表,数据行上某一个或者某几个字段组成索引,通过hash函数对索引字段的值进行运算,映射到某个hash桶下,hash桶下的元素节点存储了数据行的行号。

        图1:hash table原理示意图

当使用 select * from table where a = value; 进行查询时,先根据value计算hash值,算出在第几个hash桶,然后遍历hash桶下的元素,根据存储的行号,取出每一行a列存储的值,与value进行比对,若完全相等,则就是要找的行。

以hash桶下的节点为双向链表举例,桶下的元素节点结构一般为

struct node{        uint8            oid;   // 数据行行号或者其它含义的value        node *    node_prev;  // 上一个节点        node *    node_next;  // 下一个节点}

sizeof(node)总共 8+8+8 =24个字节;

对于AntDB-M来讲,内存是非常宝贵的资源,在实现hash索引且保证性能的前提下,内存占用必须尽量小。对于数据库里的某张表,假设表总共有m行,表上有n个hash索引,则这张表就有n套hash结构,每套hash结构有m个桶节点,以上述双向链表为例,这张表的hash索引占用的内存为 n*(hash索引头节点占用内存 + m*24字节),24个字节有时甚至比数据表中这行数据本身还要大。

AntDB-M hash索引数据结构优化

为了减少索引数据的内存占用,AntDB-M使用数组元素来模拟链表节点,不再额外分配空间存储链表节点的值。一次性分配所有的节点,避免频繁的内存分配释放。

struct array_node{uint8   prev_oid;   // 上一个节点的位置uint8   next_oid;   // 下一个节点的位置}

sizeof(array_node)总共 8+8 =16个字节,oid为0代表上一个、下一个节点为空,即本节点的前面或者后面没有其它节点了。对于某张有n行数据的数据表,申请分配数组空间array_node[n],对于数组中的某个元素array_node[k],k有两个含义:

  • 数组中的下标,用于访问array_node[k]. prev_oid和array_node[k]. next_oid;

  • array_node[k]指向数据库此表中的第k行,可以去访问这张表第k行的内容。这样就避免存储了uint8 oid(数据行行号),节省了1/3的内存空间;如果hash桶下的节点是单向链表,则节省了2/3的内存。

下面举例说明:

假设一张数据表初始建表时预分配了m行,则对应的hash结构的bucket个数为n(n在实现时为大于m的最小素数),对应hash索引的桶节点数组预分配n个元素,即uint8 bucket_head[n], bucket_head记录每个桶的头节点指向第几行(也代表指向数组array_node的第几个元素);分配连续数组array_node[m], 对应于bucket下面双向链接的节点元素。

假设对于某个hash索引, 数据表的第3行,第29行,第36815行都映射到桶2下,则桶2的头结点指向表上的第3行数据, 也指向array_node的第3个元素。

bucket_head[2]=3;array_node [3] ->prev_oid=0;          array_node [3] -> next_oid=29;array_node [29] ->prev_oid=3;               array_node [29] ->next_oid=36815;array_node [36815] ->prev_oid=29;array_node [36815] ->next_oid=0;

这样,同样做到了前后的遍历(next_oid=0表示这是链表上的最后一个有效元素),相比前一种方式,通过数组来模拟链表,内存占用减少,并且数组的内存是一次性分配出来,内存连续,访问速度快。

随着业务的运行,数据表的规模可能不断地扩大,比如一张表刚创建时预分配1000万行,运行一段时间后扩展到5000万行,如果hash结构的bucket个数还是1000万左右,则每个bucket下面的平均有5个元素,hash冲突增大,查找效率降低。此时,我们需要对数据进行rehash,动态调整hash结构,减少hash冲突,同时又不阻塞hash table的增删改查。

AntDB-M 动态rehash原理

如图2所示,每个hash桶下面都有一把桶锁lock,当读取、插入、删除桶下元素时,需要对桶加锁。migrate_node指示当前正在迁移的bucket,具体迁移某个bucket时,也是先对bucket加桶锁,迁移完bucket下面的所有元素后释放桶锁,然后migrate_node再指向下一个bucket.

1. 每当表的数据行增加一定数量时,新建一个新的hash_table结构,此时新老两套hash_table并存;

2. 遍历老的hash_table, 从第一个桶开始,加桶锁,遍历桶下面的每一个元素,计算它在新的hash_table上的位置,迁移插入到新的hash_table结构;

3. 所有桶的元素迁移完成之后,释放老的hash_table结构,数据的增删改查完全切换到新的hash_table;

图2:AntDB-M动态rehash示意图

为何动态rehash的过程不阻塞hash table的增删改查,本文以查找和插入举例,用流程图的方式说明如下。更新(分解为查找+删除+插入)和删除的流程也是类似的,不管是查找,插入、更新、删除,都要先在老的hash结构上查找数据位于哪个bucket下面。

图3:动态rehash过程中的find

图4:动态rehash过程中的insert

性能优势

表扩容时动态扩展hash结构,不阻塞AntDB-M服务及应用,对用户透明。AntDB-M内部通过增加hash桶个数和迁移桶下元素,减少hash冲突,使得hash索引性能不因数据行的增多而降低,快速定位数据。

综上所述,hash索引巧妙设计的数据结构,以及动态rehash的并行算法使得AntDB-M的hash索引具备持续高性能的特性,以满足复杂业务应用的性能需求。

关于AntDB数据库

AntDB数据库始于2008年,是亚信科技自主研发的分布式关系型数据库品牌,AntDB-M是面向高性能内存型数据库,是AntDB的子产品之一,在运营商的核心系统上,为全国24个省份的10亿多用户提供在线服务,具备高性能、弹性扩展、高可靠等产品特性,峰值每秒可处理百万笔通信核心交易,保障系统持续稳定运行近15年,并在通信、金融、交通、能源、物联网等行业成功商用落地。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1191882.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【计网 传输层概述】 中科大郑烇老师笔记 (十)

目录 0 引言1 概述1.1 传输服务和协议1.2 传输层 vs 网络层1.3 Internet传输层协议 TCP和UDP 2 多路复用、解复用2.1 UDP的多路复用2.2 TCP的多路复用 3 UDP3.1 概述3.2 UDP报文段3.3 拓展:TCP报文段 🙋‍♂️ 作者:海码007📜 专栏…

浅谈安科瑞直流电表在加拿大光伏系统中的应用

摘要:本文介绍了安科瑞直流电表DJSF1352在加拿大光伏系统中的应用。主要用于光伏系统中的电流的计量,配合分流器对电流进行计量。 Abstract: This article introduces the application of Acrel DC meters in PV system in Canada.The device is measu…

css:clip元素裁剪实现Loading加载效果边框

clip 属性定义了元素的哪一部分是可见的。clip 属性只适用于 position:absolute 的元素。 警告: 这个属性已被废弃。建议使用 clip-path 文档 https://developer.mozilla.org/zh-CN/docs/Web/CSS/cliphttps://developer.mozilla.org/zh-CN/docs/Web/CSS/clip-path …

振南技术干货集:C语言的一些“骚操作”及其深层理解(2)

注解目录 第二章《c语言的一些“操作”及其深层理解》 一、字符串的实质就是指针 (如何将 35 转为对应的十六进制字符串”0X23”?) 二 、转义符\ (打入字符串内部的“奸细”。) 三、字符串常量的连接 &#xff…

2023年【公路水运工程施工企业安全生产管理人员】复审考试及公路水运工程施工企业安全生产管理人员考试试题

题库来源:安全生产模拟考试一点通公众号小程序 公路水运工程施工企业安全生产管理人员复审考试根据新公路水运工程施工企业安全生产管理人员考试大纲要求,安全生产模拟考试一点通将公路水运工程施工企业安全生产管理人员模拟考试试题进行汇编&#xff0…

asp.net学生部门管理系统VS开发sqlserver数据库web结构c#编程Microsoft Visual Studio

一、源码特点 asp.net 学生部门管理系统是一套完善的web设计管理系统,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为vs2010,数据库为sqlserver2008,使用c#语言 开发 asp.net学生部门管理系统1 应用技…

详解机器学习最优化算法

前言 对于几乎所有机器学习算法,无论是有监督学习、无监督学习,还是强化学习,最后一般都归结为求解最优化问题。因此,最优化方法在机器学习算法的推导与实现中占据中心地位。在这篇文章中,小编将对机器学习中所使用的…

Springboot通过ObjectMapper(节点树)解析JSON

1、ObjectMapper通过节点树的方式解析JSON字符串 1.1、通过节点直接获取属性值 1.1.1、测试代码 node.get("order_id"):直接获取JSON中属性对应的值 Test public void parseJson() throws Exception{//创建json字符串,模拟从外界接收的订…

2023年【危险化学品生产单位安全生产管理人员】最新解析及危险化学品生产单位安全生产管理人员理论考试

题库来源:安全生产模拟考试一点通公众号小程序 危险化学品生产单位安全生产管理人员最新解析考前必练!安全生产模拟考试一点通每个月更新危险化学品生产单位安全生产管理人员理论考试题目及答案!多做几遍,其实通过危险化学品生产…

halcon分割粘连字符

下面的算子都可以分割: 1.*(推荐使用这个)在垂直范围较小的位置水平划分区域 partition_dynamic(circleRegion,parRegion,76,50)2.*将一个区域划分为大小大致相等的矩形。(这个方法适合宽度相等,很规则的排列的字符串…

韩语图片文字如何转为纯文本?

如何将上图为韩语的图片转为文本文件?这个需要用到OCR程序,操作方法如下: 一、打开金鸣识别网站。 二、点击“点击添加图片/PDF”,将待识别的图片添加到列表。 三、识别模块点选“通用文字”,输出格式选择“纯文本输…

Python 函数定义详解(More on Defining Functions)- 默认参数/位置参数/关键字参数

1.函数的定义和调用方法 1.1函数定义方法 """def 关键字用来定义一个函数。function_name 是函数名,应遵循命名规范。parameter1, parameter2, ... 是函数的参数列表,可以是任意数量和类型的参数。函数体是用缩进(通常为4个…

线上SQL超时场景分析-MySQL超时之间隙锁 | 京东物流技术团队

前言 之前遇到过一个由MySQL间隙锁引发线上sql执行超时的场景,记录一下。 背景说明 分布式事务消息表:业务上使用消息表的方式,依赖本地事务,实现了一套分布式事务方案 消息表名:mq_messages 数据量:3…

Facebook广告被暂停是什么原因?Facebook广告账号被封怎么办?

许多做海外广告投放的小伙伴经常遇到一个难题,那就是投放的Facebook广告被拒或 Facebook 广告帐户被关闭赞停的经历,随之而来的更可能是广告账户被封,导致资金的损失。本文将从我自身经验,为大家分享,Facebook广告被暂…

kafka 集群企业部署最佳实践

📢📢📢📣📣📣 哈喽!大家好,我是【IT邦德】,江湖人称jeames007,10余年DBA及大数据工作经验 一位上进心十足的【大数据领域博主】!😜&am…

Git安装配置保姆级教程和Git创建仓库的基本原理和常用命令

目录 前言 一、Git简介 1.Git 与 SVN 区别点 2.Git的介绍 3.Git 工作流程 4.Git 工作区、暂存区和版本库 二、Git安装配置 1.Linux 平台上安装 2.Windows 平台上安装 三、Git 创建仓库和下载 1、首先需要注册一个gitee账号 2.git初始化并提交到远程仓库 3.另一用户…

chrome 的vue3的开发者devtool不起作用

问题: 刚刚vue2升级到vue3,旧的devtool识别不了vue3数据。 原因: devtool版本过低。升级到最新。 解决: 去github下载vuetool项目代码: GitHub - vuejs/devtools: ⚙️ Browser devtools extension for debugging…

Linux学习笔记之五(父子进程、孤儿进程、僵尸进程、守护进程)

Linux 1、进程1.1、进程的六种状态1.2、创建子进程1.3、添加子进程任务1.4、孤儿进程、僵尸进程、守护进程1.4.1、避免僵尸进程1.4.2、创建守护进程1.4.3、杀死守护进程 1.5、综合练习 1、进程 进程可以简单的理解为一个正在执行的程序,它是计算机系统中拥有资源和…

django建站过程(4)创建文档显示页面

django建站过程(4)创建文档显示页面 创建文档显示页面项目主文件夹schoolapps中的文件urls.py在APP“baseapps”中创建url.py文件编写视图模板继承bootstrap创建head.html创建doclist.html创建docdetail.html 使用 markdown 编辑器安装模块Model 模型的d…

Hello World背后的逻辑

一门语言的开发入门,总是抬手就能整出一个「Hello World Demo」。比如下面这样: 显然,熟悉 iOS 开发的同学都知道,上面这个来自 Objective-C。 今天,我们就从这熟悉的代码入手,来一起研究研究「Hello Worl…