GBASE南大通用-GBase 8s分片表操作 提升大数据处理性能

news2025/1/20 1:44:43

目录

 一、GBase 8s分片表的优势

二、六种分片方法

轮转

        1.轮转法

基于表达式分片

        2.基本表达式

        3.Mod运算表达式

        4.Remainder关键字方式

        5.List方式

        6.interval 固定间隔

三、分片表的索引

        1.创建索引的注意事项

        2.detach索引替代delete功能展现

        3.在现有分片表上增加一个新的分片

四、dbspace数据库空间

        1.增加dbspaces空间

        2.查看空间大小

        3.查看空间剩余大小

GBase 8s 的分片是用来处理数据量非常大的表和索引的技术。分片可以用将大表拆分为小表的方式进行管理,提高了GBase 8s的大数据处理性能。同时对外提供的是同一个表的管理方式,这样对于使用数据库的访问者而言非常透明。

1、分片是指把一个表的数据分散到多个dbspace中存储。

2、在逻辑上对外提供一个表的访问接口。

3、在数据库内部,物理上把大表拆分为多个小表进行管理。

一、GBase 8s分片表的优势

概括一下,GBase 8s分片表的优势体现在以下三点:

(1)  有效处理大数据表。

 有效利用并发运行,分片表可以启动PDQ,开启多线程并行处理,可以充分利用多 CPU、多磁盘的物理资源,大大提高大数据表的访问速度。利用分片忽略,可减少需要访问的表空间。利用分片表将大表拆分存放的特性,相当于以访问小表的效率进行访问,如某分片方式将每年存储在一个分片上,那么查询某一时间点的数据时,只需要扫描分片表的一个分片即可,可以有效地处理大数据量的表。实现仅仅对包含“目标数据”的数据分片进行扫描。从而大幅度地提高了整个系统效率。

(2)  分片容易管理--表组合/表分离(attach/detach)。

 可以利用GBase 8s对分片表提供的attach和detach功能对分片表进行快速、高效的管理。例如detach可以对表的某一个分片进行快速分离,我们可以利用该功能对历史数据进行快速删除,可以替代delete方式。

(3)  有效地提高可用性。

 当表的某个分片出现故障时,表的其他分片的数据仍然可用,同时只需要修复该分片即可。当我们需要对表进行重建时,我们可以对分片表利用attach/detach按分片一个个地完成重建,从而提高表的可用性,满足7x24运行模式的要求。

下面我们来看GBase分片的具体实现。

二、六种分片方法

GBase的六种分片方式可以大致划分为两类:一类是轮转法分片,第二类是基于表达式的方式。

轮转法:

1.轮转法

“轮转法分片”这个存放方法采用轮询调度,依次在dbspaces上存储数据库。特点为:

简单,不需要了解数据的分布 ;

把数据均匀地分配到所有分片中 ;

提高查询性能 ;

只能用于表,不能用于索引 ;

不能利用到忽略分片的特性,没有成功减少对磁盘的扫描;

可配合PDQ启用多线程并行扫描以提高查询性能。

 create table tab_round_robin

(
  id int,
  name varchar(40),
  nation varchar(40), 
  regtime datetime year to second default current year to second not null
) fragment by round robin
  in datadbs1,datadbs2,datadbs3,datadbs4;

显示的指定索引

create index ix_tab_round_robin_id on tab_round_robin(id) in datadbs1;

基于表达式分片:

“基于表达式分片”则根据表中的一个或多个字段对分片的规则进行定义,一般在预知查询条件时采用这种方式,从而避免查询中对某些分片的扫描。其特点为:

需要对数据分布有所了解 ;

为分片忽略和性能提升提供可能 ;

既可以用于表也可以用于索引 ;

可以基于一列或者多列构建表达式。

基于表达式包括多种具体的形式,下面将介绍5种形式:

2.基本表达式

#当不指定partition时,sql语句如下:

create table tab_expression_based
(
  id int,
  name varchar(40),
  nation varchar(40), 
  regtime datetime year to second default current year to second not null
) fragment by expression
id < 100 in datadbs1,
id < 200 in datadbs2,
id < 300 in datadbs3;

#加入指定partition,sql语句如下,这对于查询可以更好的提高效率。

#partition指定的情况下可以对于不同的p0、p1、p2都放在同一个datadbs1空间中

create table tab_expression_based
(
  id int,
  name varchar(40),
  nation varchar(40), 
  regtime datetime year to second default current year to second not null
) fragment by expression
PARTITION p0 id < 100 in datadbs1,
PARTITION p1 id < 200 in datadbs2,
PARTITION p2 id < 300 in datadbs3;

3.Mod运算表达式

加入取余运算的基本表达式。

create table employee
(
    id int,
    name char(50),
    salary int
)fragment by expression
MOD(id,3) = 0 IN datadbs1,
MOD(id,3) = 1 IN datadbs2,
MOD(id,3) = 2 IN datadbs3;

create index idx_employee on employee(id);

4.Remainder关键字方式

利用remainder关键字将难以表达的范围数据指定到一个分片中。

create table table_test
(
    col1 int,
    col2 date
)fragment by expression
col1 >= 0 and col1 < 100 in datadbs1,
col1 >= 100 and col1 < 200 in datadbs2,
remainder in datadbs3;

create index idx_table_test on table_test(col1);

5.List方式

List方式本质上是对or和in运算的改进,使表达式计算更有灵活性,效率更高。

create table customer
(
    id int,
    name varchar(128),
    street varchar(255),
    state char(2),
    zipcode char(5),
    phone char(15)
)fragment by list(state)
PARTITION p0 values('RS','IL') in datadbs1,
PARTITION p1 values('CA','OR') in datadbs2,
PARTITION p2 values('NY','MN') in datadbs3,
PARTITION p3 values(NULL) in datadbs4;

insert into customer values(1,'suyi','xiqing','RS','12345','12211231223');
insert into customer values(2,'suer','xiqing','IL','12345','13333333333');
insert into customer values(3,'susan','xiqing','OR','12345','14444444444');
insert into customer values(4,'susi','xiqing','CA','12345','15555555555');
insert into customer values(5,'suwu','xiqing','NY','12345','16666666666');
insert into customer values(6,'suliu','xiqing','MN','12345','17777777777');
insert into customer values(7,'suqi','xiqing','','12345','1888888888');
insert into customer values(8,'suba','xiqing','RS','12345','19999999999');

#查看分片的具体信息

select t.tabname,f.dbspace,f.partition,f.exprtext
from systables t,sysfragments f
where t.tabid = f.tabid and f.fragtype = 'T'
and t.tabname = 'customer';

#查询结果如下

tabname    customer
dbspace
partition
exprtext
state

tabname    customer
dbspace    datadbs1
partition  p0
exprtext
VALUES ('RS' ,'IL' )

tabname    customer
dbspace    datadbs2
partition  p1
exprtext
VALUES ('CA' ,'OR' )

tabname    customer
dbspace    datadbs3
partition  p2
exprtext
VALUES ('NY' ,'MN' )

tabname    customer
dbspace    datadbs4
partition  p3
exprtext
VALUES (NULL)

5 row(s) retrieved.

通过update语句确认我们的分片表结构,成功按照list方式进行分片。

update customer set state = '' where id = 1;

执行上述update语句后,当前记录会从当前分片中删除并且在新的分片里面插入,通过逻辑日志展示,可以证明我们的想法。

图片

update customer set state = 'OR' where id = 4;

再来尝试上面这条update语句,我们知道当前记录对应的条件没有发生变化,仍在原来分区,只是state的值进行更新,所以猜想应该只是更新记录。通过查看逻辑日志,证明我们的猜想正确。

图片

图片

6.interval 固定间隔

最初的分片是基于一个range语句来定义的。

优点:GBase 8s提供的基于interval的分片策略,将根据Insert记录的情况自动扩展分片,可提供更为灵活的方式,减少人工维护。

create table sales
(
    amount int,
    id int,
    data_time datetime year to second
)fragment by range(data_time)
interval (10 units day)
store in (datadbs1,datadbs2,datadbs3,datadbs4)
partition p_sales0 values < '2023-01-01 00:00:00' in dbspace;

create unique index idx_sales on sales(data_time,id);

三、分片表的索引

GBase 8s的索引分为attached和detached的两种索引。

两种索引的区别在于:attached索引指每个分片的数据都有相应的索引独立存在;detached索引指的是索引与分片数据存储在不同的dbspace上。

我们先简单的建立两种索引,了解一下。

create table frag_exp_tab
(
    sale_time datetime year to second,
    product_id int,
    product_time datetime year to second,
    price float,
    sale_amount int,
    primary key(sale_time,product_id)
)fragment by expression
sale_time < '2022-01-01 00:00:00' and sale_time >= '2021-01-01 00:00:00' in datadbs1,
sale_time < '2021-01-01 00:00:00' and sale_time >= '2020-01-01 00:00:00' in datadbs2,
sale_time < '2020-01-01 00:00:00' and sale_time >= '2019-01-01 00:00:00' in datadbs3;

create index idx_frad_exp_tab on frag_exp_tab(product_time,product_id);

#命令行中输入以下命令,可以查询当前表对应索引

oncheck -ci t:frag_exp_tab
#在GBase 8s中自动为主键、外键、唯一约束创建索引,默认情况下为detached索引。

#GBase 8s自动创建的索引名字为空格+tabid_+一个序号组成。

Validating indexes for t:root.frag_exp_tab...
                Index  101_1     #detached索引
                  Index  fragment partition rootdbs in DBspace rootdbs
                Index idx_frad_exp_tab   #attached索引
                  Index  fragment partition datadbs1 in DBspace datadbs1
                  Index  fragment partition datadbs2 in DBspace datadbs2
                  Index  fragment partition datadbs3 in DBspace datadbs3

1.创建索引的注意事项

注意:产生'-872'错误码的原因:

在分片表上,如果要创建一个unique的attached索引,需要在索引中包含分片的key字段,所以基于表达式的分片表上可以创建,不能在轮转法上创建。

2.detach索引替代delete功能展现

前文开始部分就提到,detached索引还可以起到将分片表中某一分片快速分离的作用,下面进行一个操作实践,直观感受一下detach起到的替代delete的功能。

①首先我们创建一个detached索引。

create index idx_frad_exp_tab2 on frag_exp_tab(product_time,sale_time) in datadbs4;

②其次向里面插入一部分数据,为了清晰的展示分片分离。

insert into frag_exp_tab values('2021-09-06 00:00:00',1,'2000-01-01 00:00:00',999.9,1);
insert into frag_exp_tab values('2020-09-06 00:00:00',2,'1999-01-01 00:00:00',666.6,2);
insert into frag_exp_tab values('2019-09-06 00:00:00',3,'1998-01-01 00:00:00',333.3,3);
insert into frag_exp_tab values('2020-05-01 00:00:00',4,'2000-01-01 00:00:00',111.1,1);

图片

③执行detch子句,将范围区间分片datadbs2从表frag_exp_tab拆离并放置到新的未分片表segregation_tab1中。

alter fragment on table frag_exp_tab detach partition datadbs2 segregation_tab1;

图片

图片

3.在现有分片表上增加一个新的分片

①首先在命令行下执行语句,查看我们当前表的结构状态。

dbschema -d t -t frag_exp_tab -ss

图片

我们向里面加入一个新的分片。

alter fragment on table frag_exp_tab add
sale_time < '2021-01-01 00:00:00' and sale_time >= '2020-01-01 00:00:00' in datadbs2
before datadbs3;

③查看当前表结构,可以看到,已经增加了一个分片,操作成功。

图片

四、dbspace数据库空间

在实现GBase 8s分片技术时,基本都会使用到增加数据库空间的操作,下面对dbspace进行一下简单操作介绍。

1.增加dbspaces空间

创建新数据库空间,使用onspaces命令。

onspaces -c -d-k-p-o-s

在linux环境中页大小默认2k,这里我们创建一个新的datadbs1,大小为1024000kb。

cd /home/su/gbase/storage
touch datadbs1
chmod 660 datadbs1
chown gbasedbt:gbasedbt datadbs1
onspaces -c -d datadbs1 -k 2 -p /home/su/gbase/storage/datadbs1 -o 0 -s 1024000

以下例子为创建一个临时 dbspace,名为 tempdbs1,大小为 500000,使用裸设备/dev/rdsk/device9,偏移量为 100000:

 onspaces -c -t -d tempdbs -p /dev/rdsk/device9 -o 100000 -s 500000 

图片

2.查看空间大小

使用命令onstat -d 查看数据库空间信息。

图片

number 为表空间唯一标示号;

pagesize  数据库空间的页大小;

flag        列信息:

Position 1:   M   镜像
       N   未镜像

Position 2:   X   新镜像
       D   Down,不可用chunk
       P   物理恢复完成,等待逻辑恢复
       L   正在逻辑恢复
       R   正在恢复
   Position 3:   B   BLOB空间
       P   物理日志空间
       S   智能大对象空间
       T   临时空间
       U   临时智能大对象空间
       W   SDS主节点的临时空间,只在SDS备节点显示
Position 4:   B   空间可包含大于2G的chunk
Position 5:   A   空间自动扩展

每个数据库空间有一个Chunk文件。Chunk输出信息中有size信息,这个信息是Chunk的页的数据,不是文件的字节大小。要得到Chunk的文件字节大小,需要用这个size乘以Chunk文件对应的数据库空间的pgsize。

3.查看空间剩余大小

剩余大小就是chunk输出信息中free数据乘以Chunk文件对应的数据库空间的pgsize。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1344793.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

二叉树顺序结构与堆的概念及性质(c语言实现堆)

上次介绍了树&#xff0c;二叉树的基本概念结构及性质&#xff1a;二叉树数据结构&#xff1a;深入了解二叉树的概念、特性与结构 今天带来的是&#xff1a;二叉树顺序结构与堆的概念及性质&#xff0c;还会用c语言来实现堆 文章目录 1. 二叉树的顺序结构2.堆的概念和结构3.堆…

高光回眸:阿里云容器服务如何全面助力精彩亚运

作者&#xff1a;刘佳旭 谢乘胜 贤维 引言 2023 年&#xff0c;第 19 届杭州亚运会在杭州成功举办。在亚运之光和科技之光的交相辉映下&#xff0c;这届亚运会成为亚运史上首届“云上亚运”&#xff0c;用云计算创造了历史&#xff0c;赛事核心系统和转播全面上云&#xff0c…

leetcode贪心算法题总结(三)

本章目录 1.合并区间2.无重叠区间3.用最少数量的箭引爆气球4.整数替换5.俄罗斯套娃信封问题6.可被三整除的最大和7.距离相等的条形码8.重构字符串 1.合并区间 合并区间 class Solution { public:vector<vector<int>> merge(vector<vector<int>>&…

图像的颜色及Halcon颜色空间转换transfrom_rgb/trans_to_rgb/create_color_trans lut

图像的颜色及Halcon颜色空间转换 文章目录 图像的颜色及Halcon颜色空间转换一. 图像的色彩空间1. RGB颜色 2. 灰度图像3. HSV/ HSI二. Bayer 图像三. 颜色空间的转换1. trans_from_rgb算子2. trans_to_rgb算子3. create_color_trans_lut算子 图像的颜色能真实地反映人眼所见的真…

地震烈度速报与预警工程成功案例的经验分享 | TDengine 技术培训班第一期成功落地

近日&#xff0c;涛思数据在成都开设了“国家地震烈度速报与预警工程数据库 TDengine、消息中间件 TMQ 技术培训班”&#xff0c;这次培训活动共分为三期&#xff0c;而本次活动是第一期。其目标是帮助参与者深入了解 TDengine 和 TMQ 的技术特点和应用场景&#xff0c;并学习如…

Github 2023-12-30 开源项目日报 Top10

根据Github Trendings的统计&#xff0c;今日(2023-12-30统计)共有10个项目上榜。根据开发语言中项目的数量&#xff0c;汇总情况如下&#xff1a; 开发语言项目数量TypeScript项目4JavaScript项目2C项目1Python项目1Java项目1HTML项目1Dart项目1非开发语言项目1 令人惊叹的 …

(001)Unit 编译 UTF8JSON

文章目录 编译 Dll编译报错附录 编译 Dll 新建工程&#xff1a; 注意 UnityEngineDll 的选择&#xff01;2022 版本的太高了&#xff01;&#xff01;&#xff01; 下载包&#xff0c;导入unity : 3. 将 unf8json 的源码拷贝到新建的工程。 4. 编译发布版本&#xff1a; 编译…

浅层神经网络时间序列预测和建模

目录 时间序列网络 NARX 网络 NAR 网络 非线性输入-输出网络 定义问题 使用神经网络时间序列拟合时间序列数据 使用命令行函数拟合时间序列数据 选择数据 选择训练算法 创建网络 准备要训练的数据 划分数据 训练网络 测试网络 查看网络 分析结果 闭环网络 向…

数据的复制

基本概念 数据的复制指的是通过网络链接的多台机器保留相同的副本 为什么要进行数据的复制 使得用户和数据在地理上比较接近&#xff0c;因为大数据要求我们将计算安排在数据存放的位置和我们基本的内存模型不是很一样 &#xff0c;比如磁盘调入内存之类的。即使系统的一部分…

XTU-OJ-1452-完全平方数-笔记

参考博客 XTU-OJ 1452-完全平方数 题意 输入一个奇数&#xff0c;使得 n*(2*an-1)/2是一个完全平方数&#xff0c;求满足条件的最小的a 1<n<1e9 先输入样例数&#xff0c;再输入n 输入 2 1 3 输出 0 2 代码 #include<stdio.h>#define N 1000000010int a…

C#多条件排序OrderBy、ThenBy

方法和效果 有多个排序条件&#xff0c;其实不用单独自己写排序方法的&#xff0c;C#内置了排序方法&#xff1a; 引用命名空间System.Linq 正向排序的方法&#xff1a;OrderBy首要条件&#xff1b;ThenBy次要条件&#xff0c;可以连续多个使用 同理&#xff0c;逆向排序对应…

three.js绘制网波浪

无图不欢&#xff0c;先上图 使用方法&#xff08;以vue3为例&#xff09; <template><div class"net" ref"net"></div> </template><script setup> import { ref, onMounted } from vue import NetAnimation from /util…

面向搜索引擎优化初学者的 Google PageRank

即使你认为搜索已经摆脱了 PageRank 的影响&#xff0c;但时至今日&#xff0c;PageRank 很可能仍然存在于许多搜索巨头的系统中。 PageRank 曾经是搜索的核心&#xff0c;也是谷歌成为今天这个帝国的基础。 即使你认为搜索已经脱离了 PageRank&#xff0c;但不可否认的是&am…

阶段性复习(三)

if后面是赋值符&#xff0c;所以最后的值是a for&#xff08;&#xff1b; &#xff1b;&#xff09;是死循环 大小写转换 在这道题中&#xff0c;通过分析可知&#xff0c;在小写转换大写的过程中&#xff0c;需要满足的条件是word0&#xff0c;同时是小写&#xff0c;而在第…

Oracle 19c OCP 1z0 082考场真题解析第17题

考试科目&#xff1a;1Z0-082 考试题量&#xff1a;90 通过分数&#xff1a;60% 考试时间&#xff1a;150min 本文为云贝教育郭一军guoyJoe原创&#xff0c;请尊重知识产权&#xff0c;转发请注明出处&#xff0c;不接受任何抄袭、演绎和未经注明出处的转载。 17. Which three …

[C#]opencvsharp进行图像拼接普通拼接stitch算法拼接

介绍&#xff1a; opencvsharp进行图像拼一般有2种方式&#xff1a;一种是传统方法将2个图片上下或者左右拼接&#xff0c;还有一个方法就是融合拼接&#xff0c;stitch拼接就是一种非常好的算法。opencv里面已经有stitch拼接算法因此我们很容易进行拼接。 效果&#xff1a; …

Linux网络编程学习心得.5

1.libevent编写tcp服务器流程 创建套接字 绑定 监听 创建event_base根节点 初始化上树节点 lfd 上树 循环监听 收尾 普通的event事件 文件描述符 事件(底层缓冲区的读事件或者写事件) 触发 回调 高级的event事件 bufferevent事件 核心: 一个文件描述符 两…

【力扣题解】P654-最大二叉树-Java题解

&#x1f468;‍&#x1f4bb;博客主页&#xff1a;花无缺 欢迎 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! 本文由 花无缺 原创 收录于专栏 【力扣题解】 文章目录 【力扣题解】P654-最大二叉树-Java题解&#x1f30f;题目描述&#x1f4a1;题解&#x1f30f;总结…

【Linux操作系统】探秘Linux奥秘:操作系统的入门与实战

&#x1f308;个人主页&#xff1a;Sarapines Programmer&#x1f525; 系列专栏&#xff1a;《操作系统实验室》&#x1f516;诗赋清音&#xff1a;柳垂轻絮拂人衣&#xff0c;心随风舞梦飞。 山川湖海皆可涉&#xff0c;勇者征途逐星辉。 目录 &#x1fa90;1 初识Linux OS …

【BERT】深入BERT模型2——模型中的重点内容,两个任务

前言 BERT出自论文&#xff1a;《BERT&#xff1a;Pre-training of Deep Bidirectional Transformers for Language Understanding》 2019年 近年来&#xff0c;在自然语言处理领域&#xff0c;BERT模型受到了极为广泛的关注&#xff0c;很多模型中都用到了BERT-base或者是BE…