OceanBase V4.3 列存引擎之场景问题汇总

news2025/1/4 8:02:44

在OceanBase 4.3版本发布后(OceanBase社区版 V4.3 免费下载),其新增的列存引擎,及行列混存一体化的能力,可以支持秒级实时分析,引发了用户、开发者及业界人士的广泛讨论。本文选取了这些讨论中较为典型的一些问题,以解答大家的疑惑。

Q1:OceanBase 列存是什么?

OceanBase的列存技术是一种数据存储形态,它将磁盘上的静态数据以列存的方式保存,而将内存中的修改数据以行存的方式保存,这种设计既保证了高效的扫描性能,又兼顾了出色的事务处理能力。

对于分析类查询,列存可以极大地提升查询性能,也是OceanBase做好 HTAP 的一项不可缺少的功能。经典 AP 数据库,列存数据通常是静态的,很难被原地更新,而 OceanBase 的 LSM Tree 架构中 SSTable 是静态的,天然适合列存的实现;MemTable 是动态的,仍然是行存,对于事务处理不会造成额外影响,这样我们可以一定程度上兼顾 TP 类和 AP 类查询的性能。

Q2:列存版推荐配置是什么?


# 设置 collation 为 utf8mb4_bin,性能瞬间提升 15%
set global collation_connection = utf8mb4_bin;
set global collation_server = utf8mb4_bin;

set global ob_query_timeout= 10000000000;
set global ob_trx_timeout= 100000000000;
set global ob_sql_work_area_percentage=30;
set global max_allowed_packet=67108864;
# 建议是cpu的10倍
set global parallel_servers_target=1000;
set global parallel_degree_policy = auto;
set global parallel_min_scan_time_threshold = 10;
# 限制 parallel_degree_policy = auto 时的最大 dop
# 出现较大 dop 可能导致性能问题。下面的值建议设为 cpu_count * 2
set global parallel_degree_limit = 0; 


alter system set compaction_low_thread_score = cpu_count;
alter system set compaction_mid_thread_score = cpu_count;
alter system set default_table_store_format = "column";

注:上述代码中 cpu_count 表示创建租户时指定的 min_cpu。

Q3:如何让租户创建出来的表,默认就是列存表?

这很简单,设置一个租户级配置项即可:

alter system set default_table_store_format = "column";

相应地,也可以把默认建表做成行存,或者行存列存双份:

alter system set default_table_store_format = "row";   //行存
alter system set default_table_store_format = "compound"; //行存列存双份数据

Q4:列存表的空间占用和行存表比怎么样?

列存表的空间比行存表省 20% 左右。为什么不是更多?因为OceanBase的行存表,压缩能力已经非常强了!

下面是一个客户自己测试 TPC-H 100G 的结果,供参考:

1718087748

Q5:如何创建一个列存表?

首先,创建行列混合表(冗余行存列存表)。

非分区表

create table t1(
   c1 TINYINT,
   c2 SMALLINT,
   c3 MEDIUMINT
) with column group (all columns, each column);

分区表:

create table t2(
   pk int,
   c1 int,
   c2 int,
   primary key (pk)
)
partition by hash(pk) partitions 4
with column group (all columns, each column);

创建行列混合的列存表的时候,总是会用到 with column group (all columns, each column)语法,它表示的意思如下:

  • all columns。把所有列聚合在一起成组,看成一个宽列,一行一行存储。这其实就和原来的行存是一致的。
  • each column。表中的每一列分别使用列格式来存储。

all columns、each column 一起出现,意味着默认创建列存表后同时冗余行存, 每个副本存储两份基线数据。不过值得注意的是,每张表无论多少份基线数据,在 memtable 和转储里的增量数据,依然是共享同一份。

其次,创建纯列存表。

非分区表

create table t3(
   c1 TINYINT,
   c2 SMALLINT,
   c3 MEDIUMINT
) with column group (each column);

分区表:

create table t4(
   pk1 int,
   pk2 int,
   c1 int,
   c2 int,
   primary key (pk1, pk2)
)
partition by hash(pk1) partitions 4
with column group (each column);

对于 t4 表,会针对 pk1、pk2、c1、c2 分别建一个列存,同时还会针对 (pk1, pk2)组合建一个行存。

Q6:如何判断是否走到了列存?

扫描走行存时,explain 中显示的是 TABLE FULL SCAN,走到列存时,显示的是 COLUMN TABLE FULL SCAN。以访问下面的 t5 表为例:

create table t5(
   c1 TINYINT,
   c2 SMALLINT,
   c3 MEDIUMINT,
   c4 INT,
   c5 INT,
   PRIMARY KEY(c1, c2)
) with column group(all columns, each column);

OceanBase(admin@test)>explain select c1,c2 from t5;
+------------------------------------------------------------------------+
| Query Plan                                                             |
+------------------------------------------------------------------------+
| ===============================================                        |
| |ID|OPERATOR       |NAME|EST.ROWS|EST.TIME(us)|                        |
| -----------------------------------------------                        |
| |0 |TABLE FULL SCAN|t5  |1       |3           |                        |
| ===============================================                        |
| Outputs & filters:                                                     |
| -------------------------------------                                  |
|   0 - output([t5.c1], [t5.c2]), filter(nil), rowset=16                 |
|       access([t5.c1], [t5.c2]), partitions(p0)                         |
|       is_index_back=false, is_global_index=false,                      |
|       range_key([t5.c1], [t5.c2]), range(MIN,MIN ; MAX,MAX)always true |
+------------------------------------------------------------------------+
11 rows in set (0.011 sec)

OceanBase(admin@test)>explain select c1 from t5;
+------------------------------------------------------------------------+
| Query Plan                                                             |
+------------------------------------------------------------------------+
| ======================================================                 |
| |ID|OPERATOR              |NAME|EST.ROWS|EST.TIME(us)|                 |
| ------------------------------------------------------                 |
| |0 |COLUMN TABLE FULL SCAN|t5  |1       |3           |                 |
| ======================================================                 |
| Outputs & filters:                                                     |
| -------------------------------------                                  |
|   0 - output([t5.c1]), filter(nil), rowset=16                          |
|       access([t5.c1]), partitions(p0)                                  |
|       is_index_back=false, is_global_index=false,                      |
|       range_key([t5.c1], [t5.c2]), range(MIN,MIN ; MAX,MAX)always true |
+------------------------------------------------------------------------+
11 rows in set (0.003 sec)

Q7:列存支持更新吗?如何更新?memtable里的结构是怎样的?

OceanBase 中,增删改操作都在内存里完成,数据以行存的形式保存在 Memtable 里;而基线数据是只读的,以列存的形式保存在磁盘上。当读取一列数据时,会实时地融合Memtable 中的行存数据和磁盘里的列存数据,输出给用户。这意味着,OceanBase 支持强一致读列存,不会有数据延迟

写入memtable 的数据支持转储,转储数据依然以行存的形式保存。合并后,行存数据和基线列存数据融合,形成新的基线列存数据。

需要注意的是,对于列存表来说,如果存在大量更新操作,并且没有及时合并,查询性能是不优的。推荐批量导入数据后发起一次合并,可以获得最优的查询性能。少量更新,则对性能影响不大。

1718087768

1718087776

Q8:列存里支持部分列集合在一起存储吗?

OceanBase v4.3.3 及之前版本里,仅支持要么每个列独立存储,要么所有列组成行在一起存储。暂不支持任选若干列集合在一起存储。

Q9:最多支持多少列?

目前一个列存表最多支持 4096 列。

Q10:允许增删列吗?

允许增加列,允许删列。支持 varchar 列字符数改大、改小。

列存支持多种 DDL,和行存表无异。

Q11:支持对列存的某一列建索引吗?

支持对列存的某一列建索引。OceanBase 不区分是对列存建索引,还是对行存建索引,默认建出来的索引结构是一样的(行存格式)。

对列存某一列或几列建索引的意义在于可以构造一个覆盖索引,提升点查询性能,或者对特定列做排序以提升排序性能。

Q12:“列存索引”是什么意思?

OceanBase 还支持列存索引的概念,意思是:索引表的结构是列存格式。这里容易和“对列存建索引”混淆。

例如,我们已经有行存表 t6 ,希望对 c3 求和且性能最好,这时可以对 c3 建一个列存索引,例如:

create table t6(
   c1 TINYINT,
   c2 SMALLINT,
   c3 MEDIUMINT
);

create /*+ parallel(2) */ index idx1 on t6(c3) with column group (each column);

除此之外,OceanBase还支持更多索引创建方式,如下:

//支持索引中冗余行存
create index idx1 on t1(c2) storing(c1) with column group(all columns, each column);
alter table t1 add index idx1 (c2) storing(c1) with column group(all columns, each column);

//纯列存
create index idx1 on t1(c2) storing(c1) with column group(each column);
alter table t1 add index idx1 (c2) storing(c1) with column group(each column);

在数据库索引中使用 STORING 子句的目的是存储额外的非索引列数据到索引中。这可以为特定的查询提供性能优化,既可以避免回表,也可以降低索引排序的代价。当查询仅需要访问存储在索引中的列,而不需要回表查询原始行时,可以大幅提升查询效率。

Q13:列存表的查询有何特点?

冗余行存表中,列存表查询逻辑默认 range scan 走列存模式, point get 仍回退到行存模式。

纯列存表中,任何查询都走列存模式。

Q14:有和 ClickHouse 的性能对比吗?

OceanBase v4.3.1 没有发布测试性能数据。

我们内部对比过OceanBase v4.3.2 开发版和 ClickHouse 的性能,但目前没有第三方的测试和对比结果,因此下文的测试结果仅供参考。

(1)ClickBench(aws) RT 对比。

云上标准测试(c6a.4xlarge 500gb gp2) 配置:16C、32G内存、500G磁盘、1500 iops。

OBCK
cold run114.35139.572
hot run 136.8844.051
hot run 236.8336.831

该对比无Q30改写优化,若Q30改写优化后,OceanBase的测试结果预计可再提升2s。

Q15:使用列存有什么注意事项?

第一,批量导入数据后,建议做一次合并,读性能可以更优。导完数据后租户内触发一次合并,保证数据全部进入基线,租户内执行 alter system major freeze; 然后在系统租户执行 select STATUS from CDB_OB_MAJOR_COMPACTION where TENANT_ID = 租户ID; 判断合并是否完成,当 STATUS 变为 IDLE 即表示合并完成。

第二,合并后,推荐做一次统计信息收集。收集统计信息方法如下:

  • 在业务租户一键对所有表收集统计信息,启动16个线程并发收集

CALL DBMS_STATS.GATHER_SCHEMA_STATS ('db', granularity=>'auto', degree=>16); 

  • 观测统计信息进度可以通过视图 GV$OB_OPT_STAT_GATHER_MONITOR

第三,可以使用全量旁路导入逻辑批量导入数据,使用这种方式导入数据的表无需做合并,就能达到最优列存扫描性能。支持全量旁路导入的工具包括 obloader、原生 load data 命令。

第四,对于非大宽表场景,不使用列存也可能达到和列存相当的性能。这得益于 OceanBase 行存版本中微块级别的行列混合存储架构(遇到这种情况,不用惊讶)。

第五,大数据量表,cold run 和 hot run 性能有区别。

第六,优化器会根据代价估算,自动选择对列数据的访问使用行存还是列存。

第七,列存表合并速度会变慢。

Q16:什么是旁路导入?如何做旁路导入?

旁路导入是一种加快数据导入,并且能够加速数据查询的数据导入方式。大表数据导入,推荐使用旁路导入方式。目前,load data 命令、insert into select 语句支持旁路导入。旁路导入的详细使用方式参考 OceanBase 官网文档。

Q17:支持事务吗?对事务大小有限制吗?

和行存表一样,支持事务,并且事务大小无限制,具备高一致性。

和 Doris 相比,OceanBase 事务能实时性更好。OceanBase 支持大量小事务,而 Doris 必须攒批多行形成大事务后再提交。

Q18:支持使用 FlinkCDC 从其它数据库同步数据到 OceanBase 吗?

支持。例如,使用 FlinkCDC 从 MySQL 同步数据到 OceanBase:OceanBase分布式数据库-海量数据 笔笔算数

Q19:是否支持 Flink Connector 访问 OceanBase?

支持。详见 https://github.com/oceanbase/flink-connector-oceanbase

Q20:列存表的日志同步、备份恢复等有什么特别之处吗?

没有任何特别之处,和行存表一致。同步的日志都是行存模式。

Q21:是否支持将行存表用 DDL 变成列存表?

支持。通过加列存、删行存实现。相关语法示例如下。

create table t1( pk1 int, c2 int, primary key (pk1));

alter table t1 add column group(all columns, each column);
alter table t1 drop column group(all columns, each column);

alter table t1 add column group(each column);
alter table t1 drop column group(each column);
  • note:alter table t1 drop column group(all columns, each column);执行后,不用担心没有任何 group 来承载数据,所有列会被放到一个叫做 DEFAUTL COLUMN GROUP的默认 group 中。DEFAUTL COLUMN GROUP 中的存储格式,由租户级配置项 default_table_store_format的取值决定。
  • 该操作为 offline DDL,会锁表。线上谨慎使用。

Q22:还有哪些可以进一步提升 AP Query 性能的方法?

根据一些实践经验得知,首先如果不是有特殊排序要求,建表时候字符集不要使用 utf8mb4,而是使用 binary,可以提升性能。例如:

create table t5(c1 TINYINT, c2 VARVHAR(50)) CHARSET=binary with column group (each column);

其次,如用户或者业务可以接受, mysql 租户建表时指定 utf8mb4_bin 字符集,建表时带上:CHARSET = utf8mb4 collate=utf8mb4_bin

此外,增加 UNIT 的 IOPS,可以加速旁路导入。

Q23:面向列存的优化器,有什么特点?

面相列存的优化器,相对于面相行存优化器,增加了:

  • 优化器自主选择行、列存的能力。
  • hint 控制行、列存选择的能力(表级别)。
  • 适配了列存的计划代价计算。
  • 增加了列存的晚期物化优化。

以上就是目前关于列存的解答,如果大家有其他疑问,欢迎在评论区留言讨论。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2050239.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux系统top命令参数说明

目录 一、top命令概览 二、参数说明 一、top命令概览 二、参数说明 第一行:系统的整体情况概览 top:表示这是个top命令 10:53:55:表示当前系统时间 up 17 days, 19:10:表示系统运行时间 1user:表示当前登录用户人数 load average:表示1分钟/5分钟/15分钟 系统负载…

LangChain 实战案例:老喻干货店的 TextToSql 应用解析

前言 当我们在做项目开发时,数据库设计是项目早期的核心工作之一。我们要考虑业务需要用到的表、关联、索引,并预想出未来核心需求或易产生瓶颈的SQL。当这些事情做完,就可以喝杯咖啡,到前台摸鱼会儿了… 如果你是刚入门数据库学…

出海笔记精华问答 | 第四期

更新出海问答第四期,希望可以继续帮助大家解决问题哈。 Q1:当stripe把资金全退给客户但是货又发了,这是什么情况? A1: 这种情况一般是stripe不跟你合作了或者发生了争议。 Q2:如何知道stripe回复你的邮件是人工回复还是机器人回复&#xff…

Matlab自学笔记三十三:表table类型数据的创建、索引和自身属性的用法

1.表类型的概念 表(table)具有容器特性的数据类型,可以方便的存储混合类型的数据,可以使用数字或命名索引访问数据以及元数据(例如变量名称,行名称,描述和变量单位等); …

Java版自动化测试之Selenium

1. 准备 编程语言:Java JDK版本:17 Maven版本:3.6.1 2. 开始 声明:本次只测试Java的Selenium自动化功能 本次示例过程:打开谷歌游览器,进入目标网址,找到网页的输入框元素,输入指…

基于Java+SpringBoot+Vue的网上租赁系统设计与实现

基于JavaSpringBootVue的网上租赁系统设计与实现 前言 ✌全网粉丝20W,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取项目下载方式&#x1…

2024硅谷微软和OPENAI的CTO对人工智能发展的最新预测

2024硅谷微软和OPENAI的CTO对人工智能发展的最新预测 微软首席技术官凯文斯科特 在红杉资本(Sequoia Capital)发布的《Training Data》播客中,微软首席技术官凯文斯科特(Kevin Scott)坚定地重申了他对大语言模型&…

从文字到多媒体:GPT如何彻底革新内容创作

近年来,OpenAI开发的GPT(生成预训练变换器)模型在自然语言处理领域引起了广泛关注,尤其是GPT-3的推出,更是掀起了一场技术革新浪潮。然而,GPT模型不仅限于自然语言处理,其多模态应用前景同样令人…

AI大模型领域入门:AI产品经理必备知识指南

随着大模型技术的快速发展,市面上涌现出了大量的大模型产品岗位,那么想要进入AI行业的产品经理同学,需要提前做好哪些准备工作呢?这篇文章里,作者总结了入行AI的必备知识,包括市场调研、产品底层逻辑等内容…

打工人必备工具箱

下载地址:https://pan.quark.cn/s/356d7f201d7a 图片工具 图片格式转换图片转ICO图片压缩图片批量转换图片编辑图片分割 视频工具 视频格式转换视频翻转视频提取音频视频倒放视频静音视频分辨率转换视频旋转视频拼接视频调整音量视频取帧 文档工具 PDF合并PDF提…

Kubernetes--命令行工具 kubectl

前言:本博客仅作记录学习使用,部分图片出自网络,如有侵犯您的权益,请联系删除 一、在任意节点使用 kubectl 1、将 master 节点中 /etc/kubernetes/admin.conf 拷贝到需要运行的服务器的 /etc/kubernetes 目录中 [rootk8s-master…

系列:水果甜度个人手持设备检测-前沿方案、论文和思路(一)

系列:水果甜度个人手持设备检测 -- 前沿方案、论文和思路(一) 背景 我们检索最新前沿领域的论文和思路,一般都不会去GitHub、专利官网这种地方,大家都是正常的人类,我们通常会想到中国知网CNKI、中国国家数字图书馆…

【刷题笔记】二叉树3

之前已经介绍过了二叉树的前中后序遍历及层序遍历,这是解决所有二叉树问题的手段。上一期也提到过,很多题既可以用前中后序遍历去做也可以用层序遍历去做。本期就介绍一下例题,分别展示两种做法。 1. 二叉树的右视图 199. 二叉树的右视图 给…

使用 preloadComponents 进行组件预加载

title: 使用 preloadComponents 进行组件预加载 date: 2024/8/18 updated: 2024/8/18 author: cmdragon excerpt: 摘要:本文介绍Nuxt 3中的preloadComponents功能,用于预加载全局注册的组件以减少首次渲染阻塞时间,通过实例演示如何设置并…

EmguCV学习笔记 C# 4.2 二值化

版权声明:本文为博主原创文章,转载请在显著位置标明本文出处以及作者网名,未经作者允许不得用于商业目的。 教程VB.net版本请访问:EmguCV学习笔记 VB.Net 目录-CSDN博客 教程C#版本请访问:EmguCV学习笔记 C# 目录-CSD…

WebRTC音视频开发读书笔记(五)

WebRTC既可以收发音频和视频,还可以传输其它数据,如短消息、二进制数据、文本数据等。可以实现文本聊天、文件传输等场景。 八、数据通道 1、基本概念 WebRTC的数据通道好比高速公路、文本、文件、图像以及其它数据 好比货物,通道打通 &am…

SpringBoot Web请求、响应

一、文章概述 请求方面主要讲,当前端向后端发出请求时,对于不同类型的参数后端都如何接收;对于响应,文章会讲解后端如何向前端响应数据以及如何使返回的数据具有统一的格式。 二、请求 2.1接收简单参数 Controller方法&#xf…

sqlserver的openquery配置

1.命令Demo ---openquery--开启Ad Hoc Distributed Queries组件,在sql查询编辑器中执行如下语句exec sp_configure show advanced options,1reconfigureexec sp_configure Ad Hoc Distributed Queries,1reconfigure--关闭Ad Hoc Distributed Queries组件&#xff0…

10、stm32实现adc读取数据

一、配置 二、代码 /* USER CODE BEGIN 2 */OLED_Init();OLED_Clear();OLED_ShowString(0,0,"Hello adc",12,0);uint16_t adc_number 0;/* USER CODE END 2 *//* USER CODE BEGIN WHILE */while (1){HAL_ADC_Start(&hadc1);HAL_ADC_PollForConversion(&hadc1…

2分钟搭建一个简单的WebSocket服务器

你好同学,我是沐爸,欢迎点赞、收藏和关注。个人知乎 如何用2分钟在本地搭建一个简单的 WebSocket 服务器?其实使用 Node.js,加上一些流行的库,是很容易实现的。前端同学通过自己搭建 WebSocket 服务器,对于…