OceanBase 中 schema 的定义与应用

news2024/9/21 8:04:29

背景

经常在OceanBase 的问答社区 里看到一些关于 “schema 是什么” 的提问。

先纠正一些同学的误解, OceanBase 中的 Schema 并不简单的等同于 Database,本次分享将探讨 OceanBase 中的Schema是什么,及一些大家经常遇到的问题。 

具体而言,在 OceanBase 的 MySQL 模式、Oracle 模式以及其自身的元数据管理模块中,Schema 的概念和应用是存在差异的。

1691459740

1691459773

OB MySQL 模式中 schema 的概念

       Schema 是 Database 的同义词。SQL 中可以使用 Schema 关键字代替 Database 关键字,例如使用 CREATE SCHEMA 代替 CREATE DATABASE 等。

OB Oracle 模式中 schema 的概念

       在 OB 的 Oracle 模式中,Schema 是指一个用户所拥有的数据库对象的集合,用于权限管理和命名空间隔离,我个人把他理解成一个 “用户空间”。Schema 对象是指在某个 Schema 中的数据库对象,例如 Schema 中的表、视图、索引等;非 Schema 对象是指不属于某个 Schema 的数据库对象,例如用户、角色、表空间等。

       用户在创建时会拥有一个缺省的 Schema,其 Schema 名就等于用户名。如果有权限的话,用户还可以访问和使用其他的 Schema。在访问一个 Schema 中的对象时,如果没有指明该对象属于哪一个 Schema,系统就会自动给对象加上缺省的 Schema 名称。

       如果当前 user 拥有访问或修改其他 schema 对象的权限,可以通过 alter session set current_schema = other_schema_name; 切换到其他 schema 中进行各种操作。

OB 元数据管理模块中 schema 的概念

       Oceanbase 元数据管理模块里的 schema 泛指一切需要在集群范围内同步的数据库对象元信息,包括但不限于 table、database、user 等元信息。此外,Oceanbase 的 schema 是多版本的,内存中的 schema 信息在集群范围的同步是最终一致的。

schema 里有什么?

       schema 是什么解释完了,在社区里又会看到有人问,schema 是元信息,那么元信息里包含了哪些东西?

1691459787

       上面的回答中其实有个小的疏漏,因为各种数据库对象的元数据信息只会受 DDL 的影响,“预估行数” 属于不受 DDL 的影响,只受 DML 影响的统计信息,所以其实并不是表的元信息,table schema 中也不会对其进行记录。

       元信息里具体包含了哪些东西,可以参见 src/share/schema 路径下的代码。例如如果想看 table schema 中记录了哪些 table 的元数据信息,看 ob_table_schema.h 中的 ObTableSchema 及其父类有哪些类成员即可。

1691459798

DDL 执行过程

       上面回答了 schema 是什么、有什么的问题。因为 schema 只会通过 DDL 进行修改,所以这里简单提一下 DDL 的执行过程,方便大家在遇到 DDL 相关问题时进行排查。

       DDL 不会被优化器处理,而是作为 command 发送到 RootServer,由 RootServer(下简称 rs) 进行处理。在 OceanBase 里的执行流程如下:

1691459810

       以一个最常见的建表语句为例:

       create table 命令会在 obs 上对建表语句进行 resolve,把建表的信息存到 create_table_arg 中,把 create_table_arg 发 rpc 给 rs,rs 接下来会来执行如下操作:

  • 检查 obs 在 resolve 时使用的的 schema 版本是否最新(采用乐观锁的方法解决,如果非最新,则对这条 DDL 进行整体重试);
  • 从 __all_sys_stat 里获取一个租户内单调递增的新 table id;
  • 把 create_table_arg 里提供的信息插入到 __all_table_history 等内部表里用于持久化
  • 在 __all_ddl_operation 中记录 ddl 的变更日志(用于增量刷新等场景)
  • publish schema(通知各节点把 schema 刷到内存里)

1691461106

       其他 observer 接收到 RS 发送的 publish schema 的命令之后,就会把内部表中的改动增量加载到内存(schema cache)中,这也就是我们经常听到别人说的 “刷 schema”。

       rs 上的 ddl_service 调用 publish_schema() 将新的 schema 版本号广播给所有 obs 实际发生了什么?

  1. rs 自己所在的 obs 直接调用 refresh_schema。
  2. 给每个 alive obs 发送 switch_schema 的命令,参数为最新 schema_version。
  3. 各个 obs 收到指令后,生成一个 ObSchemaRefreshTask 异步刷新任务,通过这行这个任务把自己的 schema 刷到最新。

1691459823

附另一张图:

  • 图中上面的部分是在执行 DDL,RS 的 DDL service 服务会负责写内部表和通知各 observer 节点把元数据的修改加载到内存的 schema cache 中;
  • 下面的部分是在执行 query 的过程,过程中几乎都会读取内存中 schema cache 的元信息。

1691459832

一开始客户在社区里提的那个问题中的 GV$OB_SERVER_SCHEMA_INFO 可以理解为每台 ObServer 每个租户已经刷新的最新版本的 schema 的信息,这个视图用户比较关注的 schema 信息是 REFRESHED_SCHEMA_VERSION、SCHEMA_COUNT、SCHEMA_SIZE,其含义如下:

  • REFRESHED_SCHEMA_VERSION:对应租户在对应机器已刷新到的 schema 版本。
  • RECEIVED_SCHEMA_VERSION:对应租户在对应机器已已经接收到的 RS 发过来的最新刷新任务的 schema 版本。
  • SCHEMA_COUNT:对应 schema 版本下,各 schema 对象数目的总和(table 数目 + database 数目 +…)。
  • SCHEMA_SIZE:对应 schema 版本下,各 schema 对象总共所占的内存大小(B)。
obclient> select * from oceanbase.GV$OB_SERVER_SCHEMA_INFO\G
*************************** 1. row ***************************
                    SVR_IP: 11.158.31.20
                  SVR_PORT: 22602
                 TENANT_ID: 1002
  REFRESHED_SCHEMA_VERSION: 1690109029768968
   RECEIVED_SCHEMA_VERSION: 1690113309637344
              SCHEMA_COUNT: 1583
               SCHEMA_SIZE: 1537240
MIN_SSTABLE_SCHEMA_VERSION: -1
1 row in set (0.01 sec)

DDL 和 schema 的问题排查方法

       既然都说了这么多了,那就再说下 DDL 和 schema 比较常见的几类问题。这一部分欢迎大家补充更好的排查问题方法~

执行 DDL 语法报错了,我该怎么改语法呢?

       客户经常会在试着自己把正在用的数据库上的元数据往 OceanBase 开源版本上倒腾,比如前几天见到一个客户希望把 pg 里的分区表定义放到 OB MySQL 模式的租户下执行下,但是报错了,然后就会认为 OB 不支持分区表。

CREATE TABLE value_stream_dashboard_counts (
    id bigint NOT NULL,
    namespace_id bigint NOT NULL,
    count bigint NOT NULL,
    metric smallint NOT NULL
)
PARTITION BY RANGE (id);

1691459848

       我们遇到这种问题应该怎么查 OB MySQL 模式下的对应语法呢?大家一般可能回去查各种各样的 OB 语法文档,但是 OB 语法随着兼容性的逐步完善而日新月异,文档内容其实没办法保证和真实支持的语法强一致(甚至连最终一致都不能保证)。想起师兄和我说的一句话:“文档很喜欢骗人,但是代码从不会说谎”,OB 社区版支持的所有语法其实都写在一个叫 sql_parser_mysql_mode.y 的 yacc 文件里。

       看完这个文件里的语法规则,我们就很容易把上面那条 SQL 改成 OB MySQL 模式下可以执行成功的 SQL。

CREATE TABLE value_stream_dashboard_counts (
    id bigint NOT NULL,
    namespace_id bigint NOT NULL,
    count bigint NOT NULL,
    metric smallint NOT NULL
)
PARTITION BY RANGE (id)(
     PARTITION p0 VALUES LESS THAN (100),
     PARTITION p1 VALUES LESS THAN (200),
     PARTITION p2 VALUES LESS THAN (300),
     PARTITION p3 VALUES LESS THAN MAXVALUE
);

执行 DDL 报了不太明确的错,我该怎么排查失败原因呢?

       比如,我执行了一条 DDL,它报错了,报错说我的 check 约束里出现了不允许被包含在 check 约束里的表达式,但具体是什么表达式不被允许?是 c1,是 =,是 sysdate(),还是 c1 = sysdate()?

obclient> create table t1(c1 int, check (c1 = sysdate()));
ERROR 3814 (HY000): An expression of a check constraint contains disallowed function.

       先查一下报错语句的 trace_id。

select last_trace_id();
+------------------------------------+
| last_trace_id()                    |
+------------------------------------+
| Y584A0B9E1F14-00060127094761A8-0-0 |
+------------------------------------+
1 row in set (0.00 sec)

       那我们就通过 grep Y584A0B9E1F14-00060127094761B0-0-0 observer.log* 去捞下 observer 的日志。

1691459866

       这个 trace 对应的第一条 warning 日志说 :deterministic expr is wrongly specified in CHECK constraint(这条日志其实写的不对,本意应该是 not deterministic expr is wrongly specified in CHECK constraint),大概意思就是说 check 约束里面有个(非)确定性的表达式,这个是不被允许的。

       那么究竟什么表达式是非确定性的表达式呢?这个就需要根据日志里给出的文件和行号 ob_raw_expr_util.cpp:1856 去看一眼代码了,在网页上可以直接跳到具体某个函数的定义里,例如 ObRawExpr::is_non_pure_sys_func_expr。

       这里列出了所有 not deterministic 的表达式,其中就包含我们用到的 sysdate。

1691459880

       所以我们就可以大概知道 check 约束里的表达式需要保证多次执行都能得到同样的结果吧。像 sysdate 这种输出当前时间的表达式在多个不同的时间执行多次,结果必定是不一样的,所以不允许出现在 check 约束里。这里我们还可以趁机了解下还有哪些表达式属于 not deterministic 的。

执行 DDL 捞不到有用的日志怎么办?

       例如我执行了一个创建 database 的 DDL,结果报错了。

obclient> create database xiaofeng_db;
ERROR 4016 (HY000): Internal error

obclient> select last_trace_id();
+------------------------------------+
| last_trace_id()                    |
+------------------------------------+
| Y584A0B9E1F14-00060127094761B4-0-0 |
+------------------------------------+
1 row in set (0.00 sec)

拿着 trace id 捞日志,grep Y584A0B9E1F14-00060127094761B4-0-0 observer.log*,结果是 rpc error。

1691459893

回忆一下刚才说的 DDL 执行过程,DDL arg 会发到 RS 上执行,所以这种情况大概率是在 RS 上执行的时候出了什么幺蛾子,所以我们还需要通过 grep Y584A0B9E1F14-00060127094761B4-0-0 rootservice.log* | vi - 继续 grep 以下 RS 的日志,然后在日志文件里根据错误码 -4016 搜下 ret=-4016最早出现的地方。

       然后我们就可以发现日志里说是在 ob_root_service.cpp 文件的 2887 行报的错,报错原因是:create_database failed, because db_name is forbidden。这种问题大家先自己根据报错日志里的文件和行号简单分析下原因,如果还是没头绪的话,再找 OB 的技术支持同学协助分析。

       翻一下这个文件,哦,原来是是我为了构造在 RS 报错的场景故意在这里加了一个报错的错误码,说只要 create database 的 database_name 叫 xiaofeng_db,就报错 4016 OB_ERR_UNEXPECTED。

排查 DDL 和 schema 的问题时忽略 rootservice.log 日志是很常见的情况,曾经亲眼见过很多非常有经验的 OceanBase 内核研发专家不止一次因为这个问题浪费大量时间排查简单一个的小 bug。大家切记这类问题在 observer.log 没线索时,还要去看下 rootservice.log。

1691459923

刷 schema hang 住了怎么办?

       刷 schema hang 住是因为在把内部表的数据加载到内存中的过程中会进行一些 schema 的合法性校验,如果校验失败,就说明持久化在内部表里的元数据信息出问题了,这时 observer 就会 hang 住,什么都干不了。因为一旦元数据都错了,基于错误的元数据无论是执行 DDL、DML,还是执行查询 query ,都是错上加错,很容易产生大量正确性问题。这种情况出现的概率极低,但问题十分严重。

       如果执行 DDL hang 住了,并且在 RS 的日志里出现类似于 “Trying so hard to die” 和 “schema meta is still not consistent after rebuild, need fixing” 的信息,表明恢复环境需要人工接入去修改 OB 内部表中的错误信息,风险较高,建议及时找 OB 的技术支持同学帮忙排查问题根因及协助你恢复环境(如果是 OB 社区版,可以加入钉钉群:33254054 并 @群管理员)。

参考资料

MySQL 模式数据库对象概述:MySQL 模式数据库对象

Oracle 模式数据库对象概述:Oracle 模式数据库对象

研木在社区问答区的回答:4.0的GV$OB_SERVER_SCHEMA_INFO视图中的SCHEMA是什么 - #3,来自 坤易 - OceanBase - 社区问答- OceanBase社区-分布式数据库

OB 源码:oceanbase/src/share/schema/ob_table_schema.h at 9940650223427978ac634ff0d7423ab53c74a95e · oceanbase/oceanbase · GitHub

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2145373.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2023 hnust 湖科大 毕业实习 报告+实习鉴定表

2023 hnust 湖科大 毕业实习 报告实习鉴定表 岗位 IT公司机房运维 实习报告 实习鉴定表 常见疑问 hnust 湖科大 毕业实习常见问题30问(2021 年7月,V0.9)-CSDN博客时间:大四开学第三四周毕业实习23年是企业(黑马&am…

【H2O2|全栈】关于CSS(6)CSS基础(五)

目录 CSS基础知识 前言 准备工作 网页项目规范 创建项目 布局 补充一部分属性 outline border-radius 预告和回顾 后话 CSS基础知识 前言 本系列博客将分享层叠样式表(CSS)有关的知识点。 本期博客主要分享的是网页项目规范,ou…

算法训练——day16快乐数

202. 快乐数 编写一个算法来判断一个数 n 是不是快乐数。 「快乐数」 定义为: 对于一个正整数,每一次将该数替换为它每个位置上的数字的平方和。然后重复这个过程直到这个数变为 1,也可能是 无限循环 但始终变不到 1。如果这个过程 结果为…

STM32快速复习(十二)FLASH闪存的读写

文章目录 一、FLASH是什么?FLASH的结构?二、使用步骤1.标准库函数2.示例函数 总结 一、FLASH是什么?FLASH的结构? 1、FLASH简介 (1)STM32F1系列的FLASH包含程序存储器、系统存储器和选项字节三个部分&…

【无标题】Java_Se 数据变量与运算符

标识符、变量、常量、数据类型、运算符、基本数据类型的类型转换等。这些是编程中的“砖块”,是编程的基础。要想开始正式编程,还需要再学“控制语句”,控制语句就像“水泥”,可以把“砖块”粘到一起,最终形成“一座大…

react学习笔记一:react介绍

将view规划成一个个的组件,是一个响应式的声明式的设计。 虚拟dom,减少dom操作。vue的虚拟dom是在react的基础上拓展来的。 单向数据流:是一种数据流动的模式。数据流的方向是有上到下的,在react中主要是从父组件流向子组件。 …

Django后台管理复杂模型

【图书介绍】《Django 5企业级Web应用开发实战(视频教学版)》_django 5企业级web应用开发实战(视频教学版)-CSDN博客 《Django 5企业级Web应用开发实战(视频教学版)》(王金柱)【摘要 书评 试读】- 京东图书 (jd.com) Django框架…

C#学习(四)C#连接Mysql实现增删改查

博主刚开始接触C#,本系列为学习记录,如有错误欢迎各位大佬指正!期待互相交流! 文章目录 一、安装Mysql1.1 启用Mysql1.2 登录Mysql 二、安装Navicat2.1 建立连接2.2 新建数据库2.3 新建表 三、创建Winform实现增、删、改、查3.1 下…

医学数据分析实训 项目七 集成学习--空气质量指标--天气质量分析和预测

项目七:集成学习 实践目的 理解集成学习算法原理;熟悉并掌握常用集成学习算法的使用方法;熟悉模型性能评估的方法;掌握模型优化的方法。 实践平台 操作系统:Windows7及以上Python版本:3.8.x及以上集成开…

ubuntu安装wordpress(基于LNMP环境)

参考链接 Ubuntu安装LNMP 安装步骤 环境需要LNMP环境,如果没有安装可以参考ZATA—LNMP简单安装 在mysql中设置wordpress所用的用户名和密码 #1. 登录mysql mysql -uroot -p #2. 创建wordpress数据库 create database wordpress; #3. 创建新用户user,…

【有啥问啥】深入解析 OpenAI o1 模型家族:推理能力的跃升与应用场景

深入解析 OpenAI o1 模型家族:推理能力的跃升与应用场景 随着人工智能的不断发展,推理能力已经成为影响 AI 系统性能的关键因素。2024 年 9 月 12 日【好家伙,在笔者生日当天ヘ(ー`ヘ)搞事情】,O…

腾讯百度阿里华为常见算法面试题TOP100(5):子串、堆

之前总结过字节跳动TOP50算法面试题: 字节跳动常见算法面试题top50整理_沉迷单车的追风少年-CSDN博客_字节算法面试题 子串 560.和为K的子数组

谷歌云推出全新区块链RPC服务:简化Web3开发

2024年9月,谷歌云(Google Cloud)宣布推出区块链RPC(远程过程调用)服务的预览版,进一步表明其支持Web3开发者的承诺。此次发布旨在简化开发者与区块链数据的交互,降低Web3应用开发的技术门槛。这…

制作U盘安装操作系统(启动盘、系统盘、Windows、Linux)

第一种(Windows) 官网windows制作启动盘 1. 打开Win11下载官网 下载 Windows 11https://www.microsoft.com/zh-cn/software-download/windows11 2. 下载制作操作系统工具 这里不要下载错了 3. 启动工具 选择U盘,选择你的U盘即可&#xf…

[Redis][环境配置]详细讲解

目录 1.安装 && 简单配置2.文件目录说明3.客户端 1.安装 && 简单配置 Ubuntu下,直接使用sudo apt install redis -y即可支持远程连接:修改/etc/redis/redis.conf 将bind 127.0.0.1改为bing 0.0.0.0作为学习用途,可以将prote…

vue3前端开发-小兔鲜超市-本地购物车列表页面的统计计算

vue3前端开发-小兔鲜超市-本地购物车列表页面的统计计算!这一次,实现了一些本地购物车列表页面的,简单的计算。 代码如下所示: import { computed, ref } from vue import { defineStore } from pinia export const useCartStor…

新升级|优化航拍/倾斜摄影模型好消息,支持处理多套贴图模型!

【天元轻量化软件】一直在不断地追求进步和完善,以满足更多用户的各种需求。 电脑登录天元官网免费体验:天元轻量化软件官网 本次我们对“智能PBR”功能进行了更新。更新后的“智能PBR”支持带多套贴图的模型进行使用。 本轮更新后,主要受益…

统信服务器操作系统【1050e版】安装手册

统信服务器操作系统1050e版本的安装 文章目录 功能概述一、准备环境二、安装方式介绍安装步骤步骤一:制作启动盘步骤二:系统的安装步骤三:安装引导界面步骤四:图形化界面安装步骤五:选择安装引导程序语言步骤六:进入安装界面步骤七:设置键盘步骤八:设置系统语言步骤九:…

音视频入门基础:AAC专题(8)——FFmpeg源码中计算AAC裸流AVStream的time_base的实现

一、引言 本文讲解FFmpeg源码对AAC裸流行解复用(解封装)时,其AVStream的time_base是怎样被计算出来的。 二、FFmpeg源码中计算AAC裸流AVStream的time_base的实现 FFmpeg对AAC裸流进行解复用(解封装)时,其…

Docker 镜像制作(Dockerfile)

1 Dockerfile 概念 Dockerfile 是什么? 镜像的定制实际上就是定制每一层所添加的配置、文件。如果我们可以把每一层修改、安装、构建、操作的命令都写入一个脚本,用这个脚本来构建、定制镜像,这个脚本就是 Dockerfile。 Dockerfile 是一个文本文件&a…