OceanBase 里的 schema 是什么?

news2024/11/19 15:39:27

李博洋

OceanBase 技术部研发工程师。

OceanBase 开源社区里经常会看到一些类似于 “ schema 是什么” 的疑问:

图片

很多同学经常会误以为在 OceanBase 里,schema 只是 database 的同义词,这次分享就从 schema 是什么这个问题稍微展开聊一下。

首先说结论,schema 这个东西在 MySQL( OceanBase 的 MySQL 模式)、Oracle( OceanBase 的 Oracle 模式)、OceanBase 元数据管理模块中的含义不同。

OceanBase MySQL 模式中 schema 的概念

Schema 是 Database 的同义词。SQL 中可以使用 schema 关键字代替 Database 关键字,例如使用 CREATE SCHEMA 代替 CREATE DATABASE 等。

OceanBase Oracle 模式中 schema 的概念

在 OceanBase 的 Oracle 模式中,schema 是指一个用户所拥有的数据库对象的集合,用于权限管理和命名空间隔离,我个人把它理解成一个 “用户空间”。schema 对象是指在某个 schema 中的数据库对象,例如 schema 中的表、视图、索引等;非 schema 对象是指不属于某个 schema 的数据库对象,例如用户、角色、表空间等。

用户在创建时会拥有一个缺省的 schema,其 schema 名就等于用户名。如果有权限的话,用户还可以访问和使用其他的 schema。在访问一个 schema 中的对象时,如果没有指明该对象属于哪一个 schema,系统就会自动给对象加上缺省的 schema 名称。

如果当前 user 拥有访问或修改其他 schema 对象的权限,可以通过 alter session set current_schema = other_schema_name ; 切换到其他 schema 中进行各种操作。

OB 元数据管理模块中 schema 的概念

图片

Oceanbase 元数据管理模块里的 schema 泛指一切需要在集群范围内同步的数据库对象元信息,包括但不限于 table、database、user 等元信息。此外,Oceanbase 的 schema 是多版本的,内存中的 schema 信息在集群范围的同步是最终一致的。

schema 里有什么?

schema 是什么解释完了,在社区里又会看到有人问,schema 是元信息,那么元信息里包含了哪些东西?

图片

上面的回答中其实有个小的疏漏,因为各种数据库对象的元数据信息只会受 DDL 的影响,“预估行数” 属于不受 DDL 的影响,只受 DML 影响的统计信息,所以其实并不是表的元信息,table schema 中也不会对其进行记录。

元信息里具体包含了哪些东西,可以参见 src / share / schema 路径下的代码。例如如果想看 table schema 中记录了哪些 table 的元数据信息,看 ob_table_schema.h 中的 ObTableSchema 及其父类有哪些类成员即可。

图片

DDL 执行过程

上面回答了 schema 是什么、有什么的问题。因为 schema 只会通过 DDL 进行修改,所以这里简单提一下 DDL 的执行过程,方便大家在遇到 DDL 相关问题时进行排查。

DDL 不会被优化器处理,而是作为 command 发送到 RootServer,由 RootServer(下简称 rs ) 进行处理。在 OceanBase 里的执行流程如下:

图片

以一个最常见的建表语句为例:

create table 命令会在 obs 上对建表语句进行 resolve,把建表的信息存到 create_table_arg 中,把 create_table_arg 发 rpc 给 rs ,rs 接下来会来执行如下操作:

  • 检查 obs 在 resolve 时使用的的 schema 版本是否最新(采用乐观锁的方法解决,如果非最新,则对这条 DDL 进行整体重试);

  • 从 __all_sys_stat 里获取一个租户内单调递增的新 table id 

  • 把 create_table_arg 里提供的信息插入到 __all_table_history 等内部表里用于持久化

  • 在 __all_ddl_operation 中记录 ddl 的变更日志(用于增量刷新等场景)

  • publish schema(通知各节点把 schema 刷到内存里)

图片

其他 observer 接收到 RS 发送的 publish schema 的命令之后,就会把内部表中的改动增量加载到内存( schema cache )中,这也就是我们经常听到别人说的 “刷 schema ”。

rs 上的 ddl_service 调用 publish_schema () 将新的 schema 版本号广播给所有 obs 实际发生了什么?

rs 自己所在的 obs 直接调用 refresh_schema 。

给每个 alive obs 发送 switch_schema 的命令,参数为最新 schema_version 。

各个 obs 收到指令后,生成一个 ObSchemaRefreshTask 异步刷新任务,通过这行这个任务把自己的 schema 刷到最新。

图片

附另一张图:

  • 图中上面的部分是在执行 DDL,RS 的 DDL service 服务会负责写内部表和通知各 observer 节点把元数据的修改加载到内存的 schema cache 中;

  • 下面的部分是在执行 query 的过程,过程中几乎都会读取内存中 schema cache 的元信息。

图片

一开始客户在社区里提的那个问题中的 GV$OB_SERVER_SCHEMA_INFO 可以理解为每台 ObServer 每个租户已经刷新的最新版本的 schema 的信息,这个视图用户比较关注的 schema 信息是 REFRESHED_SCHEMA_VERSION 、SCHEMA_COUNT 、SCHEMA_SIZE ,其含义如下:

  • REFRESHED_SCHEMA_VERSION :对应租户在对应机器已刷新到的 schema 版本。

  • RECEIVED_SCHEMA_VERSION :对应租户在对应机器已已经接收到的 RS 发过来的最新刷新任务的 schema 版本。

  • SCHEMA_COUNT :对应 schema 版本下,各 schema 对象数目的总和( table 数目 + database 数目 +…)。

  • SCHEMA_SIZE :对应 schema 版本下,各 schema 对象总共所占的内存大小( B )。

obclient> select * from oceanbase.GV$OB_SERVER_SCHEMA_INFO\G*************************** 1. row ***************************                    SVR_IP: 11.158.31.20                  SVR_PORT: 22602                 TENANT_ID: 1002  REFRESHED_SCHEMA_VERSION: 1690109029768968   RECEIVED_SCHEMA_VERSION: 1690113309637344              SCHEMA_COUNT: 1583               SCHEMA_SIZE: 1537240MIN_SSTABLE_SCHEMA_VERSION: -11 row in set (0.01 sec)

DDL 和 schema 的问题排查方法

既然都说了这么多,那就再说下 DDL 和 schema 比较常见的几类问题。这一部分欢迎大家补充更好的排查问题方法。

执行 DDL 语法报错了,我该怎么改语法呢?

客户经常会在试着自己把正在用的数据库上的元数据往 OceanBase 开源版本上倒腾,比如前几天见到一个客户希望把 pg 里的分区表定义放到 OceanBase MySQL 模式的租户下执行下,但是报错了,然后就会认为 OceanBase 不支持分区表。

 

CREATE TABLE value_stream_dashboard_counts ( id bigint NOT NULL, namespace_id bigint NOT NULL, count bigint NOT NULL, metric smallint NOT NULL)PARTITION BY RANGE (id);

图片

我们遇到这种问题应该怎么查 OceanBase MySQL 模式下的对应语法呢?大家一般可能会去查各种各样的 OceanBase 语法文档,但是 OceanBase 语法随着兼容性的逐步完善而日新月异,文档内容其实没办法保证和真实支持的语法强一致(甚至连最终一致都不能保证)。想起师兄和我说的一句话:“文档很喜欢骗人,但是代码从不会说谎”,OceanBase 社区版支持的所有语法其实都写在一个叫 sql_parser_mysql_mode.y 的 yacc 文件里。

看完这个文件里的语法规则,我们就很容易把上面那条 SQL 改成 OceanBase MySQL 模式下可以执行成功的 SQL 。

​​​​​​​

 

CREATE TABLE value_stream_dashboard_counts ( id bigint NOT NULL, namespace_id bigint NOT NULL, count bigint NOT NULL, metric smallint NOT NULL)PARTITION BY RANGE (id)( PARTITION p0 VALUES LESS THAN (100), PARTITION p1 VALUES LESS THAN (200), PARTITION p2 VALUES LESS THAN (300), PARTITION p3 VALUES LESS THAN MAXVALUE);

执行 DDL 报了不太明确的错,我该怎么排查失败原因呢?

比如,我执行了一条 DDL,它报错了,报错说我的 check 约束里出现了不允许被包含在 check 约束里的表达式,但具体是什么表达式不被允许?是 c1,是 =,是 sysdate(),还是 c1 = sysdate() ?

​​​​​​​

 

obclient> create table t1(c1 int, check (c1 = sysdate()));ERROR 3814 (HY000): An expression of a check constraint contains disallowed function.

先查一下报错语句的 trace_id 。

​​​​​​​

 

select last_trace_id();+------------------------------------+| last_trace_id() |+------------------------------------+| Y584A0B9E1F14-00060127094761A8-0-0 |+------------------------------------+1 row in set (0.00 sec)

那我们就通过 grep Y584A0B9E1F14-00060127094761B0-0-0 observer.log* 去捞下 observer 的日志。

图片

这个 trace 对应的第一条 warning 日志说 :deterministic expr is wrongly specified in CHECK constraint(这条日志其实写的不对,本意应该是 not deterministic expr is wrongly specified in CHECK constraint ),大概意思就是说 check 约束里面有个(非)确定性的表达式,这个是不被允许的。

那么究竟什么表达式是非确定性的表达式呢?这个就需要根据日志里给出的文件和行号 ob_raw_expr_util.cpp:1856 去看一眼代码了,在网页上可以直接跳到具体某个函数的定义里,例如 ObRawExpr::is_non_pure_sys_func_expr 。

这里列出了所有 not deterministic 的表达式,其中就包含我们用到的 sysdate 。

图片

所以我们就可以大概知道 check 约束里的表达式需要保证多次执行都能得到同样的结果吧。像 sysdate 这种输出当前时间的表达式在多个不同的时间执行多次,结果必定是不一样的,所以不允许出现在 check 约束里。这里我们还可以趁机了解下还有哪些表达式属于 not deterministic 的。

执行 DDL 捞不到有用的日志怎么办?

例如我执行了一个创建 database 的 DDL,结果报错了。

​​​​​​​

 

obclient> create database xiaofeng_db;ERROR 4016 (HY000): Internal error
obclient> select last_trace_id();+------------------------------------+| last_trace_id() |+------------------------------------+| Y584A0B9E1F14-00060127094761B4-0-0 |+------------------------------------+1 row in set (0.00 sec)

拿着 trace id 捞日志,grep Y584A0B9E1F14-00060127094761B4-0-0 observer.log*,结果是 rpc error 。

图片

回忆一下刚才说的 DDL 执行过程,DDL arg 会发到 RS 上执行,所以这种情况大概率是在 RS 上执行的时候出了什么幺蛾子,所以我们还需要通过 grep Y584A0B9E1F14-00060127094761B4-0-0 rootservice.log* | vi - 继续 grep 以下 RS 的日志,然后在日志文件里根据错误码 -4016 搜下 ret=-4016  最早出现的地方。

图片

然后我们就可以发现日志里说是在 ob_root_service.cpp 文件的 2887 行报的错,报错原因是:create_database failed, because db_name is forbidden 。这种问题大家先自己根据报错日志里的文件和行号简单分析下原因,如果还是没头绪的话,再找 OceanBase 的技术支持同学协助分析。

翻一下这个文件,哦,原来是是我为了构造在 RS 报错的场景故意在这里加了一个报错的错误码,说只要 create database 的 database_name 叫 xiaofeng_db ,就报错 4016 OB_ERR_UNEXPECTED 。

图片

排查 DDL 和 schema 的问题时忽略 rootservice.log 日志是很常见的情况,曾经亲眼见过很多非常有经验的 OceanBase 内核研发专家不止一次因为这个问题浪费大量时间排查简单一个的小 bug。大家切记这类问题在 observer.log 没线索时,还要去看下 rootservice.log。

刷 schema hang 住了怎么办?

刷 schema hang 住是因为在把内部表的数据加载到内存中的过程中会进行一些 schema 的合法性校验,如果校验失败,就说明持久化在内部表里的元数据信息出问题了,这时 observer 就会 hang 住,什么都干不了。因为一旦元数据都错了,基于错误的元数据无论是执行 DDL、DML,还是执行查询 query ,都是错上加错,很容易产生大量正确性问题。这种情况出现的概率极低,但问题十分严重。

如果执行 DDL hang 住了,并且在 RS 的日志里出现类似于“ Trying so hard to die ” 和 “ schema meta is still not consistent after rebuild ,  need fixing ” 的信息,表明恢复环境需要人工接入去修改 OceanBase 内部表中的错误信息,风险较高,建议及时找 OceanBase 的技术支持同学帮忙排查问题根因及协助你恢复环境。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/971727.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【51单片机实验笔记】声学篇(一) 蜂鸣器基本控制

目录 前言硬件介绍PWM基础蜂鸣器简介 原理图分析蜂鸣器驱动电路 软件实现蜂鸣器短鸣蜂鸣器功能封装 总结 前言 蜂鸣器在生活中的应用实则相当广泛。通过本章你将学会制造噪声 (笑~)你将学会驱动它们,并发出响声。 硬件介绍 PWM基础 占空比…

计算机竞赛 基于深度学习的人脸专注度检测计算系统 - opencv python cnn

文章目录 1 前言2 相关技术2.1CNN简介2.2 人脸识别算法2.3专注检测原理2.4 OpenCV 3 功能介绍3.1人脸录入功能3.2 人脸识别3.3 人脸专注度检测3.4 识别记录 4 最后 1 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 基于深度学习的人脸专注度…

【CPU】常见术语解释

interrupt service routine,ISR:中断服务程序。 中断:指当CPU正在处理某件事情时,外部发生的某一事件(如一个电平的变化,一个脉冲沿的发生或 定时器计数溢出等)请求CPU迅速去处理,于…

select多选回显问题 (取巧~)

要实现的效果: 实际上select选择框,我想要的是数组对象,但是后端返回来的是个字符串。 以下是解决方法: 以上是一种简单的解决方法~ 也可以自己处理数据。

【聚类】DBCAN聚类

OPTICS是基于DBSCAN改进的一种密度聚类算法,对参数不敏感。当需要用到基于密度的聚类算法时,可以作为DBSCAN的一种替代的优化方案,以实现更优的效果。 原理 基于密度的聚类算法(1)——DBSCAN详解_dbscan聚类_root-ca…

分类算法系列⑥:随机森林

目录 集成学习方法之随机森林 1、集成学习方法 2、随机森林 3、随机森林原理 为什么采用BootStrap抽样 为什么要有放回地抽样 4、API 5、代码 代码解释 结果 6、随机森林总结 🍃作者介绍:双非本科大三网络工程专业在读,阿里云专家…

Llama-7b-hf和vicuna-7b-delta-v0合并成vicuna-7b-v0

最近使用pandagpt需要vicuna-7b-v0,重新过了一遍,前段时间部署了vicuna-7b-v3,还是有不少差别的,transforms和fastchat版本更新导致许多地方不匹配,出现很多错误,记录一下。 更多相关内容可见Fastchat实战…

Python小知识 - 【Python】如何使用Pytorch构建机器学习模型

【Python】如何使用Pytorch构建机器学习模型 机器学习是人工智能的一个分支,它的任务是在已有的数据集上学习,最终得到一个能够解决新问题的模型。Pytorch是一个开源的机器学习框架,它可以让我们用更少的代码构建模型,并且可以让模…

docker 安装rabbitmq

前提:安装好docker docker安装_Steven-Russell的博客-CSDN博客 centos7安装docker_centos7 docker 安装软件_Steven-Russell的博客-CSDN博客 1、启动docker systemctl start docker 2、下载镜像 // 可以先search查询一下可用镜像,此处直接下载最新版本…

LinkedList(3):并发异常

1 LinkedList并发异常 package com.example.demo;import java.util.Iterator; import java.util.LinkedList;public class TestLinkedList {public static void main(String[] args) {LinkedList linkedList new LinkedList(); //双向链表linkedList.add(11);linkedList.add(…

【ES6】require、export和import的用法

在JavaScript中,require、export和import是Node.js的模块系统中的关键字,用于处理模块间的依赖关系。 1、require:这是Node.js中引入模块的方法。当你需要使用其他模块提供的功能时,可以使用require关键字来引入该模块。例如&…

docker从零部署jenkins保姆级教程

jenkins,基本是最常用的持续集成工具。在实际的工作中,后端研发一般没有jenkins的操作权限,只有一些查看权限,但是我们的代码是经过这个工具构建出来部署到服务器的,所以我觉着有必要了解一下这个工具的搭建过程以及简…

分布式环境下的数据同步

一般而言elasticsearch负责搜索(查询),而sql数据负责记录(增删改),elasticsearch中的数据来自于sql数据库,因此sql数据发生改变时,elasticsearch也必须跟着改变,这个就是…

数据结构与算法-插入希尔归并

一:排序引入 我们通常从哪几个方面来分析一个排序算法? 1.时间效率:决定了算法运行多久,O(1) 2.空间复杂度: 3.比较次数&交换次数:排序肯定会牵涉到两个操作,一个比较是肯定的。…

mac常见问题(五) Mac 无法开机

在mac的使用过程中难免会碰到这样或者那样的问题,本期为您带来Mac 无法开机怎么进行操作。 1、按下 Mac 上的电源按钮。每台 Mac 电脑都有一个电源按钮,通常标有电源符号 。然后检查有没有通电迹象,例如: 发声,例如由风…

springmvc5.x-mvc实现原理及源码实现

上文:spring5.x-声明式事务原理及源码实现 系列文章: spring5.x-声明式事务原理及源码实现 spring5.x-AOP实现原理及源码分析 spring5.x-监听器原理及源码实现 spring5.x-解决循环依赖分析 spring5.x-IOC模块源码学习 spring5.x介绍及搭配spring源码阅读…

Xcode 清空最近打开的项目

打开Xcode任意项目 File -> Open Recent -> Clear Menu

桌面应用小程序,一种创新的跨端开发方案

Qt Group在提及2023年有桌面端应用程序开发热门趋势时,曾经提及三点: 关注用户体验:无论您是为桌面端、移动端,还是为两者一起开发应用程序,有一点是可以确定的:随着市场竞争日益激烈,对产品的期…

怎么批量在图片名后加相同的文字

怎么批量在图片名后加相同的文字?有个小伙伴通过私信想我咨询一个问题,它从事的是摄影类的工作,每天会在电脑上存储非常多的图片,时间一久电脑上保存的图片非常的多,这让图片的管理和查找变得比较麻烦,有时…

从智能手机到智能机器人:小米品牌的高端化之路

原创 | 文 BFT机器人 前言 在前阵子落幕的2023世界机器人大会“合作之夜”上,北京经济技术开发区管委会完成了与世界机器人合作组织、小米机器人等16个重点项目签约,推动机器人创新链和产业链融合,其中小米的投资额达到20亿! 据了…