从MySQL到OceanBase离线数据迁移的实践

news2025/1/16 13:58:58
本文作者:玉璁,OceanBase 生态产品技术专家。工作十余年,一直在基础架构与中间件领域从事研发工作。现负责OceanBase离线导数产品工具的研发工作,致力于为 OceanBase 建设一套完善的生态工具体系。

背景介绍

在互联网与云数据库技术的蓬勃发展下,MySQL已在全球范围内被大规模使用。当前,也有很多用户开始体验与MySQL高度兼容的分布式数据库OceanBase。面对从MySQL向OceanBase的迁移,很多小体量的业务常通常依赖MySQL生态中的轻量级工具进行逻辑备份与数据导入导出。

为了让用户更轻便快捷的进行迁移,OceanBase官方推出了多款专用的迁移工具,如OMS、DataX开源版及OBLOADER等,以在让用户能够沿用现有系统设计方案,顺利完成数据库迁移。本文是以在离线导数方案来教大家使用 mysqldump 和 OBLOADER 完成一次数据库迁移的实践。同时,在文末作者也会简单分享 OBLOADER 为了兼容 mysqldump 导出的文件格式的实现原理。

工具推荐

这一节我们会关注两个自研的生态工具:mysqldump 和 OBLOADER。mysqldump 作为 MySQL社区免费的导数工具,也常被用作MySQL逻辑备份程序。外部有不少用户的数据库运维系统也会集成mysqldump程序实现备份恢复功能。无论是导入导出还是备份恢复,日常的操作都是出库和入库。首先我们介绍一下 MySQL 官方的介绍:

1686041408

提示: 
1. mysqldump 支持导出 SQL-format, Delimited-text 文件格式;
2. SELECT ... INTO OUTFILE 仅支持导出 Delimited-text 文件格式;
3. SQL-format 文件格式可以使用 mysql 客户端导入;
4. Delimited-text 文件格式使用 LOAD DATA 或者 mysqlimport 客户端;

上述是我在阅读 MySQL 官方文档时提取出来与本文联系较大的内容。OBLOADER 需要能够正确识别 mysqldump 导出的文件。另外还要求用户熟练掌握 mysqldump 工具,这样整个实践的过程才会更加顺畅。数据库导出包括Schema定义导出和表中的数据导出两部分内容。Schema导出只能使用 SQL-format格式,但是数据导出会更加灵活,mysqldump 同时支持 SQL-format 文件格式和 Delimited-text 文件格式。那么,用户何时使用 SQL-format 文件格式,何时使用 Delimtied-text 文件格式呢?表中定义有二进制数据类型,例如:BIT, BINARY, VARBINARY, BLOB 以及BINARY字符集的字符类型时,表中的数据必须按照 SQL-format 文件格式导出,同时命令行加上 --hex-blob 选项,该选项可以控制 mysqldump 对二进制数据进行十六进制编码处理。注意:按照 Delimited-text 文件格式导出数据时,mysqldump 是无法使用 --hex-blob 选项。表中没有定义二进制数据类型时,强烈建议使用 Delimited-text 文件格式。下面我们结合MySQL导出和OceanBase导入操作来介绍工具的简单用法:

MySQL CE 导出数据示例

SQL-format 格式导出示例(不推荐)

mysqldump -h'127.0.0.1' -P 3306 -uroot -p'xxx' --databases 'test' --compact --complete-insert --disable-keys --hex-blob > test-data.sql S
说明:该示例是将数据库中定义的Schema信息和表数据按照SQL-format格式写进同一份文件中。

示例中的关键选项说明

选项说明
--compact导出产生更少用于调试的输出信息,例如:去掉注释和头尾等结构信息。
--complete-insert导出的 Insert SQL 语句会带上列名。例如:INSERT INTO <table> (column1, [column2...]) ...
--disable-keys为了提升导入性能,导出的 Insert SQL 语句前后加上开关延迟构建索引。
--hex-blob对于二进制数据类型采用16进制字符串进行编码。
--skip-extended-insert导出的 Insert SQL 语句是单行插入语句,为了提升导入性能默认导出的是 Multi-values 格式。
--net-buffer-length默认值是1MB,最大值是16MB。该选项可以限制 Insert SQL 语句的长度。 
提示:为了降低文件的存储空间,导出时可以加上一些命令行选项减少非必需的信息输出。

Delimited-text 格式导出示例(推荐)

mysqldump -h'127.0.0.1' -P 3306 -uroot -p'xxx' --databases test --compact --fields-optionally-enclosed-by "'" --fields-escaped-by '\\' --fields-terminated-by ',' --lines-terminated-by '\n' --tab='/var/tmp/';
说明:该示例将数据库中定义的Schema和表数据分开导出,Schema是按照SQL-format格式输出,数据是按照标准的 CSV 格式输出,CSV规范可参考 RFC-4180。

示例中的关键选项说明

选项说明
--compact导出产生更少用于调试的输出信息,例如:去掉注释和头尾等结构信息。
--fields-optionally-enclosed-by "'"指定列定界符。示例指定的是单引号。
--fields-escaped-by '\\'指定转义符。示例指定的是反斜杠。
--fields-terminated-by ','指定列分隔符。示例指定的是逗号。
--lines-terminated-by '\n'指定行分隔符。示例指定的是 \n。注意:不同操作系统的换行符有差异。
--tab='/var/tmp/'指定Schema文件和数据文件的存放目录。

OceanBase 导入数据示例

本文是围绕着 OceanBase MySQL 模式来实践的,由于 MySQL 与 Oracle 之间存在差异,暂不涉及到 OceanBase Oracle 模式。基于上述的 MySQL 导出操作完成,我们使用 OceanBase 自研的客户端导入工具 OBLOADER 完成数据库导入操作。第一步是将数据库中定义的Schema导入到OceanBase中。

SQL-format 格式导入示例(不推荐)

./obloader -h'xxx.xxx.xxx' -P2883 -t'tenant' -c'cluster' -u'user' -p'xxx' --sys-password --mix -f '/var/tmp'

Delimited-text 格式导入示例(推荐)

./obloader -h'xxx.xxx.xxx' -P2883 -t'tenant' -c'cluster' -u'user' -p'xxx' --sys-password --csv -f '/var/tmp'

兼容性分析

在介绍解析 SQL-format 原理之前,我们对于 mysqldump 导出的文件作一个简要的兼容性分析。SQL-format文件内容主要是可执行的SQL语句,例如:DCL, DDL, Insert SQL以及Comment信息。但是这些语句并非OceanBase是可以兼容的。下面举一个例子:

/*!40000 ALTER TABLE `t2` DISABLE KEYS */;

上述SQL语句在MySQL中称之为 single-line /*! */ version comments,它与普通的 comments 区别在于SQL引擎并非直接跳过该注释语句,而是根据条件选择性地执行,上述语句SQL引擎会判断当前的MySQL数据库版本是否大于等于4.0.0?只有版本满足条件才会执行后续的变更语句,否则跳过。但是 OceanBase 会把上述语句当作普通的 multiple-line comment 语句处理,这会导致 single-line /*! */ version comments 中定义的Schema可能会丢失,最终造成数据库导入信息缺失的问题。同时,OceanBase 语法、功能上也未支持上述ALTER语句的变更功能,诸如此类的兼容问题较多。未来 OBLOADER 研发同学会考虑对于 mysqldump 导出的 SQL-format 文件进行分析、识别与转换处理,最大程度保证数据库的定义信息可以导入进 OceanBase 中。

写在最后

数据库以及生态工具的兼容性处理是一项非常细致且复杂的工作。如果想开发一款好用的工具产品,要求开发者对数据库的原理特性甚至是细节方面都有深入的了解和把握。OBLOADER 正在尝试解决异构数据库之间的导入导出所面对的各种兼容性的问题,尽最大努力让同异构数据库之间的导入导出工作变得更加平顺一些。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2214661.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LEAP 瞬移工具场景试点游戏关卡

你是否厌倦了在Unity编辑器中浪费时间浏览大型游戏关卡&#xff1f;不要看得比Leap更远&#xff01;这个功能强大的编辑器脚本允许您只需单击一下即可即时传输到场景中的任何位置。告别繁琐的手动导航&#xff0c;迎接闪电般快速的关卡设计。有了Leap&#xff0c;你就可以专注于…

Gin框架官方文档详解04:HTTP/2 推送,JSON相关

官方文档&#xff1a;https://gin-gonic.com/zh-cn/docs/ 注&#xff1a;强烈建议没用过Gin的读者先阅读第一节&#xff1a;第一个Gin应用。 目录 一、HTTP/2 推送二、JSONP三、PureJSON四、SecureJSON五、总结 一、HTTP/2 推送 首先&#xff0c;以“04HTTP2server推送”为根目…

linux 时区问题

一、修改系统时间和时区 查看当前下系统时间和时区 timedatectl设置系统时区 ​sudo timedatectl set-timezone <时区>​&#xff0c;例如&#xff1a; sudo timedatectl set-timezone Asia/Shanghai执行成功则没有输出。 更推荐使用 tzselect​ ​命令&#xff0c;…

通信工程学习:什么是VHDL超高速集成电路硬件描述语言

VHDL&#xff1a;超高速集成电路硬件描述语言 VHDL&#xff0c;全称为Very-High-Speed Integrated Circuit Hardware Description Language&#xff0c;即超高速集成电路硬件描述语言&#xff0c;是一种用于电路设计的高级语言。以下是关于VHDL的详细介绍&#xff1a; 一、起源…

ThingsBoard规则链节点:Split Array Msg节点详解

引言 拆分数组消息节点简介 用法 含义 应用场景 实际项目运用示例 智能仓储管理系统 智能电网监控系统 车联网平台 结论 引言 ThingsBoard是一个功能强大的物联网平台&#xff0c;它提供了设备管理、数据收集与处理以及实时监控等核心功能。其规则引擎允许用户定义复杂…

时序图分析(IIC通信为例)

一、时序图分析&#xff08;IIC通信为例&#xff09; 时序图-->编程 解析&#xff1a;时序概念&#xff1a;一般指可编程器件的编程方法&#xff0c;在单片机编程时&#xff0c;需要根据被控芯片的时序去写程序&#xff0c;把芯片上的时序用代码来实现&#xff0c;方可实…

数据结构4——栈

1. 栈的概念及结构 栈的概念&#xff1a; 栈是一种特殊的线性表&#xff0c;其只允许在固定的一端进行插入和删除元素操作。进行数据插入和删除操作的一端称为栈顶&#xff0c;另一端称为栈底。栈中的数据元素遵守后进先出LIFO&#xff08;Last In First Out&#xff09;的原则…

<Linux> 线程池

一、线程池 1. 池化技术 池化技术是一种在计算机科学中广泛应用的优化技术&#xff0c;它的核心思想是&#xff1a;预先创建并维护一组资源&#xff08;例如线程、连接、对象&#xff09;&#xff0c;供多个任务共享使用&#xff0c;以减少创建和销毁资源的开销&#xff0c;提…

贪吃蛇游戏(代码篇)

我们并不是为了满足别人的期待而活着。 前言 这是我自己做的第五个小项目---贪吃蛇游戏&#xff08;代码篇&#xff09;。后期我会继续制作其他小项目并开源至博客上。 上一小项目是贪吃蛇游戏&#xff08;必备知识篇&#xff09;&#xff0c;没看过的同学可以去看看&#xf…

使用Java API访问Apache Kafka

简介 Kafka是由Apache软件基金会开发的一个开源流处理平台,Kafka是一个功能强大且灵活的平台。 基本情况 软件名称:Apache Kafka 软件平台:跨平台 软件语言:Scala、Java 开发商:Apache软件基金会 软件授权:Apache License 2.0 最近更新时间:2024年7月23日 核心概念 -…

Ubuntu:用户不在sudoers文件中

1、问题 执行sudo xxx命令时&#xff0c;显示&#xff1a; user 不在sudoers文件中 需要查看系统版本进入恢复模式修复。 2、重启进入恢复模式 查看系统命令&#xff1a;uname -r 可能显示为&#xff1a;6.8.0-45-generic 重启Ubuntu系统&#xff0c;在开机时按ESC进入模…

oracle归档日志爆满问题处理

最近客户单位的oracle数据库出了问题&#xff0c;经常出现无法连接,报错提示 ORA-00257: archiver error, Connect internal only, until freed.&#xff0c;手动清除归档日志后可以恢复访问&#xff0c;但是过不了几天依旧会爆满&#xff0c;每日生成的归档日志很大。经过详细…

内部排序算法小结

练习目标&#xff1a; 1、实现 直接插入排序、冒泡排序、SHELL排序和快速排序&#xff1b; 2、随机生成100组数据&#xff0c;每组数据1000个元素。 注意&#xff1a;计时的单位是CPU的clock而非时间&#xff01;&#xff01;&#xff01; 【后续】 1、加入选择排序&#xff1b…

读书笔记《PPT演讲力》大树模型

作者把PPT演讲比作一棵大树&#xff0c;树的每一部分对应着PPT演讲的一个技巧。 根据这个大树模型&#xff0c;是否有联想到自己过往的演讲经历&#xff1f;演讲是否都达到了大树模型中说的效果&#xff1f;根据这个思维导图&#xff0c;结合自己的经历&#xff0c;试着总结3句…

云计算第四阶段-----CLOUND二周目 04-06

cloud 04 今日目标&#xff1a; 一、Pod 生命周期 图解&#xff1a; [rootmaster ~]# vim web1.yaml --- kind: Pod apiVersion: v1 metadata:name: web1 spec:initContainers: # 定义初始化任务- name: task1 # 如果初始化任务失败&#…

数字化与数智化,你知道它们的区别吗?

​其实老早就想说这个。中间一直在忙忙忙&#xff0c;还有处理自己的事情&#xff0c;导致拖更了。 最近听说一个物流大佬现在也转行做数字化厂家负责人&#xff0c;顺便给我讲解了这二者的区别&#xff0c;这里我就重新梳理了一下&#xff0c;加上了我自己的一些观点&#xf…

qt creator 开发环境的安装

1.找官网 官网地址&#xff1a;Installation | Qt Creator Documentation 点 Parent Directory 继续点 Parent Directory 点 archive/ 2.下载在线安装器 点 online_ainstallers 选择在线安装器版本 选择对应版本后进入下载列表&#xff0c;根据自己的系统选择下载。 下载后…

常用类(四)---String结构剖析

文章目录 1.String结构剖析2.String创建剖析3.String特性分析4.String方法总结5.StringBuffer和StringBuilder总结5.1stringbuffer对象的创建方法5.2string--stringbuffer之间的相互转换&#xff1a; 这个是我第二次学习string&#xff0c;听的是hsp老师的课程&#xff0c;我认…

IRP读写函数

驱动代码&#xff1a; #include <ntddk.h>#define DEVICE_NAME L"\\device\\MyDricer1" //设备对象名称 #define LINK_NAME L"\\dosdevices\\Goose" //符号链接名称VOID UnDirver(PDRIVER_OBJECT pDriverObj) {UNICODE_STRING uLinkName RTL_CONST…

OpenCV高级图形用户界面(6)获取指定窗口中图像的矩形区域函数getWindowImageRect()的使用

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 提供窗口中图像的矩形区域。 该函数 getWindowImageRect 返回图像渲染区域的客户端屏幕坐标、宽度和高度。 函数原型 Rect cv::getWindowImage…