技术实践|Hive数据迁移干货分享

news2024/12/26 4:01:58

导语

Hive是基于Hadoop构建的一套数据仓库分析系统,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能。它的优点是可以通过类SQL语句快速实现简单的MapReduce统计,不用再开发专门的MapReduce应用程序,从而降低学习成本,十分适合对数据仓库进行统计分析。

近几年,随着行业内数据体量的不断增大,再加上国产化的趋势下,很多企业都开始着手对自己已有的大数据平台进行扩容、升级、产品更换等一系列操作,以期可以赶上潮流。因此,就会有很多项目需要进行数据库迁移,本文主要总结了一些在项目上遇到Hive迁移时,可以使用的方式方法,供大家参考借鉴。

目录

● 1. Hive迁移类型

● 2. Hive迁移步骤

● 3. Hive迁移实施步骤

● 4. 结语

1. Hive迁移类型

■ 表和数据整体迁移

一般在企业进行大数据平台产品的升级更换(如国产化)、机房搬迁、物理机转向云平台等情况下,会进行整库迁移,那么此时Hive迁移建议使用表和数据整体迁移的方式进行迁移。

■ 表和数据分步迁移

一般在企业进行数据库改造、历史数据库区域创建、业务条线改造等,或是数据库出现瓶颈的情况下,会进行部分数据迁移,那么此时Hive迁移建议使用表和数据分步迁移的方式进行迁移。

2. Hive迁移步骤

(1)将表和数据从老集群Hive导出到老集群HDFS

(2)将表和数据从老集群HDFS导出到老集群本地磁盘或共享磁盘

(3)将表和数据从老集群本地磁盘复制到新集群本地磁盘(如共享磁盘此步骤省略)

(4)将表和数据从新集群本地磁盘或共享磁盘上传到新集群HDFS

(5)修复新集群Hive数据库元数据

如果老集群HDFS和新集群HDFS连通,可使用DistCp工具跨集群复制,跳过中间步骤,直接执行第5步。

图片

3. Hive迁移实施步骤

■ 新集群和服务器检查

#查看本地空间使用情况是否足够

df -h

#查看HDFS集群使用情况是否满足  

hadoop dfsadmin -report

#查找Hive库存储位置

hadoop fs -find / -name warehouse

#查看Hive库占用情况

hadoop fs -du -h /user/hive/warehouse

■ 表和数据整体迁移

一般Hive整体迁移时使用HDFS文件迁移,然后再进行数据表与数据文件关联即可,新老集群Hive版本即使不一致的情况下也支持该步骤,详细操作步骤如下:

老集群备份

# 罗列迁移表清单

cat <<EOF > /home/data/backup/hive_sel_tables.hql
use <db_name>;
show tables;
EOF

# 清洗迁移表清单

beeline -f  /home/data/backup/hive_sel_tables.hql \
| grep -e "^|" \
| grep -v "tab_name" \
| sed "s/|//g" \
| sed "s/ //g" \
> /home/data/backup/hive_table_list.txt

# 拼接建表语句命令及清洗无用字符

cat /home/data/backup/hive_table_list.txt \
| awk '{printf "show create table <db_name>.%s;\n",$1,$1}' \
| sed "s/|//g" \
| sed "s/+/'/g" \
| grep -v "tab_name" \
> /home/data/backup/hive_show_create_table.hql

# 导出建表语句

beeline -e /home/data/backup/hive_show_create_table.hql>/home/data/backup/hive_table_ddl.sql

# 清洗建表语句

sed -i 's/^|//g' /home/data/backup/hive_table_ddl.sql
sed -i 's/|$//g' /home/data/backup/hive_table_ddl.sql
sed -i 's/-//g' /home/data/backup/hive_table_ddl.sql
sed -i 's/+//g' /home/data/backup/hive_table_ddl.sql
sed -i 's/createtab_stmt//g' /home/data/backup/hive_table_ddl.sql
sed -i 's/.*0: jdbc:hive2:.*/;/' /home/data/backup/hive_table_ddl.sql
sed -i '/^$/d'  /home/data/backup/hive_table_ddl.sql

# 拼接修复Hive元数据语句

cat /home/data/backup/hive_table_list.txt \
| awk '{printf "msck repair table archive.%s;\n",$1,$1}' \
| sed "s/|//g" \
| sed "s/+/'/g" \
| grep -v "tab_name" \
> /home/data/backup/hive_repair_table.hql

# 将Hive在HDFS中的文件导出到HDFS临时目录

hadoop fs -get /user/hive/warehouse/<db_name> /tmp

# HDFS集群连通时使用DistCp进行拷贝

hadoop distcp hdfs://scrNameNode/tmp/<db_name> hdfs://user/hive/warehouse/<db_name>

# HDFS集群不连通,导出HDFS文件到本地磁盘或者共享NAS

hadoop fs -get /tmp/<db_name> /home/data/backup/

# 如果是共享磁盘忽略此步 

scp -r /home/data/backup/ root@targetAP:/home/data/backup/

新集群恢复

# 登录生产环境Hive并创建表

beeline -f /home/data/backup/hive_table_ddl.sql>>/home/data/backup/hive_table_ddl.log

# 检查新集群数据库新表是否创建成功

beeline 
use <db_name>
show tables;

# 将数据文件上传到HDFS的Hive存储路径下

hadoop fs -put /home/data/backup/<db_name> /user/hive/warehouse/<db_name>

# 关联Hive表和数据

beeline -f /home/data/backup/hive_repair_table.hql

# 查看HDFS所有目录检查是否都导入成功

hadoop fs -lsr /home

# 查看所有表大小,验证新旧表大小是否一致

hadoop fs -du -h /user/hive/warehouse/<db_name>

■ 表和数据分步迁移

一般Hive分步迁移时使用Import和Export,新老集群Hive版本不一致的情况下也支持该步骤。

Export工具导出时会同时导出元数据和数据;

Import工具会根据元数据自行创建表并导入数据。

老集群备份

# 罗列迁移表清单

cat <<EOF > /home/data/backup/hive_sel_tables.hql
use <db_name>;
show tables;
EOF

# 罗列要迁移的表清单

beeline -f /home/data/backup/hive_sel_tables.hql\
| grep -e "^|" \
| grep -v "tab_name" \
| sed "s/|//g" \
| sed "s/ //g" \
> /home/data/backup/hive_table_list.txt

# 生成导出脚本

cat /home/data/backup/hive_table_list.txt \
| awk '{printf "export table <db_name>.%s to |/tmp/<db_name>/%s|;\n",$1,$1}' \
| sed "s/|//g" \
| grep -v "tab_name" \
> /home/data/backup/hive_export_table.hql

# 生成导入脚本

cat /home/data/backup/hive_table_list.txt \
| awk '{printf "import table <db_name>.%s from |/tmp/<db_name>/%s|;\n",$1,$1}' \
| sed "s/|//g" \
| grep -v "tab_name" \
> /home/data/backup/hive_import_table.hql

# 创建HDFS导出目录

hadoop fs -mkdir -p /tmp/<db_name>/

# 导出表结构到数据到HDFS

beeline -f /home/data/backup/hive_export_table.hql

#HDFS集群连通时使用DistCp进行拷贝

hadoop distcp hdfs://scrNmaeNode/tmp/<db_name> hdfs://targetNmaeNode/tmp

# HDFS集群不连通,导出HDFS文件到本地磁盘或者共享NAS

hadoop fs -get /tmp/<db_name> /home/data/backup/

# 如果是共享磁盘忽略此步 

scp -r /home/data/backup/ root@targetAP:/home/data/backup/

新集群恢复

# 创建HDFS导出目录

hadoop fs -mkdir -p /tmp/<db_name>/

#上传到目标HDFS

hadoop fs -put /home/data/backup/<db_name> /tmp

# 导入到目标Hive

beeline -f /home/data/backup/hive_import_table.hql

# 查看HDFS所有目录检查是否都导入成功

hadoop fs -lsr /home

# 查看所有表大小,验证新旧表大小是否一致

hadoop fs -du -h /user/hive/warehouse/<db_name>

4. 总结

Hive的数据迁移其实有多种方式,根据需求不同采用的迁移方式也不尽相同,每种迁移的优势也是不同的,其中数据量是影响迁移的重要因素之一。

在数据量不大的情况下,Hive迁移一般常用的方式是使用Export、Import进行数据和元数据的导出导入,Export会将数据和元数据写到一起,并且元数据在恢复时是直接关联数据的,不需要再做其他的操作。同时还直接关联分区,不需要再使用MSCK进行分区修复。需要注意的一点的是,Import和Export在进行数据恢复的时候,只会关注到表层的文件夹,不用和旧集群的文件路径一摸一样。

在数据量比较大的情况下,建议使用整体迁移的方式,这样Hive迁移的速度较快,但是注意要保证新旧集群数据目录的一致性。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/959005.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何使用CRM系统进行精细化管理客户?

客户是企业的生命线&#xff0c;对客户进行精细化管理&#xff0c;是提高企业收益的关键。那么&#xff0c;如何进行客户管理&#xff1f;CRM系统可以实现精细化管理客户&#xff0c;提升客户的价值。下面我们就来详细说一说。 1、获取客户信息 Zoho CRM系统可以通过web表单、…

二叉树题目:二叉树的右视图

文章目录 题目标题和出处难度题目描述要求示例数据范围 解法一思路和算法代码复杂度分析 解法二思路和算法代码复杂度分析 题目 标题和出处 标题&#xff1a;二叉树的右视图 出处&#xff1a;199. 二叉树的右视图 难度 4 级 题目描述 要求 给定二叉树的根结点 root \t…

Git Bash 和 Git GUI中文汉化

目录 为什么要中文汉化&#xff1f;Git Bash的汉化Git GUI的汉化 为什么要中文汉化&#xff1f; 看到中文大概能猜出是什么意思&#xff0c;便于使用&#xff0c;特别是Git GUI&#xff0c;中文版的菜单很容易理解是要做什么&#xff0c;如下图&#xff1a; Git Bash的汉化 …

纽扣电池PSE认证检测标准是什么?纽扣电池PSE认证办理机构

中国制造商要申请PSE认证&#xff0c;首先要确定其申请的产品是否在中国质量认证中心(CQC)获得授权受理的认证CE范围内。由于目前CQC获得的授权是基于技术基准2&#xff0c;制造商须选择技术基准2申请PSE认证。确认后制造商可向CQC提出书面申请&#xff0c;并将样品与技术资料提…

Spring源码分析(九)Bean实例化的后置处理

目录 1.1 后置处理1.1.1 调用父类方法1.1.2 获取元数据1.1.3 注解元信息检查1.1.4 Member、InjectedElement、InjectionMetadata 官网&#xff1a;Home参考书籍&#xff1a;Spring源码深度解析-郝佳编著-微信读书 上一节我们详细的解释了Bean的创建过程&#xff0c;工厂&#…

OpenCV(二):认识Mat容器

目录 1.什么是Mat类 2.Mat类能存储的数据 整数类型&#xff08;有符号和无符号&#xff09;&#xff1a; 浮点数类型&#xff1a; 布尔类型&#xff1a; 3.Mat类的创建 1.利用矩阵宽、高和类型参数创建Mat类 2.利用矩陈Size(结构和数据类型参数创建Mat类 3.利用已有Mat…

三十七个常见Vue面试题,背就完事了四

二十八、Vue.use是干什么的&#xff1f;Vue.use是用来使用插件的。我们可以在插件中扩展全局组件、指令、原型方法等。 会调用install方法将Vue的构建函数默认传入&#xff0c;在插件中可以使用vue&#xff0c;无需依赖vue库 二十九、组件写name有啥好处&#xff1f; 增加name…

恒运资本:什么叫融资通俗的讲是什么意思?

融资浅显的讲是什么意思&#xff1f; 近年来&#xff0c;伴随着互联网金融的鼓起&#xff0c;融资这个词越来越为人们所熟知。但是&#xff0c;关于融资这个词的意思&#xff0c;很多人也许只是有一个含糊的概念&#xff0c;无法做到准确而深入的了解。本文将从多个角度剖析&a…

VB:百元买百鸡问题

VB&#xff1a;百元买百鸡问题 Private Sub Command1_Click()ClsRem 百元买百鸡问题Print "公鸡", "母鸡", "小鸡"For x 0 To 20For y 0 To 33z 100 - x - yIf z Mod 3 0 ThenIf 5 * x 3 * y z / 3 100 ThenPrint x, y, zEnd IfEnd IfNe…

亚运会即将召开,数字孪生体育场能够发挥什么作用?

亚运会&#xff0c;作为亚洲地区最重要的综合性运动盛会之一&#xff0c;将吸引数以千计的运动员、教练员和观众汇聚一堂&#xff0c;共同见证运动的魅力。在如此大规模的体育盛会中&#xff0c;数字孪生技术能够为运动场馆的规划、运营和观众带来前所未有的体验。 数字孪生技术…

ESP-C3入门22. 基于VSCODE使用内置JTAG调试程序

ESP-C3入门22. 基于VSCODE使用内置JTAG调试程序 一、简介1. 内置 jtag 介绍2. OpenOCD3. 准备工作 二、操作步骤1. 接线2. 在VSCode设置端口等信息3. 测试编译烧录 三、调试程序 一、简介 1. 内置 jtag 介绍 在ESP32中&#xff0c;内置了一个用于JTAG调试的特殊程序&#xff…

【实验八】555定时器的应用

【实验内容】 【实验报告】 【实验截图】 1 2 3 【得分】

(c++)类和对象 上篇

目录 1.面向过程和面向对象初步认识 2.类的引入 3.类的定义 4.类的访问限定符及封装 5.类的作用域 6.类的实例化 7.类的对象大小的计算 8.类成员函数的this指针 1.面向过程和面向对象初步认识 C语言是面向过程的&#xff0c;关注的是过程&#xff0c;分析出求解问题的步…

C++ for 循环

for 循环允许您编写一个执行特定次数的循环的重复控制结构。 语法 C 中 for 循环的语法&#xff1a; for ( init; condition; increment ) {statement(s); }下面是 for 循环的控制流&#xff1a; init 会首先被执行&#xff0c;且只会执行一次。这一步允许您声明并初始化任…

模糊测试面面观 | 模糊测试是如何发现异常情况的?

协议模糊测试是一种用于评估通信协议、文件格式和API实现系统安全性和稳定性的关键技术。在模糊测试过程中&#xff0c;监视器扮演着关键角色&#xff0c;它们能够捕获异常情况、错误响应、资源利用等&#xff0c;为测试人员提供有价值的信息&#xff0c;有助于发现潜在漏洞和问…

STM32-串口通信(串口的接收和发送)

文章目录 STM32的串口通信一、STM32里的串口通信二、串口的发送和接收串口发送串口接收 三、串口在STM32中的配置四、串口接收的两种实现方式1. 需要更改的地方2. 查询RXNE标志位3. 使用中断 总结 STM32的串口通信 本文在于记录自己的学习过程中遇到的问题和总结&#xff0c;各…

LeetCode——栈的压入、弹出序列

这里我用下面的例子子来讲解一下模拟栈的实现。 例子1&#xff1a;pushed [1,2,3,4,5] popped [4,5,3,2,1] 思路&#xff1a;第一步&#xff1a;我们先创建一个栈&#xff0c;然后将pushed的数据压进去 第二步&#xff1a;判断&#xff01; 当压入栈的数据和popped第一个数据…

【实验六】组合逻辑电路的设计

【实验内容】 【实验报告】

向openssl中添加一个最简单的算法

文章目录 一、尝试在sha.c中添加新的函数二、添加自定义算法2.1 添加对应文件2.2 相关配置2.3 编译运行 一、尝试在sha.c中添加新的函数 在尝试添加新算法前&#xff0c;我先尝试在原有的旧算法中添加一个新函数&#xff0c;看是否能被编译并生成对应的动态链接库。 关于open…

unity 跨屏显示

1.代码 /*Type:设置分辨率*/ using System.Collections; using System.Collections.Generic; using UnityEngine; using System; using System.Runtime.InteropServices;public class ScreenManager : MonoBehaviour {[HideInInspector]//导入设置窗口函数 [DllImport("…