Hudi(26):Hudi集成Hive之同步工具

news2025/2/24 15:13:08

目录

0. 相关文章链接

1. 同步工具概述

2. 使用语法及参数

2.1. 语法

2.2. 参数说明

3. 解决依赖问题

3.1. 解决点一:修改hadoop、hive、hudi-hive-sync-bundle-0.12.0.jar的依赖加载

3.2. 解决点二:解决parquet-column的版本冲突

4. JDBC模式同步

5. HMS模式同步


0. 相关文章链接

 Hudi文章汇总 

1. 同步工具概述

        若写入引擎没有开启自动同步,则需要手动利用 Hudi 客户端工具进行同步,Hudi提供Hive sync tool用于同步Hudi最新的元数据(包含自动建表、增加字段、同步分区信息)到hive metastore。

        Hive sync tool提供三种同步模式,JDBC,HMS,HIVEQL。这些模式只是针对Hive执行DDL的三种不同方式。在这些模式中,JDBC或HMS优于HIVEQL, HIVEQL主要用于运行DML而不是DDL。

2. 使用语法及参数

脚本位置在hudi源码路径下的hudi-sync/hudi-hive-sync/run_sync_tool.sh

2.1. 语法

#查看语法帮助
./run_sync_tool.sh --help

#语法:
./run_sync_tool.sh  \
--jdbc-url jdbc:hive2:\/\/hiveserver:10000 \
--user hive \
--pass hive \
--partitioned-by partition \
--base-path <basePath> \
--database default \
--table <tableName>

从Hudi 0.5.1版本开始,读时合并优化版本的表默认带有'_ro'后缀。为了向后兼容旧的Hudi版本,提供了一个可选的配置 --skip-ro-suffix,如果需要,可以关闭'_ro'后缀。

2.2. 参数说明

HiveSyncConfig

DataSourceWriteOption

描述

--database

hoodie.datasource.hive_sync.database

同步到hive的目标库名

--table

hoodie.datasource.hive_sync.table

同步到hive的目标表名

--user

hoodie.datasource.hive_sync.username

hive metastore 用户名

--pass

hoodie.datasource.hive_sync.password

hive metastore 密码

--use-jdbc

hoodie.datasource.hive_sync.use_jdbc

使用JDBC连接到hive metastore

--jdbc-url

hoodie.datasource.hive_sync.jdbcurl

Hive metastore url

--sync-mode

hoodie.datasource.hive_sync.mode

同步hive元数据的方式. 有效值为 hms, jdbc hiveql.

--partitioned-by

hoodie.datasource.hive_sync.partition_fields

hive分区字段名,多个字段使用逗号连接.

--partition-value-extractor

hoodie.datasource.hive_sync.partition_extractor_class

解析分区值的类名,默认SlashEncodedDayPartitionValueExtractor

3. 解决依赖问题

run_sync_tool.sh这个脚本就是查找hadoop、hive和bundle包的依赖,实际上使用的时候会报错各种ClassNotFoundException、NoSuchMethod,所以要动手修改依赖的加载逻辑:

vim /opt/software/hudi-0.12.0/hudi-sync/hudi-hive-sync/run_sync_tool.sh

3.1. 解决点一:修改hadoop、hive、hudi-hive-sync-bundle-0.12.0.jar的依赖加载

修改一:将34行 HUDI_HIVE_UBER_JAR=xxxx 注释掉

修改二:将52行 HADOOP_HIVE_JARS=xxx注释掉

#在 54行 添加如下:
HADOOP_HIVE_JARS=`hadoop classpath`:$HIVE_HOME/lib/*
HUDI_HIVE_UBER_JAR=/opt/software/hudi-0.12.0/packaging/hudi-hive-sync-bundle/target/hudi-hive-sync-bundle-0.12.0.jar

3.2. 解决点二:解决parquet-column的版本冲突

步骤一:上传parquet-column-1.12.2.jar到/opt/software/,脚本中添加如下:

PARQUET_JAR=/opt/software/parquet-column-1.12.2.jar

步骤二:拼接路径到命令最前面(只能最前面!)

最后,保存退出即可。

4. JDBC模式同步

通过hive2 jdbc协议同步,提供的是hive server2的地址,如jdbc:hive2://hive-server:10000。默认为jdbc。

# 进入hudi-hive-sync目录:
cd /opt/software/hudi-0.12.0/hudi-sync/hudi-hive-sync



# 执行如下脚本:
./run_sync_tool.sh \
--base-path hdfs://hadoop1:8020/tmp/hudi_flink/t2/ \
--database default \
--table t2_flink \
--jdbc-url jdbc:hive2://hadoop1:10000 \
--user atguigu \
--pass atguigu \
--partitioned-by num

5. HMS模式同步

提供hive metastore的地址,如thrift://hms:9083,通过hive metastore的接口完成同步。使用时需要设置 --sync-mode=hms。

如果使用的是远程metastore,那么确保hive-site.xml配置文件中设置hive.metastore.uris。

./run_sync_tool.sh  \
--base-path hdfs://hadoop1:8020/tmp/hudi_flink/t3 \
--database default \
--table t3_flink  \
--user atguigu \
--pass atguigu \
--partitioned-by age \
--sync-mode hms \
--jdbc-url thrift://hadoop1:9083 

注:其他Hudi相关文章链接由此进 ->  Hudi文章汇总 


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/362065.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

buu [WUSTCTF2020]dp_leaking_1s_very_d@angerous 1

题目描述&#xff1a; e 65537 n 1568083435985787749573756968151889806821667406093028310996964920682463371987925108988184962391663390152073051021014316342831685444929845865667999964711502523821441482572367072472675061656708775063702531276953141639870840764…

Docker竟如此简单!

文章目录什么是容器&#xff1f;容器隔离何为“边界”&#xff1f;容器和虚拟机一样吗&#xff1f;基于 Linux Namespace 隔离机制的弊端容器限制何为“限制”&#xff1f;Cgroups 对资源的限制能力缺陷单进程模型容器镜像容器的诞生容器的一致性何为“层&#xff08;layer&…

前端必须知道的http知识

HTTP协议也叫超文本传输协议&#xff0c;是一种基于TCP/IP的应用层通信协议&#xff0c;这个协议详细规定了浏览器和万维网服务器之间互相通信的规则&#xff08;报文&#xff0c;请求报文、响应报文&#xff09; 请求方式 HTTP设定了八种发送请求方式&#xff0c;这八种方法没…

SpringCloud(二)配置中心

配置中心Nacos配置中心多环境共享Nacos集群搭建Nacos配置中心 作用&#xff1a; 统一配置管理配置自动刷新&#xff0c;热更新 实现&#xff1a; 统一配置管理 在nacos服务端&#xff0c;配置管理配置列表中新建配置了解配置获取的步骤&#xff1a; 项目启动->读取nacos中…

MySQL中有多少种索引?索引的底层实现原理

索引存储在内存中&#xff0c;为服务器存储引擎为了快速找到记录的一种数据结构。索引的主要作用是加快数据查找速度&#xff0c;提高数据库的性能。索引的分类(1) 普通索引&#xff1a;最基本的索引&#xff0c;它没有任何限制。(2) 唯一索引&#xff1a;与普通索引类似&#…

Java技术之注解

前言 Java的反射和注解是Java和Android程序员必须掌握的技术&#xff0c;注解使程序员可以将重复冗余的工作封装到一个框架里面&#xff0c;提供一个简单的API接口给程序使用&#xff0c;典型的有黄油刀(ButterKnife)、ARouter、EventBus等都使用了注解。这些优秀的框架都是使…

win7下安装postgreSQL教程

系统环境&#xff1a;Windows 7 旗舰版 64位操作系统 安装版本&#xff1a;postgresql-9.1.4-1-windows-x64 安装步骤&#xff1a; 1、下载系统对应的软件版本&#xff1b; 2、双击“postgresql-9.1.4-1-windows-x64.exe”打开安装窗口&#xff1b; 3、Welcome页&#xff0c;…

ChatGPT来了,英语不能丢,但我不想上班

文 / 谷雨&#xff08;微信公众号&#xff1a;王不留&#xff09; 好久没写文&#xff0c;可能大伙已把我忘了。春节之后&#xff0c;状态一直不太好。我在2月1号时从老家直接来到了深圳出差&#xff0c;而后以996的工作状态疲于应付工作中的各种问题。 终于这周末休息了两天&a…

【linux安装redis详解】小白如何安装部署redis,linux安装部署只需5步骤(图文结合,亲测有效)

【写在前面】前端时间接触了一下redis&#xff0c;也是迫于页面查询响应太慢&#xff0c;没办法听说redis这个可持久化内存数据库&#xff0c;于是乎便想着在自己的机器上安装一套&#xff0c;接下来就重点和大家说说怎么从小白开始摸索redis 目录1、下载2、安装2.1 创建文件存…

全开源无加密的RuleApp文章社区APP客户端源码

内容目录一、详细介绍二、效果展示1.部分代码2.效果图展示三、学习资料下载一、详细介绍 开源无加密的文章社区客户端源码分享 RuleApp文章社区&#xff0c;VIP会员&#xff0c;写作投稿积分商城&#xff0c;付费模块集成&#xff0c;多平台兼容这是一款开源免费&#xff0c;界…

事件流、事件冒泡、阻止冒泡

1、事件流 2、事件冒泡&#xff1a;从小到大 概念&#xff1a; 当一个元素的事件被触发时&#xff0c;同样的事件将会在该元素的所有祖先元素中依次被触发。这一过程被称为事件冒泡 <style> .father{width: 300px;height: 300px;background-color: pink; } .son{width:…

sshdo使用training mode来获得incoming ssh会执行什么命令

前言上一篇文章(使用sshdo限制incoming ssh只能执行指定命令)[https://blog.csdn.net/thesre/article/details/129135045] 介绍了如何配置并使用sshdo。有同学就遇到问题了&#xff0c;说我怎么知道我要允许哪些命令&#xff1f;那么&#xff0c;本文以TurboVNC客户端连接Turbo…

2023-02-20干活小计:

所以我今天的活开始了&#xff1a; In this paper, the authors target the problem of Multimodal Name Entity Recognition(MNER) as an improvement on NER(text only) The paper proposes a multimodal fusion based on a heterogeneous graph of texts and images to mak…

【Maven】(一)5分钟做完 Maven 的安装与配置

1.前言 在安装Maven之前&#xff0c;先简单的介绍一下。 Maven 是一款构建工具&#xff0c;它抽象项目构建的生命周期并提供了一个标准的、跨平台的构建流程&#xff0c;让我们在各类操作系统的环境中&#xff0c;都只需要使用一个简单的指令&#xff08;如 mvn clean instal…

网络安全态势感知研究综述

摘要&#xff1a;随着物联网、云计算和数字化的迅速发展&#xff0c;传统网络安全防护技术无法应对复杂的网络威胁。网络安全态势感知能够全面的对网络中各种活动进行辨识、理解和预测。首先分别对态势感知和网络安全态势感知的定义进行了归纳整理&#xff0c;介绍了网络安全态…

使用带有 Moveit 的深度相机来避免碰撞

文章目录 什么是深度相机?如何将 Kinect 深度相机添加到您的环境中在 Rviz 中可视化深度相机数据在取放场景中使用深度相机将深度相机与您的 Moveit 设置一起使用有很多优势。机器人可以避免未知环境中的碰撞,甚至可以对周围的变化做出反应。然而,将深度相机连接到您的设置并…

vue2组件

文章目录注册组件组件的理解为什么使用组件组件化组件化思想的应用复用组件注册组件创建组件构造器注册组件使用组件全局组件和局部组件全局组件局部组件组件的嵌套注册组件的语法糖组件命名组件名关于组件标签组件模板的分离写法组件的data必须是一个函数关于VueComponent组件…

华为电脑录屏,3个方法,轻松录屏

华为电脑录屏是一项非常实用的功能&#xff0c;可以帮助小伙伴轻松的记录和分享屏幕上的操作内容。华为电脑提供了内置的录屏工具&#xff0c;可以进行全屏录制&#xff0c;小伙伴也可以选择使用电脑QQ录屏功能和数据蛙录屏软件进行华为电脑录屏。让我们一起来了解一下华为电脑…

一文掌握人才盘点工具方法及步骤【附实用模板】

很多人认为人才盘点是HR的事情&#xff0c;作为项目经理和PMO基本上没有操心过&#xff1f;但是真正用人的人是你&#xff0c;为公司拿结果的人也是你&#xff0c;但是你从来没有盘点过有多少人&#xff0c;什么样的人可用&#xff1f;这些人的能力如何&#xff1f;潜力如何&am…

Windows启动docker客户端报错:Hardware assisted virtualization and enabled in the BIOS

报错内容 : &#x1f31f;1.在控制面板中点击 启用或关闭Windows功能&#x1f31f;2.勾选如下复选框&#x1f31f;3.Windows功能中没有Hyper-V复选框怎么办?(如果有请跳过此步骤)此时不同人的电脑还会出现没有Hyper-V选项的情况1.打开 Windows PowerShell&#xff0c;输入 sys…