Hudi系列8:Hudi集成Flink

news2024/11/17 17:26:03

文章目录

  • 一. 相关配置
    • 1.1 拷贝编译好的jar包到Flink的lib目录
    • 1.2 拷贝guava包,解决依赖冲突
    • 1.3 配置环境变量
  • 二. YARN Session模式下启动Flink SQL
    • 2.1 解决依赖问题
    • 2.2 启动yarn-session
    • 2.3 在yarn session模式下启动flink sql
  • 三. 测试
  • 四. 异常问题汇总

一. 相关配置

1.1 拷贝编译好的jar包到Flink的lib目录

# 同步到其它节点
cd /home/hudi-0.12.0/packaging/hudi-flink-bundle/target/
cp ./hudi-flink1.14-bundle-0.12.0.jar  /home/flink-1.14.5/lib

1.2 拷贝guava包,解决依赖冲突

#  同步到其它节点
[root@hp5 lib]# cd /home/hadoop-3.3.2/share/hadoop/common/lib
[root@hp5 lib]# ls | grep guava
guava-27.0-jre.jar
hadoop-shaded-guava-1.1.1.jar
listenablefuture-9999.0-empty-to-avoid-conflict-with-guava.jar
[root@hp5 lib]# 
[root@hp5 lib]# cp guava-27.0-jre.jar /home/flink-1.14.5/lib/

1.3 配置环境变量

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_CLASSPATH=`hadoop classpath`

二. YARN Session模式下启动Flink SQL

2.1 解决依赖问题

# 同步到其它节点
cp /home/hadoop-3.3.2/share/hadoop/mapreduce/hadoop-mapreduce-client-core-3.3.2.jar /home/flink-1.14.5/lib/
cd /home/flink-1.14.5/lib/

2.2 启动yarn-session

/home/flink-1.14.5/bin/yarn-session.sh -d

2.3 在yarn session模式下启动flink sql

 /home/flink-1.14.5/bin/sql-client.sh embedded -s yarn-session

image.png

三. 测试

set sql-client.execution.result-mode=tableau;

create table t1(
 uuid varchar(20) primary key not enforced,
 name varchar(10),
 ts   timestamp(3),
 `pt` varchar(20)
)
PARTITIONED BY(`pt`)
WITH (
 'connector' = 'hudi',
 'path'      = '/user/hudi_data/t1',
 'table.type'= 'MERGE_ON_READ'  
);


insert into t1 values 
('id1', 'Test1', timestamp '1970-01-01 00:00:01', 'par1');

image.png

四. 异常问题汇总

测试Hudi集成Flink的时候,遇到各种各样的问题,后面把Flink的配置文件中关于高可用的部分注释掉就没问题了。

但是Flink的 master在哪个节点,yarn-session也必须运行在哪个节点。

修改Flink配置文件:
注释掉Flink高可用的配置,并增加web运行时监视端口号

jobmanager.rpc.address: hp5
jobmanager.rpc.port: 6123
jobmanager.memory.process.size: 4096m
taskmanager.memory.process.size: 4096m
taskmanager.numberOfTaskSlots: 3
parallelism.default: 1
#high-availability: zookeeper
#high-availability.cluster-id: /flink-cluster
#high-availability.storageDir: hdfs://hp5:8020/vmcluster/flink/ha/
#high-availability.zookeeper.quorum: hp5:2181,hp6:2181,hp7:2181
#state.backend: filesystem
#state.checkpoints.dir: hdfs://hp5:8020/vmcluster/flink-checkpoints
#state.savepoints.dir: hdfs://hp5:8020/vmcluster/flink-savepoints
#jobmanager.execution.failover-strategy: region
#jobmanager.archive.fs.dir: hdfs://hp5:8020/vmcluster/completed-jobs/
#historyserver.archive.fs.dir: hdfs://hp5:8020/vmcluster/completed-jobs/
classloader.check-leaked-classloader: false

#  Web 的运行时监视器端口
rest.port: 9081

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/160009.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

荣誉+1,龙蜥社区荣登 CSDN 2022 中国开发者影响力年度榜单

近日,CSDN 在北京成功举行 “2022 中国开发者影响力盛典暨 CSDN 企业生态汇”活动,同时正式发布 2022 中国开发者影响力年度榜单。凭借本年度在开源领域的卓越贡献和技术实力,龙蜥社区荣登 CSDN 2022 “年度开发者社区” 榜单。(图…

python基础篇之文件操作

大家好,我是csdn的博主:lqj_本人 这是我的个人博客主页:lqj_本人的博客_CSDN博客-微信小程序,前端,vue领域博主lqj_本人擅长微信小程序,前端,vue,等方面的知识https://blog.csdn.net/lbcyllqj?spm1000.2115.3001.5343 哔哩哔哩欢迎关注&…

Why Can GPT Learn In-Context?

Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient Descent as Meta-Optimizers 为什么GPT能够在In-context的环境中进行学习呢?Language Models能够像Meta-Optimizer一样秘密地执行梯度下降。 这篇文章的作者来自清华、北大,代…

Silane-PEG-COOH,硅烷-聚乙二醇-羧基结构式及相关应用介绍

英文名称:Silane-PEG-acid;Silane-PEG-COOH 中文名称:硅烷-聚乙二醇-羧基 分子量:1k,2k,3.4k,5k,10k,20k。。。 存储条件:-20C,避光&#xff0…

AI入门| 机器学习和深度学习傻傻分不清?

(本文阅读时间:5分钟)目前,人工智能主流的支持技术是机器学习和深度学习。二者有什么异同呢?文末为你揭晓!在了解机器是怎么学习之前,我们先来回顾一下人类自己的学习过程。人类是如何学习的&am…

二叉树的基本操作

目录 一、二叉树遍历 1、前序遍历: 动态图解析: 2、中序遍历: 3、后序遍历: 4、层序遍历 (利用队列) 动态图解析: 二、统计二叉树的节点个数: 1、二叉树总节点…

【OpenAI】基于 Gym-CarRacing 的自动驾驶项目 | 车道检测功能的实现 | 边缘检测与分配 | 样条拟合

限时开放,猛戳订阅! 👉 《一起玩蛇》🐍 💭 写在前面: 本篇是关于多伦多大学自动驾驶专业项目的博客。GYM-Box2D CarRacing 是一种在 OpenAI Gym 平台上开发和比较强化学习算法的模拟环境。它是流行的 Box2D…

【High 翻天】Higer-order Networks with Battiston Federico (7)

目录传播与社会动力学(1)传播simplicial complexeshypergraphs传播与社会动力学(1) 模拟人类行为的动态过程一直是许多研究的焦点,其中社会关系和交互通常被认为是一种潜在结构,是高阶方法的天然试验场。 …

广告业务系统 之 框架沉淀 —— “数据消费型服务框架”

文章目录广告业务系统 之 框架沉淀 —— “数据消费型服务框架”数据消费型服务统一框架主流程Plugin 构建广告业务系统 之 框架沉淀 —— “数据消费型服务框架” 数据消费型服务统一框架 由于 ADX 系统中,大量数据以流式涌动,整个链路中出现了 “多处…

MMCME4_ADV与PLL4_ADV原语

MMCM与PLL ​ UltraScale器件中时钟管理模块(CMT)包含mixed-mode clock manager (MMCM) 和phase-locked loops (PLLs) 。PLL主要用来生成I/O时钟,也包含一部分MMCM的功能。 ​ 其中MMCM输出时钟相位调整语VCO频率相关。 MMCME4_ADV原语 ​ MMCM原语包含MMCME3_B…

2023年最新版Java入门教程,一套很哇塞的Java基础课

所谓天道好轮回,鬼畜饶过谁。最近B站学习区也沦陷了,由此诞生出了一种让人闻所未闻的冷概念:鬼畜教学法!这种奇怪的组合让人匪夷所思,但架不住网友们的推荐!!!爱嘤嘤嘤斯坦:早看到这些视频,妈妈就再也不用担…

东南亚跨境电商迅猛发展,商机转瞬即逝!

2022年中国跨境电商进入了转型调整期,前几年高歌猛进的发展势头似乎有所减弱。回顾2022年,跨境电商卖家们都表示心情复杂,过去一年,卖家们经历许多大事件,比如9月份拼多多强势推出Temu奔向北美市场,10月份字…

Linux权限和粘滞位

目录 一.权限概念 二.用户分类 三.文件权限 1.执行操作的人的分类 2.文件类型和访问权限(事物属性) 03.文件权限值的表示方法 四.目录权限与粘滞位 一.权限概念 操作系统用来限制对资源访问的机制,一件事情是否可以被“谁”做&#x…

【观察】浪潮信息龙蜥联合实验室:打造下一代操作系统,筑牢基础软件创新根基...

毫无疑问,在当今世界日益复杂的竞争环境下,随着中国企业数字化转型的加速和自主创新进程的加快,再加上开源和云计算已成为行业发展的大趋势之下,如何在“变局中开新局”?如何解决中国在核心基础软件领域面临的各种挑战…

Java语法七:文件操作---IO

目录 1.File概述 1.1:File概述的方法 2:文件内容的读写 2.1:字节流 2.1.1:读--InputStream 2.1.2:写---OutputStream 2.2:字符 前言: 这一篇我们将讲文件操作的相关方法,以及…

详解Reflect:Reflect和Object的异同,Reflect的一些内置方法以及方法注意点

Reflect Reflect拥有Object对象的一些内部方法,某些方法会同时在Object对象和Reflect对象上部署,也就是说Object对象上存在的方法,通过Reflect也可以访问到。 单论Reflect的话,可以这么理解,Reflect就是继承了Object的…

C语言学习前序 - VS Code安装

要想学习一门编程语言,首先要有一个好的编程工具,推荐大家使用VS Code。 截止到现在,是我最喜欢的代码编辑工具。 工具下载。 官网地址:https://code.visualstudio.com/ 开始下载了,但是很慢很慢。 下载很慢可以直…

【Leetcode面试常见题目题解】4. 盛最多水的容器

题目描述 本文是LC第11题:盛最多水的容器。 题目描述如下: 给定一个长度为 n 的整数数组 height 。有 n 条垂线,第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。 找出其中的两条线,使得它们与 x 轴共同构成的容器可以容纳最多…

.Net 线程安全 (细粒度锁定、无锁机制以及lock)

.Net 线程安全最省事的lock关键字线程安全对象测试环境例子使用Queue源码和结果运行效果使用ConcurrentQueue的源码和结果运行效果volatile关键字易失性内存和非易失性内存的区别易失性内存:非易失性内存:volatile 关键字可应用于以下类型的字段&#xf…

<C++>AVL数

文章目录1. AVL树的概念2. AVL树节点的定义3. AVL树的插入4. AVL树的旋转5. AVL树的验证6. AVL树的性能1. AVL树的概念 二叉搜索树虽可以缩短查找的效率,但如果数据有序或接近有序二叉搜索树将退化为单支树,查找元素相当于在顺序表中搜索元素&#xff0…