Flink安装及简单使用

news2024/11/24 10:37:16

目录

转载处(个人用最新1.17.1测试)

依赖环境

安装包下载地址

Flink本地模式搭建

安装

启动集群

查看WebUI

停止集群

Flink Standalone搭建

安装

修改workers文件

复制Flink安装文件到其他服务器

启动集群

查看WebUI

Flink Standalone HA搭建

HA模式介绍

角色分配

修改masters文件

修改zoo.cfg文件

复制Flink安装文件到其他节点

启动ZooKeeper集群

启动Flink Standalone HA集群

访问WebUI

停止集群


转载处(个人用最新1.17.1测试)

http://www.mangod.top/articles/2023/07/26/1690349392449.html

依赖环境

操作系统:Rocky 8.8

提前安装JDK 8以上版本,JDK 只要不低于 1.8 就行。

https://mohen.blog.csdn.net/article/details/109465678

安装包下载地址

现在最新版本为 1.17.1

https://archive.apache.org/dist/flink/flink-1.17.1/flink-1.17.1-bin-scala_2.12.tgz

wget https://archive.apache.org/dist/flink/flink-1.17.1/flink-1.17.1-bin-scala_2.12.tgz

Flink本地模式搭建

安装

解压安装包

tar -zxvf flink-1.17.1-bin-scala_2.12.tgz

启动集群

进入到解压目录下,执行以下脚本

./bin/start-cluster.sh

通过 jps 命令查询相关进程

若出现上述进程,则代表启动成功。StandaloneSessionClusterEntrypoint为Flink主进程,即JobManager;TaskManagerRunner为Flink从进程,即TaskManager。

查看WebUI

在浏览器中访问服务器8081端口即可查看Flink的WebUI,比如http://10.20.0.93:8081/,从WebUI中可以看出,当前本地模式的Task Slot数量和TaskManager数量。访问结果如下图所示:

默认只允许本地访问

打开远程访问web

关闭防火墙
systemctl stop firewalld.service 

修改配置
vim conf/flink-conf.yaml

停止集群

./bin/stop-cluster.sh

Flink Standalone搭建

安装

搭建Flink Standalone模式,需要3台服务器。角色安排见下图:

在JobManager服务器下载安装包,解压安装包:

tar -xzf flink-1.17.1-bin-scala_2.12.tgz -C /data/software/

Flink的配置文件都存放于安装目录下的conf目录。在JobManager服务器,进入该目录,执行以下操作。

vim conf/flink-conf.yaml

将文件中jobmanager.rpc.address属性的值改为JobManager机器的ip地址,如下:

jobmanager.rpc.address: 10.20.0.93
jobmanager.bind-host: 0.0.0.0

修改workers文件

workers文件必须包含所有需要启动的TaskManager节点的主机名,且每个主机名占一行。在JobManager服务器,执行以下操作

vim conf/workers

修改为其余两台TaskManager的ip地址:

10.20.0.92
10.20.0.90

复制Flink安装文件到其他服务器

在JobManager服务器执行命令,将安装文件复制到其余TaskManager服务器,命令如下:

scp -r /data/software/flink-1.17.1/ 10.20.0.92:/data/software/flink-1.17.1/
scp -r /data/software/flink-1.17.1/ 10.20.0.90:/data/software/flink-1.17.1/

启动集群

在启动或关闭集群的时候应该会让你输入 Worker 节点的登陆密码,而且是每一个 Worker 节点都要输入一遍。显然这样就太麻烦了,因此我们可以提前配置一下。

# 生成私钥和公钥,一路回车即可
# 生成的私钥存放在 id_rsa 文件中、公钥则存放在 id_rsa.pub 文件中
ssh-keygen -t rsa  
cd ~/.ssh  # 进入到家目录的 .ssh 目录中
touch authorized_keys  # 创建 authorized_keys 文件

在每个节点上都执行上面几个步骤,那么所有节点的 .ssh 目录中都有 id_rsa、id_rsa.pub 和 authorized_keys 这三个文件。如果想要实现免登陆的话,假设在 A 节点中远程登陆 B 节点想不输入密码,那么就把 A 节点的 id_rsa.pub 里面的内容添加到 B 节点的 authorized_keys 文件中即可。但是注意,这个过程是单向的,如果在 B 节点中远程登陆 A 节点也不想输入密码的话,那么就把 B 节点的 id_rsa.pub 里面的内容添加到 A 节点的 authorized_keys 中。

# 可以通过 ssh-copy-id 命令帮助我们完成这一过程
[root@satori-001 .ssh]# ssh-copy-id -i id_rsa.pub root@10.20.0.90
...... 一堆输出 .......
...... 提示你输入 10.20.0.90 节点的密码 ......
...... 一堆输出 ......

[root@satori-001 .ssh]# ssh-copy-id -i id_rsa.pub root@10.20.0.92
...... 一堆输出 .......
...... 提示你输入 10.20.0.92 节点的密码 ......
...... 一堆输出 ......

[root@satori-001 .ssh]# 

以上我们在 satori-001 节点远程登录 satori-002 和 satori-003 就无需再输入密码了,同理我们还要在 satori-002、satori-003 上也重复相同的操作,让集群中所有节点之间的通信都畅通无阻。

[root@satori-002 .ssh]# ssh-copy-id -i id_rsa.pub root@10.20.0.92
[root@satori-002 .ssh]# ssh-copy-id -i id_rsa.pub root@10.20.0.90


[root@satori-003 .ssh]# ssh-copy-id -i id_rsa.pub root@10.20.0.92
[root@satori-003 .ssh]# ssh-copy-id -i id_rsa.pub root@10.20.0.90

在JobManager节点上进入Flink安装目录,执行以下命令启动Flink集群:

bin/start-cluster.sh

启动完毕后,在集群各服务器上通过jsp命令查看Java进程。若各节点存在以下进程,则说明集群启动成功:

JobManager节点:StandaloneSessionClusterEntrypoint
TaskManager1节点:TaskManagerRunner
TaskManager2节点:TaskManagerRunner

尝试提交一个简单任务,如果任务正常执行完毕,则集群一切正常。提交Flink自带的简单任务如下:

./bin/flink run examples/streaming/WordCount.jar

查看WebUI

通过JobManager节点访问WebUI,可以看到此时是1个JobManager,2个TaskManager,也能以上执行完毕的任务,如下图:

Flink Standalone HA搭建

HA模式介绍

在Flink Standalone模式下,实现HA的方式可以利用ZooKeeper在所有正在运行的JobManager实例之间进行分布式协调,实现多个JobManager无缝切换。Flink Standalone模式的HA架构如图:

HA的核心就是:可以在集群中启动多个JobManager,并使它们都向ZooKeeper进行注册,ZooKeeper利用自身的选举机制保证同一时间只有一个JobManager是活动状态(Active)的,其他的都是备用状态(Standby)。当活动状态的JobManager出现故障时,ZooKeeper会从其他备用状态的JobManager选出一个成为活动JobManager。流程见下图:

此外,活动状态的JobManager在工作时会将其元数据(JobGraph、应用程序JAR文件等)写入一个远程持久化存储系统(例如HDFS)中,还会将元数据存储的位置和路径信息写入ZooKeeper存储,以便能够进行故障恢复,如图下图所示:

角色分配

下面仍然采用前面的的3个节点,在前面已经搭建好的Flink Standalone集群上进行操作。集群角色分配如下图:

修改masters文件

Flink的masters文件用于配置所有需要启动的JobManager节点以及每个JobManager的WebUI绑定的端口。

进入centos01节点的Flink安装目录,修改conf/masters文件,修改内容如下:

centos01:8081
centos02:8082

上述配置表示在集群centos01和centos02节点上启动JobManager,并且每个JobManager的WebUI访问端口分别为8081,8082。

进入centos01节点的Flink安装主目录,修改conf/flink-conf.yaml文件,添加以下内容:

# 将高可用模式设置为ZooKeeper,默认集群不会开启高可用状态
high-availability: zookeeper

# ZooKeeper集群主机名(或IP)与端口列表,多个以逗号分隔
high-availability.zookeeper.quorum: centos01:2181,centos02:2181,centos03:2181

# 用于持久化JobManager元数据(JobGraph、应用程序JAR文件等)的HDFS地址,以便进行故障恢复,ZooKeeper上存储的只是元数据所在的位置路径信息
high-availability.storageDir: /data/software/flink-1.17.1/ha

# 获取storageDir也可用hdfs,如果使用hdfs的话,则需要单独安装hdfs,本文暂不使用
#high-availability.storageDir: hdfs://centos01:9000/flink/recovery

修改zoo.cfg文件

Flink内置了ZooKeeper服务和相关脚本文件,如果你的集群中没有安装ZooKeeper,则可以通过修改zoo.cfg文件配置Flink内置的ZooKeeper。生产环境建议使用独立的外部ZooKeeper

进入centos01节点的Flink安装主目录,修改conf/zoo.cfg文件,添加以下内容,配置ZooKeeper启动节点与选举相关端口:

server.1=centos01:2888:3888
server.2=centos02:2888:3888
server.3=centos03:2888:3888

上述配置表示在centos01、centos02和centos03节点上启动ZooKeeper服务,其中1、2、3表示每个ZooKeeper服务器的唯一ID。

复制Flink安装文件到其他节点

继续采用scp命令,复制centos01的文件到其他节点,scp命令会把相同文件覆盖。

scp -r /data/software/flink-1.17.1/ centos02:/data/software/flink-1.17.1/
scp -r /data/software/flink-1.17.1/ centos03:/data/software/flink-1.17.1/

启动ZooKeeper集群

如果使用Flink内置的ZooKeeper,在centos01节点执行以下命令,即可启动整个ZooKeeper集群:

./bin/start-zookeeper-quorum.sh

启动过程见下图

启动成功后,在每个Flink节点上都会产生一个名为FlinkZooKeeperQuorumPeer的进程,该进程是ZooKeeper服务的守护进程。使用jsp可以查看到如下进程:

启动Flink Standalone HA集群

在centos01节点上执行以下命令,启动Flink Standalone HA集群:

bin/start-cluster.sh

启动过程类似下图:

单独查看centos01的进程,如下图:

单独查看centos02的进程,如下图:

单独查看centos03的进程,如下图:

在查看/tmp目录,可以看到相关元数据信息:

访问WebUI

之前的防止,只有centos01可以访问dashboard,现在centos01、centos02都可以访问。

在提交一个测试,如果能正常执行,说明整个集群正常。

./bin/flink run examples/streaming/WordCount.jar

停止集群

若要停止Flink Standalone HA集群,在centos01节点上首先执行以下命令停止整个Flink集群:

bin/stop-cluster.sh

然后执行以下命令,停止ZooKeeper集群:

bin/stop-zookeeper-quorum.sh

以上是Flink的安装步骤!下一篇介绍Flink DataStream的概念和使用案例。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1043387.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

秦时明月沧海手游阵容推荐,秦时明月沧海角色强度

秦时明月沧海角色强度如何?在秦时明月沧海手游中,您可以从大量的角色卡牌中选择并发展,为了顺利通过各种副本,玩家们需要精心搭配阵容。那么,具体该如何配置最强的角色呢? 下面,小编将带各位玩家…

简述ceph文件储存系统

Ceph 是一个统一的分布式存储系统和共享机制,它定义了数据如何存储在一个或多个节点上并呈现给其他机器以供文件访问。 Ceph特点 高性能 a. 摒弃了传统的集中式存储元数据寻址的方案,采用CRUSH算法,数据分布均衡,并行度高。 b.考…

Vue - 虚拟DOM的简单理解

目录 虚拟DOM虚拟DOM树生成流程 因为直接操作真实的 DOM 会比较影响效率。所以 vue 使用了 虚拟DOM(VNode)来描述要渲染的内容。 虚拟DOM 它是一个 js 对象,比如: const vnode {tag: "h1",children: [{ tag: undefi…

【太阳能多电平逆变器】采用SPWM技术的太阳能供电多电平逆变器研究(simulink)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

centos编译安装opencv,生成opencv-2413.jar

文章目录 前言一、问题来源二、编译安装1.下载源码2.安装基础环境3.安装java环境4.编译安装5.查询结果 总结 前言 在centos7的环境中,编译安装opencv,获得libopencv_java2413.so、opencv-2413.jar的库文件和jar包文件 一、问题来源 异常提示&#xff1…

【力扣2154】将找到的值乘以 2

👑专栏内容:力扣刷题⛪个人主页:子夜的星的主页💕座右铭:前路未远,步履不停 目录 一、题目描述二、题目分析 一、题目描述 题目链接:将找到的值乘以 2 给你一个整数数组 nums ,另给…

AlienSwap 锋芒初现,NFT 市场或将三分天下

本文仅为资讯分享,不构成任何投资建议,也不推荐您购买、出售或者持有任何加密货币。请读者朋友们 DYOR,理性看待区块链,提高风险意识,谨慎投资! ★ Blur 横空出世之前,OpenSea 一直一家独大&am…

一看就会!我把自动化测试框架总结成这样,人人都能学好!

无论是在自动化测试实践,还是日常交流中,经常听到一个词:框架。之前学习自动化测试的过程中,一直对“框架”这个词知其然不知其所以然。 最近看了很多自动化相关的资料,加上自己的一些实践,算是对“框架”…

深入浅出Java的多线程编程——第二篇

目录 前情回顾 1. 中断一个线程 1.1 中断的API 1.2 小结 2. 等待一个线程 2.1 等待的API 3. 线程的状态 3.1 贯彻线程的所有状态 3.2 线程状态和状态转移的意义 4. 多线程带来的的风险-线程安全 (重点) 4.1 观察线程不安全 4.2 线程安全的概念 4.3 线程不安全的原因…

信息安全:网络安全漏洞防护技术原理与应用.

信息安全:网络安全漏洞防护技术原理与应用. 网络安全漏洞又称为脆弱性,简称漏洞。漏洞一般是致使网络信息系统安全策略相冲突的缺陷,这种缺陷通常称为安全隐患。 安全漏洞的影响主要有机密性受损、完整性破坏、可用性降低、抗抵赖性缺失、可…

中睿天下精彩亮相2023国家网络安全宣传周河南省活动

9月11日,2023年国家网络安全宣传周河南省活动正式拉开帷幕,开幕式在八朝古都开封举行。中睿天下受邀参与本次盛会并亮相网络安全产品展,重点展示在网络安全攻击溯源领域的前沿技术、创新方案及实践应用,为与会嘉宾带来了一场独具优…

STL算术生成和集合算法

目录 算术生成算法accumulate 算术生成算法file 常用集合算法 常用集合算法 常用集合算法set_difference 算术生成算法accumulate 算术生成算法属于小型算法&#xff0c;使用时包含的头文件为 include <numeric> accumulate(iterator beg, iterator end, value); …

13:STM32----PWR

目录 一:PWR 1:简历 2:电源框图 3:低功耗模式 4:模式选择 5:低功耗模式注意事项 A:睡眠模式 B:停止模式 C:待机模式 二 : 案例 A:修改主频 1:连接图 2:代码 B:睡眠模式串口发送接收 1:连接图 2:代码 C:停止模式对射式红外传感器计次 1:连接图 2:函数介绍​…

C++入门(前言、命名空间、缺省参数、重载)

该篇博客主要讲述关于C发展前言&#xff0c;以及C祖师爷对C进行改造提升后的新语法进行解释说明&#xff0c;具体内容为&#xff1a;发展历程、命名空间、输入\输出、缺省参数、函数的重载 目录 文章目录 前言 1.什么是C 2.C的发展史 3.关于C的学习 一、关于命名空间 1.含义 2.…

JMeter测试Web服务

Web服务简介 什么是Web服务 【Web服务】即Web Service。Web服务是一种服务导向架构的技术&#xff0c;通过标准的Web协议提供服务&#xff0c;目的是保证不同平台的应用服务可以互操作。根据W3C的定义&#xff0c;Web服务&#xff08;Web service&#xff09;应当是一个软件系统…

ElasticSearch - 基于 “黑马旅游” 案例,实现搜索框、分页、条件过滤、附近酒店、广告置顶功能

目录 一、黑马旅游案例 1.1、实现 搜索框 和 分页 功能 1.1.1、需求分析 a&#xff09;首先搜索框需求 b&#xff09;分页需求 1.1.2、定义实体类 1.1.2、定义 controller 1.1.3、注入 RestHighLevelClient 1.1.4、实现 IHotelService 接口的 search 方法 1.1.5、功能…

【OLSR路由协议】链路状态路由(OLSR)协议中选择多点中继节点算法研究(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

AIGC 绘画Stable Diffusion工具的安装与使用

我们先让ChatGPT来帮我们回答一下,什么是Stable Diffusion Stable Diffusion 是一种基于概率模型的图像生成技术。它通过对图像空间中每个像素的颜色值进行推断,从而生成具有高度真实感和细节的图像。 Stable Diffusion 使用一种称为扩散过程的方法来生成图像。在生成过程中…

Gd-DOTA,CAS:72573-82-1,钆特酸

产品简介&#xff1a;螯合剂是金属原子或离头子与樤含有两个或连两个以上配位原子的配位体作用&#xff0c;生成具有环状结构的络合物&#xff0c;该络合物叫做螯合物。能生成螯合物的这种配体物质叫螯合剂&#xff0c;也成为络合剂。 CAS号&#xff1a;72573-82-1 中文名&am…

基于VR元宇宙技术搭建林业生态模拟仿真教学系统

随着科技的飞速发展&#xff0c;教学方式也正在经历着巨大的变革。林业经济学元宇宙虚拟教学系统作为一种新兴的教学方式&#xff0c;为学生和教师提供了一个全新的、沉浸式的学习和教学环境。 森林管理和监测 元宇宙技术可以用于森林管理和监测。通过无人机、传感器和虚拟现实…