01、flink的原理和安装部署

01、flink的原理和安装部署

news2025/4/18 15:32:08

flink中主要有两个进程，分别是JobMManager和TaskManager，当然了根据flink的部署和运行环境不同，会有一些不同，但是主要的功能是类似的，下面我会讲下聊下，公司用的多的部署方式，基于yarn集群的部署

01. JobManager

job任务的拆解
资源的调度
checkpoints的生成

02. TaskManager

根据JobManager给的具体task任务启动线程去执行

03. Flink中相关概念的含义

flink中任务跑起来之后会有这些名字需要弄清楚，并行度，分区，算子链，taskslot，task，subTask

Task: 相当于Spark中的Stage，一个job中根据是否发生分区的变化（主要是指产生shuffle的操作：上游分区的数据会分成若干份，被拉去到下游的不同分区）把job切分成不同的Task
算子链： 算子链由若干个能划分成一个Task的算子组成
TaskSlot： TaskSlot代表可以运行Task的一组资源槽，分布在各个TaskManager进程中
并行度，分区，SubTask： 并行度，分区和SubTask在flink中都表示相近的意思，都代表当下task的并发程度，也可以看作是一个运行线程

其中需要的几点如下，其中一点是，Flink任务TaskSlot的数量要大于等于这个job中各算子并行度最大的那个算子的并行度，否则任务跑不起来，还有一点是各个Task需要运行在一个TaskSlot比如一个job有3个Task，那这三个Task就应该被分配到同一个slot中运行，这样做的目的是为了减少各个Task之间数据交换的成本，如下图所示

04. Flink on yarn的运行原理

flink on yanr是大多数公司选择的一种运行方式，它的优势主要是借助yarn的资源管理能力，通过yarn能更灵活把控flink job进行资源利用，同时也大大的减轻了公司大数据组件的维护压力，如下是on yarn的运行流程

任务提交之后，yanr会把我们提交的jar包已经运行的所需的jar包都放到hdfs的中
同时client会和ResourceManager通信，RM会在对应的NodeManager中启动一个ApplicationMaster进程来运行我们提交的主jar包上的main方法，构建任务的运行环境
上步骤中的APPMaster其实就是JobManager的功能，它会吧job的task分割好，然后再回到RM中申请对应的资源运行Task
RM接收到请求之后然后根据配置会启动对应的TaskManager，在每个TaskManager中启动相应的TaskSlot
对应的资源都准备好之后，TaskManager会去下载对应Task运行时需要的jar包来构建运行环境
环境构建之后，每个slot就运行分配给自己的任务，在这期间会和JobManager进行通信，共同完成job的任务

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2277878.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

浅谈云计算19 | OpenStack管理模块（上）

浅谈云计算19 | OpenStack管理模块（上）

OpenStack管理模块（上） 一、操作界面管理架构二、认证管理2.1 定义与作用2.2 认证原理与流程2.2.1 认证机制原理2.2.2 用户认证流程三、镜像管理3.1 定义与功能3.2 镜像服务架构3.3 工作原理与流程3.3.1 镜像存储原理3.3.2 镜像检索流程四、计算管理4.…

阅读更多...

WXML模版语法-事件绑定

WXML模版语法-事件绑定

知识点1：什么是事件事件是渲染层到逻辑层的通讯方式。通过事件可以将用户在渲染层产生的行为，反馈到逻辑层进行业务的处理。知识点2：小程序中常用的事件类型绑定方式事件描述tapbindtap或bind:tap手指触摸后马上离开，类似于…

阅读更多...

深入解析 `EmailConfig` 配置项

深入解析 `EmailConfig` 配置项

EmailConfig 是 Alertmanager 配置中的一个重要部分，用于配置通过电子邮件发送告警通知。它提供了多种设置选项，以便用户可以灵活配置邮件服务器、认证方式、邮件内容等。以下是 EmailConfig 配置项的详细分析，帮助你更好地理解其功能&…

阅读更多...

Wine 开发系列 —— 如何调试 Wine

Wine 开发系列 —— 如何调试 Wine

本文主要以 Wine 官网的这篇文章《 Debugging Wine 》来讲解。大部分内容是对该文的翻译，修正了原文的一些书写错误，删除了原文跟最新的 Wine 不适应的内容。介绍常用调试方法 Wine 为调试问题提供了多种方法。大多数 Wine 开发人员更喜欢使用 Win…

阅读更多...

【精选】基于EfficientViT优化YOLOv8的智能车辆识别系统设计车辆颜色分类与车牌检测、深度学习目标检测系统开发

【精选】基于EfficientViT优化YOLOv8的智能车辆识别系统设计车辆颜色分类与车牌检测、深度学习目标检测系统开发

博主介绍： ✌我是阿龙，一名专注于Java技术领域的程序员，全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师，我在计算机毕业设计开发方面积累了丰富的经验。同时，我也是掘金、华为云、阿里云、InfoQ等平台…

阅读更多...

自动化仓储管理与库存控制

自动化仓储管理与库存控制

导语大家好，我是社长，老K。专注分享智能制造和智能仓储物流等内容。欢迎大家到本文底部评论区留言。完整版文件和更多学习资料，请球友到知识星球【智能仓储物流技术研习社】自行下载本文是一本关于仓储管理与库存控制的教材，全…

阅读更多...

redux 结合 @reduxjs/toolkit 的使用

redux 结合 @reduxjs/toolkit 的使用

1，使用步骤使用React Toolkit 创建 counterStore（store目录下） --> 为React注入store（src下面的index） --> React组件使用store中的数据（组件） 2，例如下面有一个简单加减的…

阅读更多...

大模型UI：Gradio全解11——Chatbot：融合大模型的聊天机器人（4）

大模型UI：Gradio全解11——Chatbot：融合大模型的聊天机器人（4）

大模型UI：Gradio全解11——Chatbot：融合大模型的聊天机器人（4） 前言本篇摘要11. Chatbot：融合大模型的多模态聊天机器人11.4 使用Blocks创建自定义聊天机器人11.4.1 简单聊天机器人演示11.4.2 流式传输Chatbot11.4.3 添…

阅读更多...

Spring官网构建Springboot工程

Spring官网构建Springboot工程

注意：基于Idea的 Spring Initializr 快速构建 SpringBoot 工程时需要联网。 1.进入SpringBoot官网 Spring | Home 点击QUICKSTART 点击start.spring.io进入spring initializr 2.选择依赖 3.生成工程下载好后解压用IDEAD导入即可。

阅读更多...

【Hive】海量数据存储利器之Hive库原理初探

【Hive】海量数据存储利器之Hive库原理初探

文章目录一、背景二、数据仓库2.1 数据仓库概念2.2 数据仓库分层架构2.2.1 数仓分层思想和标准2.2.2 阿里巴巴数仓3层架构2.2.3 ETL和ELT2.2.4 为什么要分层 2.3 数据仓库特征2.3.1 面向主题性2.3.2 集成性2.3.3 非易失性2.3.4 时变性三、hive库3.1 hive概述3.2 hive架构3.2.…

阅读更多...

【MySQL实战】mysql_exporter+Prometheus+Grafana

【MySQL实战】mysql_exporter+Prometheus+Grafana

要在Prometheus和Grafana中监控MySQL数据库，如下图： 可以使用mysql_exporter。以下是一些步骤来设置和配置这个监控环境： 1. 安装和配置Prometheus： - 下载和安装Prometheus。 - 在prometheus.yml中配置MySQL通过添加以下内…

阅读更多...

脚本化挂在物理盘、nfs、yum、pg数据库、nginx（已上传脚本）

脚本化挂在物理盘、nfs、yum、pg数据库、nginx（已上传脚本）

文章目录前言一、什么是脚本化安装二、使用步骤1.物理磁盘脚本挂载（离线）2.yum脚本化安装（离线）3.nfs脚本化安装（离线）4.pg数据库脚本化安装（离线）5.nginx脚本化安装（离…

阅读更多...

k8s物料清单工具——KubeClarity

k8s物料清单工具——KubeClarity

介绍 KubeClarity是一个用于检测和管理容器镜像和文件系统的软件清单（SBOM）和漏洞的工具。它扫描运行时的K8s集群和CI/CD流水线，以增强软件供应链安全性。安装添加 helm 仓库 helm repo add kubeclarity https://openclarity.github.io…

阅读更多...

citrix netscaler13.1 重写负载均衡响应头(基础版)

citrix netscaler13.1 重写负载均衡响应头(基础版)

在 Citrix NetScaler 13.1 中，Rewrite Actions 用于对负载均衡响应进行修改，包括替换、删除和插入 HTTP 响应头。这些操作可以通过自定义策略来完成，帮助你根据需求调整请求内容。以下是三种常见的操作： 1. Replace (替换响应头)…

阅读更多...

Linux Centos 安装Jenkins到服务

Linux Centos 安装Jenkins到服务

一、前言假设你已经下载了jenkins.war 安装了对应的jdk，下面我们来安装jenkins，以服务的形式安装。二、安装 1）将jenkins.war拷贝到合适的位置，我的位置 /u01/jenkins/ ，位置你自己选。 2）创建系统用户…

阅读更多...

网安——计算机网络基础

网安——计算机网络基础

一、计算机网络概述 1、Internet网相关概念及发展网络（Network）有若干结点（Node）和连接这些结点的链路（link）所组成，在网络中的结点可以是计算机、集线器、交换机或路由器等多个网络还可以通…

阅读更多...

Xcode 正则表达式实现查找替换

Xcode 正则表达式实现查找替换

在软件开发过程中，查找和替换文本是一项常见的任务。正则表达式（Regular Expressions）是一种强大的工具，可以帮助我们在复杂的文本中进行精确的匹配和替换。Xcode 作为一款流行的开发工具，提供了对正则表达式的支持。本…

阅读更多...

数据结构9——二叉搜索树

数据结构9——二叉搜索树

🥇1.二叉搜索树的概念二叉搜索树(Binary Search Tree,BST)又称二叉排序树或二叉查找树，其要么是一棵空树，要么具有以下性质： ①：左子树上所有节点的值都小于根节点； ②：右子树上所有节点的值都…

阅读更多...

leetcode刷题记录（四十八）——128. 最长连续序列

（一）问题描述 128. 最长连续序列 - 力扣（LeetCode）128. 最长连续序列 - 给定一个未排序的整数数组 nums ，找出数字连续的最长序列（不要求序列元素在原数组中连续）的长度。请你设计并实现时间复…

阅读更多...

c语言——【linux】多进程编程【进程的创建，相关shell指令，进程状态切换，回收资源，守护进程等】

c语言——【linux】多进程编程【进程的创建，相关shell指令，进程状态切换，回收资源，守护进程等】

1.思维导图 2.进程的创建函数原型：pid_t fork(void); 功能描述：以当前进程为父进程，创建一个子进程进程链和进程扇的创建 3.多进程具体使用 3.1进程替换 exec 函数一族 int execl(const char *path, const char *arg, ... /* (char *) N…

阅读更多...

推荐文章

最新文章