【Flink架构】关于FLink BLOB的组织架构:FLIP-19: Improved BLOB storage architecture:官网解读

news2024/12/24 2:57:31

文章目录

  • 一. BlobServer架构
    • 1.BlobClient
    • 2. BlobServer
    • 3. BlobCache
    • 4. LibraryCacheManager
  • 二、BLOB的生命周期
    • 1. 分阶段清理
    • 2. BlobCache的生命周期
    • 3. BlobServer
  • 三、文件上下载流程
    • 1. BlobCache 下载
    • 2. BlobServer 上传
    • 3. BlobServer 下载
  • 四. Flink中支持的BLOB文件类型
    • 1. BLOB文件类型
    • 2. 按存储特性又分为两类
  • 五. Use Cases Details
    • 1. Jar 文件
    • 2. RPC 消息
    • 3. 日志
  • 六、相关参数

一. BlobServer架构

BlobServer是jobmanager的组件, 是一个用来管理二进制大文件的服务,比如保存用户上传的jar文件,该服务会将其写到磁盘上。还有一些相关的类,如BlobCache,用于TaskManager向JobManager下载用户的jar文件。

如下blob-store-architecture:
在这里插入图片描述

 

1.BlobClient

  1. 提供上传和下载的接口
  2. 与BlobServer进行通讯

 

2. BlobServer

  1. 提供了基于jobId和BlobKey进行文件上传和下载的方法;
  2. 本地、HA 分布式文件系统的读写:基于<path>/<jobId>/<BlobKey>目录结构,进行HA恢复中,下载分布式系统中的文件到本地文件系统中;
  3. 负责本地和HA系统的清理工作
  4. 先存到本地,然后(如有需要)上传到HA(可能并行进行,确认之前等待两者完成)
  5. 文件下载只能通过本地文件系统中
  6. 恢复时,从HA下载所需文件到本地,并负责清理此路径下所有问题。

 

3. BlobCache

  1. 提供BlobServer文件(基于jobId和BlobKey)的缓存
  2. 提供(基于<path>/<jobId>/<BlobKey>目录结构 )本地文件的读写权限
  3. HA store的读权限
  4. 能够从HA store or BlobServer下载文件
  5. 负责清除本地文件

 

4. LibraryCacheManager

桥接task的classloader和BlobCache中缓存的库BLOB(即 jar 文件),其registerJob,registerTask会构建并缓存job,task运行需要的classloader。

 

二、BLOB的生命周期

BlobCache 对其所有 BLOB 进行引用计数,并在 “blob.retention.interval” 秒后开始删除未被引用的文件。每个子目录与其各自的 BLOB 一起进行引用计数,并将以类似的方式进行删除。请注意,BlobCache 目前没有关于作业进入最终状态的信息,因此只能依靠引用计数来删除作业的 BLOB。

在 TaskManager 关闭时,我们可以清理子目录 <jobId>中的任何剩余文件。

BlobServer 将使用相同的引用计数技术,并适当地从本地和 HA 存储中删除文件。此外,它将通过了解作业何时进入最终状态来增加安全保障。在这种情况下,将删除作业的 BLOB 存储目录(本地和 HA),即 “/”,包括其所有的 BLOB 文件。

 

1. 分阶段清理

场景描述

直到 Flink 1.3,在 LibraryCacheManager 中,我们每小时运行一次定期清理任务(参见library-cache-manager.cleanup.interval参数),删除任何未被引用的 jar 文件。如果作业的任务在清理开始之前失败,后续的恢复可能无法再访问缓存的文件。我们希望通过 “分阶段清理” 来改变这一点。

分阶段清理逻辑

  • 在分阶段清理中,只有当(周期性的)清理任务第二次遇到此 BLOB 时,才会删除 BLOB 文件,例如通过拥有两个清理列表:一个用于实际清理,即 “立即删除”,一个用于分阶段文件,即 “下次删除”。
  • 每次清理任务运行时,将删除实际清理列表(和文件),并将分阶段列表变为实际列表。这比为每个未被引用的 jar 设置存活时间的花销要小,并且对于当前的清理任务来说足够了。因此,(目前)未被引用的 BLOB 将至少保留 “blob.retention.interval” 秒,最多两倍于此数量。

 

2. BlobCache的生命周期

  1. 所有的 BLOB 都是引用计数的,从第一次检索/传递 BLOB 开始计数。
  2. 特定于作业的 BLOB子目录也会随着每个与作业相关的文件一起进行引用计数。
  3. 如果引用计数为 0,则该 BLOB 将进入分阶段清理(见上文)。
  4. 如果任务成功、失败或被取消,其所有 BLOB 的引用计数将适当地递减(如果可能)。 当 BlobCache 关闭时,即 TaskManager 退出时,应删除所有的 BLOB。

请注意,运行在同一 TaskManager 上的多个任务可能使用同一作业的BLOB 文件!

 

3. BlobServer

BlobServer 中存储的所有未使用的 BLOB 文件也应定期清理,而不仅仅是在 BlobServer 关闭时(自 Flink 1.3 起)。

  1. 所有的 BLOB 都是引用计数的,从初始上传开始计数。
  2. 特定于作业的 BLOB 子目录 (<path>/<jobId>)不进行引用计数。
  3. 两种类型的 BLOB 生命周期保证:HA(用于恢复保留)和非-HA(可重新创建文件,不用于恢复)。
  4. 如果作业失败,则所有非-HA 文件的引用计数将重置为 0;所有 HA 文件的引用计数保持不变,并且在恢复时不会再次增加。
  5. 如果作业进入最终状态,即完成或取消,作业特定的 BLOB 子目录 (<path>/<jobId>) 及其所有的 BLOB 将立即被删除,并从引用计数中移除(尽管实际的引用计数可能不为 0)。
  6. 如果引用计数为 0,则该 BLOB 将进入分阶段清理(见上文)。
  7. 当BlobServer 退出时,应删除所有的 BLOB。

注意,与特定于作业的 BLOB 目录一起,jar 文件通常会被删除,而短期存在的BLOB,如 RPC 消息或日志,主要基于引用计数进行删除。作业目录删除充当了它们的安全保障,以防引用计数出错。

 

三、文件上下载流程

1. BlobCache 下载

BlobCache的下载流程

当请求特定于作业 ID 和 BlobKey 的文件时,

  1. BlobCache 首先会尝试从其本地存储中提供该文件(在成功的校验和验证后)。
  2. 如果在本地存储中找不到文件或者校验和不匹配,文件将从 HA 存储复制到本地存储(如果可用)。
  3. 如果这种方法不起作用或者不可用,将使用通过 BlobClient 建立和管理的连接,从 BlobServer 直接下载到本地存储中。

在传输过程中,这些文件将被放入临时目录,并且只有在完全传输和校验和验证后才会提交到特定于作业的路径。

HOW:这可能会为同一文件触发多个(并发)下载,但确保在提供 BLOB 时不会使用不完整的文件。我们可以通过 BlobCache 阻止这样的多次下载作为优化。

 

2. BlobServer 上传

注意:

在上传用户 jar 文件时,相应的作业尚未提交,因此我们无法将 jar 文件绑定到不存在的作业生命周期。
 
这里可以提供思路:为什么flink本地临时jar不会被删除。

 

确保在上传和作业提交之间的客户端中止/崩溃期间的正确清理。

我们不能一次性上传每个文件并使用引用计数器为 0,因为在启动作业时,某些文件可能已经被删除。相反,我们将一起上传所有 jar 文件,并仅在收到最后一个文件后,将它们全部放入分阶段清理的分阶段列表中。然后作业需要在 “blob.retention.interval” 秒内提交,否则我们无法保证 jar 文件仍然存在。

 

3. BlobServer 下载

与 BlobCache 类似,我们首先尝试从本地存储中提供文件(经过校验和验证),如果文件不存在,则从 HA 存储中创建本地副本(如果可用) 。

 

四. Flink中支持的BLOB文件类型

1. BLOB文件类型

  • jar包: 被user classloader使用的jar包
  • 高负荷RPC消息
    1. RPC消息长度超出了akka.framesize的大小
    2. 在HA摸式中,利用底层分布式文件系统分发单个高负荷RPC消息,比如:TaskDeploymentDescriptor。
    3. 失败导致重新部署过程中复用RPC消息
  • TaskManager的日志文件: 为了在web ui上展示taskmanager的日志

2. 按存储特性又分为两类

  • PERMANENT_BLOB: 生命周期和job的生命周期一致,并且是可恢复的。会上传到BlobStore分布式文件系统中。
  • TRANSIENT_BLOB:生命周期由用户自行管理,并且是不可恢复的。不会上传到BlobStore分布式文件系统中。

 

五. Use Cases Details

1. Jar 文件

在作业提交客户端提交作业之前,用户代码的 jar 文件会被上传。成功上传所有 jar 文件后,作业将被提交,JobManager/Dispatcher 将 BlobServer 上的引用计数增加 1。当作业进入最终状态时,引用计数将减少,此时将删除 目录。BlobCache 只需要在其本地存储中引用计数 jar 文件,不需要进一步交互。

 

2. RPC 消息

ing

3. 日志

目前日志文件仅由 Web 用户界面(Web-UI)用于显示 TaskManager 日志。它们在请求后下载并提供服务。每次下载应该将先前日志的引用计数减少 1,并将新日志的引用计数增加 1。日志具有非 HA 生命周期保证,甚至可以立即删除,而不是将它们放入分阶段清理中。
作为优化,我们可以支持将日志文件分区(即字节 xxxx-yyyy)作为 BLOB 上传,并在 WebUI 中使用它们,而不是一遍又一遍地传输相同的日志部分。然而,这与 BLOB 存储无关,并且受到上述体系结构的支持。

 

六、相关参数

参数默认值描述
high-availability.storageDirHA BlobStore根目录
blob.storage.directory<java.io.tmpdir>BlobServer 本地文件根目录
blob.fetch.num-concurrent50BlobServer fetch文件的最大并行度
blob.fetch.backlog1000允许最大的排队等待链接数
blob.service.cleanup.interval3600BlobServer cleanup 线程运行的间隔
blob.fetch.retries5从BlobServer下载文件错误重试次数
blob.server.port0BlobServer端口范围
blob.offload.minsize1024 * 1024运行通过BlobServer传递的最小消息大小
classloader.resolve-orderchild-firstclassloader类加载顺序

 

参考:
https://cwiki.apache.org/confluence/display/FLINK/FLIP-19:+Improved+BLOB+storage+architecture

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1549840.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

VTK 示例 基本的流程-事件交互、球体、

流程可以总结如下&#xff1a; 导入所需的头文件&#xff1a; 首先&#xff0c;导入了一系列 VTK 头文件&#xff0c;这些文件包含了所需的类和函数声明。 创建对象&#xff1a; 创建了两个球体&#xff08;一个较大&#xff0c;一个较小&#xff09;&#xff0c;一个平面&…

Docker和 Containerd 的区别

自 Docker 开启了使用容器的爆发式增长&#xff0c;有越来越多的工具和标准来帮助管理和使用这项容器化技术&#xff0c;与此同时也造成了有很多术语让人感到困惑。 容器生态系统 容器生态系统是由许多令人兴奋的技术、大量的专业术语和大公司相互争斗组成的。 幸运的是&…

Windows平台cmake编译QT源码库,使用VScode开发QT

不愿意安装庞大的QT开发IDE&#xff0c;可以编译QT源码库。 下载源码可以用国内镜像&#xff0c;如清华大学的&#xff1a;Index of /qt/archive/qt/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror 我用的是 6.5.3&#xff0c;进去之后&#xff0c;不要下载整个源…

linux环境gitlab迁移到新服务器

目录 备份项目备份gitlab配置阿里云磁盘格式化准备 最近服务器中了挖矿病毒&#xff0c;清理几次&#xff0c;都没有搞定&#xff0c;只能重新安装gitlab 备份项目 先把项目备份到本地 git pull git remote prune origin确保本地代码是最新的并且拥有所有的分支 git remote …

unity 横版过关单向通行实现(PlatformEffector2D)

目录 前言一、什么是 PlatformEffector2D&#xff1f;二、使用步骤1.创建模型2.创建jump脚本3.PlatformEffector2D组件 三、效果总结 前言 在 2D 游戏中&#xff0c;处理角色与平台之间的交互是一个常见但复杂的任务。为了简化这一过程&#xff0c;Unity 提供了 PlatformEffec…

JVM(五)——类加载阶段

一、类加载阶段 一个类型从被加载到虚拟机内存中开始&#xff0c;到卸载出内存为止&#xff0c;它的整个生命周期将会经历加载 &#xff08;Loading&#xff09;、验证&#xff08;Verification&#xff09;、准备&#xff08;Preparation&#xff09;、解析&#xff08;Resol…

基于PHP高校网上教材征订系统的设计与实现(论文+源码)_kaic

高校网上教材征订系统设计与实现 摘 要 本高校网上教材征订系统是针对目前高校网上教材征订管理的实际需求&#xff0c;从实际工作出发&#xff0c;对过去的高校网上教材征订系统存在的问题进行分析&#xff0c;结合计算机系统的结构、概念、模型、原理、方法&#xff0c;在计算…

VBA高级应用30例应用2:MouseMove鼠标左键按下并移动鼠标事件

《VBA高级应用30例》&#xff08;版权10178985&#xff09;&#xff0c;是我推出的第十套教程&#xff0c;教程是专门针对高级学员在学习VBA过程中提高路途上的案例展开&#xff0c;这套教程案例与理论结合&#xff0c;紧贴“实战”&#xff0c;并做“战术总结”&#xff0c;以…

【GitLab】Ubuntu 22.04 快速安装 GitLab

在 Ubuntu 22.04 上安装最新版本的 GitLab&#xff0c;可以按照以下步骤操作&#xff1a; 1. 更新系统&#xff1a; 在终端中执行以下命令以确保系统是最新的&#xff1a; sudo apt update sudo apt upgrade2. 安装依赖&#xff1a; 安装 GitLab 所需的依赖包&#xff1a; …

唯美动态个人404页面源码

源码介绍 手机端先加载静态图再缓慢加载gif动图&#xff0c;电脑端先加载静态图在加载mp4。提升打开速度&#xff01; 源码截图 下载地址 唯美动态个人404页面源码

BUG定位---一起学习吧之测试

判断一个BUG是前端还是后端的&#xff0c;通常需要根据BUG的具体表现、发生的环境以及相关的技术栈来进行分析。以下是一些常用的判断方法&#xff1a; 错误发生的位置&#xff1a; 如果BUG涉及的是页面的布局、样式、交互效果等&#xff0c;那么很可能是前端的BUG。如果BUG与…

架构师之路--Docker的技术学习路径

Docker 的技术学习路径 一、引言 Docker 是一个开源的应用容器引擎&#xff0c;它可以让开发者将应用程序及其依赖包打包成一个可移植的容器&#xff0c;然后在任何支持 Docker 的操作系统上运行。Docker 具有轻量级、快速部署、可移植性强等优点&#xff0c;因此在现代软件开…

自定义你的商店 – 设计WooCommerce商店的新方法

WooCommerce 8.8即将推出&#xff0c;带来了一种无需代码即可创建精美商店的新方法。向“自定义你的商店”问好&#xff0c;这是一项全新功能&#xff0c;将取代“个性化你的商店”入门步骤。 自定义你的商店将利用最新的WordPress站点编辑工具以及酷炫的新Pattern Assembler …

RHCE-网络服务实验1

要求: 请给openlab搭建web网站 网站需求: 基于域名www.epenlab.com可以访问网站内容为 welcome to openlab!!!给该公司创建三个子界面分别显示学生信息&#xff0c;教学资料和缴费网站&#xff0c;基于www.openlab.com/student 网站访问学生信息&#xff0c;www.openlab.com/…

简单了解C++线程库

thread类简单介绍 在C11之前&#xff0c;涉及到多线程问题&#xff0c;都是和平台相关的&#xff0c;比如windows和linux下各有自己的接 口&#xff0c;这使得代码的可移植性比较差。C11中最重要的特性就是对线程进行支持了&#xff0c;使得C在 并行编程时不需要依赖第三方库…

Llama模型下载

最近llama模型下载的方式又又变了&#xff0c;所以今天简单更新一篇文章&#xff0c;关于下载的&#xff0c;首先上官网&#xff0c;不管在哪里下载你都要去官网登记一下信息&#xff1a;https://llama.meta.com/llama2 然后会出现下面的信息登记网页&#xff1a; 我这里因为待…

9.windows ubuntu 子系统,centrifuge:微生物物种分类。

上次我们用了karken2和bracken进行了物种分类&#xff0c;这次我们使用centrifuge. Centrifuge 是一种用于快速和准确进行微生物分类和物种鉴定的软件。其主要功能包括&#xff1a; 快速分类和物种鉴定: Centrifuge 可以对高通量测序数据&#xff08;如 metagenomic 或 RNA-Se…

Redis 教程系列之Redis 发布订阅(十五)

Redis 发布订阅 Redis 发布订阅(pub/sub)是一种消息通信模式&#xff1a;发送者(pub)发送消息&#xff0c;订阅者(sub)接收消息。 Redis 客户端可以订阅任意数量的频道。 下图展示了频道 channel1 &#xff0c; 以及订阅这个频道的三个客户端 —— client2 、 client5 和 cl…

Mac安装minio

Mac安装minio 本文介绍使用 mac 安装 MinIO。 所有软件安装优先参考官网&#xff1a;MinIO Object Storage for MacOS — MinIO Object Storage for MacOS #使用 brew 安装 minio brew install minio/stable/minio#找到 minio tong ~ $ brew list minio /opt/homebrew/Cella…

【深度学习|基础算法】2.AlexNet学习记录

AlexNet示例代码与解析 1、前言2、模型tips3、模型架构4、模型代码backbonetrainpredict 5、模型训练6、导出onnx模型 1、前言 AlexNet由Hinton和他的学生Alex Krizhevsky设计&#xff0c;模型名字来源于论文第一作者的姓名Alex。该模型以很大的优势获得了2012年ISLVRC竞赛的冠…