Apache Pulsar 在腾讯云上的最佳实践

news2024/12/23 13:48:09

导语

由 StreamNative 主办的 Pulsar Meetup Beijing 2023 在2023年10月14日完美落幕,本次活动大咖云集,来自腾讯、滴滴、华为、智联招聘、RisingWave 和 StreamNative 的行业专家们一起,深入探讨 Pulsar 在生产环境中的最佳应用实践,共享 Pulsar 社区的最新发展和动态。

本次 Meetup,腾讯云高级工程师林宇强为大家带来了议题为《Apache Pulsar 在腾讯云上的最佳实践》的精彩演讲,接下来的篇幅将从系统架构、设计思路、寻址服务、跨集群迁移、跨地域容灾几个方面详细为大家介绍 Apache Pulsar 在腾讯云上的最佳实践。

Pulsar 系统架构

上图是一个很常见的 Pulsar 部署架构,ZK 采用了腾讯云 TSE ZK;对接内部的配置中心、CICD 平台可以实现标准化部署,其余的 Bookie 和 Broker 和开源自建的部署模式差别不大。

这里需要介绍下腾讯云自研部分的诊断三件套:Metrics,Trace,日志采集。

Metrics:Broker 自研采集→上报 Monitor 集群 Topic →Pulsar Sink 聚合预处理→腾讯云监控。这里值得说明的是我们在 Broker 和云监控之间加了一层 Pulsar Broker 集群(Monitor 集群)作为缓冲,并使用 Pulsar 自带的 Sink 来进行 Metrics 数据的预处理,因为该监控链路是地域级别,比如广州地区只部署一套,而对外提供业务服务的 Broker 集群数则规模较多,总的 Topic 数规模大,故而需要中间增加一层来缓解对云监控的压力,这是量变引发质变的结果。

Trace:Broker 自研采集→Trace 日志→Filebeat 上报→APM,这也是演进的结果。原先的架构是 Skywalking 采集→内存排队上报→APM,这种架构看似简单,但是当 Broker 的流量规模到达一定程度时,Trace 产生的速度高于上报的速度,导致内存不断增长进而 OOM,因此 Trace 最终也是回归原始,放弃 Skywalking,利用磁盘承受住短时的洪峰。当然,也有一部分业务持续高流量,造成上报永远追不上 Trace 日志的产生,这种情况下也只有两种做法:对于对消息轨迹不强求的业务,关闭 Trace 上报;对于流量大并且对轨迹仍然有要求的,只能通过升配的方式,调大 Filebeat 的可用核心数硬抗。

CLS日志采集:Metrics 和 Trace 由于和 Broker 自身的逻辑有强耦合,我们只能针对 Broker 进行定制化开发。但是日志采集是个普适性功能,因此我们直接采用腾讯云 CLS 来实现我们的目的:日志采集汇总,根据环境、地区、集群分类,关键字监控,日志长时间存档,关键字告警等。

Lookup Service:Lookup Service 是个地域级别的模块,每个地区只部署一套,用于同一个地区所有 Broker 集群的路由、寻址功能,这个模块后续会重点介绍。

设计背景及思路

介绍完 Pulsar 系统架构,接下来介绍一下我们在腾讯云场景下所面临的问题及解决思路。

● 完全容器化:包括 ZK、BK、Broker 以及其他周边设施,全部部署在容器平台上。

● 多环境、多地区:这是云服务提供商相比常规的业务。我们不仅有测试、预发、线上环境,线上环境还有多个地区,比如北京、上海、广州、新加坡、香港等,每个地区分别有多个集群。

● 多可用区(同城多机房):云自身自带同城多机房,因此可以很方便做同城多活的容灾。

● 集群数量多、Topic 规模大:集群数量多、Topic 多,这对应的我们要设计标准化部署流程,前面讲到的监控链路也是在这个背景下的产物。

● 产品形态多种多样:产品形态对应的是部署架构上的差别,租户、Broker、Bookie 之间的部署关系。

●  虚拟网络,接入方式多样:这是云服务提供商必然要面对的多网络平面的问题。

● 支持集群热迁移:在客户端 url 不变的前提下,将租户从集群1迁移到集群2,这也是云服务提供商所需的产品能力,比如将一个集群从标准版升级到专业版,那么就对应租户和底层物理资源分配上的迁移。

容器化

虽然 Pulsar Broker 可以称作为云原生消息队列,但是实际上,Broker在运行时是有状态的,比如:Topic 和 Broker 之间的归属关系。

因此我们在进行容器化的时候,整体的思路就是让 Pod 和 VM 尽可能划上等号,于是我们做了以下设计:

● 固定 IP:IP 不会随着 Pod 的销毁重建而随机变化。

● Pod 与 Node 网络拉平:针对腾讯云的场景,Client 一定不是运行在 Broker 部署的容器集群上,如果不拉平的话,Lookup 时就得考虑容器网络(Overlay)和基础网络(Underlay)之间的映射关系,会让 Lookup 变得很复杂。

● 云盘:Pod 中挂的数据盘为云盘,真正的计算存储分离。

● 与 CVM 共存:每个 Pod 独占一台 CVM,两者 CPU 和内存参数对等,这样能最大程度保证 Pulsar 运行时的物理隔离性,当然,这也是腾讯云 EKS(TKE Serverless)天然提供的能力。另外,在容器化迁移过程中,同一个集群必然存在 Pod 节点和 CVM 节点同时存在,因此也需要考虑这二者之间的相容性。

● 优雅停机:Pod 销毁时,需要确保触发 Pulsar 的 Shutdown 逻辑,否则对 Client 来说就会变得强烈感知,这也是容器场景和 CVM 场景在 CICD 流程上的差异导致需要注意的地方。

● Liveness probe 调优:Liveness probe 也有一个有意思的点,由于 k8s 自身的各种健康检查机制其实都是依赖于一个超时时间,如果 Broker 启动阶段不能在约定超时时间内返回正确的结果,k8s 容易误判为失败,造成 Broker 无限重启。举个例子:假设某个 Broker 集群有几万个 Topic,那么其 Broker 启动时间可能需要耗时90s以上,如果 Liveness 设置超时时间低于该值,就需要特别注意。当然,这也是我们集群规模多导致,我们的不同集群可能是不同的业务场景在使用,因此很多类似的参数都需要针对性调优。

● Helm 编排:Pulsar 的部署步骤其实比较繁杂,Bookie 部署、Bookie 初始化、Broker 部署、Broker 初始化,以及所需的 Secret、ConfigMap、网络模块等,要讲这么多模块有序的编排起来,Helm 当然是最好的选择。

Topic 规模大

Topic 数多会引发以下问题:

● ZK 元数据过多,负载高

● 启动变慢,K8s 就绪误判

● Broker 重启爆炸半径大

● Lookup 性能变差

● 监控采集聚合引发质变

产品形态多样

腾讯云 Pulsar 提供多种产品形态,对应底层就是部署架构的多样性,当然,这会对应最终每个实例的售卖价格和腾讯云本身的成本。

● 共享版:Bookie 和 Broker 都是共享的,本质和一个公司自建一个集群给公司内所有业务团队共用是一个模型,共享版下的一个实例对应 Pulsar 的一个租户。

● 专业版:Bookie 和 Broker 都是独占的,且该集群只有一个租户,该租户独占完整的所有物理资源。

接入方式

腾讯云 Pulsar 提供了多种网络接入方式,网络接入即 Broker 和 Client 之间的网络连通关系。

内网接入

内网接入在本质上和常规的公司内自建使用类似,Broker 和 Client 都处在同一个内网之中,且二者之间是完全互通的,Client 连接的 IP 也都是 Broker 的节点原始 IP,无任何网络转换。

VPC 接入

VPC 即虚拟私有网络,每个用户可以创建多个VPC,每个VPC下又可以创建多个子网。想了解更多可查看:私有网络 产品概述-产品简介-文档中心-腾讯云

两个 VPC 之间通常是无法互通的,比如图上的10.0.0.0/8和192.168.0.0/16,除非使用云联网、对等连接等 VPC 之间的互通产品,但是这个不在我们的讨论范围。

如图所示,Broker 部署在10.0.0.0/8,而 Client 在192.168.0.0/16,那么这时候,Client 想要访问 Broker 就变得不可能。

在云网络场景,VPC 提供了云虚拟网关(仅内部组件)来支持两个 VPC 之间的互通,我们便称之为跨网络平面互通。

当然,其本质就是做网络映射,比如:

● Broker1:在10.0.0.0/8的 IP 是10.2.0.1,我们通过云虚拟网关创建 Broker1 在192.168.0.0/16的 IP 为192.168.1.1,那么当 Client 在10.0.0.0/8中就需要用10.2.0.1访问Broker1,当 Client 在192.168.0.0/16中就要用192.168.1.1来访问 Broker1。

● 由于 Pulsar Client 的连接协议是先 Lookup 后直连的方式(这个可以参照后面的 Lookup 寻址时序图),就对 Broker 的 Lookup 接口提高了要求,Broker 就需要自动化地判定:

1.  当 Client 来自于10.0.0.0/8网络,返回10.2.0.1

2.  当 Client 来自于192.168.0.0/16网络,返回192.168.1.1

这也就是 Pulsar 这个服务在云服务场景所要面对的问题。

公网接入

前面介绍了 VPC 接入,其实公网接入和 VPC 接入也是类似的。

唯一的差别是:

● VPC 接入:Broker 和 Client 处在两个不同的内网网络平面。

● 公网接入:Broker 部署在内网,而 Client 来自于公网,可以直接把公网看作一个特殊的 VPC 就很好理解了。

寻址服务

下面我们来介绍下腾讯云的寻址服务的思路来源,也是寻址服务的价值所在。

RocketMQ 架构参考

我们看下 RocketMQ 的服务,其架构分为 NameServer 和 Broker。

● NameServer 保存了集群的元数据:Topic 和 Broker 之间的归属关系,这样就可以动态地配置 Topic 和 Broker 之间的从属关系,也可以将 Topic 在不同的 Broker 集群之间调度。

● RocketMQ 同 Pulsar 一样,也有类似 Lookup 的寻址流程,只不过 RocketMQ Client 寻址的请求对象是 NameServer,而 Pulsar Client 寻址的请求对象是 Broker,从这方面看来,架构上可以理解为 Pulsar Broker 相当于是 RocketMQ NameServer 和 RocketMQ Broker 结合到了一起。

优缺点:

Pulsar 这样做部署架构简单,不会额外多出一个 NameServer 服务,但是同样也失去了 Topic 在物理集群之间的调度能力。

RocketMQ 虽然多出了一个模块,但是其提供的集群调度能力,是一种非常重要的运维能力。

这种调度能力,恰恰是云服务所需要的,有了这种调度能力,我们的云服务才能对集群有可运维性和灵活的资源调度方式。

多网络 Lookup

如前面所说,在云服务场景,针对 Pulsar Broker,我们需要提供的内网、VPC、公网三种网络接入场景,和 Pulsar Broker 本身提供的 Lookup 能力的矛盾。使用寻址模块,便有以下好处:

● 将多网络接入这种云服务场景收敛在寻址服务内核中,而 Broker 仍然只提供最纯粹的内网服务,更好地保持 Broker 的原始能力以及与开源的衔接。

● 动态地增减接入点(即不同的网络接入方式的概念名称),对于一个 Pulsar 集群来说增加、减少一个内网、VPC、公网接入点时,不需要对 Broker 做任何变动。

● 实现扩缩容的自动化和无感知化,Broker 的扩缩容,等同的也需要对该集群的所有接入点中的网络映射进行扩缩容变更,由于寻址模块的存在,这部分全部收敛在该模块,Broker 的扩缩容不需要对存量节点做任何变动。

Lookup 时序

前面介绍了很多寻址模块和寻址流程,这里来重点介绍下 Pulsar-Client 的寻址时序,来补充下对前面的介绍,以及科普下 Pulsar Client 的机制:

● 第一步:获取 Topic 分区数:Client→CLB→Broker,一对多指的是该请求落到 CLB 后面的任意一台 Broker 都能对等返回正确结果。

● 第二步:单分区 Topic Lookup:针对单个分区进行 Lookup,询问该 Topic 当前的 Owner Broker 地址,同样是一对多,不同 Broker 之间提供对等服务。

● 第三步:基于第二步返回的该 Topic 分区的 Owner Broker 地址,进行直连,随后进行消息收发。一对一,特指此时的直连必须精准连接 Broker 集群中的某台 Broker,比如 Broker-2,连接别的 Broker 则会连接失败。

这就是 Pulsar-Client 初始化一个 Producer/Consumer 的步骤。

我们的寻址模块切入点在哪呢?

就是第一和第二步,如图所示,在这两个步骤中间加入一层代理层,这样就可以在寻址返回结果上针对多网络接入、Topic 和物理集群从属关系调度上做一些篡改,以达到我们的目的。

集群间调度

上图是我们加入寻址模块后,Pulsar 架构上的改变,整个架构就变得和 RocketMQ 有点类似,有一个中央元数据服务用来管理 Topic 资源和物理计算资源之间的关系。

跨集群迁移

前面铺垫了这么多,介绍了寻址模块以及架构上的优化,接下来介绍下在此之上我们所做的产品化能力——跨集群迁移。

跨集群迁移特指一个租户从物理集群1迁移到物理集群2,两个集群同时提供服务,在线热切换,Client 轻微感知。

如图所示,整个流程也很简单,寻址服务保存了租户和物理集群的路由关系,路由关系一变更,即集群迁移变更。

基于 Pulsar Lookup 寻址的协议,路由关系的切换粒度可以做到租户粒度、Namespace 粒度、Topic 粒度、分区粒度。

切换的方式:路由切换+Topic unload

机制上来说,这个切换流程很简单,难点在前置准备工作上:

● 元数据迁移:租户、Namespace、Policies、Topic、订阅、Token 等。

● 消息双向同步:切换过程中两个集群同时提供服务,为了提供可回滚能力,发送的消息需要在两个集群之间双向同步,保证两个集群都有完整的所有消息。

● 进度同步:每个 Topic 的订阅消费进度不同,需要定时同步,尽量较少切换过程中的重复消费。

消息同步

消息同步比较简单,我们采用了 Pulsar 自带的 GEO-Replicator 功能,这里不再赘述。

进度同步

这里简单介绍下进度同步的机制。

1.  消息迁移:在消息同步阶段(GEO-Replicator)会在消息头部携带消息的源集群里的消息 IP。

2.  定时同步:定时将源集群的消费进度同步到目标集群,基于 Compact topic 同步和持久化。

3.  进度缓存:目标集群读取 Compact topic 中的消费进度信息,将消费进度加载到内存。

4.  投递过滤:在 Pulsar 的投递流程 Dispatcher 处理过程中,过滤掉本要投递,但是已经在源集群进度中投递过的。

跨地区容灾

跨地区容灾,也是我们基于寻址服务的架构改进后,所开发出的产品化能力。

本质和跨集群迁移类似,但是由于跨地区的网络时延问题,在侧重点上有所不同:

如图所示,假设我们的 Pulsar 实例在广州地区,Client 也在广州地区,但是由于不可抗力,导致广州地区的 Pulsar 实例全部宕机,并且短时间内无法迅速恢复,我们可以暂时将 Client 的流量切到上海地区的容灾实例,来保证 Client 在线业务的迅速恢复。

● 同一时间只有一个集群提供服务。

● 短时间、临时性切换:由于跨地区时延的不可控(特别是国外地区),容灾机制一定是临时的,待广州地区恢复后,理应尽快将流量回切。

● 元数据定时同步:因为我们无法预测广州集群何时宕机,且该场景的使用频度较低,这是一种权衡的结果。

● 消息、进度不同步:面对的是广州集群全部宕机,此时广州集群磁盘中的数据暂时无法读取,另一个原因就是跨地区时延大,做实时消息同步的性价比太低。

● 切换:基于域名解析切换,因为广州和上海的寻址服务互相独立隔离,这个时候如果广州集群有堆积,那部分只能继续堆积着,等广州地区恢复了才有机会重新消费。

● 回切:由于上海集群只是用来紧急容灾,在广州集群恢复后,必定要重新切回广州,回切的过程中比较重要的就是上海集群上堆积的消息,需要回写到广州,这个过程中不可避免会出现一部分重复消费和消费顺序错乱(同一分区内)。

该方案是面对地区级别灾难场景下的容灾,因为每个地区本身已经是多可用区部署(同城多机房),因此整个地区不可用的概率较低,因此跨地区容灾的整个产品设计侧重主要用于应急,而不是为了像跨集群迁移一样的热切换,需要做到非常严格的双向同步。

总结

我们先从腾讯云 Pulsar 的整体架构讲起,介绍了在腾讯云的场景下所需要面对的问题,引出了寻址模块(Lookup Service),并介绍了寻址模块的引入对于 Pulsar 的部署架构上的优化。随后介绍了 Lookup Service 解决的两个核心问题:多网络 Lookup 和集群间调度,并保证对客户端接入的无感知和对架构的低侵入性。由于寻址模块的存在,我们便能基于它做进一步的产品化能力,跨集群迁移和跨地区容灾,从而能够在不同级别的灾难场景下都能提供相应的修复措施和运维能力。

未来,我们还会继续在容灾能力、Pulsar 周边生态对接、存储优化等方面继续努力,以提供成本更低、稳定性更高的 Pulsar 产品。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1162150.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

收藏 | 如何撰写数据分析报告?(附案例及数据源下载)

▲点击上方卡片关注我,回复“8”,加入数据分析领地,一起学习数据分析,持续更新数据分析学习路径相关资料~(精彩数据观点、学习资料、数据课程分享、读书会、分享会等你一起来乘风破浪~)回复“小飞象”&…

pycharm 断点调试python Flask

以flask框架为例,其启动命令为 python app.py runserver 后面需要拼接runserver 点击开始断点 参考:https://www.cnblogs.com/bigtreei/p/14742015.html

Mac之NVM|通过brew安装、更新、卸载、重新安装nvm

文章目录 导文通过brew安装NVM通过brew更新NVM通过brew卸载NVM通过brew重新安装NVM 导文 Mac之NVM 通过brew安装、更新、卸载、重新安装 通过brew安装NVM brew install nvm通过brew更新NVM brew upgrade nvm通过brew卸载NVM brew uninstall nvm通过brew重新安装NVM brew re…

Python 内嵌函数:它们有什么用处?

目录 创建 Python 内部函数使用内部函数:基础知识 提供封装构建助手内部函数使用内部辅助函数与私有辅助函数使用内部函数保留状态:闭包 在闭包中保留状态修改关闭状态使用内部函数添加行为:装饰器结论 一、说明 内部函数,也称为嵌…

分析订单每日营收、流量数据:

曝光率----》流量----->订单数 点击率:1000次广告展示,点击率10%意味着你可以获得100个流量(就是访问产品页的人数) (下单)转化率:转化率5%意味着你可以获得:流量的%5&#xff…

有方N58 HTTP POST 请求连接 TDengine

串口调试软件:格西调试精灵 第一步先注册网络获取IP地址 建立PPP连接 ATXIIC1\r PPP链路建立成功,查询IP地址 ATXIIC?\r 设置网络APN ATCREG?\r 运行结果,红线处是获…

跨境商城源码怎么部署

随着全球电子商务的快速发展,跨境商城已成为一种重要的商业模式。然而,要成功运营一个跨境商城,除了要有优秀的源码开发技术外,还需要进行合理的源码部署。本文将为您提供一份全面的跨境商城源码部署指南。 二、跨境商城源码选择 …

API管理平台搭建过程问题总结

API管理的定义和好处 API管理是指对应用程序编程接口(API)进行集中管理、监控和维护的过程。API是用于不同软件之间进行通信和交互的编程接口,通过API管理可以有效地管理和控制API的使用、访问和安全性。 API管理的好处包括: 1…

配送中心信息系统建设

配送中心信息系统的网络构成 配送中心最主要的信息系统为“物流管理信息系统”(WarehouseManagementsystem简称WMS),物流管理信息系统的网络构成主要由主机系统设备、资料库主机、终端系统设备、无线终端网络设备和网络系统设备组成。将这些设备通过现代网络技术有…

[概述] 获取点云数据的仪器

这里所说的获取点云的仪器指的是可以获取场景中物体距离信息的相关设备,下面分别从测距原理以及适用场景来进行介绍。 一、三角测距法 三角测距原理 就是利用三角形的几何关系来测量物体的距离。想象一下,你站在一个地方,你的朋友站在另一…

乐分享五五公排,整合资源打造全新消费生态

​小编介绍:10年专注商业模式设计及软件开发,擅长企业生态商业模式,商业零售会员增长裂变模式策划、商业闭环模式设计及方案落地;扶持10余个电商平台做到营收过千万,数百个平台达到百万会员,欢迎咨询。 分…

【云原生基础】了解云原生,什么是云原生?

📑前言 本文主要讲了云原生的基本概念和原则的文章,如果有什么需要改进的地方还请大佬指出⛺️ 🎬作者简介:大家好,我是青衿🥇 ☁️博客首页:CSDN主页放风讲故事 🌄每日一句&#x…

Unity 粒子特效-第六集-圆圈循环UI特效

一、特效预览 二、制作原理 1.素材介绍 我们停下来看一下这个球,是有无数个小圆圈形成的。 小圆圈素材资源 链接:https://pan.baidu.com/s/1cNMOgYQJnzWJ_uOuqhTpnQ?pwd48y5 提取码:48y5 2.步骤介绍 1.小球动画的时间大概在1秒 2.小球…

21款奔驰GLC300L升级23P驾驶辅助 出行更加的安全

驾驶辅助和自动驾驶的区别就是需要人为去接管,虽然车辆会根据道路自己行驶,弯道上也能居中自动修正行驶,长时间不接管方向盘,系统会提示人为接管,这就是奔驰的23P驾驶辅助系统, 很多车友升级23P驾驶辅助系…

任意文件下载之漏洞复现

0x01 应用介绍 泛微e-office系统是标准、易用、快速部署上线的专业协同OA软件,国内协同OA办公领域领导品牌,致力于为企业用户提供专业OA办公系统、移动OA应用等协同OA整体解决方案 0x02 影响版本及语法特征 泛微e-offcie9 fofa:app”泛微-EOffice” && b…

【了解一下,MySQL中的三大日志binlog redolog undolog】

文章目录 MySQL中的三大日志binlog redolog undolog引言binlog简介使用场景binlog刷盘时机binlog日志格式 redo log简介redo log基本概念redo log记录形式redo log与binlog区别 一条更新语句执行过程(含日志写入)undo log MySQL中的三大日志binlog redol…

阿里云推出AI编程工具“通义灵码“;生成式 AI 入门教程 2

🦉 AI新闻 🚀 阿里云推出AI编程工具"通义灵码",支持多种语言及实时续写功能 摘要:阿里云推出了一款名为"通义灵码"的AI编程工具,支持多种主流编程语言,包括Java、Python、Go等。该工…

电机控制::单位统一问题

电机控制中有很多单位处理的问题,需要同一单位。此处先做个记录,等有时间具体梳理一下,如果有熟悉的大佬可以指教一下。 无量纲的量 IQ标幺;UU单位;内部单位 物理量 1、时间问题:周期频率问题 &#xff…

关于卓越服务的调研问卷

这是NetSuite知识会关于精益实施研究课题的调研问卷,如果感兴趣的话,请参与进来。待调研期结束后,我们会把调研报告分享给大家。

Webpack的Tree Shaking。它的作用是什么?

聚沙成塔每天进步一点点 ⭐ 专栏简介 前端入门之旅:探索Web开发的奇妙世界 欢迎来到前端入门之旅!感兴趣的可以订阅本专栏哦!这个专栏是为那些对Web开发感兴趣、刚刚踏入前端领域的朋友们量身打造的。无论你是完全的新手还是有一些基础的开发…