云消息队列 ApsaraMQ 成本治理实践(文末附好礼)

news2024/10/6 14:36:22

作者:家泽、稚柳

前言:

在 AI 原生应用架构浪潮中,消息队列需支持大规模数据和复杂 AI 模型训练与推理场景下的高效异步通信,其成本效益优化也日益受到重视。面对大模型或大数据量,消息量显著增加,云消息队列 ApsaraMQ 致力于降低消息队列成本,减轻用户负担,同时,通过架构演进,提升数据处理能力、安全性、性能和资源利用率,让 AI 开发者在更低的成本下获得更高的效益。

背景

云消息队列 ApsaraMQ 始终围绕“高弹性低成本、更稳定更安全、智能化免运维”三大核心方向进行演进和拓展。在追求“高弹性低成本”方面,云消息队列 ApsaraMQ 全系列产品(涵盖云消息队列 RocketMQ、Kafka、RabbitMQ、MQTT 以及消息服务 MNS)均已实现 Serverless 化,支持自适应弹性,秒级万 QPS 弹性扩展,并采用按实际使用量付费的模式,实例成本平均降低 50%。

本文将探讨云消息队列 ApsaraMQ 在成本治理方面的实践经验,同时介绍在 Serverless 版本中的架构优化和新增能力。希望能够为企业或个人提供成本控制参考,同时帮助大家更好地理解和使用云消息队列 ApsaraMQ,以实现成本效益最大化。

资源成本与运维成本相辅相成

在软件研发过程中,除了考虑产品迭代的开发成本及运营成本之外,运行时成本主要由资源成本和运维成本组成,两者相辅相成。

  • 要降低资源成本,通常需要对现有架构进行调整。而确保架构变更的安全性和稳定性,则需要依赖完善的运维体系,包括有效的监控和快速恢复机制。
  • 引入监控和告警系统提高系统可靠性,可能会增加核心组件的资源开销,以及影响产品性能。但若没有完善的运维体系,在系统出现问题时,会导致更大的业务损失。

因此,我们应重视运维体系的建设,在降低成本的同时,确保系统的稳定性和可靠性。这需要我们在资源利用和运维管理之间找到平衡,以实现成本效益的最大化。

图片

为了有效降低资源和运维成本,同时提高系统性能和稳定性、优化运维效率,我们采取了以下有效策略:

  1. 降低资源成本:

    • 提升软件性能:优化产品软件,增强自身性能,从而提高运行效率,减少资源占用。
    • 降低资源消耗:通过技术手段,选择性价比更高的产品依赖,提高资源使用效率。
    • 提高资源利用率:与运维团队合作,监控资源利用率,确保与系统稳定性相匹配。
  2. 降低运维成本:

    • 监控告警指标覆盖:建立完善的指标体系,全面反映系统运行状况,确保性能提升和架构优化达到预期效果。
    • 快速恢复:优化 MTTR,依赖于强大的监控系统和自动化恢复能力,缩短故障发现时间和故障解决时间。
    • 无损升级:实现无感知升级,降低用户升级成本,在不中断服务、不干扰客户使用的情况下进行升级。
    • 弹性伸缩:加强云服务底层组件弹性伸缩能力,根据并发请求和元数据用量动态调整资源,有效控制成本,提高资源利用率。

架构优化,提升产品性能降低资源消耗

以 Kafka 为例,开源 Kafka 是典型存算一体架构,通常基于本地文件系统或本地盘自建,存在一定的局限性:

1)单盘性能瓶颈: 单盘的吞吐量和容量受限,形成性能瓶颈。

2)资源灵活性差: 存储和计算资源比例固定,不能灵活调整适配。

3)扩缩容耗时长: 节点是有状态的,扩缩容需要涉及数据迁移,但受原始节点负载、数据量和磁盘吞吐等因素影响,TB 级数据通常需要小时级迁移时长,导致整体风险提高,运维压力大。

4)存储架构复杂: 对象存储用于存储冷数据,本地盘存储热数据,而本地盘需要多副本保证数据可靠性,从而增加网络资源消耗,同时,需要实现本地存储文件和二级存储文件之间的逻辑映射机制,增加了系统复杂度。

图片

上图是 Kafka 3.0 的架构,从技术层面实现存算分离,在计算层做到了无状态,通过开源 ISR 机制进行主从选举,同时引入 RDMA 协议,显著减少整个系统在交互过程中的 CPU 消耗;存储层采用盘古 DFS 作为共享存储,消息数据(CheckPoint 和 index 文件依然写入分布式文件系统)写入盘古 DFS 保证可靠性。

此外,还从以下几个方面进行了存储结构优化:

  • 内存聚批: 支持时间、空间和频率等多种提交策略;减少网络抖动、长尾影响服务质量。
  • 用户态缓存: 支持多级缓存机制,数据就近加速;冷热数据分离,避免缓存污染。
  • 冷读优化: 冷热线程(协程)分离,避免全局不可用;数据预加载、预读,自适应调整 IO 大小。

性能测试数据显示,优化后的 Kafka 3.0 在攒批和碎片化发送场景,性能均优于开源版本。

资源消耗方面,Kafka 3.0 通过存算分离设计,简化架构,降低资源成本。仅需一份存储资源即可确保数据可靠性,整体存储成本降低约 30%。

图片

软硬结合,进一步提升产品性能

云消息队列 ApsaraMQ 通过与云原生芯片倚天进行了深度优化,进一步提升了产品性能。

为了充分发挥倚天芯片的优势,我们在消息收发链路上引入了自动聚合器,通过批量计算提高效率。在消息序列化方面,我们采用了更紧凑的数据结构,减少了数据复制和传输开销。同时,我们将序列化过程拆分为多个子任务并行执行,充分利用倚天芯片的多核处理能力和 ARM 指令集优化。

通过这些针对性的优化措施,最终实现了在相同机型和流量条件下,倚天芯片的消息延迟比 X86 架构降低了 20%,消息吞吐量提高了 30%。

增强运维能力,降低运维成本

为了提高运维效率、降低运维成本,同时确保系统的稳定性和可靠性,我们提供了以下增强能力:

监控体系建设: 通过监控关键性能指标来优化资源使用和控制成本。云消息队列 ApsaraMQ 覆盖了全面的监控和告警指标,帮助用户了解资源使用情况并调整资源分配,包括物理节点、网络、磁盘、IO 等操作系统指标监控,以及消息收发量、RPC 异常次数、消息堆积等业务指标监控。同时,引入端到端巡检,模拟用户收发 SDK 主要接口行为,实时发现系统异常,分钟级探测感知和报警。

消息健康管家: ApsaraMQ Copilot for RocketMQ 提供全链路健康度智能巡检与诊断的先进功能,成为构建高效消息集成链路的重要工具。通过全面监控、量化分析与配置可定制性、简化诊断流程等关键操作,全面升级其监控和诊断能力。

无损升级: RocketMQ 5.2.0 版本新增服务端升级时主动通知客户端的功能,实现优雅下线。客户端接收通知后自动重连到未升级节点并重试上次发送的消息,从而保障业务连续性。

弹性伸缩: 弹性伸缩是 ApsaraMQ Serverless 版本的核心功能,适用于业务量波动较大的场景,通过监控业务流量、集群水位和资源剩余量,自动进行垂直或水平扩展,或在集群实例间进行弹性调度。目前已达到秒级万 QPS 弹性扩展,满足大规模业务需求。


好礼放送

  1. 阿里云 618 创新加速季正在火热进行中,为企业提供丰富的补贴和礼包,助力数字化创新。云消息队列 ApsaraMQ 也带来了精选产品的折扣优惠和资源包。

欢迎访问活动页面,了解更多详情:https://www.aliyun.com/activity/Mid-promotion/NativeCloud618

图片

  1. 随着云消息队列 ApsaraMQ 产品品牌升级(https://www.aliyun.com/product/ons ),我们正在开展有奖调研活动,收集用户对"ApsaraMQ"产品品牌的宝贵意见。

欢迎点击“此处”进行参与,我们将从参与者中随机抽取 5 名幸运用户,送出精美礼品!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1818486.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

爱要常觉亏欠,客要一味款待?

一连病了多日,多数时间躺床上静养。今晨上网浏览,见到罗翔先生在其《圆圈正义》一文中,写有以下这样一句话,读后深受启迪,也让笔者更加懂得应当怎样去处理家庭和社会的人际关际。特实录如下,与网友分享。 网…

重生奇迹mu魔法师介绍

魔法师擅长:远距作战、攻击&辅助魔法使用 转职:魔导师(2转),神导师(3转) 魔法师可以通过多样的魔法,展现华丽的效果和强大的实力。成长初期因为体力少,经常受到死亡…

基于空间对抗的多智能体编队控制方法

源自:系统工程与电子技术 作者:张杰 刘开蓉 陈金宝 张迎雪 陈传志 余虹志 张云啸 注:若出现无法显示完全的情况,可 V 搜索“人工智能技术与咨询”查看完整文章 摘 要 针对3维空间对抗环境下, 具有非线性二阶积分器动力…

负载均衡集群

目录 负载均衡集群 1、集群是什么? 2、负载均衡集群技术 3、负载均衡集群技术的实现 4、实现效果如图 5、负载均衡分类 6、四层负载均衡(基于IP端口的负载均衡) 7、七层的负载均衡(基于虚拟的URL或主机IP的负载均衡) 8、…

【全开源无加密】迅狐代购商城源码,海关报关对接,语言包支持十几种语言

迅狐代购商城源码:开源、无加密的高级电商平台解决方案 随着互联网的快速发展,电子商务已成为现代商业的重要组成部分。迅狐代购商城源码是一款全开源无加密的高级电商平台解决方案,提供了丰富多样的功能和灵活的定制化选项,可以…

安卓照片找回不再困扰,掌握5个步骤让回忆永不褪色

手机照片记录了过去,承载着我们的回忆,让我们能够在繁忙的生活中找到那份温暖和宁静。然而,随着时间的推移和技术的进步,照片的存储和备份方式也在不断变化。当我们不小心删除了手机里的照片时,那份失落和焦虑便油然而…

苹果11怎么录屏?简单几步,轻松搞定!

随着科技的发展,智能手机的功能日益丰富,录屏功能便是其中之一。录屏功能不仅可以帮助我们记录手机操作过程,还可以捕捉屏幕上的精彩瞬间。在众多智能手机品牌中,苹果11凭借其出色的性能与用户体验,受到了广大用户的喜…

牧原发布年度低碳报告,看行业“一哥”如何数字化减碳!

此前,牧原信息化负责人何秋梅在接受绿研院的专题访谈时提到:“在销售、采购等业务上,都涉及到大量的合同和文件,传统的纸质合同保存和管理繁琐,需要档案柜存储,且成本高昂。使用电子签不仅节省了打印、盖章…

ChatGPT-4o引领医学革命:临床科研创新与效率的新纪元

2024年5月12日,更强版本的ChatGPT-4o上线,文本、语音、图像等多模态交互方式使其在各行各业的应用呈现了更多的可能性。因此,帮助广大临床医学相关的医院管理人员、医生、学生、科研人员更加熟练地掌握ChatGPT-4o在临床医学日常生活、工作与学…

SQL中distinct去重关键字的使用和count统计组合的使用

文章目录 SQL中distinct的使用1、distinct作用于单列2、distinct作用于多列3、 count()、distinct组合使用conut扩展知识 SQL中distinct的使用 1、distinct作用于单列 语法: select distinct 列名 from 表; distinct必须在列的前面,否则直…

多源最短路径算法 -- 弗洛伊德(Floyd)算法

1. 简介 Floyd算法,全名为Floyd-Warshall算法,亦称弗洛伊德算法或佛洛依德算法,是一种用于寻找给定加权图中所有顶点对之间的最短路径的算法。这种算法以1978年图灵奖获得者、斯坦福大学计算机科学系教授罗伯特弗洛伊德的名字命名。 2. 核心思…

Navicate操作某一张表后,卡主,无法加载,也无法编辑,更无法读取

说明 Navicate操作某一张表后,卡主,无法加载,也无法编辑,更无法读取,遇到这种情况,一般是因为表被锁住了 解决方案 右击数据库,打开命令号界面 查看进程列表 SHOW PROCESSLIST;mysql> …

大肆扩产下负债“后遗症”凸显,分拆能帮助恒力石化脱困吗?

撰稿|行星 来源|贝多财经 近日,民营大炼化龙头企业恒力石化(SH:600346)交出了2024年的第一份业绩答卷。财报显示,该公司2024年第一季度实现收入583.90亿元,同比增长4%;归母净利润21.39亿元,同…

旅游网站(携程旅行网页学习 vue3+element)

旅游网站 1. 创建项目 在你要创建项目的路径下打开vscode,新建终端,然后输入vue ui,进入Vue项目管理器。选择“创建”,确定项目路径,并点击“在此创建新项目”。在项目文件夹中输入项目名称,点击下一步;选…

SpringBoot调用WebService的实践

作者所在公司的系统间的信息交互是通过webservice完成。如:MES与SAP的交互,MES与WMS的交换,MES与SRM的交互,MES与IOT的交互等。 MES是用.NET VS2008 C#写的,调用webservice很简单,这里不再赘述。如有想了解…

AI 定位!只需一张图片就能找到你,锁定具体位置!精确到经纬度

你能猜到这张自拍的拍摄地点吗?别小瞧了AI的能力,答案可能会让你吓一跳。 这事交给现在的AI来处理,它只需要“看”一眼,就能把照片里的“底裤都给扒出来”: 美国,加利福尼亚州,旧金山机场洗手间,93号登机口…

【数据结构】第十五弹---C语言实现直接插入排序

✨个人主页: 熬夜学编程的小林 💗系列专栏: 【C语言详解】 【数据结构详解】【C详解】 目录 1、排序的概念及其运用 1.1、排序的概念与分类 1.2、排序运用 1.3、常见的排序算法 1.4、常见的排序算法性能测试 2、常见排序算法的实现 2…

JAVA小知识16:JAVA常用的API

一、Math 方法名说明public static int abs(int a)获取参数绝对值public static double ceil(double a)向上取整public static double floor(double a)向下取整public static int round(float a)四舍五入public static int max(int a,int b)获取两个int值中的较大值public s…

AI绘画Stable Diffusion 3 正式开源,AI生图格局迎来巨变!(附模型下载)

大家好,我是向阳 就在刚刚,Stable Diffusion 3 Medium 如约而至。 几天前,Stability AI 在社交平台 X 上官宣,SD3 Medium 将在 6 月 12 日正式开源。 这一次,没有跳票,它是真的来了。 20 亿参数大小&…

python数据分析-房价数据集聚类分析

一、研究背景和意义 随着房地产市场的快速发展,房价数据成为了人们关注的焦点。了解房价的分布特征、影响因素以及不同区域之间的差异对于购房者、房地产开发商、政府部门等都具有重要的意义。通过对房价数据的聚类分析,可以深入了解房价的内在结构和规…