KDD 2024论文分享┆STAMP:一种基于时空图神经网络的微服务工作负载预测方法

news2024/11/13 17:56:37

论文分享简介

本推文详细介绍了一篇最新论文成果《Integrating System State into Spatio Temporal Graph Neural Network for Microservice Workload Prediction》,论文的作者包括:上海交通大学先进网络实验室: 罗旸、高墨涵、余哲梦,高晓沨教授、陈贵海教授;蚂蚁集团:蔡腾纬、葛昊元。该论文已被(KDD 2024)接收。论文提出了一种基于时空图神经网络(STGNN)的微服务工作负载预测方法(STAMP),来动态预测微服务架构下的资源分配,以提高资源利用率和系统性能。通过在支付宝平台的微服务环境以及两个真实世界数据集上的实验比较,验证了STAMP在预测精度上相较于现有先进时序预测方法平均提高了5.72%。在支付宝云平台的真实线上测试表明 ,STAMP相比现有线上方法能够降低33.10%的计算资源消耗。

原文链接https://dl.acm.org/doi/10.1145/3637528.3671508

1. 会议介绍

第30届国际知识发现与数据挖掘大会(KDD 2024)于2024年8月25日至29日在西班牙巴塞罗那隆重举行。KDD会议起始于1989年,由ACM的数据挖掘及知识发现专委会(ACM SIGKDD)组织,是数据挖掘领域的旗舰学术会议。大会涵盖了数据挖掘、知识发现、数据科学、预测分析等多个技术领域。KDD 2024不仅是学术界的重要事件,也是工业界关注的焦点,吸引了来自全球的顶尖学者、企业代表参与。KDD会议在中国计算机学会(CCF)的推荐中被列为A类顶尖学术会议。

2. 研究背景及主要贡献

在云计算领域,资源利用率的优化一直是提升效率和降低成本的关键。尤其是在微服务架构中,资源分配的不灵活性导致了CPU资源的普遍低效利用。例如Google Cluster Trace数据中的平均CPU利用率不足50%,而支付宝平台的CPU利用率也仅在20%左右。这种低效率不仅限制了系统的性能,也增加了运营成本。为了解决这一问题,论文提出了一种新的微服务工作负载预测方法,旨在通过预测工作负载的变化来动态调整资源分配,从而提高资源利用率。 在支付宝云平台的实践中,论文发现了不同微服务之间的联系:由于用户的访问模式相同,不同微服务的工作负载模式可能趋近相同,如图一所示。

图一:支付宝云平台微服务架构示意图

现有工作负载预测方法,尤其是多变量时间序列预测模型,虽然在一定程度上考虑了工作负载之间的相互依赖性,但往往没有显式地建模微服务间的结构性联系。这种结构性联系对于理解微服务之间的复杂交互和工作负载模式至关重要。为了弥补这一缺陷,论文的主要贡献包括:

1 论文提出了一种新的微服务工作负载预测框架STAMP,该框架通过构建基于图的表示来显式地建模微服务之间的结构性联系,从而更准确地捕捉工作负载的动态变化。

2 STAMP通过整合系统状态信息,进一步增强了对工作负载变化的预测能力。这种方法不仅考虑了工作负载的相似性,还考虑了系统状态对资源利用的影响。

3 论文的实证分析表明,STAMP在提高预测精度方面具有显著优势,与现有方法相比,平均提高了5.72%的预测精度,并且在支付宝平台的实际部署中,实现了资源消耗的33.10%降低。

3. 方法

图二: STAMP 整体架构

如图二所示:STAMP框架通过针对性建模微服务的相似性、系统状态的关联性以及时间模式的动态性,提供了一种全面的工作负载预测方法。以下是STAMP的详细工作流程:

1.相似性建模:此模块的目的是捕捉微服务之间的复杂交互和相似性。论文首先将工作负载序列与系统状态输入到该模块中。利用图神经网络,微服务被映射为图中的节点,节点间的边权重根据工作负载和系统状态动态生成,构建出多个图。这些图通过注意力机制融合,形成一个综合的相似性图,从而为模型提供了丰富的结构化信息。图卷积的使用进一步增强了模型对微服务间相似性的理解。

2.系统状态建模:设计此模块的目的是为了理解并整合系统状态变化对微服务工作负载的影响。系统状态指标,例如CPU利用率和响应时间,被集成到工作负载的表示中。这确保了模型能够识别系统状态如何影响服务的工作负载,从而提高预测的准确性和可靠性。

3.动态时间模式建模:此模块的目的是捕捉工作负载随时间变化的周期性和趋势。通过应用快速傅立叶变换(FFT),模型能够识别和提取工作负载数据中的周期性模式。这种对时间动态性的建模对于预测工作负载的未来变化至关重要,因为它允许模型学习到工作负载的长期依赖性。

4.多视图对比学习:最后一个模块的目的是筛选出对工作负载预测最有用的系统状态信息。通过构建包含和不包含系统状态信息的两种视图,模型通过对比学习识别出对预测最为关键的系统状态特征。这种机制帮助模型排除噪声,专注于对预测工作负载变化最有效的信息,从而提高整体预测性能。

通过这四个精心设计的步骤,STAMP框架能够全面地理解和预测微服务的工作负载变化,为微服务架构中的资源管理和优化提供了强有力的支持。

4. 实验结果及可视化

1)实验数据集: 论文的实验基于三个真实世界的数据集:支付宝平台的微服务工作负载数据集(Ant)、阿里巴巴集群追踪数据集(Ali )和Kubernetes容器工作负载数据集(Fisher)。这些数据集覆盖了不同的微服务架构和运营条件,为论文的模型评估提供了全面的测试环境。

2)基线对比:为了评估STAMP的性能,论文将其与多种现有的工作负载预测方法进行了比较,包括传统的统计模型(如ARIMA和Prophet)、多变量时间序列预测模型(如FEDformer、Pyraformer、PatchTST等),以及基于时空图神经网络的模型(如MTGNN、ST-HSL、ST-SSL等)。这些基线方法代表了当前微服务工作负载预测领域的先进水平。

表一:STAMP预测结果对比

3)对比实验 :在对比实验中,如表一所示,STAMP在所有数据集上均展现出了优越的预测性能。具体来说,在支付宝平台的数据集上,STAMP的RMSE比最接近的基线低5.72%,MAE低3.89%。这些结果表明,STAMP能够有效地捕捉微服务工作负载的动态变化,并提供更准确的预测。论文的结果与文中的结论一致,证明了STAMP在微服务工作负载预测方面的有效性和优越性。

4)消融实验:论文进行了消融实验来评估STAMP中各个组件的贡献。实验结果如图三所示,图相似性编码模块、系统状态建模模块、动态时间模式编码模块和多视图对比学习模块都是提高预测精度的关键因素。特别是,多视图对比学习模块在去除无关系统状态信息和提高预测准确性方面起到了重要作用。

图三:消融实验结果

5)线上实验:在支付宝平台的线上A/B测试中,STAMP在实际微服务环境中展现了其预测和资源优化的能力。与现有在线方法相比,STAMP实现了33.10%的资源消耗降低,同时在98.16%的情况下成功避免了CPU溢出的风险。这一结果证明了STAMP在实际应用中的可行性和经济效益。

综上所述,STAMP通过其创新的模型架构和算法设计,在微服务工作负载预测方面取得了显著的性能提升,为微服务架构中的资源管理和优化提供了有力的工具。

5. 总结与展望

论文提出的STAMP框架,针对微服务架构中的工作负载预测问题,通过集成图神经网络和多视图对比学习,有效地提高了预测的准确性。实验结果证明了STAMP在多个真实世界数据集上的优势,特别是在资源利用率提升和成本节约方面的潜力。尽管STAMP已经展现出了显著的性能提升,但论文认为在云服务领域,尤其是针对GPU服务的优化,仍有广阔的探索空间。未来的工作将集中在提高模型的适应性、实时性和可扩展性,以应对日益复杂的服务需求和不断增长的服务规模。 

展望未来,论文计划进一步研究如何将STAMP应用于更广泛的云服务场景,包括不同类型和规模的微服务。此外,论文也将探索STAMP在多租户环境中的表现,以及如何与其他资源管理策略相结合,以实现更优的资源分配和服务质量保证。论文相信,通过持续的研究和优化,STAMP将为云服务提供更高效、更智能的资源管理解决方案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2153102.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

gh-ost

优质博文:IT-BLOG-CN 一、gh-ost的作用 gh-ost是由Github提供的Online DDL工具,使用binlog代替之前的触发器做异步增量数据同步,从而降低主库负载。 基于触发器的Online DDL工具原理: 【1】根据原表结构执行alter语句&#xff…

抖音矩阵系统源码搭建,矩阵系统贴牌,矩阵工具开源

1. 抖音短视频矩阵系统 抖音短视频矩阵系统,是指通过抖音平台,以矩阵的形式进行短视频创作、发布和传播的一种模式。它以多样化的内容、丰富的表现形式、高度的专业化和协同性,吸引了大量用户和创作者的关注。 2. 短视频矩阵系统的优势 2.1 …

从技术打磨到产品验证:读《程序员修炼之道》的务实之道

在编程世界里,技术的打磨往往像是工匠雕琢作品,但若无法转化为产品的成功,所有的精致都不过是空中楼阁。读《程序员修炼之道》时,我深刻意识到,务实不仅仅是技术的选择,更是产品迭代和商业模式成功的关键。…

C# .net6 开发数据采集软件(一)

功能: 数据采集:采集任务 数据分析:数据可视化 其他功能:数据上传、数据下拉、软件更新 软件设置:PLC配置、任务配置、软件配置、可视化配置 更多功能:其他软件的入口,或者小工具的使用。比…

打印机无法打印是怎么回事_打印机无法打印多种解决方法

打印机无法打印是怎么回事?我们在使用打印机的时候,可能会遇到打印机无法打印的问题,该问题原因有很多。下面小编就教大家打印机无法打印多种解决方法。 打印机无法打印多种解决方法: 打印机无法打印解决方法一:纸张问…

iOS 超强插件注入神器,Trollfools迎来二次进化

长期以来,注入插件是越狱iPhone的专利。对巨魔玩家来说,越狱用户是如同“上游供应链”一样的存在。 很多增强版的APP,其实都是越狱玩家制作、分享的。直到Trollfools诞生,才彻底扭转了这一现状。 Trollfools是什么?简…

吴津雨银洁刘雅雯获得国际超模大赛四川总决赛网络组三甲

9月8日众人期盼已久的都江堰杯2024国际超模大赛四川总决赛在三遗之城都江堰落下帷幕。国际超模大赛已经举办第12个年头,每年为时尚界、模特界输送无数的优秀时尚模特人才,让世界超模中出现更多的中国面孔。大赛在全球已经布局多个国家及地区,…

攻防世界---->Windows_Reverse1

学习笔记。 前言:不会,代码越简洁,越难受 T ^ T 下载 查壳。 UPX脱壳。 此题脱壳后的程序,是不能运行的。 网上wp,说是因为作者采用了ASLR(地址随机化) 解决方法:一:用XP运行调试。 方法二&a…

基于单片机汽车驾驶防瞌睡防疲劳报警器自动熄火设计

文章目录 前言资料获取设计介绍功能介绍设计程序具体实现截图设计获取 前言 💗博主介绍:✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师,一名热衷于单片机技术探索与分享的博主、专注于 精通51/STM32/MSP430/AVR等单片机设计 主要对…

【算法竞赛】栈

栈的特点是"先进后出"。 栈在生活中的原型有:坐电梯,先进电梯的被挤在最里面,只能最后出来;一管泡腾片,最先放进管子的药片位于最底层,最后被拿出来。 栈只有唯一的出入口,从这个口进入,也从这个口弹出,这是它与队列最大的区别。 队列有一个入…

李宏毅机器学习2023HW12—Reinforcement Learning强化学习

文章目录 TaskBaselineSimpleMedium Baseline—Policy GradientStrong Baseline——Actor-CriticBoss Baseline—Mask Task 实现深度强化学习方法: Policy GradientActor-Critic 环境:月球着陆器 Baseline Simple 定义优势函数(Advantage function)为执行完ac…

传统到AI 大数据分析的演变,颠覆智慧水电的未来?

传统到AI 大数据分析的演变,颠覆智慧水电的未来? 前言传统到AI 大数据分析的演变 前言 水电作为一种重要的能源形式,一直在我们的生活中扮演着至关重要的角色。而如今,随着科技的飞速发展,智慧水电和 AI 大数据应用的…

服务器安全,你必须知道的六个知识点

服务器安全 如今没有什么是安全的。各种系统安全漏洞的数量呈爆炸式增长。令人担忧的主要原因之一是服务器安全性。 接下来,就如何提升服务器安全,写几点见解。 虽然很多企业在服务器的安全性方面做了足够多,但是,黑客仍然能够…

Java项目实战II基于Java+Spring Boot+MySQL的卓越导师双选系统设计与实现(源码+数据库+文档)

目录 一、前言 二、技术介绍 三、系统实现 四、论文参考 五、核心代码 六、源码获取 全栈码农以及毕业设计实战开发,CSDN平台Java领域新星创作者 一、前言 在当今高等教育环境中,师生之间的有效沟通与匹配对于促进学生发展、提升教学质量至关重要…

蓝桥杯—STM32G431RBT6(ADC数模转换,从原理到应用)

一、什么是ADC? ADC(Analog-to-Digital Converter)即模数转换器。它是一种将模拟信号转换为数字信号的电子器件。在电子系统中,ADC 起着至关重要的作用,它能将连续变化的模拟量(如电压、电流等)…

openstack中的rabbitmq

基本概念 基础介绍 exchange:用于分发信息,有direct、fanout、topic、headers; binding:exchange、queue之间的虚拟连接,由一个或者多个routing key组成; queues:用来暂存消息,供…

【工具】Windows|两款开源桌面窗口管理小工具Deskpins和WindowTop

总结 Deskpins 功能单一,拖到窗口上窗口就可以置顶并且标记钉子标签,大小 104 KB,开源位置:https://github.com/thewhitegrizzli/DeskPins/releases WindowTop 功能完善全面强大,包括透明度、置顶、选区置顶等一系列功…

API安全推荐厂商瑞数信息入选IDC《中国数据安全技术发展路线图》

近日,全球领先的IT研究与咨询公司IDC发布报告《IDC TechScape:中国数据安全技术发展路线图,2024》。瑞数信息凭借其卓越的技术实力和广泛的行业应用,被IDC评选为“增量型”技术曲线API安全的推荐厂商。 IDC指出,数据安…

Python 如何调用讯飞星火大模型API

1 讯飞星火简介 讯飞星火是科大讯飞推出的一款先进的人工智能大模型,它具备强大的语言理解和知识问答能力,能够在多种场景中提供智能化服务。2024年6月27日,科大讯飞发布了讯飞星火大模型V4.0版本,全面对标GPT-4 Turbo。现有的模…

【JavaScript】LeetCode:41-45

文章目录 41 排序链表42 合并k个升序链表43 LRU缓存44 二叉树的中序遍历45 二叉树的最大深度 41 排序链表 递归 归并排序找到链表中心点,从中心点将链表一分为二。奇数个节点找中心点,偶数个节点找中心左边的点作为中心点。快慢指针找中心点&#xff0c…