名称解释:
AHAS:应用高可用服务(Application High Availability Service)是一款专注于提高应用高可用能力的SaaS产品,主要包含多活容灾、故障演练和流量防护三个独立的功能模块。其中流量防护已迁移至微服务治理服务MSE。
PTS:性能测试PTS(Performance Testing Service)是一款简单易用,具备强大的分布式压测能力的SaaS压测平台。 PTS可以模拟复杂的业务场景,并快速精准地调度不同规模的流量,同时提供压测过程中多维度的监控指标和日志记录。您无需准备资源,即可按需发起压测任务,监控压测指标,获取压测报告,进而能够高效率、全方位地验证业务站点的性能、容量和稳定性。
ARMS: 应用实时监控服务(Application Real-Time Monitoring Service)作为一款云原生可观测产品平台,包含应用监控、前端监控、Prometheus监控、云拨测、Grafana服务、告警管理等一系列子产品。其覆盖浏览器、小程序、APP、分布式应用、容器等不同可观测环境与场景,帮助企业实现全栈性能监控与端到端追踪诊断。提高监控效率,减少运维工作量。
1.背景和挑战
某是一家致力于线上的化妆品销售品牌。伴随着公司业务高速发展,技术运维面临着非常严峻的挑战。伴随着“双11”电商大促、“双12”购物节、小程序、网红直播带货呈现爆发式增长趋势,如何确保微商场系统稳定顺畅地运行成为某面对的首要难题。其中,比较突出几个挑战包含以下几点:
- 系统开发迭代快,线上问题较多,定位问题耗时较长;
- 频繁大促,系统稳定性保障压力很大,第三方接口和一些慢SQL存在导致严重线上故障的风险;
- 压测与系统容量评估工作相对频繁,缺乏常态化机制支撑;
- 系统大促所需资源与日常资源相差较大,需要频繁扩缩容。
2.云原生解决方案
某与阿里云一起针对缩面临问题以及未来业务规划进行了深度沟通与研讨。通过阿里云原生应用稳定性解决方案以解决业务问题。引入阿里云容器服务ACK、Spring Cloud Alibaba、PTS、AHAS、链路追踪等配套产品,对应用进行容器化改造部署,优化配套的测试、容量评估、扩缩容等研发环节,提升产研效率。图1展示了某最终的核心应用架构方案。
图1 某核心应用架构示意图
3.应用效益
高可用:利用应用高可用服务产品(AHAS)的限流降级和系统防护功能,对系统关键资源进行防护,并对整体系统水位进行兜底,确保大促平稳进行,确保顺畅的用户体验。
容量评估:利用性能测试服务(PTS)和业务实时监控(ARMS)对系统单机能力及整体容量进行评估,对单机及整体所能承载的业务极限量进行提前研判,以确保未来对业务大促需求可以做出合理的资源规划和成本预测。
大促保障机制:通过与阿里云服务团队的多次配合演练,建立大促保障标准流程及应急机制,达到大促保障常态化。
4.客户声音
“使用ACK容器服务可以帮助我们快速拉起测试环境,利用PTS即时高并发流量压测确认系统水位,结合ARMS监控,诊断压测过程中的性能瓶颈,最后通过AHAS对突发流量和意外场景进行实时限流降级,加上阿里云团队保驾护航,保证了我们每一次大促活动的系统稳定性和可用性,同时利用ACK容器快速弹性扩缩容,节约服务器成本50%以上。”某技术中台负责人如上说。