今年大促季,阿里云容器服务有哪些技术和应用新突破?

news2025/1/10 16:09:44

4162faf30ec5694aef0b0978e64c1f9f.gif


联合作者:志敏,冬岛,戒空,邓隽,佳旭,谢乘胜,元毅,溪洋

在 2022 年的双 11 大促季中,阿里云容器服务(简称 ACK)、容器镜像服务(简称 ACR)除了支撑集团核心系统容器化以及为云上产品提供支撑外,也将内部多年大规模容器技术以产品化的能力输出给众多围绕双 11 的生态公司和 ISV 公司。ACK 和 ACR 每年持续迭代、发布新的产品功能,同时将管理数万个容器集群的规模化能力和最佳实践也透出给客户,通过技术红利支撑来自全球各行各业的容器云。本文会介绍 ACK 和 ACR 的新产品能力和实践助力双 11 场景下的客户和业务。

近年来,降本增效成为了众多企业 IT 管理者关注的重要问题,企业已经到了精益用云的时代。以容器为基础的云原生技术正在深刻地改变企业上云和用云的方式,如何利用云原生技术帮助企业实现降本增效是很多 IT 负责人关注的话题。

每年的阿里巴巴双 11 都是考验各种前沿技术的最佳“实战场”。2021 年双 11,阿里集团就已经实现 100% 应用云原生化,电商微服务、中间件等应用,以及搜索、大数据、 AI 业务全部运行在统一的容器平台基础之上。发展到今年,容器服务在双 11 期间又实现了哪些技术和应用的新突破呢?

本文将介绍 ACK 和 ACR 新产品能力在云原生实践的探索和经验、带来的价值,及其在双 11 中的应用,希望为更多企业提供基于 ACK 和 ACR 实现云原生化演进、实现云上 IT 架构高质量发展的可参考案例。

01

阿里云容器服务为双11

多领域提供深度支持

Aliware

阿里云容器服务 ACK(Alibaba Cloud Container Service for Kubernetes)是全球首批通过 Kubernetes 一致性认证的服务平台,提供高性能的容器应用管理服务,支持企业级 Kubernetes 容器化应用的生命周期管理。ACK 在阿里巴巴集团内作为核心的容器化基础设施,有丰富的应用场景和经验积累,包括电商、实时音视频、数据库、消息中间件、人工智能等场景,从 2015 年上线起一直在双 11 期间为内外部客户提供广泛的技术支持;同时,容器服务将阿里巴巴内部各种大规模场景的经验和能力融入产品,向公有云客户开放,提升了更加丰富的功能和更加突出的稳定性,容器服务连续多年保持国内容器市场份额第一。

在过去的一年,ACK 进行了积极的技术升级,持续提升产品性能和服务能力,通过这些升级带来的云原生红利也直接运用到双 11 中。ACK 在今年双 11 期间稳如磐石,深度参与了众多领域的支撑,包括在阿里巴巴电商核心系统在零售云支撑聚石塔,在物流云支撑菜鸟 CPAAS,在中间件云原生支撑 MSE 和 MQ,在边缘云支持支撑 CDN 和边缘计算,同时支持数据库云原生化等。

阿里云容器镜像服务 ACR 作为云原生领域中统一的应用资产管理及分发平台,从双 11 大促准备期开始就需要应对云原生应用大规模、大批量高效及安全分发问题。当前 ACR 面向企业级场景提供承载云原生应用制品安全托管与高效分发能力的企业级产品形态 (简称 ACR EE) ,在双 11 期间助力企业大促的应用业务发布及扩容准备,同时也服务了集团内部多方业务。

02

今年双11容器服务技术

和应用新突破

Aliware

下面将从极致弹性、智能运维、DevSecOps、全链路加速几个方面来讲解 ACK/ACR 的技术创新和产品功能如何在双 11 场景下,与业务方密切结合,提供了弹性、速度、运维、安全、效率等全面综合的体验。

01

极致弹性 AHPA

关于 AHPA

弹性本质要做的事情是在保证业务稳定性的前提下,提升资源使用率。

当前由于应用本身存在冷启动,应用启动耗时长。而通用的弹性方案也面临一些问题,如直接使用固定实例数,资源浪费明显;使用 K8s 提供的 HPA,在业务请求到达之后才触发弹性,导致弹性滞后。而使用定时弹性策略, 需要评估每个时间段扩容多少,缩容多少,并且随着业务的变化需要随时进行调整,带来配置繁琐的问题。

那么面对弹性滞后问题我们如何来解呢?容器服务 ACK 推出了基于机器学习算法的弹性实现方案:AHPA。

AHPA(Advanced Horizontal Pod Autoscaler)是基于应用历史指标预测未来 Pod 实例数量,解决弹性滞后的问题。通过主动预测和被动预测相结合,实时调整资源实例数。被动预测基于应用实时指标计算 Pod 数量,可以很好的应对突发流量; 主动预测基于历史指标通过达摩院机器学习算法提前预测出未来 24 小时应用的实例数量。此外,AHPA 还增加了兜底保护策略,可以设置时间区间的实例数上下界值实现弹性兜底。

cfa2088b82b1d78374282442a206018d.png

通过 AHPA 可以实现毫秒级预测,秒级弹性生效,在复杂多周期情况下依然保持较高的识别率,周期识别准确率高达 95% ,同时将主动预测和被动预测相结合让弹性更准。对于噪音,缺失值,异常值都具有不错的鲁棒性。

AHPA 助力达摩院智能语音

达摩院智能语音交互产品是基于语音识别、语音合成、自然语言理解等技术,为企业在多种实际应用场景下,赋予产品“能听、会说、懂你”式的智能人机交互体验。客户业务自身有峰谷波动特征,期望使用弹性降低资源使用成本。但直接使用 HPA 存在如下 2 个问题:

1. 弹性滞后。由于资源调度、应用启动也需要一定时间,在扩容的过程中,业务稳定性可能会受到影响。

2. 配置复杂。配置过于激进可能导致应用稳定性受影响,配置过于保守,成本优化的效果就大打折扣。需要反复尝试才能达到一个合理的水平。而且随着业务的变化,也会需要重新调整弹性策略

针对上述客户的业务痛点,结合智能语音业务应用具有周期性的特征分析,达摩院智能语音落地了容器服务 AHPA 弹性预测方案,通过主/被动预测相结合,解决弹性滞后问题。

b5d90ed4c0ccde9e6c1ef0876c3988ef.png

ASR(语音识别)业务应用在双 11 期间可以做到 90% 的 Pod 在业务到来之前 Ready,CPU 使用率提升 10%, 资源成本节省 20%。此外能够根据业务量变化趋势,自动进行弹性规划,无需人工干预,大大节省了运维成本。

1316e69f358e78560def271236c6464a.png

AHPA 提升菜鸟 CPaaS 弹性能力

菜鸟 CPaaS 业务涉及菜鸟乡村、申通物流链路,特别是仓库作业的,潮汐很明显。但直接使用 HPA 需要面对弹性滞后的问题,而使用定时弹性需要随业务变化随时人工调整,运维成本高。

菜鸟 CPaaS 通过将 AHPA 弹性预测与自身弹性平台相结合,真正实现了按需使用的弹性能力。双 11 期间,为菜鸟业务环境提供智能客服服务以及菜鸟经营服务工单平台提供弹性预测能力,实现了低峰时将容器数降下去省钱,高峰时扩出来保障日常业务,非常规流量时可以资源应急,满足了用户极致弹性能力的诉求。

02

智能运维

对于绝大多数用户来说,使用 Kubernetes 的还是非常复杂的,很少有用户具备解决 Kubernetes 使用中遇到的问题的能力,遇到问题只能提工单。对于一线技术支持的同学来说,排查 Kubernetes 问题同样不容易,一方面是由于 Kubernetes 非常复杂,需要付出巨大的学习成本,另一方面排查问题不是会用就够了,还需要专门的经验积累,而且排查流程也费时费力,定位无法快速定位,用户业务持续受影响,这些都是我们不希望看到的。

如何才能帮助用户更好的使用 Kubernetes?如何降低 Kubernetes 运维门槛?如何在客户遇到问题的时候能够快速帮助定位?针对这些问题,ACK 将自身多年的 Kubernetes 管理经验结合 AI 技术打造了智能运维 AIOps 套件,目前套件中包含了自动化诊断、智能巡检和 OS 透视三大块功能。

智能运维中的诊断功能覆盖了绝大多数用户经常遇到的 Kubernetes 问题,可以直接给出故障的根因,并给出修复建议,告诉用户诊断修复。在支持客户的过程中我们就遇到了一个典型的诊断案例,客户反馈有些节点突然 NotReady 了,影响了线上业务,我们建议用户先通过智能运维自助诊断一次,用户发起诊断操作后,很快看到了结果,在异常原因中报告因为安全组规则拦截了 Kubelet 到 APIServer 心跳的上报,导致节点 NotReady。基于这个结果,用户很快的修复了安全组规则,放开了 Kubelet 到 APIServer 的访问,业务恢复,整个过程从上报到修复只用了几分钟。

03ac0eb2f46d638bca6d405e87709993.png

除了出现问题时可以帮助用户快速定位,AIOps 套件的另一个重要能力是防患于未然,在用户的 Kubernetes 集群出问题之前提前预测可能出现的问题,提前解决,提供这个能力的就是 AIOps 套件的智能巡检功能。智能巡检功能在用户集群业务低峰期运行,基于内置的数据分析引擎,推测集群中的潜在风险,联动 SLS 告警,主动通知到用户。智能巡检现在已经成为客户应对诸如双 11 重保需求的必备手段,在活动开始前客户都会确认智能巡检中的风险都已经处理完毕。在这个双 11 当中,智能巡检功能帮助中间件团队的发现了 CoreDNS 部署风险、SLB 配额风险等多个问题,及时优化了 CoreDNS 部署模式,提升 SLB 配额,提前规避了潜在的故障。

8392453935e091aff5216aee6f434b03.png

03

DevSecOps

ACR EE 围绕传统软件交付环节在云原生场景下的新特性,提供了符合业务实践的软件供应链安全产品能力。2022 年信通院组织的相关评审中,Salesforce 基于 ACR EE 的 DevSecOps 实践案例获评“安全守卫者计划优秀案例”,通过 ACR EE 提供的云原生 DevSecOps 能力,半年内实现万次镜像扫描,千次风险镜像拦截阻断,千次加签/验签安全交付。基于全自动化软件安全交付链流程,实现快速一键自动修复漏洞风险,云原生应用安全交付效率提升 3 倍。

在双 11 大促业务备战期间,除应用制品交付效率外,应用制品安全交付也是需要重要关注的一环。如何在云原生场景下为容器化应用交付的 DevOps 流程融入高效且自动化的安全环节,降低安全措施实施成本是 ACR EE 提供的一系列 DevSecOps 产品能力目标所在:

  • 在开发阶段,提供不可变 Tag 能力预防生产环境容器镜像被非预期覆盖,保障应用版本在生产环境部署过程中的一致性。特别是在大促扩容场景中,避免出现新扩容的应用版本和通过生产验收的版本不一致导致扩容失败等问题。

  • 在交付阶段,提供云原生应用交付链能力,支持镜像风险漏洞扫描检测、部署阻断、事件通知、漏洞修复治理,相关人员在接到漏洞通知后可在第一时间主动修复漏洞,实现安全左移;同时,借助 ACR EE 支持的云安全扫描引擎,支持从系统漏洞、应用漏洞、基线检查、恶意样本多个维度进行安全风险检测及策略阻断。

  • 在部署和运行阶段,提供容器镜像加签、验签等能力,防止镜像被攻击者恶意篡改,可在 ACK 集群中启用验签组件,禁止在集群中部署未受信任验签不通过的应用制品或版本。客户可以通过使用上述产品能力,为容器应用交付场景实施 DevSecOps ,提升软件迭代生命周期安全性。

b59b2c6ff48ceacfd82b056628889bbe.png

2187622bbdb698d56c8d4197cd8ac115.png

04

全链路加速

此外在大促期间,如何保障应用制品交付效率也是非常重要的一环。容器化应用的部署、扩容、重启等动作都存在容器镜像访问过程,该过程的快慢会直接影响到应用的部署体验,因此应用制品交付效率决定了大促业务发版、扩容、快恢效率。ACR EE 提供了构建加速、全球化同步加速、分发加速等全链路端到端加速方案,带来日常和大促期间云原生应用更新迭代、扩容、快恢的顺滑体验。

4619e05016f984087a0f9b7f86e565a5.png

  • 在构建加速方面,ACR EE 通过独享构建资源、远程缓存、海外源智能加速缩短构建任务构建过程耗时,同时结合实例内置的上传优化能力,缩短构建任务上传耗时。整体构建任务耗时相较于普通构建方案可缩短 30%,在支持公有云客户提速构建任务的同时,ACR EE 构建能力也作为阿里云 Serverless 产品标配构建能力,支持大促期间 Serverless 应用构建及发布提速。

  • 在全球同步加速方面,随着越来越多的国际化业务加入到双 11 中,ACR EE 提供了全球化同步加速能力支持实现应用全球化不同地区版本同发,提升了客户应用发版效率。在双 11 大促期间,ACR EE 同步加速能力为内外部客户带来了全球化视角下的应用发布提速体验,支持大促业务服务于全球客户。

  • 在分发加速方面,随大促业务的峰谷波动,在业务高峰期来临快速完成应用扩容是客户的核心诉求,同时随着更多客户使用 Serverless 产品构建业务应用,频繁地冷启动对容器镜像拉取效率也提出了更高的要求。在容器应用大规模分发场景,ACR EE 提供了 P2P 分发加速能力,利用集群节点间的带宽资源,大幅提升容器镜像拉取整体带宽。在大体积容器镜像或者冷启动场景,为降低应用启动延时,ACR EE 提供了按需加载加速能力,支持自动化生成按需加速镜像,基于按需能力启动容器应用时,可实现秒级启动 GB 级应用镜像容器。此外 ACR EE 提供了加速套件,支持在在线、Serverless、边缘等差异化场景下应用负载透明启用加速能力,在双 11 期间为内外部客户带来了容器化应用制品分发加速支持。

03

总结

Aliware

随着云原生技术的快速发展,ACK 和 ACR 提供了安全稳定、高性能的容器服务产品已经成为云上实施容器化业务的最佳载体。在本次双 11,容器服务 ACK 在各个场景为双 11 作出贡献,支撑了阿里巴巴内部核心系统容器化上云,支撑了阿里云微服务引擎 MSE、视频云、CDN 等云产品,也支撑了双 11 的生态公司和 ISV 公司,包括聚石塔电商云、菜鸟物流云等等。ACK 和 ACR 会持续前行,持续提供更高更好的云原生容器网络、存储、调度和弹性能力,端到端的全链路加速和安全能力。

点击阅读原文,前往容器服务 ACK 官网查看更多相关资讯!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/71239.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

教你如何基于Redis来实现高性能延时消息队列!

最近在倒腾自建博客后端系统,需要用到延时任务的功能,但手头只有一套MySQL和Redis,如果搞一套MQ成本有点大,于是想着用redis实现延时消息队列。有些场景用数据库的定时扫表也能简单实现延时消息的功能,不过对于我这边的…

Frida-Dexdump 脱壳工具下载使用以及相关技术介绍

Frida-Dexdump 脱壳工具下载使用以及相关技术介绍 文章目录Frida-Dexdump 脱壳工具下载使用以及相关技术介绍前言一、查壳、反编译、APK工具推荐二、查壳1.方式12.方式二三、脱壳1.启动frida服务2.方式一3.方式二四、反编译总结前言 本案例使用的App是:引力播.apk&…

多无人机空中机器人施工任务分配(Matlab代码实现)

目录 💥1 概述 📚2 运行结果 🎉3 参考文献 👨‍💻4 Matlab代码 💥1 概述 空中机器人作为近年来新兴的热点得到了广泛的关注。小型空中机器人在没有外界卫星定位信号的前提下的导航是空中机器人的研究内…

cmip6数据处理、动力降尺度、统计降尺度、制备CMIP6的WRF驱动数据

收录了CMIP6数据处理方法,典型案例分析实践过程中出现的一些问题,及技术(下拉查看) 国际耦合模式比较计划进入新的阶段——第六阶段(CMIP6),这将为气候变化研究领域提供更丰富的全球气候模式数…

Python字符串格式化的三种方式

Python格式化的三种方式 根据类型定义的格式化 - %s 字符串格式化使用操作符 % 来实现, 示例 my name is %s,my age is %s % (neo, 18) 格式符: %s 连接符:格式化字符串与格式符变量之间用一个 % 连接, % 两边各有一个空格 附:…

08、SpringBoot入门简介

1、简介 Spring Boot 是由 Pivotal 团队提供的全新框架,其设计目的是用来简化新 Spring 应用的初始搭建以及开发过程。 人们把 Spring Boot 称为搭建程序的脚手架。其最主要作用就是帮我们快速的构建庞大的 Spring 项目,并且尽可能的减少一切 XML 配置…

我用Echarts图表分析巴西队历年战绩,预测卡塔尔世界杯能否夺冠

🐱个人主页:不叫猫先生 🙋‍♂️作者简介:前端领域新星创作者、华为云享专家、阿里云专家博主,专注于前端各领域技术,共同学习共同进步,一起加油呀! 💫系列专栏&#xff…

baostock量化怎样下载十档行情数据?

baostock量化对数据的下载其实就是通过计算的方式去决策股票的买卖。目前根据量化计算方式其实跟量子计算一点关系都没有。那么,都说在股票量化交易过程中,可以利用l2股票接口来获取策略选股的方案是很普遍的,利用数据接口下载十档行情&#…

[附源码]Python计算机毕业设计SSM基于协同过滤算法的甜品推荐系统(程序+LW)

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

Echart柱状图表排名

var charts { // 按顺序排列从大到小 cityList: [38号点, 8号点, 15号点, 16号点, 24号点], cityData: [7500, 6200, 5700, 4200, 3500] } var top10CityList charts.cityList var top10CityData charts.cityData var color [#ff9500, #02d8f9, #027fff] var color…

CAS:1351272-41-7;[1-(4-乙烯基苯基)-1,2,2-三苯基]乙烯;AIE材料

中文名称:[1-(4-乙烯基苯基)-1,2,2-三苯基]乙烯 英文名称:(2-(4-vinylphenyl)ethene-1,1,2-triyl)tribenzene CAS:1351272-41-7 分子式:C28H22 分子量:358.47 沸点:460.445.0 C(Predicted) 密度:1.0810.06 g/cm3(Predicted) 用途:仅用于科研,不用于人体 提供提下定制合成…

算法 KECP 被顶会 EMNLP 收录,极少训练数据就能实现机器阅读理解

作者:王嘉宁、汪诚愚、邱明辉、石秋慧、王洪彬、黄俊、高明 近日,阿里云机器学习平台 PAI 与华东师范大学高明教授团队合作在自然语言处理顶级会议 EMNLP2022 上发表基于 Prompt-Tuning 的小样本机器阅读理解算法 KECP(Knowledge Enhanced C…

【人工智能】体验一下ChatGPT

体验一下ChatGPT 1.体验地址 chatGPT 注册openai的账号 注意:如果注册过程中一直不成功,可以清清缓存 2.接受短信的手机号 得有个国外手机号,或者1块钱去sms-activate.org注册一个虚拟的手机号 3.功能 最近OpenAI 发布了备受期待的原型通用 ChatGPT&#xf…

一段eslint jsx-a11y/anchor-is-valid警告背后的原因

我们在做React项目时,经常用到a标签做一些跳转动作,但是每次eslint都要提示 jsx-a11y/anchor-is-valid这段代码,我们可以通过/* eslint-disable jsx-a11y/anchor-is-valid */把这个规则屏蔽掉,但是显然不够优化,那到底…

8_2、Java基本语法之多线程的两种创建方式(jdk5之前)

一、前言 Java语言的JVM允许程序运行多个线程,它通过java.lang.Thread 类来体现。 二、JDK1.5之前创建新执行线程有两种方法 继承Thread类的方式 实现Runnable接口的方式 三、继承Thread类的方式 1、使用继承Thread类的方式创建一个线程: ①.创建一个…

c++17可变参函数模板详解

c语言中对于 可变参数的处理是用va_list等一系列宏去做的 他只会生成一个函数 但是理解起来非常麻烦 因为你不得不去了解很多关于汇编层面栈帧的知识 c对于可变参数函数模板进行了改进 他会生成多个函数 而不是在一个函数里玩 个人觉得c这种方式更加先进而且更好理解 接下来让…

线性代数的本质

注:目前没有精力去美化排版,所有博客仅作为自己学习记录所用 《线性代数的本质》课程链接(bilibili) 目录: P1-P4的内容: 1.线性代数的加法:为什么这样子来定义呢(如图&#xff…

(附源码)SSM人力资源管理系统 毕业设计 271621

SSM人力资源管理系统 摘 要 科技进步的飞速发展引起人们日常生活的巨大变化,电子信息技术的飞速发展使得电子信息技术的各个领域的应用水平得到普及和应用。信息时代的到来已成为不可阻挡的时尚潮流,人类发展的历史正进入一个新时代。在现实运用中&#…

Servlet(二):Servlet的运行原理HttpServlet、HttpServletRequest、HttpServletResponse类详解

Servlet运行原理Servlet API详解HttpServlet类HttpServletRequest类HttpServletResponse类Servlet API详解 Servlet API中包含了很多的内容,但我们主要用到的是以下三个类,HttpServlet,HttpServletRequest,HttpServletResponse …

2022-04-10-Docker

layout: post #标题配置 title: Docker #时间配置 date: 2022-04-10 22:50:00 0800 #目录配置 categories: Docker #标签配置 tag: 学习笔记 content {:toc} Docker 1.初识 Docker 1.1 docker概念 我们写的代码会接触到好几个环境:开发环境、测试环境以及生产环…