当⻉借⼒阿⾥云落地云原⽣架构转型，运维降本、效率稳定性双升

作者：当贝技术团队

随着业务飞速发展，当贝的传统 IT 资产也渐显臃肿，为了避免制约发展的瓶颈，痛定思痛，技术团队果断变革：核心业务云原生化之后，运维效率、整体稳定性和研发效率均得到了全面提升。 本文主要简述当贝技术团队云原生之路的背景诉求、落地方法和收获成果。

前言

当贝成立于 2013 年 8 月，中国知名的智能大屏增值服务提供商之一，中国大屏应用软件分会会长单位，是一家横跨软件、硬件和操作系统全生态的大屏端互联网平台型公司，致力于成为亿万家庭 AIoT 的核心入口和生活娱乐中心，连续多年入选未来独角兽榜单，国家级专精特新“小巨人”企业。

在这里插入图片描述

当贝云原生架构实践历程

传统运维体系的三大痛点

随着当贝的业务规模飞速发展，背后的 IT 技术也在不断更新迭代，IT 资产规模也在高速上升，不可避免地迎来一些挑战。其中，以运维体系的挑战最为鲜明，经团队总结，有以下三个较为突出的痛点。

人工运维效率低，风险大，成本高，资产管理困难

传统运维体系下，有大量人工参与。从各环境代码发布，到高峰低谷的扩容缩容，再到各类证书、云服务器等云资产管理，这些环节，人工参与度越高，风险越大，即便运维人员有着超高水平，也很难保证长久情况下不出现任何失误或疏忽。

同时，人工参与度越高，效率也就越低，协作成本越高。为保证稳定性，每一次线上系统变更，都需要协调大量跨部门配合，经常需要研发、运维、测试等多个岗位的同学深夜参与。

随着当贝 OS、当贝音乐、当贝市场等业务发展多点开花，IT 规模也急剧扩张，云资产管理也成为了较为突出的痛点。

稳定性挑战大，异常排查及恢复成本过高

当贝对系统稳定性、业务连续性有着极高要求。随着流量快速增加，特别是在一些如春节联欢晚会这种情况下，流量往往以十倍乃至数十倍激增，对稳定性和容量规划形成极大压力。

同时，当生产环境发生异常，在传统的运维体系下，有着依赖链路复杂、排查难度大、定位时间久、牵扯人员广等核心痛点。

对此，整个服务端部门定下了 1-5-10 快恢及 99.95%可用性两大要求，精准洞察问题核心，同时指导了解决思路。

在当贝各项业务高速发展的情况下，落实这两大要求，是整个服务端团队迫在眉睫且必须打赢的攻坚战。

自建可观测体系落地复杂，易用性和稳定性差，运维成本高

任何成规模的 IT 系统，可观测体系都是极其重要的底层基石，它使 IT 架构的整体设计如依赖拓扑、调用链路追踪、技术标准、运行状况、稳定性等诸多信息清晰呈现，除了定位排查以外，更有助于提前发现历史的架构设计缺陷、系统瓶颈并及时解决，在保证业务连续的同时，高效支撑业务发展与迭代。

在早期阶段，为保证各项系统快速上线、业务高速迭代，存在一些技术架构考虑不周、设计不足的情况，具体表现为选型不一、业务高度耦合、调用链路过长、云资源选择不合理、管理不清晰等。这些因素组合在一起，形成庞大的历史包袱，在过去传统的运维体系下，曾自建一些可观测组件或框架，但却面临着稳定性差、运维成本高难度大、易用性差、体系不统一等各方面问题，以至于未能完全发挥其应有的价值。

如今，在当贝业务规模持续加速成长的背景下，亟需落地一套全面易用、安全稳定、性价比高的可观测体系，以支持公司行稳致远。

云原生架构的建设

面对传统运维体系十分突出的三大核心痛点，为避免其在未来对当贝可持续发展的战略形成制约，当贝技术团队进行了广泛研究、深入分析、积极调研，最终将目光瞄准在了云原生架构上。

正如阿里云在《云原生架构白皮书》中所言：云计算的下一站，是云原生；IT 架构的下一站，是云原生架构。

当贝技术团队极为认同这个观点，云原生是一个确定的技术发展趋势，越来越多的公司拥抱云原生，利用云原生实现更高效率的发展及创新。

经全局视角下的充分评估，当贝技术团队在研发总监张子枭的领导下，提出云原生化、中台化、微服务化、数字化四大技术战略目标，决定全面转型云原生架构。

只有利用云原生架构，完全解决传统运维体系风险高、效率低下的痛点，才能具备对部分积弊已久、陈疾顽疴的老系统进行中台化和微服务化改造。

而在云厂商的选择上，考虑到阿里云是国内云计算的布道师与发扬者，实力全球领先，对云原生技术发展的贡献有目共睹，同时其汇聚了业内最顶尖的人才、最丰富的经验案例、最可靠的成熟度，以及其“客户第一”的价值观，当贝技术团队最终选择借力阿里云落地云原生架构转型。

在这里插入图片描述

容器化上云

在云原生架构基础设施领域，Kubernetes 是当之无愧的领头羊。

相比于依赖虚机自建集群而言，由阿里云提供的 ACK 服务，有着更优弹性、更优韧性、免运维、更高效的资源管理等优点，同时无缝集成了大量阿里云产品。

在这里插入图片描述

依赖 ACK 及其集成的大量产品，当贝技术团队极快地完成了核心服务的容器化改造，并顺利完成灰度发布、全面切流等工作。值得一提的是，在新架构落地过程中，当贝技术团队不可避免地会遇到疑难杂症困扰，但正因为有阿里云大量的经验案例支撑、最佳实践指导，包括容量规划、可观测、安全防护、稳定性等诸多方面，使整个上云进程始终处于可靠状态。

完成上云后，这些核心服务从开发态测试态，变更与运行态，贯穿服务整个生命周期，效率都得到了极大提升。

利用云原生 Devops，项目发布与协同效率提升 300%，完全避免人工运维干预的高风险性；利用 ACK 服务与服务器资源天然解耦的特性，完全摆脱了基础设施运维的低效困扰；利用 HPA+CronHPA，从容应对流量高峰低谷……

不仅如此，这些核心服务整体资源利用率提升了 20%，运维效率更是提升了 500% 以上，使更大规模的 IT 资源管理成为可能。

在深度参与上云改造的过程中，当贝技术团队沉淀了大量的知识与经验，为公司技术储备添砖加瓦，同时仍在积极探索云原生技术。