本文首发于知乎,由嘉为蓝鲸原创。
商业转载请联系作者获得授权,非商业转载请注明出处。
当企业遇到运维管理对象的急速增长,业务需求频繁变更等传统运维场景问题时,依靠手工运维已经远远满足不了需求,因此我们需要搭建一套自动化运维平台,来实现运维质量和效率的提升。
一个成熟的自动化运维平台台如何搭建,可以参考OASR模型,结合运维流程,将IT运维对象 (Object)、运维活动(Activity)、运维场景(Scene)、运维角色(Role)进行分层剖析。先梳理清楚我们拥有的运维对象、每天所需进行的运维活动、由这些活动衍生出来哪些典型的运维场景、以及完成这些场景所需的运维角色应具备什么样的能力。
然后依据不同的运维角色在运维场景中的需求,拆解每个运维场景涉及的运维活动和对应的执行对象是什么?底层的不同技术栈对象如何纳管?运维活动如何在一个平台上实现?以及平台未来如何扩展等,这些都需要考虑。
成熟的自动化运维平台不仅要满足大量自动化运维场景的支撑,更需要具备一体化能力,基于一套平台孵化和建设包括自动化、标准化、数据化在内的统一运维平台,其中的一体化主要体现在管控一体、平台一体、联动一体等几方面。
01. 管控一体
自动化运维平台为了能够覆盖多种技术栈,所有上层场景都可以可以统一Super Agent管控。其Agent还需要支持海量并发、兼容异构、跨云扩展、采集框架扩展等能力,这样才算做到了平台对底层资源的管控一体。
如果没有管控一体,意味着需要很多个Agent挂在服务器端,文件分发一个、数据采集一个、脚本执行一个等,除了带来服务器资源过多的消耗外,还无法实现运维对像的轻松扩容,以及大规模跨网络区域管理,维护成本非常高。显然,这不是一个成熟的自动化运维平台。
02. 平台一体
面对各种运维活动和运维场景,通过统一的自动化运维平台PaaS架构来实现能力的治理和沉淀,使得企业构建运维系统能避免烟囱模式和重复投资建设,实现可持续建设。并基于运维开发能力还可以助力企业实现运维自主可控和能力升级,完全满足不同运维角色的运维场景需求。
如果没有平台一体,就意味着需要不断的建设工具,每新建一个系统,就需要不断打通原来的系统,难度和成本很高,此外,想实现自主可控和运维开发几乎不可行。这也是成熟的自动化运维平台需要满足的特点。
03. 联动一体
大家自建的自动化运维平台,通常采用开源工具和商用工具组合而成,各模块之间无法天然联动,容易形成烟囱化建设。
而需要基于蓝鲸平台之上建立的配置管理、监控告警、IT运维服务管理、应用发布自动化、自动化等工具可以实现天然的联动交互,并且外围工具也可以基于蓝鲸平台提供的标准接口做集成对接,快速实现外围工具与运维平台的联动一体。
如果没有联动一体,意味着工具是割裂的,想做告警和事件的联动是不可行的,变更发布和CMDB、流程之间的打通也实现不了,最终就会导致运维管理工作割裂,无法成功落地,自动化运维也就浅尝辄止了。
最后,如果要建设一套成熟的运维平台,可以考虑借鉴行业实践,缩短建设周期和试错成本。可以选择基于一套具备海量的落地实践的运维平台进行建设。
一个成熟的自动化运维平台很重要的判断标准,是经过大规模客户的考验,从而沉淀出最佳实践。
蓝鲸平台已经实现纳管了30W+全球海量架构、企业级10W+统一管理和千万级每日接口调用,正式一个成熟的自动化运维平台需要达到的标准。同时嘉为蓝鲸具备600余家企业客户落地实践经验,行业覆盖金融、政务、运营商、能源、交通、汽车、智能制造等多个行业,能够很好的助力客户实现运维升级,构建自动化运维平台。