企业运维系统建设经过多年演变,从以商业软件为主,到开源软件的百花齐放,极大的降低了成本,但是在建设过程中,却非常容易落入到烟囱式建设的陷阱,因此如何跨越它,成为了众多企业面临的难题。
今天,我将从嘉为科技WeOps产品研发部负责人的角度,和大家共同探讨如何重塑运维系统,跨越烟囱式建设的陷阱。接下来我将分为“开源的崛起”、“没有银弹”、“百花齐放”以及“融合联动,重塑运维工具”四部分来逐一详细介绍,希望能给大家带来一些思路与启发。
*注:以下内容整理自:嘉为科技WeOps产品研发部负责人 吴文豪 于嘉为蓝鲸2022研运一体创新峰会的精彩分享——《重塑运维系统:跨越烟囱式建设的陷阱》。
01. 开源的崛起
在我刚进入运维软件开发领域的时候,开源软件并不像现在这么火热,绝大多数的企业使用的都是像Tivoli、微软的System Center这类商业级闭源产品,在当时,我们没法想象,一个非商业级的,没有经过大教堂式洗礼的软件能够像今天一样,给我们的整个行业带来如此大的冲击。
之后在开源运动崛起的大背景下,各领域的运维工具,都出现了优秀的挑战者,他们凭借着社区的力量大量吸收用户,飞速的迭代,对老牌的闭源商业软件发起了挑战。例如基础监控领域的Zabbix、自动化运维领域的Ansible、APM领域的SkyWalking。
开源运维软件的兴起为企业带来了诸多红利,使得建设成本高、技术黑盒、厂商捆绑等长期困扰我们的问题得到了很好的解决:
1)建设成本变低
曾经的闭源商业级产品大多都价格不菲,而开源软件免费使用的模式,使得运维系统首次建设成本得到了数十倍的下降。
2)技术变得透明
开源软件不仅免费,同时还开放源码,将技术完全透明化,我们可以看到开源软件的实现原理,并自行修改源码的逻辑,满足个性化业务需求。
3)避免厂商绑定
在源码完全开放的背景下,我们不再被厂商捆绑,并拥有了工具软件完全的掌控权。
02. 没有银弹
神话中,银弹就是可以让强大的狼人被一击毙命的武器。而这里的银弹,指的是一招制敌,提高数量级的效能水平,而不只是效能有明显改观。
我们期望的运维系统,是能够通过开源运维软件的诸多优势,快速,低成本的建设一个个帮助我们更好保障业务连续性的工厂,工厂之间通过数据网关、业务总线、数据湖等方式进行联动,帮助我们更好的为业务提供服务。
例如:
- 我们可以在收到告警之后,看到产生这个告警背后的指标和现场日志,告诉我们会影响到哪些业务,他们重不重要,我们应该通知谁。
- 我们接收到工单后,能够快速的将工单对应的知识,可能使用到的运维脚本快速的找到,在我们尝试执行恢复动作之后,能够看到关联的指标、日志是否已经恢复正常。
可惜的是,没有银弹。而在实际实践过程中,我们也很容易就建设起一套一套的烟囱,这些运维系统之间并没有什么联系。例如:我们想让Zabbix的监控数据、ELK的日志数据、Data Gerry的CMDB数据组合在一起使用,我们将不得不在他们之上,重新搭建一套新的系统。
除了上述问题外,开源技术还给我们带来了许多新的考验:
1)逐渐黑盒化
由于大量开源项目缺少体系化的培训与规范的约束,随着一些关键人员的变动,整个运维体系的某些元素会出现黑盒化。
2)维护成本提升
由于开发框架多种多样,以及Golang、Ruby、PHP、Java等各种技术栈,开源漏洞,系统Bug等问题,虽然开源软件让企业的建设成本降低,但维护成本却急速提升。
3)数据联动困难
开源软件解决了单一领域的问题,但是没法很好的让数据进行联动,面向业务解决问题,需要独立开发一套软件来进行对接,过程中会出现非常多的API、表结构兼容性问题。
除此之外,随着新技术栈的出现,企业运维变得更加困难。我们不仅需要面对混合云、Serveless、AI、边缘计算等等新的技术,还要面对DevOps文化带来的研发运维体系变革。
企业的运维团队不仅需要思考对内保障稳定运行,为业务提供快速问题定位的能力、资产梳理的能力、标准化运维的能力等。对外要为组织提供IT价值帮助组织业务的发展,将IT能力自助化,提升组织的运转效率,将运维数据转变成能够帮助组织业务发展的运营数据等。
03. 百花齐放
随着算力的突破,Deep Learning迎来了新的春天,大家的想法逐渐变得一致,我们都在思考,能不能在几乎不做改动的情况下,使用AIOps的方法,尽可能多的解决问题,例如把告警根因分析解决掉。
但是真正落地过AIOPS的企业,都会在开始的时候就碰到了困难,算法工程师会告诉我们,他们需要完整的数据(Log、Metric、Event、资产关联信息......)、规整的数据(清洗好的运维数据)以及先验知识(具体业务领域的知识),我们甚至没法用合适的成本解决告警根因分析这个场景。
于是我们开始思考,这可能并不是AIOPS这项技术的问题,而是烟囱式运维系统的设计与不断涌现的业务诉求之间的矛盾。
与此同时,在大洋的彼岸,有一批新兴的闭源软件企业开始用全新的架构,来重新塑造运维系统,例如我们耳熟能详的Splunk、Datadog、MoogSoft。
以Splunk为例,Splunk设计了一个强大的非结构化数据分析引擎,将所有的运维数据都存放在了一起,让上层的各个SaaS在一个统一的数据源上进行演进,出现了如UEBA、ITSI、SOAR、MLToolkit等等的SaaS,运维系统的建设逐渐迎来了百花齐放的时代。
04. 融合联动,重塑运维工具
在商业级闭源软件再次崛起的过程中,开源社区也没有停下自己的脚步,蓝鲸平台通过构建PaaS底座,在设计之初就拒绝烟囱建设的思路,为我们提供了重塑运维系统的一种选择。
同时蓝鲸配套的社区、认证体系,让大家在同一套规则下进行SaaS的演进,使得我们可以避免运维系统的逐渐黑箱化。
而嘉为科技WeOps团队在社区版蓝鲸平台的基础上,进行了整合封装、提供了企业级的必备功能,并且提供了培训赋能、系统维保等服务。目标是帮助中型企业用最合适的成本,获得企业级的能力以及支撑,更好的应对新的IT环境与文化。
05. 应对变化,伴随成长
WeOps规划了三个大的版本:
1)3.0(融合联动)
3.0 系列我们以融合联动为主题,主要提供:基础监控、资产管理、自动化运维以及运营服务等能力。
2)4.0(可观测)
4.0 系列将提供日志分析、APM、Log、RUM等板块。
3)5.0(智能化)
5.0 系列将通过Al技术,使整个运维效能得到更大幅度地提升。
WeOps采用订阅模式,帮助企业渐进使用,用更低的成本去获得一套一体化运维平台,渐进式模式可以使得企业根据自身需求,使用部分模块,提供更好的现金流保障。企业不再需要一次性投入大量成本进行运维系统的建设,使用较低成本与产品共同成长。而企业也可快速通过低成本去检验产品与自身的适配性,避免试错高风险。
WeOps产品始终坚持开源共建的思路,我们会不断对WeOps板块进行持续性开源,与蓝鲸社区进行生态共建,更好地回馈社区。