日前,中国通信标准化协会(CCSA)成功召开互联网与应用技术工作委员会(TC1)第四十次全会,全会期间,TC1 WG7 IT内控与审计技术标准工作组举办了第3次工作组会议。此次会议重点讨论了各项标准文稿及立项建议,为推进IT内控与审计标准化工作的体系化、科学化、多元化建设打下了坚实基础。
会议期间,广通优云交付总监谢亚涛以AIOps为主题,作《全域智能,构建平台化生态》专项演讲。
以下内容摘录自《全域智能,构建平台化生态》演讲。
#01
从1.0到3.0,中国运维产业崛起
广通优云作为一家成立了20年的公司,见证了中国IT产业“狂飙”式发展与变革,回望过去,我们总结中国IT运维发展大致可以分为三个时期。
中国IT运维发展趋势 / 图
1.0时期,以最具代表性的银行IT运维体系为例,2003年至2008年期间,六大国有银行以及大型股份制银行主要引入国际四大厂商(IBM、HP、CA、BMC)的成熟工具,辅助系统运维。
这一时期后期,由于信息安全、国产软件自主可控等制约因素,部分银行开始逐步探索自研工具,内部成立了独立的运维产研团队,在设备层、网络层、系统层、应用层进行运维管理流程梳理以及操作工具平台研发。由此,中国IT运维步入2.0时期。
2.0时期(2009年至2016年)的典型特征是:许多银行、金融机构参考国际四大厂商的技术架构,逐步做自研与替代工作。然而随着自研工作的推进,一个显而易见的问题逐渐凸显,企业数字化陡然加速,ABCD(AI、区块链、云计算、大数据)等各类新技术被纳入数字化转型框架中,IT架构呈现混合化、复杂化趋势。
在运维方面,IT基础设施的数量与类型都在不断增多,管理愈发复杂,数据口径不一、工具体系杂乱、重复建设多等矛盾突出。打破竖井,加速迭代,实现自动化运维、智能运维成为行业核心探索方向。
在种种现实因素驱动下,IT运维迈进3.0时期,在这一时期(2017年至今),平台运维(Platform Ops)的概念脱颖而出,成为用户的首选方案。
平台运维(Platform Ops) / 图
全球权威ICT研究与咨询公司Gartner建议:以平台运维(Platform Ops)理念,为核心促进运维创新,将基础设施、运维、云管理纳入一个发展方向规划。
在这样的契机之下,广通优云基于平台运维理念,在2016年推出「UYUN优云数字化运维平台」,并逐步获得市场认可。从19年至今,被建设银行、农业银行、邮储银行、交通银行四大国有银行先后引入,支撑其庞大的运维业务。
#02
平台赋能,让AIOps更智能
回顾望去,从1.0到3.0,从传统工具的集成开发,到平台运维的演进,与其说是一次技术升级,不如说是IT战略转型。而基于平台运维的架构,我们发现许多运维工作的质效都带来了提升。例如最近几年行业的热门方向——AIOps(智能运维)。
AIOps将人工智能、机器学习、大数据应用于传统IT运维业务,将分散的 IT可观测性数据和人机交互数据进行融合,通过使用算法分析、机器学习对大数据进行深层次、全面性的挖掘与计算,辅助运维决策,提升IT运维能力,保障业务高速持续运转。
梳理AIOps流程,其核心要点在于数据采集、数据治理、智能算法3个方面。
以「UYUN优云数字化运维平台」架构为例,优云AIOps通过统一采控的形式,将大数据运维、算法以及自动化引擎流程等基础能力作为底座,支撑上层自动化、监控观测、服务管理等智能化运维场景。
优云AIOps框架 / 图
1、数据采集
优云通过One Agent形式,采用“统一框架+热插拔业务插件”的方式,实现不同运维业务场景,被管主机上只需部署一个代理,即可完成所有采集和控制的操作,降低对被管主机资源占用,同时降低代理的管理复杂度。在大规模、高并发的情况下,实现稳定运行。
截至目前,优云与头部用户累计纳管100万+节点,连续三年无故障运行,保障了在AIOps中,最基本的数据采集。
2、数据治理
采集数据之后,下一步就是进行数据治理。数据治理是包括AIOps在内所有运维数据应用的根基,数据治理的好坏直接影响所有数据应用的价值,也决定了组织的数据资产能否得到沉淀,能否充分地发挥价值。
「UYUN优云数字化运维平台」支持以CMDB为主数据进行运维数据治理,以及对外提供相应的服务能力。
基于我们服务国内100+头部核心客户经验,我们从资源、性能、告警、日志、作业、流程、知识、交易八个领域开展,制订运维数据标准模型,构建数据资产地图、建立运维数据标准化治理体系,实现数据运营的能力,并持续提升数据服务质量,为后续AIOps等消费场景提供相应的支撑。
3、智能算法
AIOps的另一大核心——机器学习,将智能算法应用于传统 IT 运维任务,针对运维数据进行挖掘计算,从而辅助决策。
AIOps中最为典型的场景是通过算法构建可观测体系,目前优云在这一方面,已经实现了对物理基础设施、平台资源、应用、业务的全栈分层洞察,实现“问题1分钟发现,3分钟定位,5分钟解决”,保障业务安全稳定运行。
除了在可观测体系的应用之外,优云AIOps也能对运维领域常见的一些场景进行赋能,比如AI+指标,就能做到动态阈值及容量预测;AI+报警,可以做到告警压缩、根因分析、告警相似度分析;AI+日志,可以进行异常日志监测;AI+ITSM,可以做到服务台的智能化以及自动化流程。
#03
运维下一站,加速走向生态共创
从目前市场反馈来看,AIOps作为运维发展的趋势已成行业共识。据Gartner发布的《2021年中国ICT技术成熟度曲线报告》显示,2020年全球AIOps市场规模在9亿美元至15亿美元之间,2020年至2025年的年复合增长率约为15%。
AIOps的快速普及应用,也带来了新的问题。对于部分企业而言,在过往的历史建设中,已经积累了许多存量工具以及第三方系统,如何有效地管理这些服务工具,并对功能进行有效整合,成为摆在企业面前亟待解决的一道难题。
针对这一问题,「UYUN优云数字化运维平台」提供服务封装能力,将运维工具、第三方系统以及一些数据服务进行标准化封装,实现运维能力的输出与赋能。
一方面,通过服务共享中心将原有的运维工具接入进来,将其能力作为一个服务进行封装,直接输出给上层场景使用;另一方面,通过生态开发中心,以提供低代码、脚手架的方式,将底层的能力作为标准组件,快速孵化上层应用场景。基于这类形式,能够以敏捷、轻量的形式,实现快速开发。
目前,某国有大行运维部门专门成立了SRE团队,和优云团队及各合作伙伴一起基于优云平台进行典型运维场景应用共创。
未来,我们期待通过「UYUN优云数字化运维平台」,接入更多外部客户及第三方合作伙伴,以生态共创的形式,在用户精力不够、技术储备不足的前提下,以低成本、快速迭代的形式来构建自己的运维体系。
作为国内IT运维领域的领先企业,优云也将与CCSA TC1同行,持续参与国标及行业标准建设,推动中国企业在IT开发环境和软硬件配套设施等方面的标准统一,打造国产运维新范式,助力政企数字化转型,加快实现数字中国美好图景。