干掉传统运维的不是devops,不是容器化,而是AI。随着未来基础设施的膨胀和复杂度急剧提升,人类运维能力已经显得力不从心。运维最终的归宿一定是人类决策,AI汇报与执行。
什么是数字化运维
数字化运维是一种基于信息技术手段数字化升级的运维方式。它通过运用云计算、人工智能、自动化技术等创新手段,实现了运维过程的数字化、自动化、智能化和高效化。数字化运维可以实现数据收集和分析、自动化运维和实时监控等功能,可以更快、更准确地发现和解决问题,并提高生产、服务的效率和质量。
数字化运维的特点有以下几个方面:
- 标准化:通过优化运维任务和流程,减少复杂性和变动,确保运维工作的简洁、高效和可重复。
- 协同网络:通过跨团队、跨部门、跨组织的集成和协作,实现运维管理的精细化和透明化,提高协同效率和运维质量。
- 数据驱动:通过整合、治理、提炼运维数据,实现运维场景的感知、决策、执行闭环,提高运维效能和可靠性。
- 全面服务化:通过将运维能力标准化、服务化,提供灵活的技术解决方案,满足业务的多样化需求,实现运维赋能业务的目标。
- 员工赋能:通过提供全数字化的工作环境,激发员工的积极性、生产力和创新力,实现人机协同的运维模式。
什么是AIOps
AIOPS 意思是人工智能运维,是指将人工智能的能力,如机器学习、数据科学等,应用于 IT 运维领域,以实现运维流程的自动化和优化。AIOPS 的目标是通过以下几个方面来提高 IT 运维的效率和质量:
- 收集和整合来自多个 IT 基础设施组件、应用需求、性能监控工具和服务票据系统等的海量数据,打破数据孤岛,形成全局视角。
- 通过智能分析,从数据中筛选出有意义的信号,识别和预测与应用性能和可用性相关的重要事件和模式,提供根因分析和报告。
- 通过自动化,快速响应和解决 IT 运维问题,或者在一些情况下,无需人工干预,直接实现问题的自动修复。
AIOPS 通过将多个分散、手动的 IT 运维工具集成到一个智能、自动的 IT 运维平台上,使 IT 运维团队能够更快速、甚至主动地应对各种 IT 运维挑战,同时提供端到端的可视化和上下文。AIOPS 还能够弥合日益多样、动态和难以监控的 IT 环境和孤立的团队之间的差距,满足用户对应用性能和可用性的高期望。
AIOPS 是 IT 运维管理的未来趋势,随着数字化转型的加速,AIOPS 的需求也在不断增长。
数字化运维和AIOps的关系
数字化运维是一种基于信息技术手段数字化升级的运维方式,而 AIOps 是一种将人工智能应用于运维领域的技术。两者之间的关系可以从以下几个方面来理解:
- 目标一致:数字化运维和 AIOps 的共同目标是提高运维的效率和质量,实现运维的自动化和智能化,满足业务的多样化需求,实现运维赋能业务的目标。
- 依赖关系:数字化运维是 AIOps 的基础,AIOps 是数字化运维的提升。数字化运维通过运用云计算、自动化技术等创新手段,实现了运维过程的数字化、标准化、协同化和服务化。AIOps 则通过运用人工智能和机器学习技术,实现了运维数据的分析、预测、优化和决策,提供了更高级的运维能力。
- 发展阶段:数字化运维是 AIOps 的前身,AIOps 是数字化运维的未来。数字化运维是 IT 运维管理的现阶段形式,是 IT 运维从手工运维、流程化运维、平台化运维到 DevOps 的演进过程。AIOps 是 IT 运维管理的未来趋势,是 IT 运维从被动运维、主动运维到预测性运维的演进方向。
数字化运维依赖的技术
数字化运维包括以下几种技术:
- 自动化工具:自动化工具是数字化运维的基石,它可以通过API、脚本编程等方式对运维流程进行自动化处理,降低人工干预的成本,提升运维效率。自动化工具的应用场景非常广泛,包括但不限于系统配置管理、应用程序部署、备份和恢复、容量管理等。
- DevOps:DevOps是一种结合了开发和运维的一种理念和实践方法,主要目的是通过破除开发、测试和运维等领域相互隔离的壁垒,促进各领域之间信息和技能的共享和流转,使得交付流程更加快捷和可控。DevOps主要包括持续集成、持续交付、持续部署等环节,并在此基础上不断完善运维流程。
- 容器化:容器化是运维领域比较新颖的技术,它将应用程序和其所需的依赖项,封装在一个可轻松部署的“容器”中。容器化技术可以大大简化应用程序的部署、管理和维护,提高运维效率和可靠性。目前,开源的容器技术比较流行的是Docker和Kubernetes,它们已经成为容器化技术的事实标准。
- 微服务架构:微服务架构是一种将应用程序拆分成多个小型模块的架构风格,每个模块都可以独立部署、扩展和升级。这样做有助于降低应用程序之间的耦合度和复杂性,提高应用程序的可扩展性和可维护性。常见的微服务架构有Spring Cloud、Service Mesh等。
- 人工智能:人工智能作为数字化技术中的重要组成部分,正在不断渗透进入数字化运维领域。人工智能可以在运维领域中承担各种角色,例如智能监控、异常检测、故障自愈等。人工智能的主要优势在于其精度和效率,以及不需要人工干预,可以在一定程度上降低人工成本,提高运维工作效率和质量。
AI可以为运维带来什么
AI在IT运维中具体能够发挥的作用有以下几个方面:
- 提高运维效率和质量:AI可以通过分析和处理海量的运维数据,自动发现和解决问题,减少人工干预和错误,提升运维效能和可靠性。例如,AI可以实现智能监控、异常检测、故障自愈、性能优化等功能。
- 降低运维成本和风险:AI可以通过自动化和智能化的运维流程,节省人力资源和时间成本,避免重复和低效的工作,降低运维风险和损失。例如,AI可以实现智能告警、事件管理、根因分析、故障预测等功能。
- 提升运维创新和价值:AI可以通过学习和优化运维知识和经验,提供智能建议和决策,帮助运维人员提高运维水平和能力,创造更多的运维价值。例如,AI可以实现智能服务助理、知识图谱、智能决策大脑等功能 。
AI能够承担哪些具体的运维工作
AI可以通过分析和处理海量的运维数据,自动发现和解决问题,减少人工干预和错误,提升运维效能和可靠性。AI在IT运维中的应用,可以分为以下几个方面:
- 智能监控:AI可以通过收集并汇总由多个IT基础架构组件、应用需求与性能监视工具以及服务工单系统持续生成的海量数据,实现对IT环境的全面可观测性。AI还可以通过智能筛选,从"噪声"中确定"信号",识别与系统性能和可用性问题相关的重要事件和模式。
- 智能告警:AI可以通过利用机器学习和自然语言处理等技术,对告警信息进行分类、聚合、关联和优先级排序,减少告警冗余和误报,提高告警准确性和有效性。AI还可以通过智能推送,将告警信息以合适的方式和渠道,发送给合适的人员和团队,提高告警响应和处理的效率。
- 智能诊断:AI可以通过利用机器学习和数据科学等技术,对运维数据进行深度分析和挖掘,发现问题的根本原因和影响范围,提供问题的解决方案和建议 。AI还可以通过利用自然语言处理和知识图谱等技术,构建运维知识库,提供问题的相关文档和案例,提高问题的解决质量 。
- 智能预测:AI可以通过利用机器学习和数据科学等技术,对运维数据进行趋势分析和模式识别,预测问题的发生时间和概率,提供问题的预防措施和规避方案 。AI还可以通过利用机器学习和数据科学等技术,对运维数据进行资源分析和优化,预测资源的使用情况和需求变化,提供资源的调整和扩展方案 。
- 智能自愈:AI可以通过利用机器学习和自动化等技术,对运维数据进行动作分析和执行,实现问题的自动修复和恢复,提高问题的解决速度和效果 。AI还可以通过利用机器学习和自动化等技术,对运维数据进行流程分析和优化,实现运维流程的自动化和智能化,提高运维流程的效率和质量 。
数字化运维发展现状
根据艾瑞咨询的数据,2021年中国IT服务突破万亿大关,其中,IT运维市场规模在2021年达到2941.2亿元,预计2023 年达到3236.4 亿元,2020-2023 年的年复合增长率为 11.7%。这说明中国IT运维市场是刚需、增量市场,不会受疫情、资本低谷和外部环境的变化而变化。
随着云原生和全融合的持续演进,核心网变得愈加复杂,运维难度和成本持续攀升,同时全球网络事故频发,给运营商带来了巨大的经济和品牌损失,运营商对核心网的运维效率和网络可靠性提出了更高的要求,传统的运维模式显然已经不能满足当前业务的发展。
为了应对这些挑战,业界开始引入人工智能等前沿技术,推动运维行业的技术创新和模式变革,从手工运维、自动化运维向智能运维阶段转型,即利用AI算法分析海量运维数据,准确发现问题,进而从决策层面进一步提高运维效率。
目前,国内外已经有一些企业和机构在探索和实践智能运维的应用,例如华为核心网ADN解决方案、国际AIOps挑战赛、NIISA联盟智能运维专业委员会等,这些都表明智能运维是运维行业的未来趋势,也是数字化转型的重要支撑。