定义与概念
AIOps,即人工智能运维(Artificial Intelligence for IT Operations),是将人工智能技术应用于 IT 运维领域,以实现自动化、智能化的运维管理。它通过整合大数据、机器学习等先进技术,对海量运维数据进行实时分析,从而快速识别、诊断和解决问题。
不同的人、机构对它有着不同的阐释。比如,Gartner 认为 AIOps 平台是结合大数据、人工智能(AI)或机器学习功能的软件系统,用以增强和部分取代广泛应用的现有 IT 运维流程和事务,包括可用性和性能监控、事件关联和分析,IT 服务管理以及运维自动化。还有观点将其看作是对规则的 AI 化,即将人工总结运维规则的过程变为自动学习的过程,最终达到 “有 AI 调度中枢管理的,质量、成本、效率三者兼顾的无人值守运维,力争所运营系统的综合收益最大化” 的终极目标。
总的来说,AIOps 旨在通过自动化、智能化的方式,实现对 IT 运维数据的全面收集、高效分析、精准预测和科学决策,进而提升运维效率,降低运维成本,优化用户体验,涵盖的范围涉及从数据采集、分析,到故障预测、自动化响应等多个与 IT 运维相关的环节。
发展背景与现状
在如今数字化转型的大背景下,IT 系统的规模和复杂性不断攀升,对运维效率和智能化水平的要求也随之提高。特别是在云计算、大数据、物联网等技术的推动下,传统的运维方式已逐渐显露出其局限性,无法满足现代企业对于高效、智能运维的迫切需求,这就促使了 AIOps 的兴起。
从行业发展历程来看,IT 运维经历了从手工运维到自动化运维,再到智能化运维(AIOps)的演进过程。手工运维阶段,依赖人工操作,效率低且易出错,难以应对大规模、高复杂度的 IT 系统运维需求。随着自动化技术发展,自动化运维工具虽提升了效率和准确性,但面对不断进步的技术和复杂的业务需求,也逐渐面临挑战。而 AIOps 的出现,利用先进的 AI 和 ML 技术,实现了对 IT 系统运维的智能化、自动化和预测性管理,带来了革命性的变革。
目前,AIOps 在行业内的应用和发展势头强劲。根据《中国 AIOps 现状调查报告(2024)》显示,超 4 成企业在运维方面年平均投资规模超 5000 万元,企业在运维相关技术投资时最优先考虑智能运维,占比为 61.53%。并且随着 AIOps 建设不断深入,更多企业进入 L3 进阶智能化运维阶段,半数以上的受访者自评企业目前智能运维处于 L3 进阶智能化阶段(58.42%)。
我国智能运维行业参与者众多,市场集中度低,其中包括华为、联想等以硬件起家的厂商,腾讯、阿里等互联网企业,以及新炬网络、擎创科技、博睿数据等智能运维独角兽企业,它们都在积极推动 AIOps 在不同场景下的应用与落地,助力企业实现运维数智化转型,未来也将专注在多样化的应用场景中继续建设智能运维能力,比如 66.20% 的企业计划在更多新场景的应用中建设智能运维能力等。
AIOps 平台常见功能盘点
数据采集功能
AIOps 平台的数据采集功能至关重要,它能够从多个不同的数据源收集信息,展现出强大的全面性与灵活性。
在日志采集方面,有着多样的采集方式与工具可供选择。比如可以在目标系统上部署采集 agent,像 Flume 就是一个分布式的、可靠且高可用的海量日志采集、聚合、传输系统,基于数据流架构,简单灵活,还有容错机制和故障恢复机制,可通过简单扩展用于在线分析;Filebeat 作为轻量级日志采集器,客户端能指定目录文件,跟踪其变化并发送到目标位置,如 ElasticSearch、Logstash 等;Logstash 不仅具备日志采集功能,还能进行日志解析、转换等操作,通过插件配置可支持众多输入源、过滤器以及输出类型;Fluentd 采用插件式架构,有着高可扩展性、高可用性及高可靠性,支持各类数据源和多种数据输出插件。此外,还有 Scribe、Syslog、SNMP TRAP 等也可用于不同场景下的日志信息采集。
对于数据库同步,像 Sqoop 可用于 Hadoop 和关系数据库之间传送数据,既能把 MySQL、Oracle 等关系型数据库的数据导入到 Hadoop 的 HDFS、HIVE、HBase 中,也能进行反向的数据导出操作;DataX 则是阿里广泛使用的离线数据同步工具 / 平台,能实现各种异构数据源之间高效的数据同步。
消息队列 MQ 也是数据采集时常用的方式,像 RabbitMQ、ActiveMQ、ZeroMQ、RocketMQ、Kafka 等,多基于 TCP 层,效率较高且具备持久化能力,可通过消息队列来同步数据。另外,还可通过 RESTful API 从不同系统中同步数据,不过它主要用于少量数据传输,优点是简单可解耦,但也存在效率低且无持久化的不足。
而且,企业的 AIOps 解决方案在部署过程中还需要具备与现有监测工具以及新出现的技术进行对接的能力,例如对接那些用于物理基础架构组件、虚拟实体、服务以及应用程序等方面的监测工具,这样才能将各类数据完整地收集起来,为后续的运维分析等工作奠定基础。
数据聚集功能
数据聚集功能是 AIOps 平台实现高效运维的关键环节之一,它能够将不同领域的数据进行整合汇聚,发挥出 “1+1>2” 的效果。
在实际应用中,AIOps 解决方案需要有能力把 IT 基础设施监测(ITIM)、网络性能监测和诊断(NPMD)、数字体验监控(DEM)以及应用程序性能监测(APM)等多方面的数据聚集在一起。例如,将 IT 基础设施中诸如服务器的性能指标、网络设备的运行状态等数据汇聚,同时结合网络性能方面的带宽、延迟、丢包率等监测数据,再融入数字体验监控里用户使用各类应用时的感受、响应速度等反馈数据,以及应用程序性能监测所涉及的应用的可用性、稳定性、资源占用情况等数据。
通过这样的聚集整合,打破了各领域数据之间的 “壁垒”,让运维人员能够站在一个更宏观、全面的角度去审视整个 IT 系统的运行状况,避免了以往因数据分散而导致的运维决策片面性问题,有助于提高跨领域合作的能力,为后续的深度分析利用提供了丰富且有条理的数据基础,进而更好地发现潜在问题、优化系统性能等。
数据丰富功能
AIOps 平台的数据丰富功能能够进一步挖掘已采集和聚集的数据价值,使其发挥更大的作用。
一方面,平台可以利用诸如日志和事件等历史数据来提供追溯视图,例如通过查看过往的故障日志、操作记录等,去分析相似问题出现的规律以及当时的处理方式等。同时,运用元数据和标签来填充索引中的搜索内容,方便在海量数据中更精准地定位和查找所需信息。
另一方面,把数据点和时间戳叠加在一起,能够生成实时且有实际意义的时序信息,比如将服务器各个时间点的 CPU 使用率数据点与对应的时间戳结合,就可以清晰呈现出 CPU 性能随时间变化的趋势,像是否在业务高峰期出现使用率过高的情况,进而得出性能和遥测信息等实时数据。并且在后续使用这些信息时,企业还可以添加适当的标签来创建关键值对,例如给高负载时段的数据打上 “高峰时段” 标签,给涉及关键业务应用的数据打上 “重要业务” 标签等,充分开发数据的潜力,为更精准地运维决策、问题诊断等提供有力支撑。
剖析洞见功能
剖析洞见功能可以说是 AIOps 平台在整个运维过程中的核心亮点所在,它具备强大的洞察力,能在诸多关键方面发挥重要作用。
在模式发现方面,优秀的 AIOps 系统能够从海量的数据中识别出各种潜在的模式,比如发现用户访问量在每周特定时间段出现规律性的波动,或者是某类业务操作在特定流程环节容易出现相似的异常情况等。而异常检测功能则可以实时监测数据的变化,一旦出现偏离正常模式的情况,就能及时发出警报,例如当服务器的某项性能指标突然超出正常阈值范围,或者网络流量出现异常的峰值等情况时,快速捕捉到这些异常信息。
不仅如此,平台还能深入分析问题的根源,当出现故障或者异常时,通过关联不同数据源的数据,自动分析出是硬件故障、软件漏洞、配置错误还是其他原因导致的,而不是仅仅停留在表面现象的呈现。并且,AIOps 系统还会进一步分析这些问题对业务产生的特定影响,例如某个应用的故障会导致多少用户受影响、业务的营收可能会损失多少等,同时结合服务级别协议(SLA)管理,帮助企业在与非技术性利益相关者进行交互时更清晰地说明情况,让各方都能准确了解运维状况对业务的影响程度,从而辅助做出更合理的决策,保障业务的正常运行。
自动化功能
自动化功能为 AIOps 平台赋予了高效能,给 IT 运营管理系统带来了极大的优势。
AIOps 工具能够快速地生成和部署工作流,进而自动实现各种功能。例如,它可以自动执行事件分类工作,将海量的运维事件按照预先设定的规则,快速准确地归类为不同的类型,像硬件故障类、软件报错类、网络问题类等,然后针对性地进行后续处理;还能自动完成事件解决和补救流程,对于一些常见的、有固定处理方式的问题,直接自动采取相应的解决措施,无需人工过多干预。
同时,平台提供自动的库维护功能,能够快速地跨业务流程实现工作流的共享,这样不同的运维环节、不同的业务模块都可以复用已有的工作流,提高了整体的工作效率。卓越的自动化能力不仅可以提高业务敏捷性,让企业能够更迅速地应对市场变化、业务调整等情况,而且还能够显著减少不可预料的错误,避免因人工操作失误等带来的系统风险,大大提高服务的可用性,保障业务的连续性,使得 IT 运维从以往的被动应对问题转变为主动预防和解决问题,提升整体的运维水平。
使用方便功能
部分基于云管理等方式的 AIOps 平台,为 IT 团队带来了诸多便利,极大地提升了管理效率以及促进了团队合作。
这类平台可以帮助 IT 团队以一种安全、分布式的方式同时解决多个网站上多个客户的问题,比如在管理多个分支机构或者为众多不同客户提供运维服务时,通过云管理模式,能够统一、高效地对各个站点的 IT 系统进行监控、维护和管理,避免了分散管理带来的复杂性和效率低下问题。而且,AIOps 平台通过监控数据流,使得其他工具可以方便地获取所收集的信息,例如开发团队可以便捷地获取运维数据来优化应用性能,测试团队也能利用相关数据进行针对性的测试等,这样极大地促进了团队之间的协作,打破了信息孤岛,让不同专业背景、不同职责的团队能够围绕 IT 系统更好地协同工作,共同保障业务的顺利开展,提升整个企业的运营效率和服务质量。
灵活部署功能
不同的企业在业务特点、操作要求以及安全策略等方面存在多样化的需求,而 AIOps 平台的灵活部署功能恰好能满足这些独特的要求。
有些企业出于数据安全、隐私保护以及对内部 IT 环境高度自主可控的考虑,会选择自主托管的部署方式,将 AIOps 平台部署在自己的数据中心内,由企业内部的运维团队进行全面管理和维护,确保数据和系统完全在自己的掌控之中。而对于一些希望减轻自身运维负担、专注核心业务的企业来说,远程管理的部署模式可能更合适,通过专业的运维服务提供商远程对 AIOps 平台进行管理和运维操作,企业只需使用相应的功能即可,既节省了人力和资源,又能享受到专业的运维服务。另外,平台即服务的部署方式也受到不少企业的青睐,按照使用量付费,像使用云服务一样便捷地使用 AIOps 平台,快速获得智能运维能力,无需自行搭建复杂的底层架构,降低了前期的投入成本和技术门槛。总之,AIOps 平台能够根据企业的实际情况,提供多种灵活的部署方式,助力企业在符合自身需求的前提下,实现高效、智能的 IT 运维管理。
不同类型 AIOps 平台对比
开源 AIOps 工具
优势
开源 AIOps 工具通常具备一些显著优势。首先,在成本方面,与专有 AIOps 工具相比,开源工具往往是免费的,企业无需支付高昂的软件授权费用,这对于预算有限的企业来说是非常有吸引力的。例如像 Kubernetes 这样的开源项目,虽然不是专门完整定义下的 AIOps 平台,但在一定程度上利用数据分析实现工作负载编排自动化,能帮助企业以较低成本实现部分 AIOps 功能。
其次,开源 AIOps 工具具有可修改定制的特点。企业的 IT 运维需求往往具有独特性,开源工具的源代码是公开的,开发人员可以根据自身业务需求对其进行修改和定制,使其更好地适配企业内部的 IT 环境和业务流程。像各类开源编程语言模块或框架,如 PyTorch 和 TensorFlow,能帮助实现 AIOps 功能,开发人员可以基于这些模块进一步拓展功能,满足个性化需求。
此外,开源工具还能降低供应商和平台锁定的风险。企业不用担心被特定供应商绑定,如果对某个开源工具不满意或者有更好的选择出现,可以相对自由地切换到其他开源方案,不会像使用专有工具那样,可能会因依赖特定供应商而面临数据迁移困难、功能不兼容等问题。
不足
不过,开源 AIOps 工具也存在一些不足之处。一方面,目前市面上还没有端到端完整的开源 AIOps 平台,即没有一个单一的开源平台能够涵盖企业想要优化其 IT 运维的所有 AIOps 功能。往往是有众多的开源工具分散存在,每个工具仅能提供一部分 AIOps 功能,例如开源监控平台 Nagios 和 Zabbix,它们虽能提供基本的分析功能,但要实现全面的运维智能化,还需要集成多个不同的工具来共同协作,这对于 IT 运维团队而言,意味着要耗费大量的精力去进行整合与配置。
另一方面,AIOps 工具需要访问大量的数据,其中部分数据可能涉及企业业务敏感信息,而开源工具的开放性特点使得其在数据隐私、合规性等方面面临挑战。虽然开源工具通常在用户的数据中心内运行,或者至少在用户控制的公共云基础设施上运行,相较于专有工具在这方面的挑战可能稍少一些,但攻击者仍有可能利用这些工具存在的漏洞来滥用数据发起攻击,所以在使用时也需要谨慎对待数据安全和合规问题。
专有 AIOps 工具
优势
专有 AIOps 工具同样有着自己的优势所在。其一,专有工具在功能完整性方面表现突出,它们往往具备更为全面的 AIOps 功能,相较于开源工具只是零碎提供部分功能,专有工具能提供从数据采集、分析,到故障预测、自动化响应等一整套相对完整的功能体系,像 Broadcom 公司推广的可观测性软件,以及 Splunk、Instana 和 PagerDuty 等供应商提供的相关产品,都能在不同程度上满足企业对于智能运维各环节的需求。
其二,专有 AIOps 工具更易实现,其在设计上通常更为用户友好,有着简洁直观的操作界面和易于理解的配置流程,即使是没有深厚技术背景的运维人员也能较快上手使用,降低了使用门槛,能够帮助企业快速部署并应用到实际的 IT 运维工作中。
再者,许多专有 AIOps 工具是以托管服务的形式运行,企业无需自行搭建复杂的基础设施来托管这些工具,供应商会负责工具的部署、维护以及数据处理等后端工作,企业只需要使用相应功能即可,这对于那些希望专注于自身核心业务、减轻运维负担的企业来说是非常便利的选择。
不足
然而,专有 AIOps 工具也并非十全十美,其可能存在数据管理挑战。尽管大多数 AIOps 领域的供应商都是成熟的公司,有着长期以兼容和安全的方式管理客户数据的经验,但由于专有工具需要获取企业大量的数据进行分析处理,在使用过程中,企业必须信任供应商能够妥善管理这些数据,保障数据的安全性、隐私性以及合规性。即使供应商提供了必要的合规性保证和信任级别,但只要涉及数据交由外部管理,数据误用、泄露等风险依然是企业需要考量的问题,万一出现数据相关的安全事件,可能会给企业带来严重的损失。
选择适合的 AIOps 平台解决方案要点
明确业务需求
在选择适合的 AIOps 平台解决方案时,明确自身业务需求是首要且关键的步骤。不同的企业有着不同的业务特点和运维痛点,因此对 AIOps 平台功能的侧重也各有差异。
例如,对于一些对系统稳定性要求极高的金融机构来说,实时监控功能就显得尤为重要。它们需要时刻掌握诸如交易系统、核心数据库等关键业务环节的运行状态,一旦出现任何异常波动,能够第一时间察觉并做出响应,避免因系统故障而造成巨大的经济损失和客户信任危机。像银行的网上交易平台,每分每秒都在处理大量的资金流转业务,实时监控可以及时发现如交易延迟、卡顿等问题,保障交易的顺畅进行。
而对于一些互联网电商企业,自动化根因分析功能可能是重点关注对象。在 “双 11”“618” 等购物高峰期,面对海量的订单处理、用户访问以及复杂的系统交互,一旦出现故障,快速准确地定位是硬件故障、软件漏洞、还是配置错误等导致的,对于尽快恢复服务、减少对用户购物体验的影响至关重要。
还有些企业,尤其是拥有庞大 IT 基础设施且运维人力相对紧张的公司,自我修复功能则是他们期望 AIOps 平台具备的。当检测到诸如服务器某个进程意外中断、存储设备出现空间不足等常见问题时,平台能够自动触发修复机制,无需人工手动介入,极大地提高运维效率,节省人力成本。
所以,企业在筛选 AIOps 平台之前,一定要全面梳理自身的业务需求,明确哪些功能是必不可少的,哪些是锦上添花的,以此为依据去寻找能够契合这些需求的平台,才能让 AIOps 真正在企业的 IT 运维中发挥出最大价值,助力企业业务的平稳、高效运行。
评估技术能力
评估 AIOps 平台供应商的技术能力是选择过程中不容忽视的重要环节,这关系到平台解决方案的可靠性以及能否长期稳定地为企业服务。
首先,供应商的技术团队实力是关键考量因素之一。一个专业、经验丰富且具备创新能力的技术团队,往往能够更好地应对各种复杂的技术难题,持续对平台进行优化和升级。比如,团队成员是否有着深厚的人工智能、机器学习背景知识,是否熟悉 IT 运维领域的各种业务场景和痛点,以及是否具备处理大规模数据的能力等,这些都会影响到 AIOps 平台的功能实现和性能表现。
其次,技术架构的可靠性也至关重要。AIOps 平台需要处理海量的运维数据,同时要保证在高并发、复杂网络环境等情况下稳定运行。其架构是否具备良好的可扩展性、容错性以及兼容性等特点,决定了平台能否适应企业不断变化的业务需求和日益增长的数据量。例如,采用分布式架构的平台,在应对大量数据涌入时,可以通过多个节点协同处理,避免单点故障,保障系统的正常运行。
再者,数据安全保障能力是必须关注的要点。AIOps 平台涉及到企业大量的业务敏感信息,从数据的采集、传输、存储到分析等各个环节,都需要有严格的安全措施。供应商是否采用了加密技术对数据进行加密,是否具备完善的访问控制机制,防止数据泄露和非法访问,以及在面对网络攻击等安全威胁时,是否有有效的应急响应和恢复策略等,都是评估数据安全保障能力的重要方面。
总之,通过对供应商技术能力的全面评估,企业可以更加深入地了解 AIOps 平台的内在质量和潜在风险,从而选择到技术实力过硬、能为企业 IT 运维提供可靠支持的解决方案。
考量集成能力
在当今复杂的企业 IT 环境中,AIOps 平台能否无缝集成到现有的 IT 基础设施,与其他系统和应用程序协同工作,已然成为选择时不可忽视的要点。
企业内部往往已经部署了众多不同类型的系统,如企业资源规划(ERP)系统、客户关系管理(CRM)系统、以及各种监控工具等。AIOps 平台若要发挥最大效能,就需要能够与这些现有系统进行有效的集成,实现数据的共享和交互。例如,它可以与网络性能监测工具集成,获取实时的网络流量、带宽利用率等数据,同时结合自身的数据分析能力,更精准地判断网络相关的运维问题;又或者与应用程序性能监测(APM)系统集成,当发现应用出现性能瓶颈时,综合各方面的数据进行深度分析,快速定位问题根源。
而且,从长远来看,企业的业务在不断发展,也会陆续引入新的应用程序和技术。AIOps 平台的集成能力强,就能更好地适应这种变化,轻松接入新系统,避免出现因兼容性问题而导致的 “信息孤岛” 现象,保障整个 IT 生态系统的协同运作。
在评估供应商的集成能力时,可以查看其过往的项目经验,了解是否有成功为类似企业进行系统集成的案例,以及在集成过程中遇到的问题和解决方式。同时,也要考察供应商提供的集成接口是否丰富、规范,是否符合行业标准等,这些都有助于企业判断 AIOps 平台能否顺利融入自身现有的 IT 基础设施,实现一体化的运维管理。
关注可扩展性
随着企业业务的不断拓展、IT 基础设施规模的持续扩大以及业务需求的动态变化,AIOps 平台的可扩展性成为了企业必须着重评估和关注的要点。
一方面,业务的增长往往伴随着数据量的爆炸式增长。例如,一家电商企业在业务旺季时,用户访问量、订单量都会大幅攀升,相应地,运维数据如日志数据、性能指标数据等也会成倍增加。此时,AIOps 平台需要能够轻松应对这种数据规模的变化,具备良好的数据处理和存储扩展能力,不会因为数据量过大而出现性能下降、响应迟缓等问题,依然可以高效地进行数据分析、故障预测等工作。
另一方面,企业可能会不断增加新的业务模块、拓展服务范围,或者采用新的技术架构,如向微服务架构转型、部署混合云环境等。AIOps 平台要能够适应这些 IT 基础设施层面的改变,灵活地扩展其功能模块和适配新的架构环境。比如,当企业新增了某个业务线对应的微服务集群时,平台能够快速将其纳入监控和管理范畴,自动学习和识别新的服务之间的关联关系,以便在出现问题时准确进行分析和定位。
供应商的可扩展性支持能力也是重要考量内容,包括是否提供及时的平台升级服务,是否有完善的技术文档和培训支持,方便企业内部运维团队在需要扩展平台功能时能够顺利操作等。只有选择具备强大可扩展性的 AIOps 平台,才能确保其在企业长期的发展过程中始终贴合业务需求,持续为企业的 IT 运维提供有力保障。
权衡成本效益
在选择 AIOps 平台时,评估其成本效益是非常必要的,这有助于企业在效能和成本之间找到最佳的平衡点,实现资源的合理配置和投资价值的最大化。
从成本角度来看,首先要考虑实施成本,这涵盖了软件的购买费用、平台的部署成本,例如服务器等硬件设备的投入(如果是本地部署模式),以及与项目实施相关的人力成本,如安装调试、初始配置等环节所需的人力投入等。其次是运行成本,包括平台后续的维护费用、技术支持费用、数据存储成本(尤其是处理海量运维数据所产生的存储开销),以及可能的软件升级费用等。
而效益方面,则要综合评估 AIOps 平台能为企业带来的各种收益。直接的经济效益可能体现在减少运维人员数量或者降低运维人员的工作量上,通过平台的自动化、智能化功能,原本需要人工手动处理的大量重复性运维任务可以自动完成,从而节省人力成本。同时,平台能够快速定位和解决问题,减少系统停机时间,避免因业务中断而造成的经济损失,例如对于一些依赖线上业务的企业,每一分钟的系统故障都可能意味着大量的订单流失或客户流失。间接效益则包括提高服务质量,提升客户满意度,增强企业的市场竞争力等,良好的 IT 运维保障能够让用户享受到更稳定、高效的服务,有助于树立企业的良好形象,促进业务的长期发展。
此外,还需要计算投资回报率(ROI),可以通过对比传统 IT 运维方式和采用 AIOps 平台后的成本与收益变化来进行分析,也可以参考其他同行业企业实施 AIOps 的成功案例来预估自身的 ROI 情况。同时,要根据企业的实际预算情况和对成本效益的期望,权衡不同 AIOps 平台解决方案。