伴随企业数据中心规模化、复杂度、设备多样性的发展,运维也迎来史无前例的巨大挑战,运维的重要性被推向高点,对运维平台而言无疑是最好的时代,充分利用大数据和人工智能技术融合来解决实际问题,建立数据要素全周期管理和价值挖掘,实现全域覆盖、数据治理、企业管理、业务生态的全面升级。运维从传统人工走向智能,实现高效率的运维管理。
01
数据浪潮下运维现状&挑战
政企数字化转型进程的推进,数据化规模愈发庞大,物理 IT 设备种类、数量越来越多。此外,基于业务连续性方面的考虑,分布式数据中心成为越来越多客户的选择。在此背景下,运维管理面临诸多挑战。
1、分散管理成本高
IT 建设各自为政,缺乏统一的管理规划,服务器、存储、网络等 IT 资源与虚拟化平台等信息分散,系统无法集中统一管理,无法实现全栈软硬件集中管理和自动维护,运维管理成本高。
2、告警管理效率低
管理对象和监控指标覆盖不全,告警信息无法统一管理,重要告警易遗漏,告警处理效率低下,系统风险与日俱增。
3、缺少全局视图
设备管理界面分散,缺乏全景视图,难以挖掘优化点,不能有效支撑数据中心运营分析。
4、故障定位难
数据中心和业务规模扩大,网络复杂度增加,一旦出现业务故障,端到端拓扑梳理耗时长,故障定位困难,影响业务系统可用性。
02
运维核心需求的提升
1、日常运维效率提升
日常运维包括:机房巡检、虚拟机流量监控、报表、流程平台对接、根因分析、故障快速恢复、资源动态调整等。统一的、全栈的、智能的运维管理是当前用户运维的广泛需求,需要具备统一纳管、资源高效发放、运维可视、智能运维的功能。
2、统一监管
数据中心 IT 资源种类繁多,从服务器、集中式存储、分布式存储、 IP 交换机等硬件基础设施,到虚拟化、容器等资源服务,再到 SDN 等高阶特性,数据中心运维平台需具备软硬件全栈的统一纳管能力,实现全栈资源的统一监管运维。
3、可视化大屏&报表
运维数据存储在不同的 IT 系统中,缺少统一的数据标准与管理流程,数据类型多样,质量参差不齐。需要运维平台支持对设备性能指标、告警事件、资产配置等数据的融合关联,能够通过大屏或报表全方位展示。方便运维人员一键式导出;支持个性化定制,随时掌握系统运行信息。
4、智能化运维
数据中心规模日益增长,传统运维出现问题解决问题,比较被动,且带来巨大的系统运行风险。智能运维结合容量趋势预测、异常检测等功能,提前发现问题风险,并将风险扼杀在萌芽中。对于故障定位,传统的运维需集中多设备的运维人员,人工梳理排查网络拓扑,在当下越发庞杂的数据中心,效率令人发指,而通过智能关联分析和拓扑梳理,可以快速且自动化地定位到问题关键点,故障定位时间压缩到分钟级,效率大大提升。
03
融合、智能、开放
结合上述核心功能需求,面向全场景的运维管理平台需具备融合、智能、开放三大能力,
融合--全栈监控
全栈软硬件统一监控管理,服务器、交换机、存储设备、虚拟化等资源, IT 人员通过一个界面,完成日常运维管理工作,统一监管提升效率。
统一告警:软硬件告警统一实时监控与通知,帮助运维人员及时发现问题。
(LinkSLA智能运维平台--用户大屏)
智能 --风险预测
智能风险预警:通过 AI 实现智能风险预测,故障提前预知,告警管理闭环。
关联分析:对虚拟机、虚拟网卡、虚拟磁盘、数据存储等的性能问题智能关联分析,快速定界性能瓶颈。
网络拓扑分析:网络拓扑梳理,图形化辅助根因分析,根因定位小时级缩短到分钟级。
(LinkSLA智能运维平台--AI异常检测)
(LinkSLA智能运维平台--资产关系管理)
开放 --兼容、灵活
开放生态广泛兼容,可延伸对接云服务,也可支持多厂商设备管理、异构资源池纳管。
分析报表:统一监管全网资产、资源、业务运行状况,辅助运维决策、周期性汇报。
自定义大屏:预置大屏和自定义能力满足日常查看、重点业务监控保障等诉求。
04
结语
统一的、全栈的、智能的运维管理体系已成为当今用户运维的普遍需求。在全栈统一管理的基础上,结合业务高效发放以及 AI 技术赋予的智能故障定位、提前风险预知等能力,相信数据中心运维平台将快速从人工走向智能,实现高效率的运维管理。
扫码试用
—END—