急促的告警铃声响彻寂静的夜晚。对运维人来说,晚间值守耗费更大的精力,往往一个简单的磁盘使用率告警通知,就不得不爬起来进行处理,毕竟告警无小事,对于小问题,运维人也不能心存侥幸心理。虽然有着值班人员和团队的支撑,但频繁的告警还是让运维人员精疲力竭,如何让系统的稳定性提高,减轻一线人员的工作量,减轻一线人员的压力?通过智能运维,实现故障自愈将成为不可避免的选择。
故障自愈是提升企业网络系统可用性和降低故障处理的人力投入,实现故障自愈从"人工处理"到"无人值守"的变革。通过实时发现告警,进行预诊断分析,判断告警类型和级别,如果是一般告警,平台进行自动恢复,如果是严重复杂告警则通过告警通知、运维工单等形式通知运维管理人员,进行人工处理。
针对运维中对故障自愈能力的需求,北京智和信通在实时监控告警的基础上,搭载可视化运维配置模块,通过赋予用户自定义编辑故障自愈策略的能力,实现无需针对告警进行手动处置,只需预编排告警处理流程,平台根据场景自动触发,从而做到故障自愈。
在故障自愈方案中,核心是匹配用户应用场景的故障自愈策略,一个符合用户需求的策略,将为用户节约80%的故障处理时间。因此,北京智和信通提供可视化编排工具,支持以拖拽的方式快速简单的完成作业流程的配置,将复杂的运维工作和任务转变为一致的,可复用的、可度量和有效的工作流,实现自动化运维。通过拖拽流量编排能力,灵活定制自动化运维场景,运维操作过程和结果均可视化呈现,并在策略中不限作业流程配置数量,全面满足不同运维需求,通过高性能作业流量并发执行,解决告警批量处置的难题。
实时监控,秒级告警
提供7*24小时稳定不间断监控网络,最小故障监视间隔可达到5秒。北京智和信通故障自愈方案支持多种告警机制,自定义配置告警阀值,从众多的事件和状态中,系统将零散的状态信息,总结成为当前工作状态,并产生告警,支持快速标示已经执行操作的告警,迅速定位告警设备。
告警管理,风暴抑制
通过对告警机制以及阀值的设置,第一时间获取准确的告警信息,快速定位告警设备,提升告警处理效率,极大的降低了因设备故障给企业带来的损失。包括事件过滤机制、故障事件上报机制、故障事件呈现过滤、故障事件入库过滤、故障事件确认等处理机制,有效避免误报和漏报。
智能流程,全面管理告警
可实现快速的故障定位,能一步定位到发生故障的源头设备,及时处理好故障,有效地预防故障发生。支持以拓扑图的方式回放历史告警下的设备告警变化、拓扑图和链路告警变化,支持快进、后退等播放操作。
多渠道告警通知,实现无错漏
故障可以通过界面颜色、告警列表、Email、钉钉、企业微信等方式发出通知,告警可以向上逐步追溯,按照从全局→网络→设备→资源的管理习惯来组织故障显示。
自动化告警应急处置,实现快速自愈
以网络状态监控、设备性能监测为基础,结合网络流量侦测功能,动态发现网络故障。智能判断告警类型及级别,自动触发预设的故障处置流程,复杂告警指派工单专人处理,常规告警触发安全策略全自动处理。
故障自愈方案针对运维过程中的可用性场景,覆盖故障发现、问题定位、自愈策略等各个阶段。同时针对运维需求管理场景,提供网络拓扑、监控、自动化运维、设备控制、资产监管、数据分析、可视化展示、日志分析、运维工单、流量监测等能力,并将其以“积木式”的开发方式进行结合,在实际应用中根据用户的需求场景灵活组合,实现全方位智能安全运维。