网络故障管理是以最快的方式查找、隔离和排除网络故障的过程。故障管理是网络管理的重要组成部分,它通过快速解决故障来最大限度地减少停机时间并防止设备故障,从而确保最佳的网络可用性并防止业务损失。
网络故障监控是故障管理的第一步,因此是成功进行网络管理的必要条件。混合网络基础设施日益复杂,如果不是因为故障管理系统,也会使故障管理过程变得繁琐。故障管理工具遵循四步循环来解决问题,如下所示:
- 检测:查找服务交付中的性能异常或中断
- 隔离:定位和隔离事件以呈现可操作的故障
- 警报:通过警报或通知通知网络管理员
- 解决:通过自动化或人工干预修复故障
如何对抗网络故障
网络故障管理就是要及时了解网络中发生的情况,无论是不可预见的中断还是性能下降。可以使用网络故障管理软件OpManager检测,恢复和限制网络中故障的影响。OpManager作为网络故障管理系统的强大功能可帮助管理员通过四步工作流程立即隔离和解决故障。
检测:抢先捕获事件
OpManager持续监控网络故障,并立即检测性能下降或服务中断。故障检测可以通过主动和被动监控来完成。
主动故障管理通过 ICMP ping、TCP 或 UDP 端口检查、自定义脚本、远程查询等检查设备状态来检测事件。这是一种实时识别和纠正潜在问题的积极方法,有时甚至在它们成为故障之前。
另一方面,被动或基于事件的管理监视网络以查找实际事件,这些事件仅在故障或故障发生后指示故障或故障。这可以通过 SNMP 陷阱、系统日志消息、Windows 事件日志消息等来完成。
隔离:只关注可操作的故障
一旦检测到问题,确定其根本原因对于缩短解决时间 (MTTR) 至关重要。此隔离过程的整个想法是消除冗余事件,从而减少代理警报并仅显示可操作的错误。
通知:无论身在何处,都能收到通知
一旦可操作事件被隔离出来,OpManager就会通过可视化故障表示通知NOC管理员,并通过故障单和警报通知远程管理员。
- 视觉表示:通过颜色编码的警报、Web 警报、仪表板、业务视图等进行可视化。
- 故障单:与ServiceDesk Plus,Jira或ServiceNow集成。
- 提醒:创建通知配置文件以选择通知渠道,例如电子邮件,短信,电报和智能手机GUI。
并非每个检测到的故障都严重到需要管理员立即注意的程度。在大多数情况下,像OpManager这样的故障管理系统会在最早出现问题的迹象时运行指定的脚本或执行工作流程,以自动化服务恢复并保持网络运行。当自动化由于错误而不起作用时,OpManager会将警报上报给相应的管理员,并提供事件详细信息和下一步行动。因此,即使管理员忙于转移位置和楼层以满足网络的需求,也可以防止某些故障。
在某些情况下,这种自动解决方案是不可能的,因此需要手动干预。管理员可以使用基于 Web 的交互式内置故障排除工具执行故障排除以评估损坏并制定可能的快速解决方案。
- 查看实时图表。
- 使用进程诊断、交换机端口映射器和MIB 浏览器进行故障排除。
- 通过 RDP 或 Telnet/SSH 会话连接到设备。
由于停机很有可能给企业造成巨大损失,因此必须采取必要的措施来防止或尽量减少停机时间。防止停机和保持网络正常运行时间归结为有效监控和管理网络故障。像OpManager这样的高级故障管理解决方案可帮助管理员快速解决故障,保护网络可用性和业务收入。