计算机网络构成了数字业务的基础。为了确保业务连续性,需要日夜监控和管理这些网络背后的 IT 基础架构。IT 管理员在管理 IT 基础架构时经常遇到问题,这是他们工作的关键部分,更重要的部分是解决网络问题。
什么是网络故障排除
网络故障排除是识别、分析和解决网络问题的系统过程。换句话说,排查网络问题是指纠正与网络连接、安全性、性能和其他网络方面相关的问题。网络故障排除对于减少 MTTR、恢复网络正常运行时间和规范网络操作至关重要。
为什么网络故障排除很重要
对网络问题进行故障排除对于保持网络正常运行时间、减少网络延迟并确保关键应用程序的平稳运行非常重要。这进一步有助于管理长期的生产力损失,并提供丰富的最终用户体验。
如何解决网络故障排除问题
可以通过收集有关问题的信息来定位设备来完成网络故障排除;进行深入分析,以亲密现场团队;以及通过自动化或手动工作修复网络问题。
网络故障排除基础知识
网络问题的类型
网络问题的范围从设备或服务不可用到响应时间慢、服务器运行状况不佳和网络性能不佳。网络中出现的问题可能很广泛,因此我们根据网络问题的来源将问题分为四类。根据类别,可以采用合适的网络故障排除技术。
- 硬件问题:由于物理连接和硬件负载而导致的硬件不可用和性能问题。
- 软件问题:服务不可用、进程不可用、操作系统问题和服务响应时间慢。
- 带宽问题:不稳定的 WAN 链路,以及由于抖动、延迟和数据包丢失而导致的 VoIP 呼叫不佳。
- 配置问题:由于配置错误而导致的硬件故障。
如何解决网络问题
IT 管理员需要准备好处理网络问题并缩短平均修复时间 (MTTR)。要实现较低的 MTTR,您应该清楚地了解网络问题。下面讨论的四步方法可以帮助您更好地了解基础网络问题,防止网络故障排除问题并维护五个 9 的网络。
- 第 1 步:确定网络问题。
- 第 2 步:收集信息并跟踪根本原因。
- 第 3 步:排查问题。
- 第 4 步:记录问题、过程和网络故障排除解决方案。
按照上述例程操作,管理员可以清楚地了解网络问题,并教其他网络技术人员可能的网络陷阱和必要的故障排除步骤。但是,真正的挑战是在最终用户受到影响之前识别和排除网络问题。
更快地诊断和解决网络问题
OpManager网络监控和网络故障排除软件,它可以帮助您诊断交换机、路由器、服务器和存储设备中的网络问题,以确保可用性、运行状况和性能。还可以监控响应时间,服务,进程和其他硬件指标,以及数据包丢失监控。通过提供对网络的实时洞察,帮助管理员在最终用户受到影响之前识别和解决网络问题。
网络问题的常见原因以及如何修复它们
网络管理员通常必须解决涉及以下内容的网络问题:
- 内部网络速度慢
- 广域网和网络语音性能差
- 应用程序或服务器响应时间慢
下面讨论这些网络问题的根本原因及其解决方案。
内部网络速度慢
- 卡住的请求:同时处理大量请求会导致网速变慢。这可以通过向网络添加更多带宽来解决,通常是通过与 ISP 重新协商。
- 多媒体流:长时间流式传输或下载大文件会导致网络速度变慢,从而影响其他关键业务功能。管理员可以在防火墙后面阻止媒体流站点。
- 过时的硬件:过时的硬件会严重影响网络速度。使用OpManager管理员可以持续监控网络设备,并识别长时间具有高CPU和RAM利用率的硬件。确定后,在权衡当前和未来需求后升级硬件。
- 开关回路:当网络中的两台交换机之间有多个连接或同一交换机中的两个端口连接时,会发生交换环路。这会用广播淹没网络,并增加到达目的地所需的时间。使用OpManager管理员可以监控各个交换机端口,主动检测广播风暴,并更快地解决循环问题。
广域网和网络语音性能差
- 延迟:延迟是请求与其相应响应之间的时间。当延迟较高时,请求的响应时间会增加,并且最终用户体验会受到很大影响。OpManager的WAN RTT监视器可让管理员配置往返时间的阈值,并在超过阈值时立即通知管理员。
- 抖动和丢包:抖动是非对称数据包传输的结果。它使音频和视频通话断断续续,网络中的数据包丢失通常是由于网络拥塞造成的。2% 到 5.<>% 的数据包丢失是可以接受的,高于此值的任何内容都将导致掉线。使用OpManager管理员可以设置阈值并接收有关抖动和数据包丢失的实时警报。
- 平均意见得分:MOS 是对呼叫质量的集体衡量。它是根据延迟、抖动和数据包丢失等参数计算的,范围从 1(差)到 5(优秀)。使用OpManager管理员可以为MOS设置下限,并在通话质量超过设定限制时收到警报,这有助于管理员立即查看网络拥塞并提高通话质量。
应用程序或服务器响应时间慢
缓慢的网络速度和较差的 WAN 性能主要影响内部团队,但响应时间慢对应用程序或应用程序服务器的影响可能是灾难性的。
- 服务器负载增加:应用程序服务器上增加的负载可能会导致 CPU 和 RAM 利用率过高,从而使服务器无法处理所有传入请求。自然,响应时间会增加,从而影响客户。使用OpManager管理员可以设置阈值以尽早识别服务器性能问题,并获得有关服务器性能问题的即时警报。
- 服务业:某些应用程序或应用程序服务器要求某些服务在后台运行才能成功处理请求。当这些服务不再可用时,应用程序可能无法响应请求。使用OpManager管理员可以监视对托管应用程序至关重要的服务,并在任何服务不可用时实时收到警报。
- 服务器进程:在应用程序服务器中运行的某些进程可能会消耗更多的 RAM 和 CPU,从而导致响应时间变慢。此外,进程可能正在侦听应用程序所需的重要端口。这会阻止应用程序侦听关键端口,从而导致响应时间变慢和应用程序故障。OpManager可以通过主动监控服务器进程来解决此网络问题。除了监控之外,管理员还可以远程停止任何服务器中的进程。
如何解决网络问题
管理员可以看到识别网络问题以加快故障排除的重要性,OpManager可帮助管理员识别和解决网络问题。例如提醒管理员应用程序服务器的CPU利用率时,可以:
- 立即找到应用程序服务器。
- 分析 CPU 利用率峰值。
- 跟踪导致 CPU 利用率峰值的进程。
- 远程终止进程。
OpManager在解决网络问题时可以节省管理员充足的时间和资源,还可以生成有关网络多个方面的系统报告,这有助于管理员了解网络性能。
故障排除工具包
OpManager还具有方便的内置工具,用于解决网络问题。这些网络故障排除工具包括简单的基于命令行的故障排除实用程序,这些实用程序允许系统、高效的网络故障排除方法,其中一些网络故障排除工具包括:
- Ping
- 路由跟踪
- SNMP Ping
- DNS 解析器
- DHCP 作用域监视器
- WMI 查询工具
- CLI 查询工具
- SNMP 工具
- 思科工具
OpManager 提供全面的网络监控功能,可帮助管理员监控网络性能,实时检测故障隐患,保障业务系统高效运行。