企业数字化转型以及5G、物联网、云计算、人工智能等新业态带动了数据中心的发展，在国家一体化大数据中心及“东数西算”节点布局的推动下，数据中心机房已成为各大企事业单位维持业务正常运营的重要组成部分，网络设备、系统、业务应用数量与日俱增，规模逐渐扩大，一旦机房内的设备出现故障，将对数据处理、传输、存储以及整个业务构成威胁，若机房设备出现故障不能及时被发现、处理，不但会影响整个业务系统的正常运行，甚至造成设备报废，使系统陷入瘫痪，造成严重后果和无法挽回的损失。

尤其对于银行、税务、证券、电信、电力、大型企业等需要实时交换数据的单位的机房，一旦系统发生故障，造成的经济损失更是不可估量，因此，数据中心机房实时监控管理显得更为重要。

数据中心机房运维痛点

随着“东数西算”工程和新基建的加速落地，数智化技术正逐渐渗透到各领域。但随着数据中心建设规模的逐步扩大，必然带来能耗的大幅增长和机房设备数量的不断扩充，传统机房监控和管理模式已无法满足数据中心“集中监控、统一管理”的需求，运维工作面临大量难题。

数据中心机房内的设备种类繁多，涉及IT、电力、通信、网络、消防、安防等，加上虚拟化云架构的出现和普及，机房的复杂度越来越高，而运维管理的复杂性急剧增加。
数据中心机房内的设备需要长期、不间断、低能耗、安全可靠的运行。一旦发生故障，需要快速定位，及时准确处理，但由于设备故障处理需经过多个环节，需要耗费大量时间，导致故障处理时间较长，影响业务的正常运行。
作为企业的核心资产之一，数据中心机房的重要性毋庸置疑，一旦机房发生灾难，恢复时间相对较长，将对企业正常运营造成较大影响。
数据中心机房设备量大，但实际资源利用率往往不高。例如，有些服务器的CPU利用率、内存利用率和磁盘利用率很低，导致机房的整体资源利用率较低，影响了机房的运行效率。
数据中心机房的检查工作多依靠人工现场检测、纸质记录等方式，智能化程度低，工作繁重，耗时耗力，却依然存在不连续、不及时、遗漏、错漏等问题。
数据中心机房运维工具多样化，人员学习困难，且各工具产生的运维数据格式不统一，导致运维数据利用率低下。
快速变化的IT业务需求导致资产变更成为常态，依靠Excel等工具进行资产管理，无法保障机房的资产信息能够准确及时变更，长时间就会导致，资产数据信息逐渐失真。

数据中心机房无人值守方案

一个完善的数据中心机房监控运维系统，应具备五个特点，一是实现从及设备运行到机房环境的多层次监控；二是支持设置多种丰富的阈值来监控危机；三是提供丰富的报警方式来确保相关人员能够接收到告警信息；四是提供可视化的自动运维编排方式，实现自动巡检和故障自愈；五是全面兼容国产软硬环境，符合国产信创要求。

通过远程监控、远程配置等技术手段实现对数据中心机房的自动运行、故障自动检测、自动报警、自动修复等功能，从而达到无需人工干预的状态，实现机房内设备安全稳定运行，减少人为因素对设备运行的干扰，从而提高机房的运行效率和安全性。

机房监控运

机房设备具有数量大、种类多、价值高、使用周期长、使用地点分散、缺少实时性管理、管理难度大等特点。数据中心机房无人值守方案，通过形象化的虚拟场景和真实数据相结合，增强机房设备、设施数据的直观可视性、提高其利用率。

在设备采集层，可对动力系统如配电、UPS等，环境系统如温湿度、漏水、新风系统等，安防系统如烟感、视频监控等，以及其他常规网络设备、机柜等进行全面监控。

在集中监控层，平台部署在应用服务器上，负责采集、存储运维数据，并对数据进行分析展示，对异常数据进行告警等。

在智能运维层，以实时监控为基础，结合自动化运维和设备控制，实现对机房的立体管控。提供多种故障预警通知方式，保证用户可以第一时间获取故障信息，进行干预，并对实时、历史的机房数据进行统计分析。

数据中心机房架构可视化

通过网络架构拓扑可视化能力，将网络数据从离线表格转移至平台内，从静态的网络架构数据转化为动态智能拓扑，实现设备、资源、链接、IP等实时更新、快速定位。

2.5D机房可视化管理

以2.5D管理视图对不同品牌、类型、版本的网络设备、安全设备、存储、主机、中间件、数据库、虚拟化、应用服务、视频监控、动力设备、环境设备等进行统一、全方位、多层次的综合管理，实时分析资源当前性能和运行状态，直观反映资源的动态变化对支撑业务的影响。

通过不同颜色、图标表示被管理对象的状态信息，助力运维人员实时了解网络架构及全网运行状态，快速感知资源、链路、流量等异常信息。提供便捷的机房综合信息展示方式，可对机房状态、机房设备量、机房设备类型等进行快速查看。

2.5D机房网络综合信息示意图

自定义机房平面结构拓扑

方案支持自定义数据中心机房网络背景，通过自定义背景、网络、设备图标，将机房中的节点按照实际情况进行摆放，并可在拓扑中直接查看机房监控的详细信息。

机房平面结构拓扑示意图

机房机柜拓扑

根据设备在机房和机柜的实际位置生成拓扑图，直观、明了地展现与真实服务器外观、服务状态、空闲位置等信息相符的网络拓扑图。

数据中心资源统一监控

本方案实现数据中心机房中网络设备、动力设备、环境设备、安防设备等的信息高频采集，并结合智能算法，实现对数据中心机房的整体架构、设备运行状态、业务可用状态的实时信息采集和感知。通过对机房中海量设备的智能解析和关联分析，助力运维人员从多个维度实现对相应告警的智能分析，解决传统运维监控中关联数据缺失，辅助排障信息不足的问题。

网络设备监控

方案支持对机房内网络设备，如：交换机、防火墙、路由器、服务器等的性能、故障进行全面监测，蔽厂商、型号差异，全面掌握机房整体运行情况和运行效能，能高效、快速、精准进行故障定位诊断。

动力设备监控

方案实现市电参数监测、UPS参数监测等功能，对机房动力设备进行实时监控、集中管控，全面了解UPS的运行状况，及时地发现并解决UPS运行中出现的各种问题，全面保障机房动力系统安全稳定。

环境设备监控

实现机房烟雾监测、精密空调监测、温湿度监测、漏水监测等功能，并在监控界面上以图形形式直观地表现出来，一旦监测数据超过安全范围，系统第一时间发送报警，为机房打造安全无忧的运维环境。

安防设备监控

实现视频监控抓拍、门禁状态监测等功能，保障机房安全，降低机房安全风险。

本方案可对不同品牌、不同型号的摄像头进行统一运维，融合网络高清、智能分析、多级管控为一体。支持监管视频监控体系涉及的视频前端设备（摄像头、卡口、编解码器），传输设备（光纤收发器、EPON 等）内场设备（网络与安全设备、主机/虚拟机、存储设备）、机房动力环境等多种设备，等统一接入、集中管理。

云资源监控

对复杂的多云异构环境、云上云下资源、信创云等进行全面管理，实现云下服务器、网络设备、安全设备、机房、机柜、专线、配件等设施，云上各类云服务器、云磁盘等云产品以及各类 1P、NAT、DNS 等资源的真正一站式运维，并支持对纳管资源的快速扩展。

自动监测基础设施及资源，其中包括云、混合云、容器、虚拟主机、网络、服务器、存储等。对进程、资源利用率、网络使用量、性能、日志、事件进行全面监测。基于对私有云中的系统资源、租户资源的监控，实现云资源的生命周期管理，通过可视化运维编排，进行云管理策略预设配置、云策略批量/定时执行、智能监控巡检。

全资源监控

基于机器学习与数据分析的无人值守IDC机房运维方案，对不同类型、不同型号、不同厂商的机房设施进行统一监控，并通过自动发现技术，生成机房立体拓扑图，将机柜、设备、配电柜、温感、湿感、烟感、空调、UPS、蓄电池及其他设备可视化呈现。

对基础环境，包括机柜位置、空调、消防、安防、弱电、UPS等，进行运行维护，保障机房环境正常稳定。
对网络环境，包括交换机、路由器等设备，以及由这些设备组成的所有网络，进行网络运行状态监控，定期优化网络配置，提升网络运营效率。
对于服务器和存储，包括小型机、服务器、存储设备、SAN交换机等基础硬件，监控其实时运行状态，快速对出现的问题和变更进行处理。
对基础软件，包括各种操作系统、数据库、中间件、备份软件等，进行优化配置，实时监控，确保快速处理故障，及时进行变更、升级等操作。
对其他类型设备，通过自定义设备类型及其设备资源的方式，极大地提高了方案对不同设备类型的支持能力，真正实现了对设备及其资源的全面化管理，达到管控万物的目标。

无人值守的异常告警与故障自愈

实时故障预警，及时洞察异常信息

通过统一的故障管理平台，将各个模块中的监控信息统一采集、分析，实现整个机房运维中各种事件信息、设备故障、网络异常、流量异常等告警，全面采集数据中心机房内所有联网设备，如存储、服务器、路由器、交换机、防火墙、虚拟化、云、UPS、烟感、温度、漏水、空调等设备、资源、应用、服务等的状态信息，通过对告警机制以及阈值的设置，第一时间获取准确的告警信息，快速定位告警设备，提升告警处理效率，降低因设备故障带来的损失。

异常事件管理

将事件和告警分离管理，接收设备/服务器主动发送的消息，集中处理后，及时地通知用户，并可以通过集中的管理界面进行管理。接收设备/服务器主动发送的消息，极大地提高了管理的主动性，通过统一界面集中管理事件，降低了管理的难度。

无人值守的故障自愈

以网络状态监控、设备性能监测为基础，结合网络流量侦测功能，动态发现网络故障。智能判断告警类型及级别，自动触发预设的故障处置流程，复杂告警指派工单专人处理，常规告警触发安全策略全自动处理。

无人值守的机房资源巡检

传统的人工巡检，尤其是应用巡检，缺乏统一的规范、标准，导致巡检的范围和深度都存在一定的局限性，并且是基于人工的手工统计，工作效率比较低，同时耗费较大的人力资源。

本方案依托平台对机房设备、应用、系统等预设巡检策略，收集信息数据并对其健康情况进行分析。将以前依赖手工进行的日常巡检转换为自动化、定时执行的巡检策略。

无人值守的设备远程配置

网络承载的业务经常发生变更，面对业务的变更运维工程师往往要对大量设备进行操作，此时如果依靠工程师逐一登录设备进行命令下发、策略配置，将产生大量重复性的工作，不但导致运维效率低下，也不可避免地产生人为配置错误。

用户可通过网页对平台进行访问，通过对纳入监控的设备进行单独、批量的配置操作，设备策略远程配置管理，可以自动批量进行设备配置修改，并可对设备配置进行备份、对比、恢复，宕机后设备配置可快速复原，保障设备及时恢复运行，全面提升配置效率、质量和安全性。

多类型多厂商设备支持

针对不同类型的设备，支持进行各种控制、配置操作。

对服务器/主机/虚拟化，支持一键开关机、进程管理、应用管理、容量管理等
对交换机/路由器，支持ACL、QoS、流量策略、端口策略等
对安全设备，支持防护管理、认证管理、NAT管理、VPN管理、内容控制等
对数据库/中间件，支持空间管理、池管理、会话管理、连接控制等
对传输设备，支持终端管理、链路管理、信号控制、功率配置等
对其他设备，支持结合用户实际场景，通过拖拽流程的方式实现自定义管控策略

对不同厂商，如Cisco、HP、Nortel、Juniper、3Com、D-link、Foundry、Dell、Proxim、NetScreen、华为、H3C、锐捷、中兴等多家厂商的网络设备。

设备策略备份对比

方案通过配置文件批量备份、下载、周期性备份、查看等功能，为用户管理网络做出合理的建议提供数据支撑。

全场景自动化运维

随着数据中心建设规模和复杂度的增加，运维的工作变得更加繁琐。在运维的工作中，有相当大部分工作都是重复性的指令进行操作。将一些重复性的、逻辑关系明确的操作工作，如：变更、扩容、业务部署、监控、故障恢复等以组件、策略的形式托管至平台中进行维护和管理，用户根据需求从策略库中选取对应的策略，并采取可视化拖拽的编排方式装配成运维业务流程，最后触发执行即可完成期望的运维变更任务，从而实现高效、稳定、安全的智能运维。

全场景实现自动灾备切换

通过一键启停的应用控制和场景触发，简化人工操作，实现快速灾备切换。保障在遇到系统故障、业务崩溃等灾难时，自动将源端业务切换到备端数据中心，从而保障业务的连续性，实现业务的高可用。

灵活编排，多运维场景支持

自动化运维编排，可实现完全根据用户场景，定制化设计运维剧本，真正将运维任务托管至平台，全面解放人力。

开发环境自动化，如软件代码自动化更新、自动化编译、自动化打包、自动化发布预警生产环境。
应用发布自动化，如服务自动化升级、软件自动化部署等。
故障自愈能力，如网口异常自动关闭、磁盘爆满自动清理、非法设备入侵阻断、CPU空间不足自动重启等。
定时服务重启，如在工作日每天晚上定时关闭应用，每天早上自动重启应用等。
智能批量设备管控，如批量设备策略执行，当设备的配置状态不一时，能够基于当前设备自身的状态自动决策适合于本设备的管控操作等。
定期设备健康状况自检，如定期设备健康状态自检、服务运行状态自检等。
基于HTTP接口自动化，如基于HTTP接口的工单自动化、审批自动化、业务自动化等。
高可用服务自动切换，如主备数据库运行状况自检异常自动切换，服务运行状态检查主备切换等。
虚拟化、云服务资源自动化扩容，如在虚拟化环境资源不足时自动化根据实际情况进行扩容。
日常运维自动化，如自动化定期执行批处理cmd\sh脚本、自动化定期数据清洗、自动化定期环境检查并导出报表等。

积累形成运维知识库

在数据中心日常网络运维服务中，重复的故障和请求约占到70%，只有30%的故障真正需要专业人员来解决，知识经验对提升重复工作的效率起到了至关重要的作用。

通过平台自动化运维的能力，将只能有专家处理的各类操作和判断转化为可存在于平台内的流程，形成可保留可复用的运维知识，减少因误操作带来的损失，保障运维效率。以规范的流程进行运维作业，保障关键数据的完整合规。

全网带宽、流量监控与回溯分析

方案基于海量流量数据的存储挖掘，实现对网络流量的侦测分析。通过网络流量分析技术，采集、分析、存储所有网络流量，回溯分析数据包特征、异常网络行为，以多维数据分析和深度挖掘为手段，实现数据包层面的流量追踪，发现潜伏于网络中的未知攻击。

方案支持大容量、长时间存储流量数据，长期实时保存原始数据包。通过高效的数据检索，实现流量数据的快速回溯。对已发生的流量行为进行回溯分析，迅速定位异常流量，对其进行挖掘、分析、取证，实现多维根因追溯，为迅速定位问题发生原因提供更全面的分析依据，同时为网络安全提供强有力的数据分析保障。

业务可用性管理

本方案以保障业务可用性为基础，通过对承载业务的IT基础设施构建真实的业务模型。

方案通过构建业务系统与部门、IT资源及关键指标的关联关系，整合前端、应用、后台任务、外部服务、数据库及基础设施，直观呈现面向服务的业务系统体系架构；通过影响传递，准确反映设备异常对核心业务、用户造成的影响和威胁，并对造成业务影响的故障进行实时告警，快速查明导致业务中断的故障源，帮助运维人员做出及时响应，保障业务连续性。

业务系统示意图

业务可用性拨测分析

针对业务应用性能与用户体验进行检测分析，直观、便捷地帮助运维人员对数据中心涉及的办公系统、交易系统、支付系统、官网、手机APP系统等进行监控，掌握业务的运行状态和健康水平，了解业务动态变化趋势，快速定位故障源，降低运营风险。

业务看板示意图

业务瓶颈根因定位

方案实现完整全链路调用链追踪，包含详细的调用链访问路径和性能等访问信息，以及相关的各类请求参数等业务数据指标，为故障定位、根因分析提供详尽的参考数据。

通过全面的业务数据可视化能力，既可集中呈现业务数据的用户体验状态，也可以基于应用、设备实时监控、呈现业务各节点的实时运行状态，包括用户体验、节点可用性、节点负载等状态信息。基于自定义阈值自动监测，异常指标自动触发告警，快速定位业务瓶颈根因，并可根据用户自愈策略，触发自动运维实现故障自愈。

可视化数据分析

利用图形、图表、图表等易于理解的形式，提取和分析大量复杂的数据中心网络中各类运维数据，呈现分析结果，从而帮助运维人员在短时间内更好地理解和获得更多的信息，帮助运维部门能够实时了解业务和其所依赖IT资源的运行状况，以及提供系统运维和优化的指示和依据。

多设备性能对比分析

方案支持选择多个设备进行同维度性能数据分析，提供可视化性能对比视图。如用户获知宿主机的CPU利用率逐渐增加，即可对其中的虚拟机性能进行对比分析，以定位高消耗的虚拟机，快速找到性能瓶颈节点。

资产全生命周期监管

对于数据中心的网络资产管理，采取统一数据标准，对整体网络资产进行梳理和调用，避免资产信息在运维系统和实物间的差异，减少网络运维过程中信息不一致、数据不统一等问题通过平台将资产实物与运维数据库一一对应，解决网络设备在日常运维过程中出现“脱管”或“半脱管”的问题，实现对整体数据中心网络内IP、ARP、MAC接口数据，访问控制信息，应用系统信息，网络地址及性能容量、设备资产配置容量、机房布线容量信息的集中管理。