银行数据中心机房动力环境监控系统设计与优化

news2024/12/26 23:31:37

安科瑞电气股份有限公司 上海嘉定201801

摘要:结合银行数据中心建设项目,设计银行数据中心机房动力环境监控系统,分析银行数据中心机房监控对象、搭建系统监控架构,给出监控实现方法,*后针对运行一段时间出现的问题,提出优化措施和建议,对同类工程建设具有一定借鉴意义。联系:158.217.13.522

关键词:数据中心;动环监控;系统架构;网络拓扑

0引言

银行数据中心机房的供配电和精密空调等基础设施多,而设备维护人力资源少,因此增加了基础设施运维人员工作强度和难度。为及时发现设备故障并处理,本文设计了动力环境监控系统,并针对运行中出现的主要问题给出优化措施。

1系统监控对象

银行数据中心机房动力环境监控系统(以 下 简 称 为 动环监控系统)的监控对象可分为三大类:第一是对设备动力系统实时工作状态进行监控,如供配电系统开关状态、UPS和柴油发电机等设备的运转参数和状态等;第二是对机房内运行环境进行监测与控制,如温度、湿度、漏水、氢气浓度及消防等;第三是对人员设备进出进行监控,如门禁、摄像头、防入侵等安全类设备。而机柜内服务器、交换机、加密机等安全或网络类硬件设备运行状态并未纳入,不在本文探讨范围。

2系统架构设计

2.1设计原则

银行机房动环监控系统设计应遵循“集中化、一体化、智能化”的设计模式,采用高标准的监控系统设计原则,实现主动、高效、流程化的监控管理。

(1)稳定性。动环监控系统作为机房基础设施“管家”,要求24h不间断提供服务,这不仅依赖动环监控设备供电的稳定性,还依靠网络通信的可靠性。

(2)安全性。动环监控系统信号采集回路应具备良好的保护机制,不会因采集回路故障而造成被监控基础设备误动作或故障,且系统应具备自检功能,在基础设施故障时能及时通过电话或短信等方式告知运维人员设备故障部位、故障性质等。

(3)开放性。动环监控系统应符合开放式设计标准,预留多种对外接口和兼容MODBUS-TCP、OPC、OD-BC、BACNET等标准通信协议,以实现与第三方厂商设备数据的传输与交换。

(4)可扩展性。动环监控系统应可扩容及易维护,以适应数据中心机房的扩容、监控设备增加等变动情形。

2.2系统架构

动环监控系统采用计算机网络、现代通信技术和控制技术,对机房动力设备及环境等进行实时监控,实现无人值守机房的现代化管理。硬件上采用三层架构:底层为现场设备层,由被监控设备、I/O采集模块等构成;中间层为数据采集处理层,由各串口服务器、动环服务器、交换机等构成;顶层为数据应用层,由监控平台或客户端等终端构成。软件上采用B/S结构,在机房中通过安装各种传感器及数据采集设备进行底层数据采集,将所有子系统集成在统一的用户界面下,对各个子系统进行统一监视、控制和协调,从而构成统一的协同工作的整体。系统架构设计如图1所示。

图1动环监控系统架构设计

3系统实现

3.1工程概况

数据中心主机房设置在6F,按功能细分为服务器机房一、二、三,网络机房,配电间A、B;配电间重要断路器或开关、电量仪、UPS及防雷,主机房内新风机、精密空调及漏水检测、机柜PDU、温湿度、防入侵(红外线检测)需纳入动环监控系统。UPS蓄电池室设置在-2F,柴油发电机间设置在-1F,三电源切换室设置在1F,运维室设置在7F,消防气瓶间设置在8F。动环监控系统的监控对象见表1。

3.2硬件构成

动环监控系统由2台服务器(双机热备)、2台客户端PC机、监控大屏、核心交换机(A、B网)、视频汇聚交换机、门禁接入交换机、采集箱及串口服务器等构成。

3.2.1数据采集层核心设备

采集箱负责开关量、温湿度等原始数据的采集,是整个监控系统的核心,采用深圳计通机架式,大小为2U,可安装在机柜内,箱内采集模块通过端子排与被监控设备相连。串口服务器采用计通OAO-9000E嵌入式智能管理单元,该设备集数据采集、解析、存储告警于一体,具备正确故障定位能力,可满足不同厂家设备数据信号的接入与“翻译”。

3.2.2现场设备层

现场设备层的设备分为需接协议转换器设备、需提供通信协议设备、模拟量直集模块和开关量直集模块四类。

(1)需接协议转换器(串口服务器)的设备包括精密空调、漏水绳、机柜PDU、电量仪、UPS电源、蓄电池、柴油发电机。这些设备需相应厂家提供通信接口及其开放的通信协议,以便对各设备运行参数或状态进行监测。

(2)需提供通信协议的设备包括视频监控和门禁子系统。这些设备需相应的厂家提供通信协议,由动环监控系统进行集成和管理,能实现在动环监控端点击任意摄像头调出相应摄像头的实时监控画面和实现对任意门的开关控制。

(3)模拟量直集模块。①温湿度监测:通过在机房内的重要区域、冷热通道和机柜内部安装温湿度传感器,实时采集温湿度的变化情况和热力分布情况。②氢气监测:通过在电池间安装氢气采集模块,可实时检测PPM值是否超标,及时发现氢气泄漏的电池隐患;当氢气PPM达到设定的阈值时,系统发出报警。

(4)开关量直集模块。①重要开关监测:通过监测配电柜内重要断路器的辅助触点状态,判断开关的通断状态;当监测的开关状态与设定默认状态不一致时,监控主系统发出报警。②防雷监测:通过监测防雷器的遥信触点,实时监测防雷器状态;当监测的防雷器状态与设定默认状态不一致时,监控主系统发出报警。③新风排烟监控:通过在新风和排烟管道中安装压差开关检测压差信号,监测机房内新风机和排烟机的运行状态,可远程控制新风机的启停。④防入侵监测:通过在机房内安装红外探头以监测机房内人员移动状态;当红外探测器的状态异常时,系统发出报警。⑤消防监测:通过采集消防控制主机报警输出点的信号,实时监测机房内各分区的消防状态;一旦发生报警,系统就自动切换到相应的监控界面,火警状态图标变红且闪烁显示,同时产生报警事件并记录存储。

3.2.3供电与组网动环监控系统

硬件设备的供电需双路UPS电源,以确保供电可靠性,满足24h不间断提供服务的要求;而且重要的硬件设备要求主从配置,如动环服务器具备双机热备功能,利用“双监控系统+双数据库”模式,保证系统的不间断运行。

动环监控系统硬件设备的组网要求A、B双网运行设备逐级汇接模式,网络设备由POE交换机、接入交换机、汇聚交换机、核心交换机组成。POE交换机负责视频摄像机的供电和数据传输;接入交换机使用二层有VLAN功能的交换机,负责采集单元中数据收敛;汇聚交换机使用三层交换机,用于汇聚POE交换机数据,避免二层网络过大导致环路,也减轻了核心交换机的数据负担。动环监控系统的网络拓扑结构如图2所示。

图2网络拓扑结构图

3.3软件平台

动力环境集中监控平台软件采用B/S结构,通过在机房中安装各种传感器及数据采集设备进行底层数据采集,外厂家设备需提供通信接口及其开放的通信协议,进行数据“翻译”处理,通过机房监控平台集中监控,全中文、图形化;界面结构层次清晰,实时反映数据状态。集中监控平台能运行于中文Windows操作系统。动力环境集中监控平台软件采用模块化设计,可划分为采集层、处理层、管理层及展示层,如图3所示。其中,个人工作平台能提供动环监控主界面、告警事件列表、待办事项、告警等级统计、PUE实时曲线、基础设施分类饼状图等可自由选择的个性化定制界面。报表管理可根据机房管理原有报表格式生成详细的数据记录报表和数据分析报表,存储格式为Excel或PDF;数据存储时间需长于1年,且具有防篡改功能。软件交互界面中,动环监控模块可直观看到各个机房实时运行状态,设置机房名称、设备图标等超链接可直达各子界面,通过温湿度监测、门禁、视频监控、温度场、漏水监测、红外监测、消防监测等按钮可直达各分画面,并提供基于电子地图、实时曲线、饼状图、折线图、直方图等多形式数据展现方式,便于运维人员分析设备历史运行趋势,以判断设备状况。

图3动力环境集中监控平台软件架构图

系统告警采取短信、电话、现场语音三种报警结合的方式,报警等级分为紧急、重要、一般三个层次,不同级别的报警采用不同报警方式实现报警信息的发送。无论系统处于任何画面,都可自动提示告警,显示告警信息。当一个报警状态解除时,系统可自动发送相应的恢复短信,以便机房管理人员随时掌握相关动态。

4系统运行中的问题及优化措施

4.1常见问题

动环监控系统运行以来,出现过监控平台数据不刷新,监控平台电脑“假死”,采集数据不准确,系统告警漏报、误报、频发(告警信号抖动)及延迟报警问题。

(1)监控平台数据不刷新。这种情况在实际运维工作中*常见,整个监控平台软件数据不刷新或系统中某设备数据不刷新,导致运维人员无法收到告警信息。

(2)采集数据不准确。这种情况主要体现在监控画面显示的数据与现场设备实际运行数据不符,若画面显示的数据超过告警的阈值就有可能造成系统误告警或不告警,影响设备的运行安全。如智能仪表部分测点值与系统显示值不一致或单位不同,将导致该设备失去监控。在冷热通道温度检测过程中,监控软件显示的数值超过告警上限阈值引发告警,而运维人员现场检查后并未超限,造成人力资源的浪费。

(3)实时告警问题。动环监控系统告警漏报、误报、频发、延迟报警及告警信号抖动等问题是困扰数据中心运维工作人员的严重问题。数据中心运维值班人员7×24h应急值班,告警信息误报、频发将给人员造成很严重的身体伤害;而告警信息的漏报与延迟将导致设备出现故障时未能及时通知从而导致更严重的机房事故。

①告警漏报:告警漏报主要原因是告警级别设置过低或设备通信中断或设备信息采集故障等导致重要告警信息缺失,未能及时上报运维人员,从而错失重要告警信息,将导致严重后果。

②告警误报:告警误报是衡量动环监控系统可用性的重要指标,采集装置受到电磁干扰或周围环境改变、协议解析有误、采集装置故障、仪表故障、板卡端口故障等均会引起误报,如精密空调四周部署的漏水绳因灰尘或沙土等导致电阻变大从而引起误报。

③告警频发:告警频发类似于“信息轰炸”,可分为两种情况:一是同一告警信息频繁多次报送给运维人员,原因是当某一测点触发告警时,采集值在告警阈值附近来回波动;二是同一事件触发机房多个动力设备同时告警,如机房停电或闪停后恢复,各相应重要开关、电量仪、UPS、机柜PDU等多设备引起的“电话短信轰炸”。

④告警延迟:告警信息是否及时上报给运维人员是考验监控系统是否合格的重要指标之一,而上报时间应设置为用户可选项,如电力闪断立即恢复的情形,可设置一定延时;而重要信息应能在15s内完成上报。

4.2优化措施

(1)监控平台数据不刷新问题的解决。运维人员需熟知动环监控系统架构和网络拓扑,从单点设备故障到网络故障进行排除,对重要设备必要时可优化系统结构或网络拓扑,对采集设备或装置进行冗余备份,或对重要监控对象通信采用A、B双网通信。

(2)采集数据准确性问题的解决。检查智能仪表装置或第三方设备的通信协议是否准确,与原厂家技术支持核实设备协议文本正确性,如更换智能仪表未核对通信协议,将导致数据不准确或无法采集。检查通信故障,首先检查物理连接是否存在问题,然后对通信配置进行检查,检查波特率、校验位、串口的设置等是否存在问题。检查采集装置或采集箱等设备、温湿度探测器等硬件自身是否存在故障,排除设备硬件故障导致数据采集不准确的问题。

(3)实时告警问题的优化。首先严格控制智能设备串接数量,避免串接设备数量过多引起数据上传缓慢,进而导致告警延迟。合理配置FSU扫描时间,通过调整动环设备扫描周期来缩短采集装置对各个测点的问询时间,以提高采集速度。其次合理选择设备测点,对重要测点进行合理选择和优化,避免扫描过多的测点造成采集器负担过重,进而影响采集效率。另外,运维人员应避免非重要数据的扫描占用过多资源,引起采集过慢。再者通过软件手段控制告警频发和非合理数据引发的告警,可增加告警回差屏蔽功能,数据采集值超出合理范围的,通过设置有效的阈值上下限,屏蔽此部分数据,消除误告警。电磁干扰在传输过程中产生的误告警,除在软件端进行有效门限屏蔽外,还可在传输线路上套装抗干扰磁环以减少干扰。*后采用人工智能等先进手段增加告警逻辑关系分析和对告警信息进行合理分类。如增加告警溯源功能,划分主次告警,确定告警产生设备的主从关系,进而对告警信息进行有效优化,以减少告警“信息轰炸”,同时不漏掉重要告警信息。

5安科瑞动环监控系统解决方案

通过数据中心动环监控系统,实现了对数据中心的门禁状态、水浸状态,烟雾状态,视频状态,环境状态,高低压配电状态,设备运行状态进行实时监测,并进行实时报警,保障数据中心正常运行,避免运行环境的失控导致配电设备运行故障,保证维护人员安全,延长设备使用寿命,减少配电室粗放式管理导致成本过高。同时实现动环监控并对各用能耗能进行能效分析,帮助用户实现用能效率的优化。

5.1系统功能

(1)展示当前数据中心总能耗,IT能耗,空调能耗,及其他能耗并且计算出当前数据中心实时PUE值,通过仪表盘形式直观展示。

(2)选择查看数据中心的中低压配电系统主接线图,并在一次图显示配电系统当前遥测、遥信数据和状态。实时监测各配电柜的电压、电流等电力参数,变电站的温湿度、烟感、水浸、门禁等环境情况。

(3)电气接点温度实时监测,断路器触头、触臂、母排和线缆连接等位置安装无线测温传感器监测接点温度,便于提前发现温度异常导致的事故。

(4)监测各变压器各项参数,包括负载率、频率、功率因数、三相不平衡度等,并且显示历时曲线图,数据实时变化。帮助用户直

(5)电能质量在线监测,可以监测电流和电压谐波畸变率、电压暂升暂降暂中断等暂态事件记录、ITIC容忍曲线等

(6)系统采集UPS输入、输出端和旁路三相电压、电流、有功功率、功率因数频率,同时监测UPS温度、蓄电池电压、当前负载下的剩余时间等数据。

(7)展示单体电池电压、内阻和温度,预测电池带载时剩余时间,每节电池数据均可以设置异常报警,及时发现蓄电池异常。

(8)展示精密配电柜内进线和馈线回路电气参数,包括电流电压功率电能以及开关状态,并可以对数据进行报警设置和分级,数据取自精密配电柜测量模块。

(9)展示智能小母线的始端箱和插接箱电气参数,包括电流电压、开关状态、插接点温度,并对数据进行报警设置和分级。

(10)通过平面图显示数据中心能源分布,设备分布情况,并显示设备能耗数据,点击平面图上设备可以进入具体设备监控界面。

(11)实时显示当前数据中心PUE值以及历史PUE曲线。并且显示各分项用能的用能情况及用能排行。监测各变压器运行及负载情况,给出本月变压器输出电能排行。

(12)显示电能消耗日/月/年报表,并可对具体回路选择曲线图、饼图进行展示。对数据中心用电数据进行同比、环比分析比较,查看用电趋势。

(13)监测精密空调的回风温湿度,出回水温度,并可以设定精密空调的温湿度,达到更好的控制效果。

(14)监测数据中心温湿度、开关门、水浸、烟雾、噪声、气体浓度状态等参数。曲线图直观明了,同时支持历史数据查询

(15)通过列表显示各类报警事件数量,通过柱状图显示逐日报警数量,提供报警总数以及增长趋势。

维管理功能,可针对数据中心各主要设备进行巡检派工,消缺,抢修等维护工作。

5.2 安科瑞动环监控系统选型方案

6结语

动环监控系统在银行数据中心基础设施设备的运行维护中发挥重要作用,在一定程度上扮演了运维人员“眼耳鼻”的角色。动环监控系统的正常运行在于7×24h不间断服务和重要告警信息能及时通知相关运维人员。而动环监控系统稳定可靠正确运行的关键在于系统架构、供电及组网的设计。在运维过程中,系统难免会出现一些问题,需不断总结经验、梳理出问题并进行优化改进。本文基于银行数据中心动环监控系统建设实际出发,对该系统进行设计并实现,同时对运行出现的问题进行合理优化,结果证明该策略的可行性。

【参考文献】 

【1】万立勇.数据中心机房动力环境监控系统设计及优化探究.[J].电工技术,2022(15):164-167.

【2】李可,王甲甲.电力企业数据中心基础设施运行管理平台设计[J].数字技术与应用,2021(39):196-197.

【3】安科瑞企业微电网设计与应用手册2022.5版

作者简介:谢继东,男,现任职于安科瑞电气股份有限公司,主要从事数据中心的设计与应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1201920.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

关于淘宝API接口你必须了解的API2.0

据说API从1.0升级到2.0啦?今天我们来聊一聊关于淘宝API接口你必须了解的API2.0 然而 作为新手小白 …… 并不懂API是毛线 好吧 …… 今天 我们就来上一堂小白入门课 几句话聊聊API 高级淘客 请忽略 请批评 请交流 还有请看到最底下 有重磅消息&#xf…

人大女王金融硕士毕业生:追风而遇、沐光同行;心羽为翼,不负韶华!

中国人民大学-加拿大女王大学金融硕士2022-2023级行业高管班 新加坡大东方人寿北京代表处首席代表 01、社会发展推动金融业持续迭代,为更好应对未来挑战,持续学习和自我升级非常重要! 2015年以来,新一代数字化和智能化信息技术…

halcon获取轮廓属性的时候报错:Contour attribute not defined(HALCON错误代码:3261)

报错截图: 在使用以下算子,获取xld的distance属性时,或者其他属性时报错。 get_contour_attrib_xld (ObjectSelected, distance, Attrib) 如果是属性报错。这里需要在调用获取轮廓属性之前先获得轮廓之间的距离。 使用以下算子:…

如何构建可视化设计中的视觉层次?

【什么是视觉层次感】 第一层级:主导元素,即最重要的视觉信息。能够很清晰的传达最重要的信息,你的主导层级通常由图形或者重要的视觉原色组成; 第二层级:应该是数据焦点,引导用户查看重要的数据指标&…

解决@Autowired警告

一.前言 再使用springboot自动注入Autowired注解时,下方会出现波浪线警告,这是什么原因呢?我们细看提示说明已经说的很清楚了,Field injection is not recommended “不建议使用字段注入”,字段注入是指通过直接将依赖项注入到类的字段中来实现依赖注入。这种方式存在一些问题…

网易数帆:云原生向左,低代码向右

网易数帆,前身是网易杭州研究院于2016年孵化的网易云,历经7载探索与沉淀,如今已进化成为覆盖云原生、低代码、大数据和人工智能四大技术赛道的数智化服务提供商,服务于金融、央国企、能源、制造等领域300余家头部企业。 近日&…

『亚马逊云科技产品测评』活动征文|Amazon EC2 的讲解及相关服务

授权声明:本篇文章授权活动官方亚马逊云科技文章转发、改写权,包括不限于在 Developer Centre, 知乎,自媒体平台,第三方开发者媒体等亚马逊云科技官方渠道 Amazon EC2 的讲解及相关服务 一、什么是 Amazon EC2?二、何为…

centos7 安装网络文件共享NFS详细过程

网络文件系统,英文Network File System(NFS),是由SUN公司研制的UNIX表示层协议(presentation layer protocol),能使使用者访问网络上别处的文件就像在使用自己的计算机一样。 多个服务器之间需要共享文件,通过NFS服务共享是一个简…

“咸阳杯·美洲队中国行”国际足球邀请赛圆满举办

巴拿马1:0乌拉圭 “咸阳杯美洲队中国行”国际足球邀请赛圆满举办 11月12日下午3:00,由陕旅集团联合承办、陕体集团协办的“咸阳杯美洲队中国行”国际足球邀请赛在咸阳奥体中心开赛。两支美洲劲旅:巴拿马国家队与乌拉圭国青队龙争虎斗&#…

基于springboot实现生鲜超市管理的设计与实现系统【项目源码】计算机毕业设计

基于springboot实现生鲜超市管理的设计与实现系统演示 Java技术 Java是由Sun公司推出的一门跨平台的面向对象的程序设计语言。因为Java 技术具有卓越的通用性、高效性、健壮的安全性和平台移植性的特点,而且Java是开源的,拥有全世界最大的开发者专业社群…

AlNiCo铝镍钴永磁材料

1970年代稀土永磁材料发明之前,AlNiCo铝镍钴合金一直是磁性能最强的永磁材料,不过由于成分中包含战略性金属钴和镍,导致成本较高,随着铁氧体永磁和稀土永磁的相继问世,铝镍钴材料在众多应用中逐步被取代。但在一些高温…

屏幕截图软件 Snagit mac中文版软件特点

Snagit mac是一款屏幕截图和视频录制软件,它可以帮助用户快速捕捉屏幕上的任何内容,并将其编辑、标注和共享。 Snagit mac软件特点 多种截图模式:支持全屏截图、窗口截图、区域截图、延时截图等多种截图模式,满足不同用户的需求。…

求求了 谁好人家还搞托运!!

求求了 谁好人家还搞托运!! 真相了 是我这个好人 转眼又是一年之冬 北方的朋友已经开始“南迁”了 或者在北方生长的宝子也会不习惯冬天吗? 你又是来自哪个城市呢? 所以过冬这件事情不容小觑 而中国唯一的热带气候省份-海南 就成了香饽饽 但有个问题令人犯愁 北方来到中国最南…

(论文阅读26/100)Weakly-supervised learning with convolutional neural networks

26.文献阅读笔记 简介 题目 Weakly-supervised learning with convolutional neural networks 作者 Maxime Oquab,Leon Bottou,Ivan Laptev,Josef Sivic,CVPR,2015 原文链接 http://www.cv-foundation.org/open…

[SOC] MBIST (Memory Built-In Self Test) and Memory Built-in Self Repair (BISR)

存储器构成了 VLSI 电路的很大一部分。存储系统设计的目的 是存储大量数据。[1] 存储器不包括逻辑门和触发器。因此,需要不同的故障模型和测试算法来测试存储器。 MBIST 是一种自测试和修复机制,它通过一组有效的算法来测试存储器,以检测典型…

Lightroom Classic 2023 v12.4

Lightroom Classic 2023是一款图像处理软件,是数字摄影后期制作的重要工具之一。与其他图像处理软件相比,Lightroom Classic具有以下特点: 高效的图像管理:Lightroom Classic提供了强大的图像管理功能,可以轻松导入、…

C++标准模板(STL)- 类型支持 (受支持操作,检查类型是否有拥有移动赋值运算符)

类型特性 类型特性定义一个编译时基于模板的结构&#xff0c;以查询或修改类型的属性。 试图特化定义于 <type_traits> 头文件的模板导致未定义行为&#xff0c;除了 std::common_type 可依照其所描述特化。 定义于<type_traits>头文件的模板可以用不完整类型实例…

Linux-AWK(应用最广泛的文本处理程序)

目录 一、awk基础 二、awk工作原理 三、OFS输出分隔符 四、awk的格式化输出 五、awk模式pattern 一、awk基础 使用案例&#xff1a; 1.准备工作 请在Linux中执行以下指令 cat -n /etc/passwd > ./passwd 练习&#xff1a; 1.从文件 passwd 中提取并打印出第五行的内…

初学者向导:Sketch设计软件自学教程大全

Sketch软件是Mac平台上流行的矢量图形编辑软件&#xff0c;旨在帮助用户创建各种设计原型&#xff0c;如网站、移动应用程序、图标等。Sketch软件的设计风格简单明了&#xff0c;界面操作简单易用&#xff0c;非常适合UI/UX设计师、平面设计师等数字创意人员。本文作为软件自学…

C语言—数组入门

数组定义方式 int一个占4个字节&#xff0c;char一个占1个字节&#xff0c;double一个占8个字节&#xff0c;所以三个最后都是24. 数组不能被动态定义 下面代码是不可行的&#xff01;&#xff01;&#xff01;访问数组中元素 下标索引从0开始 如果定义数组int a[10]&#…