摘要:不间断电源UPS (Uninterruptible Power System),主要是由整流器、 逆变器、静态旁路和储能装置等组成;具备高可靠性、高可用性和高质量的独立 电源。通过对收集的 UPS 故障案例进行分析,从施工,调试和运行三个方面筛选 出四个故障案例与大家进行分享。
关键词:数据中心;UPS;滤波电容;旁路带载不均衡
1. UPS原理
1.1 UPS 结构简图
1.2 主要元器件和功能介绍
(1)整流器(Rectifier):是一个将交流(AC)转化为直流(DC)的装置,由整流桥、 控制逻辑和滤波电路等组成。主要功能为:1将交流电(AC)变成直流电(DC), 经滤波后供给负载或逆变器使用;2为蓄电池提供充电电压,起到充电器的 作用。
(2)逆变器(Inverter):是一个将直流(DC)转化为交流(AC)的装置,由逆变桥、 控制逻辑和滤波电路等组成。应用于 UPS 时,将直流电(DC)转化为 50Hz 交流电(220/380AC)。
(3) 静态旁路:可以隔离逆变器并提供额外交流旁路电源向末端负载供电,由旁路静态开关、控制逻辑和驱动电路等组成,并与逆变器电源输出静态开关进行联锁,用于负载电源的不间断切换。
(4) EMI 滤波:由串联电抗器和并联电容器组成的低通滤波装置(常用有:LC 滤波器/LCL 滤波器),对高频干扰信号有较大的阻碍和抑制作用。其主要作用: 1抑制交流电网中的高频干扰对设备的影响;2抑制设备(高频开关电源)产 生的高频干扰对交流电网的影响。
(5)滤波电容:是并联在整流电路输出端,用于降低交流脉动波纹系数、平滑直 流输出的储能器件。采用直流供电的电子电路中,滤波电容能使直流电源输 出平滑稳定,同时降低交变脉动电流对电子电路的影响,还可以吸收电子电 路工作中产生的电流波动和交流电源串入的干扰,使电子电路的工作性能更 加稳定。
(6) DC/DC变换器:是将基础直流电源(电压固定)转变为其他电压值的直流变换 装置,也称为直流斩波。按功能类型分为:降压斩波器、升压斩波器和降压/升压斩波器。
(7)旁路追踪:UPS 的旁路追踪功能是实现不间断供电的重要控制技术之一。
1) 由于故障发生的随机性,UPS本身不知道在什么时间需要切换至旁路。所 以逆变器会时刻跟踪旁路,用于调整逆变器的输出电源波形,使之与旁路 电源同频率、同相位、同幅度;这样 UPS 的逆变器和旁路之间才能进行不间断切换。
2) 为了保证UPS输出合格纯净的电源,UPS允许的频率、相位和幅度的偏差很小,这样就与市电有差异,存在一个同步窗口(可参考 UPS 手册关于输 出电能质量的各项指标和规定)。在同步窗口范围内,逆变器会持续追踪 旁路电源;如果旁路电源的质量超出同步的范围,逆变器输出就不会跟踪 旁路,将以自己的本征频率、相位和幅度工作,并触发内部事件记录。通 常记录事件信息内容有两种: 1旁路超限,2旁路不同步。
2.故障案例
2.1 案例一:开启 UPS 进行并机时发生电容损坏,设备顶部冒烟(蒸汽)并喷射出大量电解质
(1)故障背景:两台 600kVA 的 UPS(1#、2#)并机系统,进行并机时突发电容故障。(2) 故障情况:1#和 2#UPS 送电正常,进行并机操作时,2#UPS 顶部冒烟(蒸汽)并喷出大量电解质。由于是 UPS 开机时发生故障,工程师应急处理及时并未发生短路和其他次生故障。
(3) 故障原因:经过拆机检查后,发现 C 相逆变器模块有一个电容(直流母线)内部短路损坏。
(4) 故障处理:更换 2#UPS 的 C 相逆变器模块。
(5)总结分析
1) 故障UPS是2018年9月完成综合测试投入使用,2020年2月发生电容损坏故障;由于 UPS 运行时间约 1 年半左右,对该批次的电容质量产生担忧。 在故障维修完成后,要求 UPS 生产厂家将故障配件进行检测,并对同批次 电容使用情况进行追踪。
2) 通过对厂家提供的测试报告内容进行分析,以及同批次电容也无不良记 录,初步判断为个别元器件随机发生的故障。后期对 UPS 运行情况的跟进, 该数据中心内同批次的 36 台 UPS(含故障机组)使用至今约 5 年,设备运行 正常,并未发生过类似故障。
(6)电容的使用寿命和预防性维护
1) 满足以下任何一个条件,均可以判断电容的工作寿命已经结束。
a)外观:不能有明显异常,比如破损、鼓起、漏液、爆裂等。
b) 容量:低于产品手册的规定值;无规定时,容量<80%初始容量。c) 其他:电容的漏电流或损耗超过产品手册内的规定值。
2) 数据中心UPS配电室的温/湿度环境较好,电容使用5~6年后一般不会失 效,但漏电流和损耗会增加。随着继续使用的时间越长,发生失效的概率 加大,UPS 自身又无法监测电容的寿命,就如一颗“哑弹”时刻存在安全 隐患。因此一旦发生电容失效,容易造成 UPS 故障宕机,严重时可能会扩 大故障范围,影响末端设备的供电可靠性。所以 UPS 维护手册一般要求设 备运行满 5 年后,就需要进行一次检查和大修,并更换电容和风扇。
3) 行业标准《YD/T1970.4-2009 通信局(站)电源系统维护技术要求》对电容 和散热风扇进行预防性维护的建议。
2.2 案例二:正常运行的 UPS 并机系统发生单机故障,故障 UPS 直接宕机
(1)故障背景:四台 600kVA 的 UPS(1#、2#、3#、4#)并机系统,正常运行中突发 单机故障,造成 2#UPS 故障宕机和 1#UPS 受冲击存在安全隐患。
(2)故障情况
1) 运维工作人员现场检查,发现2#UPS故障宕机(告警:直流母线欠压),1#、3#和 4#UPS 正常并机运行。查看正常运行 UPS 的控制面板,均无告警信息。2) 厂家工程师到达现场后,对故障设备进行检查;发现 2#UPS 的 1 号模块REC-A相、INV-A 和 B 相模块温度异常、保险断开、K3 故障损坏。
3) 检查1#、3#和4#UPS内部的运行日志,发现故障期间1#UPS有电池供电记 录,1#UPS的2号模块C相INV模块温度异常,一个保险断开。3#和4#UPS经检查后,内部监控参数无异常。
(3) 故障原因
1) 厂家对返回模块检测,发现2#UPS的A相整流和逆变模块以及B相逆变模 块故障;B 相整流模块、C 相整流和逆变模块,以及电池模块仅是熔丝熔 断。
2) 经过QA和RD一同拆解,认为是INV-A模块故障引起后续故障,分析为IGBT模块击穿损坏,并引起直流熔丝损坏。
(4)故障处理:更换 1#UPS 和 2#UPS 的故障模块、熔丝、接口板件和输出接触器 等配件。
(5)总结分析
1) 此次故障案例有两个特点,1故障短路电流大,产生的热效应和电动力大,造成硬件损坏严重;2不仅发生故障的 UPS 出现宕机,还对并机系统内的1#UPS 产生冲击,造成 2 号模块 C 相 INV 模块温度异常,一个保险断开, 存在安全隐患(UPS 操作面板无故障告警)。
2) 在UPS并机系统发生短路故障后,除了对故障UPS进行检查外,还需对该 组的其他 UPS 进行一次全面的检查,排查 UPS 的潜在隐患。不要因为设备 表面运行正常和操作面板无告警信息,出现错误判断,为以后的运行安全 埋下隐患。
2.3 案例三:进行 UPS 开机测试时,直流框架断路器整定模块(带液晶显示)故障损坏
(1)故障背景:UPS 开机进行单机测试和蓄电池充电。
(2) 故障情况:直流框架断路器整定模块故障损坏,内部电路板烧坏。
(3) 故障原因:UPS 控制软件问题,导致直流母线有较大的交变脉动电流,造成直流框架断路器整定模块内部电路板烧坏。
(4) 故障处理:更新 UPS 控制软件版本,优化控制方法。
(5)总结分析
1) 从UPS主路拓扑结构分析,能造成直流母线存在较大交变脉动电流的主要原因有两个:1直流母线上有部分电容失效,电容的容量减小,滤波能力 下降;2整流器控制或参数存在缺陷,造成直流母线上的交变脉动电流含 量过大,造成直流母线上的电容无法完全滤除。
2) 现场对UPS(新设备)电容进行检查,可以排除电容原因引起的故障,初步 怀疑 UPS 的控制软件有问题。通过对 UPS 控制软件进行版本更新后,问题 得到解决,UPS 运行正常。
2.4 案例四:UPS 并机系统旁路带载测试时,出现严重的带载不平衡
(1)故障背景:三台 600kVA 的 UPS(1#、2#、3#)并机系统,进行旁路带载测试, 出现严重的带载不平衡。
(2)故障情况:IT 机房负载加到约 1040KW(4KW*260),1#UPS 负载率为 54%,2#UPS负载率为59%,3#UPS 负载率为 80%,由于三台 UPS 的负载率偏差太大,暂停此测试项目,并查找原因。
(3) 故障原因:三台 UPS 静态旁路输入电缆和 UPS 输出电缆总阻抗相差过大,造成UPS 旁路带载时,发生严重的带载不平衡。
(4) 故障处理:对旁路和输出电缆的长度进行复核和测量,对总阻抗小的电缆进行整改和更换。
(5) 总结分析
1) 600kVA的UPS有功输出600kVA*0.9=540kW,旁路输入框架断路器长延时 最大值为1000A,带载容量658kVA,按阻性负载计算是658kW。运行1000A电流时 UPS 的负载率:658/540*100%=121.9%。所以在三台 UPS 并机系统 静态旁路进行带载测试时,其中任意一台负载率超过 121.9%,将会造成旁 路输入框架断路器陆续跳闸,严重时可能造成 UPS 故障损坏(例如:熔丝 或静态开关损坏)。
2) 对UPS旁路电缆型号、长度、近似直流电阻进行统计和计算,1#UPS电缆 总长 25.5 米,2#UPS 电缆总长 21 米,3#UPS 电缆总长 16.5 米。
图5 UPS旁路整改前电缆参数统计
3)整改方案的目标:UPS 并机系统旁路带载时,UPS 负载率最大值和最小值 的差值≤10%。根据“图 5”数据进行分析,为了减少整改时的工作量和难 度,决定对 2#和 3#UPS 的输出电缆进行更换。电缆更换后,1#UPS 电缆总 长 25.5 米,2#UPS 电缆总长 25 米,3#UPS 电缆总长 25.5 米。
图6 UPS旁路整改后电缆参数统计
4)备注说明:1由于电缆厂家资料只提供了电缆的近似直流电阻参数(20°C 时),所以不考虑电抗。2旁路参数的统计和计算时,不考虑静态旁路的 导通电阻、电缆接头制作时损失部分和线路节点处的接触电阻等。
(6) Simulink仿真1) Simulink模型
2)电缆整改前,测试和仿真数据对比
3)电缆整改后,测试和仿真数据对比
4)备注说明:Simulink仿真数据是理想化的计算结果,仅供整改前的参考, 还需以综合测试验证的结果为准。
(7)类似案例分析
UPS 并机系统旁路带载不均衡时,常用的整改方式有以下 4 种。1)更换旁路电缆;
2) 在旁路串联补偿电感;
3) 在旁路电缆上安装均流磁环;
4) 采用带负载均衡功能的静态旁路控制板。(8)“图 8”是旁路输入电缆安装均流磁环的情况。从右侧图片来看,使用均流 磁环整改时,建议安装数量不宜过多。
综上所述,以上所有整改方案,都费时、费力和费钱,需额外增加人力和建 设成本。所以要规避UPS 旁路带载不均衡问题的发生,需要在建设期间做好以下 工作:1合理的 UPS 和配电柜位置布局,2根据设备位置合理的裁剪电缆,3电 缆敷设和制作电缆头时,要做好交底和监督工作。
3.结语
(1) UPS是数据中心十分关键的设备,为重要的动力、弱电和 IT 设备等提供不间 断的可靠电源;其设备性能、可靠性和可用性直接影响数据中心稳定运行和 安全运行。
(2)现场运维团队在高等级的事件或故障处理完成后,需举一反三,查明故障原 因,开展复盘和培训工作,通过总结经验教训和制订切实可行的预防措施, 防止类似事件或故障的再次发生。
4.参考文献
〔1〕 高频机型 UPS 技术及应用/王其英主编,北京:中国电力出版社,2010.10
〔2〕 YD/T 1970.4-2009 通信局(站)电源系统维护技术要求 第 4 部分:不间断
电源(UPS)系统
〔3〕 大型数据中心 UPS 超远距离并机系统的实现-王群力
〔4〕 YD/T 1095-2018 通信用交流不间断电源(UPS)