石 瑋, 張立林, 萬(wàn)勁松
(北京中聯(lián)云服數(shù)據(jù)科技有限公司,北京 100101)
數(shù)據(jù)中心的安全性、可靠性和延展性是在立項(xiàng)階段規(guī)劃,在設(shè)計(jì)和建造階段落實(shí),在竣工驗(yàn)收階段驗(yàn)證,在運(yùn)行維護(hù)階段延續(xù)。獲得CQC(中國(guó)質(zhì)量認(rèn)證中心)場(chǎng)地基礎(chǔ)設(shè)施等級(jí)增強(qiáng)型(A級(jí))證書僅是數(shù)據(jù)中心安全性、可靠性里程的開始。數(shù)據(jù)中心A級(jí)能力得以保持需要一支技術(shù)完備的運(yùn)維團(tuán)隊(duì),包括電氣、暖通、樓宇自控(弱電)、保養(yǎng)運(yùn)維和消防安防五個(gè)主要專業(yè)的技術(shù)人才。其中,最重要的應(yīng)該是電氣和暖通技術(shù)人才,電氣又是五大專業(yè)的支撐與保障。本文著重闡述兩個(gè)品牌的UPS在運(yùn)行中發(fā)生的兩個(gè)故障案例及解決路徑,揭示故障根源,望對(duì)電氣運(yùn)維人員有所幫助。
北京某數(shù)據(jù)中心P106機(jī)房中共有2臺(tái)A廠商100kVA UPS(每臺(tái)UPS有2個(gè)50kVA模塊)。在UPS設(shè)備進(jìn)行假負(fù)載測(cè)試時(shí)發(fā)現(xiàn),其中一臺(tái)100kVA UPS B機(jī)柜內(nèi)存在異音問(wèn)題,而另一臺(tái)100kVA UPS A異音要小很多。如果沒(méi)有很好的解決此問(wèn)題,很可能會(huì)對(duì)UPS的正常使用壽命和公司客戶帶來(lái)不可估量的經(jīng)濟(jì)損失。下面是對(duì)此問(wèn)題的現(xiàn)場(chǎng)排查及分析處理過(guò)程。
(1)排查問(wèn)題一:模塊風(fēng)扇工作異常導(dǎo)致
通過(guò)熱插拔UPS模塊,更換模塊風(fēng)扇后發(fā)現(xiàn)此設(shè)備的異音仍然存在,且UPS模塊風(fēng)扇運(yùn)行正常,證明此臺(tái)UPS的異音不是來(lái)自模塊風(fēng)扇。
(2)排查問(wèn)題二:UPS輸入側(cè)電源存在的諧波干擾
查看圖紙與現(xiàn)場(chǎng)實(shí)際核查,發(fā)現(xiàn)UPS A和UPS B的輸入電源來(lái)自兩臺(tái)不同的變壓器(P202配電室T15和T16變壓器),說(shuō)明兩臺(tái)UPS的輸入側(cè)電源的市電都有可能存在諧波干擾的問(wèn)題,諧波干擾的大小不同,判定諧波的大小會(huì)導(dǎo)致5000E-100kVA UPS模塊機(jī)內(nèi)部電器元件出現(xiàn)一些問(wèn)題(其中包括某些在市電正常穩(wěn)定供電情況下運(yùn)行的電子元器件,一旦市電質(zhì)量不穩(wěn)定就會(huì)出現(xiàn)異常損壞設(shè)備)。
通過(guò)上述分析,異音UPS模塊可能是市電諧波干擾造成的。接下來(lái)對(duì)兩臺(tái)UPS的輸入電源進(jìn)行互換測(cè)試。
1)將異音UPS B輸入從配電柜A引入,即UPS A與UPS B同時(shí)從配電柜A中引入電源,測(cè)試結(jié)果為UPS B聲音明顯變?nèi)酢?/p>
2)將正常UPS A輸入電源從配電柜B引入,即UPS A與UPS B同時(shí)從配電柜B中引入電源,測(cè)試結(jié)果為UPS A聲音明顯變強(qiáng)。
3)UPS B旁路供電狀態(tài),拔出所有功率模塊后,僅旁路模塊在位工作,異音消失,說(shuō)明異音與旁路模塊無(wú)關(guān)。
4)UPS B轉(zhuǎn)外部維修旁路,拔出旁路模塊,僅功率模塊在機(jī)架運(yùn)行,異音存在,說(shuō)明主路接入時(shí)就有存在異音。
根據(jù)如上測(cè)試排查,初步判斷,UPS異音與UPS的輸入電源有關(guān)。
用示波器分別對(duì)兩臺(tái)UPS的輸入電壓波形進(jìn)行測(cè)量,UPS A和UPS B的輸入電壓波形相比,異音較大的UPS B輸入電壓波形明顯呈現(xiàn)鋸齒狀,存在高頻諧波,而UPS A的輸入電壓高頻諧波較小。根據(jù)波形判斷,異音與輸入電壓的高頻諧波有關(guān)。
現(xiàn)場(chǎng)UPS處于正常工作模式,市電輸入經(jīng)過(guò)整流器由AC變換成DC電壓,再經(jīng)逆變器由DC變換成AC輸出,經(jīng)由兩級(jí)變換以后,能得到精度和質(zhì)量都較好的輸出電壓,可以防止輸入諧波、毛刺、電壓瞬變等干擾影響負(fù)載。UPS主路模式工作原理如圖1所示。
圖1 5000E-100kVA (UPS A)主路模式工作原理圖
根據(jù)現(xiàn)場(chǎng)試驗(yàn)檢查,當(dāng)UPS輸入電源加入高頻諧波后,與正常輸入電壓相比異音明顯變大,異音來(lái)自功率模塊內(nèi)部的輸入濾波薄膜電容。在電容的兩端加上純凈的直流電壓對(duì)電容進(jìn)行充電,兩張金屬化薄膜會(huì)由于靜電庫(kù)侖力的作用而互相吸引;如果在電容器的兩端加上交流電壓或疊加有干擾雜波的直流電壓,電容上吸引的電荷就會(huì)隨著電壓的周期性變化而產(chǎn)生變化,相應(yīng)的兩張金屬化薄膜間靜電庫(kù)侖力的作用也會(huì)產(chǎn)生變化,這就引起金屬化薄膜的振動(dòng),從而產(chǎn)生聲響。
根據(jù)如上分析,UPS輸入電壓含有高頻諧波導(dǎo)致功率模塊內(nèi)部濾波薄膜電容出現(xiàn)異音。薄膜電容器在交流電壓工況下都會(huì)有一定的異音存在。這會(huì)導(dǎo)致UPS模塊中的電子元件縮短使用壽命,其根本的解決辦法就是在UPS輸入端加裝濾波器從而降低諧波對(duì)電容造成的傷害,同時(shí)也可以解決異音的問(wèn)題,經(jīng)過(guò)項(xiàng)目團(tuán)隊(duì)的技術(shù)改造,有異音的UPS已經(jīng)恢復(fù)了正常運(yùn)行。
在并機(jī)系統(tǒng)正常工作時(shí),一臺(tái)UPS的客戶端輸出開關(guān)Q5N會(huì)出現(xiàn)誤報(bào)警“Customer Q5N斷開”的現(xiàn)象,而實(shí)際該開關(guān)未斷開,設(shè)備本身保護(hù)而退出運(yùn)行。目前為止共有6臺(tái)UPS出現(xiàn)該現(xiàn)象。報(bào)警從出現(xiàn)到消失的時(shí)間為0~8s不等。
Customer Q5N的輔助觸點(diǎn)信號(hào)鏈路如圖2所示。
圖2 G7K UPS Customer Q5N的輔助觸點(diǎn)信號(hào)與UPS輸出并機(jī)柜(PDU柜)內(nèi)的主斷路器分合閘的輔助觸點(diǎn)鏈路圖
該信號(hào)取自UPS并機(jī)輸出柜(PDU柜)內(nèi)的輸出開關(guān)Customer Q5N的輔助觸點(diǎn),經(jīng)過(guò)信號(hào)線接入U(xiǎn)PS的并機(jī)板INTT/EXTT。
并機(jī)板內(nèi)產(chǎn)生Customer Q5N斷開報(bào)警的電路如圖3所示。
圖3 G7K UPSCustomer Q5N并機(jī)板內(nèi)斷開報(bào)警電路圖
這個(gè)電路的前端是脈動(dòng)信號(hào)產(chǎn)生電路,信號(hào)的頻率是8.7kHz。該脈沖信號(hào)控制三極管VT5的工作,只要+15V有電,VT5就工作在開關(guān)狀態(tài),不受其他任何因素和信號(hào)的影響。當(dāng)VT5導(dǎo)通時(shí),在變壓器T2的原邊產(chǎn)生電流,原邊產(chǎn)生電壓,T2的兩個(gè)副邊的同名端產(chǎn)生電壓信號(hào)。由于Customer Q5N閉合,其觸點(diǎn)信號(hào)也處于閉合狀態(tài),b1繞組短路,原邊受到串聯(lián)電阻的限流作用,原邊的電壓基本降為0,這樣,副邊兩個(gè)繞組的電壓也為0,b2繞組無(wú)信號(hào)輸出。后邊的比較電路如圖4所示。
圖4 脈沖信號(hào)控制三極管VT5的比較電路圖
當(dāng)VT5不工作時(shí),變壓器T2原邊的儲(chǔ)能釋放,T2的兩個(gè)副邊的非同名端產(chǎn)生電平信號(hào)。B1繞組二極管反向截止,b2繞組會(huì)有反向的瞬時(shí)電壓信號(hào),但由于受到后邊電路中二極管的反向截止作用,該信號(hào)不會(huì)對(duì)最后的輸出信號(hào)造成影響。可見(jiàn),當(dāng)Customer Q5N閉合,其觸點(diǎn)信號(hào)閉合時(shí),這個(gè)產(chǎn)生開關(guān)狀態(tài)信息的信號(hào)Inf_Q5是沒(méi)有輸出的。
當(dāng)Customer Q5N斷開時(shí),b1處于開路狀態(tài),沒(méi)有電流,b2送出的信號(hào)就是脈動(dòng)信號(hào),就會(huì)產(chǎn)生開關(guān)斷開的報(bào)警信號(hào)。
開關(guān)觸點(diǎn)給過(guò)來(lái)的是短接信號(hào),由于受到觸點(diǎn)短接的鉗制作用,即使上面的電路(脈動(dòng)信號(hào)產(chǎn)生電路和狀態(tài)信號(hào)產(chǎn)生電路)故障不工作的情況下都不會(huì)送出脈動(dòng)信號(hào)。
而誤報(bào)警就是本來(lái)應(yīng)該沒(méi)有信號(hào)的輸出點(diǎn)變成了有信號(hào)輸出。所以,產(chǎn)生這一變化的原因只能是短接的觸點(diǎn)信號(hào)發(fā)生了變化。而這一變化是來(lái)自信號(hào)線所受到的干擾(觸點(diǎn)本身的問(wèn)題已經(jīng)被盤廠的工程師排除)。
(1)從UPS輸出并機(jī)柜(PDU柜)到UPS的Customer Q5N信號(hào)線布放不符合規(guī)范,現(xiàn)場(chǎng)情況為:信號(hào)線與功率線隨意布放,而且信號(hào)線的屏蔽層沒(méi)有接地。這樣很容易導(dǎo)致信號(hào)線受到功率線的電磁干擾。
(2)UPS輸出并機(jī)柜(PDU柜)內(nèi)的Customer Q5N觸點(diǎn)及其信號(hào)線問(wèn)題每個(gè)Customer Q5N內(nèi)部有4個(gè)輔助接點(diǎn),由圖5中可見(jiàn)有2個(gè)觸點(diǎn)信號(hào)是有交流電源電壓220V。
圖5 UPS輸出并機(jī)柜(PDU柜)內(nèi)的Customer Q5N觸點(diǎn)接線圖
該信號(hào)在UPS輸出并機(jī)柜(PDU柜)內(nèi)極易受到其他信號(hào)或者電源線的干擾。
所有UPS輸出并機(jī)柜(PDU柜)到UPS的Customer Q5N信號(hào)線進(jìn)行分類布線整改,必須按照規(guī)范重新進(jìn)行布放到UPS輸出并機(jī)柜(PDU柜)內(nèi),現(xiàn)場(chǎng)先對(duì)一套G7K 4臺(tái)并機(jī)系統(tǒng)P201-T14U-SA(SA1,SA2,SA3 曾誤報(bào) Customer Q5N OPEN)的UPS進(jìn)行整改工作。將該觸點(diǎn)連到UPS輸出并機(jī)柜(PDU柜)后,端子排的信號(hào)線重新布放一根屏蔽線并將屏蔽層的一端接地。就地使用儀表模擬對(duì)未接屏蔽線的G7K Customer Q5N觸點(diǎn)(UPS內(nèi)部觸點(diǎn))進(jìn)行電流測(cè)量實(shí)驗(yàn):電流約為7.9mA。然后現(xiàn)場(chǎng)在對(duì)整改后的G7K Customer Q5N觸點(diǎn)(UPS內(nèi)部觸點(diǎn))進(jìn)行電流測(cè)量:電流約為8.66mA?,F(xiàn)場(chǎng)未整改的UPS并機(jī)輸出柜內(nèi)Customer Q5N觸點(diǎn)進(jìn)行電流測(cè)量:電流約為1mA。由測(cè)試結(jié)果可見(jiàn),整改后的觸點(diǎn)電流明顯大于整改前的電流,與實(shí)驗(yàn)室正常的開關(guān)觸點(diǎn)電流非常接近。說(shuō)明整改后的觸點(diǎn)信號(hào)已經(jīng)正常。在前面對(duì)G7K Customer Q5N的報(bào)警機(jī)制電路圖分析中,流過(guò)觸點(diǎn)的電流就是線圈b1中的電流。當(dāng)觸點(diǎn)信號(hào)正常閉合時(shí),觸點(diǎn)輸入端的電勢(shì)為零,線圈中的電流最大;而當(dāng)觸點(diǎn)信號(hào)受到干擾時(shí),在觸點(diǎn)輸入端就會(huì)有干擾電勢(shì)存在,將會(huì)使線圈中的電流變小。上述測(cè)試數(shù)據(jù)說(shuō)明,未整改時(shí)的電流較小,說(shuō)明觸點(diǎn)的輸入端有干擾信號(hào)存在,而整改后觸點(diǎn)受到的干擾基本沒(méi)有。
現(xiàn)將所有UPS輸出并機(jī)柜(PDU柜)進(jìn)行整改檢測(cè)工作并對(duì)全部整改完的34臺(tái)并機(jī)G7K UPS進(jìn)行Customer Q5N觸點(diǎn)電流進(jìn)行檢測(cè)(UPS正常運(yùn)行情況下),以檢查整改效果是否達(dá)到使用要求。測(cè)量結(jié)果為:302房的一套UPS(用戶編號(hào):P302-T24U-SB1,P302-T24U-SB2,P302-T24U-SB3)的G7K Customer Q5N觸點(diǎn)電流波形中有較大的干擾成分存在,其他UPS的G7K Customer Q5N觸點(diǎn)電流波形較為正常,最后重新對(duì)302配電室的UPS進(jìn)行了檢測(cè)并查找干擾的原因。經(jīng)過(guò)排查干擾的主要來(lái)源是地線,在將從配電柜端子排到UPS的Customer Q5N信號(hào)線的屏蔽接地線斷開時(shí),觸點(diǎn)的電流波形得到了非常明顯的改善。目前在用的所有并機(jī)UPS的Customer Q5N信號(hào)線所受到的干擾已經(jīng)降到最小,同時(shí)將SB1和SB2 UPS的Customer Q5N信號(hào)線進(jìn)行了重新布放,目前滿足了數(shù)據(jù)中心的使用要求。如果將UPS側(cè)Customer Q5N信號(hào)輸入端直接短接來(lái)代替觸點(diǎn)閉合的信號(hào),這樣可以將外部的所有干擾全部排出,是最理想的狀態(tài)。
綜合對(duì)G7K Customer Q5N的報(bào)警機(jī)制電路圖與現(xiàn)場(chǎng)勘查及整改前后的分析測(cè)試數(shù)據(jù)的分析,可以得出產(chǎn)生誤報(bào)警的原因就是G7K Customer Q5N的信號(hào)受到干擾所致。
此次UPS問(wèn)題的處理,是通過(guò)多年的電氣工作經(jīng)驗(yàn)和理論知識(shí)相結(jié)合,從實(shí)際工作經(jīng)驗(yàn)中一步一步分析排查出來(lái)的結(jié)果。任何系統(tǒng)的可靠性都不是絕對(duì)性的,更不是一成不變的,數(shù)據(jù)中心IT用戶所關(guān)心的也不僅僅是供電系統(tǒng)是否會(huì)突然斷電、是否能在不影響設(shè)備安全運(yùn)行的前提下迅速處理故障恢復(fù)設(shè)備運(yùn)行這么簡(jiǎn)單的層面上,他們更想知道的是斷電故障的原因是怎么發(fā)生的,為什么會(huì)發(fā)生此類事故,如何才能有效的避免控制故障和事故的再發(fā)生。在風(fēng)險(xiǎn)管控實(shí)際預(yù)案演練的基礎(chǔ)上如何安全、穩(wěn)定、可靠的保證人身以及設(shè)備正常的運(yùn)行。