謝鳳華,李峻健
(中興通訊股份有限公司)
毫無疑問,高可用性是UPS系統(tǒng)第一要素。但系統(tǒng)并聯(lián)模塊數(shù)越多而可用度越低嗎?UPS運(yùn)行的可用度是基于對可靠性模型的科學(xué)分析。
故障率λ(即失效系數(shù)):元器件或者功能模塊或者系統(tǒng)出故障的概率。
平均無故障時(shí)間 MTBF(mean ti me bet ween failure):定義為利用數(shù)學(xué)統(tǒng)計(jì)方法計(jì)算出的設(shè)備在發(fā)生的兩次故障之間的運(yùn)行時(shí)間。
YD/T 2165-2010《通信用模塊化不間斷電源》規(guī)定UPS系統(tǒng)的MTBF值不小于10萬小時(shí)[1]。
可靠度(可靠性)是一個(gè)可靠性指標(biāo)。系統(tǒng)實(shí)現(xiàn)所需功能的概率。它是指在規(guī)定的條件下,在規(guī)定的時(shí)間內(nèi),產(chǎn)品完成規(guī)定的功能,也就是說在規(guī)定時(shí)間內(nèi)該產(chǎn)品不出故障的概率。可靠度是不考慮維修的??煽慷扰c故障率的關(guān)系為:
從可靠度的公式看出,可靠度不僅與MTBF有關(guān),還與考核的時(shí)間長短t有關(guān),也就是說我們不能單純提某系統(tǒng)的可靠度是多少,而是應(yīng)該提某系統(tǒng)在某段時(shí)間范圍內(nèi)的可靠度,時(shí)間越長,可靠度越低(見表1)。通常指一年時(shí)間內(nèi)的可靠度。
表1 單機(jī)在MTBF等于10萬小時(shí)時(shí),不同時(shí)間范圍的可靠度
可維護(hù)性(Maintainability),指在規(guī)定的時(shí)間內(nèi)完成主動維護(hù)的概率。可維護(hù)性用MTTR來表示。
平均維修時(shí)間 MTTR(Mean ti me to repair):是設(shè)備發(fā)生故障瞬間開始到通過維修而重新投入使用所需的平均時(shí)間。修復(fù)率μ是 MTTR的倒數(shù),μ=
可用度(可用性)是一個(gè)可維護(hù)性指標(biāo),是系統(tǒng)在運(yùn)行過程中,正常運(yùn)行的時(shí)間與總時(shí)間之比??捎枚華與其它幾個(gè)指標(biāo)的關(guān)系可表示為:
可用度指標(biāo)不僅與MTBF有關(guān),而且與MTTR有關(guān),在MTBF不變的前提下,減小MTTR就能提高可用性A。
(N+X)個(gè)UPS模塊并聯(lián)形成一個(gè)表決系統(tǒng),在該系統(tǒng)中(N+X)個(gè)可靠度相同的模塊單元組成并聯(lián)結(jié)構(gòu),其中N是負(fù)載容量所需模塊數(shù),X是冗余模塊數(shù)。R1為單模塊的可靠度。
對該表決系統(tǒng),其可靠度Rs如公式1所示[2]。
圖1 表2數(shù)據(jù)轉(zhuǎn)換成N+X的系統(tǒng)可靠度分布曲線圖
由圖1可以看出:
(1)當(dāng)沒有冗余即X為0時(shí),并聯(lián)可靠度隨N的增大而降低。10個(gè)模塊并聯(lián)時(shí)可靠度只有不到0.35。說明當(dāng)系統(tǒng)沒有冗余時(shí),系統(tǒng)可靠度將隨并聯(lián)模塊數(shù)的增加而減少。
(2)“4+1”系統(tǒng)的可靠度為0.92,大于單模塊的0.9;但“5+1”系統(tǒng)的可靠度為0.89小于單模塊的可靠度。說明當(dāng)系統(tǒng)模塊數(shù)較多時(shí),冗余1個(gè)模塊時(shí)系統(tǒng)的可靠度還可能低于單個(gè)模塊的可靠度。
(3)“8+2”的可靠度0.93略大于“4+1”的可靠度0.92。說明可以通過增加冗余數(shù)來提高多模塊并聯(lián)時(shí)的可靠度。所以“并聯(lián)模塊數(shù)越多系統(tǒng)可靠性越低”不完全正確。R1=0.9時(shí),系統(tǒng)可靠度數(shù)據(jù)見表2。
表2 在模塊可靠度R1為0.9(1年左右)時(shí),計(jì)算得到N+X的系統(tǒng)可靠度數(shù)據(jù)
對于一次性使用的設(shè)備,如不可回收的人造地球衛(wèi)星上的通訊設(shè)備,僅關(guān)心其可靠性即可。但對于如UPS等可修復(fù)的設(shè)備,除可靠性指標(biāo)外,更需關(guān)注設(shè)備在整個(gè)使用壽命周期內(nèi)的可用度(率)。既要考慮故障發(fā)生的概率,還要考慮系統(tǒng)可維護(hù)性。
標(biāo)準(zhǔn)ANSI/TIA-942數(shù)據(jù)中心通信基礎(chǔ)設(shè)施標(biāo)準(zhǔn)( ANSI/TIA-942Telecommunications Infrastructure Standard for Data Centers)是針對數(shù)據(jù)中心機(jī)房規(guī)劃、建設(shè)的標(biāo)準(zhǔn)文件。該標(biāo)準(zhǔn)不是要求可靠度,而是根據(jù)不同的可用度將數(shù)據(jù)機(jī)房分為4個(gè)等級(見表3)。
表3 ANSI/TIA-942標(biāo)準(zhǔn)對機(jī)房等級規(guī)定
設(shè)備的維修時(shí)間MTTR是指設(shè)備從發(fā)生故障到恢復(fù)功能的時(shí)間t,它由故障發(fā)生到故障自動檢測時(shí)間t1、故障檢測到人們知道時(shí)間t2、后勤保障時(shí)間t3、故障維修時(shí)間t4、恢復(fù)時(shí)間t5等多個(gè)時(shí)間段組成,t=t1+t2+t3+t4+t5,如圖2。
圖2 MTTR的時(shí)間細(xì)分
相對于后勤保障時(shí)間t3和故障維修時(shí)間t4,t1、t2、t5可以忽略不計(jì)。MTTR可以假設(shè)如下四個(gè)數(shù)值:
(1)假設(shè)用戶自己在設(shè)備故障現(xiàn)場,用戶備有可供更換的備用模塊,用戶一發(fā)現(xiàn)問題就立即自己更換,則可能MTTR不大于0.5 h。這是一種最理想、最短的時(shí)間。
(2)用戶維護(hù)人員不在設(shè)備現(xiàn)場但在設(shè)備所在城市,模塊一旦故障即可實(shí)時(shí)通知(如手機(jī)短信)用戶維護(hù)人員,設(shè)備現(xiàn)場有可供更換用的備用模塊,維護(hù)人員在5 h之內(nèi)趕到現(xiàn)場并完成更換工作。此時(shí)MTTR為5 h。
(3)用戶自己沒有備用模塊,或者用戶即使有備用模塊但自己不更換,需要廠家技術(shù)人員趕來更換,廠家承諾解決問題的時(shí)間為48 h,因?yàn)楦鼡Q模塊只需要0.5 h,MTTR為48 h和0.5 h之和,約等于50 h(簡化計(jì)算)。
(4)對于傳統(tǒng)的集中式UPS,一般需要廠家資深工程師,帶齊備品備件和檢測儀器,假設(shè)響應(yīng)時(shí)間為2天(制造商備好備件、乘坐交通工具趕到設(shè)備現(xiàn)場的時(shí)間),現(xiàn)場維修時(shí)間3天,則MTTR為5天共120 h。
對于模塊化UPS,采用B種情況和C種情況比較合理,即MTTR為5 h或者50 h。
“N+X”模塊化UPS系統(tǒng)是一個(gè)表決模型,“N”為負(fù)載容量所需模塊數(shù),“X”為冗余模塊數(shù)。用等效MTBF、等效MTTR和可用度三個(gè)參數(shù)來表征該系統(tǒng)的可用性。
系統(tǒng) MTBFS、MTTRS和可用度 AS如公式(2)、公式(3)和公式(4)所示[3]。
根據(jù)上述公式計(jì)算出在模塊的MTBF1等于10萬小時(shí),MTTR1分別為0.5/50/120 h,N+X(N=[1,10],X=[0,2])時(shí)系統(tǒng)的可用度As如表4。
計(jì)算結(jié)果分析
(1)當(dāng) MTTR很小為0.5 h時(shí),只要1個(gè)冗余模塊,系統(tǒng)就可以達(dá)到很高的可用度。
表4 “N+X”系統(tǒng)可用度AS數(shù)據(jù)表
(2)對于N+2(N 不大于10時(shí))系統(tǒng),可用度均可達(dá)到5個(gè)9的要求。這個(gè)為下文設(shè)置休眠模塊數(shù)量提供了理論依據(jù)。正常工作時(shí)有2個(gè)冗余模塊數(shù)即可,多余模塊可以讓其休眠,既可以滿足系統(tǒng)可用度需求,也符合節(jié)能原則。
(3)對于 MTBF為10萬小時(shí),10+0系統(tǒng),當(dāng)MTTR為0.5/5/50/120小時(shí),系統(tǒng)的可用度對應(yīng)為4個(gè)9/3個(gè)9/2個(gè)9/1個(gè)9。說明 MTTR的大小對系統(tǒng)可用度影響很大。
(4)系統(tǒng)可用度與冗余數(shù)X的關(guān)系:對于MTBF等于10萬小時(shí)、MTTR等于5小時(shí)、N等于10時(shí),系統(tǒng)的可用度在X為0/1時(shí)分別為3個(gè)9/7個(gè)9。增加1個(gè)冗余數(shù),可用度提高4個(gè)9。
(5)系統(tǒng)可用度與總模塊數(shù)N+X的關(guān)系:對于MTBF等于10萬小時(shí)、MTTR等于120小時(shí),4+1系統(tǒng)或8+2系統(tǒng)的可用度分別為:4個(gè)9或6個(gè)9,有如下關(guān)系:
As(8+2)大于As(1+1)大于As(4+1)大于 As(8+1)
實(shí)際應(yīng)用中,絕大部分UPS系統(tǒng)帶載在10%~60%的額定容量(參見美國可靠性研究中心對UPS負(fù)載率的統(tǒng)計(jì))。也就是說實(shí)際負(fù)載容量數(shù)N小于設(shè)計(jì)的負(fù)載容量數(shù)N,在系統(tǒng)模塊數(shù)不變時(shí),相當(dāng)于冗余數(shù)X增大,則實(shí)際上系統(tǒng)可用性比設(shè)計(jì)的更高。
可見對于可維修模塊化UPS系統(tǒng),并不是并聯(lián)模塊數(shù)越多系統(tǒng)可用度越低,關(guān)鍵還在于冗余模塊數(shù)X。即可以通過增加冗余數(shù)來提高更多并聯(lián)模塊數(shù)系統(tǒng)的可用度。
對于可維修模塊化UPS系統(tǒng),不但需要關(guān)注可靠度,更需關(guān)注可用度。對于“N+1”系統(tǒng),隨著N的增大,無疑系統(tǒng)的可靠度降低,但是如果是“N+X”,當(dāng)N增大時(shí),X也增大時(shí),則系統(tǒng)的可靠度和可用度都是可以增大的。
[1] YD/T 2165-2010.通信用模塊化不間斷電源[S].
[2] 金偉婭,張康達(dá).可靠性工程[M].北京:化學(xué)工業(yè)出版社,2005.
[3] 郭永基.可靠性工程原理[M].北京:清華大學(xué)出版社,2002.
[4] 謝鳳華.降低MTTR以提高模塊化UPS系統(tǒng)的可用性[C].中國電源學(xué)會第18屆學(xué)術(shù)年會論文集,2009.