楊 明 極, 曲 祉 雙
( 哈爾濱理工大學 測控技術(shù)與通信工程學院, 黑龍江 哈爾濱 150080 )
分布式控制系統(tǒng)(DCS)被普遍地應用在工控范疇,可靠性是其重要的指標之一[1]。航天、石油、軍事等高危行業(yè)對工控系統(tǒng)的可靠性要求則更高。在設(shè)計工控系統(tǒng)時,除了通過元器件的選擇、抗干擾設(shè)計等手段,采取雙重冗余控制結(jié)構(gòu)或者三重冗余(TMR)控制結(jié)構(gòu)[2-4]也可以有效地提高系統(tǒng)的可靠性。在高危行業(yè)中,三重冗余的設(shè)計結(jié)構(gòu)較雙重冗余的可靠性更高。在已有文獻中對這類工控系統(tǒng)進行可靠性分析[5-6]時,并沒有考慮到常見的共因故障的情況,而這種情況對設(shè)備的可靠性有很大的影響。針對這一問題,作者在考慮了多種情況下的共因故障、故障模式、故障檢測率以及修正率等因素,通過仿真對該系統(tǒng)進行了可靠性分析。
為了對基于TMR的分布式控制系統(tǒng)的可靠性進行評估,需要建立基于TMR的分布式控制系統(tǒng)的可靠性模型[7-9]??煽啃阅P桶ǎ?1)電源,包含總電源、各部分單獨的工作電源及冗余電源;(2)網(wǎng)絡,包含交換機和網(wǎng)線;(3)操作站、工程師站及歷史站;(4)控制站,站控板,通信口;(5)輸入輸出卡件和邏輯電路;(6)電纜,包含屏蔽層、信號隔離層;(7)接地,包含全部機柜內(nèi)的“模擬地”“數(shù)字地”“安全地”等。
這些因素是在進行分布式控制系統(tǒng)的可靠性模型評估時不可或缺的部分,它們彼此之間是串聯(lián)模型的關(guān)系[10-13]。任何一部分發(fā)生失效都可能影響整個系統(tǒng)的正常運行。基于TMR的分布式控制系統(tǒng)在因素(1)~(5)中都采取三重冗余構(gòu)造的配置。得到如圖1所示的基于TMR的分布式控制系統(tǒng)可靠性模型。
基于TMR的分布式控制系統(tǒng)中的控制站部分由3塊完全相同的運算模塊構(gòu)成,每個模塊配置一個獨立的故障檢測單元和一塊具有高可靠性的表決處理單元,如圖2所示。
運算單元之間完全相互獨立,通過時鐘同步的方法對輸入的信號實行同步采集,再同步運算處理,然后再通過表決單元對運算的結(jié)果進行表決,最后將表決結(jié)果輸出。其中,檢測單元對運算模塊實行自檢測,當檢測模塊檢測出運算模塊發(fā)生自身故障的時候,將向表決單元發(fā)送一個故障警告信號。系統(tǒng)作為三重冗余結(jié)構(gòu)工作:假如表決單元沒有接收任何來自檢測單元的故障警告信息,表決單元將對運算輸出的結(jié)果執(zhí)行“三選二”表決;系統(tǒng)作為二重冗余結(jié)構(gòu)工作:如果表決單元接收來自1個模塊發(fā)送的失效警告信息,表決模塊將去掉故障模塊輸出的運算結(jié)果,同時對其他運算單元輸出的結(jié)果執(zhí)行“二選一”表決;系統(tǒng)作為單通道結(jié)構(gòu)工作:如果表決單元又接收來自另一個模塊發(fā)生的故障警告信息,表決單元將去掉這一模塊的運算輸出結(jié)果,即只有一個模塊輸出正常;系統(tǒng)的輸出轉(zhuǎn)向安全狀態(tài):若此時再檢測到模塊出現(xiàn)故障,即3個控制模塊全部故障[14]。
圖1 基于TMR的分布式控制系統(tǒng)可靠性模型
圖2 基于TMR的控制器結(jié)構(gòu)圖
馬爾可夫模型是一種常用的分析系統(tǒng)可靠性的方法,在分析中首先要已知系統(tǒng)可能出現(xiàn)的一系列狀態(tài),并且列出該系統(tǒng)每個狀態(tài)之間的轉(zhuǎn)移概率;在已知每個狀態(tài)的初始條件的前提下,通過計算某時刻系統(tǒng)其余各狀態(tài)發(fā)生的概率,得到系統(tǒng)的可靠度、安全度[15]。進行可靠性分析時作如下假設(shè):(1)3個模塊單元的軟、硬件保持一致,也就是說各模塊的修正率、故障檢測覆蓋率、故障率均相同且是常數(shù);(2)系統(tǒng)出現(xiàn)安全故障且導致誤操作后,系統(tǒng)被修復且隨即重啟的修正率為μSD;(3)單個模塊的故障率為λ,修正率為μ0,安全故障率λS和危險故障率λD均等于λ/2,安全故障的檢測覆蓋率CS和危險故障的檢測覆蓋率CD均等于C,共因故障因子為β;(4)輸出的表決單元完全可靠,即具有高可靠性[8]。
根據(jù)假設(shè),如果某個模塊在t時刻正常運行,而t+Δt時刻出現(xiàn)故障的概率
p=1-e-λΔt
(1)
當p很小的時候,該公式可以化簡為
p=1-e-λΔt≈λΔt
(2)
基于TMR的分布式控制系統(tǒng)的馬爾可夫模型的狀態(tài)轉(zhuǎn)換如圖3所示。其中,Σ指的是當前狀態(tài)轉(zhuǎn)換到其他狀態(tài)的概率和,λSDN指的是能被檢測到的安全故障率,λDDN指的是能被檢測到的危險故障率,λSDC指的是能被檢測到的安全共因故障率,λDDC指的是能被檢測到的危險共因故障率,λSUN指的是沒被檢測到的安全故障率,λDUN指的是沒被檢測到的危險故障率,λSUC指的是沒被檢測到的安全共因故障率,λDUC指的是沒被檢測到的危險共因故障率。
圖3 基于TMR的分布式控制系統(tǒng)的馬爾可夫狀態(tài)轉(zhuǎn)換圖
在圖3中控制系統(tǒng)可能出現(xiàn)13種狀態(tài):(1)狀態(tài)0:三個模塊都處于輸出正確的狀態(tài),系統(tǒng)正常運行,工作模式為三選二;(2)狀態(tài)1:一個模塊出現(xiàn)被檢測到的故障,此時系統(tǒng)其他兩個模塊組成二選一結(jié)構(gòu),系統(tǒng)輸出正常;(3)狀態(tài)2:一個模塊出現(xiàn)沒有被檢測單元檢測到的安全故障,這時系統(tǒng)為偽三選二,因為還有兩個模塊輸出結(jié)果正確,所以系統(tǒng)仍能輸出正確的結(jié)果;(4)狀態(tài)3:一個模塊出現(xiàn)沒被檢測單元檢測到的危險故障,此時系統(tǒng)為偽三選二,但系統(tǒng)依舊能正常輸出;(5)狀態(tài)4:兩個模塊都出現(xiàn)被檢測單元檢測到的故障,此時系統(tǒng)還有一個設(shè)備正常工作,仍能輸出正確的結(jié)果;(6)狀態(tài)5:兩個模塊出現(xiàn)故障,其中一個故障被檢測單元檢測到,另一個未被檢測到,這時系統(tǒng)表現(xiàn)為偽二選一模式,看似有兩個模塊正常輸出結(jié)果,其實只有1個正確結(jié)果,表決單元通過比較發(fā)現(xiàn)結(jié)果不一致,系統(tǒng)仍然安全;(7)狀態(tài)6:兩個模塊出現(xiàn)故障均未被檢測到,其中包括一個危險故障和一個安全故障,此時系統(tǒng)是偽三選二,因為還有一個模塊輸出正確,通過表決單元后仍然能有信號輸出;(8)狀態(tài)7:兩個模塊出現(xiàn)危險故障,而且都沒有被檢測出來,系統(tǒng)處于偽三選二,通過表決單元會輸出一個錯誤結(jié)果,整個系統(tǒng)處于危險狀態(tài);(9)狀態(tài)8:三個模塊出現(xiàn)故障,其中兩個模塊出現(xiàn)危險故障沒有被檢測到,一個模塊發(fā)生故障被檢測出來,系統(tǒng)為偽二選一,且兩個結(jié)果均是錯誤的,系統(tǒng)處于危險狀態(tài);(10)狀態(tài)9:三個模塊出現(xiàn)故障均未被檢測到,其中包括兩個危險故障和一個安全故障,系統(tǒng)處于偽三選二,輸出結(jié)果錯誤,系統(tǒng)處于危險狀態(tài);(11)狀態(tài)10:三個模塊出現(xiàn)故障,其中一個是沒有被檢測到的危險故障,另外兩個是被檢測到的故障,系統(tǒng)此時是偽一選一,輸出結(jié)果錯誤,系統(tǒng)處于危險狀態(tài);(12)狀態(tài)11:三個模塊同時出現(xiàn)危險故障,并且都沒有被檢測單元檢測到,系統(tǒng)表現(xiàn)為偽三選二,輸出結(jié)果錯誤,系統(tǒng)處于危險狀態(tài);(13)狀態(tài)12:系統(tǒng)安全故障。
在時刻t系統(tǒng)狀態(tài)i的概率為pi(t)=p(X(t)=i),其中i∈{0,1,2,…,12}。當P(t)=[p0(t),p1(t),p2(t),…,p12(t)]
P′(t)=P(t)A
(3)
式中,A表示狀態(tài)轉(zhuǎn)移密度矩陣。
根據(jù)狀態(tài)轉(zhuǎn)換圖可知
a1,0=μ0,a1,4=2(1-β)Cλ,
a3,5=2C(1-β)λ,a3,6=(1-C)(1-β)λ,
a3,7=(1-C)(1-β)λ,a3,10=Cβλ,
已知初始條件P(0)=[1,0,0,…,0],通過解狀態(tài)方程(1),可得到t時刻各狀態(tài)概率,其系統(tǒng)可靠度
R(t)=p0(t)+p1(t)+p2(t)+p3(t)+
p4(t)+p5(t)+p6(t)
(4)
針對方程(3),采用Matlab中Ode45指令進行仿真計算。假設(shè)該系統(tǒng)單個模塊的故障率λ為每小時0.000 01次。
令系統(tǒng)的修正率μ0為1/8,故障檢測覆蓋率C為0.9,系統(tǒng)誤操作后修復并重新啟動的修正率μSD為1/24,則在不同時刻t,β因子與系統(tǒng)可靠度R的關(guān)系見表1。由表1可以看出,隨著β因子的逐漸增大,可靠度R逐漸變小。當β=0.05 時,經(jīng)過17 520 h可靠性R要比沒有考慮該因子時降低1.28%。
表1 β因子與系統(tǒng)可靠性關(guān)系Tab.1 Relationship between factor β and system reliability
當t=8 760 h,通過仿真,系統(tǒng)風險降低因子RRF與β因子的關(guān)系見圖4。進一步驗證了共模故障因子β越小,系統(tǒng)對風險的抵御能力越強。
RRF(t)=1/[1-S(t)]
(5)
S(t)=R(t)+p12(t)
(6)
圖4 RRF與β因子的關(guān)系
令系統(tǒng)的修正率μ0=1/8,β=0.02,μSD=1/24,則在不同時刻t,故障檢測覆蓋率C與系統(tǒng)可靠度R的關(guān)系見表2。由表2可以看出,隨著檢測覆蓋率C的不斷增加,系統(tǒng)的R有所增長。C=1時,系統(tǒng)的可靠度可以達到1。C=0.9時,R較檢測率低或者不檢測的高出很多。
表2 故障檢測覆蓋率與系統(tǒng)可靠性關(guān)系Tab.2 Relationship between fault detection coverage and system reliability
當t=8 760 h,通過仿真,系統(tǒng)的風險降低因子RRF與C因子的關(guān)系見圖5。由圖5可知,當C<0.6時,曲線斜率變化不大,即風險降低因子沒什么改變;當C=0.9的系統(tǒng)風險降低因子比C=0.6的系統(tǒng)風險降低因子高出5~6倍。由此可見,C對R影響非常大。
(a) C<0.9
(b)C>0.9
圖5系統(tǒng)風險降低因子與檢測覆蓋率的關(guān)系
Fig.5Relationship between risk reduction factor and detection coverage
令系統(tǒng)的β因子為0.02,系統(tǒng)誤操作后修正并重新啟動的修正率μSD為1/24,則在不同t時刻下修正率μ0與R的關(guān)系見表3 。
表3 μ0與系統(tǒng)可靠性關(guān)系Tab.3 Relationship between μ0 and system reliability
由表3可知,當C、β因子固定時,帶修正的基于TMR的分布式控制系統(tǒng)的可靠度比不帶修正的有所改善,但是改善并不明顯。當μ0>0.002時,R幾乎保持不變。
當t=8 760 h,通過仿真,系統(tǒng)的風險降低因子RRF與μ0的關(guān)系見圖6。當μ0≥0.001 時,RRF趨于恒定,可靠度保持穩(wěn)定。
圖6 系統(tǒng)的風險降低因子與修正率的關(guān)系
Fig.6Relationship between risk reduction factor and correction rate
通過仿真基于TMR的分布式控制系統(tǒng)的馬爾可夫模型可以看出,在考慮共因故障的TMR的分布式控制系統(tǒng)中,帶修正的系統(tǒng)可靠性比不帶修正的高,但是影響不明顯。通過減少共因故障和增大設(shè)備的檢測覆蓋率,會使該系統(tǒng)的可靠性有明顯的提高,同時風險降低因子會提升一個數(shù)量級。
參考文獻:
[1] 白云飛.DCS技術(shù)及其發(fā)展展望[J].機械管理發(fā)展,2011(3):202-203.
[2] 焦育紅.DCS維護與可靠性分析[J].石油化工自動化,2004(4):82-83.
[3] 胡曉.冗余結(jié)構(gòu)提升DCS系統(tǒng)的穩(wěn)定性和可靠性[J].山西冶金,2006(4):24-25.
[4] 何彥,李宇.淺談分散型控制系統(tǒng)的可靠性[J].石油化工自動化,2007(3):39-42.
[5] LABS W. DCS adopt standards become enterprise friendly[J]. Instrumentation and Control Specialists, 2000, 73(7): 151-152.
[6] 王麗華,徐志根,王長林.可維修三模冗余結(jié)構(gòu)系統(tǒng)的可靠度與安全度分析[J].西南交通大學學報,2002,37(1):103-107.
[7] 張超,趙偉,劉錚.基于FPGA的三模冗余容錯技術(shù)研究[J].現(xiàn)代電子技術(shù),2011,34(5):167-171.
[8] 陳志敏,吳首濱,簡斌,等.淺談Tricon控制器的三重冗余容錯[J].數(shù)字技術(shù)與應用,2010(3):108.
[9] DU T C, LIU H. ESD of hydrocracking units based on TMR[C]//2010 International Conference on E-Product E-Service and E-Entertainment. New York: IEEE, 2010: 1-4.
[10] 齊培紅,劉金剛.三模冗余中局部重構(gòu)及模塊同步技術(shù)研究[J].微計算機信息,2010,26(5):183-185.
[11] 王常力.分布式控制系統(tǒng)(DCS)設(shè)計與應用實例[M].北京:電子工業(yè)出版社,2004.
[12] PHILP K W, DEANS N D. Comparative redundancy, an alternative to triple modular redundant system design [J]. Microelectronics Reliability, 1997, 37(4): 581-585.
[13] 徐連軍.雙CPU冗余通信控制系統(tǒng)的研究與實現(xiàn)[D].西安:西安電子科技大學,2011.
[14] 楊其國.基于Markov過程的冗余系統(tǒng)可靠性分析[J].計算機仿真,2011,29(12):52-53.
[15] 陳州,倪明.三模冗余系統(tǒng)的可靠性與安全性分析[J].計算機工程,2012,38(14):239-241.