李井源,周 蓉,劉增軍,孫廣富
(國防科技大學(xué) 電子科學(xué)學(xué)院, 湖南 長沙 410073)
隨著衛(wèi)星應(yīng)用技術(shù)的持續(xù)發(fā)展,衛(wèi)星地面站的規(guī)模日益龐大,功能復(fù)雜性大幅提升,同時對衛(wèi)星地面站可靠性也提出了更高的要求。以北斗衛(wèi)星無線電測定業(yè)務(wù)(radio determination satellite service,RDSS)地面站系統(tǒng)為例,該系統(tǒng)由上千臺單機(jī)以及上萬個部件組成,可用度要求高達(dá)99.999 3%。主要依靠人工進(jìn)行維護(hù)和故障分析的傳統(tǒng)方法已不能適應(yīng)此類復(fù)雜通信系統(tǒng)的運維要求。一方面,由于衛(wèi)星地面站設(shè)備類型和數(shù)量繁多,設(shè)備之間緊密耦合,故障之間存在傳遞效應(yīng),使故障來源難以分離;另一方面,復(fù)雜系統(tǒng)存在時變性,難以預(yù)先知曉并獲取完備的故障模式,當(dāng)有未知故障發(fā)生時,需要人工干預(yù),導(dǎo)致故障處置不及時。因此,為了保證系統(tǒng)能正常運行,必須采取一套有效的故障診斷法,對系統(tǒng)進(jìn)行實時觀測,并及時有效地檢測和隔離出單故障與多故障。
目前故障診斷方法總體可分為兩類:基于數(shù)據(jù)驅(qū)動的方法和基于模型的方法[1-3]。其中,基于數(shù)據(jù)驅(qū)動的故障診斷方法是一種基于淺知識的診斷方法,無須預(yù)先獲知系統(tǒng)內(nèi)部各元件的連接關(guān)系和相互作用,只需要有大量的歷史數(shù)據(jù),從歷史數(shù)據(jù)中提取故障模式,目前主要的研究理論包括多變量統(tǒng)計方法、信號處理方法[4-6]等。但此方法不適用于衛(wèi)星地面站這類高可靠性的大型電子系統(tǒng),主要是因為在系統(tǒng)建成初期可獲取的故障樣本太少,難以得到完整、準(zhǔn)確的故障模式,造成診斷精度較低,容易誤檢和漏檢?;谀P偷墓收显\斷方法又稱為基于深知識的診斷方法,它利用系統(tǒng)的結(jié)構(gòu)、行為和功能等方面的知識對系統(tǒng)進(jìn)行診斷推理,建立系統(tǒng)的結(jié)構(gòu)、行為或功能模型[7-8],具體的診斷方法包括故障樹、分層有向圖、神經(jīng)網(wǎng)絡(luò)方法等[9-11]。其中,基于分層有向圖(hierarchy directed graph,HDG)模型[12]的故障診斷技術(shù)能較好地解決衛(wèi)星地面站面臨的上述故障診斷問題。該模型使用節(jié)點和有向邊表示實際系統(tǒng)中的元件和元件之間的故障傳播關(guān)系,然后結(jié)合給定的系統(tǒng)觀測信息進(jìn)行故障推理定位。該模型的優(yōu)勢是能在較高層次上給出系統(tǒng)的宏觀描述,對故障傳播路徑及其演變提供解釋,具備有效識別未知故障及自動獲取知識的特點,有很強(qiáng)的通用性,因此該方法在航天、電子、電力等行業(yè)復(fù)雜系統(tǒng)有著廣泛的研究與應(yīng)用[13-17]。
對于北斗衛(wèi)星地面站,傳統(tǒng)的基于分層有向圖模型的故障診斷技術(shù)仍存在下述問題:①衛(wèi)星地面站包含多種信號流,比如射頻模擬信號流、基帶數(shù)字信號流、網(wǎng)絡(luò)業(yè)務(wù)數(shù)據(jù)流、時頻信號流等,各個設(shè)備具有單個或多個不同類型的輸入輸出接口,且設(shè)備運行狀態(tài)由多種工況信息來表征,不同的故障類型可能引起不同的故障傳播路徑,相應(yīng)的模型也不一樣。若按照傳統(tǒng)有向圖模型方法將各設(shè)備各工作狀態(tài)變量設(shè)置為節(jié)點來建模,節(jié)點數(shù)將很龐大,模型異常復(fù)雜,需要對節(jié)點進(jìn)行簡化。②目前基于分層有向圖模型的故障診斷方法中關(guān)于如何獲取設(shè)備故障概率的研究比較少,大多是基于歷史故障發(fā)生次數(shù)來確定,但是對于實際系統(tǒng)而言,故障發(fā)生概率低,樣本少,統(tǒng)計次數(shù)不具備指導(dǎo)意義,導(dǎo)致模型收斂速度慢,故障診斷效率低。③衛(wèi)星地面站的多數(shù)設(shè)備具有冗余和備份的硬件結(jié)構(gòu),但傳統(tǒng)的分層有向圖模型很難描述熱備份設(shè)備之間的關(guān)系。
為解決傳統(tǒng)分層有向圖模型應(yīng)用于衛(wèi)星地面站所面臨的問題,本文根據(jù)衛(wèi)星地面站特點,提出了一種基于增強(qiáng)分層有向圖(enhanced hierarchy directed graph,EHDG)的故障診斷方法。在EHDG模型中,對各個設(shè)備的多種工況信息按照不同信息流以及故障傳播方式進(jìn)行分類,每類對應(yīng)為隸屬于該設(shè)備的一個節(jié)點,從而簡化模型中的節(jié)點數(shù)量;通過反向回溯和正向推理減小潛在故障源搜索空間,并根據(jù)被搜索次數(shù)給出故障源候選集中各節(jié)點的故障概率;另外,模型中增加節(jié)點有效性使能函數(shù),克服常規(guī)分層有向圖模型中某一設(shè)備由于故障原因切換導(dǎo)致系統(tǒng)結(jié)構(gòu)發(fā)生改變時需要重新建模的問題。
EHDG模型是利用不同符號和連線來描述系統(tǒng)內(nèi)部影響關(guān)系的定性因果模型,具有包容大量潛在故障信息的能力。對EHDG模型定義如下:
定義1G為一個包含5個變量的有向圖,表示為:
G=G(V,P,D,ψ,H)
(1)
式中:
V={v1,v2,…,vm},為有限節(jié)點集合。每個單機(jī)包含若干個節(jié)點,而每個節(jié)點對象隸屬于一個單機(jī)。
P={pij},是有向邊集合,表示節(jié)點vi指向節(jié)點vj的有向邊,物理意義為節(jié)點vi的一個故障可以傳遞到節(jié)點vj,通常將P用一個n×n的矩陣表示,稱之為可達(dá)矩陣。
集合D= {d1,d2, …,dm},為有限單機(jī)集合,表示組成系統(tǒng)的實體對象,是一個具有輸入和輸出接口的獨立體,也是可執(zhí)行備份切換的最小單元。其中,di=di{vk,k=1,2,…,L}描述單機(jī)di和節(jié)點vk的隸屬關(guān)系,其中隸屬于同一單機(jī)的不同節(jié)點vk有不同的流出邊pkj和流入邊ptk。
函數(shù)ψ(pij)表示有向邊pij使能條件,即pij所表示的變量因果關(guān)系成立的設(shè)備主備份狀態(tài)。
向量H=[hk(vi),k=1, 2, …,l]表示有向圖模型中各節(jié)點所在的層級。
定義2EHDG模型中各節(jié)點當(dāng)前的健康狀態(tài)用函數(shù)ζ(vi) (vi∈V,ζ→{1, 0, ?})來表示,即:
(2)
步驟1:為了降低建模難度,簡化模型的規(guī)模,需要根據(jù)系統(tǒng)結(jié)構(gòu)和行為的深知識,對各個設(shè)備的各監(jiān)控點按照不同的故障傳播路徑進(jìn)行分類,即將具有相同流入有向邊和流出有向邊的監(jiān)控點合并為一個節(jié)點,這樣可得到系統(tǒng)的所有節(jié)點V={vk}。
步驟2:建立有向圖的鄰接矩陣A=(aij)n×n,其中n為系統(tǒng)中的節(jié)點數(shù)量,元素aij為:
(3)
對于熱備份設(shè)備,則假設(shè)其為主份狀態(tài)來建立鄰接矩陣。
步驟3:通過Warshall算法,將鄰接矩陣轉(zhuǎn)化為可達(dá)矩陣P=(pij)n×n,表示節(jié)點之間直接和間接的故障傳播關(guān)系,其中n為系統(tǒng)中的節(jié)點數(shù)量。P的計算方法為:
=I+A(I-A)-1
(4)
式中,I是單位矩陣。pij≠0表示節(jié)點vi的故障可以傳播到節(jié)點vj,反之,則無關(guān)。
步驟4:分解可達(dá)矩陣P,進(jìn)行層級劃分,得到分層有向圖,具體方法如下:
1)根據(jù)可達(dá)矩陣P,查找每個節(jié)點的可達(dá)集Ri和先行集Si。節(jié)點vi的可達(dá)集Ri表示為第i行中所有為1的列所對應(yīng)的節(jié)點集合,其物理意義為節(jié)點vi的故障可傳播到的節(jié)點;節(jié)點vi的先行集Si為第i列中所有為1的行所對應(yīng)的節(jié)點集合,其物理意義為可造成節(jié)點vi故障的其他節(jié)點。
2)計算各個節(jié)點的可達(dá)集Ri和先行集Si的交集Ci,若其交集滿足式(5),則節(jié)點vi就屬于第1層節(jié)點,也是最高層級節(jié)點,在有向圖模型中只有流出方向箭頭。
Ci=Ri∩Si=Sii=1, 2, …,n
(5)
3)刪除所有已確定層次的節(jié)點,即在可達(dá)矩陣P中刪去確定層次節(jié)點所在的行和列,從而產(chǎn)生一個新的矩陣,再對新矩陣重復(fù)上述1)和2),分別計算第2到l層的節(jié)點集合,直到所有節(jié)點完成分層,得到向量H。
以一個簡單系統(tǒng)為例說明分層有向圖的建模過程。某系統(tǒng)有A、B、C、D四個單機(jī)設(shè)備,經(jīng)過業(yè)務(wù)分析,單機(jī)A有節(jié)點v1、v2,B有節(jié)點v3、v4,C有節(jié)點v5,D有節(jié)點v6和v7,且單機(jī)A、B為熱備份,其故障傳播有向圖如圖1所示。
圖1 單機(jī)故障傳播路徑示例Fig.1 Example of single machine fault propagation path
通過分析有向圖節(jié)點關(guān)系,可以確定未分層有向圖模型的鄰接矩陣A。
(6)
通過Warshall算法,得到可達(dá)矩陣:
(7)
根據(jù)可達(dá)矩陣P1,可知節(jié)點v1的可達(dá)集R1={v7},先行集S1=?,則有R1∩S1=S1,因此節(jié)點v1為第1層節(jié)點。同樣方法搜索其他節(jié)點,得到節(jié)點v2、v3、v4也屬于第1層節(jié)點,則第1層節(jié)點集合為:
h1={v1,v2,v3,v4}
(8)
刪去節(jié)點v1、v2、v3、v4所在的行和列后,重新建立可達(dá)矩陣P2:
(9)
對于可達(dá)矩陣P2,應(yīng)用相同的方法,得到第2層節(jié)點為:h2={v5}。最后得到第3層節(jié)點為h3={v6,v7},該層級是最低層,所屬節(jié)點只有輸入有向邊。得到分層有向圖如圖2所示,由于單機(jī)B處于備份狀態(tài),其節(jié)點v3和v4的輸出邊用虛線表示。
圖2 增強(qiáng)分層有向圖模型示意Fig.2 Example of EHDG mode
故障診斷方法的選擇決定了診斷的準(zhǔn)確性和實時性。對于有較高實時性要求的系統(tǒng),不能采用復(fù)雜性過高的推理算法。本文提出了反向回溯和正向推理相結(jié)合的故障診斷方法,如圖3所示,具體步驟如下:
圖3 基于EHDG模型的故障診斷推理流程圖Fig.3 Workflow of fault diagnosis ratiocination based on EHDG model
步驟1:根據(jù)設(shè)備當(dāng)前熱備份狀態(tài)獲得函數(shù)ψ(pij),將1.2節(jié)建模得到的可達(dá)矩陣P中無效的有向邊pij置為0。
步驟2:故障源候選節(jié)點搜索:系統(tǒng)發(fā)生故障后,被監(jiān)控節(jié)點vi的系統(tǒng)變量異常,發(fā)出報警。從報警節(jié)點集合中,選取最底層的任意一個報警節(jié)點vi開始進(jìn)行反向回溯搜索。即,從可達(dá)矩陣P中提取節(jié)點vi的先行集Si,Si中的節(jié)點集就是導(dǎo)致vi故障的故障源候選集F=F{vj},并統(tǒng)計每個故障源被搜索到的次數(shù)。如此循環(huán),直到所有報警節(jié)點都完成搜索。
步驟3:故障源候選節(jié)點的有效性判斷:若初始故障源候選集中包含了ζ(vj)≠1的節(jié)點,即該節(jié)點未產(chǎn)生報警,說明該節(jié)點可能是正常的,也可能是發(fā)生了未知故障的。對這些狀態(tài)未知的節(jié)點,根據(jù)衛(wèi)星地面站信息流特征,采用啟發(fā)式正向推理來進(jìn)行判斷。
從初始故障源候選節(jié)點中找出處于最底層的ζ(vj)≠1的節(jié)點vl開始推理:從可達(dá)矩陣P中提取節(jié)點vl的除vl以外的可達(dá)集Rl,以及從系統(tǒng)運行中獲知可達(dá)集Rl中各節(jié)點{vm}實際的健康狀態(tài)ζ(vm);然后比較各節(jié)點vm的健康狀態(tài),若ζ(vm)取值皆為1,則初始故障源候選集中仍保留節(jié)點vl,并將ζ(vl)置為1;若ζ(vm)取值不一樣,則從可達(dá)矩陣P中提取節(jié)點vl的先行集Sl,在初始故障源候選集中刪去Sl包含的節(jié)點,并將Sl中各節(jié)點的健康狀態(tài)ζ(vq,vq∈Sl)置為0,這樣就完成了一個節(jié)點的有效性判斷。以相同方法遍歷初始故障源候選集中其他ζ(vj)≠1的節(jié)點,從而盡可能地剔除掉正常節(jié)點,減小故障源候選集大小。
正向推理方法綜合運用多種信息,包括故障報警信息和正常信息,自動分析可能的故障源候選點,將故障源限定在盡可能小的范圍內(nèi),這樣可以大大提高故障定位效率。
步驟4:故障源候選節(jié)點排序:完成故障源候選節(jié)點篩選后,根據(jù)步驟1中每個故障源節(jié)點被搜索到的次數(shù)按從大到小排序,節(jié)點被搜索到的次數(shù)越多,說明其故障概率越大。若多個節(jié)點被搜索到的次數(shù)相同,則層級高的節(jié)點排在靠前位置。
步驟5:根據(jù)1.1節(jié)中定義的di確定各節(jié)點所屬的設(shè)備,設(shè)備的故障概率取所屬節(jié)點中故障概率z(vk)最大值,即設(shè)備故障概率Z(di)表示為:
Z(di)=max{z(vk),vk∈di}
(10)
從故障概率最高的設(shè)備開始執(zhí)行故障隔離。故障隔離的方法一般是由系統(tǒng)管理軟件下發(fā)切換或復(fù)位指令給可能的故障設(shè)備。對于有硬件冗余的設(shè)備,優(yōu)先下發(fā)備份切換指令;對于無備份的設(shè)備,則下發(fā)單機(jī)復(fù)位指令。
步驟6:評價故障隔離操作結(jié)果:若設(shè)備不響應(yīng)系統(tǒng)管理軟件的指令,則標(biāo)記該設(shè)備故障隔離失敗,需要手動復(fù)位設(shè)備;若設(shè)備執(zhí)行了系統(tǒng)管理軟件下發(fā)的指令且系統(tǒng)能恢復(fù)正常,則診斷結(jié)束,確認(rèn)故障位置;若遍歷完所有設(shè)備后,仍不能解決問題,則將診斷過程和結(jié)果以報告形式發(fā)送給管理員。
將上文提出的增強(qiáng)分層有向圖模型應(yīng)用到北斗RDSS衛(wèi)星地面站系統(tǒng)的故障診斷建模中。
以北斗RDSS地面站系統(tǒng)為例,作為有源定位服務(wù)的測量核心和通信樞紐,其主要業(yè)務(wù)是完成RDSS出站信號的生成、擴(kuò)頻調(diào)制和功率放大,以及完成入站信號偽距測量和短報文接收等任務(wù),根據(jù)上述任務(wù),衛(wèi)星地面站信號收發(fā)系統(tǒng)可劃分為信號發(fā)射子系統(tǒng)、信號接收子系統(tǒng)和監(jiān)控子系統(tǒng),如圖4所示。為方便后續(xù)闡述EHDG的建模和推理過程,本文案例中僅對衛(wèi)星地面站系統(tǒng)簡化后的單條收發(fā)鏈路進(jìn)行說明,真實的衛(wèi)星地面站包含多星多鏈路且設(shè)備連接關(guān)系更為復(fù)雜,但故障診斷方法是一致的。
圖4 北斗RDSS地面站系統(tǒng)(單鏈路)架構(gòu)Fig.4 Architecture of BeiDou RDSS ground station system (single link)
由圖4可知,單條接收鏈路由天線、一分二分路器、主備2臺射頻采樣單元、頻率綜合單元、主備2臺交換機(jī)、主備2臺數(shù)字信號處理單元組成。天線接收到入站信號后,通過分路器將信號分配到各個接收鏈路,每條接收鏈路中的主份射頻采樣單元對射頻信號進(jìn)行變頻、濾波、采樣等處理,把得到的基帶數(shù)字信號以光信號形式發(fā)送給主份交換機(jī),備份射頻采樣單元也做相同處理,將基帶數(shù)字信號發(fā)送給備份交換機(jī),主備萬兆交換機(jī)將數(shù)據(jù)都發(fā)送給該接收鏈路下主份和備份數(shù)字信號處理單元,頻率綜合單元為射頻采樣終端提供參考時頻信號。
單條發(fā)射鏈路由天線、合路器、主備2臺功率放大器、信號分配器、主備2臺射頻發(fā)送終端、出站監(jiān)測終端、頻率綜合單元組成。射頻發(fā)送終端通過心跳線完成主備切換,主射頻發(fā)送終端生成出站信號,并通過信號分配器分別發(fā)送給主備兩臺功率放大器,主份功率放大器將放大后的射頻信號通過天線發(fā)送出去。其中收發(fā)鏈路共用天線、頻率綜合單元和監(jiān)控服務(wù)器。
2.2.1 確定節(jié)點
對北斗RDSS地面站系統(tǒng)共采集到近100條不同類型的故障信息,通過對故障信息進(jìn)行級聯(lián)故障分析,劃分引起級聯(lián)故障的故障表象與故障前因,得到36個關(guān)鍵節(jié)點,整理見表1。
表1 北斗RDSS地面站系統(tǒng)(單鏈路)關(guān)鍵節(jié)點分析Tab.1 Analysis of critical nodes of BeiDou RDSS ground station system (single link)
表1 (續(xù))
2.2.2 確定分層
先根據(jù)表1建立鄰接矩陣A36×36,然后通過Warshall算法,將鄰接矩陣轉(zhuǎn)化為可達(dá)矩陣P36×36,再對可達(dá)矩陣P36×36進(jìn)行分層處理,得到衛(wèi)星地面站收發(fā)系統(tǒng)(單鏈路)各節(jié)點分層信息,如表2所示,相應(yīng)的分層有向圖模型如圖5所示。
表2 北斗RDSS地面站系統(tǒng)關(guān)鍵節(jié)點分層結(jié)果Tab.2 Hierarchy result of critical nodes of BeiDou RDSS ground station system
圖5 衛(wèi)星地面站收發(fā)系統(tǒng)(單鏈路)分層有向圖模型Fig.5 EHDG model for satellite ground station transceiver system (single link)
下面通過單故障報警和多故障報警這兩種典型場景的故障診斷過程進(jìn)行說明。
2.3.1 案例一:單故障報警
在進(jìn)行故障診斷前,首先要根據(jù)當(dāng)前系統(tǒng)的熱備份狀態(tài),將可達(dá)矩陣P中熱備份設(shè)備所屬節(jié)點對應(yīng)的流出有向邊pij置為0。從表1可知,當(dāng)前衛(wèi)星地面站信號收發(fā)系統(tǒng)中d3、d7、d10、d12、d14、d17為備份狀態(tài)設(shè)備,需要將這些設(shè)備的所屬節(jié)點對應(yīng)的流出有向邊pij置為0。以d7(備份射頻采樣單元)為例,d7包含節(jié)點v13、v14和v15,節(jié)點v13對應(yīng)的流出節(jié)點為v21和v24,因此將可達(dá)矩陣P中的有向邊p13,21和p13,24置為0,同理,將節(jié)點v14和v15對應(yīng)的流出有向邊{p14,21,p14,24}以及{p15,21,p15,24}置為0。
僅當(dāng)主份數(shù)字信號處理單元產(chǎn)生“入站業(yè)務(wù)異?!眻缶瘯r,即ζ(v21)=1,從可達(dá)矩陣P的第21列中搜索到所有非0值對應(yīng)的行號為1、3、4、5、7、10、17、19、21、36,即初始故障源候選集F包含節(jié)點{v1,v3,v4,v5,v7,v10,v17,v19,v21,v36},其中{v1,v3,v7,v10,v17,v36}∈層級1,{v4,v5,v19}∈層級2,{v21}∈層級3,如圖6所示。
圖6 節(jié)點v21單故障診斷EHDG模型Fig.6 EHDG model for node v21 single fault diagnosis
采用正向推理來剔除初始故障源候選集F中正常的節(jié)點。由于只有節(jié)點v21產(chǎn)生了報警,因此需要對故障源候選集中除節(jié)點v21之外的所有ζ(vj)≠1的節(jié)點進(jìn)行有效性判斷。從較低層級的節(jié)點v4,v5,v19開始推理。以節(jié)點v4為例,從可達(dá)矩陣P中提取節(jié)點v4除去自身的到達(dá)集S4為{v21,v24},然后從系統(tǒng)運行狀態(tài)中獲知節(jié)點v21和v24的健康指示分別為ζ(v21)=1,ζ(v24)=0,兩個節(jié)點的ζ(vm)取值不一樣,說明節(jié)點v4不是引起v21故障的原因,因此在初始故障源候選集F中刪去節(jié)點v4以及其輸入邊節(jié)點v7,并將ζ(v4)和ζ(v7)置為0。接著以相同方法遍歷初始故障源候選集中剩余的ζ(vj)≠1的節(jié)點,遍歷最終結(jié)果是故障源候選集僅有節(jié)點v21。這樣采用正向推理后故障源候選集從初始的10個候選節(jié)點減少到1個節(jié)點,故障診斷效率提高了90%。最后對節(jié)點v21所屬的設(shè)備進(jìn)行故障隔離,即對數(shù)字信號處理單元執(zhí)行主備切換操作。
2.3.2 案例二:多故障報警
當(dāng)主備數(shù)字信號處理單元都產(chǎn)生“入站業(yè)務(wù)異?!眻缶瑫r主份射頻采樣單元產(chǎn)生“AD功率異?!眻缶瘯r,即ζ(v21)=1、ζ(v24)=1、ζ(v5)=1,從可達(dá)矩陣P搜索到節(jié)點v21的到達(dá)集S21為{v1,v3,v4,v5,v7,v10,v17,v19,v21,v36};節(jié)點v24的到達(dá)集S24為{v1,v3,v4,v5,v7,v10,v17,v19,v22,v24,v36},節(jié)點v5的到達(dá)集S5為{v1,v5,v10,v36}。對到達(dá)集取并集得到初始故障源候選集F=S21∪S24∪S5= {v1,v3,v4,v5,v7,v10,v17,v19,v21,v22,v24,v36}。其中,{v1,v3,v7,v10,v17,v36}∈層級1,{v4,v5,v19,v22}∈層級2,{v21,v24}∈層級3。圖7為節(jié)點v5、v21和v24對應(yīng)的EHDG模型圖,表3為各故障源被搜索到的統(tǒng)計次數(shù)。
圖7 節(jié)點v5、v21、v24多故障診斷EHDG模型Fig.7 EHDG model for node v5、v21、v24 multiple fault diagnosis
表3 各故障源被搜索次數(shù)Tab.3 Number of search hits of the nodes in fault source candidate set
對故障源候選集中除節(jié)點v5、v21和v24之外的所有ζ(vj)≠1的節(jié)點進(jìn)行有效性判斷,剔除正常的節(jié)點。
首先從第2層的節(jié)點v4、v19和v22開始推理,由于v4除自身外的到達(dá)集S4為{v21,v24},v19除自身外的到達(dá)集S19為{v21},以及v22除自身外的到達(dá)集S22為{v24},而ζ(v21)=ζ(v24)=1,因此對第2層節(jié)點的推理結(jié)果為節(jié)點{v4,v19,v22}都保留在故障源候選集F中,并將ζ(v4)、ζ(v19)和ζ(v22)置為1。
接著對層級1的節(jié)點v1、v3、v7、v10、v17、v36進(jìn)行推理。按照類似的方法進(jìn)行推理,具體見表4,推理結(jié)果為:節(jié)點{v3,v4,v17,v19,v22}保留在故障源候選集F中,而節(jié)點{v1,v7,v10,v36}則從故障源候選集F中剔除。這樣,故障源候選集從初始的12個候選節(jié)點減少到8個節(jié)點,與常規(guī)HDG推理相比,故障診斷效率提高了33%。
表4 故障源候選集內(nèi)各節(jié)點的有效性判斷Tab.4 Validity judgment of nodes in fault source candidate set
然后對故障源候選集中剩余的節(jié)點{v3,v4,v5,v17,v19,v21,v22,v24}按照表3所示的統(tǒng)計次數(shù)以及各節(jié)點所屬層級從高到低進(jìn)行排序,得到各節(jié)點的故障概率排序為:v5、v3、v17、v4、v19、v21、v22、v24。
查找各節(jié)點所屬的設(shè)備,節(jié)點v3、v4和v5屬于設(shè)備d6(主份射頻采樣單元),v17屬于設(shè)備d9(主份萬兆交換機(jī)),v19和v21屬于設(shè)備d11(主份數(shù)字信號處理單元),v22和v24屬于設(shè)備d12(備份數(shù)字信號處理單元),因此設(shè)備執(zhí)行故障隔離的順序為d6→d9→d11/ d12。
從d6(主份射頻采樣單元)開始執(zhí)行故障隔離,由系統(tǒng)管理軟件下發(fā)主備切換指令給主備射頻采樣單元,關(guān)閉主份射頻采樣單元的光信號輸出,啟動備份設(shè)備采樣單元的光信號輸出。等待一段時間后,查看節(jié)點v21和v24是否仍有報警信息產(chǎn)生。若故障報警解除,說明故障隔離成功,故障源已定位,結(jié)束故障診斷流程,并輸出診斷報告;若故障報警依然存在,則繼續(xù)對下一個設(shè)備d9(主份萬兆交換機(jī))進(jìn)行故障隔離,具體故障隔離處理流程見圖8。
圖8 案例二:故障隔離處理流程Fig.8 Case 2: Fault isolation process workflow
由案例一和案例二可知,基于EHDG模型的故障診斷方法既能解決單故障報警,又可以兼顧多故障報警的情況,將單故障和多故障以故障概率統(tǒng)一起來;同時,通過運用多種信息,自動分析可能的故障源候選點,剔除掉不符合的節(jié)點,將候選故障源限定在盡可能小的范圍內(nèi)。以北斗RDSS地面站為例的建模分析結(jié)果表明,案例一的單故障場景下故障診斷效率提高90%,案例二的多故障場景下故障診斷效率提高33%,極大提高了故障定位效率。通過自動主備切換或設(shè)備復(fù)位實現(xiàn)故障隔離,最終確定故障源。
本文針對大型衛(wèi)星地面站復(fù)雜電子系統(tǒng)設(shè)備故障診斷的需求,重點研究基于分層有向圖模型的故障診斷方法,對故障在電子設(shè)備中產(chǎn)生、傳播和影響的規(guī)律進(jìn)行建模。為解決常規(guī)分層有向圖模型在衛(wèi)星地面站故障診斷過程中面臨的一些問題,提出了增強(qiáng)分層有向圖故障診斷方法:
1) 分析系統(tǒng)各種監(jiān)測點的故障傳播路徑,合并具有相同有向流入或流出邊的節(jié)點,以壓縮模型中的節(jié)點數(shù)量,解決衛(wèi)星地面站故障征兆多、信息量大、難建模的問題。
2) 模型中增加節(jié)點有效性使能函數(shù),克服常規(guī)有向圖模型中若某一設(shè)備由于故障原因切換導(dǎo)致系統(tǒng)結(jié)構(gòu)發(fā)生改變時需要重新建模的問題。
3) 采用正向推理減小故障源候選集,并根據(jù)各節(jié)點被搜索次數(shù)給出設(shè)備故障概率,加速模型收斂速度,提高診斷效率。
為驗證提出方法的有效性,以北斗衛(wèi)星地面站RDSS信號收發(fā)系統(tǒng)作為實際診斷背景,建立了一套完整的軟、硬件的故障診斷系統(tǒng)。通過案例分析,該方法能規(guī)避無效節(jié)點,能有效辨識未知故障,對單故障和多故障場景都能具有很好的魯棒性。