高東林 秦紅磊 劉 佳
(1.北京航空航天大學(xué)電子信息工程學(xué)院 北京 100191)(2.中國艦船研究院 北京 100101)(3.中國船舶集團(tuán)有限公司第七二二研究所 武漢 430205)
艦船顯控設(shè)備作為通用的電子設(shè)備廣泛應(yīng)用于作戰(zhàn)、平臺等系統(tǒng),隨著信息技術(shù)的不斷發(fā)展,其復(fù)雜度、集成度以及智能化水平也不斷得到提高,然而,先進(jìn)而復(fù)雜的電子系統(tǒng)在提高大型裝備整體效能的同時,其故障占全系統(tǒng)故障比例也越來越高。同時,隨著艦船遠(yuǎn)洋作戰(zhàn)、訓(xùn)練任務(wù)頻次的不斷增加,用戶對裝備的自主保障能力提出了更高的要求。如何在現(xiàn)場實(shí)現(xiàn)裝備故障的快速定位,并隔離至現(xiàn)場可更換模塊,是解決當(dāng)下提高裝備可用性和裝備維修保障能力的現(xiàn)實(shí)問題。而良好的測試性設(shè)計,可以顯著降低產(chǎn)品的壽命周期費(fèi)用,提高故障檢測效率,縮短維修時間[1]。
實(shí)現(xiàn)測試性設(shè)計的關(guān)鍵是有效的測試性模型[2],目前主流的測試性模型是基于相關(guān)性矩陣模型的多信號流圖模型,目前該模型在裝備中開展了大量應(yīng)用研究,如柴油機(jī)輔助系統(tǒng)、艦船電力系統(tǒng)、艦船逆變器、濾波放大器、雷達(dá)發(fā)射機(jī)等[3~7]。與上述研究對象相比,顯控設(shè)備的構(gòu)成、信息流類型及故障模式更為復(fù)雜。在實(shí)際工程研制過程中,軟硬件設(shè)計與測試性設(shè)計之間缺乏有效的銜接,導(dǎo)致現(xiàn)場實(shí)際測試時測試冗余較多,測點(diǎn)選取依據(jù)不充分,測試效率低下,故障定位困難。
本文從實(shí)際裝備中獲取設(shè)備構(gòu)成信息和故障模式信息,采用多信號流圖建模方法建立顯控測試性圖示模型,獲取故障-測試相關(guān)矩陣并進(jìn)行處理和分析,并依據(jù)分析結(jié)果提出具體的診斷體系架構(gòu)和診斷策略,對提高顯控設(shè)備的診斷設(shè)計和保障維護(hù)具有實(shí)際意義。
相關(guān)性是指某個測試能不能觀測到某個故障,由一組故障與一組測試構(gòu)成的一系列“相關(guān)”和“不相關(guān)”的布爾關(guān)系矩陣稱作故障-測試相關(guān)性矩陣。
基于相關(guān)性建模思想的多信號流圖(MSFG,Multi-Signal Flow Graph)模型由Pattipati 與Deb 等于20 世紀(jì)90 年代提出的一種框圖模型[8~9],它是在系統(tǒng)結(jié)構(gòu)和功能分析的基礎(chǔ)上,以分層有向圖表示信號流方向和各模塊的構(gòu)成及連接關(guān)系,根據(jù)圖中每個故障信號的傳播路徑可達(dá)的測試節(jié)點(diǎn)獲取相關(guān)性矩陣,來表征系統(tǒng)故障-功能-測試之間的相關(guān)性關(guān)系的一種模型方法。該模型不需故障模式的詳細(xì)知識,模型描述直觀、高效,而且建模難度低[5,10]。
文獻(xiàn)[6,11]對多信號流圖模型的構(gòu)成有詳細(xì)的描述,主要包括模塊節(jié)點(diǎn)、測試節(jié)點(diǎn)及有向邊并構(gòu)成部件集合、信號集、測試集、測點(diǎn)集以及部件影響的信號集、測試檢測的信號集、測點(diǎn)包含的測試集等元素,多信號流圖的有向圖的邊一般表示故障傳播的方向或信息流的方向。
多信號流圖的建模步驟一般包括:
1)對設(shè)備的結(jié)構(gòu)、功能和故障模式進(jìn)行分析,確定各LRM 模塊及其功能信號、故障模式、測點(diǎn)位置及測試特征信號;
2)根據(jù)節(jié)點(diǎn)之間故障模式傳播關(guān)系,建立相關(guān)性圖示模型,表示故障與測試之間的關(guān)系;
3)根據(jù)圖形模型生成故障-測試相關(guān)矩陣,并對相關(guān)矩陣進(jìn)行相應(yīng)的簡化處理;
4)故障檢測點(diǎn)和隔離點(diǎn)優(yōu)選計算并建立故障樹;
5)根據(jù)故障樹建立計算機(jī)診斷程序流程圖;
6)對測試性模型進(jìn)行分析。
文獻(xiàn)[12~14]以及GJB2457A 裝備測試性工作通用要求都對測試性建模及生成的依賴矩陣提出了定量評價指標(biāo),主要包括故障檢測率、故障隔離率、故障模糊組百分比、平均診斷步驟、冗余測試數(shù)等。
1)故障檢測率(FDR)
故障檢測率是在一定條件下通過現(xiàn)有的測試手段能夠檢測到的設(shè)備故障數(shù)量與設(shè)備所有可能的故障總數(shù)之比,反映檢測并發(fā)現(xiàn)設(shè)備內(nèi)一個或多個故障的能力。
式中:m 為故障-測試依賴矩陣中的非零行數(shù);n 為故障-測試依賴矩陣中的總行數(shù)。
2)故障隔離率(FIR)
故障檢測率是在規(guī)定條件下通過現(xiàn)有的測試手段將已檢測到的故障準(zhǔn)確隔離到不大于規(guī)定的模糊度的故障數(shù)與檢測到的故障總數(shù)之比。檢驗(yàn)測試性模型能隔離出已檢測到的任意故障的能力。
式中:M 為故障-測試依賴矩陣中的所有不重復(fù)的行數(shù);N為故障-測試依賴矩陣中的總行數(shù)。
3)模糊組百分比(FR)
模糊組的定義是由于某些故障具有相同的故障特征,導(dǎo)致對應(yīng)的測試在故障隔離環(huán)節(jié)中無法將它們分清隔離到真實(shí)故障部位。
式中:Fi 為故障-測試依賴矩陣中的第i 類重復(fù)的行數(shù);N為故障-測試依賴矩陣中的總行數(shù)。
4)平均診斷步驟(ND)
平均診斷步驟數(shù)
式中:Ki為診斷樹第i 個分支節(jié)點(diǎn)數(shù);m 為診斷樹分支數(shù)。
5)冗余測試
式中:TS(tj)為tj可檢測的故障集,對于測試ti 和tj,若滿足式(6),則測試ti和tj,互為冗余測試。
冗余測試數(shù)為所有互為冗余測試的測點(diǎn)數(shù)量。
顯控設(shè)備主要為顯控軟件提供硬件和支撐軟件運(yùn)行平臺,為作戰(zhàn)、訓(xùn)練和維護(hù)提供人機(jī)交互操作平臺,一般具有如下功能:多源傳感器信息二、三維多層疊加綜合顯示、實(shí)現(xiàn)各種操作與控制、數(shù)據(jù)處理、實(shí)時控制等功能,同時還要具備測試維護(hù)功能,可對硬件進(jìn)行診斷測試并可將故障定位到現(xiàn)場可更換模塊(Line Replaceable Module,LRM)。
顯控設(shè)備各LRM 之間通過以太網(wǎng)、PCIE、USB、CAN 等計算機(jī)總線互聯(lián),并在主處理模塊的統(tǒng)一有序控制下為用戶提供顯示及操控功能,一般包括電源模塊、顯示器、操控模塊、主處理模塊、散熱設(shè)備、音視頻處理和通信模塊等。
圖1 顯控設(shè)備組成
電子設(shè)備的生命周期環(huán)境條件包括產(chǎn)品在組裝、存儲、處理和使用過程中經(jīng)歷的環(huán)境應(yīng)力和工作應(yīng)力條件:由環(huán)境應(yīng)力所產(chǎn)生的負(fù)載,包括溫度、濕度、壓力、振動、化學(xué)環(huán)境、輻射、污染等;由于工作應(yīng)力(操作條件)產(chǎn)生的負(fù)載,包括電壓、電流、功率等[15]。
在環(huán)境應(yīng)力方面,與操作環(huán)境條件相關(guān)的電子設(shè)備現(xiàn)場故障表明超過55%的故障是由于高溫和周期性溫度[16],溫度已經(jīng)成為導(dǎo)致電子產(chǎn)品性能下降或故障失效的最重要的原因。
工作應(yīng)力在DC-DC 變換器這類存在高頻開關(guān)的電路中的影響較大,由于工作處于高頻、大電流環(huán)境,對電路產(chǎn)生損傷影響,出現(xiàn)緩慢退化情況[17]。
根據(jù)電子設(shè)備生命周期環(huán)境條件分析,結(jié)合部隊級現(xiàn)場可更換模塊的維修需求,對于顯控設(shè)備特定的功能故障可直接根據(jù)LRM 內(nèi)置機(jī)內(nèi)測試軟件(Built-in test,BIT)對其進(jìn)行診斷即可定位,在此不再進(jìn)行分析,本文僅針對具有傳播特性和相關(guān)性的4 類典型全局故障模式進(jìn)行分析,這類故障也是導(dǎo)致重復(fù)滋擾報警、用戶難以進(jìn)行快速定位的主要原因。
1)電壓電流類故障:此類故障主要涉及開關(guān)電源模塊,開關(guān)電源模塊一般壽命比較長(10 年左右),但受到船上溫度、濕度、振動等惡劣環(huán)境的影響導(dǎo)致的故障率高,隨機(jī)故障多。當(dāng)退化到一定程度時,出現(xiàn)失效或硬件故障時,往往導(dǎo)致無輸出電壓,影響其他功能模塊。
2)視頻信號類故障:顯控設(shè)備各分布式LRM分別提供視頻信號的編解碼、疊加、傳輸以及顯示等功能,處理復(fù)雜,數(shù)據(jù)多源,當(dāng)出現(xiàn)顯示部件掉線、視頻傳輸故障時導(dǎo)致視頻顯示異常。
3)通信鏈路故障:由于顯控設(shè)備組成的分布性,LRM 之間的連通性是實(shí)現(xiàn)設(shè)備數(shù)據(jù)交換、設(shè)備控制、人機(jī)交互等重要功能的基礎(chǔ),受工作環(huán)境條件的影響通信鏈路故障是顯控設(shè)備中的常見故障類型之一。
4)散熱故障:對于計算機(jī)機(jī)箱內(nèi)的板卡類LRM 其集成度高、發(fā)熱量大,如主處理模塊往往集成發(fā)熱量大的多通道GPU、CPU,一旦出現(xiàn)散熱問題就會導(dǎo)致設(shè)備性能下降甚至異常關(guān)機(jī)。硬件本身的電解電容失效、MOSFET 失效等故障以及外部散熱設(shè)備的故障都會導(dǎo)致硬件模塊過熱。
通過對每個LRM 的故障模式分析,利用國產(chǎn)建模工具建立了多信號流圖模型,定義了8 個部件節(jié)點(diǎn)、23種信號、11個故障模式節(jié)點(diǎn)、12個測試,并為風(fēng)機(jī)、導(dǎo)熱片或冷卻液等散熱設(shè)備產(chǎn)生且無物理連接關(guān)系的冷卻傳導(dǎo)信號建立了傳播關(guān)系。
根據(jù)信息流方向和“單元故障響應(yīng)信息必下傳”的原理,采用有向線表示故障信號的傳播方向?qū)⒐?jié)點(diǎn)之間端口連接,節(jié)點(diǎn)內(nèi)部定義故障模式節(jié)點(diǎn),并用有向線連接其端口與節(jié)點(diǎn)端口,得到的模型如圖2所示。
圖2 顯控設(shè)備多信號流圖
被測對象的故障-測試相關(guān)矩陣是其組成單元的故障模式與設(shè)置的測試之間相關(guān)性的數(shù)學(xué)表示,以布爾矩陣的形式描述了模型中的故障與測試之間的關(guān)系,是多信號流圖模型的等價表現(xiàn)形式。根據(jù)顯控設(shè)備多信號流圖模型建立其故障-測試相關(guān)矩陣,見表1。
表1 顯控設(shè)備故障-測試相關(guān)矩陣
式中:dij表示測試TPi與故障Fi的相關(guān)性,dij=1表示TPj 可以測得故障Fi,反之,dij=0 表示TPj 無法測得故障Fi。
相關(guān)矩陣的處理原則:
1)各值均相同的列為冗余測試,應(yīng)保留一個,TP4、TP7、TP8、TP11為冗余測試,合并為一個;
2)各值均相同的行,則這些行構(gòu)成模糊組,現(xiàn)有測試不能唯一隔離他們,F(xiàn)2 與F7 合并為一模糊組;
3)若某行全為0,則對應(yīng)的故障不可檢測,應(yīng)補(bǔ)充該故障的信號和測試;
4)若某些列全為0 則對應(yīng)的測試沒有故障檢測能力,屬于冗余測試,應(yīng)刪除。
經(jīng)簡化后的故障-測試相關(guān)矩陣見表2。
表2 顯控設(shè)備故障-測試相關(guān)矩陣(精簡后)
故障樹的產(chǎn)生過程是為診斷策略生成檢測點(diǎn)的過程,遵循先檢測后隔離的原則,由于不同測試點(diǎn)獲取的故障信息量可能不同,根據(jù)故障檢測權(quán)值和故障隔離權(quán)值最大值作為優(yōu)先選用的故障檢測點(diǎn)或隔離點(diǎn)。
1)故障檢測權(quán)值
檢測點(diǎn)TPj的檢測權(quán)值WFD的計算公式如下:
式中:WFDj 為第j 個測試點(diǎn)檢測權(quán)值;dij為D 矩陣中第i行第j列元素。
2)故障隔離權(quán)值
檢測點(diǎn)TPj 的故障隔離權(quán)值WFI 的計算公式如下:
式中:WFIj為第j個測試點(diǎn)隔離權(quán)值;dij為D 矩陣中第i行第j列元素。
具體步驟如下:
1)檢測順序
首先根據(jù)式(8)選擇最大檢測權(quán)值WFD 對應(yīng)的故障檢測點(diǎn)TP4,根據(jù)TP4 為正常時,故障發(fā)生在F3、F6、F9、F10 中,根據(jù)最大檢測權(quán)值對D0子矩陣?yán)^續(xù)進(jìn)行檢測,直到D0子矩不存在(無故障)
2)故障隔離順序
檢測過程中任何一個檢測點(diǎn)測試結(jié)果為故障時則進(jìn)入隔離步驟,分別在D1、D0子矩陣選擇最大隔離權(quán)值的檢測點(diǎn)進(jìn)行測試式(9),直至最后的子矩陣為單行。
根據(jù)上述測點(diǎn)使用順序,將故障模式的隔離過程以二叉樹的形式繪制,就得到了顯控設(shè)備的故障診斷樹,如圖3所示。
圖3 顯控設(shè)備故障診斷樹
根據(jù)測試性評價指標(biāo)及計算方法式(1~6)對顯控設(shè)備測試性模型進(jìn)行了定性評價,具體指標(biāo)見表3。從分析結(jié)果看:所有的故障均可檢測;存在一個模糊度為2 的模糊組;通過4 步檢測即可判斷設(shè)備無故障,通過9 個測點(diǎn)即可判斷所有的故障模式,大大減少了測點(diǎn)的使用數(shù)量。
表3 測試性模型分析結(jié)果
另外,對于模糊組F2(網(wǎng)絡(luò)交換模塊鏈路故障)和F7(網(wǎng)絡(luò)模塊鏈路故障)兩種故障模式隸屬于不同的LRM,無法實(shí)現(xiàn)故障隔離到某個LRM,這是因?yàn)橥ㄟ^以太網(wǎng)連接的兩個設(shè)備只要有一個接口有故障則兩個設(shè)備均診斷為鏈路故障,在信號方向上存在反饋回路。在實(shí)際診斷時可以通過連接外部測試計算機(jī)進(jìn)行排除。
顯控設(shè)備診斷軟件架構(gòu)采用基于故障樹模型和中間件技術(shù)的層次化軟件架構(gòu)(見圖4),測試維護(hù)模式覆蓋帶內(nèi)測試、帶外測試和人工測試。
圖4 診斷軟件架構(gòu)
軟件架構(gòu)主要包括模塊級診斷測試軟件、中間件、機(jī)箱帶外診斷測試軟件(ShMC)、故障樹模型以及人機(jī)交互軟件五部分組成,其中:
模塊級診斷測試軟件:包括各LRM 內(nèi)嵌的各類工作模式下的BIT以及帶外BMC軟件,用以對其進(jìn)行自診斷和狀態(tài)數(shù)據(jù)采集,并通過標(biāo)準(zhǔn)API接口或通信協(xié)議對外提供數(shù)據(jù)服務(wù);
中間件:位于診斷測試人機(jī)交互軟件與模塊級診斷測試軟件之間,主要用以屏蔽底層硬件接口差異,對各類BIT 軟件進(jìn)行統(tǒng)一管理和獲取診斷信息,并通過統(tǒng)一接口向上層軟件提供診斷測試功能;
人機(jī)交互軟件:以可視化的形式為用戶提供診斷測試時的人機(jī)交互功能;
故障樹模型:以靈活可配置的方式為故障定位提供最優(yōu)診斷策略;
機(jī)箱帶外診斷測試軟件:用以獲取機(jī)箱內(nèi)所有硬件模塊的帶外狀態(tài)信息,包括電壓、電流、溫度、工作狀態(tài)等,并對外提供IPMI 協(xié)議接口和WEB 可視化人機(jī)交互界面。帶外測試不占用主處理模塊CPU資源,并提供全時監(jiān)控。
根據(jù)診斷樹的邏輯分析,計算機(jī)故障診斷策略流程圖如圖5。
圖5 診斷程序流程圖
本文從實(shí)際裝備中獲取設(shè)備構(gòu)成信息和故障模式信息,提出了基于多信號流圖的顯控設(shè)備建模方法,分析了顯控設(shè)備四類典型故障模式,建立了多信號流圖模型、故障-測試相關(guān)矩陣及故障樹,對測試性模型進(jìn)行了定性評價分析,并建立了基于故障樹模型的顯控設(shè)備診斷體系結(jié)構(gòu)和診斷策略,分析了故障模糊組產(chǎn)生的原因并提出了故障隔離的測試建議,為顯控設(shè)備的故障診斷和健康管理軟硬件設(shè)計提供了有益指導(dǎo)。