劉冠軍,呂克洪,李華康,李 乾,邱 靜
(1.國防科技大學(xué) 裝備綜合保障技術(shù)重點實驗室,湖南 長沙 410073; 2.國防科技大學(xué) 智能科學(xué)學(xué)院,湖南 長沙 410073)
近年來,隨著裝備實戰(zhàn)化水平、任務(wù)強度和復(fù)雜性的提高,以及臨近空間、深空、深海等計劃的實施,裝備結(jié)構(gòu)越來越復(fù)雜,工作環(huán)境越來越惡劣,一個“黑色幽靈”越來越多地困擾裝備尤其是電子設(shè)備的使用和保障,影響任務(wù)完成甚至導(dǎo)致任務(wù)失敗,保障難度和費用大幅增加。這個“黑色幽靈”就是裝備無故障發(fā)現(xiàn)(No Fault Found,NFF)問題。NFF是裝備單元在某維修級別被認(rèn)為故障而拆卸,卻在下一維修級別測試沒有發(fā)現(xiàn)故障的現(xiàn)象[1-3]。國內(nèi)外統(tǒng)計發(fā)現(xiàn),目前,NFF問題在飛機等大型復(fù)雜裝備中表現(xiàn)日益突出。這些裝備在任務(wù)執(zhí)行過程中,其機內(nèi)測試(Built-in Test,BIT)等指示了故障,但拆下維修時,近1/3的故障排查不出,配置強大的自動測試系統(tǒng)亦檢測不出故障,導(dǎo)致排故和修理難以下手。NFF問題直接有損于裝備可用度,導(dǎo)致裝備任務(wù)中斷,降低任務(wù)成功率,還會導(dǎo)致裝備好的部件錯誤拆換,造成無效的維修活動,增加維修費用和維修時間[1-4]。如果NFF現(xiàn)象出現(xiàn)頻率過高,操作者和維修者會對BIT等測試手段失去信任甚至忽略故障指示,當(dāng)裝備出現(xiàn)真實故障或異常時卻未進(jìn)行處置,從而可能造成嚴(yán)重后果[5-6]。目前,國外航空裝備維修中,NFF問題處理費用已經(jīng)占電子設(shè)備大約30%~50%的維修費用,是裝備維修領(lǐng)域的棘手問題與“瓶頸”技術(shù)問題[1,7]。研究與分析表明,導(dǎo)致裝備NFF問題的原因中,間歇故障是主要原因[8-9]。間歇故障是指產(chǎn)品發(fā)生故障后,不經(jīng)修理而在有限時間內(nèi)或適當(dāng)條件下自行恢復(fù)功能的故障,它是不同于傳統(tǒng)的永久故障的一種特殊故障表現(xiàn)形式[10-11]。間歇故障不同于永久故障,由于其瞬變、隨機性強、時有時無等特性,其故障征兆及特征不易獲取,目前的故障診斷方法難以進(jìn)行間歇故障檢測與診斷,系統(tǒng)深入的NFF與間歇故障研究進(jìn)展困難[12-13]。但近年來,隨著大型復(fù)雜裝備不斷投入使用,裝備NFF和間歇故障問題日益成為不可回避的關(guān)鍵問題,也逐漸成為國際研究熱點。該問題的有效解決,對于提高復(fù)雜裝備可用性和實戰(zhàn)化水平、減少維修保障費用具有重要意義。
首先對NFF和間歇故障的概念和內(nèi)涵進(jìn)行梳理,總結(jié)分析NFF和間歇故障產(chǎn)生的誘因以及對裝備的影響,概述裝備NFF問題、間歇故障檢測與診斷技術(shù)的國內(nèi)外研究歷程和現(xiàn)狀,最后分析了間歇故障診斷領(lǐng)域的技術(shù)問題與發(fā)展重點。
近年來,NFF在國外裝備保障領(lǐng)域研究越來越多,但我國對其認(rèn)識還處于初步階段,尚未給出標(biāo)準(zhǔn)定義和確定的內(nèi)涵,新修訂的GJB451正在討論將其納入。從內(nèi)涵上分析,NFF與重測合格(Retest OK,RTOK)、虛警、故障未發(fā)現(xiàn)(Fault Not Found,F(xiàn)NF)、不能復(fù)現(xiàn)(Can not Duplicated,CND)、誤拆(Error Removed,ER)、無證據(jù)故障(No Evidence of Failure,NEOF)、無法驗證(Cannot Verify,CNV)、隱匿故障Hidden Failures,HF)等概念[14-15]既有聯(lián)系又有區(qū)別。NFF與RTOK內(nèi)涵比較接近,與虛警也有關(guān)聯(lián)。但從工程實踐問題分析,NFF內(nèi)涵更為豐富和復(fù)雜,其可能是因真實故障而拆卸后重測合格,也可能因疑似故障(或真實無故障而被認(rèn)為有故障)導(dǎo)致單元拆卸后在下一級別測試時沒有發(fā)現(xiàn)故障。
NFF主要有兩種類型:一種是裝備確實發(fā)生了故障、使用時報故并可能知道故障位置,在下一維修級別時故障不再出現(xiàn),或者復(fù)現(xiàn)了故障卻測試合格;另一種是裝備使用時就是錯報或虛警、或者進(jìn)行了錯誤的定位,導(dǎo)致后面維修時在本來無故障的位置測試合格、未發(fā)現(xiàn)故障的現(xiàn)象[4]。從裝備層次角度看,NFF可以分為3個層級:一是裝備/設(shè)備級,使用者發(fā)現(xiàn)裝備/設(shè)備運行不正常,在維修時沒有測試到異常的故障現(xiàn)象;二是板級,使用者發(fā)現(xiàn)裝備運行不正常,在維修時裝備原位發(fā)現(xiàn)了故障并將故障電路板拆卸,當(dāng)離線對該電路板進(jìn)一步測試時發(fā)現(xiàn)該電路板運行正常,未發(fā)現(xiàn)故障;三是零部件級,被拆卸的電路板發(fā)現(xiàn)了故障,將故障零部件進(jìn)行更換后的電路板運行正常,但所更換零部件測試正常,未發(fā)現(xiàn)故障[16]。
從機理上分析,導(dǎo)致裝備NFF主要誘因包括4個方面:① 裝備間歇故障:裝備在使用過程中發(fā)現(xiàn)間歇故障、但在下一維修級別環(huán)境下間歇故障不再發(fā)生,或通過某些手段將間歇故障復(fù)現(xiàn)出、但現(xiàn)有測試手段無法檢測定位間歇故障,是導(dǎo)致裝備出現(xiàn)NFF問題的主要原因之一。來源于美軍NFF問題統(tǒng)計數(shù)據(jù)表明,間歇故障是造成5年以上裝備NFF問題的主要原因。② 測試能力因素:BIT虛警、BIT測試未覆蓋、內(nèi)場測試設(shè)備能力有限等。③ 環(huán)境因素:溫度、振動、濕度、輻射,占所有NFF問題的25%[17]。④ 人為因素:設(shè)計人員、使用人員和維修人員分析、使用和維修不當(dāng)?shù)萚13]。對于測試能力、人為因素等導(dǎo)致的NFF問題,工程上通常采用提高系統(tǒng)可靠性、提高BIT及測試設(shè)備的測試診斷能力、加強數(shù)據(jù)資源共享與管理、標(biāo)準(zhǔn)制定與人員培訓(xùn)等手段進(jìn)行防范。對于間歇故障和環(huán)境導(dǎo)致的NFF問題,由于在裝備工作過程中間歇故障和環(huán)境通常相互耦合作用,其導(dǎo)致的NFF問題在工程中占有相當(dāng)大的比例,必須通過綜合考慮環(huán)境因素的影響,對間歇故障進(jìn)行檢測和診斷,這也是減少復(fù)雜裝備NFF問題的主要技術(shù)手段和關(guān)鍵所在。
按照GJB451A-2005的定義,間歇故障是指產(chǎn)品發(fā)生故障后,不經(jīng)修理而在有限時間內(nèi)或適當(dāng)條件下自行恢復(fù)功能的故障[10]。國內(nèi)外裝備使用表明,間歇故障是裝備尤其是裝備中電子設(shè)備服役中后期的一種主要故障類型。間歇故障是不同于傳統(tǒng)的永久故障的一種特殊故障表現(xiàn)形式,它與永久故障的區(qū)別見表1所示。
表1 間歇故障與永久故障的區(qū)別
從間歇故障的表現(xiàn)形式看,間歇故障也是分層級的,不同層級的間歇故障具有不同的表現(xiàn)形式。某些間歇故障逐層影響,在裝備各個層級都有所體現(xiàn),以某連接器接觸不良導(dǎo)致的間歇故障為例,在器件級表現(xiàn)為連接器接觸電阻的不連續(xù),在功能電路級表現(xiàn)為傳輸?shù)墓δ苄盘枙r斷時續(xù),在系統(tǒng)級表現(xiàn)為系統(tǒng)功能間歇性異常,如顯示屏閃爍、計算機重啟等現(xiàn)象。某些間歇故障對上層次基本無影響,僅在部分層級有所體現(xiàn)。以電源模塊的間歇性輸出故障為例,由于設(shè)備設(shè)計有相應(yīng)保護措施或容錯措施,瞬時的掉電對系統(tǒng)功能無影響,間歇故障在系統(tǒng)層級無明顯表現(xiàn)。美軍間歇故障檢測軍用性能規(guī)范從間歇故障的持續(xù)時間角度,將電子設(shè)備間歇故障分為3類:① 短時間歇故障,時長在100 ns以內(nèi);② 中時間歇故障,時長在101 ns~500 μs之間;③ 長時間歇故障,時長在501 μs~5 ms之間[18]。從間歇故障的誘因看,可以將間歇故障分為兩類:① 設(shè)計型間歇故障。一般指由于存在接地、軟件缺陷等設(shè)計不足,當(dāng)多個部件與因素相互作用時產(chǎn)生的間歇性故障。這類間歇故障隨機性非常強,規(guī)律性差,難以復(fù)現(xiàn)和檢測。但其可能在試驗與使用初期階段表現(xiàn)出來,可以針對缺陷,通過提高可靠性、優(yōu)化產(chǎn)品設(shè)計等技術(shù)途徑解決。這類間歇故障不是間歇故障的主要問題,尤其不是老化設(shè)備表現(xiàn)出的間歇故障問題。② 耗損型間歇故障。由連接器針腳松動或疲勞、電線磨損或斷絲、接觸器不良、焊點開裂、印制板線連接不良、器件性能退化等導(dǎo)致的間歇性故障[15]。這類間歇故障是產(chǎn)品使用一定時間后的必然物理性表現(xiàn),其機理多與連接器、焊點、器件等的損傷、退化及外部環(huán)境應(yīng)力密切相關(guān),存在相對明確的機理和規(guī)律,有可能實現(xiàn)有效復(fù)現(xiàn)、檢測與診斷,成為當(dāng)前國外研究的熱點。
來自美軍的數(shù)據(jù)統(tǒng)計及分析表明,耗損型間歇故障約占軍用飛機間歇故障的80%以上,是裝備多數(shù)功能間歇異常的底層物理性故障根源[15,19-20]。從耗損型間歇故障的機理分析。一方面,耗損型間歇故障與裝備的退化和損傷狀態(tài)密切相關(guān),即耗損型間歇故障的發(fā)生頻率等特征會隨裝備的損傷加劇而逐漸增加。一般地,在裝備服役早期,這種故障看起來像是短時間的小波動、電壓下降、或電噪聲等,對裝備功能不會產(chǎn)生影響。當(dāng)裝備進(jìn)入服役中后期,隨著損傷的加劇,耗損型間歇故障幅值和持續(xù)時間不斷增加,逐漸導(dǎo)致裝備功能的間歇性不正常,且這種現(xiàn)象隨機發(fā)生,離線難以復(fù)現(xiàn)和檢測,導(dǎo)致裝備的NFF現(xiàn)象。只有當(dāng)這種故障發(fā)展到晚期甚至成為永久故障時,常規(guī)的BIT和ATE才可能檢測到。另一方面,耗損型間歇故障還與裝備的工作環(huán)境因素密切相關(guān)。工程實踐表明,耗損型間歇故障的表現(xiàn)通常遵循如下規(guī)律:當(dāng)環(huán)境應(yīng)力消失后,裝備間歇故障隨之減少或消失;如果再次受到環(huán)境應(yīng)力的作用,裝備間歇故障又可能隨機出現(xiàn)[21]。
裝備發(fā)生間歇故障導(dǎo)致NFF現(xiàn)象時,一方面將會導(dǎo)致裝備任務(wù)中斷,進(jìn)而進(jìn)行拆卸、換件等維修工作,產(chǎn)生大量維修費用。以美軍統(tǒng)計為例,美軍飛機飛行報告的故障有高達(dá)50%在隨后地面測試中不能被檢測,由間歇問題造成的NFF問題,已經(jīng)成為航空器維修中最大的費用[22-23]。F16戰(zhàn)機每年由于NFF造成的換件費用超過1300萬美元,加上廠商維修時遇到的類似問題,NFF造成的換件費用超過2000萬美元[23]。總的來算,美軍飛機NFF相關(guān)問題消耗了超過24.6萬個維修工時,包括飛機停機時間和保障費用,等于6架飛機平臺的費用。同時,美軍統(tǒng)計表明,源于不能檢測的間歇故障是目前飛機維修費用增長中的一個重要因素,美國國防部為此花費約20億美元[24]。對于新型飛機,問題也同樣嚴(yán)重。如2012年9月10日至11月14日,美軍在埃格林空軍基地對F-35A開展的為期65天的作戰(zhàn)效用鑒定試驗飛行結(jié)果顯示,其飛行控制系統(tǒng)是導(dǎo)致BIT虛警的主要部件,僅頭盔等的電路引腳/連接間歇故障問題就導(dǎo)致了5次任務(wù)中止,使得BIT虛警的平均間隔飛行小時僅為10.6 h,遠(yuǎn)遠(yuǎn)達(dá)不到50飛行小時的目標(biāo)值。
另一方面,NFF發(fā)生后,由于被拆故障單元維修時檢測合格,導(dǎo)致無法排除故障或問題歸零。類似情況發(fā)生若干次后,裝備使用部門可能無奈地不再換件送修,而是憑經(jīng)驗采用重啟、重新插拔等手段嘗試使設(shè)備恢復(fù)正常。裝備使用部門深刻反映,這種處理方式實屬權(quán)宜之計,雖然可能使設(shè)備暫時恢復(fù)工作,但并沒有找到故障原因和真正排除間歇故障問題。裝備實際上是帶隱患工作,后續(xù)工作時特別是實戰(zhàn)化環(huán)境下故障可能又發(fā)生,不僅失去了永久故障發(fā)生前改進(jìn)和修復(fù)的寶貴時機,而且可能因為間歇故障發(fā)生而錯過稍縱即逝的任務(wù)窗口,直接導(dǎo)致裝備的任務(wù)失敗,成為影響裝備可用性和任務(wù)成功的重大隱患。另外,由于目前我國裝備BIT等檢測手段能力有限,各類電子設(shè)備中還有相當(dāng)?shù)拈g歇故障在裝備使用過程中可能未被檢測出來,雖然裝備沒有報警,但已經(jīng)帶間歇故障隱患工作,長此以往,將嚴(yán)重影響裝備完好性和任務(wù)執(zhí)行。
近期,我國越來越多的大型復(fù)雜裝備進(jìn)入使用中后期,大量新型裝備陸續(xù)投入使用,間歇故障尤其是耗損型間歇故障將處于高發(fā)期階段,主要體現(xiàn)在:① 耗損型間歇故障的出現(xiàn)與使用環(huán)境密切相關(guān),隨著裝備使用強度越來越大,環(huán)境越來越復(fù)雜、嚴(yán)酷,耗損型間歇故障出現(xiàn)頻度會越來越高,將給裝備服役安全等帶來很大隱患,嚴(yán)重影響戰(zhàn)備完好性和任務(wù)執(zhí)行;② 耗損型間歇故障與設(shè)備老化過程相關(guān),類似的使用環(huán)境下,一般在設(shè)備壽命中期前出現(xiàn)頻度較小,壽命中后期出現(xiàn)頻度較大;③ 新研制裝備使用初期是設(shè)計型間歇故障的高發(fā)期。此背景下,我國間歇故障及NFF問題研究日益迫切。
國外早在1965年就提出了NFF問題,但長期處于工程認(rèn)識階段,近年來其技術(shù)研究呈現(xiàn)高潮[25-26]。如英國克蘭菲爾德大學(xué)EPSRC研究中心近幾年一直致力于NFF問題的研究,主要從間歇故障、集成故障、BIT與測試設(shè)備3個方面進(jìn)行了研究[26]。綜合國內(nèi)外研究現(xiàn)狀,目前NFF問題主要有以下解決措施。
(1) 制定減少NFF問題的規(guī)范。
如2008年,美國發(fā)布了關(guān)于NFF的ARINC標(biāo)準(zhǔn)ARINC-672-2008“減少無故障發(fā)現(xiàn)(NFF)現(xiàn)象的指南”,該指南系統(tǒng)分析了裝備設(shè)計生產(chǎn)、任務(wù)使用、外場維護、內(nèi)場維護等過程中NFF問題的原因,并給出相應(yīng)的減少措施[27]。
(2) 提高裝備可靠性。
裝備高度復(fù)雜導(dǎo)致的可靠性低是造成NFF現(xiàn)象的重要原因之一。裝備越復(fù)雜,設(shè)計缺陷可能越多,產(chǎn)生NFF問題、特別是設(shè)計型間歇故障有關(guān)的NFF問題可能性越大,提高裝備可靠性有助于降低NFF現(xiàn)象的發(fā)生概率。如裝備設(shè)計之初考慮可能存在的NFF問題,采取提高模塊間連接或耦合的可靠性、消除軟件缺陷等措施來減少NFF問題;在設(shè)計階段充分結(jié)合相近裝備的維修保障數(shù)據(jù),進(jìn)行預(yù)防NFF的裝備改進(jìn)設(shè)計等[12]。
(3) 提高BIT和測試設(shè)備的測試診斷能力。
若BIT的檢測診斷能力足夠強,能夠準(zhǔn)確地進(jìn)行故障檢測與定位,識別虛警,則在一定程度上可以減少由于虛警等導(dǎo)致的NFF問題。因此,提高BIT檢測診斷與降虛警能力是解決NFF問題的技術(shù)途徑之一。國防科技大學(xué)在該方面開展了較深入研究[6,28-29],從BIT信息處理流程的角度,提出了BIT分層信息融合的綜合降虛警方法;針對系統(tǒng)級BIT體系結(jié)構(gòu)與集成因素等誘發(fā)系統(tǒng)級BIT虛警問題,提出了系統(tǒng)級BIT降虛警方法。中國飛行試驗研究院在機組告警信息實時監(jiān)控系統(tǒng)中進(jìn)行了虛警抑制設(shè)計[30]。另一方面,針對維修級別間測試容差不一致導(dǎo)致的NFF問題,可以設(shè)計合理的容差。同時,提高下一級維修的測試精度,確保內(nèi)場維修時的故障檢測與隔離能力[4]。
(4) 提高間歇故障檢測與診斷能力。
如前所述,間歇故障和環(huán)境因素是引起NFF現(xiàn)象的主要因素,因此提高間歇故障的檢測與診斷能力,能夠極大地減少裝備的NFF問題。將在后文對該方面重點闡述。
(5) 加強數(shù)據(jù)資源共享與管理。
收集裝備設(shè)計、服役、維修保障等過程中的故障發(fā)生時間和位置等相關(guān)數(shù)據(jù),然后處理轉(zhuǎn)化為專家和相關(guān)維護技術(shù)人員適用的方式,建立故障數(shù)據(jù)庫,實現(xiàn)數(shù)據(jù)共享,并反饋給裝備設(shè)計部門及相關(guān)技術(shù)人員,進(jìn)而不斷更新裝備的故障排查工具和流程,是國外采取的減少NFF現(xiàn)象途徑之一。如自上世紀(jì)90年代末起,美軍希爾空軍基地開始收集F-16武器系統(tǒng)電子箱的維修數(shù)據(jù),即DRILS(Defense Repair Information Logistics System)計劃。該計劃審查數(shù)年的維修歷史記錄,收集修理車間和航空站的各種測試數(shù)據(jù),傳送到基地中央服務(wù)器,將現(xiàn)場不正常的測試數(shù)據(jù)與服務(wù)器中正常的測試數(shù)據(jù)進(jìn)行比較,如果數(shù)值差別不大,則可認(rèn)為是測試誤差下的正常情況;如果差異大,才指示NFF問題[23]。
(6) 加強維修人員培訓(xùn)。
人為因素也是導(dǎo)致NFF問題的重要原因,如維修人員對裝備和相應(yīng)測試設(shè)備的熟練程度、機組人員與維修人員對故障信息的理解不一致等。Neil Pickthall等人通過對NFF問題處理流程的調(diào)研,分析了人為因素對飛行設(shè)備出現(xiàn)NFF問題的影響,結(jié)果表明維修人員故障排查能力的缺乏是導(dǎo)致NFF現(xiàn)象的重要因素之一。提高維修人員使用測試維修設(shè)備、排查故障的熟練程度,加強層級之間的協(xié)調(diào)暢通與準(zhǔn)確性,有助于減少裝備NFF現(xiàn)象[27,31-32]。
國外早在上世紀(jì)60年代即開始間歇故障相關(guān)技術(shù)研究??v觀半個世紀(jì)的研究歷程,國外在該技術(shù)領(lǐng)域的研究走過了從不確定性檢測到確定性檢測的曲折道路,具體可以分為兩個階段。第一個階段為不確定性檢測與診斷方法階段:上世紀(jì)60年代以來,針對間歇故障時有時無、隨機性強的外在表現(xiàn),其研究主要集中在基于統(tǒng)計推理、隨機過程模型等不確定性檢測與診斷方法方面。第二個階段為確定性檢測與診斷方法階段:2010年前后,研究人員逐漸意識到不確定性檢測與診斷方法在解決間歇故障問題方面的本質(zhì)不足和根源,從間歇故障的物理機理入手,研究確定性的檢測和診斷方法,在機理、方法、設(shè)備及應(yīng)用方面取得了突破性進(jìn)展。
3.1.1 間歇故障不確定性檢測與診斷方法
早在1967年,航天領(lǐng)域就關(guān)注了間歇故障問題。幾十年來,國外從診斷方法的角度對間歇故障診斷開展了大量的研究,在傳統(tǒng)的故障診斷方法基礎(chǔ)上,將間歇故障納入判決范圍,提出了許多基于數(shù)據(jù)、統(tǒng)計模型的間歇故障檢測與診斷方法,具體如下。
(1) 基于數(shù)據(jù)驅(qū)動的間歇故障檢測與診斷方法。
基于數(shù)據(jù)驅(qū)動的方法是直接將觀察值進(jìn)行數(shù)據(jù)處理或統(tǒng)計推理,以得到診斷結(jié)論。常用的方法有聚類分析、決策樹、概率推理以及其他模式識別技術(shù)等。
① 基于特征分析的方法。S.S.H.Zaidi等人分別采用STFT、WVD(Wigner)、CWD對間歇故障的信號特征進(jìn)行提取,采用兩種聚類分析方法:線性分類器和k-mean分類器,實現(xiàn)對間歇故障進(jìn)行判別[33-34]。
② 基于決策樹的方法。S.Singh等人針對汽車電子控制單元(ECU)間歇故障的識別定位問題,利用存于PCM中的故障碼和工作狀態(tài)參數(shù),并通過計算信息熵的辦法,提出決策生成和特征狀態(tài)參數(shù)選取算法,從而輔助維修人員進(jìn)行維修排查,大大減小維修決策時間[35-36]。
③ 基于概率推理的方法。美國Palo Alto研究中心的J.de Kleer等人以自檢測打印機為例,針對經(jīng)過多模塊任務(wù),通過觀測任務(wù)的失敗或成功,分別在單個永久故障、單個間歇故障、多個永久故障、多個間歇故障情況下,估計模塊故障的后驗概率,以實現(xiàn)間歇故障的隔離[37]。
(2) 基于模型的間歇故障檢測與診斷方法。
基于模型的方法是構(gòu)造間歇故障診斷問題的數(shù)學(xué)模型,將觀察值輸入模型,或是學(xué)習(xí)訓(xùn)練得到模型參數(shù),由模型參數(shù)作進(jìn)一步的推理,進(jìn)而得到診斷結(jié)論。依據(jù)模型的不同,主要包括以下幾個方面。
① 基于隨機過程模型的方法。一是Petri網(wǎng)模型。Yoshio Sugasawa等人使用Petri網(wǎng)描述含間歇故障的系統(tǒng)特性,使用可達(dá)樹表示模型的動態(tài)行為,用Markov更新過程分析系統(tǒng)隨機行為,得到吸收狀態(tài)的極限概率[38]。Krasnobaev等人采用Petri網(wǎng)建立間歇故障發(fā)生過程的模型,并對該模型進(jìn)行分析以確定影響故障概率的過程參數(shù)[39]。二是Markov模型。Toshio Nakagawa等人以連續(xù)參數(shù)Markov模型為基礎(chǔ),推導(dǎo)了間歇故障相關(guān)的檢測概率和檢測時間[40]。Breuer等人提出二狀態(tài)離散參數(shù)的間歇故障Markov模型[41]。V.B.Prasad等人建立連續(xù)參數(shù)三態(tài)Markov模型,用以區(qū)分正常、間歇故障、永久故障狀態(tài),進(jìn)而分析得到可靠性和平均故障間隔時間[42]。三是概率統(tǒng)計模型。A.A.Ismaeel等人研究了組合電路的間歇故障診斷,提出TDM模型,該模型可以預(yù)先確定特定故障模式的測試向量[43]。Brian W.Ricks等人提出了間歇和永久故障的貝葉斯網(wǎng)模型,擴展了用于處理永久故障的診斷算法,以用于間歇故障診斷[44]。
② 基于系統(tǒng)信息模型的方法。Bin Fu等人針對多處理器網(wǎng)絡(luò)間歇故障的診斷問題,提出相應(yīng)的測試和診斷算法,該算法可診斷出所有永久故障和部分間歇故障[45]。G.M.Masson等人研究了相互連接和測試系統(tǒng)的間歇故障數(shù)量問題,給出了間歇故障診斷的充分和必要條件,并分別針對間歇故障和瞬時故障,提出隔離和任務(wù)結(jié)果處理的過程和方法[46]。M.Blom等人針對通信網(wǎng)絡(luò)間歇故障問題,建立瀑布型網(wǎng)絡(luò)結(jié)構(gòu)模型,通過對組件故障概率進(jìn)行更新,從而檢測出間歇故障[47]。
③ 離散事件系統(tǒng)模型。密歇根大學(xué)的O.Contant等人構(gòu)建了考慮間歇故障的離散事件系統(tǒng)模型,對其可診斷性的充分必要條件進(jìn)行了論證,并基于此構(gòu)建診斷器,對系統(tǒng)事件進(jìn)行狀態(tài)評估,從而實現(xiàn)故障的檢測[48-49]。A.Correcher等人基于離散事件系統(tǒng)構(gòu)建診斷器,獲取部件發(fā)生故障和恢復(fù)狀態(tài)的概率來診斷間歇故障,并以含4個發(fā)動機的銑床為例進(jìn)行了驗證[50]。L.K.Carvalho等人針對傳感器間歇故障建立離散事件系統(tǒng)模型,并構(gòu)建了診斷自動機來識別間歇故障[51]。
④ 狀態(tài)空間模型。A.Yaramas和Y.Cao針對飛機布線系統(tǒng)功率線路的間歇故障,建立了正常和故障狀態(tài)線路的狀態(tài)空間描述模型,通過最小二乘法估計負(fù)載電路模型的系數(shù)或參數(shù),通過閾值判斷間歇故障[52]。英國Cranfield大學(xué)的T.Sedighi等人研究了基于狀態(tài)空間模型的間歇故障檢測方法,構(gòu)造殘差和動態(tài)閾值進(jìn)行間歇故障檢測[53]。
⑤ 決策優(yōu)化模型。斯坦福大學(xué)的J.Savir等人以小于n次測試檢測出間歇故障的概率最大為目標(biāo),引入逃脫概率EP(Escape Probability)描述系統(tǒng)間歇故障的漏檢率,構(gòu)建了間歇故障診斷的決策優(yōu)化模型并進(jìn)行了求解[54]。N.Kranitis等人研究了嵌入式流水線處理器中間歇故障的最優(yōu)周期測試,以測試費用(時間)最小為目標(biāo)計算最優(yōu)測試間隔時間,使用數(shù)值方法進(jìn)行求解[55]。
總之,在2010年以前的幾十年間里,國外針對間歇故障檢測與診斷問題,提出了大量基于統(tǒng)計推理、隨機過程模型等的間歇故障檢測與診斷方法。雖然這些方法從不同角度對間歇故障問題進(jìn)行了分析和建模,但其診斷結(jié)果多是判斷可能發(fā)生間歇故障,難以確切給出間歇故障的發(fā)生位置、故障強度、表現(xiàn)情況等維修和排故所需要的故障信息。且這些方法多需要大量間歇故障先驗數(shù)據(jù)支持,而間歇故障數(shù)據(jù)先天難以獲取和稀少,較大地影響了其診斷準(zhǔn)確性。另一方面,這些方法沒有認(rèn)識到裝備使用環(huán)境下出現(xiàn)的間歇故障在后續(xù)維修級別環(huán)境下基本不再發(fā)生,片面采用這些方法不可能檢測出間歇故障。因此,多年來,研究成果多停留在方法層面,難以準(zhǔn)確檢測工程實際中的間歇故障,在解決裝備間歇故障及NFF問題方面長期無大進(jìn)展,裝備間歇故障甚至一度被認(rèn)為無法真正有效檢測與診斷。
3.1.2 間歇故障確定性檢測與診斷方法
從信號層面看,實現(xiàn)簡單間歇故障如線纜間歇故障的確定性檢測可以采用線纜瞬斷檢測方法。但線纜瞬斷檢測方法一般適用于簡單連接線纜、且正在發(fā)生的間歇故障,難以解決存在眾多連接環(huán)節(jié)和器件的設(shè)備間歇故障檢測、隔離及NFF問題。
2010前后,美英等國裝備間歇故障與NFF問題越來越嚴(yán)重,對裝備任務(wù)執(zhí)行和保障費用影響越來越大,到了非解決不可的地步。因此,近年來國外裝備管理、使用、研制部門與測試診斷領(lǐng)域空前重視,開展了更深入的分析與研究,取得了較多成果,特別是在耗損型間歇故障機理、確定性檢測與診斷方面取得了突破性進(jìn)展。
(1) 間歇故障規(guī)范與管理方面。
2012年,美國國防部長辦公室成立了“聯(lián)合間歇故障測試工作產(chǎn)品組(JIT WIPT)”,聯(lián)合各軍兵種共同關(guān)注裝備間歇故障問題;2014年美國國防部維修年會將間歇故障檢測與診斷技術(shù)列為2013、2014年最為重要、能夠推動維修技術(shù)發(fā)展的3種前沿技術(shù)之一,認(rèn)為該技術(shù)是由跨軍兵種技術(shù)團體選擇的、對改善維修效能和效率具有重大潛能的技術(shù)[56]。同年,美軍發(fā)布MIL-PRF-32516“間歇故障檢測與隔離軍用性能規(guī)范”,該文件給出了間歇故障定義等規(guī)范,是開發(fā)間歇故障檢測診斷技術(shù)與設(shè)備的主要依據(jù)[18]。目前,美軍給海軍和空軍配發(fā)了間歇故障發(fā)生器(IFG),提供部隊驗證和確認(rèn)間歇故障檢測的能力。
(2) 間歇故障機理與檢測診斷方法手段方面。
研究人員經(jīng)大量試驗與分析研究,逐漸明確耗損型間歇故障機理是:設(shè)備經(jīng)長期應(yīng)力(包括環(huán)境應(yīng)力和工作應(yīng)力)作用、導(dǎo)致性能退化到一定損傷狀態(tài)后,工作中又受到即時應(yīng)力作用的結(jié)果。這為耗損型間歇故障復(fù)現(xiàn)與檢測提供了指導(dǎo)。檢測診斷方法與手段方面,美國Brent Sorensen等人開發(fā)了IFD-2000間歇故障檢測器,IDF-2000采用不解體方式,通過設(shè)備接口可同時檢測256條通路的間歇故障;美國Universal Synaptic公司在IFD-2000基礎(chǔ)上,研制了間歇故障檢測和隔離系統(tǒng)IFDIS,提供了耗損型間歇故障的復(fù)現(xiàn)與檢測的有效方法與手段,得到了成功應(yīng)用,受到軍方和軍工巨頭的認(rèn)可,在國防部維修年會上兩度獲得 “最佳創(chuàng)意”競賽獎,被認(rèn)為在同類技術(shù)和產(chǎn)品中性能最佳,作為優(yōu)秀案例在2014國防部維修年會上進(jìn)行重點介紹[24,56]。
IFDIS系統(tǒng)目前應(yīng)用于檢測隔離F-16機載雷達(dá)系統(tǒng)低功率無線電模塊的間歇故障(過去10年該模塊是影響F-16戰(zhàn)斗機執(zhí)行任務(wù)率的主要因素),60%的單元測試出一次或多次間歇故障,基地級維修間隔時間從292 h增加到926 h,可靠性增長約3倍,投資回報為28倍,使得F-16戰(zhàn)斗機戰(zhàn)備完好性大大提高。該系統(tǒng)同時應(yīng)用于美國空軍、海軍、英國國防部、澳大利亞皇家空軍、以色列空軍和民航飛機等項目,并取得了較大成功[24,56]。
國內(nèi)約在2000年前后開始關(guān)注間歇故障檢測與診斷問題,研究起步較晚。從整體研究情況來看,間歇故障問題受重視程度不高,學(xué)術(shù)界尚未把間歇故障問題提升到一個技術(shù)領(lǐng)域?qū)用骈_展廣泛研究,相關(guān)研究較少。
清華大學(xué)周東華教授等從動態(tài)系統(tǒng)的角度分析和研究了控制系統(tǒng)的間歇故障問題,提出了線性離散系統(tǒng)間歇故障的魯棒檢測方法等[57-58]。崔濤等針對電力傳輸系統(tǒng)接地瞬時故障和間歇故障,采用希爾伯特變換辨識電路中的瞬時功率,并由該信號特征提出故障診斷的算法[59]。浙江大學(xué)趙九洲等考慮CAN總線中節(jié)點處于不同狀態(tài)(發(fā)送、接收)時發(fā)生間歇故障的表現(xiàn),建立了混合泊松過程以描述間歇故障過程,采用最大似然估計方法獲取模型參數(shù)[60]。2000年以來,國防科技大學(xué)在研究機內(nèi)測試(BIT )虛警問題時,對間歇故障問題展開了一定研究[61-63],提出了采用三態(tài)馬爾科夫模型、離散事件系統(tǒng)模型等描述間歇故障問題,并探索了間歇故障診斷方法。另外,國內(nèi)在線纜瞬斷檢測方面也有個別研究。
2010以來,國防科技大學(xué)隨著對我國裝備NFF問題和間歇故障的深入認(rèn)識,以及對國外間歇故障研究情況的跟蹤,深刻意識到:要真正解決裝備NFF和間歇故障問題,需要明晰間歇故障機理,研究適用的確定性檢測和診斷方法。因此,對耗損型間歇故障機理開展了一定探索[64-65],開發(fā)了間歇故障檢測原型系統(tǒng),并取得了初步的應(yīng)用效果。
針對目前我國裝備間歇故障問題需求,綜合該領(lǐng)域國內(nèi)外研究現(xiàn)狀,間歇故障診斷領(lǐng)域的關(guān)鍵技術(shù)問題與建議發(fā)展方向分析如下。
(1) 間歇故障機理。
從目前研究和應(yīng)用情況看,間歇故障尤其是耗損型間歇故障的復(fù)現(xiàn)、診斷與分析評估效果較大地依賴間歇故障機理明晰程度。目前,耗損型間歇故障機理主要是定性認(rèn)識,設(shè)計型間歇故障機理尚未總結(jié)出明確規(guī)律。為實現(xiàn)高效復(fù)現(xiàn)、精準(zhǔn)診斷、可信評估,有必要進(jìn)一步分析間歇故障的發(fā)生機理及規(guī)律,特別是建立外部環(huán)境應(yīng)力、內(nèi)部損傷與耗損型間歇故障之間的定量或半定量化關(guān)聯(lián)關(guān)系。
(2) 間歇故障在線檢測。
間歇故障脫離工作環(huán)境一般不再表現(xiàn),理想的方式是在設(shè)備工作狀態(tài)下發(fā)生間歇故障時將其檢測與隔離。但由于間歇故障分布范圍廣、發(fā)生隨機、持續(xù)時間短、信號表現(xiàn)多樣,若采用BIT等手段進(jìn)行在線檢測,可能需要高速采樣等較大代價電路。若通過傳遞綜合后的信號進(jìn)行功能檢測判斷,則信號綜合可能屏蔽前端的物理性間歇故障而難以檢測出來。而且由于設(shè)備工作中存在干擾等情況,間歇故障與干擾導(dǎo)致的波動有可能混淆。因此,間歇故障在線檢測存在檢測效果不佳、代價大、虛警等嚴(yán)重挑戰(zhàn)。目前,尚未有設(shè)備專門針對間歇故障進(jìn)行BIT等在線檢測設(shè)計。
(3) 間歇故障復(fù)現(xiàn)。
耗損型間歇故障的發(fā)生與工作過程中所承受的環(huán)境應(yīng)力密切相關(guān)。但一方面,間歇故障具有一定的隨機性,加載工作環(huán)境不一定復(fù)現(xiàn),或者加載相當(dāng)長時間環(huán)境才復(fù)現(xiàn)出來。另一方面,與可靠性試驗不同,間歇故障復(fù)現(xiàn)是對使用過程中已經(jīng)客觀發(fā)生間歇故障的設(shè)備,通過施加環(huán)境應(yīng)力,復(fù)現(xiàn)出設(shè)備在使用環(huán)境中曾經(jīng)出現(xiàn)的間歇故障,而且不出現(xiàn)新的間歇故障。如何施加環(huán)境應(yīng)力才能將設(shè)備內(nèi)部的耗損型間歇故障隱患準(zhǔn)確、高效地復(fù)現(xiàn)出來而又不對設(shè)備造成新的故障或嚴(yán)重?fù)p傷,是一難點問題。
(4) 間歇故障確定性檢測。
間歇故障確定性檢測對解決間歇故障問題具有實際意義。在間歇故障復(fù)現(xiàn)基礎(chǔ)上,要實現(xiàn)間歇故障確定性檢測,關(guān)鍵在于如何捕捉到間歇故障導(dǎo)致的瞬態(tài)信號變化。理論上,基于高速采樣的測試方案在技術(shù)上可以實現(xiàn)少量間歇故障的瞬態(tài)信號捕捉。但對電子設(shè)備來說,連接環(huán)節(jié)眾多,且其間歇故障持續(xù)時間短,若采用一對一高速采樣方案,其測試通路可能需達(dá)成百上千。而且需要在設(shè)備內(nèi)部施加大量測試點,而解體在內(nèi)部施加測試點將影響設(shè)備間歇故障狀態(tài)。因此,在不解體實現(xiàn)準(zhǔn)確檢測、測試成本、同步并行測試控制等方面將有很大的挑戰(zhàn)。
(5) 間歇故障精準(zhǔn)定位。
確定間歇故障發(fā)生的具體部位,對維修至關(guān)重要。但電子設(shè)備連接、器件眾多,多個環(huán)節(jié)容易構(gòu)成模糊組,如何準(zhǔn)確定位間歇故障的具體位置十分困難。而傳統(tǒng)的故障診斷方法難以進(jìn)行間歇故障定位。因此,需要研究間歇故障的隔離定位方法。
(6) 間歇故障評估。
由于同一間歇故障在不同階段的強度有大有小,對設(shè)備的影響也有大有小,如何對其處置(更換、維修還是繼續(xù)使用)是工程中需要決策的問題。維護人員希望基于間歇故障設(shè)備的狀態(tài)好壞做出決策。因此,在發(fā)生間歇故障后,如何定量判斷設(shè)備使用狀態(tài)是一關(guān)鍵問題。
NFF與間歇故障日益成為我國裝備測試與保障領(lǐng)域的突出問題。深入分析NFF與間歇故障原因與機理,研究間歇故障復(fù)現(xiàn)、確定性檢測與診斷、分析評估等方法,制定NFF與間歇故障問題解決方案,對提高裝備可用性、降低保障負(fù)擔(dān)將具有重要意義。