李松峰,宋震,侯玨,肇北,王江濤,劉書浩,宋曉敏
(1.交通運輸部科學(xué)研究院,北京 100029;2.城市軌道交通運營安全管理技術(shù)及裝備交通運輸行業(yè)研發(fā)中心,北京 100029;3.京東數(shù)智工業(yè)科技有限公司,北京 100176;4.北京京港地鐵有限公司,北京 100068)
隨著各地地鐵運營里程持續(xù)快速增長,因系統(tǒng)設(shè)備故障影響路網(wǎng)運行秩序、服務(wù)質(zhì)量甚至運營安全的事件時有發(fā)生[1]。目前,設(shè)備故障診斷高度依賴檢修人員經(jīng)驗,無法適應(yīng)地鐵智能化、智慧化的發(fā)展需求[2]。同時,當(dāng)前地鐵設(shè)備呈現(xiàn)出復(fù)雜化和多樣化特征,不同設(shè)備的故障診斷方法不同,僅依靠檢修人員經(jīng)驗已無法有效應(yīng)對。因此,行業(yè)迫切需要智能化的故障分析診斷手段,有效進(jìn)行故障和系統(tǒng)可靠性分析,提升地鐵運營安全保障能力。
既有的國內(nèi)外研究大多是對可能造成故障的因素進(jìn)行分析,然后通過測算其相關(guān)概率來進(jìn)行故障排查,如趙奕等[3]基于故障樹原理,對故障影響因素進(jìn)行了定性和定量分析。故障樹分析法是地鐵故障常用的分析方法,但其僅適用于故障分類較簡單且依賴關(guān)系較明確情況下的故障分析,同時不能進(jìn)行逆向故障診斷。為了讓故障分析更貼近實際,一般在因素之間增加概率描述。王宇等[4]引入主元分析法對檢修數(shù)據(jù)進(jìn)行預(yù)處理,在此基礎(chǔ)上建立概率神經(jīng)網(wǎng)絡(luò)模型,將主元分析與概率神經(jīng)網(wǎng)絡(luò)相結(jié)合進(jìn)行故障診斷。但該方法在進(jìn)行數(shù)據(jù)預(yù)處理時,可能會失去原來有效的數(shù)據(jù)信息,影響模型精度。針對故障間邏輯關(guān)系相對明確或故障分類相對清晰的情況,可采用故障樹轉(zhuǎn)貝葉斯網(wǎng)絡(luò)的方法來識別系統(tǒng)中的薄弱環(huán)節(jié),進(jìn)而診斷故障,這種方法在眾多領(lǐng)域得到了應(yīng)用。Zhang等[5]采用貝葉斯網(wǎng)絡(luò)評估了核電廠的運營狀態(tài),對多個影響操作者狀態(tài)的因素進(jìn)行綜合分析,擴(kuò)展了貝葉斯網(wǎng)絡(luò)的應(yīng)用維度。周巧蓮等[6]基于地鐵車門系統(tǒng)的故障樹,利用貝葉斯網(wǎng)絡(luò)進(jìn)行了可靠性分析并獲得了系統(tǒng)的關(guān)鍵環(huán)節(jié),該方法可為維修策略提供技術(shù)支持,但可靠性分析指標(biāo)較單一,未能全面反映系統(tǒng)的可靠性。崔袁丁等[7]通過貝葉斯網(wǎng)絡(luò)特有的概率計算方法,對鐵路旅客服務(wù)質(zhì)量評價體系進(jìn)行逐級計算,使得評價過程更具條理。Zhang等[8]將模糊理論引入貝葉斯網(wǎng)絡(luò)模型,以地鐵隧道滲漏事故為例,驗證了該方法可有效克服現(xiàn)有概率估計方法的局限。李興運等[9]將模糊貝葉斯網(wǎng)絡(luò)結(jié)合證據(jù)理論分析法,對多態(tài)受電弓系統(tǒng)進(jìn)行可靠性分析,增強(qiáng)了貝葉斯網(wǎng)絡(luò)處理不確定認(rèn)知的能力。Zarei等[10]用故障模式影響分析法分析了城市天然氣管道運輸風(fēng)險,用貝葉斯網(wǎng)絡(luò)進(jìn)行建模并評估,成功解析出故障主要影響因素,使風(fēng)險分析更全面。
以上研究均基于貝葉斯網(wǎng)絡(luò)模型,從概率角度解決了故障分析無法高效定位故障原因的難點問題,對故障關(guān)鍵因素進(jìn)行了有效辨識和逆向診斷,但對貝葉斯網(wǎng)絡(luò)的應(yīng)用局限于基于故障概率的診斷過程,忽視了故障診斷需要的時間成本,也缺少在實際場景下對比人工分析和貝葉斯網(wǎng)絡(luò)分析效率的研究。鑒于此,本文基于故障發(fā)生概率和排查時間提出“預(yù)期時間”測度指標(biāo),并以地鐵客室門設(shè)備故障診斷為例,對比基于貝葉斯網(wǎng)絡(luò)的機(jī)器算法與人工故障排查的效率差異,以期為提高地鐵設(shè)備故障維修效率提供理論支撐。
地鐵系統(tǒng)發(fā)生故障將直接影響系統(tǒng)可用性,而地鐵的可用性通常與系統(tǒng)條件、運行條件和維修條件密切相關(guān)[11]。故障分析的價值在于支撐設(shè)備發(fā)生故障時的快速診斷和處置,以恢復(fù)設(shè)備的可用性。
故障樹分析的基本思想是:將系統(tǒng)最不期望的故障現(xiàn)象作為頂事件,利用演繹推理的方式逐級向下分解,直至所有輸入原因事件無法分解為止。但是,該方法無法對系統(tǒng)發(fā)生多個相互關(guān)聯(lián)或數(shù)量不確定的故障進(jìn)行快速有效排查。
貝葉斯網(wǎng)絡(luò)(Bayesian Networks,BN)是基于概率推理的圖形化分析方法,一般用于決策分析。貝葉斯網(wǎng)絡(luò)由貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)和條件概率兩部分組成[12-13]。設(shè)一個貝葉斯網(wǎng)絡(luò)由節(jié)點{X1,X2,…,Xn}構(gòu)成,其中Xn為第n個節(jié)點。該貝葉斯網(wǎng)絡(luò)可表示為BN=<G,P>。G表示貝葉斯網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)圖,它是一個有向無環(huán)圖,圖中包含兩個要素:節(jié)點和有向弧。節(jié)點表示系統(tǒng)的隨機(jī)變量或事件;有向弧是具有映射方向的弧線,它連接節(jié)點,從原因事件指向結(jié)果事件,表示隨機(jī)變量或事件間的依賴性或因果關(guān)系。P是貝葉斯網(wǎng)絡(luò)的二維條件概率表(Conditional Probability Table,CPT),它定義節(jié)點之間的概率關(guān)系,表征不同節(jié)點之間的連接關(guān)系,根節(jié)點(沒有任何父節(jié)點的節(jié)點)概率為其先驗概率[14]。
圖1 是一個簡單的貝葉斯網(wǎng)絡(luò)示意圖,圖形中每個節(jié)點代表的是相應(yīng)問題的一個隨機(jī)變量,節(jié)點變量可以是任何變量的抽象。貝葉斯網(wǎng)絡(luò)能提供更為豐富的關(guān)系類型,讓決策分析更完善和準(zhǔn)確。
本文所指的故障是無法由監(jiān)測設(shè)備提供的信息直接得出的源頭故障,而現(xiàn)象是指可直觀得到或由監(jiān)測設(shè)備提供的現(xiàn)象。
故障樹模型通過邏輯門連接各事件,而貝葉斯網(wǎng)絡(luò)通過有向邊與對應(yīng)的條件概率分布實現(xiàn)建模,鑒于這種相似性,可將故障樹模型轉(zhuǎn)化為貝葉斯網(wǎng)絡(luò)模型,實現(xiàn)貝葉斯網(wǎng)絡(luò)建模。轉(zhuǎn)化算法如下[15-16]:
(1)將故障樹的每個底事件對應(yīng)到貝葉斯網(wǎng)絡(luò)的根節(jié)點;
(2)將故障樹中各基本事件的先驗概率值作為貝葉斯網(wǎng)絡(luò)中對應(yīng)根節(jié)點的先驗概率進(jìn)行賦值;
(3)將故障樹的中間事件和邏輯門分別對應(yīng)表達(dá)為貝葉斯網(wǎng)絡(luò)中的節(jié)點和聯(lián)系強(qiáng)度,依照故障樹模型中各事件間的邏輯關(guān)系連接貝葉斯網(wǎng)絡(luò)的各節(jié)點,對相應(yīng)的節(jié)點附加等價的條件概率分布表。
圖2 所示為故障樹模型中基本邏輯門——“或”門和“與”門——對應(yīng)貝葉斯網(wǎng)絡(luò)模型的表達(dá)形式。右側(cè)每行的條件概率對應(yīng)CPT 表格中間的一行。
1.3.1 設(shè)備故障概率分析
基于貝葉斯網(wǎng)絡(luò)可以由故障的先驗概率和條件概率進(jìn)行預(yù)測推理,最終確定設(shè)備故障發(fā)生的原因及相應(yīng)的概率。因故障樹中各底事件相互獨立且均為“與”“或”的關(guān)系,故也可以確定條件概率[17]。在確定各概率后,基于獨立性假設(shè)定義,如果事件A1,A2,…,An互不相容,P(B) >0時的貝葉斯公式為[18]:
式(1)中:P(Aj)為第j個事件A的先驗概率;P(Aj|B)為第j個事件A的后驗概率;P(B|Aj)為條件概率。
由貝葉斯公式進(jìn)行故障診斷,可得出各子節(jié)點造成系統(tǒng)故障的概率,然后按照概率大小順序依次排查不同故障發(fā)生的原因,最大限度減少故障導(dǎo)致的損失。貝葉斯網(wǎng)絡(luò)模型可根據(jù)最新的先驗概率(如P(A),P(B))和條件概率(如P(A|B))進(jìn)行迭代,不斷改進(jìn)診斷效果。
1.3.2 基于預(yù)期時間的故障診斷分析
基于貝葉斯網(wǎng)絡(luò)的故障診斷通常用于研究系統(tǒng)或設(shè)備的可靠性,但一般不對故障排查成本進(jìn)行分析。而在實際應(yīng)用中,應(yīng)優(yōu)先對故障概率高且排查時間短的故障進(jìn)行排查,提高故障診斷和解除效能。因此,本文引入預(yù)期時間Te。預(yù)期時間指排查故障所用時間的數(shù)學(xué)期望,計算公式如下:
式(2)中:Pf為故障發(fā)生的概率,經(jīng)由貝葉斯網(wǎng)絡(luò)計算所得;T為故障平均排查時間,由設(shè)備特性及維修經(jīng)驗得到。
當(dāng)故障排查時間相同時,應(yīng)優(yōu)先考慮故障概率。當(dāng)故障概率相同時,應(yīng)優(yōu)先考慮排查時間短的故障。本文基于預(yù)期時間指標(biāo)Te,利用Python及PyAgrum框架實現(xiàn)貝葉斯故障排查功能。
在地鐵車輛系統(tǒng)中,客室門設(shè)備是機(jī)械與電氣相結(jié)合的復(fù)合型裝置,是保障行車安全的關(guān)鍵設(shè)備。因此,本文以地鐵車輛客室門設(shè)備為研究對象,對國內(nèi)17 家地鐵運營企業(yè)共計190 條車輛客室門設(shè)備故障數(shù)據(jù)進(jìn)行分析,驗證前述模型的有效性。
將客室門設(shè)備故障作為頂事件,結(jié)合各故障現(xiàn)象及對正線運營場景的影響情況建立故障樹模型,根據(jù)開門控制邏輯,利用故障樹模型對各故障模式進(jìn)行分析,其各層事件描述和標(biāo)號見表1,故障樹模型圖如圖3所示。
表1 故障樹各層事件的描述和標(biāo)號
根據(jù)1.2 節(jié)提出的轉(zhuǎn)化原則,可將客室門設(shè)備故障的故障樹模型轉(zhuǎn)化為貝葉斯網(wǎng)絡(luò)模型,如圖4所示。
同時,根據(jù)全國17家地鐵公司故障調(diào)研數(shù)據(jù)得到客室門設(shè)備各故障模式的先驗概率如表2 所示。假設(shè)根節(jié)點相互獨立,由圖3 可知各中間事件的條件概率分布只有1(發(fā)生故障)和0(無故障)兩種。表中排查時間為歷史數(shù)據(jù)的均值。需注意的是,“先驗概率”和“排查時間”在現(xiàn)有的維護(hù)手冊里找不到,但對工人的維修效率有重要影響。
表2 客室門設(shè)備各故障模式先驗概率表
表2 (續(xù))
基于表2 數(shù)據(jù),利用式(1),通過貝葉斯網(wǎng)絡(luò)模型可對客室門設(shè)備故障概率進(jìn)行分析。根據(jù)式(2)可以得到各故障此時排查的預(yù)期時間Te。因此計算得到客室門設(shè)備故障時各根節(jié)點故障概率及所需要的排查預(yù)期時間如表3所示。
表3 客室門設(shè)備故障時各根節(jié)點故障概率
從表3 中可看出,當(dāng)客室門故障時,對比X13“門全關(guān)閉指示燈不亮”和X14“客室門無法集控打開或關(guān)閉”,X14發(fā)生概率更大,不考慮其他因素時,應(yīng)優(yōu)先排查X14。但根據(jù)式(2),易得Te13<Te14,在診斷時間最優(yōu)原則下,此時應(yīng)先排查X13。因此,當(dāng)概率和時間都不相同時,預(yù)期時間對故障排查的順序更有指導(dǎo)意義。
采用基于3D數(shù)字孿生的蒙特卡洛仿真系統(tǒng)進(jìn)行效果驗證,先在14個故障點中隨機(jī)生成一個故障點,假設(shè)人工故障診斷時沒有任何參考信息,診斷過程完全隨機(jī)進(jìn)行,用戶點擊任意點代表對該故障進(jìn)行檢查,如果點擊到有故障的點,則代表故障排除。在基于預(yù)期時間的貝葉斯網(wǎng)絡(luò)故障診斷模式下,用戶每次選擇算法推薦的第1個故障點,即預(yù)期時間指標(biāo)最小的那個故障,以此類推直到選擇到真正的故障點。
表4為人工隨機(jī)排查故障和應(yīng)用本文算法(以下稱為“機(jī)器算法”)進(jìn)行故障診斷的過程對比。測試中,人工排查共歷經(jīng)10 步發(fā)現(xiàn)了故障點X13,耗時188min;而基于預(yù)期時間的貝葉斯網(wǎng)絡(luò)故障診斷算法僅歷經(jīng)2 步,僅耗時19min 就發(fā)現(xiàn)了故障點X13,較人工排查節(jié)省了169min。圖5所示為兩種方法診斷用時結(jié)果對比。
在上例中,利用機(jī)器算法進(jìn)行故障診斷所用的時間只是人工隨機(jī)排查的1/10,連續(xù)利用算法進(jìn)行1 000次蒙特卡洛仿真計算,其結(jié)果如圖6所示。從直方圖圖6(c)和圖6(d)可以看出,隨機(jī)排查的用時在250min以上的占比最多,其余比較平均分布在0~250min,而在基于預(yù)期時間的貝葉斯網(wǎng)絡(luò)算法模式下,診斷的時間大多小于150min,大于200min的只占很少一部分。
在實際生產(chǎn)場景中,維修工人一般能憑借經(jīng)驗根據(jù)故障現(xiàn)象進(jìn)行故障原因的初步判斷。因此,人工故障診斷的過程并不是完全隨機(jī)的,而是通過制定策略進(jìn)行有序的排查,這里涉及兩種不同的排查策略:第一種是嚴(yán)格按照排查時間長短順序進(jìn)行排查,由排查時間最短的故障開始直至找到故障,本文稱之為時間排序策略排查;第二種是按照故障樹自上而下,對造成頂事件的各中間事件依排查時間順序進(jìn)行排除,對每個中間事件中的底事件也依時間順序進(jìn)行排查,一個中間事件的底事件全部排查完再進(jìn)行下一個中間事件的排查,本文稱之為綜合排序策略排查。對兩種人工排查策略下的故障診斷分別進(jìn)行1 000 次迭代仿真,輸出結(jié)果的對比如圖7和圖8所示。
從圖7、圖8 可以看出,兩種策略排查方法的用時都分布在0~250min,時間排序手動排查用時集中在150min左右,而綜合排序手動排查用時較多分布在250min左右。
綜上,3 種人工排查方法與本文所提算法的故障診斷結(jié)果對比如表5 所示,機(jī)器算法診斷的平均用時分別是3 種人工排查方法平均用時的48.49%,46.48%和43.72%。雖然機(jī)器算法的用時不總是小于人工排查的用時,但是機(jī)器算法用時的平均值、中位值及標(biāo)準(zhǔn)差都遠(yuǎn)小于人工隨機(jī)排查。在仿真中模仿有經(jīng)驗的維修工人,綜合考慮概率和平均排查用時進(jìn)行故障排查(即有策略的人工排查),相較于此,利用本算法可節(jié)省15%~30%的時間。在日常故障維修工作中,設(shè)備故障的修復(fù)時長在故障處置總時長中占比較小,而故障診斷耗時較長,應(yīng)用基于貝葉斯網(wǎng)絡(luò)模型機(jī)器算法能快速分析出系統(tǒng)中的薄弱環(huán)節(jié),提高地鐵設(shè)備系統(tǒng)的維修效率。
本文將故障樹轉(zhuǎn)化為貝葉斯網(wǎng)絡(luò)模型應(yīng)用到地鐵設(shè)備故障分析中,通過引入預(yù)期時間指標(biāo),基于貝葉斯網(wǎng)絡(luò)構(gòu)建了一種新的設(shè)備故障診斷算法,并以地鐵車輛客室門設(shè)備故障為例,通過仿真測試對比人工隨機(jī)故障排查和基于本文算法的故障診斷用時。根據(jù)模型輸出結(jié)果,基于本文算法進(jìn)行故障診斷所消耗的時間是人工隨機(jī)排查時間的43%~48%,相比于有策略的人工排查,機(jī)器算法估算可節(jié)約15%~30%的時間。由于本文中用于對比的3 種人工故障排查方法均設(shè)定了一定的原則,導(dǎo)致故障排查過程存在一定程度的機(jī)械性,也沒有考慮不同經(jīng)驗、知識背景的維修人員在診斷故障邏輯方面存在的差異,后續(xù)研究中可予以加強(qiáng),以更真實地還原實際生產(chǎn)場景。