萬九云
(中國鐵路廣州局集團(tuán)株洲職工培訓(xùn)基地,工程師,湖南 株洲,412000)
事件的發(fā)生必有其因,有一種原因,只要它存在,事件或早或晚總要發(fā)生,這一原因就是事件發(fā)生的根本原因。根本原因分析簡稱為RCA(Root Cause Analysis),它通過一套規(guī)范化、流程化的工作步驟,分析設(shè)備的故障機(jī)理,找出設(shè)備故障的根本原因和促成因素,制定合理的糾正行動(dòng)和措施,徹底消除導(dǎo)致設(shè)備故障的根源,從而恢復(fù)設(shè)備功能,提升設(shè)備可靠性和可用率,防止同類故障的再次發(fā)生,是一種從根本上解決設(shè)備故障問題的分析技術(shù)。RCA已在電力、能源、石油、化工、航空等多個(gè)工業(yè)領(lǐng)域得到成功應(yīng)用,實(shí)踐證明,RCA 作為一種尋找故障根本原因的成熟方法,有力地促進(jìn)了設(shè)備可靠性的持續(xù)提升。近年來,RCA 在城市軌道交通領(lǐng)域也開始得到應(yīng)用[1],但總體而言,RCA 在鐵路交通領(lǐng)域的應(yīng)用仍不普及。本文首先介紹RCA 方法及其實(shí)施步驟,然后結(jié)合機(jī)車典型故障探討RCA 方法和工具的應(yīng)用情況,最后給出實(shí)施建議。
1.1 RCA 技術(shù)步驟首先要成立RCA 專項(xiàng)小組,小組成員應(yīng)包括RCA工程師、熟悉所涉及系統(tǒng)或設(shè)備的工程師、與項(xiàng)目相關(guān)的專業(yè)人員、熟悉相關(guān)設(shè)備運(yùn)行與維修的人員、熟悉相關(guān)設(shè)備設(shè)計(jì)的工程師、廠家的技術(shù)代表等。專項(xiàng)小組嚴(yán)格按照RCA 技術(shù)步驟開展工作,RCA共包括九個(gè)關(guān)鍵技術(shù)步驟,如圖1所示。
圖1 RCA技術(shù)步驟
1)設(shè)備故障及影響范圍確定。在開展RCA 之初,首先應(yīng)搞清楚故障系統(tǒng)或設(shè)備的功能、理解其工作原理、工作環(huán)境條件要求、運(yùn)行參數(shù)狀態(tài)及標(biāo)準(zhǔn),判斷故障系統(tǒng)或設(shè)備是否可以繼續(xù)運(yùn)行,是否會(huì)導(dǎo)致功能的降級(jí)或失效,從功能的角度對(duì)系統(tǒng)或設(shè)備故障后果的嚴(yán)重程度給以判定。通過詢問相關(guān)工作人員,收集設(shè)備運(yùn)行日志、參數(shù)記錄等資料,分析故障癥狀,對(duì)故障的發(fā)展過程按時(shí)間順序進(jìn)行描述。
2)證據(jù)收集。只要是有助于RCA 工作開展的證據(jù),都應(yīng)予以盡快收集??墒占淖C據(jù)包括:設(shè)備或部件實(shí)物證據(jù)、在場(chǎng)人員問詢記錄、設(shè)備操作日志、運(yùn)行日志、設(shè)備運(yùn)行參數(shù)記錄、監(jiān)控錄像、維修記錄、供應(yīng)商提供的設(shè)備設(shè)計(jì)資料、同類設(shè)備的運(yùn)行經(jīng)驗(yàn)反饋記錄等。
3)可能的故障模式分析和評(píng)定。首先應(yīng)盡可能識(shí)別出所有可能導(dǎo)致該故障后果的故障模式,然后再依據(jù)收集到的證據(jù),結(jié)合故障機(jī)理分析,對(duì)識(shí)別出的故障模式逐一進(jìn)行排除或確認(rèn),如果收集到的證據(jù)不足以支持得到的結(jié)論,必要時(shí)可采取輔助手段(包括現(xiàn)場(chǎng)試驗(yàn)、理論計(jì)算、實(shí)驗(yàn)室類比分析等)進(jìn)一步進(jìn)行取證。對(duì)于無法給出結(jié)論的故障模式則可依據(jù)經(jīng)驗(yàn)或?qū)<遗袛鄬?duì)其可能性進(jìn)行評(píng)價(jià);對(duì)可能性較大或已經(jīng)得到確認(rèn)的故障模式,將其視為下一層級(jí)故障現(xiàn)象,依據(jù)前述步驟識(shí)別出所有可能導(dǎo)致該故障后果的所有可能的原因,對(duì)識(shí)別出的故障原因逐一進(jìn)行分析排除或確認(rèn),層層深入,最終找出導(dǎo)致故障發(fā)生的根本原因和促成因素。
4)重構(gòu)故障情景。重構(gòu)故障情景需回答兩個(gè)問題:(1)為何在這個(gè)時(shí)間發(fā)生而不是在其他時(shí)間發(fā)生故障?(2)故障為何發(fā)生(或出現(xiàn))在這個(gè)系統(tǒng)(或設(shè)備)上而不是其他系統(tǒng)(或設(shè)備)上?從前一步驟找出的根本原因出發(fā),考慮各種促成因素,對(duì)系統(tǒng)或設(shè)備施加以特定的故障模式,檢查故障后果是否與事實(shí)證據(jù)吻合。重構(gòu)故障情景的關(guān)鍵在于各階段的情景與事實(shí)證據(jù)是否吻合,邏輯推理過程是否科學(xué)嚴(yán)謹(jǐn)?shù)取?/p>
5)根本原因判定。根本原因的典型特征包括:消除該因素可使系統(tǒng)或設(shè)備恢復(fù)功能;消除該因素可有效防止故障的重發(fā)。通過故障模式分析和逐層深入分析論證,最終找出可能性最大的根本原因及相關(guān)促成因素;通過重構(gòu)故障情景,根本原因應(yīng)能嚴(yán)謹(jǐn)、合理地推理出故障發(fā)生的過程。
6)范圍擴(kuò)展。分析出根本原因后,還需分析故障對(duì)其他系統(tǒng)和設(shè)備的影響,以有利于制定出全面、系統(tǒng)的糾正行動(dòng),杜絕或盡可能地減少故障的重發(fā)。
7)糾正措施的制定。包括三個(gè)方面:一是臨時(shí)補(bǔ)救措施;二是故障設(shè)備的修復(fù)措施;三是防止故障重發(fā)的糾正行動(dòng)。前兩項(xiàng)糾正措施在發(fā)現(xiàn)設(shè)備故障之后即可制定并盡早實(shí)施,以限制故障影響范圍、縮短設(shè)備停運(yùn)時(shí)間;防止故障重發(fā)的糾正行動(dòng)需在確定故障根本原因之后才能制定。
8)糾正措施的執(zhí)行。只有嚴(yán)格執(zhí)行糾正行動(dòng),才能真正消除設(shè)備故障根源,防止故障重發(fā)。
9)效果跟蹤。在管理層面,應(yīng)設(shè)置專門的管理體系確保糾正措施的具體實(shí)施,并制定相關(guān)驗(yàn)收指標(biāo)評(píng)定糾正措施實(shí)施后的效果。
1.2 實(shí)施RCA 應(yīng)注意的問題在實(shí)施RCA 過程中,應(yīng)注意如下問題:(1)應(yīng)避免視野(思路)狹窄,必要時(shí)可開展頭腦風(fēng)暴,盡可能識(shí)別導(dǎo)致故障發(fā)生的各種因素,將其都納入分析范圍;(2)為了避免取證不足,應(yīng)盡快收集實(shí)物證據(jù)(損壞的設(shè)備部件),以防改變、移動(dòng)、消失,實(shí)物證據(jù)應(yīng)盡量維持在初始完整狀態(tài)(避免清潔、碰撞、損毀),在有完整的工作計(jì)劃之前,避免破壞性地使用證物(如送實(shí)驗(yàn)室檢驗(yàn));(3)應(yīng)保持客觀中立立場(chǎng),在訪談當(dāng)事人時(shí)應(yīng)注意區(qū)分證言中的事實(shí)和觀點(diǎn);(4)不要忽視任何細(xì)節(jié),盡可能找出所有的故障模式;(5)在分析過程中要區(qū)分根本原因和促成因素;(6)在制定糾正措施時(shí),應(yīng)考慮可實(shí)施性以及費(fèi)用的合理性。
2.1 變化分析法
2.1.1 分析步驟
1)描述并評(píng)價(jià)未成功執(zhí)行的活動(dòng);
2)分析先前已成功執(zhí)行的相同或類似的活動(dòng);
3)將已產(chǎn)生異常后果的事件與尚未產(chǎn)生異常后果的事件進(jìn)行比較。詢問“與以往執(zhí)行該活動(dòng)的所有情況相比較,這一次的情況有什么不同?”
4)無論是否相關(guān),在變化分析工作表中記錄所有已知差別,評(píng)價(jià)它們對(duì)引起異常后果影響。通過差異影響分析,確定造成異常的可能原因。
2.1.2 應(yīng)用實(shí)例 2013 年上半年,某鐵路局陸續(xù)發(fā)現(xiàn)動(dòng)車組受電弓故障十余起。應(yīng)用變化分析法對(duì)比這些發(fā)生故障的CRH380BL型動(dòng)車組與其他未發(fā)生類似故障的動(dòng)車組發(fā)現(xiàn),為了消除受電弓上臂連接點(diǎn)與接觸網(wǎng)之間的間歇性磨損現(xiàn)象,這些發(fā)生故障的動(dòng)車組的受電弓均曾進(jìn)行過相關(guān)改造。進(jìn)一步分析發(fā)現(xiàn),在受電弓改造后,其碳滑板高度小幅被抬高,但弓角高度卻保持原有狀態(tài),未得到同步抬升,引起受電弓輪廓線尺寸發(fā)生改變,導(dǎo)致弓網(wǎng)關(guān)系異常。在改造后初期,由于碳滑板高度略低于新弓弓角的高度,不會(huì)發(fā)生弓網(wǎng)接觸異常,但經(jīng)過一段時(shí)間運(yùn)行,弓角不斷磨耗導(dǎo)致碳滑板相對(duì)于新弓弓角的高度逐漸持平,當(dāng)從側(cè)線進(jìn)正線時(shí),受電弓出現(xiàn)刮擦現(xiàn)象,其上臂側(cè)也因外部受力向一側(cè)偏斜,此即受電弓故障頻出的根本原因[2]。
2.2 E&CF 圖E&CF 圖的核心是按時(shí)間順序?qū)?dǎo)致故障發(fā)生的一系列事件繪制在時(shí)間軸線上,可幫助調(diào)查人員了解事件發(fā)生的順序和原因,解釋事件的發(fā)展進(jìn)程。由于大部分事件不是起因于單一故障,而是由涉及到多個(gè)設(shè)備、系統(tǒng)、任務(wù)和專業(yè),而E&CF 圖對(duì)評(píng)價(jià)這類復(fù)雜的事件尤為有效。它可以指示出事件從開始到結(jié)束的確切順序,包括被破壞的屏障、初始條件、不適當(dāng)?shù)男袨楹彤a(chǎn)生該事件的原因因素。
如承擔(dān)大秦線20 000t 重載組合列車牽引任務(wù)的HXD1 型機(jī)車的渡板變形問題屢有發(fā)生,現(xiàn)場(chǎng)分析發(fā)現(xiàn)這些問題主要集中發(fā)生在彎道處[3]。圖2 建立了針對(duì)該問題的E&CF 圖,從分析結(jié)果看,渡板變形的原因在于列車通過彎道時(shí)形成車體錯(cuò)位,在列車縱向沖動(dòng)力的作用下,對(duì)向列車與機(jī)車渡板之間發(fā)生碰撞,而縱向沖動(dòng)力主要來源于車鉤的擺角超限。針對(duì)成因,有關(guān)單位采取修改從板、鉤尾尺寸實(shí)現(xiàn)內(nèi)電車鉤完整自動(dòng)對(duì)中功能,限制從板在車體鉤箱內(nèi)的橫向活動(dòng)范圍和優(yōu)化列車操縱辦法等措施,從根本上解決了問題。
圖2 HXD1列車渡板變形的E&CF圖
2.3 魚骨圖使用魚骨圖可以從不同層面、不同角度找出所有可能導(dǎo)致事故發(fā)生的潛在原因或因素。如,接發(fā)列車作業(yè)是鐵路行車組織的關(guān)鍵一環(huán),運(yùn)用魚骨圖可從人員、設(shè)備、環(huán)境和管理四個(gè)層面對(duì)影響接發(fā)列車安全和效率的因素展開分析,并從人員、設(shè)備、環(huán)境和管理四個(gè)層面給出相應(yīng)的防控措施,避免責(zé)任行車事故的發(fā)生,確保列車安全運(yùn)行,提升接發(fā)列車效率[4]。
2.4 故障樹故障樹形如一棵倒掛的樹,它將事件的邏輯因果關(guān)系以圖形的方式直觀地進(jìn)行顯現(xiàn),構(gòu)圖的基本元素是事件(樹的節(jié)點(diǎn))和邏輯門(用以表示節(jié)點(diǎn)間的邏輯關(guān)系,如“與”、“或”、“非”等)。頂事件位于故障樹的頂端,可能直接導(dǎo)致頂事件發(fā)生的一系列中間事件在頂事件的下面列出,再對(duì)中間事件逐一進(jìn)行分解,直至一系列不可再分解的基本事件。它們之間的內(nèi)在邏輯關(guān)系由邏輯門聯(lián)結(jié)。在調(diào)查設(shè)備故障或人因失誤時(shí),故障樹分析方法可以幫助我們找出所有可能的原因(故障樹中的基本事件),然后通過逐步深入調(diào)查,找出實(shí)際原因。
作為示例,圖3 給出了機(jī)車電氣系統(tǒng)的部分故障樹[5,6],當(dāng)最終確定了電氣系統(tǒng)故障的原因?yàn)闋恳姍C(jī)電流不平衡時(shí),應(yīng)進(jìn)一步分析故障根源,尋找導(dǎo)致電路不平衡的根本原因。發(fā)現(xiàn)導(dǎo)致系統(tǒng)或設(shè)備部件出故障的組件并不意味著分析工作就此結(jié)束,例如,雖然控制系統(tǒng)故障是由于某一繼電器故障引起的,但根本原因可能并不是繼電器本身,可能是其他一些原因或促成因素導(dǎo)致繼電器故障,如繼電器所處的環(huán)境條件(如高溫、濕度超高、振動(dòng)頻繁等)嚴(yán)重超出設(shè)計(jì)條件,僅僅更換繼電器不足以防止故障的重發(fā)。
圖3 機(jī)車電氣系統(tǒng)故障樹(部分)
2.5 不同RCA 方法和工具的優(yōu)劣對(duì)比變化分析法適用于事實(shí)或事件混淆或調(diào)查人員不知道從何處開始調(diào)查的不確定事件,但其不能識(shí)別漸變與驟變的區(qū)別,難以識(shí)別多個(gè)變化的疊加效應(yīng);E&CF 圖適用于有長期原因或成因復(fù)雜的多層面問題,其可以將事故發(fā)展進(jìn)程以圖形化方式清晰表現(xiàn)出來,便于定位事故的根本原因,但是E&CF 圖的繪制過程卻相對(duì)繁瑣;魚骨圖對(duì)尋找各種不同層面的根本原因尤為方便,但卻無法體現(xiàn)事故與根本原因之間的因果關(guān)系;故障樹既可以用于定性分析也可以用于量化分析,但是其繪制過程比較復(fù)雜,且受限于人們對(duì)設(shè)備故障模式的當(dāng)前認(rèn)識(shí)水平,需要結(jié)合其他工具同時(shí)使用[7]。
1)重要事件的篩選:建議從嚴(yán)重性、普遍性、重發(fā)性幾方面來篩選重要事件,RCA 小組對(duì)重要事件獨(dú)立開展分析;
2)RCA 小組的組織:RCA 小組成員應(yīng)具備較高的綜合素質(zhì),并接受過RCA技術(shù)和方法培訓(xùn);
3)RCA 分析過程:RCA 分析過程應(yīng)嚴(yán)格按照RCA 的9 步驟進(jìn)行,公正客觀地進(jìn)行證據(jù)收集與技術(shù)分析論證工作。在故障模式分析過程中,可根據(jù)具體情況運(yùn)用多種分析技術(shù)和手段,如變化分析法、E&CF圖等。
4)獨(dú)立性與權(quán)威性:應(yīng)從RCA 小組的組織形式、人員素質(zhì)要求、工作方式、分析技術(shù)及外部支持等方面的規(guī)范運(yùn)作來保證RCA 小組分析工作的獨(dú)立性和權(quán)威性。
5)糾正措施的跟蹤落實(shí):要充分考慮經(jīng)濟(jì)性和可行性,除針對(duì)根本原因制定糾正措施以外,還需對(duì)該事件涉及到的相關(guān)設(shè)備,或分析調(diào)查過程中發(fā)現(xiàn)的其它問題制定相應(yīng)的改進(jìn)行動(dòng)。和執(zhí)行部門溝通討論,明確負(fù)責(zé)部門和完成期限。
在技術(shù)密集、風(fēng)險(xiǎn)密集的高速鐵路運(yùn)輸系統(tǒng)應(yīng)用RCA分析技術(shù)和方法,并建立RCA管理體系是十分必要的。建議國內(nèi)鐵路相關(guān)企業(yè)根據(jù)自身情況,學(xué)習(xí)掌握RCA 技術(shù)和方法,注重相關(guān)知識(shí)和技能的培養(yǎng),相信RCA 將在鐵路運(yùn)營防止重大事件重發(fā)及解決重大技術(shù)問題方面發(fā)揮重要作用。