陳 帥
(中航工業(yè)西安航空計(jì)算技術(shù)研究所,陜西 西安 710065)
故障樹(shù)分析法在某型飛機(jī)DPC模塊故障診斷中的應(yīng)用
陳 帥
(中航工業(yè)西安航空計(jì)算技術(shù)研究所,陜西 西安 710065)
故障樹(shù)分析法是可靠性分析中常用的一種分析方法。它具有很大的靈活性,可以根據(jù)圖形演繹的方法清晰地分析出系統(tǒng)的各種故障狀態(tài),也可以圍繞某些特定的故障做層層深入的分析。在科研生產(chǎn)中,故障樹(shù)被技術(shù)人員廣泛應(yīng)用于故障分析的過(guò)程中,效果甚佳。文章以某DPC模塊低溫故障為例,詳細(xì)闡述故障樹(shù)的原理及實(shí)效使用。
故障樹(shù);分析;DPC
某型飛機(jī)系統(tǒng)的數(shù)據(jù)處理模塊(以下簡(jiǎn)稱“DPC模塊”)結(jié)構(gòu)復(fù)雜,排故周期長(zhǎng)、困難大,故障原因難以定位。我們急需一種方法來(lái)對(duì)故障及時(shí)做出準(zhǔn)確判斷、查明故障部位、找出故障原因及排除方法,這樣可以大大減少產(chǎn)品維修的盲目性、縮減經(jīng)費(fèi)、提高效率。而在目前的科研生產(chǎn)中,故障樹(shù)分析法正越來(lái)越受到技術(shù)人員的“青睞”。實(shí)踐證明,故障樹(shù)分析法在DPC模塊的故障定位過(guò)程中可以發(fā)揮很大的作用,我們可以從上至下畫(huà)出故障發(fā)生的邏輯框圖,可以直觀地看出DPC模塊故障發(fā)生的各種原因,并對(duì)系統(tǒng)進(jìn)行全面的分析,從而確定故障發(fā)生的原因,采取相應(yīng)的維修措施和改進(jìn)辦法,收效甚好,可以大力推廣使用。
故障樹(shù)分析法(Fault Tree Analysis,簡(jiǎn)寫(xiě)FTA)是通過(guò)對(duì)可能造成產(chǎn)品故障的硬件、軟件、環(huán)境等因素進(jìn)行分析, 畫(huà)出故障原因的各種可能組合方式和其發(fā)生概率的一種分析技術(shù)。它具有很大的靈活性,可以根據(jù)圖形演繹的方法清晰地分析出系統(tǒng)的各種故障狀態(tài),也可以圍繞某些特定的故障做層層深入的分析。
在使用FTA分析法的時(shí)候,故障樹(shù)模型以系統(tǒng)最不希望的事件為頂事件(根節(jié)點(diǎn)), 以可能引發(fā)頂事件的其他事件作為中間事件(中間節(jié)點(diǎn))和底事件(葉節(jié)點(diǎn))。故障樹(shù)的建立步驟主要分以下四步:a.確定頂事件,是指確定要分析的對(duì)象事件,頂事件是一個(gè)系統(tǒng)最不希望發(fā)生的事情,一般情況下,我們將頻繁發(fā)生的故障或比較危險(xiǎn)的事件作為頂事件。b.分析頂事件,調(diào)查分析與頂事件有關(guān)的全部原因,再將頂事件作為輸出時(shí)間,所有原因作為輸入條件。c.分析輸入事件,若此事件還能繼續(xù)分解,就把它作為下一級(jí)的輸出事件。d.依照上面的步驟,層層向下分解,直至所有的輸入事件不能再分解。
3.1 問(wèn)題概述
某型飛機(jī)系統(tǒng)的DPC模塊,負(fù)責(zé)整個(gè)系統(tǒng)的數(shù)據(jù)計(jì)算、數(shù)據(jù)管理和VME總線傳輸控制。在進(jìn)行環(huán)境應(yīng)力篩選試驗(yàn)時(shí),試驗(yàn)人員發(fā)現(xiàn)某DPC模塊在低溫-55℃時(shí)自測(cè)試故障。
3.2 DPC模塊工作機(jī)理
DPC模塊采用PC755處理器平臺(tái),對(duì)外為VME總線接口,其組成結(jié)構(gòu)如下圖1所示。
圖1 DPC模塊系統(tǒng)架構(gòu)
DPC模塊為處理器PC755+橋接器PC107平臺(tái)結(jié)構(gòu),還配置存儲(chǔ)器電路、VME橋電路、以太網(wǎng)接口電路等功能部件,完成分機(jī)的數(shù)據(jù)處理功能。
3.3 故障樹(shù)的建立與分析
故障的DPC模塊在低溫(-55℃)環(huán)境下,1小時(shí)后,通過(guò)多次上電測(cè)試驗(yàn)證,發(fā)現(xiàn)故障在測(cè)試程序加載環(huán)節(jié)。當(dāng)該DPC模塊加電后,引導(dǎo)程序(Boot)和操作系統(tǒng)啟動(dòng)正常,但在用戶應(yīng)用程序啟動(dòng)正常加載操作時(shí),DPC模塊無(wú)響應(yīng),應(yīng)用程序未能正常啟動(dòng)。下面對(duì)問(wèn)題從故障樹(shù)角度,逐一對(duì)各個(gè)影響因素進(jìn)行分析。針對(duì)DPC模塊應(yīng)用程序無(wú)法正常加載的故障原因進(jìn)行分析,本次故障的故障樹(shù)如圖2所示。
圖2 DPC模塊應(yīng)用程序無(wú)法啟動(dòng)的故障樹(shù)
引起該DPC模塊應(yīng)用程序無(wú)法正常啟動(dòng)的故障原因如下:
(1)軟件故障:包括DPC模塊的引導(dǎo)程序故障和操作系統(tǒng)程序故障;
(2)硬件故障:包括電源電路故障,復(fù)位電路、時(shí)鐘電路故障、處理器電路故障和存儲(chǔ)器電路故障。
3.4 利用故障樹(shù)定位故障原因
3.4.1 軟件故障
(1)引導(dǎo)程序故障
DPC模塊處理器在上電后,運(yùn)行引導(dǎo)程序完成對(duì)處理器PC755,以及PC107橋進(jìn)行存儲(chǔ)器、IO等接口的初始化配置進(jìn)行初始配置,包括:處理器訪問(wèn)空間設(shè)置,PC107橋SDRAM接口初始化,UART初始化等配置操作。若硬件配置操作錯(cuò)誤,會(huì)導(dǎo)致啟動(dòng)異常。
DPC模塊中的引導(dǎo)程序是一個(gè)經(jīng)過(guò)軟件測(cè)評(píng)后版本確定的引導(dǎo)軟件,該驅(qū)動(dòng)程序已經(jīng)在同批次的多臺(tái)分機(jī)上進(jìn)行了驗(yàn)證測(cè)試,都未發(fā)生該故障現(xiàn)象。經(jīng)查過(guò)程記錄,故障的DPC模塊上的引導(dǎo)程序軟件已按照軟件配置管理規(guī)定辦理了相關(guān)的軟件出入庫(kù)手續(xù),確認(rèn)固化版本狀態(tài)正確,所以排除引導(dǎo)程序故障。
(2)操作系統(tǒng)程序故障
DPC模塊中的操作系統(tǒng)程序是一個(gè)經(jīng)過(guò)軟件測(cè)評(píng)后確定版本軟件,且該操作程序已經(jīng)在同批次的多臺(tái)分機(jī)上進(jìn)行了驗(yàn)證測(cè)試,都未發(fā)生該故障現(xiàn)象。此次故障的DPC模塊的操作系統(tǒng)程序軟件經(jīng)過(guò)檢查記錄核實(shí),已按照軟件配置管理規(guī)定辦理了相關(guān)的出入庫(kù)手續(xù),確認(rèn)固化版本狀態(tài)正確,因此排除操作系統(tǒng)程序故障。
3.4.2 硬件故障
(1)電源電路故障
DPC模塊功能電路是否能正常工作的前提,是各級(jí)電壓是否正常。
通過(guò)萬(wàn)用表對(duì)DPC模塊的3.3V平臺(tái)電壓,2.5V橋芯片(PC107)核工作電壓以及FPGA核工作電壓,2.0V處理器核工作電壓進(jìn)行了常溫測(cè)試,測(cè)試結(jié)果如表1;
因此次故障發(fā)生在低溫環(huán)境下,通過(guò)示波器對(duì)DPC模塊的3.3V平臺(tái)電壓,2.5V橋芯片(PC107)核工作電壓以及FPGA核工作電壓,2.0V處理器核工作電壓進(jìn)行了低溫(-55℃)測(cè)試,測(cè)試結(jié)果如表1;
表1 供電要求及實(shí)測(cè)結(jié)果
經(jīng)數(shù)據(jù)對(duì)比表明,上述三種電源均滿足設(shè)計(jì)要求。此外,引導(dǎo)程序和操作系統(tǒng)能夠正確執(zhí)行,并且通過(guò)仿真器連接處理器進(jìn)行測(cè)試程序的運(yùn)行,也表明電源電路工作正常穩(wěn)定,故排除電源電路故障。
(2)時(shí)鐘電路故障
通過(guò)對(duì)DPC模塊的運(yùn)行機(jī)理分析,時(shí)鐘電路是處理器PC755、PC107橋、FPGA、PCI設(shè)備正常運(yùn)行的關(guān)鍵要素,其功能指標(biāo)特性直接影響到處理器PC755、PC107橋、FPGA、PCI等設(shè)備,是DPC模塊實(shí)現(xiàn)數(shù)據(jù)處理功能性能,以及各項(xiàng)技術(shù)指標(biāo)要求的保證。
①PCI橋時(shí)鐘電路
DPC模塊的時(shí)鐘網(wǎng)絡(luò)使用的是PC107橋的時(shí)鐘電路,如圖3,外部晶振輸出33MHz時(shí)鐘到PC107,然后PC107分別產(chǎn)生66MHz提供給處理器和SDRAM使用,提供33MHz時(shí)鐘供PCI總線使用。因故障發(fā)生為PCI總線,因此重點(diǎn)對(duì)33MHz輸入時(shí)鐘和33MHz輸出時(shí)鐘進(jìn)行測(cè)量,測(cè)試時(shí)鐘是否滿足PC107時(shí)鐘特性要求,主要測(cè)量參數(shù)有:時(shí)鐘上升下降沿,占空比,jitter(抖動(dòng))。
圖3 時(shí)鐘網(wǎng)絡(luò)示意圖
通過(guò)示波器測(cè)量PC107橋的工作時(shí)鐘(33MHz),CPU工作時(shí)鐘(66MHz),F(xiàn)PGA工作時(shí)鐘(64MHz),VME橋芯片(UniverseⅡ)工作時(shí)鐘(64MH),及PCI總線工作時(shí)鐘(33MHz)。測(cè)量結(jié)果如下:
PC107橋的33MHz輸入端時(shí)鐘信號(hào)OCN_IN的測(cè)量結(jié)果為:
上升1.2ns,下降沿1.2ns,占空比49%,jitter:108ps;
33MHz輸出端時(shí)鐘信號(hào)PCI_SYNC_IN測(cè)量結(jié)果:
上升1.2ns,下降沿1.2ns,占空比49%,jitter:90ps。
對(duì)比PC107橋生產(chǎn)商提供的技術(shù)資料,表明測(cè)量結(jié)果數(shù)據(jù)滿足PC107對(duì)時(shí)鐘特性的要求。
在CPU模塊上電過(guò)程中,針對(duì)性地進(jìn)行了PC107橋的時(shí)鐘信號(hào)測(cè)量,測(cè)量得到的波形見(jiàn)圖4。當(dāng)5V電源啟動(dòng)后,PC107橋的PLL在3ms后開(kāi)始輸出33MHz的PCI總線時(shí)鐘信號(hào)。在低溫條件下,進(jìn)行相同測(cè)試,結(jié)果一致,時(shí)鐘信號(hào)正常,表明PC107內(nèi)部鎖相環(huán)電路工作穩(wěn)定,測(cè)量結(jié)果也滿足器件手冊(cè)要求,故排除上電過(guò)程時(shí)鐘電路故障。
圖4 時(shí)鐘上電過(guò)程的波形圖
VME總線橋時(shí)鐘網(wǎng)絡(luò)如圖5,輸入時(shí)鐘有33MHz,64MHz,輸出為16MHz。因故障發(fā)生為PCI總線,因此對(duì)輸入時(shí)鐘33MHz進(jìn)行測(cè)量,VME總線橋手冊(cè)上無(wú)關(guān)于PCI時(shí)鐘的參數(shù)要求,因該時(shí)鐘為PCI107輸出,測(cè)量能滿足PCI107輸出即正常。
圖5 VME橋時(shí)鐘網(wǎng)絡(luò)
測(cè)量結(jié)果滿足PCI總線規(guī)范對(duì)時(shí)鐘信號(hào)的特性要求,因此時(shí)鐘電路滿足VME總線橋工作要求,排除VME橋時(shí)鐘電路故障。
③時(shí)鐘電路總結(jié)分析
在低溫(-55℃)條件下,通過(guò)示波器測(cè)試以上時(shí)鐘信號(hào)的參數(shù),測(cè)試結(jié)果各項(xiàng)指標(biāo)均正常,滿足各級(jí)器件對(duì)時(shí)鐘信號(hào)要求。
通過(guò)上述測(cè)試結(jié)果,證明時(shí)鐘電路功能正常,排除時(shí)鐘電路故障。
(3)處理器電路故障
處理器電路包括處理器PC755、PC107橋、復(fù)位電路等功能部件,保證處理器PC755能夠正常完成對(duì)存儲(chǔ)器單元的取指、運(yùn)算以及數(shù)據(jù)輸入輸出功能指令代碼的執(zhí)行,保證DPC模塊的數(shù)據(jù)處理功能和性能滿足技術(shù)指標(biāo)要求。DPC模塊的性能受到外部電應(yīng)力影響而受損。
假設(shè)該公司2017年采購(gòu)10000件,單位成本16元,銷售15000件,結(jié)轉(zhuǎn)銷售成本=10000*16+3000*18+2000*15=244000元
在低溫(-55℃)環(huán)境下,通過(guò)連接TRACE32仿真器對(duì)處理器電路進(jìn)行測(cè)試,PC755的上電啟動(dòng)、程序加載、代碼執(zhí)行功能均正常,加載測(cè)試程序進(jìn)行處理器PC755和PC107橋的測(cè)試,處理器的加、減、乘、除等基本運(yùn)算正確,浮點(diǎn)運(yùn)算正確,定時(shí)器和中斷功能均正常。通過(guò)上述測(cè)試,證明處理器電路無(wú)故障。從故障現(xiàn)象上看,故障僅是發(fā)生在應(yīng)用程序啟動(dòng)時(shí),之前進(jìn)行的引導(dǎo)程序和操作系統(tǒng)均加載、運(yùn)行正常,表明處理器電路功能(運(yùn)算、load/store、中斷、定時(shí)器等功能)正常,排除處理器電路故障。
通過(guò)上述測(cè)試,證明處理器電路功能正常,排除處理器電路故障。
(4)存儲(chǔ)器電路故障
①FLASH故障
FLASH存儲(chǔ)器用于保存引導(dǎo)程序、操作系統(tǒng)程序以及用戶應(yīng)用程序固化代碼,在處理器初始上電時(shí),執(zhí)行FLASH中的硬件初始化,代碼搬家操作,實(shí)現(xiàn)引導(dǎo)程序和操作系統(tǒng)程序代碼從FLASH到SDRAM的加載過(guò)程。
低溫(-55℃)下,對(duì)FLASH電路進(jìn)行以下測(cè)試:
將DPC模塊加電后,通過(guò)連接TRACE32仿真器對(duì)FLASH地址空間進(jìn)行測(cè)試,發(fā)現(xiàn)FLASH內(nèi)數(shù)據(jù)正確。通過(guò)寫(xiě)序列操作修改FLASH內(nèi)數(shù)據(jù),修改正確。DPC模塊進(jìn)入地面引導(dǎo)狀態(tài),當(dāng)進(jìn)入用戶應(yīng)用程序時(shí),通過(guò)示波器測(cè)試FLASH的“片選信號(hào)”和“使能信號(hào)”,片選信號(hào)和使能信號(hào)正常,但是用戶應(yīng)用程序仍無(wú)法啟動(dòng);重新將DPC模塊進(jìn)入地面引導(dǎo)狀態(tài),進(jìn)入FLASH固化目標(biāo)碼界面,進(jìn)行“寫(xiě)FLASH”操作,通過(guò)示波器測(cè)試FLASH的“片選信號(hào)”和“讀信號(hào)”,片選信號(hào)和寫(xiě)信號(hào)正常,F(xiàn)LASH能夠正常固化目標(biāo)碼;
經(jīng)過(guò)上述測(cè)試,證明FLASH電路功能正常,排除FLASH故障。
②NVRAM故障
NVRAM存儲(chǔ)器用于保存關(guān)鍵數(shù)據(jù)和用戶數(shù)據(jù),在處理器初始上電時(shí),讀取NVRAM的數(shù)據(jù),實(shí)現(xiàn)引導(dǎo)程序、操作系統(tǒng)程序和用戶應(yīng)用程序關(guān)鍵數(shù)據(jù)的讀取,同時(shí)保證處理器下電時(shí),將關(guān)鍵數(shù)據(jù)保存。
低溫(-55℃)環(huán)境下,對(duì)32KB的NVRAM空間進(jìn)行讀寫(xiě)測(cè)試正常,下電后重新上電測(cè)試,數(shù)據(jù)可以保存。將DPC模塊進(jìn)入地面引導(dǎo)狀態(tài),當(dāng)進(jìn)入用戶應(yīng)用程序時(shí),通過(guò)示波器測(cè)試NVRAM的“片選信號(hào)”和“使能信號(hào)”,片選信號(hào)和使能信號(hào)正常。
經(jīng)過(guò)上述測(cè)試,證明NVRAM電路正常,排除NVRAM故障。③SDRAM故障
SDRAM存儲(chǔ)器用于加載引導(dǎo)程序、操作系統(tǒng)程序和應(yīng)用程序代碼,并保存程序代碼中的堆、棧等配置。
低溫(-55℃)下,對(duì)SDRAM進(jìn)行以下測(cè)試:
更改Pubit測(cè)試程序,擴(kuò)大了NVRAM、SDRAM以及FLASH測(cè)試的空間,以及增加測(cè)試過(guò)程中數(shù)據(jù)的監(jiān)控。將DPC模塊在低溫(-55℃)下存儲(chǔ)1小時(shí)后,進(jìn)入空中引導(dǎo)狀態(tài),進(jìn)行DPC模塊上電Pubit測(cè)試,發(fā)現(xiàn)NVRAM、FLASHPubit測(cè)試報(bào)錯(cuò),但是通過(guò)分析監(jiān)控的測(cè)試過(guò)程數(shù)據(jù),測(cè)試過(guò)程的數(shù)據(jù)值相同,最后判斷的結(jié)果卻不一致,對(duì)比故障樹(shù)的其它分支(處理器電路、FLASH測(cè)試、NVRAM測(cè)試)的測(cè)試結(jié)果,初步判斷SDRAM的部分空間“讀”存在問(wèn)題。
將DPC模塊加電后,通過(guò)連接TRACE32仿真器對(duì)SDRAM地址空間進(jìn)行寫(xiě)測(cè)試,寫(xiě)入數(shù)據(jù)(例如:0x0,0x55555555,0xaaaaaaaa以及0xffffffff),發(fā)現(xiàn)地址空間0xDA00-0xDFF0,D45位SDRAM芯片的部分單元數(shù)據(jù)錯(cuò)誤,無(wú)法寫(xiě)入。
經(jīng)過(guò)上述測(cè)試,確定D45位SDRAM在低溫(-55℃)下,部分單元讀寫(xiě)錯(cuò)誤,導(dǎo)致DPC模塊無(wú)法正常啟動(dòng),在終端上無(wú)輸出。
3.5 故障定位總結(jié)
利用故障樹(shù)分析法,筆者最終定位此次故障原因?yàn)镾DRAM芯片損壞。該DPC模塊在低溫(-55℃)環(huán)境下,D45位SDRAM出現(xiàn)故障,部分單元無(wú)法正確讀寫(xiě),導(dǎo)致DPC模塊無(wú)法正常啟動(dòng)用戶應(yīng)用程序。更換該芯片后,DPC模塊工作正常,故障排除,證明故障樹(shù)分析法得出的結(jié)論正確。
實(shí)踐表明,故障樹(shù)分析法能夠有效快捷的處理DPC模塊故障,同理,在處理結(jié)構(gòu)相似的CPU、MBI模塊故障時(shí),故障樹(shù)分析法都能派上用場(chǎng)。它能從故障現(xiàn)象著手理清各種原因及其邏輯關(guān)系,從而實(shí)現(xiàn)快速的診斷。它相對(duì)于直接經(jīng)驗(yàn)方法而言,具有邏輯性強(qiáng),不易遺漏各種可能故障原因等特點(diǎn),對(duì)復(fù)雜故障的分析和故障點(diǎn)定位具有較好適用性,給科研技術(shù)者提供了一個(gè)高效的排故選擇。
[1] 陳越洲,譚琳,邢維艷,等.一種新的故障樹(shù)定性分析方法[J].計(jì)算機(jī)工程,2008,34(13):67-68.
[2] 張麗卿,王瑞峰.故障樹(shù)分析法在信號(hào)設(shè)備中的應(yīng)用[J].科技信息,2007,(5):47-48.
[3] Huang Hongzhong,Zhang Hua,Li Yanfeng.A new ordering method of basic events in fault tree analysis[J].Quality and Reliability Engineering.International,2012,28(3):297-305.
[4] 李巖,范書(shū)義.基于故障樹(shù)的診斷知識(shí)庫(kù)設(shè)計(jì)[J].武器裝備自動(dòng)化,2006,25(3):13-14 .
[5] 柯銘銘.故障樹(shù)在無(wú)人機(jī)發(fā)射機(jī)故障診斷中的應(yīng)用[J].現(xiàn)代電子技術(shù),2011,(19):18-20.
[6] 王杰.模糊綜合評(píng)判在故障樹(shù)分析法中的應(yīng)用[J].電子設(shè)計(jì)工程,2012,20(6):41-43.
Application of Fault Tree Analysis Method in Fault Diagnosis of a Certain Type of Airplane DPC Module
Fault tree analysis method is a common method in reliability analysis,it is very flexible.It can analyse any fault state syllabify by the method of graphics deduction,and could analyse thoroughly based on some special fault.In scientific research and manufacture, Fault tree analysis method is used widely in fault analysis by engineers,the effect is superduper. This article expatiates the theory and use of the fault tree analysis in example of a certain DPC module's low temperature fault.
Fault tree;analysis;DPC
V26
A
1008-1151(2015)03-0012-04
2015-02-10
陳帥(1987-),男,江蘇淮安人,中航工業(yè)西安航空計(jì)算技術(shù)研究所助理工程師,從事計(jì)算機(jī)應(yīng)用方向的研究。