朱志勇
(南京康尼電子科技有限公司,江蘇 南京,210009)
以數(shù)字化、物聯(lián)化、智能化趨勢(shì)為特點(diǎn)的嵌入式系統(tǒng)產(chǎn)品已經(jīng)深入人們的生活,在日常的使用中非常廣泛。其可靠性不僅關(guān)系到正常使用,而且關(guān)系到使用者的人身安全,若發(fā)生嚴(yán)重故障可能會(huì)令使用者受到嚴(yán)重的人身傷害。可靠性是與產(chǎn)品質(zhì)量相關(guān)的重要的因素,根據(jù)定義,可靠性是指產(chǎn)品在規(guī)定的條件、規(guī)定時(shí)間內(nèi)完成規(guī)定功能的能力。嵌入式系統(tǒng)產(chǎn)品是否具備高可靠性是決定產(chǎn)品能否應(yīng)用到高端領(lǐng)域的基本前提[1]。
嵌入式系統(tǒng)通常集傳感器、集成電路、存儲(chǔ)器、網(wǎng)絡(luò)、軟件等技術(shù)于一體,可以實(shí)現(xiàn)系統(tǒng)預(yù)期定義的功能。但由于不斷追求系統(tǒng)功能多樣會(huì)導(dǎo)致系統(tǒng)可擴(kuò)展性不斷增強(qiáng),復(fù)雜度不斷增加,運(yùn)行頻率不斷提高,因此,保障系統(tǒng)的可靠性越來(lái)越困難。
目前國(guó)內(nèi)外對(duì)系統(tǒng)可靠性的研究與應(yīng)用已歷經(jīng)幾十年,在軍工產(chǎn)品和民用產(chǎn)品中應(yīng)用廣泛。本文基于筆者對(duì)可靠性工程理論的了解和學(xué)習(xí),結(jié)合理論和筆者的工作經(jīng)驗(yàn)對(duì)產(chǎn)品可靠性工程相關(guān)的流程和方法進(jìn)行了梳理。
我國(guó)已經(jīng)發(fā)布的可靠性標(biāo)準(zhǔn)有400余項(xiàng),其中能夠提高可靠性標(biāo)準(zhǔn)整體水平的通用技術(shù)標(biāo)準(zhǔn)占比較少,且主要集中在可靠性的名詞、術(shù)語(yǔ)、通用試驗(yàn)方法等方面,此外,可靠性設(shè)計(jì)、評(píng)審、評(píng)價(jià)標(biāo)準(zhǔn)數(shù)量等也偏低,致使標(biāo)準(zhǔn)對(duì)可靠性提升的指導(dǎo)意義不強(qiáng)[2]。
2016年9月,國(guó)家軍用標(biāo)準(zhǔn)GJB / Z 299D《電子設(shè)備可靠性預(yù)計(jì)手冊(cè)》完成了修訂后的審查。國(guó)家軍用標(biāo)準(zhǔn)GJB/Z 299D合并代替GJB/Z 299C-2006《電子設(shè)備可靠性預(yù)計(jì)手冊(cè)》和GJB/Z 108A-2006《電子設(shè)備非工作狀態(tài)可靠性預(yù)計(jì)手冊(cè)》,將滿(mǎn)足武器裝備現(xiàn)代化建設(shè)中對(duì)可靠性方面的需要,也為工業(yè)和民用產(chǎn)品在維修性、保障性、測(cè)試性和安全性等領(lǐng)域的工作提供更加扎實(shí)的基礎(chǔ)。2016年11月23日,國(guó)家標(biāo)準(zhǔn)《電子設(shè)備可靠性預(yù)計(jì)模型及數(shù)據(jù)手冊(cè)》在廣州通過(guò)了標(biāo)準(zhǔn)審查。該標(biāo)準(zhǔn)是我國(guó)首個(gè)基于國(guó)產(chǎn)元器件的電子產(chǎn)品可靠性預(yù)計(jì)國(guó)家標(biāo)準(zhǔn)。有此可見(jiàn)可靠性標(biāo)準(zhǔn)的制定和研究已經(jīng)得到了業(yè)界的廣泛重視。
可靠性工程是指為了達(dá)到系統(tǒng)的可靠性要求所進(jìn)行的一系列技術(shù)和管理活動(dòng),貫穿于產(chǎn)品系統(tǒng)工程的壽命周期過(guò)程中??煽啃怨こ膛c系統(tǒng)工程兩者之間必須相互協(xié)同,同步開(kāi)展。不考慮可靠性的系統(tǒng)工程將缺乏實(shí)際應(yīng)用意義,脫離系統(tǒng)工程研究的可靠性也難以得到顯著成效。
圖1 產(chǎn)品生命周期的可靠性工作流程Fig.1 Product reliability process in life cycle
可靠性流程應(yīng)圍繞可靠性總體指標(biāo)展開(kāi),從制定可靠性工作計(jì)劃開(kāi)始,應(yīng)當(dāng)在系統(tǒng)需求定義的階段完成功能模塊分解和模塊可靠性指標(biāo)的定義[3]。通過(guò)對(duì)功能模塊進(jìn)行可靠性預(yù)計(jì),衡量分配到各系統(tǒng)中的可靠性指標(biāo)是否合理,系統(tǒng)可靠性能否達(dá)到總體目標(biāo),否則應(yīng)當(dāng)在平衡性能、風(fēng)險(xiǎn)、成本、工期的基礎(chǔ)上,改進(jìn)系統(tǒng)功能模塊結(jié)構(gòu)。通過(guò)此過(guò)程識(shí)別出可靠性關(guān)鍵件,并且輸出各個(gè)子系統(tǒng)的可靠性指標(biāo)[4]。根據(jù)實(shí)際需要,經(jīng)常將故障模式和影響分析(FMECA),故障樹(shù)[5]等方法用于輔助模塊分析。對(duì)涉及安全相關(guān)系統(tǒng),需在此階段形成危害登記冊(cè),從而可以掌握相關(guān)危害的嚴(yán)酷度,對(duì)危害加以管控[6]。如果屬于耐用工業(yè)品,還需進(jìn)行全壽命周期費(fèi)用(LCC)分析[7]。
軟硬件設(shè)計(jì)應(yīng)遵循可靠性設(shè)計(jì)準(zhǔn)則,圍繞產(chǎn)品壽命周期內(nèi)的使用載荷和環(huán)境載荷,通過(guò)可靠性設(shè)計(jì)消除或減少關(guān)鍵故障模式[8]。同時(shí)應(yīng)在設(shè)計(jì)階段進(jìn)行產(chǎn)品的可制造性設(shè)計(jì),如果產(chǎn)品的可制造性不良,不但會(huì)出現(xiàn)產(chǎn)品制造的成品率低的問(wèn)題,而且也會(huì)在制造過(guò)程中產(chǎn)生制造缺陷,造成最終產(chǎn)品的可靠性降低[9]。
在完成系統(tǒng)集成后,除了驗(yàn)證系統(tǒng)功能,還應(yīng)開(kāi)展降級(jí)模式試驗(yàn),早期故障試驗(yàn),高應(yīng)力加速壽命試驗(yàn)等工作,可以在試產(chǎn)前發(fā)現(xiàn)設(shè)計(jì)中遺留的問(wèn)題,提高產(chǎn)品可靠性[10]。從試驗(yàn)數(shù)據(jù)中經(jīng)??梢园l(fā)現(xiàn)產(chǎn)品的薄弱環(huán)節(jié)[11]。試驗(yàn)中發(fā)生的問(wèn)題如果得不到解決,在現(xiàn)場(chǎng)使用過(guò)程中必然也會(huì)發(fā)生,將直接影響到可靠性指標(biāo)的達(dá)成。
事實(shí)上,無(wú)論多么完善的設(shè)計(jì)都無(wú)法完全識(shí)別產(chǎn)品的使用載荷與環(huán)境載荷,在使用中不可避免地還是會(huì)出現(xiàn)失效,因此收集使用后的失效數(shù)據(jù)用于產(chǎn)品的可靠性增長(zhǎng)是非常重要且有效的工作內(nèi)容。圖1為產(chǎn)品生命周期的可靠性工作流程。
系統(tǒng)的失效分為系統(tǒng)失效和隨機(jī)失效兩類(lèi),可以從這兩個(gè)方面提高系統(tǒng)的可靠性。系統(tǒng)性的失效通??梢酝ㄟ^(guò)可靠性預(yù)計(jì),選用成熟的技術(shù)方案,通過(guò)嚴(yán)密的設(shè)計(jì)計(jì)算等方法避免,對(duì)于殘留的設(shè)計(jì)錯(cuò)誤還可以通過(guò)驗(yàn)證測(cè)試排除。避免系統(tǒng)失效開(kāi)展的研發(fā)活動(dòng)同樣會(huì)間接降低隨機(jī)失效。例如,如果產(chǎn)品使用的技術(shù)方案越成熟,產(chǎn)品的制造系統(tǒng)也更加容易保障產(chǎn)品質(zhì)量的穩(wěn)定,因而會(huì)降低隨機(jī)失效的發(fā)生。隨機(jī)失效與產(chǎn)品的使用環(huán)境因素,物料選型,等因素非常相關(guān),也應(yīng)在設(shè)計(jì)階段進(jìn)行可靠性評(píng)估。
可靠性關(guān)鍵件在各個(gè)子系統(tǒng)中對(duì)可靠性指標(biāo)均起到非常重要的作用,根據(jù)故障模式和影響分析(FEMECA)可以識(shí)別出最不希望發(fā)生的故障事件作為頂事件。故障樹(shù)分析法(FTA)是一種非常直觀(guān)并且常用的可靠性預(yù)計(jì)方法。故障樹(shù)可以用來(lái)指明能夠引發(fā)頂事件的各種因素的組合邏輯關(guān)系。根據(jù)可靠性理論,故障樹(shù)事件(包括頂事件和中間事件)的發(fā)生概率在“與”門(mén)結(jié)構(gòu)中按照如下公式進(jìn)行計(jì)算:
故障樹(shù)事件的發(fā)生概率在“或”門(mén)結(jié)構(gòu)中按照如下公式進(jìn)行計(jì)算:
其中:X為頂事件;xi為底事件(i=1,2,……,n); P(xi)為底事件發(fā)生的概率。
某軌道交通產(chǎn)品用于數(shù)字量輸入的硬件電路如圖2所示。輸入的信號(hào)為110 V直流電壓,輸入口電路采用電阻R1(36 Κ,2 W)進(jìn)行限流保護(hù),采用光耦器件進(jìn)行隔離處理。采用電阻R2(2.7 Κ, 1 W)與并聯(lián)光耦用于抑制噪聲干擾。此外,光耦的次級(jí)設(shè)計(jì)了RC低通濾波電路以濾除高頻干擾。與RC低通濾波電路串聯(lián)施密特觸發(fā)器用于防止輸入信號(hào)不穩(wěn)定引起電路的輸出信號(hào)的質(zhì)量較差。
圖2 數(shù)量輸入電路Fig.2 Digital signal input circuit
在系統(tǒng)需求定義的階段,上述輸入口被識(shí)別為可靠性關(guān)鍵件,輸入接口異常為“高”是導(dǎo)向嚴(yán)重故障的事件,因而有必要采用故障樹(shù)分析法對(duì)輸入口進(jìn)一步分析。經(jīng)分析此頂事件輸入口電路異常出現(xiàn)“高”電平會(huì)在光耦U1發(fā)生短路失效,或非門(mén)U2失效導(dǎo)致輸出常低,或非門(mén)U2出現(xiàn)輸出開(kāi)路時(shí)發(fā)生。故障樹(shù)如圖3所示。
減少硬件隨機(jī)失效應(yīng)當(dāng)考慮物料的優(yōu)選,電磁兼容性設(shè)計(jì),環(huán)境適應(yīng)性設(shè)計(jì),電路的可靠性防護(hù),印制線(xiàn)路板的工藝設(shè)計(jì),組裝的可制造性,環(huán)境適應(yīng)性等方面的因素。避免系統(tǒng)性失效應(yīng)從降額設(shè)計(jì),嚴(yán)謹(jǐn)?shù)脑O(shè)計(jì)計(jì)算,采用仿真技術(shù),開(kāi)展熱設(shè)計(jì),信號(hào)完整性檢查等方面著手。
提高硬件可靠性的一個(gè)重要方法是進(jìn)行可靠性預(yù)計(jì),并結(jié)合故障樹(shù)分析是否符合項(xiàng)目要求。國(guó)際上用于可靠性預(yù)計(jì)的手冊(cè)或標(biāo)準(zhǔn)有很多,如:美國(guó)軍用標(biāo)準(zhǔn) MΙL-HDBΚ-217,Telcordia SR-332、RDF、HRD、西門(mén)子 SN29500和 ΙEC TR 62380[12]。2017年公布實(shí)施的ΙEC 61709合并替代了 ΙEC 61709:2011 and ΙEC TR 62380:2004 包含了對(duì)工作狀態(tài)和非工作狀態(tài)的電子組件的可靠性預(yù)計(jì)。雖然美國(guó)國(guó)防部停止了更新美軍標(biāo)Mil-Hdbk-217,但是實(shí)際設(shè)計(jì)中仍然經(jīng)常用于計(jì)算各個(gè)硬件故障發(fā)生的概率,評(píng)估硬件系統(tǒng)的可靠性。參照美軍標(biāo)Mil-Hdbk-217F 6.11章節(jié),光耦器件的可靠性預(yù)計(jì)模型為:
其中: λb為光耦器件的基本故障率,查表可知數(shù)值為0.013;πT為溫度因子,按照40℃預(yù)計(jì)系統(tǒng)的運(yùn)行時(shí)光耦器件所處的環(huán)境溫度,查表得到πT為1.6;根據(jù)器件的品牌質(zhì)量情況,供貨渠道的成熟度評(píng)估質(zhì)量因子πQ,由于未達(dá)到普軍級(jí)(JAN),選取等級(jí)為更低級(jí)(Lower),查表得到對(duì)應(yīng)值為5.5;πE為環(huán)境因子,由于此產(chǎn)品用于軌道交通,屬于地面移動(dòng)設(shè)備,對(duì)應(yīng)等級(jí)GM,查表得到對(duì)應(yīng)的πE數(shù)值為8.0。
圖3 異常輸入的故障樹(shù)Fig.3 Fault tree with abnormal input
表1 輸入口元器件的失效率及占比Table 1 Failure rate and proportion of component of input port
根據(jù)可靠性預(yù)計(jì)模型計(jì)算:
依照上述方法計(jì)算出其他各種器件的失效率。參照ΙEC 61709標(biāo)準(zhǔn)的附錄A 章節(jié)“器件的失效模式”,獲得各種器件典型失效模式占總失效率的百分比[13]。器件失效率計(jì)算結(jié)果和各失效模式的占比如表1所示。得到上述計(jì)算結(jié)果后更新故障樹(shù),得出輸入口模塊的輸入異常表現(xiàn)為“高”的概率數(shù)值,結(jié)果如圖4所示,輸入口異常為“高”頂事件的故障率為4.78e-7次/ h。在獲得頂事件的故障率后,根據(jù)此故障率數(shù)值評(píng)估得到此輸入口的失效率水平是滿(mǎn)足系統(tǒng)分配給輸入口模塊的可靠性指標(biāo)要求的。
保證軟件的可靠性需要從需求的分析入手,充分分析軟件功能模塊的風(fēng)險(xiǎn),對(duì)安全關(guān)鍵功能采用必要的設(shè)計(jì)方法,包括開(kāi)展冗余設(shè)計(jì)、健壯性設(shè)計(jì),使用簡(jiǎn)化的模塊結(jié)構(gòu),使用良好的編碼風(fēng)格,充分分析系統(tǒng)的資源分配和時(shí)序等。同時(shí),對(duì)潛在的功能運(yùn)行錯(cuò)誤,采取必要的防錯(cuò)處理[14]。
保證軟件的正向設(shè)計(jì)可靠性的同時(shí),還應(yīng)依據(jù)產(chǎn)品的設(shè)計(jì)準(zhǔn)則開(kāi)展同行評(píng)審活動(dòng),暴露軟件缺陷。通過(guò)由本領(lǐng)域的專(zhuān)家對(duì)軟件結(jié)構(gòu)、功能模塊及軟件代碼審核,可以有效地發(fā)現(xiàn)軟件缺陷。軟件的常規(guī)測(cè)試則包括靜態(tài)測(cè)試,白盒測(cè)試,黑盒功能測(cè)試及性能測(cè)試等,應(yīng)結(jié)合系統(tǒng)需求,充分理解軟件對(duì)硬件的操作行為,制定合理和充分的測(cè)試用例。通過(guò)軟件測(cè)試過(guò)程糾正不符合預(yù)期的結(jié)果,達(dá)到提高可靠性的目的。
圖4 異常輸入的故障率Fig.4 Failure rate of abnormal input
在產(chǎn)品完成軟硬件集成后,應(yīng)通過(guò)系列的型式試驗(yàn)確認(rèn)系統(tǒng)是否符合產(chǎn)品技術(shù)規(guī)格的要求,確保產(chǎn)品在已知的應(yīng)力及可試驗(yàn)的條件下,能夠按照預(yù)先的設(shè)計(jì)完成生命周期的服務(wù)功能。產(chǎn)品的確認(rèn)應(yīng)包括產(chǎn)品的運(yùn)行參數(shù)的確認(rèn),邊界值條件下的功能及降級(jí)模式的確認(rèn)。高加速應(yīng)力試驗(yàn)是一種經(jīng)過(guò)檢驗(yàn)的可靠性增長(zhǎng)的有效方法,可以在短期內(nèi)快速激發(fā)產(chǎn)品缺陷,經(jīng)過(guò)進(jìn)一步的改善活動(dòng),可以起到快速提高產(chǎn)品可靠性的作用[15]。
盡管通過(guò)周密的設(shè)計(jì)及試驗(yàn)驗(yàn)證能夠最大程度地減少產(chǎn)品使用后的失效,但是由于嵌入式系統(tǒng)涉及多學(xué)科,在制造過(guò)程中也會(huì)引入潛在缺陷,在使用過(guò)程中也會(huì)超出正常應(yīng)力,以致產(chǎn)品出現(xiàn)失效,因而產(chǎn)品上市后開(kāi)展失效閉環(huán)管理實(shí)現(xiàn)可靠性的增長(zhǎng)非常有意義。開(kāi)展可靠性增長(zhǎng)既可以改進(jìn)已發(fā)貨產(chǎn)品的可靠性,又能夠?qū)⑾嚓P(guān)的經(jīng)驗(yàn)數(shù)據(jù)用于下一代產(chǎn)品的研制中。
實(shí)現(xiàn)可靠性增長(zhǎng)的主要工作包括分析失效原因,制定改進(jìn)措施,實(shí)施和監(jiān)控改進(jìn)措施,對(duì)產(chǎn)品失效形成閉環(huán)管理實(shí)現(xiàn)產(chǎn)品質(zhì)量的增長(zhǎng)。應(yīng)對(duì)反饋的失效數(shù)據(jù)進(jìn)行分類(lèi)匯總分析,根據(jù)故障現(xiàn)象,故障類(lèi)型,失效點(diǎn)位,服役時(shí)間,原因分析及效果驗(yàn)證等數(shù)據(jù)形成產(chǎn)品的可靠性數(shù)據(jù)庫(kù)[16]。從數(shù)據(jù)庫(kù)中識(shí)別共性故障用于指導(dǎo)下一代產(chǎn)品的優(yōu)化實(shí)現(xiàn)可靠性提升。
本文探討了嵌入式系統(tǒng)的可靠性流程和方法??煽啃怨こ虘?yīng)與系統(tǒng)工程同步開(kāi)展,從分析產(chǎn)品的可靠性要求開(kāi)始,制定可靠性目標(biāo),進(jìn)而圍繞可靠性目標(biāo)開(kāi)展的可靠性分配、預(yù)計(jì)等工作。系統(tǒng)地介紹了與可靠性工程有關(guān)的系統(tǒng)及軟硬件可靠性方法。此可靠性流程及方法應(yīng)用于軌道交通門(mén)系統(tǒng)控制器的研制工作中,對(duì)保障控制器的可靠性起到了指導(dǎo)作用。通過(guò)監(jiān)控和分析已發(fā)貨產(chǎn)品的運(yùn)行數(shù)據(jù),并在正常檢修過(guò)程中進(jìn)行改進(jìn),實(shí)現(xiàn)了可靠性的增長(zhǎng)。