王 豪 劉 博 張旭光
上海航天電子技術(shù)研究所,上海201109
靜態(tài)存儲(chǔ)器(Static Random Access Memory,SRAM)型現(xiàn)場(chǎng)可編程門陣列(Field Programmable Gate Array,F(xiàn)PGA)功能強(qiáng)大,具有可重復(fù)編程、開發(fā)周期短等顯著優(yōu)勢(shì),已越來越多地應(yīng)用于國(guó)內(nèi)外航天領(lǐng)域。但SRAM型FPGA抗空間輻射能力較弱,容易發(fā)生單粒子翻轉(zhuǎn)(Single Event Upset,SEU)[1-2]問題,對(duì)衛(wèi)星功能造成了不同程度的故障,因此必須采取一定的抗輻加固措施以提高其可靠性。
本文研究了一種采用三模冗余(Triple Module Redundancy,TMR)并對(duì)FPGA配置區(qū)域進(jìn)行定時(shí)刷新的抗輻加固方案,同時(shí)對(duì)該方案的可靠性和安全性進(jìn)行了評(píng)估,最后給出了評(píng)估結(jié)果。
SRAM型FPGA內(nèi)部的配置區(qū)——配置存儲(chǔ)器、功能區(qū)——塊存儲(chǔ)器、觸發(fā)器等都是單粒子翻轉(zhuǎn)的敏感區(qū)。當(dāng)一個(gè)高能帶電粒子穿過靈敏區(qū)時(shí),將會(huì)使FPGA器件內(nèi)部導(dǎo)通管截止、截止管導(dǎo)通,引起器件邏輯狀態(tài)翻轉(zhuǎn)——即單粒子翻轉(zhuǎn)[3]。因此,必須采取一定的抗輻加固措施以應(yīng)對(duì)空間高能粒子對(duì)SRAM型FPGA造成的單粒子翻轉(zhuǎn)(SEU)故障。
設(shè)計(jì)中常采用三模冗余(Triple Module Redundancy,TMR)[4]技術(shù)對(duì)要在 FPGA內(nèi)實(shí)現(xiàn)的硬件設(shè)計(jì)進(jìn)行保護(hù)。圖1所示為采用三模冗余架構(gòu)的FPGA系統(tǒng)原理框圖,可以看出這種方法通過嵌入冗余處理機(jī)制到用戶應(yīng)用來屏蔽故障,從而獲得正確的輸出,本質(zhì)上是一種利用硬件冗余或信息冗余進(jìn)行故障屏蔽的容錯(cuò)方法。
圖1 三模冗余原理框圖
然而,冗余容錯(cuò)方法無法改變FPGA的配置內(nèi)容,所以對(duì)于發(fā)生在配置存儲(chǔ)器中的SEU并無糾正能力,若SEU積累將使得TMR失效,最終導(dǎo)致故障發(fā)作。
針對(duì)三模冗余(TMR)系統(tǒng)無法糾正存儲(chǔ)區(qū)中發(fā)生的SEU故障,本文提出一種三模冗余加回讀刷新的解決方案,應(yīng)對(duì)空間FPGA單粒子翻轉(zhuǎn)。
回讀刷新通過回讀刷新器件實(shí)現(xiàn),有2種工作模式:回讀和刷新。回讀模式下該器件讀取FPGA內(nèi)配置存儲(chǔ)區(qū)的數(shù)據(jù),并與存儲(chǔ)在PROM中的原始配置數(shù)據(jù)進(jìn)行比較,發(fā)現(xiàn)數(shù)據(jù)不一致的情況,就意味著配置存儲(chǔ)器單元發(fā)生了SEU,進(jìn)而將PROM中存儲(chǔ)的原始配置文件重新寫入FPGA。刷新模式下不管FPGA有沒有發(fā)生SEU,均周期對(duì)配置存儲(chǔ)區(qū)進(jìn)行刷新。采用回讀刷新加三模冗余架構(gòu)的FPGA系統(tǒng)原理如圖2所示。其中,PROM芯片內(nèi)部存儲(chǔ)FPGA的配置信息,該器件采用反熔絲工藝不會(huì)受空間SEU干擾;回讀刷新器件為專用ASIC芯片對(duì)空間單粒子干擾免疫,負(fù)責(zé)讀取PROM中數(shù)據(jù)并對(duì)FPGA內(nèi)部配置區(qū)進(jìn)行定時(shí)刷新,如果FPGA內(nèi)部配置區(qū)發(fā)生SEU將對(duì)翻轉(zhuǎn)的數(shù)據(jù)進(jìn)行有效糾正;FPGA內(nèi)部電路采用TMR設(shè)計(jì)。
系統(tǒng)可靠性是指系統(tǒng)在規(guī)定條件下和規(guī)定時(shí)間內(nèi)完成規(guī)定功能的能力??煽啃允且粋€(gè)定性的概念,而實(shí)際工作中往往需要用可靠度定量地表現(xiàn)可靠性的高低??煽慷仁侵赶到y(tǒng)在初始時(shí)刻(t=0)時(shí)可靠度為1的條件下,在0~t時(shí)間內(nèi)正常工作的概率。由于系統(tǒng)是冗余系統(tǒng),系統(tǒng)發(fā)生故障是余度性能降級(jí)的動(dòng)態(tài)過程,利用馬爾可夫過程理論能夠?qū)τ喽认到y(tǒng)進(jìn)行精確的可靠性建模分析,較為真實(shí)地描述系統(tǒng)的實(shí)際工作過程[5-6]。
為方便討論及建模,將圖2所示的回讀刷新加TMR的FPGA系統(tǒng)可簡(jiǎn)化為如圖3所示的邏輯框圖;回讀刷新器件作為SEU故障修復(fù)模塊,周期地對(duì)FPGA內(nèi)部配置存儲(chǔ)區(qū)進(jìn)行刷新。
采用TMR的系統(tǒng)具有23=8種狀態(tài),當(dāng)一個(gè)模塊發(fā)生故障時(shí),不會(huì)影響系統(tǒng)的正常工作;而當(dāng)失效模塊數(shù)≥2時(shí),系統(tǒng)失效。該狀態(tài)可視為馬爾可夫吸收態(tài)。假設(shè)每個(gè)模塊的失效率都相同,均為λ,修復(fù)率為μ。
圖2 三模冗余與回讀刷新架構(gòu)功能框圖
根據(jù)可靠性分析理論[7],若某模塊在時(shí)刻t正常工作,則在t+Δt時(shí)刻發(fā)生常規(guī)故障的概率為p=1-e-λΔt,當(dāng) Δt→0 該故障概率可簡(jiǎn)化為 λΔt。
基于以上假設(shè),對(duì)FPGA配置區(qū)進(jìn)行確定周期刷新且考慮共模故障影響下的三模冗余系統(tǒng)的馬爾可夫模型狀態(tài)轉(zhuǎn)移如圖4所示,其馬爾可夫狀態(tài)可描述如下:
圖3 簡(jiǎn)化后三冗余及回讀刷新FPGA系統(tǒng)框圖
1)狀態(tài) S1—“111”表示 A,B,C 三個(gè)模塊均未受到SEU影響、功能均正常;
2)狀態(tài)S2—“110”表示某時(shí)刻C模塊受到SEU影響,功能異常且翻轉(zhuǎn)單元暫未得到刷新糾錯(cuò)。A,B模塊正常,經(jīng)三取二表決后系統(tǒng)仍能正常工作。
3)狀態(tài)S3—“101”表示某時(shí)刻B模塊受到SEU影響,功能異常且翻轉(zhuǎn)單元暫未得到刷新糾錯(cuò)。A,C模塊正常,經(jīng)三取二表決后系統(tǒng)仍能正常工作。
4)狀態(tài) S4—“011”表示某時(shí)刻 A模塊受到SEU影響,功能異常且翻轉(zhuǎn)單元暫未得到刷新糾錯(cuò)。B,C模塊正常,經(jīng)三取二表決后系統(tǒng)仍能正常工作。
5)狀態(tài)S5—“100”表示某時(shí)刻 B,C模塊受到SEU影響,功能異常而且翻轉(zhuǎn)單元暫未得到刷新糾錯(cuò),經(jīng)三取二表決后系統(tǒng)功能失效。
6)狀態(tài)S6—“001”表示某時(shí)刻 A,B模塊受到SEU影響,功能異常而且翻轉(zhuǎn)單元暫未得到刷新糾錯(cuò),經(jīng)三取二表決后系統(tǒng)功能失效。
7)狀態(tài)S7—“010”表示某時(shí)刻 A,C模塊受到SEU影響,功能異常而且翻轉(zhuǎn)單元暫未得到刷新糾錯(cuò),經(jīng)三取二表決后系統(tǒng)功能失效。
8)狀態(tài) S8—“000”表示某時(shí)刻 A,B,C 模塊均受到SEU影響,功能異常且翻轉(zhuǎn)單元暫未得到刷新糾錯(cuò),系統(tǒng)功能失效。
圖4 采用TMR和回讀刷新的FPGA系統(tǒng)的馬爾可夫狀態(tài)轉(zhuǎn)移圖
記Pi(t)=P(X(t)=i),表示t時(shí)刻系統(tǒng)處于狀態(tài) i的概率,i∈ {1,2,3,...,8},令 P(t)=[P1(t),P2(t),...,P8(t)],則 P(t)滿足狀態(tài)方程:P'(t)=AP(t),其中,A為狀態(tài)轉(zhuǎn)移密度矩陣,由狀態(tài)轉(zhuǎn)移圖可知:
A和P(t)代入方程P'(t)=AP(t)中,并代入初始條件 P(0)= [1,0,0,...,0],可得到 t時(shí)刻各個(gè)狀態(tài)的概率,從而求得該系統(tǒng)的可靠度R(t)和安全度S(t):
對(duì)于P(t)的狀態(tài)方程P'(t)=AP(t),可以通過Laplace變換的方法求得其解析解,進(jìn)而求得系統(tǒng)的可靠度和安全度,但其計(jì)算工作量相當(dāng)龐大,為此,采用Matlab中的求解微分方程的Ode45指令進(jìn)行仿真計(jì)算[8]。其中單粒子翻轉(zhuǎn)故障率λ可參照表1所示Xilinx公司FPGA單粒子翻轉(zhuǎn)率。
由表1可以看出隨著FPGA容量的增加,單粒子翻轉(zhuǎn)率也隨之增加。系統(tǒng)修復(fù)率μ與回讀刷新的頻率有關(guān),以 5s,10s,15s,1min,3min 的刷新周期為例對(duì)采用Virtex2系列XQR2V3000型FPGA系統(tǒng)的可靠度和安全度進(jìn)行分析。
表1 Xilinx公司單粒子翻轉(zhuǎn)率
表2 λ=1.07 day-1時(shí)參數(shù)μ對(duì)系統(tǒng)可靠性安全性影響
從表2可以看出,隨著參數(shù)μ的增加,三模冗余系統(tǒng)的可靠度和安全度均有所提高,初始時(shí)刻系統(tǒng)完好可靠度和安全度皆為1.000,隨著運(yùn)行時(shí)間的增加,系統(tǒng)可靠度和安全度均有所下降。圖5所示的仿真波形為t=0~86400h,λ =1.07day-1時(shí),三模冗余與回讀刷新系統(tǒng)的可靠度和安全度隨修復(fù)率μ的變化曲線。
圖6所示為 t=0~86400h,μ =0.001,λ =1.07day-1時(shí),采用三模冗余和回讀刷新設(shè)計(jì)的FPGA系統(tǒng)與單模無刷新FPGA系統(tǒng)的可靠度[9]比對(duì)。由圖中可以看出,隨時(shí)間的增加,兩者的可靠度均有所下降,但采用三模冗余與回讀刷新的FPGA系統(tǒng)的可靠度明顯優(yōu)于單模無刷新系統(tǒng)。
圖5 不同刷新周期系統(tǒng)可靠度r隨時(shí)間t變化曲線
圖6 三模冗余與回讀刷新系統(tǒng)與單模無刷新系統(tǒng)的可靠度比對(duì)
SRAM型FPGA由于具有資源豐富、可重復(fù)擦寫等優(yōu)點(diǎn),在宇航領(lǐng)域應(yīng)用越來越廣,但SRAM型FPGA存在單粒子翻轉(zhuǎn)(SEU)風(fēng)險(xiǎn),所以必須采取措施。本文提出了一種三模冗余與回讀刷新功能相結(jié)合的抗輻加固設(shè)計(jì),并對(duì)其可靠性進(jìn)行了分析和仿真,仿真數(shù)據(jù)證明該設(shè)計(jì)架構(gòu)具有較高的可靠性,對(duì)宇航型號(hào)FPGA設(shè)計(jì)具有較好的參考意義。
[1] 邢克飛,楊俊,王躍科,等.Xilinx SRAM型FPGA抗輻射設(shè)計(jì)技術(shù)研究[J].宇航學(xué)報(bào),2007,28(1):123-129.(Xing Kefei,Yang Jun,Wang Yueke,et al.Study on the anti-radiation technique for Xilinx SRAM-based FPGA[J].Journal of Astronautics,2007,28(1):123-129.)
[2] Cheatham J A,Emmert J M,Baumgart S.A survey of fault tolerant methodologies for FPGAs[J].ACM Transactions on Design Automation of Electronic Systems,2006,11(2):501-533.
[3] 邱金娟,徐宏杰,潘雄,等.SRAM型FPGA單粒子翻轉(zhuǎn)測(cè)試及加固技術(shù)研究[J].電光與控制,2011,18(8):84 ~85.(Qiu Jinjuan,Xu Hongjie,Pan Xiong,et al.Study on Testing and Harden Technique of Single Event Upset for SRAM-Based FPGA[J].Electronics Optics &Control,2011,18(8):2011:84-85.)
[4] 顧義坤,倪風(fēng)雷,劉宏.Xilinx FPGA自主配置管理容錯(cuò)設(shè)計(jì)研究[J].宇航學(xué)報(bào),2012,33(10):1520~1521.(Gu Yikun,Ni Fenglei,Liu Hong.Fault-Tolerance Design of Xilinx FPGA with Self-Hosting Configuration Management[J].Journal of Astronautics,2012,33(10):1520-1521.)
[5] Swift G M,Rezgui S,George J,et al.Dynamic testing of Xilinx Virtex-II field programmable gate array(FPGA)input/output blocks(IOBs)[J].IEEE Transactions on Nuclear Science,2004,51(6):3469-3474.
[6] Graham P,Caffrey M,Johnson D E,et al.SEU mitigation for half-latch in Xilinx Virtex FPGA[J].IEEE Transactions on Nuclear Science,2003,50(6):2139-2146.
[7] 王麗華,徐志根,王長(zhǎng)林.可維修三模冗余結(jié)構(gòu)系統(tǒng)的可靠度與安全度分析[J].西南交通大學(xué)學(xué)報(bào),2002,37(1):103-107.(Wang Lihua,Xu Zhigen,Wang Changlin.Reliability and Security Analysis of 3-Module Redundancy System with One Maintainable Unit[J].Journal of Southwest JiaoTong University,2002,37(1):103-107.)
[8] Dhillon B S,Subramanian P.Reliability analysis of triple modular computer systems with redundant voters and restricted maintenance[J].Journal of Quality in Maintenance Engineering,2001,7(2):151-164.
[9] 鄒見效,徐紅兵,張正遷.基于三重冗余的ETS控制系統(tǒng)設(shè)計(jì)及可靠性評(píng)估[J].電子科技大學(xué)學(xué)報(bào).2010,39(5):795 ~ 799.(Zou Jianxiao,Xu Hongbing,Zhang Zhen-qian.Design and Reliability Evaluation of ETS Control System Based on Triple Modular Redundancy[J].Journal of University of Electronic Science and Technology of China,2010,39(5):795-799.)