王紅霞,劉鴻瑾,*,張紹林,,李 賓,徐 建,馬遠航,于薇薇,付寶玲,劉迎輝,鄧 崢,張雷浩
(1.北京軒宇空間科技有限公司,北京 100104; 2.北京控制工程研究所; 3.中國空間技術(shù)研究院:北京 100094)
空間環(huán)境充滿來自各種高能粒子和射線的輻射,輻射效應(yīng)可能導(dǎo)致某些航天器集成電路(IC)芯片的失效。并且隨著IC 芯片進入納米級體硅CMOS 先進制程節(jié)點后,總電離劑量(TID)效應(yīng)對芯片的影響逐步降低,而單粒子效應(yīng)(SEE)隨制程技術(shù)節(jié)點的縮小越發(fā)明顯[1]。研究表明,MOSFET的本征抗總劑量能力已經(jīng)超過100 krad(Si)[2],而先進納米級工藝芯片的單粒子翻轉(zhuǎn)(SEU)閾值較低(≤0.5 MeV·cm2/mg),質(zhì)子直接和非直接電離都可能導(dǎo)致此類芯片的SEU[3]。且隨著IC 芯片尺寸的縮小,晶體管本征增益下降,電源電壓降低,導(dǎo)致可用電壓范圍縮小,高精度、高線性國產(chǎn)宇航模擬集成電路設(shè)計難度驟升,在抗輻射加固、電路結(jié)構(gòu)優(yōu)化、版圖設(shè)計質(zhì)量提升和功耗降低等方面面臨巨大挑戰(zhàn)[4]。
在軌飛行驗證是驗證在空間環(huán)境下先進制程芯片適用性和可靠性的有效方法,是提高其技術(shù)成熟度、驗證其地面抗輻射測評方法有效性的重要手段[5]。針對不同種類的芯片,若單獨進行在軌飛行驗證,會占用衛(wèi)星平臺大量資源,增加系統(tǒng)復(fù)雜性。因此,本文提出支持多任務(wù)的高可靠性、可更換模塊的在軌飛行驗證通用系統(tǒng),來完成對多種類、多型號先進制程芯片的試驗驗證。
先進制程芯片在軌飛行驗證通用系統(tǒng)旨在獲取待試芯片在真實空間環(huán)境中的運行數(shù)據(jù),對芯片開展空間環(huán)境適應(yīng)性分析,進行輻射效應(yīng)機理研究,以完善芯片的在軌使用策略,提高芯片的技術(shù)成熟度和空間應(yīng)用可靠性。本文給出了該通用系統(tǒng)設(shè)計以及典型芯片在軌飛行驗證結(jié)果。
試驗任務(wù)包括:
1)完成16 nm FinFET、28 nm 億門級FPGA、高速DAC 等10 類20 余款國產(chǎn)芯片的在軌飛行驗證,獲取芯片的在軌飛行工作數(shù)據(jù),開展芯片的空間適用性分析。
2)通過在軌飛行驗證,開展芯片的空間應(yīng)用故障模式和輻射效應(yīng)機理研究,完善其在軌使用策略,推動國產(chǎn)先進制程芯片抗輻射加固技術(shù)的發(fā)展。
此外,系統(tǒng)應(yīng)支持在軌軟件升級和可重構(gòu)系統(tǒng)設(shè)計,即通過航天員或機械臂在軌組裝、更換試驗單元功能模塊以及故障診斷與處理,實現(xiàn)在軌任務(wù)升級與維護,定期開展芯片的宇航適應(yīng)性驗證。
為滿足在軌可重構(gòu)、可升級維護的要求,先進制程芯片在軌飛行驗證通用系統(tǒng)作為空間站搭載設(shè)備,基于“可更換模塊”設(shè)計理念,采用“主控單元+試驗單元”的架構(gòu),組成框圖如圖1 所示[6],主要技術(shù)指標如表1 所示。
表1 先進制程電子元器件在軌飛行驗證通用系統(tǒng)主要技術(shù)指標Table 1 Specifications of the universal system for flight verification of advanced process chips
圖1 先進制程芯片在軌飛行驗證通用系統(tǒng)組成框圖Fig.1 Block diagram of the universal system for flight verification of advanced process chips
主控單元作為系統(tǒng)控制的核心單元,為保證系統(tǒng)在軌運行的可靠性,選用抗輻射等級芯片,采取雙冗余冷備份硬件設(shè)計及軟件容錯方案。主控單元對外通過1553B 外總線與數(shù)管系統(tǒng)進行通信,1553B 接口為經(jīng)典冗余熱備份設(shè)計,具有A、B 兩條通道,在單通道故障情況下,可以將總線切換到另外一條通道上。主控單元與試驗單元通過CAN內(nèi)總線獲取各個試驗單元上待試芯片的在軌飛行試驗數(shù)據(jù)。該系統(tǒng)充分利用CAN 總線的可擴展性,可將節(jié)點擴充至110 個,以方便航天員定期在軌更換試驗單元模塊,開展芯片的在軌適應(yīng)性驗證任務(wù)[7]。
試驗單元相對獨立,通過CAN 內(nèi)總線與主控單元通信,其數(shù)量可靈活增減。各試驗單元實時監(jiān)測所搭載的待試芯片的在軌工作健康狀態(tài),并周期性上傳至主控單元;主控單元對所有試驗單元的待試元器件數(shù)據(jù)進行統(tǒng)一管理,并由1553B 總線下傳至地面控制系統(tǒng)。每個試驗單元均能完成十幾款待試芯片的飛行驗證工作。本系統(tǒng)搭載的各試驗單元待試芯片分類如表2 所示。
本系統(tǒng)采用標準機、電、熱接口,機箱為立式長方體,整個設(shè)備采用模塊化設(shè)計,相鄰兩模塊間通過耳片互連,具有良好的互換性。試驗單元只需滿足±12V 供電,兩路CAN 總線傳輸,下行遙測速率小于200 byte/s,即可搭載于該平臺上完成芯片驗證。
在該系統(tǒng)的研制過程中,為確保驗證的有效性,地面測試中對單板即整機均進行了高低溫摸底試驗,并與芯片設(shè)計廠商溝通,共同確定了各元器件的測試閾值和判據(jù)。
主控單元由主控單元電源板、主控板A、主控板B 和試驗單元電源板組成,通過外部輸入的直接指令實現(xiàn)當班單機電源的切換。主控單元管理單機內(nèi)各試驗單元健康狀態(tài)并與數(shù)管系統(tǒng)進行數(shù)據(jù)交換,同時,接收數(shù)管系統(tǒng)發(fā)送的遙控指令、衛(wèi)星軌道參數(shù)、星時數(shù)據(jù)等,采集驗證系統(tǒng)所有試驗單元中多款待試芯片的在軌飛行數(shù)據(jù),并將遙測數(shù)據(jù)打包傳送給數(shù)管系統(tǒng),實現(xiàn)對待試芯片在軌工作狀態(tài)的實時監(jiān)測。
主控單元的邏輯功能與內(nèi)外接口如圖2 所示。
試驗單元統(tǒng)一采用“主控FPGA+待試器件”的硬件架構(gòu),主控FPGA 選用Flash 型A3PE3000,程序進行三模冗余(TMR)設(shè)計,保證主控FPGA 運行的可靠性。主控FPGA 配置存儲、刷新芯片,上電后自動加載位流,每隔一段時間自動刷新位流,以確保主控芯片程序運行的可靠性。待試FPGA 中將80%的BRAM 配置成存儲單元。
以試驗單元A 為例,其組成框圖如圖3 所示[6]。采集到的28 nm 億門級FPGA 在軌運行數(shù)據(jù)包括:
圖3 試驗單元A 硬件設(shè)計框圖[6]Fig.3 Hardware design: block diagram of test unit A[6]
1)例化DDR3 控制器,28 nm 億門級FPGA 負責(zé)將數(shù)據(jù)寫入MRAM 存儲器。然后連續(xù)讀MRAM存儲器內(nèi)容并比較(當檢測到錯誤時,需要再讀一次MRAM 存儲器并比較);如果第二次比較結(jié)果依然有錯,則表示MRAM 存儲器內(nèi)數(shù)據(jù)發(fā)生SEU,否則認為數(shù)據(jù)通路發(fā)生SEU。
2)電流異常增大,功能失效,重配后電流沒有恢復(fù)正常,電源復(fù)位后功能正常,則判定器件發(fā)生單粒子鎖定(SEL)。
3)長時間在軌運行中,如電源復(fù)位后仍無法運行,則判定發(fā)生TID 效應(yīng)導(dǎo)致功能失效。
測試結(jié)束后,通過CAN 總線將測試數(shù)據(jù)傳給主控單元。最后通過遙測平臺將數(shù)據(jù)下傳到地面。
驗證系統(tǒng)的主控部分采用實時數(shù)據(jù)管理機制,由國產(chǎn)SpaceOS 星載操作系統(tǒng)管理各種主控單元資源,為應(yīng)用軟件提供多任務(wù)調(diào)度機制。應(yīng)用軟件的各項任務(wù)在系統(tǒng)軟件的調(diào)度下并發(fā)運行而互不干擾。實時任務(wù)調(diào)度如表3 所示。新裝載試驗單元模塊只要遵守主控單元的采樣頻率及遙測包格式要求,即可實現(xiàn)與主控單元通信的無縫對接。
表3 應(yīng)用軟件的任務(wù)列表Table 3 List of tasks for the application software
主控單元啟動后,操作系統(tǒng)協(xié)調(diào)各任務(wù)有序執(zhí)行。系統(tǒng)數(shù)據(jù)管理流程如圖4 所示。
圖4 系統(tǒng)數(shù)據(jù)管理流程圖Fig.4 Flowchart of data management of the system
任務(wù)1:查詢1553B 指令。主控處理器每90 ms 查詢接收1 次數(shù)管系統(tǒng)發(fā)來的遙控指令,同時將遙控指令、空間站軌道參數(shù)、空間站數(shù)據(jù)等存到本機存儲器。
任務(wù)2:任務(wù)分發(fā)。主控處理器解析1553B 遙控指令,轉(zhuǎn)換為內(nèi)總線指令??紤]到內(nèi)總線指令的重要性,首先識別內(nèi)總線指令的有效性,再將有效的內(nèi)總線指令存儲至指令接收鏈表中。
任務(wù)3:獲取各試驗單元數(shù)據(jù)。主控單元首先判斷指令發(fā)送鏈表有無待發(fā)送給試驗單元A 的有效指令:若有,則將有效指令通過內(nèi)總線發(fā)送至試驗單元A;試驗單元A 將待試芯片的檢測信息存儲至本地后,按照總線協(xié)議,打包返給主控單元。若無,則依次判斷后續(xù)試驗單元發(fā)送指令鏈表內(nèi)有無有效指令待發(fā)送,直至獲取所有試驗單元的待測元器件在軌檢測數(shù)據(jù)。主控處理器對每個試驗單元均設(shè)置2 組鏈表,包括1 個內(nèi)總線指令發(fā)送鏈表和1 個內(nèi)總線指令回復(fù)鏈表。在單個試驗單元內(nèi),這2 個鏈表獨立于其他試驗單元,有效降低了試驗單元間業(yè)務(wù)邏輯的耦合度。主控處理器對這2 個鏈表的管理包括系統(tǒng)啟動自檢后的創(chuàng)建鏈表,試驗任務(wù)結(jié)束后的鏈表空間自動釋放、異常指令剔除、試驗單元檢測數(shù)據(jù)的校驗等,以確保待試元器件遙測數(shù)據(jù)傳輸?shù)母咝?、可信?/p>
任務(wù)4:打包遙測數(shù)據(jù)。將內(nèi)總線指令回復(fù)鏈表內(nèi)檢測的待測元器件工作狀態(tài)及試驗數(shù)據(jù)按照單機與數(shù)管系統(tǒng)的外總線協(xié)議,打包成標準1553B 遙測幀,供數(shù)管系統(tǒng)按周期提取。
任務(wù)5:系統(tǒng)管理。主控處理器執(zhí)行定時“喂狗”、內(nèi)存循環(huán)自檢以及重要技術(shù)參數(shù)保護等。
試驗單元向主控處理器發(fā)送的信息包括:待試芯片工作狀態(tài)、電源電流以及表面溫度;28 nm 億門級FPGA 的SEU、SEL 等;16 nm FinFET 的SEU等;高性能DAC 的SEFI、SEL、輸出精度等參數(shù)。
本系統(tǒng)面向空間站定期開展芯片科學(xué)試驗驗證。為提前驗證系統(tǒng)設(shè)計的可靠性,2021 年3 月12 日,該系統(tǒng)搭乘“實踐九號”衛(wèi)星升空[8],成功開展了國產(chǎn)先進制程芯片的在軌飛行試驗。衛(wèi)星被送入近地點高度200 km 的地球同步轉(zhuǎn)移軌道,進入橢圓軌道后,在遠地點點燃星上變軌發(fā)動機,經(jīng)多次變軌后,順利進入預(yù)定軌道。
在軌測試表明,此驗證系統(tǒng)模擬量遙測正常、遙控指令執(zhí)行正常、各試驗單元試驗數(shù)據(jù)下行正常,功能和性能滿足研制要求,可為其將來在中國空間站的應(yīng)用奠定了基礎(chǔ)。
表4 為驗證系統(tǒng)采集到的16 nm FinFET 1 個月的SEU 數(shù)據(jù)。該芯片將BRAM 配置成存儲單元,存儲單元的輸入、輸出、地址、時鐘、使能、復(fù)位等信號都連接到主控FPGA 上。試驗開始后,主控FPGA 復(fù)位待試FPGA,使能BRAM 寫,將數(shù)據(jù)寫入BRAM 進行初始化;激勵數(shù)據(jù)為不同測試圖形碼(0x0000、0xFFFF、0x5A5A),每1 min 從BRAM中讀取1 次數(shù)據(jù)并比較,連續(xù)讀取并且比較2 次,如同一bit 的數(shù)值均與前次不同,則判斷BRAM 發(fā)生了SEU 事件。
表4 16 nm FinFET 1 個月的SEU 數(shù)據(jù)Table 4 SEU data of 16 nm FinFET within one month
經(jīng)分析:該芯片為非堆疊芯片,芯片內(nèi)存儲器由平鋪式標準單元晶體管構(gòu)成,短時間內(nèi)同一地址發(fā)生多bit 翻轉(zhuǎn)概率非常小。受讀取速度和BRAM存儲空間大小的影響,主控FPGA 每1 min 才完成所有BRAM 地址空間數(shù)據(jù)的遍歷讀取,1 次記錄周期內(nèi)的多次翻轉(zhuǎn)數(shù)據(jù)可視為該器件1 min 內(nèi)的累積SEU 次數(shù)。為提高系統(tǒng)采集SEU 次數(shù)的實時性,在保證試驗單元模塊正常開展其他試驗的基礎(chǔ)上,應(yīng)盡量縮短待試芯片數(shù)據(jù)遍歷讀取周期,使試驗數(shù)據(jù)更為真實。
在空間特定輻照環(huán)境中,非平衡載流子的漂移、擴散、寄生雙極放大等效應(yīng)會影響SRAM 型FinFET 的Fin 敏感區(qū)域。當Fin 敏感區(qū)域收集到足夠的電荷,就會產(chǎn)生SEU[9]。根據(jù)衛(wèi)星所處特定軌道待試芯片的SEU 數(shù)據(jù),可分析單位時間內(nèi)SEU 概率、在軌真實SEU 概率、多位翻轉(zhuǎn)概率等(參見表5)。
表5 16 nm FinFET 6 個月的SEU 數(shù)據(jù)統(tǒng)計Table 5 SEU data statistics of 16 nm FinFET within six months
通過本系統(tǒng)得到待試芯片在軌真實SEU 概率RH-real,結(jié)合地面輻射模擬試驗的SEU 概率RH,進行輻射效應(yīng)機理研究。在空間輻射效應(yīng)地面模擬試驗中,預(yù)測器件的SEU 概率,通常依據(jù)重離子SEU概率計算模型
來計算RH,其中: Φ是與原子序數(shù)Z、質(zhì)量數(shù)A、能量E及立體角有關(guān)的粒子通量; σ是有效翻轉(zhuǎn)截面;L是重離子的線性能量傳輸(LET)值; ?、θ分別是航天器飛行的球面坐標系統(tǒng)的方位角和極角。
空間輻射環(huán)境中粒子具有種類多、能量范圍寬(每核子keV~10 GeV)、4π 立體角全向入射等特點[10]。目前地面模擬試驗以粒子LET 作為評估輻射效應(yīng)等效參量的重要指標,未考慮粒子種類和能量的差異,以及入射角對SEE 和預(yù)估方法的影響,存在局限性。比較芯片RH-real和RH計算模型,分析對芯片SEE 的影響因素有:1)16 nm 制程節(jié)點下,粒子從不同側(cè)面入射時帶來的邊界效應(yīng)的影響;2)器件內(nèi)摻雜濃度、外加偏置、溫度等因素,使粒子穿過時形成“漏斗效應(yīng)”,促使節(jié)點電壓翻轉(zhuǎn);3)傾斜入射產(chǎn)生的電荷徑跡對相鄰兩個或多個敏感節(jié)點的影響。
此外,從表5 在軌飛行驗證得到的16 nm FinFET的BRAM 發(fā)生SEU 的統(tǒng)計數(shù)據(jù)可知,SRAM 型FinFET 內(nèi)部的BRAM 存儲資源較容易發(fā)生單bit SEU。這可能是由于芯片內(nèi)存儲單元受輻照后,反相器開關(guān)閾值減小,漏電流增大,導(dǎo)致FPGA 的配置存儲器抗翻轉(zhuǎn)能力降低,SEU 截面增大[11]。由此,需進一步完善此類SRAM 型FPGA 芯片在軌飛行使用策略,如通過EDAC 檢二糾一、三取二,或通過配置刷新芯片定時刷新等。
本文設(shè)計的先進制程芯片在軌飛行驗證通用系統(tǒng)采用在軌可更換模塊,共實現(xiàn)了10 類、20 余款國產(chǎn)先進制程芯片的在軌飛行驗證,解決了多種國產(chǎn)先進制程芯片在空間輻射環(huán)境中的多樣化驗證問題,支持航天員定期在軌更換試驗?zāi)K,完成新的空間輻照環(huán)境驗證任務(wù),實現(xiàn)芯片驗證任務(wù)的在軌升級。系統(tǒng)已在衛(wèi)星上初步搭載并且已獲得芯片在軌真實SEU 概率,結(jié)合芯片地面等效重離子注量率下的輻照試驗結(jié)果,推算出先進制程芯片在特定軌道環(huán)境、空間電場下入射重離子LET 值、SEU 概率等,開展了空間應(yīng)用故障模式和輻射效應(yīng)機理研究,助力探索不同工藝條件下的芯片空間SEU 特性,完善芯片在軌使用策略,為提高芯片技術(shù)成熟度和空間應(yīng)用可靠性奠定基礎(chǔ),為提升國產(chǎn)先進制程芯片的研制能力并實現(xiàn)其自主可控提供了有力支撐。