周航汛 熊顯名 張文濤 謝仁飚
摘? 要: 在高端光刻機中,光柵尺掩模臺位移測量系統(tǒng)擁有較復(fù)雜的運算模型,而且要求測量系統(tǒng)硬件架構(gòu)能滿足20 kHz高采樣頻率的需求。通過對國內(nèi)運動臺位移測量系統(tǒng)硬件架構(gòu)進行對比研究,提出一種兼容以往軟件架構(gòu)的基于多核DSP運算板卡的光柵尺掩模臺位移測量系統(tǒng)硬件架構(gòu),使用多核DSP內(nèi)核間共享內(nèi)存通信的機制,取代運算板卡間數(shù)據(jù)總線通信的機制,同時由板內(nèi)PCIe總線互聯(lián)片上多核DSP與FPGA。搭建硬件在環(huán)仿真平臺進行實驗,實驗結(jié)果表明,系統(tǒng)獲取原始數(shù)據(jù)、進行模型運算以及發(fā)送位置數(shù)據(jù)的總體性能提升百分比約為136%,保證模型運算精度的同時,滿足20 kHz采樣頻率的要求。
關(guān)鍵詞: 位移測量; 硬件架構(gòu)設(shè)計; 采樣頻率; 多核DSP; 光柵尺掩模臺; 仿真平臺搭建
中圖分類號: TN874+.3?34? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2020)22?0010?05
Abstract: In the high?end lithography machine, the displacement measurement system of the grating scale reticle stage has complex operation model, and the hardware architecture of the measurement system is required to meet the requirement of high sampling frequency of 20 kHz. With the comparison study of the hardware architecture of the displacement measurement system of the motion platform in China, a hardware architecture of the grating scale reticle stage displacement measurement system based on the multi?core DSP operation board card is proposed, which is compatible with the previous software architecture. The mechanism of shared memory communication among multi?core DSP cores is used to replace the mechanism of data bus communication among operation board cards, and the interconnection of on?chip multi?core DSP and FPGA is performed through on?board PCI bus. A hardware?in?loop simulation platform was built to carry out the experiment. The experimental results show that the overall performance improvement percentage of the system in the aspects of raw data acquisition, model operation and location data sending is about 136%, which ensures the accuracy of the model operation and meets the requirement of sampling frequency of 20 kHz.
Keywords: displacement measurement; hardware architecture design; sampling frequency; multi?core DSP; grating scale reticle stage; simulation platform setup
0? 引? 言
在半導(dǎo)體領(lǐng)域中,集成芯片的制造是新一代信息技術(shù)產(chǎn)業(yè)的核心,光刻機作為集成芯片生產(chǎn)制造工序中重要的環(huán)節(jié),更是國之重器。隨著光刻節(jié)點的不斷延伸,光柵尺掩模臺位移測量系統(tǒng)的硬件架構(gòu)需滿足20 kHz高采樣頻率的要求。
荷蘭的埃因霍芬理工大學(xué)采用ATCA總線架構(gòu)對系統(tǒng)硬件架構(gòu)進行了升級,研究提出基于多核CPU的CARM模型[1],并分析任務(wù)執(zhí)行時間[2],優(yōu)化運動控制性能[3],利用FPGA作為協(xié)處理器加速模型[4?5]運算,減少數(shù)據(jù)傳輸延時。
國內(nèi)部分公司和高校,如SMEE、清華大學(xué)、哈爾濱工業(yè)大學(xué)、華中科技大學(xué)、桂林電子科技大學(xué)等,也針對運動臺位移測量系統(tǒng)的性能在做相關(guān)的研究,并提出了一些運動臺位移測量系統(tǒng)硬件架構(gòu),但是其采樣頻率均未達到要求。目前國內(nèi)關(guān)于光柵尺掩模臺位移測量系統(tǒng)的采樣頻率研究并未成熟,本文基于數(shù)據(jù)流分析,對比以往的測量系統(tǒng)硬件架構(gòu),設(shè)計了支持高采樣頻率的硬件架構(gòu)方案,并搭建測試平臺對方案進行驗證。
1? 國內(nèi)相關(guān)工作
目前國內(nèi)提出的掩模臺位移測量系統(tǒng)中模型運算部分硬件架構(gòu)如圖1所示,主要由1塊系統(tǒng)控制板卡(SCB)、n塊運算板卡(MCB)、1塊同步控制板卡(SBC)、背板總線和光纖構(gòu)成。
背板總線為VME總線,技術(shù)十分成熟,以其為基礎(chǔ)進行二次開發(fā)覆蓋了工業(yè)控制、軍用系統(tǒng)、航空航天、交通運輸和醫(yī)療等領(lǐng)域[6],在運動臺位移測量系統(tǒng)中也得到了廣泛應(yīng)用?;赩ME總線技術(shù),華中科技大學(xué)團隊設(shè)計一種雙硅片臺超精密運動控制系統(tǒng)硬件平臺,能夠?qū)崿F(xiàn)65 nm光刻機雙硅片運動臺位移的測量和運動的控制[7],并在雙硅片臺樣機中成功試用。哈爾濱工業(yè)大學(xué)團隊設(shè)計一種基于宏微驅(qū)動的光刻機掩模臺控制系統(tǒng),能夠?qū)崿F(xiàn)5 kHz采樣頻率下X,Y,RX,RZ四自由度的百納米誤差控制[8]。SMEE團隊設(shè)計一種運動臺位移測量系統(tǒng),采樣頻率達到5 kHz,并在其90 nm光刻機中成功應(yīng)用。桂林電子科技大學(xué)團隊也設(shè)計基于二維光柵的運動臺高精度位移測量系統(tǒng)硬件在環(huán)仿真實驗,在20 kHz采樣頻率下,測量精度[9]優(yōu)于0.79 nm。
如表1所示,對比以上各團隊設(shè)計的運動臺位移測量系統(tǒng)運算板卡架構(gòu)可知:前3種方案都采用單核DSP+FPGA架構(gòu)的運算板卡,其中內(nèi)部總線為EMIF總線,數(shù)據(jù)吞吐率最高可達1 200 MB/s。相較于SMEE,雖然華中科技大學(xué)和哈爾濱工業(yè)大學(xué)團隊分別對FPGA[10]和DSP[11]性能進行了升級,但是并沒有優(yōu)化內(nèi)部總線。方案4中,運算板卡采用PowerPC+FPGA架構(gòu),相較于前3種方案,雖然CPU的性能有了較大提升,但是內(nèi)部PCI總線最高通信速率為66 MHz,數(shù)據(jù)傳輸?shù)乃俾室廊皇芟蕖?/p>
2? 高采樣頻率位移測量系統(tǒng)硬件架構(gòu)設(shè)計
圖1中基于VME總線的通用硬件架構(gòu)兼容性和可維護性較好,但是運算板卡間數(shù)據(jù)交互環(huán)節(jié)多,且內(nèi)部總線的數(shù)據(jù)帶寬低,以至于采樣頻率很難提升。針對以上兩點問題,本文提出一種基于多核運算板卡的硬件架構(gòu),多核CPU+FPGA架構(gòu)的運算板卡,將運算板卡間的數(shù)據(jù)交互變?yōu)槎嗪薈PU內(nèi)核間的數(shù)據(jù)交互,同時升級內(nèi)部總線的帶寬,提升系統(tǒng)采樣頻率。
2.1? 多核運算板卡的選擇
目前工業(yè)上搭載多核CPU的運算板卡從CPU架構(gòu)上進行分類,主要有四大類:X86,PowerPC,DSP和ARM,其性能對比如表2所示。
由表2可知,X86架構(gòu)的多核運算板卡較為成熟,浮點運算能力強,但是軟件架構(gòu)兼容性差,且成本高。PowerPC架構(gòu)的多核運算板卡浮點運算能力和實時性都很好,但是成本較高,且存在國外技術(shù)封鎖問題。RAM架構(gòu)的多核運算板卡性能較差,主要用于低功耗移動嵌入式設(shè)備中。綜合分析,DSP架構(gòu)的多核運算板卡在各方面的性能都很好,且軟件架構(gòu)兼容性高,是最合適的選擇。
目前很多DSP芯片廠商都推出了多核DSP,其中,TI的TMS320C6678憑借優(yōu)異的性能在工業(yè)領(lǐng)域得到廣泛應(yīng)用。TMS320C6678內(nèi)部集成8個內(nèi)核,單內(nèi)核最高主頻1.4 GHz,能提供每秒高達40 GB MAC定點運算和20 GB FLOP浮點運算[12]。此外芯片采用高效的KeyStone多核片內(nèi)架構(gòu)設(shè)計,擁有高速的片內(nèi)總線和L1,L2和MSM多級存儲模式,同時支持RapidIO,PCIe等高速外部通信總線以及SYS/BIOS輕量級實時操作系統(tǒng)。因此本文選擇搭載TMS320C6678的多核運算板卡,其中,TMS320C6678和FPGA通過PCIe總線互聯(lián),支持高達5 GB/s的數(shù)據(jù)交互速率。
2.2? 基于多核運算板卡的硬件架構(gòu)設(shè)計
本文提出的基于多核運算板卡的光柵尺掩模臺位移測量系統(tǒng)硬件架構(gòu)如圖3所示,在兼容以往背板總線架構(gòu)和軟件架構(gòu)的基礎(chǔ)上,由1塊多核運算板卡替代圖1中的多塊單核運算板卡,將單核運算板卡間的數(shù)據(jù)交互變?yōu)槎嗪薉SP中內(nèi)核間的數(shù)據(jù)交互。TMS320C6678核間數(shù)據(jù)交互的方式主要有3種:共享內(nèi)存(MSMC)、QMSS/CPPI和EDMA數(shù)據(jù)搬移。4 MB大容量的MSMC可以供所有內(nèi)核訪問,且自帶仲載機制,讀寫簡便,方便定義傳輸協(xié)議。QMSS/CPPI能夠滿足多樣化的數(shù)據(jù)交互需求,但是需要遵循固有的通信機制,實現(xiàn)復(fù)雜,且數(shù)據(jù)傳輸?shù)臅r間開銷不可控。EDMA數(shù)據(jù)搬移適合大批量數(shù)據(jù)交互,小批量數(shù)據(jù)交互的時間開銷并不理想。模型運算時,核間數(shù)據(jù)交互量不大,為了減少時間開銷,選擇MSMC實現(xiàn)核間數(shù)據(jù)交互最為合適。
3? 實驗及結(jié)果分析
3.1? 硬件在環(huán)仿真平臺
為了驗證本文提出的硬件架構(gòu)的性能,搭建如圖6所示的硬件在環(huán)仿真實驗平臺。MCB1和MCB2都為搭載TMS320C6678的多核運算板卡,其中,MCB1為仿真端,用于模擬光柵數(shù)據(jù)采集板卡通過背板數(shù)據(jù)總線發(fā)送光柵尺原始測量數(shù)據(jù)至控制端,同時接收控制端通過光纖發(fā)送的模型運算結(jié)果;MCB2為控制端,主要用于獲取光柵尺原始測量數(shù)據(jù)、進行位移模型運算和通過光纖發(fā)送運算結(jié)果,是系統(tǒng)實際應(yīng)用中的多核運算板卡。
3.2? 數(shù)據(jù)交互實驗
為了驗證共享內(nèi)存數(shù)據(jù)交互的伺服性能,利用搭建的硬件在環(huán)仿真平臺進行實驗,具體流程如圖7所示。Core0發(fā)送數(shù)據(jù)至共享內(nèi)存,并回寫,然后Core1失效LD1 Cache中的對應(yīng)數(shù)據(jù),并從共享內(nèi)存中讀取對應(yīng)數(shù)據(jù),完成一次共享內(nèi)存數(shù)據(jù)交互。通過采集計算各個環(huán)節(jié)的時間開銷,驗證共享內(nèi)存數(shù)據(jù)交互的傳輸性能。模型運算過程中,核間交互數(shù)據(jù)量在10~30個int之間,為了更好地測試共享內(nèi)存數(shù)據(jù)交互的傳輸性能,將傳輸?shù)淖畲髷?shù)據(jù)量設(shè)為200個int。
3.3? 硬件在環(huán)仿真實驗
為了驗證提出的硬件架構(gòu)是否滿足光柵尺掩模臺位移測量系統(tǒng)對采樣頻率的要求,將光柵尺掩模臺位移測量系統(tǒng)的軟件移植至提出的硬件架構(gòu),并進行硬件在環(huán)仿真實驗。對比以往的硬件架構(gòu)模型運算結(jié)果,誤差在同一數(shù)量級,滿足系統(tǒng)對模型運算誤差的要求。從時間開銷角度對比分析,系統(tǒng)獲取原始數(shù)據(jù)、進行模型運算以及發(fā)送位置數(shù)據(jù)的性能提升,結(jié)果如表3所示,采用提出的硬件架構(gòu),三個環(huán)節(jié)性能都有顯著提升,總體性能提升百分比約為136%,滿足20 kHz采樣頻率的要求。
4? 結(jié)? 語
本文以光柵尺掩模臺位移測量系統(tǒng)硬件架構(gòu)為研究對象,通過對比國內(nèi)提出的運動臺位移測量系統(tǒng)硬件架構(gòu),分析運算板卡間數(shù)據(jù)交互的流程,提出一種基于多核運算板卡的高采樣頻率位移測量系統(tǒng)硬件架構(gòu),并從運算性能、實時性、軟件兼容性以及成本等方面考慮,選擇搭載TMS320C6678多核DSP的板卡作為運算板卡。搭建硬件在環(huán)仿真平臺,實驗對比PCI+VME,EMIF+VME和MSMC三種數(shù)據(jù)交互方案的時間開銷可知,相較于其他兩種方案,本文提出的MSMC方案的數(shù)據(jù)傳輸性能提升百分比可達2 000%。進行光柵尺掩模臺位移測量系統(tǒng)硬件在環(huán)仿真實驗,結(jié)果表明,在保證模型運算誤差要求的同時,系統(tǒng)獲取原始數(shù)據(jù)、進行模型運算和發(fā)送位置數(shù)據(jù)的時間開銷都顯著降低,總體性能提升了約136%。本文提出的基于多核運算板卡的硬件架構(gòu)能夠很好地滿足光柵尺掩模臺位移測量系統(tǒng)對20 kHz采樣頻率的要求,可在高端光刻機上應(yīng)用。
參考文獻
[1] CAMELO V D. Multi?core CPU exploration for CARM host in ASML technology [D]. Eindhoven: Eindhoven University of Technology, 2012.
[2] GOZEK A E. Task execution time prediction for motion control applications [D]. Eindhoven: Eindhoven University of Technology, 2013.
[3] HERNANDEZ D S P. Design?space exploration for high?performance motion control [D]. Eindhoven: Eindhoven University of Technology, 2013.
[4] JAMBEKAR S W. Performance improvement of motion?control applications using multi?ASIP in FPGA [D]. Delft: Delft University of Technology, 2014.
[5] VAN BROEKHOVEN M. Motion controller acceleration by FPGA co?processing [D]. Eindhoven: Eindhoven University of Technology, 2014.
[6] 劉貴行,魏國,趙世偉.機載測距機測試平臺設(shè)計與開發(fā)[J].現(xiàn)代電子技術(shù),2019,42(11):165?168.
[7] 胡永兵.雙硅片臺超精密運動控制系統(tǒng)的硬件平臺研究[D].武漢:華中科技大學(xué),2014.
[8] 饒裕,劉楊,齊彪,等.基于宏微驅(qū)動的光刻機掩模臺控制系統(tǒng)設(shè)計[J].自動化技術(shù)與應(yīng)用,2017,36(10):61?64.
[9] 張文濤,杜浩,熊顯名,等.高精度位移測量系統(tǒng)硬件在環(huán)仿真[J].中國激光,2019,46(2):86?92.
[10] 王耀.基于VME總線的多處理器運動控制卡[D].武漢:華中科技大學(xué),2012.
[11] 張常江,宋法質(zhì),宋躍,等.基于VME總線的光刻機多板卡通信接口設(shè)計[J].自動化技術(shù)與應(yīng)用,2016,35(5):100?104.
[12] 謝俊,梁光明,王職軍,等.基于TMS320C6678的細胞圖像識別系統(tǒng)并行實現(xiàn)方法[J].現(xiàn)代電子技術(shù),2014,37(2):110?113.