魯 豪
(重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶 400065)
TMS320TCI6618中FFTC協(xié)處理器在LTE中的應(yīng)用
魯 豪
(重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶 400065)
采用DSP進(jìn)行數(shù)字基帶處理的基站以及軟件無(wú)線電面臨著嚴(yán)峻的考驗(yàn),鑒于此,德州儀器公司(TI)推出了TMS320TCI6618 DSP,其中快速傅里葉變換協(xié)處理器(FFTC)將大幅度提升基帶處理的性能。FFTC是一個(gè)可編程的加速器,專門(mén)針對(duì)LTE系統(tǒng)中的FFT與IFFT變換,本文詳細(xì)介紹了其在LTE系統(tǒng)中的應(yīng)用和DSP多核并行化處理,最后根據(jù)實(shí)測(cè)數(shù)據(jù)對(duì)FFTC協(xié)處理器的性能進(jìn)行了評(píng)估。
TMS320TCI6618;FFTC;DSP;LET;并行化
隨著通信標(biāo)準(zhǔn)的不斷演進(jìn),LTE/LTE-A[1]標(biāo)準(zhǔn)已經(jīng)成功商用,LTE/LTE-A通信系統(tǒng)在大幅度提升基帶傳輸速率的同時(shí),也給底層硬件的處理性能帶來(lái)了挑戰(zhàn),對(duì)于一些采用DSP進(jìn)行基帶處理的軟基站、小型基站和軟件無(wú)線電[2],DSP的處理性能將成為制約系統(tǒng)的一個(gè)重要因素,鑒于此,著名的DSP制造廠商德州儀器公司(TI)推出了一款TMS320TCI6618多核DSP[3]。該DSP共有4個(gè)核心,支撐浮點(diǎn)和定點(diǎn)的運(yùn)算,最高主頻為1.2 GHz。此外TI公司根據(jù)不同的通信系統(tǒng)設(shè)計(jì)了滿足各個(gè)通信設(shè)備需求的相關(guān)協(xié)處理器,如A bit rate coprocessor(BCP)、The Turbo-Decoder Coprocessor 3(TCP3d)、The Turbo-Encoder Coprocessor 3(TCP3e)、The fast Fourier transform coprocessor(FFTC)等。本文設(shè)計(jì)的就是FFTC在LTE系統(tǒng)中的應(yīng)用。
快速傅里葉變換協(xié)處理器(FFTC)[4]用以輔助DSP完成LTE系統(tǒng)中OFDM與SC-FDMA符號(hào)的處理,從而提升了基帶處理數(shù)據(jù)的效率,減輕了DSP的負(fù)擔(dān),支持任何系統(tǒng)的FFT與IFFT算法。本文主要研究FFTC在LTE上行發(fā)送端的SC-FDMA符號(hào)多核并行化處理[5]。由于DSP自身的實(shí)現(xiàn)原理,傳統(tǒng)上利用匯編或者C語(yǔ)言進(jìn)行編程以實(shí)現(xiàn)物理層信道的處理將耗費(fèi)大量的指令周期,隨著數(shù)據(jù)量的增加,處理的時(shí)延會(huì)隨之上升。特別是LTE物理層中FFT與IFFT變換復(fù)雜度很高,盡管對(duì)一些算法進(jìn)行了優(yōu)化,也很難通過(guò)軟件的方式達(dá)到LTE時(shí)延的要求。通過(guò)硬件處理的方式,F(xiàn)FTC很好地解決了性能方面的問(wèn)題。FFTC處理器可以處理LTE系統(tǒng)中SC-FDMA符號(hào)和OFDM符號(hào)處理,其中包括去(添加)CP、頻偏、FFT和IFFT變換[6]。本文對(duì)上行和下行處理進(jìn)行了闡述,介紹了FFTC處理器結(jié)構(gòu),詳細(xì)說(shuō)明了FFTC在基站上行和下行中的物理層信道處理流程,分析了FFTC對(duì)基帶數(shù)據(jù)處理的性能提升。
1.1 FFTC處理器硬件架構(gòu)
圖1顯示了FFTC的內(nèi)部結(jié)構(gòu)以及與外部的接口構(gòu)成。FFTC處理器內(nèi)部由各個(gè)功能模塊、FFTC數(shù)據(jù)交換機(jī),以及與外部進(jìn)行數(shù)據(jù)交換的Packet DMA模塊構(gòu)成。
圖1 FFTC模塊結(jié)構(gòu)圖
ConfigurationRegisters、FFT Engine、Packet DMA、FFTC Streaming Interface、FFTC Scheduler構(gòu)成FFTC模塊。FFTC處理器通過(guò)FFTC Streaming Interface與Packet DMA相連,來(lái)傳輸數(shù)據(jù)到FFT Engine中進(jìn)行FFT與IFFT變換,其中FFTC Engine配置包含了循環(huán)前綴的添加與去除、輸入輸出比例因子等寄存器。FFTC Engine通過(guò)頻分與混合基快速算法實(shí)現(xiàn)FFT與IFFT的快速變換。FFTC的配置在后面會(huì)作詳細(xì)介紹。FFTC可以與內(nèi)核、AIF、多核導(dǎo)航相連,可以接收來(lái)自它們傳輸過(guò)來(lái)的數(shù)據(jù)包,根據(jù)解析出的描述符得到FFTC的數(shù)據(jù)。
1.2 FFTC 配置
FFTC的配置主要分為FFTC Register的配置和Packet DMA的TX與RX流的配置。其中FFTC Register的配置主要是對(duì)FFTC Engine的配置,Packet DMA的配置主要是對(duì)其中TX與RX隊(duì)列的配置,決定了數(shù)據(jù)在FFTC中的傳輸。FFTC的配置流程如圖2所示。
圖2 FFTC的配置流程
FFTC Engine的主要配置包括數(shù)據(jù)scaling寄存器的配置,比例因子可以采用兩種方式,一種是動(dòng)態(tài)配置(1)和靜態(tài)配置(0),如果采用動(dòng)態(tài)配置,F(xiàn)FTC加速器會(huì)自動(dòng)在做FFT變換時(shí)檢測(cè)是否溢出,會(huì)每級(jí)右移防止數(shù)據(jù)溢出,最后需要手動(dòng)調(diào)整輸出數(shù)據(jù)的比例因子來(lái)進(jìn)行放大。靜態(tài)配置需要手動(dòng)設(shè)計(jì)每級(jí)(總共7級(jí),根據(jù)點(diǎn)數(shù)和級(jí)數(shù)的對(duì)照表來(lái)配置)比例因子來(lái)對(duì)數(shù)據(jù)進(jìn)行放大和縮小,保證數(shù)據(jù)的可靠性和準(zhǔn)確性。隊(duì)列循環(huán)前綴寄存器配置主要是循環(huán)前綴的添加與刪除。隊(duì)列控制寄存器主要包括用來(lái)進(jìn)行數(shù)據(jù)補(bǔ)零后的FFT計(jì)算。LTE頻移寄存器用來(lái)針對(duì)頻域與時(shí)域?qū)FT的DC分量移到頻譜中心。在配置Packet DMA時(shí),可以利用TI公司提供的一些API函數(shù),對(duì)于TX隊(duì)列與RX隊(duì)列,需要根據(jù)FFTC寄存器的參數(shù)來(lái)配置。FFTC主要寄存器配置參數(shù)功能說(shuō)明如表1所列。
表1 FFTC主要寄存器配置參數(shù)功能說(shuō)明
FFTC可以處理LTE系統(tǒng)中基站的下行發(fā)送信道與上行接收信道,主要用來(lái)處理FFT與IFFT,下面以O(shè)FDM與SC-FDMA符號(hào)為例,來(lái)介紹FFTC在LTE基帶中的應(yīng)用。
圖3 下行OFDM的處理流程
下行OFDM的處理流程如圖3所示,接收端的SC-FDMA處理流程如圖4所示。
圖5 OFDM主從核并行設(shè)計(jì)處理
圖4 接收端的SC-FDMA處理流程
FFTC在OFDM符號(hào)與SC-FDMA符號(hào)中的運(yùn)用主要是FFT與IFFT變換的應(yīng)用,下面以2 048點(diǎn)FFT與IFFT為例來(lái)講解FFTC在LTE系統(tǒng)基帶處理中的應(yīng)用。OFDM與SC-FDMA符號(hào)中的CP的添加都可以在配置FFTC時(shí)進(jìn)行處理,考慮到TMS320TCI6618有3個(gè)FFTC加速器,所以在DSP中能夠同時(shí)處理多核符號(hào)的FFT與IFFT,其中多核并行采用IPC消息隊(duì)列方案實(shí)現(xiàn)DSP內(nèi)核間通信是基于內(nèi)存共享的傳輸方式,每個(gè)DSP內(nèi)核查詢自己的MessageQ,從而獲取通知消息達(dá)到多核并行,本工程案例均使用IPC進(jìn)行多核并行。多核并行中采用主從核方式進(jìn)行符號(hào)級(jí)并行計(jì)算,以14符號(hào)為例,其中核0為調(diào)度核,核1與核2為主要計(jì)算核,考慮到負(fù)載均衡和資源的分配,將14符號(hào)分為核0做4個(gè)符號(hào)計(jì)算,核1與核2每個(gè)核做5個(gè)符號(hào)計(jì)算。OFDM主從核并行設(shè)計(jì)處理如圖5所示。
為校驗(yàn)FFTC的性能,本工程都是與傳統(tǒng)的C代碼和匯編代碼進(jìn)行性能比對(duì),對(duì)于數(shù)據(jù)的可靠性均采用MATLAB計(jì)算NMSE在-70 db以上。下面以2 048點(diǎn)FFT與1200點(diǎn)IDFT為例,對(duì)FFTC工程進(jìn)行可靠性與運(yùn)算速度的評(píng)估。2 048點(diǎn)FFT與MATLAB數(shù)據(jù)校驗(yàn)圖如圖6所示,1200點(diǎn)IDFT與MATLAB數(shù)據(jù)校驗(yàn)圖如圖7所示。
圖6 2048點(diǎn)FFT與MATLAB數(shù)據(jù)校驗(yàn)圖
圖7 1200點(diǎn)IDFT與MATLAB數(shù)據(jù)校驗(yàn)圖
本文對(duì)FFTC 128、256、512、1 024、2 048點(diǎn)FFT與1200、900點(diǎn)IDFT數(shù)據(jù)進(jìn)行了MATLAB仿真結(jié)果分析,并將加速器的處理時(shí)間與TI提供的庫(kù)函數(shù)與手寫(xiě)線性匯編(1200與900點(diǎn)IDFT)性能在CCS仿真平臺(tái)作對(duì)比,發(fā)現(xiàn)提高明顯,性能如表2所列。
表2 FFT與IFFT的現(xiàn)行匯編與FFTC性能對(duì)比表(效率:um)
由上表可知,當(dāng)點(diǎn)數(shù)較小時(shí),才有匯編的效率比FFTC加速器效率要高,當(dāng)進(jìn)行2 048大點(diǎn)數(shù)FFT與下行1200與900點(diǎn)IDFT時(shí),F(xiàn)FTC加速器有明顯優(yōu)勢(shì),其性能明顯高于匯編代碼??紤]到DSP實(shí)現(xiàn)LTE基帶處理的性能要求,F(xiàn)FTC在沒(méi)有消耗CPU的情況下,明顯提高了FFT與IFFT效率(其中2 048點(diǎn)FFT主要是下行20M帶寬發(fā)送鏈路,1200點(diǎn)IDFT主要是上行20M帶寬接收鏈路)。
[1] 林輝,焦慧穎.LTE-Advanced關(guān)鍵技術(shù)詳解[M].北京:人民郵電出版社,2012.
[2] 賈欣,許希斌.軟件無(wú)線電原理與技術(shù)[M].北京:人民郵電出版社,2010.
[3] Texas Instruments.TMS320C6618 Multicore Fixed and Floating-Point System-on-Chip,2012.
[4] Texas Instruments.TMS320C6618 KeyStone Architecture Fast Fourier Transform Coprocessor (FFTC) User Guide,2012.
[5] 周佩.基于多核DSP并行調(diào)度機(jī)制的實(shí)現(xiàn)[D].北京:中國(guó)科學(xué)院光電技術(shù)研究所,2012.
[6] 王萌,習(xí)勇.基于多核DSP的寬帶OFDM波形的并行設(shè)計(jì)與實(shí)現(xiàn)[J].信息化研究,2015,41(3):32-34.
FFTC from TMS320TCI6618 Application on LTE
Lu Hao
(School of Information and Communication Engineering,Chongqing University of Posts and Telecommunications,Chongqing 400065,China)
Base stations and SDR with DSP processing baseband data are facing serious challenges.Texas Instrument has then brought up a product TMS320TCI6618 DSP.The fast Fourier transform coprocessor (FFTC) in this DSP can enhance enormously the performance of base station in baseband data processing.FFTC is a programmable peripheral,which supports FDD/TDD-LTE.The architecture and configuration of FFTC are introduced,and further,the application of FFTC in LTE system is introduced also.At the end of this article,a performance analysis is provided according to the tested data real-timely.
TMS320TCI6618;FFTC;DSP;LTE;parallelization
TN914.3
A
?士然
2016-11-08)
單片機(jī)與嵌入式系統(tǒng)應(yīng)用2017年3期