朱勇旭,易芝玲,吳 斌,周玉梅
(1. 中國移動研究院 北京 西城區(qū) 100053; 2. 中國科學院微電子研究所 北京 朝陽區(qū) 100029)
M IMO檢測器是多輸入多輸出和正交頻分復用(M IMO-OFDM)系統(tǒng)中最為核心的模塊。在檢測過程中常利用QR分解將檢測問題轉換為樹形結構的星座點搜索,可取得性能和復雜度的平衡[1-2]。矩陣的QR分解常用的3種方法是:修正格拉姆-施密特(modified Gram-Schmidt,MGS)正交化方法[3]、Householder變換法和Givens旋轉法。Givens旋轉法采用協(xié)調旋轉數字計算(CORDIC)運算實現Givens旋轉[4],通過多次Givens旋轉達到矩陣的QR分解目的,在實現上,脈動陣列是常用實現結構,無需復雜乘法、除法和開方等運算,具有結構規(guī)則和擴展性強等特點。
無線局域網(WLAN)802.11n/ac協(xié)議規(guī)定支持2′2到8′8天線配置,支持20/40/80/160 M帶寬,需要對QR分解模塊進行可配置設計以支持不同天線維數和子載波數(不同帶寬對應不同子載波數)。WLAN通信系統(tǒng)需要進行ACK反饋機制,規(guī)定反饋時間不能超過16 μs。根據這些應用需求,本文對傳統(tǒng)的串行脈動陣列處理器(serial systolic array processor,SSAP)進行改進[5],提出一種分布式脈動陣列結構。通過對分布式脈動陣列的分析和驗證,該結構相對于已有的設計在處理延時、天線數和子載波數可擴展性、資源開銷方面均有較優(yōu)越的性能。
M IMO-OFDM系統(tǒng)頻域復數模型可表示為:
式中,s(k)為發(fā)送復數信號矢量;r(k)為接收復數信號矢量;h(k)為復數信道矩陣;n(k)為復數白噪聲矢量,其中k為子載波序號。
在實現上,常采用脈動陣列結構實現上述QR分解過程,如圖1所示,其中圓形是邊界單元,正方形是內部單元。邊界單元工作于CORDIC運算向量模式,將信道元素組成的向量旋轉至x軸,實現元素消零并向右輸出旋轉角度;內部單元工作于CORDIC運算旋轉模式,根據輸入角度對向量進行旋轉,并向下輸出旋轉后向量虛部和向右傳遞輸入角度。左邊的上三角陣列用于計算R矩陣,其輸入是列延時后的信道矩陣,右邊的方陣用于計算Q矩陣,其輸入是列延時后的單位陣。脈動陣列結構處理過程可參考文獻[6]。
圖1 QR分解的脈動陣列
WLAN系統(tǒng)利用不同天線流上接收到的長訓練序列進行信道估計,然后將估計得到信道矩陣H送入QR矩陣分解模塊,經過一定矩陣分解延時后,得到的分解矩陣Q和R將存入Q和R矩陣存儲器中,再根據數據OFDM符號中子載波號讀取與其對應的Q和R矩陣,進行M IMO處理得到檢測信號,其中,QR分解的延時會直接增加系統(tǒng)延時,如圖2所示。文獻[5]采用的串行脈動陣列處理器結構中,下一子載波必須等前一子載波分解完畢才能輸入,造成更大延時,其延時隨子載波數線性增加,在80 MHz工作頻率下對52個子載波(20 MHz帶寬)信道系數進行QR分解的延時是57.2 s,即4 576個時鐘周期,遠超出了WLAN協(xié)議規(guī)定的反饋時間16 s。在WLAN的40/80/160M帶寬模式下,其延時將進一步增加。
對于不同天線配置,只需要擴展圖2所示的脈動陣列。為了解決傳統(tǒng)串行脈動陣列中處理延時隨子載波數線性增加的問題,文獻[6]提出了分布式脈動陣列處理算法,其中分布式脈動陣列處理算法的核心思想包含以下兩部分:
1) 采用新的信道系數輸入規(guī)律,改變傳統(tǒng)的子載波串行輸入方式,對不同子載波信道矩陣系數進行分組交織處理后輸入脈動陣列。
2) 進行脈動陣列的分布式計算。將分組交織后的信道矩陣按照列延時方式輸入脈動陣列,脈動陣列中邊界單元和內部單元CORDIC采用流水線計算后,不同子載波信道矩陣的QR分解將分布于脈動陣列中CORDIC流水線運算的不同級。由于邊界單元和內部單元流水線級數均是T,而且同一子載波信道系數相鄰行以間隔T個周期輸入脈動陣列,所以同一子載波信道矩陣在脈動陣列中進行QR分解過程里,每隔T個時鐘周期將與本子載波下一行的信道系數相遇,組成的向量在邊界單元和內部單元進行CORDIC向量模式和旋轉模式的流水線計算。在保證每個子載波QR分解完成的同時,實現不同子載波信道矩陣的QR分解分布于脈動陣列CORDIC流水線的不同級,該方式充分利用了脈動陣列的流水線特性,時間利用率可達到100%,有效減小了處理延時,適合WLAN通信系統(tǒng)應用。
圖2 WLAN系統(tǒng)M IMO檢測過程
分布式脈動陣列處理器架構如圖3所示,用于M′M的實數信道矩陣的QR分解。圖中圓形單元是脈動陣列的邊界單元,方形單元是脈動陣列的內部單元,均采用流水線設計,級數均為T。
圖3 分布式脈動陣列處理器架構
如圖4所示,圖a是邊界單元CORDIC流水線結構,圖b是內部單元CORDIC流水線結構。
圖4 CORDIC流水線結構
本文設計采用Verilog HDL描述。首先,使用ModelSim仿真工具進行功能驗證;然后,對設計進行FPGA綜合并將其加入基于FPGA的2發(fā)2收802.11n原型系統(tǒng)中進行系統(tǒng)級驗證,通過WLAN專用測試設備IQNXN進行測試,能正確解調發(fā)射的數據幀。將通過FPGA驗證的2發(fā)2收802.11n系統(tǒng)進行ASIC實現,設計了2發(fā)2收數?;旌螹 IMO-OFDM SoC,采用SM IC 0.18 mm CMOS工藝,芯片面積為37.5 mm2(7.5 mm′5.0 mm),如圖5所示。采用QFP-176封裝,SoC中集成4路ADC、4路DAC和數字基帶(面積為19.2 mm2),支持802.11a/g/n協(xié)議,支持20 MHz帶寬和52個數據子載波。其中M IMO檢測器采用QR-ZF算法,QR分解采用提出的分布式脈動陣列處理器結構,QR-ZF檢測器的面積為5.76mm2(其中QR分解面積為3.86 mm2)。圖6是通過FPGA驗證的2發(fā)2收802.11n系統(tǒng),采用130 Mb/s數據率進行高清視頻同步傳輸。
圖5 2發(fā)2收M IMO-OFDM SOC
圖6 2發(fā)2收M IMO-OFDM SoC系統(tǒng)演示圖
1) 資源開銷分析
表1是使用A ltera Stratix II EP2S180對2′2 802.11n系統(tǒng)芯片進行FPGA綜合得到的基帶整體資源和QR-ZF檢測器資源開銷。作為基帶芯片中主要的計算模塊,分布式脈動陣列預處理單元占用了47%的計算邏輯資源和43%的寄存器資源。本文設計采用全CORDIC計算,避免了復雜的除法、乘法、開方,在資源開銷上得到有效減小。
表1 2發(fā)2收802.11n基帶處理器主要模塊硬件開銷
2) 延時分析
分布式脈動陣列將進行56個子載波QR分解,從信道系數輸入到56個子載波分解處理完成共需要270個時鐘周期,在80 MHz工作頻率下延時大小為3.375 μs,每個子載波處理平均延時是4.8個時鐘周期,而實際每個OFDM符號是320個時鐘周期,在數據OFDM符號來時,信道估計和信道系數QR分解預處理已經完成,無需進行緩存處理。與文獻[7-9]相比,在延時上均有很大優(yōu)勢。
3) 天線可擴展性分析
采用脈動陣列結構的QR分解單元有很好的天線可擴展性。根據天線數,直接擴展相應數目的邊界單元和內部單元就可構造不同天線配置下的脈動陣列。在3′3天線配置下(實數信道矩陣是6′6),脈動陣列左邊是6′6的上三角陣,6個邊界單元分布于對角線,上三角陣中其余位置均是內部單元,右邊是由內部單元組成的6′6的方陣。在其他天線配置下,可依此規(guī)律構造。
IEEE 802.11n/ac協(xié)議的產品設計及SoC研究實現成為產業(yè)和學術界的關注熱點,低延時、低復雜度及可擴展性的QR分解預處理器是WLAN接收機中核心部分。本文提出的分布式脈動陣列處理結構有效解決了QR分解預處理器的延時大、復雜度高及擴展性差的問題,該結構的延時是傳統(tǒng)串行脈動陣列的8%,避免了大量復雜的乘法、除法及開方等運算,對于具有不同子載波數和天線維數的QR分解,只需擴展脈動陣列的維數即可。此外,本文的分布式脈動陣列思想可擴展至LTE、802.16d/e等通信系統(tǒng)中,具有較好的參考和實用價值。
[1] KIM T H, PARK I C. Small-area and low-energy K-best M IMO detector using relaxed tree expansion and early forwarding[J]. IEEE Transactions on Circuits and Systems-I:Regular Papers, 2010, 57(10): 2753-2761.
[2] SHEN C A, ELTAWIL A M. A radius adaptive K-best decoder w ith early termination: Algorithm and VLSI architecture[J]. IEEE Transactions on Circuits and Systems-I:Regular Papers, 2010, 57(9): 2476-2486.
[3] HUANG Z Y, TSAI P Y. Efficient implementation of QR decomposition for gigabit M IMO-OFDM systems[J]. IEEE Transactions on Circuits and Systems-I: Regular Papers,2011, 58(10): 2531-2542.
[4] MA L, DICKSON K, MCALLISTER J. QR decompositionbased matrix inversion for high performance embedded M IMO receivers[J]. IEEE Transactions on Signal Processing,2011, 59(4): 1858-1867.
[5] HAENE S, PERELS D, BURG A. A real-time 4-stream M IMO-OFDM transceiver: system design, FPGA implementation, and characterization[J]. IEEE Journal on Selected Areas in Communications, 2008, 26(6): 877-889.
[6]朱勇旭, 吳斌, 周玉梅, 等. 用于M IMO-OFDM系統(tǒng)QR分解的分布式脈動陣列處理算法[J]. 電子與信息學報, 2012,34(8): 1968-1973.
ZHU Yong-xu, WU Bin, ZHOU Yu-mei, et al. A distributed systolic array processing algorithm for QR-decomposition in M IMO-OFDM system[J]. Journal of Electronics&Information Technology, 2012, 34(8): 1968-1973.
[7] CHANG R, LIN C, LIN K, et al. Iterative QR decomposition architecture using the modified Gram-Schmidt algorithm for M IMO systems[J]. IEEE Transactions on Circuits and Systems I: Regular Papers,2010, 57(5): 1095-1102.
[8] CHEN D D, SIMA M. Fixed-point CORDIC-based QR decomposition by givens rotations on FPGA[C]//International Conference on Reconfigurable Computing and FPGAs (ReConFig). Cancun, Mexico: [s.n.], 2011.
[9] HWANG Y T, CHEN W D. Design and implementation of a high-throughput fully parallel complex-valued QR factorisation chips[J]. IET Circuits Devices Systems, 2011,5(5): 424-432.
編 輯 張 俊