(1.航天工程大學(xué) 電子與光學(xué)工程系,北京 101416;2.西昌衛(wèi)星發(fā)射中心,四川 西昌 615606;3.西安衛(wèi)星測控中心,西安 710043)
SUMPLE算法由于實現(xiàn)較簡單、運算量合理、合成效率高,是天線組陣合成最重要算法之一[1-4]。信號合成器需要接入所有天線的接收信號,并同時對所有天線信號進(jìn)行權(quán)值計算。當(dāng)天線組陣規(guī)模較大時,會帶來兩個問題:一是很難將所有天線的接收信號同時傳輸至信號合成器;二是受限于單個信號處理設(shè)備的處理能力,信號合成器很難同時對所有天線接收信號進(jìn)行權(quán)值計算和合成。因此,限制了SUMPLE算法在大規(guī)模天線組陣中的應(yīng)用。在通用計算平臺上進(jìn)行信號處理已經(jīng)得到了應(yīng)用[5-7],為大規(guī)模天線組陣的信號合成提供了新思路。典型的通用計算平臺是中央處理器(Central Processing Unit,CPU)和通用圖形處理器(Graphics Processing Unit,GPU)異構(gòu)系統(tǒng)[8-10],本文對CPU-GPU異構(gòu)系統(tǒng)上的并行合成方法進(jìn)行研究。
國內(nèi)對天線組陣并行合成方法的研究比較少。文獻(xiàn)[11]提出了兩種SUMPLE算法的分級實現(xiàn)方法,分別是全增益和部分增益實現(xiàn)方法。其基本原理是將所有天線分為若干天線組,首先在天線組內(nèi)合成,然后將不同天線組的合成信號繼續(xù)合成,降低了需要同時傳輸至信號合成器的信號路數(shù),避免了信號合成器同時對所有天線進(jìn)行合成。不足之處是部分增益法存在信噪比(Signal-to-Noise Ratio,SNR)損失,也沒有對兩種方法在CPU-GPU異構(gòu)系統(tǒng)上的可行性進(jìn)行分析。
本文將文獻(xiàn)[11]提出的全增益實現(xiàn)方法稱為多天線組合成方法(Multi Antenna Group Method,MAGM),詳細(xì)研究了該方法的實現(xiàn)步驟,對其在CPU-GPU上的可行性進(jìn)行分析。提出了一種多信號塊合成方法(Multi Signal Block Method,MSBM),基本原理是將同一積分段內(nèi)的所有天線信號發(fā)送到一個節(jié)點進(jìn)行處理,不同節(jié)點處理不同積分段的信號,如此便可延長每個積分段的信號傳輸時間和處理時間,降低各處理節(jié)點的數(shù)據(jù)傳輸速率,減小各處理節(jié)點的計算壓力。MSBM同時處理不同積分段的信號,而廣泛應(yīng)用的SUMPLE算法通過前一個積分段的權(quán)值推算當(dāng)前積分段的權(quán)值,必須按照時間先后順序依次處理,不能滿足要求。本文研究了SUMPLE算法的積分段內(nèi)迭代方法,消除了權(quán)值計算的時間依賴,并仿真分析了其合成性能。
設(shè)定天線組陣系統(tǒng)由Nant個天線組成,各天線接收信號可表示為
Si,k=si,k+ni,k,i=1,2,…,Nant。
(1)
式中:下標(biāo)k和i分別表示時間序號和天線序號,si,k、ni,k和Si,k分別表示第i個天線k時刻的信號、噪聲和含有噪聲的信號。信號合成時的權(quán)值系數(shù)可表示為
Wi,K=wi,K+ηi,K,i=1,2,…,Nant。
(2)
式中:下標(biāo)K是以積分段為單位的時間序號,wi,K是理想權(quán)值,ηi,K是由噪聲引起的權(quán)值估計誤差。
SUMPLE算法將每個天線接收信號與其他所有天線的加權(quán)和進(jìn)行相關(guān),得到復(fù)權(quán)值,進(jìn)而對所有信號進(jìn)行加權(quán)合成。第i個天線的第K+1個積分段的權(quán)值Wi,K+1由Wi,K遞推得到:
(3)
式中:L是積分段的采樣點數(shù);上標(biāo)*表示復(fù)共軛;RK+1是歸一化幅度因子,滿足
(4)
常用的SUMPLE迭代發(fā)生在積分段之間,本文稱為積分段間迭代方法,如圖1所示。第K+1個積分段權(quán)值由第K個積分段的權(quán)值遞推得到,這使得必須按照時間先后順序計算不同積分段的權(quán)值,約束了算法的并行性。
圖1 SUMPLE算法的積分段間迭代方法Fig.1 Iterative method between the integral time intervals
本文根據(jù)并行分解原理不同,將并行合成方法分為MAGM和MSBM。MAGM基于任務(wù)分解原理,通過將大量天線合成任務(wù)分解為多個天線組的合成任務(wù),相當(dāng)于將一個復(fù)雜任務(wù)分解為大量可并發(fā)執(zhí)行的子任務(wù)。MSBM基于數(shù)據(jù)分解原理,將信號流分解為多個相對獨立的信號塊,并發(fā)處理信號塊。下面對這兩種方法及其實時性進(jìn)行分析,分析采用以下參數(shù):天線數(shù)量為500;接收信號采樣率為100 MHz,12 bit采樣;采樣積分段長度為1×105,時長為1 ms。GPU 型號為TESLA K80,雙精度浮點性能為2.91 Tflop;在現(xiàn)有PCI-e3.0總線條件下,其帶寬為16 GByte/s。
將所有天線分為若干天線組,首先在天線組內(nèi)合成,然后將不同天線組的合成信號繼續(xù)合成。合成器分為一級合成器、二級合成器等多級合成器。MAGM的基本原理如圖2所示。
圖2 MAGM的原理Fig.2 The principle of MAGM
方法詳細(xì)步驟如下:
Step1 初始化各合成器的權(quán)值。
Step2 一級合成器根據(jù)前一積分段的權(quán)值進(jìn)行加權(quán)合成。
Step3 二級合成器根據(jù)前一積分段的權(quán)值進(jìn)行加權(quán)合成。
Step4 將總合成信號反饋到各級合成器。
Step5 一級合成器根據(jù)總合成信號進(jìn)行權(quán)值計算、加權(quán)合成。
Step6 二級合成器根據(jù)總合成信號,對一級合成器的合成信號進(jìn)行權(quán)值計算、加權(quán)合成。
重復(fù)Step 2~6,可持續(xù)進(jìn)行信號合成。在CPU-GPU異構(gòu)系統(tǒng)上的計算流程如圖3所示。
圖3 MAGM的計算流程Fig.3 Processing flow of MAGM
下面從單個合成器和MAGM兩方面進(jìn)行實時性分析。
(1)單個合成器的實時性分析
設(shè)單個合成器能夠處理M路信號,那么滿足以下實時性條件:數(shù)據(jù)傳輸時間與處理時間之和小于積分時間,即
(5)
式中:D1=ML是數(shù)據(jù)傳輸總量,D2=ML是運算量,L是積分段點數(shù),B是傳輸帶寬,P是GPU的雙精度浮點性能。把具體數(shù)值代入求得M<102.4,即單個合成器最多能實現(xiàn)102路信號實時合成。實際情況要遠(yuǎn)遠(yuǎn)糟糕,PCI-e不會達(dá)到理論傳輸速度,算法不能完全并行化,GPU也不會達(dá)到計算峰值。
(2)MAGM的實時性分析
若MAGM只有兩級合成器,即一級合成器數(shù)量是N1,二級合成器數(shù)量是1,那么能夠處理最多M×N1路天線信號。如果增加三級合成器,二級合成數(shù)量是N2,那么能夠處理最多M2×N2路信號。為了方便,下面只分析到二級合成器。
對于500個天線的合成問題,顯然有
M×N1=500 。
(6)
MAGM能夠滿足實時性,必須在積分段時長內(nèi)完成Step 2~6的處理,即
(7)
式中:Ttotal是完成Step 2~6的時間,
Ttotal=max{T2(1),…,T2(N1)}+T3+
max{T5(1),…,T5(N1)}+T6。
(8)
式中:T的下標(biāo)表示步驟序號,如T2(N1)是Step 2中第N1個一級合成器的處理時間。由于Step 3要等待Step 2的所有一級合成器完成處理,Step 6要等待Step 5的所有一級合成器完成處理,因此Step 2和Step 5的處理時間是所有一級合成器處理時間的最大值。但為了方便分析Ttotal,本文假設(shè)Step 2和Step 5中所有一級合成器的處理時間相等:
(9)
那么,式(8)可以簡化為
Ttotal=T2+T3+T5+T6。
(10)
每一個T由兩部分組成,一是內(nèi)存和GPU顯存之間的數(shù)據(jù)拷貝時間Ttran,二是GPU計算時間Tpro。顯然,Ttotal也由這兩部分組成,記為Ttotal,tran和Ttotal,pro:
Ttotal=Ttotal,tran+Ttotal,pro。
(11)
Step 2~6中由CPU拷貝到GPU的數(shù)據(jù)總量D1是
D1=(M+1)L+(N1+1)L+2L+(N1+1)L=
(12)
把式(6)代入式(12)得到
D1≥68.2L。
(13)
對于這些數(shù)據(jù)量,當(dāng)PCI-e速度達(dá)到理論峰值時,所需傳輸時間是Ttotal,tran=6.4 ms,遠(yuǎn)遠(yuǎn)超過了積分段時間1 ms??梢?,在MAGM中,CPU與GPU之間有大量、頻繁的數(shù)據(jù)傳輸。在本文假設(shè)條件下,僅僅數(shù)據(jù)傳輸時間就遠(yuǎn)遠(yuǎn)超過積分段時間,無法達(dá)到實時性要求。因此,MAGM不適用于CPU-GPU異構(gòu)系統(tǒng)。
MSBM將高速數(shù)字信號按時間先后順序分流到多個合成器上,每個合成器負(fù)責(zé)一個積分段的所有天線的合成處理,圖4所示為其基本原理,其中,A(i,j)表示第i個天線的第j個積分段。各天線將采樣信號送入信號池中,信號池將同一個積分時間段內(nèi)的信號打包送至任務(wù)空閑的合成器中。對單個合成器而言,由于接收到了所有天線的信號,所以合成器不需要總合成信號的反饋輔助。
圖4 MSBM原理Fig.4 The principle of MSBM
其詳細(xì)步驟如下:
Step1 初始化合成器的權(quán)值。
Step2 接收積分段。
Step3 權(quán)值計算,加權(quán)合成。
下面對MSBM的實時性進(jìn)行分析。一個積分段的處理時間Ttotal包含兩部分,一是傳輸時間,將所有天線的信號從信號池傳輸?shù)胶铣善魉馁M時間;二是計算時間。對于任意的Ttotal,只要合成器數(shù)量N0滿足式(14)即可保證實時性:
(14)
式(14)的物理意義如圖5所示,合成器1從積分段①的起始時刻開始接收信號,然后處理。合成器2在積分段②到來之前保持空閑,從積分段②的起始時刻開始接收信號,然后處理。合成器1處理完積分段①后,保持空閑,直到積分段③的起始時刻。同理,合成器2處理完積分段②后,保持空閑,直到積分段④的起始時刻。如此循環(huán)往復(fù),兩個合成器輪流對信號進(jìn)行合成,能夠滿足實時性要求。
圖5 公式(11)的物理意義Fig.5 The physical meaning of Formula (11)
當(dāng)Ttotal增大時,可以通過增加合成器的數(shù)量以保持處理的實時性,具有兩點好處:一是可以降低合成器的接收速率,減少單個合成器的帶寬需求;二是可以降低合成器的處理速率,減少單個合成器的計算速度需求。
理論上通過增加合成器的數(shù)量就可以無限提高方法的處理能力。以本節(jié)假設(shè)為例,500個天線的積分段時長是1 ms,信號總量是7.5×107Byte,在 16 GByte/s速率下,需要4.7 ms傳輸時間。對500個天線做相關(guān)處理,需要5×107次乘加運算,假如在TESLA K80 GPU上運行并且能完全利用其浮點性能,也至少需要0.02 ms。因此,理論情況下1 ms的積分段需要4.72 ms處理時間,5個合成器即可達(dá)到實時處理。
MSBM要求各積分段能夠并行處理,而常用的SUMPLE算法采用積分段間迭代方法,導(dǎo)致各積分段間存在明顯的依賴關(guān)系。本文研究了積分段內(nèi)的迭代方法,其流程如圖6所示。在積分段的處理中,各天線權(quán)值的初值為0相位,按式(3)進(jìn)行遞推,求得各天線權(quán)值的更新值;根據(jù)更新值進(jìn)行加權(quán)合成,估計得到合成信號的SNR,當(dāng)相鄰兩次合成SNR的變化量ΔSNR小于一定值時停止迭代,否則繼續(xù)迭代。設(shè)停止迭代時的迭代次數(shù)是Niter,這種積分段內(nèi)迭代方法的運算量為NiterNantL。
圖6 SUMPLE算法的積分段內(nèi)迭代方法Fig.6 Iterative method inside the integral time interval
本文研究積分段內(nèi)迭代方法的目的是為了對SUMPLE算法進(jìn)行改造,使不同積分段的處理相互獨立,以適用于MSBM方法。只要積分段內(nèi)迭代方法的性能與積分段間迭代方法的性能相當(dāng),就達(dá)到預(yù)期。對SUMPLE算法的積分段內(nèi)迭代方法和積分段間迭代方法進(jìn)行仿真,參數(shù)如下:天線數(shù)量為20;迭代次數(shù)為15;積分長度為100 000;SNR為-15 dB、-10 dB和0 dB;信號形式為單點頻信號,頻率為1 MHz;采樣率為4 MHz。進(jìn)行500次蒙特卡洛仿真,得到如圖7所示的結(jié)果。
(a)SNR=0 dB
(b)SNR=-10 dB
(c)SNR=-15 dB圖7 兩種迭代方法的合成性能仿真結(jié)果Fig.7 Combining performance simulation results of two iterative methods
由仿真結(jié)果可得,在3種信噪比下,兩種迭代方法的收斂過程和收斂后的合成性能是基本一致的,這已經(jīng)達(dá)到了預(yù)期要求,可以將積分段內(nèi)迭代方法應(yīng)用到MSBM中,而不帶來額外的合成損失。此外,段內(nèi)迭代方法的抖動要小,對其原因進(jìn)行分析如下:段內(nèi)迭代方法是在一個積分段內(nèi)多次迭代,不斷提高權(quán)值估計精度,所以合成損失隨迭代過程越來越小。段間迭代方法的每次迭代對應(yīng)不同的積分段,對于每個積分段,只進(jìn)行了一次權(quán)值計算,精度要低于段內(nèi)迭代方法,即使迭代收斂之后,每次迭代的權(quán)值計算精度不盡相同,引起的合成損失也不一樣,所以合成損失隨迭代過程抖動較大。
本文圍繞通用計算平臺上的大規(guī)模天線組陣合成方法展開研究,對MAGM和MSBM的實時性進(jìn)行分析,結(jié)論是:MAGM需要大量頻繁數(shù)據(jù)通信,不適用于通用計算平臺;MSBM通過增加合成器數(shù)量,降低合成器的通信帶寬和處理速度需求,具有很大的處理能力提升空間,且適用于通用計算平臺。研究了SUMPLE算法的積分段內(nèi)迭代方法,其與積分段間迭代方法具有相同的合成性能。本文研究結(jié)果對在通用計算平臺上進(jìn)行大規(guī)模天線組陣信號合成具有一定的指導(dǎo)意義。下一步將結(jié)合具體CPU-GPU平臺進(jìn)行實現(xiàn)驗證。