国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于GPU加速的雷達信號處理并行技術(shù)

2013-08-26 02:47:22華,周沫,察豪,沈
艦船科學(xué)技術(shù) 2013年7期
關(guān)鍵詞:存儲器信號處理線程

秦 華,周 沫,察 豪,沈 括

(1.海軍工程大學(xué)海洋電磁環(huán)境研究所,湖北 武漢 430033;2.中國人民解放軍92823部隊,海南 三亞 527000)

0 引言

目前,雷達正在向數(shù)字化和軟件化的方向發(fā)展,軟件雷達采用開放式、標準化、通用化的硬件平臺,通過現(xiàn)場加載的模塊化軟件實現(xiàn)雷達的各種功能,使軟件雷達擁有多功能、多模式的發(fā)展?jié)摿?,同時具有研制和改進周期短、費用低、維護方便等諸多優(yōu)勢。因而,近年來成為相關(guān)領(lǐng)域的研究熱點。

一直以來,軟件雷達實現(xiàn)的瓶頸問題之一是實時性問題。其中信號處理的實時性更為突出,因而相當一部分工作都是集中在信號處理的軟件化工作上,研究的主流方案一般都采用軟件和硬件耦合緊密的多DSP+FPGA板實現(xiàn)[1-3]。近年來,基于通用計算機平臺的計算機圖形處理器 (graphic process unit,GPU)運算能力的提升逐漸可為軟件雷達的實現(xiàn)提供硬件支持[4-6]。目前,GPU的主要用途由圖形渲染已經(jīng)過渡到通用計算方面,其含義也已由圖形處理器演變?yōu)橥ㄓ锰幚砥鳌PU屬于眾核架構(gòu),擁有數(shù)以百計的計算單元,單精度浮點處理能力已超過1 TFlops,同時其雙精度浮點處理能力也得到了加強,最高可達到600 GFlops。針對基于GPU架構(gòu)的并行計算研究也成為熱點。在GPU加速雷達信號處理領(lǐng)域,文獻[7]提出基于GPU對軟件雷達體系的設(shè)計,主要工作集中在信號的下變頻和I和Q兩路的分解。文獻 [8]提出利用GPU硬件加速來提高連續(xù)波雷達的頻譜分析和譜峰搜索實時性,將頻譜分析和譜峰搜索移植至GPU進行運算,有效地縮短了系統(tǒng)的整體響應(yīng)時間。

本文首先針對GPU的設(shè)備架構(gòu)設(shè)計雷達信號處理的執(zhí)行配置,然后利用GPU細粒度線程并發(fā)執(zhí)行的特點,設(shè)計雷達信號處理各個模塊在GPU上的任務(wù)映射和信號處理并行算法,最后仿真和實驗結(jié)果證明了該方案的可行性。

1 雷達信號處理在CPU-GPU系統(tǒng)中的執(zhí)行策略

軟件化雷達的硬件平臺由天線系統(tǒng)、變頻組件、A/D采樣組件、通用處理計算機和雷達終端設(shè)備組成,如圖1所示。

圖1 軟件雷達系統(tǒng)組成框圖Fig.1 Composition diagram of software radar system

雷達接收信號在變頻組件內(nèi)經(jīng)下變頻轉(zhuǎn)換為中頻信號,送到高速A/D采樣器件,轉(zhuǎn)換為數(shù)字信號送通用處理計算機進行信號處理,雷達信號的檢測和處理由軟件來實現(xiàn)。由于雷達信號處理過程呈流水線模式,數(shù)據(jù)采樣率高,通用處理計算機利用CPU完成預(yù)處理并控制信號處理的任務(wù)調(diào)度和負載分配,按照雷達信號處理流程,將數(shù)據(jù)通過PCI-E總線分塊傳輸至顯存,利用GPU特有的 SIMT(Single Instruction Multiple Thread)方式實現(xiàn)線程并行化計算。每個脈沖重復(fù)周期 (PRF)所包含的采樣數(shù)據(jù)處理的方式相同,利于發(fā)揮GPU多線程、細粒度并行處理的優(yōu)勢。處理過程通過創(chuàng)建流來異步執(zhí)行,使得前一個脈沖重復(fù)周期數(shù)據(jù)的計算與下一個周期數(shù)據(jù)流的傳輸并行進行,最大程度地重疊通信與計算的時間,如圖2所示。

圖2 雷達信號處理并行執(zhí)行過程Fig.2 Parallel execution of radar signal processing

訪存優(yōu)化是提高GPU多線程并行計算的重要途徑[9]。為提高數(shù)據(jù)傳輸帶寬,在本文研究過程中,對采樣點開辟頁鎖定內(nèi)存,通過GPU的zero-copy功能將主機端指針映射到GPU地址空間,信號處理模塊中的內(nèi)核函數(shù)可直接進行主機和設(shè)備端的通信,減少分配顯存和數(shù)據(jù)拷貝的時間;采用紋理存儲器來保存低通濾波器系數(shù),使用紋理內(nèi)核函數(shù)來讀取紋理存儲器。紋理存儲器的存儲方式為只讀,可以通過緩存加速訪問以優(yōu)化空間局部行為[10];共享存儲器的訪存速度幾百倍快于全局存儲器,應(yīng)用于雷達信號處理中的矩陣轉(zhuǎn)置,脈沖積累及恒虛警檢測,把采樣數(shù)據(jù)分批劃分到共享內(nèi)存,通過共享存儲器合作計算可獲得更好的加速性能[11]。

2 基于GPU的雷達信號處理并行化算法

雷達信號處理包括正交相位檢波、脈沖壓縮、動目標顯示 (MTI)/動目標檢測 (MTD)、積累和恒虛警處理等。利用GPU進行信號處理并行運算中的重要部分就是將計算映射到抽象的線程,即合理安排當前線程所負責的計算和充分利用各種存儲單元的優(yōu)勢。

2.1 數(shù)字化正交相位檢波和脈沖壓縮

正交相位檢波的目的是把中頻信號轉(zhuǎn)換成零中頻的I和Q兩路正交信號,這里采用直接中頻采樣的數(shù)字下變頻技術(shù)。雷達接收機接收的中頻數(shù)字信號可表示為

式中:fIF為中頻信號的中心頻率;A(iTs)和φ(iTs)分別為信號的幅度和相位;Tr為脈沖寬度;Ts為采樣時間間隔。采樣頻率fs根據(jù)帶通采樣定理確定,Ts=1/fs。S(iTs)與內(nèi)核函數(shù)產(chǎn)生的正交混頻信號cos(2πifIFTs)和sin(2πifIFTs)點乘,低通濾波,得到零中頻復(fù)包絡(luò)信號

執(zhí)行內(nèi)核函數(shù)的每個線程按合并訪問條件,訪問全局存儲器中的中頻信號采樣點。每個采樣點作為一個處理單元依次映射到線程中,通過線程和塊的索引來計算該線程所需要處理數(shù)據(jù)的地址。每個線程的索引號與當前子任務(wù)的信號采樣值一一對應(yīng),并根據(jù)所對應(yīng)的全局索引號并行執(zhí)行,以取代CPU算法中關(guān)于復(fù)數(shù)點乘、內(nèi)插和濾波的循環(huán)。數(shù)字低通濾波器的系數(shù)可通過仿真計算得到。因為紋理存儲器有高速片上緩存,可以利用紋理緩存提高數(shù)據(jù)讀取速度,所以濾波器系數(shù)以權(quán)庫的形式保存在紋理存儲器,在計算正交相位檢波模塊時讀取。

當時寬帶寬積較大時,采用頻域FFT法進行脈沖壓縮遠小于時域相關(guān)法的運算量,線性調(diào)頻的脈壓系數(shù)為復(fù)包絡(luò)信號s(iTs)的共軛翻轉(zhuǎn),濾波器的單位脈沖響應(yīng)表達式為

每個線程獨立維護采樣點數(shù)值和濾波器系數(shù),線程之間并行執(zhí)行傅離葉變換和復(fù)數(shù)點乘。采樣數(shù)據(jù)長度為i點,需要將信號和匹配濾波器系數(shù)做2N≥i點離散傅離葉變換(DFT)。將雷達回波與匹配濾波器頻域響應(yīng)系數(shù)相乘,再經(jīng)過IFFT變換,得到脈沖壓縮處理結(jié)果。

2.2 動目標顯示 (MTI)/動目標檢測 (MTD)

工程中應(yīng)用較多的是由2個固定一次對消器級聯(lián)的固定二次對消器,實現(xiàn)方式如圖3所示。

其時域表達式為

式中x(iTs,m)為第m個脈沖重復(fù)周期上第iTs時刻的I和Q兩路數(shù)字信號。

圖3 雙延遲對消器結(jié)構(gòu)Fig.3 Composition of the double canceller

根據(jù)對消器設(shè)計,開辟的顯存空間尺寸為輸入回波信號尺寸的級聯(lián)倍數(shù),用以存放脈沖壓縮后連續(xù)的回波數(shù)據(jù)。每個脈沖壓縮后的回波數(shù)據(jù)以“先進先出”的方式依次存放在顯存中。利用線程索引號并發(fā)執(zhí)行脈沖重復(fù)周期內(nèi)數(shù)字信號的迭代運算,每個線程分別維護采樣值經(jīng)延遲線加權(quán)與相同距離分辨單元采樣點隔周期相減。

動目標檢測的原理是在MTI后串接一窄帶濾波器組來覆蓋整個重復(fù)頻率的范圍,實質(zhì)是對不同通道進行相參積累。從運算量角度考慮,可采用FFT濾波器組進行濾波處理。在進行MTD運算時,將相鄰m個重復(fù)周期的數(shù)據(jù)作為一維數(shù)組存儲起來,采用棋盤劃分的方式實現(xiàn)矩陣轉(zhuǎn)置,對其相同距離單元即矩陣每行的數(shù)據(jù)進行DFT運算。

2.3 視頻積累和恒虛警檢測

視頻積累在包絡(luò)檢波器后完成,常用的幅度檢波器是線性檢波器。利用回波脈沖間的相關(guān)性進行累加,提高目標的信噪比,其時域表達式為

式中M為回波脈沖積累數(shù)。這里可以利用共享存儲器的線程通信,將網(wǎng)格劃分為二維數(shù)組結(jié)構(gòu),運算時將M個脈沖重復(fù)周期的i個采樣點轉(zhuǎn)置成一個i×M的矩陣,整個線程網(wǎng)格劃分成i個block,M個相同距離單元采樣點從顯存拷貝至線程塊中的共享存儲器,采用并行規(guī)約算法求和,每個線程塊處理1行數(shù)據(jù),最后調(diào)用_syncthreads()函數(shù)進行柵欄同步,將每個block的結(jié)果寫回全局存儲器。通過合理地利用共享存儲器做中間數(shù)據(jù)的訪存和線程通信,可以減少對全局存儲器重復(fù)讀取次數(shù),避免全局數(shù)據(jù)訪問延遲,有效提高算法效率。

均值類恒虛警檢測算法需要求取每個距離單元兩側(cè)各n/2(n=4,8,16…)點的數(shù)據(jù)和,對于被檢測單元其前面或者后面序列數(shù)不足n/2點的,則取被檢測單元兩側(cè)距離單元的共同均值,實現(xiàn)原理如圖4所示。

圖4 均值類恒虛警原理圖Fig.4 Composition diagram of the mean-CFAR

為避免頻繁地從全局存儲器中讀取數(shù)據(jù),將數(shù)據(jù)從全局存儲器分段拷貝至線程塊內(nèi)的共享存儲器。但是相鄰的線程塊之間前線程塊的后n/2個數(shù)據(jù)元素與后一個線程塊的前n/2個數(shù)據(jù)元素的區(qū)域重疊。為了避免線程之間訪問競爭,本文在這里采用共享存儲器數(shù)據(jù)復(fù)用,通過復(fù)制檢測點前后n/2個數(shù)據(jù),讓每個線程塊單獨計算一個元素前后對應(yīng)點數(shù)的序列和,這樣每個線程塊完成序列中一段連續(xù)區(qū)域的求均值運算,其結(jié)果作為門限值與檢測點作比較。

3 仿真分析與實測數(shù)據(jù)驗證

為驗證提出的基于GPU的雷達信號處理并行算法的加速性能,構(gòu)建上述完整的雷達信號處理流程,獲得雷達中頻信號在不同采樣頻率下的執(zhí)行時間,并與CPU運算結(jié)果進行比較,計算過程采用2套GPU計算運算平臺,GPU平臺1為NVIDIA Tesla C2050,GPU平臺2為NVIDIA GT9400,基于Fermi架構(gòu)Tesla C2050,擁有448個CUDA核心,最高可實現(xiàn)1 Tflops單精度峰值性能。

CPU平臺為Intel Core i7@2.67 GHz處理器,CPU和GPU的運算模型和運算參數(shù)相同。要強調(diào)的是,基于CPU的信號處理算法中的循環(huán)和迭代利用OPENMP展開并行執(zhí)行,并且利用英特爾數(shù)學(xué)核心函數(shù)庫 (MKL)實現(xiàn)傅立葉變換。

3.1 仿真算例分析

算例設(shè)計的雷達信號形式是線性調(diào)頻信號,動目標顯示和動目標檢測是雙延遲線對消器和8點FFT多普勒濾波器組。由于進行脈沖對消的頭2個重復(fù)周期的回波信號只有在第3個脈沖回波信號到達時才能使用,因此以脈沖重復(fù)周期為單位完成一次完整的中頻信號處理過程,需要進行10次正交相位檢波和脈沖壓縮、8次動目標顯示及1次動目標檢測、脈沖積累和恒虛警檢測。由于工程上脈沖重復(fù)周期在1.5 ms左右,各種雷達工作機制差別大,這里設(shè)雷達中頻信號的中心頻率30 MHz,中頻帶寬4 MHz,根據(jù)帶通采樣定律,采樣點范圍取1×104~1×105。表1給出了仿真算例執(zhí)行時間結(jié)果。

表1 三種計算平臺的執(zhí)行時間Tab.1 Processing time of three computing platform

其中,GPU計算平臺數(shù)據(jù)包含了采樣數(shù)據(jù)在內(nèi)存和顯存之間的傳輸時間。由表1可以看出,CPU平臺無法在10個脈沖重復(fù)周期內(nèi)完成中頻信號實時處理。GPU平臺2雖然在運算速度上與CPU平臺相比最高提升了1.5倍左右,計算執(zhí)行時間仍然超出15 ms,而且在10000個采樣點的情況下,GPU計算平臺與CPU計算平臺相差不大。這是因為采樣點數(shù)量較少時,不能最大發(fā)揮GPU多線程細粒度的并行計算能力,且數(shù)據(jù)的傳輸時間在整體執(zhí)行時間中的比例提高,GPU計算的“存儲墻”凸顯出來,并且GT9400屬于低端圖形處理器,內(nèi)部只有16個核處理器,并行運算能力有限。GPU計算平臺1采用專用科學(xué)計算圖形處理器,隨采樣點數(shù)量增加,與經(jīng)過優(yōu)化的CPU程序的執(zhí)行速度比r1不斷提高,執(zhí)行速度比最高達到20倍 (見圖5)。

GPU計算平臺1在完成100000個采樣點的信號處理后,其執(zhí)行時間略大于15 ms。為避免混頻,設(shè)采樣頻率為50 MHz,采樣點數(shù)量為75000點的情況下,GPU計算平臺1能夠?qū)崟r完成雷達的整個信號處理流程。

圖5 GPU計算平臺與CPU計算平臺的執(zhí)行速度比Fig.5 Speed rate of GPU computing platform compared with the CPU computing platform

3.2 實測數(shù)據(jù)驗證

利用某型雷達脈壓后提供的采樣數(shù)據(jù)進行功能驗證和分析,實測數(shù)據(jù)的方位距離分辨單元為4096×10000個采樣點,驗證結(jié)果如圖6~圖7所示。

圖6 一個脈沖重復(fù)周期原始數(shù)據(jù)Fig.6 One pulse repetition period of raw data

圖7 脈沖周期信號處理后數(shù)據(jù)Fig.7 Pulse repetition data after signal processing

圖8 原始數(shù)據(jù)P顯視頻Fig.8 Radar display of raw data

圖9 信號處理后P顯視頻Fig.9 Radar display of signal processed data

從原始數(shù)據(jù)中連續(xù)抽取10個脈沖重復(fù)周期的信號仿真,圖6是其中一個脈沖重復(fù)周期原始數(shù)據(jù),由圖7可得到,依次經(jīng)過MTI/MTD、脈沖積累和恒虛警檢測后,雜波和噪聲得到了有效的抑制,目標回波的信噪比提高。圖9是表示原始采集數(shù)據(jù)經(jīng)過信號處理的P顯效果??梢钥闯?,雷達回波中的海雜波,噪聲、地物雜波和云雨雜波強度減弱,并且通過相參積累和恒虛警檢測后,噪聲所淹沒的遠處小目標也能被發(fā)現(xiàn)。實測數(shù)據(jù)經(jīng)過信號處理的結(jié)果證明了設(shè)計流程較好地達到雷達信號處理的功能。

4 結(jié)語

本文設(shè)計了基于CPU-GPU的雷達信號處理構(gòu)架,并在此架構(gòu)上實現(xiàn)了基于GPU的信號處理并行算法。仿真和實驗結(jié)果證明,基于GPU加速的雷達信號處理能夠?qū)崟r完成信號處理的整個流程。軟件雷達信號處理模型、并行線程的映射和訪存的優(yōu)化等方面都在本文所提出的加速信號處理算法中得以實現(xiàn),而且其模塊化、通用性和可移植性與傳統(tǒng)的硬件設(shè)計相比有著很大的優(yōu)勢,從而使GPU加速軟件雷達信號處理運算進入工程應(yīng)用階段奠定了基礎(chǔ)。

[1]DEBATTY T.Software defined RADAR-A state of the art[C].In:Gini F.Proceedings of 2nd International Workshop on congnitive Information Processing.Elba Island:IEEE PRESS,2010:253 -257.

[2]ZHANG Hui,LI Lin,WU Ke,Software-defined six-port radar technique for precision range measurements[J].IEEE Sensors Journal,2008,8(10):1745 -1751.

[3]DENG Yi,HU Shan-qing,LONG Teng.A miniaturized universal architecture for radar signal processing systems[C].In:Lesturgie M.Proceeds of International Conference on Radar.Guilin:IEEE PRESS,2009:1 -4.

[4]LI Zhong-zhi,WANG Xue-gang,YU Xue-lian.Orthogonal software architecture design for radar dataprocessing system with object-oriented component and com interface[J].WSEA Transaction on Computers,2011,10(2):61 -70.

[5]MALANOWSKI M,PORCZYK K J,et al.Real-time software implementation of passive radar[M].Radar Conference,2009:33-36.

[6]ESSEN S S,et al.Synthetic aperture radar for all weather penetrating UAV application(SARAPE)-project presentation[C].Synthetic Aperture Radar,2012,EUSAR,9th European Conference,290 -293.

[7]SONG J P,ROSS J A,SHIRES D R.Hybrid core acceleration of UWB SIRE radar signal processing[J].IEEE Transactions on Parallel and Distributed Systems,2011,22(1):46 -57.

[8]熊超.基于GPU的連續(xù)波雷達頻譜分析與譜峰搜索技術(shù)研究[D].長沙:國防科學(xué)技術(shù)大學(xué),2011.XIONG Chao.Research on spectral analysis and peak search of continuous wave radar based on GPU hard ware[D].Changsha:National University of Defense Technology,2011.

[9]肖漢.基于CPU+GPU的影像匹配高效能異構(gòu)并行技術(shù)研究[D].武漢:武漢大學(xué),2011:91-92.XIAO Han.Research on high efficiency heterogeneous parallel computing based on CPU+GPU in image matching[D].Wuhan:Wuhan University,2011:91 -92.

[10]張保,董曉社,白秀秀,等.GPU-CPU系統(tǒng)中基于剖分的全局性能優(yōu)化方法[J].西安交通大學(xué)學(xué)報(信息科學(xué)版),2012,46(2):17 -23.ZHANG Bao,DONG Xiao-she,BAI Xiu-xiu,et al.Profiling based optimization method for CPU-GPU heterogeneous parallel processing system[J].Journal of Xi'an Jiaotong University,2012,46(2):17 -23.

[11]楊靖宇,張永生,李正國,等.遙感影像正射糾正的GPUCPU協(xié)同處理研究[J].武漢大學(xué)學(xué)報(信息科學(xué)版),2011,36(9):1043 -1046.YANG Jing-yu,ZHANG Yong-sheng,LI Zheng-guo,et al.GPU-CPU cooperate processing of RS image orthorectification[J].Geomatics and Information Science of Wuhan University,2011,36(9):1043-1046.

猜你喜歡
存儲器信號處理線程
靜態(tài)隨機存儲器在軌自檢算法
《信號處理》征稿簡則
信號處理(2018年5期)2018-08-20 06:16:02
《信號處理》第九屆編委會
信號處理(2018年5期)2018-08-20 06:16:00
《信號處理》征稿簡則
信號處理(2018年8期)2018-07-25 12:25:42
《信號處理》第九屆編委會
信號處理(2018年8期)2018-07-25 12:24:56
淺談linux多線程協(xié)作
存儲器——安格爾(墨西哥)▲
基于Nand Flash的高速存儲器結(jié)構(gòu)設(shè)計
Linux線程實現(xiàn)技術(shù)研究
么移動中間件線程池并發(fā)機制優(yōu)化改進
太保市| 霍林郭勒市| 新疆| 东丽区| 隆尧县| 恩平市| 鄂伦春自治旗| 邯郸县| 广昌县| 长岭县| 旺苍县| 花莲县| 兴和县| 洪湖市| 普格县| 临武县| 林州市| 马鞍山市| 资中县| 驻马店市| 滕州市| 乐清市| 南城县| 成安县| 康马县| 六盘水市| 郁南县| 南安市| 明水县| 运城市| 城固县| 万年县| 家居| 竹溪县| 西和县| 汤原县| 石阡县| 区。| 盐山县| 邯郸市| 涿鹿县|