呂志強(qiáng),劉 凱
(上海大學(xué) 通信與信息工程學(xué)院,上海 200444)
海事衛(wèi)星通信系統(tǒng)主要由同步通信衛(wèi)星、移動(dòng)終端、海岸地球站以及協(xié)調(diào)控制站等組成,通過(guò)一系列終端向用戶提供不同寬帶的網(wǎng)絡(luò)接入、移動(dòng)實(shí)時(shí)視頻直播等通信能力,在移動(dòng)通信領(lǐng)域占有越來(lái)越重要的地位。非合作通信中,接收端不知道有關(guān)發(fā)送信號(hào)的調(diào)制參數(shù),是一種非授權(quán)接入通信方式,因此要對(duì)突發(fā)信號(hào)進(jìn)行準(zhǔn)確匹配,為后續(xù)的信號(hào)調(diào)制方式識(shí)別與解調(diào)提供基礎(chǔ),是非合作方獲取通信內(nèi)容的重要保證。研究非合作通信中高效檢測(cè)識(shí)別信號(hào)是非常有價(jià)值的,如在軍事通信中對(duì)敵方的情報(bào)截獲,需要對(duì)大量突發(fā)信號(hào)進(jìn)行高效、快速的檢測(cè);在民用領(lǐng)域,為保證無(wú)線電頻譜管理的有效性,政府常常需要對(duì)民用信號(hào)進(jìn)行檢測(cè)對(duì)比。而海事衛(wèi)星突發(fā)信號(hào)由于分布不均勻且信號(hào)持續(xù)時(shí)間較短,相鄰的突發(fā)信號(hào)間距可能較近、數(shù)據(jù)量大,這些不利條件都增加了突發(fā)信號(hào)檢測(cè)的準(zhǔn)確度和速度。
隨著對(duì)無(wú)線高速數(shù)字通信的研究和突發(fā)信號(hào)檢測(cè)與同步技術(shù)等先進(jìn)理論的提出,信號(hào)的檢測(cè)[1]與同步根據(jù)研究方式不同可分為4大類:基于線性理論的時(shí)域、頻域、時(shí)頻域和基于非線性理論的微弱特征信號(hào)檢測(cè)同步方法[2]。時(shí)域檢測(cè)法[3]中主要有能量檢測(cè)、相關(guān)檢測(cè)、取樣積分與數(shù)字式平均[4]等。GPU具有多個(gè)計(jì)算單元和多種內(nèi)存,適合于計(jì)算量較大且計(jì)算簡(jiǎn)單的任務(wù),眾多學(xué)者已將GPU的多線程技術(shù)應(yīng)用到圖像處理[5-6]和衛(wèi)星信號(hào)處理[7-9]等實(shí)時(shí)性要求較高的領(lǐng)域。
針對(duì)所研究的海事衛(wèi)星信號(hào),為解決數(shù)據(jù)量大且檢測(cè)準(zhǔn)確度低的問(wèn)題,從工程實(shí)現(xiàn)角度出發(fā),設(shè)計(jì)了基于GPU的雙窗口能量檢測(cè)和分段差分相關(guān)檢測(cè)的雙重檢測(cè)方案。借助GPU強(qiáng)大的通用計(jì)算能力,挖掘并行度,從多維度線程和流架構(gòu)兩方面實(shí)現(xiàn)并行處理,通過(guò)合理地利用不同內(nèi)存,設(shè)定合適的維度、塊數(shù)以及塊內(nèi)線程數(shù)來(lái)盡量實(shí)現(xiàn)合并的內(nèi)存訪問(wèn),保證最大的內(nèi)存帶寬等優(yōu)化方式,由CPU與GPU相互協(xié)調(diào)合作,加快了計(jì)算速度,提高了系統(tǒng)的整體性能。通過(guò)仿真和實(shí)際信號(hào)的測(cè)試實(shí)驗(yàn)表明,所提方法具有較高的檢測(cè)成功率,單路速度提升約40倍。
本文旨在研究基于GPU的非合作海事衛(wèi)星信號(hào)的檢測(cè)識(shí)別,非合作通信流程如圖1所示。在高斯白噪聲信道中,通過(guò)分析通信協(xié)議,確認(rèn)突發(fā)和連續(xù)信號(hào)的傳輸格式等屬性,利用傳輸幀中的獨(dú)特碼等條件檢測(cè)不同類型的信號(hào),計(jì)算信號(hào)的信噪比等參數(shù)。在實(shí)際工程中,需要實(shí)現(xiàn)多路多頻點(diǎn)處信號(hào)的實(shí)時(shí)檢測(cè)和解調(diào),算法復(fù)雜度很高,僅用CPU無(wú)法達(dá)到理想的運(yùn)行性能,于是利用GPU的并行計(jì)算能力,在CUDA架構(gòu)下,利用CPU+GPU的異構(gòu)模型,將整個(gè)信號(hào)檢測(cè)方案按一定策略給CPU和GPU劃分任務(wù),由GPU完成多路多頻點(diǎn)下變頻的并行和雙重檢測(cè)算法的優(yōu)化,完成信號(hào)檢測(cè)后,信號(hào)數(shù)據(jù)量大大減少,然后在CPU上進(jìn)行信號(hào)的頻偏、相偏估計(jì)和解調(diào)處理。
圖1 非合作通信流程
突發(fā)信號(hào)檢測(cè)流程如圖2所示,首先需要把信號(hào)采樣率由Fs1變采樣到目標(biāo)采樣率Fs2,在目標(biāo)頻點(diǎn)進(jìn)行數(shù)字下變頻,由于突發(fā)信號(hào)的長(zhǎng)度和分布不同,需要進(jìn)行文件頭部數(shù)據(jù)的差分相關(guān)檢測(cè),滑動(dòng)的距離要大于最大的突發(fā)信號(hào)長(zhǎng)度。這是因?yàn)槿绻盘?hào)在讀入數(shù)據(jù)開(kāi)始時(shí)就一直持續(xù)存在,雙窗口能量檢測(cè)就會(huì)失效,會(huì)出現(xiàn)漏檢的問(wèn)題,檢測(cè)的目的是寧可錯(cuò)檢,也不漏檢。如果頭部并沒(méi)有檢測(cè)到信號(hào),則使用雙滑窗對(duì)信號(hào)進(jìn)行粗檢測(cè),標(biāo)記出信號(hào)的大概位置,以大概位置為中心,前后滑動(dòng)的位置作為起點(diǎn),分別進(jìn)行獨(dú)特碼字的差分相關(guān)檢測(cè),當(dāng)信號(hào)中的獨(dú)特碼和本地獨(dú)特碼[10]完全匹配對(duì)齊時(shí),相關(guān)峰值最大,從而得到突發(fā)信號(hào)的準(zhǔn)確位置。
圖2 突發(fā)信號(hào)檢測(cè)流程
通過(guò)設(shè)置2個(gè)連續(xù)滑動(dòng)窗口,分別計(jì)算窗口的接收能量,用能量比作為判決變量。經(jīng)典的雙滑動(dòng)窗口算法[11-13]原理如圖3所示。窗口An與Bn同時(shí)向前移動(dòng),其中An與Bn分別為窗口An與Bn的采樣點(diǎn)能量和。計(jì)算公式如下:
圖3 雙滑窗能量檢測(cè)
(1)
(2)
式中,L為窗口長(zhǎng)度;rn為第n個(gè)采樣點(diǎn)的值。Mn為這2個(gè)窗口的比值,公式如下:
(3)
當(dāng)Mn達(dá)到最大值Mmax時(shí),其中參數(shù)β為參考閾值,β的取值與信噪比有關(guān),且其大小會(huì)影響漏檢與虛檢概率,當(dāng)Mmax大于β時(shí)便可判斷信號(hào)的大概位置?;瑒?dòng)窗口的寬度與信號(hào)寬度有關(guān),一般取最小信號(hào)寬度。
本文研究的是TDMA信號(hào),精確地找到信號(hào)起點(diǎn)并進(jìn)行保存,對(duì)后續(xù)解調(diào)至關(guān)重要。經(jīng)過(guò)前面雙窗口的粗略檢測(cè)后,得到大概位置,以步長(zhǎng)1為間隔左右移動(dòng)后,將已知序列的獨(dú)特碼與偏移起點(diǎn)后的信號(hào)進(jìn)行歸一化相關(guān),暫存所得到的相關(guān)值和對(duì)應(yīng)的起點(diǎn),求得最大的相關(guān)值,若大于設(shè)定閾值,則更新對(duì)應(yīng)的準(zhǔn)確起點(diǎn)。
通過(guò)使用CoolEdit軟件查看衛(wèi)星信號(hào)的時(shí)頻圖,存在不同長(zhǎng)度的信號(hào),分布在不同的頻點(diǎn)且間隔較小,實(shí)際衛(wèi)星信號(hào)時(shí)頻域如圖4所示。根據(jù)通信協(xié)議,確定信號(hào)的時(shí)間長(zhǎng)度主要為5,20 ms和80,2.2 ms,可以分為幀頭式、幀頭幀尾式和分布式,如表1所示。
圖4 實(shí)際衛(wèi)星信號(hào)時(shí)頻域
表1 海事衛(wèi)星信號(hào)類型參數(shù)
TDMA信號(hào)幀結(jié)構(gòu)如圖5所示。
圖5 TDMA信號(hào)幀結(jié)構(gòu)
以分布式為例進(jìn)行說(shuō)明,分布式信號(hào)的定義為:信號(hào)的獨(dú)特碼數(shù)據(jù)以信號(hào)起點(diǎn)開(kāi)始,按照通信協(xié)議中規(guī)定的標(biāo)號(hào)位置,不均勻地分布在整幀信號(hào)當(dāng)中。
由于多普勒頻移的存在,衛(wèi)星接收到固定地球站發(fā)來(lái)的信號(hào),頻譜發(fā)生偏離,而衛(wèi)星轉(zhuǎn)發(fā)給移動(dòng)站的信號(hào),在移動(dòng)站收到后,也會(huì)產(chǎn)生一個(gè)頻率,當(dāng)頻偏超過(guò)500 Hz,僅做相關(guān)檢測(cè)的性能大大降低。為了減小多普勒頻移對(duì)信號(hào)檢測(cè)的影響,采用分段差分相關(guān)的檢測(cè)方法。
分段差分相關(guān)檢測(cè)算法[14]結(jié)合了直接相關(guān)檢測(cè)和差分相關(guān)檢測(cè)算法的優(yōu)點(diǎn),將接收信號(hào)和本地序列分割成了等長(zhǎng)的子序列,又將子序列分別直接相關(guān),子序列間相關(guān)結(jié)果進(jìn)行差分求和累加。設(shè)相關(guān)符號(hào)長(zhǎng)度L=M×N,其中子序列數(shù)為M,長(zhǎng)度為K。本地序列C={c0,c1,…,cM-1},其中cm={cm,0,cm,1,…,cm,K-1},cm,k=cmK+k表示第m子段中第k個(gè)本地符號(hào),經(jīng)變采樣[10-11]和下變頻后得到復(fù)基帶數(shù)據(jù)。以檢測(cè)的位置為起點(diǎn),按照通信協(xié)議標(biāo)記位置開(kāi)始取值組合,得到含噪信號(hào)為R={R0,R1,…,RM-1},其中Rm,0={rm,0,rm,1,…,rm,K-1},rm,k=rmK+k=smK+k+wmK+k,其中smK+k,wmK+k分別為采樣信號(hào)中第m段子序列信號(hào)中第k個(gè)符號(hào)精確采樣時(shí)刻的有用信號(hào)值、噪聲值。
設(shè)recm為第m段接收信號(hào)和本地符號(hào)子序列的直接相關(guān)結(jié)果:
(4)
檢測(cè)結(jié)果為:
(5)
對(duì)信號(hào)的識(shí)別結(jié)果取模值后進(jìn)行峰值搜索檢測(cè),其算法流程如圖6所示。
圖6 分段差分相關(guān)檢測(cè)算法流程
GPU內(nèi)存的訪問(wèn)遵循合并對(duì)齊原則[15],因?yàn)镚PU是以整個(gè)線程束為單位進(jìn)行調(diào)度,一個(gè)線程束包括32個(gè)線程,一個(gè)線程束訪問(wèn)一段連續(xù)內(nèi)存時(shí),就出現(xiàn)合并內(nèi)存,線程束的對(duì)齊與合并內(nèi)存訪問(wèn)模型如圖7所示。
圖7 內(nèi)存訪問(wèn)模型
將參與運(yùn)算的數(shù)據(jù)放到共享內(nèi)存中,運(yùn)算速度更快,例如計(jì)算窗口能量和時(shí),將窗口內(nèi)數(shù)據(jù)放到共享內(nèi)存。信號(hào)的獨(dú)特碼模板放在常量?jī)?nèi)存中,當(dāng)使用常量?jī)?nèi)存中的信號(hào)模板時(shí),NVDIA硬件將把單次內(nèi)存讀取操作廣播到每個(gè)半線程束。在半線程束中包含16個(gè)線程,是線程束中線程數(shù)量的一半,如果在半線程束中每個(gè)線程從常量?jī)?nèi)存的相同地址讀取模板數(shù)據(jù),那么GPU只會(huì)產(chǎn)生一次讀取請(qǐng)求并在隨后將數(shù)據(jù)廣播到每個(gè)線程;如果從常量?jī)?nèi)存中讀取大量數(shù)據(jù),這種方式產(chǎn)生的內(nèi)存流量只使用全局內(nèi)存的1/16。
為了大幅提升檢測(cè)性能,將雙滑窗能量檢測(cè)和基于獨(dú)特碼的分段差分相關(guān)檢測(cè)的雙重算法方案并行化處理,設(shè)計(jì)了多維度block和流架構(gòu)并行優(yōu)化多路多頻點(diǎn)的檢測(cè)。
雙滑動(dòng)窗口法主要的計(jì)算量在于每滑動(dòng)一次,都要分別計(jì)算2個(gè)滑動(dòng)窗口的能量和,而每次滑動(dòng)時(shí)要計(jì)算的數(shù)據(jù)都是相互獨(dú)立的[16],所以將算法在GPU中處理,用CUDA對(duì)其并行編程。
對(duì)于多路多頻點(diǎn)數(shù)據(jù)的同時(shí)處理,可以在block的X維度上劃分各路數(shù)據(jù)從而實(shí)現(xiàn)粗粒度上的并行,例如block.x0處理第1路數(shù)據(jù),block.x1處理第2路數(shù)據(jù),block.x(N-1)處理第N路數(shù)據(jù);在block的Y維度上劃分每一路的不同頻點(diǎn),例如block.y0處理第1個(gè)頻點(diǎn),block.y1處理第2個(gè)頻點(diǎn),block.y(M-1)處理第M個(gè)頻點(diǎn),然后在每個(gè)block上分配多個(gè)thread,每個(gè)block里所有的thread再按照放置數(shù)據(jù)的長(zhǎng)度等進(jìn)行細(xì)粒度上的并行處理,如圖8所示。
圖8 多路多頻點(diǎn)CUDA并行編程模型
使每個(gè)thread處理的信號(hào)能量比的點(diǎn)數(shù)最多支持2 048個(gè)float類型的點(diǎn),由于16 kB局部?jī)?nèi)存的限制,thread的數(shù)量等于輸入的基帶信號(hào)長(zhǎng)度減掉16 kB后除以16 kB。按照輸入的信號(hào)長(zhǎng)度為2 MB,計(jì)算可得每個(gè)頻點(diǎn)的突發(fā)數(shù)量最多允許128個(gè),例如窗口的長(zhǎng)度為WLEN,思路是先讓每個(gè)thread計(jì)算一個(gè)窗口長(zhǎng)度WLEN的數(shù)據(jù)能量和,并放置于共享內(nèi)存中,計(jì)算完成后再讓多線程去計(jì)算比值,最后找出第1個(gè)超出閾值的點(diǎn)進(jìn)行輸出,如圖9所示,其中參與運(yùn)算的信號(hào)數(shù)據(jù)都暫存在共享內(nèi)存中。
圖9 每個(gè)block處理流程
雙滑動(dòng)窗能量檢測(cè)出信號(hào)的粗略位置后,在對(duì)應(yīng)位置前后的范圍進(jìn)行獨(dú)特碼字的相關(guān)檢測(cè),檢測(cè)出第1個(gè)時(shí)隙信號(hào)的精確位置,即完成TDMA信號(hào)的時(shí)隙同步。以檢測(cè)出的第1個(gè)信號(hào)時(shí)隙為基礎(chǔ),每隔1個(gè)時(shí)隙做1次能量和差分相關(guān)檢測(cè),如果匹配到突發(fā)信號(hào)則截取輸出,這就是同步跟蹤過(guò)程[17]。
為了盡可能地把并行處理放到GPU中,設(shè)計(jì)了三維的block進(jìn)行處理,類比雙窗口能量檢測(cè)的線程優(yōu)化,將block的X維度作為路數(shù),并行處理每路的數(shù)據(jù),block的Y維度作為頻點(diǎn)數(shù),每路信號(hào)存在于不同的頻點(diǎn)處,需要數(shù)字下變頻后再檢測(cè),block的Z維度作為雙窗口能量檢測(cè)突發(fā)數(shù)量的最大值,一維thread的X維度為同步跟蹤起點(diǎn)的搜索范圍,設(shè)置為128。
分段差分相關(guān)檢測(cè)GPU工作流程如圖10所示。可以看到,把數(shù)據(jù)按照每一路讀進(jìn)內(nèi)存,每一路中包含有下變頻后不同頻點(diǎn)處的數(shù)據(jù)。通過(guò)前面能量檢測(cè)得到的信號(hào)粗略位置,在相關(guān)檢測(cè)過(guò)程中,以能量檢測(cè)的位置為基準(zhǔn),前后偏移64個(gè)點(diǎn),分別以偏移后的位置為信號(hào)起點(diǎn),偏移的點(diǎn)數(shù)可以根據(jù)具體GPU的性能來(lái)進(jìn)行分配,但數(shù)量應(yīng)為32的整數(shù)倍。這是由于設(shè)備是以整個(gè)線程束為單位進(jìn)行調(diào)度[18-19],如果不把線程塊上的線程數(shù)目設(shè)置成32的整數(shù)倍,則最后一個(gè)線程束中有一部分線程是沒(méi)有用的,會(huì)耗損多次內(nèi)存訪問(wèn)事務(wù)。
圖10 分段差分相關(guān)檢測(cè)GPU工作流程
每個(gè)新的起點(diǎn)分配一個(gè)線程,不同的起點(diǎn)處同時(shí)做差分相關(guān)檢測(cè),數(shù)據(jù)的I路和Q路存放在共享內(nèi)存中,分別與模板做乘加運(yùn)算,計(jì)算出相關(guān)值,在GPU中需要進(jìn)行同步操作,等待不同的線程全部處理結(jié)束,判斷出128個(gè)相關(guān)值中的最大值,超過(guò)規(guī)定閾值則截取保存信號(hào),更新信號(hào)準(zhǔn)確位置;否則,丟棄,繼續(xù)下一個(gè)準(zhǔn)確位置的檢測(cè)。
考慮到一個(gè)完整的信號(hào)因?yàn)閿?shù)據(jù)處理而被分割開(kāi),信號(hào)的起始點(diǎn)在上一段數(shù)據(jù)中,信號(hào)的結(jié)束點(diǎn)在下一段數(shù)據(jù)中,但可以把信號(hào)的起始點(diǎn)包含在緩存數(shù)據(jù)中,則在檢測(cè)過(guò)程中,信號(hào)在前一數(shù)據(jù)段的檢測(cè)中,判決達(dá)不到閾值而被丟棄,下一段數(shù)據(jù)中可以檢測(cè)出完整的信號(hào)。
在CUDA中使用多個(gè)流并行執(zhí)行可以進(jìn)一步提高計(jì)算性能,線程流中可以有多個(gè)線程塊,線程塊中可以有多個(gè)線程。上述使用的并行處理都是線程級(jí)別的,即CUDA開(kāi)啟多個(gè)線程,并行執(zhí)行核函數(shù)內(nèi)的代碼,而線程流可以處理多個(gè)函數(shù)和同一個(gè)函數(shù)的不同參數(shù)。
以整個(gè)信號(hào)檢測(cè)算法為例,原本程序的3大步驟是順序執(zhí)行的:先從主機(jī)拷貝初始化數(shù)據(jù)到GPU,再在GPU上執(zhí)行核函數(shù),數(shù)字下變頻濾波、雙窗口能量檢測(cè)以及差分匹配相關(guān),順序執(zhí)行,最后將計(jì)算結(jié)果從GPU拷貝到CPU,進(jìn)行解調(diào)。當(dāng)數(shù)據(jù)量很大時(shí),每個(gè)步驟的耗時(shí)很長(zhǎng),后面的步驟必須等前面執(zhí)行完畢才能繼續(xù),整體的耗時(shí)相當(dāng)長(zhǎng),當(dāng)每次讀入一路數(shù)據(jù)就達(dá)到幾十MB時(shí),多路讀入時(shí)主機(jī)和設(shè)備間拷貝將占用上百毫秒的時(shí)間,有可能要比核函數(shù)計(jì)算的時(shí)間要多。信號(hào)檢測(cè)流程處理架構(gòu)如圖11所示,可以將每一路數(shù)據(jù)用流來(lái)執(zhí)行,每一路再執(zhí)行多個(gè)頻點(diǎn)的同時(shí)信號(hào)檢測(cè),這樣也就是將上述第一維度用流來(lái)代替執(zhí)行,在每個(gè)線程流中同時(shí)執(zhí)行多個(gè)頻點(diǎn)的信號(hào)檢測(cè),其余分配方式不變,流水線并發(fā)執(zhí)行,性能會(huì)有很大的提升。
圖11 信號(hào)檢測(cè)流處理架構(gòu)
仿真條件:實(shí)際的衛(wèi)星信號(hào),符號(hào)速率為33.6 kHz,采樣速率為537.6 kHz,信號(hào)中心頻點(diǎn)出現(xiàn)在12.5 kHz附近,數(shù)字下變頻之后的信號(hào)如圖12所示,信噪比為6 dB,驗(yàn)證使用不同數(shù)據(jù)類型進(jìn)行相關(guān)檢測(cè)的性能,碼元/波形時(shí)域直接相關(guān)峰值如圖13所示。
(a)DDC信號(hào)的實(shí)部
(a)碼元時(shí)域直接相關(guān)
碼元/波形時(shí)域分段差分相關(guān)峰值如圖14所示。
(a)碼元時(shí)域差分相關(guān)
由仿真結(jié)果可知,波形相關(guān)檢測(cè)的效果更好,對(duì)噪聲的抑制能力更強(qiáng),分段差分相關(guān)相比于直接相關(guān)檢測(cè)具有更高的峰值比,易于閾值的設(shè)定,減小誤檢率,即使在較低信噪比的條件下,該算法依舊能較準(zhǔn)確地對(duì)信號(hào)起始位置進(jìn)行高效、精準(zhǔn)地定位,漏檢率低,滿足工程要求。
本次實(shí)驗(yàn)采用的平臺(tái)詳細(xì)配置如表2所示。
表2 實(shí)驗(yàn)平臺(tái)的配置
在不同的信噪比下,信號(hào)突發(fā)數(shù)恒為1 000幀的信號(hào)時(shí),60 MB的數(shù)據(jù)包,7個(gè)檢測(cè)頻點(diǎn),測(cè)試了單路和多路信號(hào)C代碼、多維度和流架構(gòu)的CUDA代碼,實(shí)驗(yàn)加速比如表3所示。實(shí)驗(yàn)表明,用CUDA對(duì)檢測(cè)算法進(jìn)行并行優(yōu)化的程序,在相同的信噪比條件下,單路速度提升約40倍,5路速度提升約60倍,10路速度提升約100倍,并且隨著處理路數(shù)越多,信號(hào)檢測(cè)頻點(diǎn)越多,CUDA加速越明顯,流架構(gòu)的使用更進(jìn)一步提升了檢測(cè)性能。
表3 實(shí)驗(yàn)加速比
另外,由信號(hào)的采樣率537.6 kHz和數(shù)據(jù)量60 MB可計(jì)算出信號(hào)的時(shí)間約為57 s,小于程序的處理時(shí)間,所以是實(shí)時(shí)處理的,同時(shí)可實(shí)現(xiàn)最高64路信號(hào)的實(shí)時(shí)檢測(cè)。
誤檢概率和漏檢概率如圖15和圖16所示,在信噪比相同的情況下,分段差分相關(guān)檢測(cè)的漏檢概率與誤檢概率要低于直接相關(guān)檢測(cè),當(dāng)信噪比達(dá)到7~8 dB時(shí),檢測(cè)方案非常實(shí)用且性能穩(wěn)定,達(dá)到10 dB時(shí)具有理想的漏檢概率和誤檢概率。
圖15 誤檢概率
圖16 漏檢概率
本文研究了非合作通信條件下突發(fā)信號(hào)的檢測(cè)算法,在GPU平臺(tái)上實(shí)現(xiàn)了多路多頻點(diǎn)衛(wèi)星信號(hào)的檢測(cè)并行化。利用分段差分的算法提高了信號(hào)檢測(cè)的準(zhǔn)確率,利用GPU的多線程結(jié)構(gòu)和流架構(gòu)對(duì)檢測(cè)算法并行化處理,從內(nèi)存訪問(wèn)事務(wù)和內(nèi)存存取方面進(jìn)一步提高了信號(hào)檢測(cè)的實(shí)時(shí)性,具有極大的靈活性,今后可以使用算力更強(qiáng)的GPU運(yùn)算,只需調(diào)整kernel函數(shù)的線程維度參數(shù),就可以發(fā)揮設(shè)備的最大潛力,進(jìn)一步提高檢測(cè)性能。