劉安邦 施賽楠 楊靜 曹鼎
海面小目標(biāo)(浮冰、小船、蛙人、飛機(jī)殘骸等)已成為海洋雷達(dá)探測(cè)的主要對(duì)象[1-3],海面小目標(biāo)探測(cè)在海上救援、海洋防衛(wèi)、海上突擊等方面具有重要意義.通常,海面小目標(biāo)的回波較弱,往往被淹沒(méi)在強(qiáng)海雜波背景下.由于小目標(biāo)的信雜比(Signal-to-Clutter Ratio,SCR)低,傳統(tǒng)的檢測(cè)器會(huì)出現(xiàn)檢測(cè)概率低、虛警點(diǎn)多等問(wèn)題.
在雷達(dá)信號(hào)處理中,長(zhǎng)時(shí)累積技術(shù)是提升小目標(biāo)SCR的有效途徑.在秒級(jí)長(zhǎng)時(shí)觀測(cè)下,海雜波具有復(fù)雜的空時(shí)變特性[4-5].同時(shí),小目標(biāo)的功率不再保持恒定,具有起伏特性.從海雜波幅度非線性建模出發(fā),Hu等[6]提出了基于Hurst指數(shù)的檢測(cè)器,利用海雜波和目標(biāo)回波在多尺度分形特性上的差異性,實(shí)現(xiàn)了單特征檢測(cè).通過(guò)對(duì)時(shí)域數(shù)據(jù)進(jìn)行經(jīng)驗(yàn)?zāi)B(tài)分解、重構(gòu)和去噪等預(yù)處理,張林等[7]提出了基于變換域分形特性的檢測(cè)器.從多特征聯(lián)合角度出發(fā),Shui等[8]提出了基于三特征的檢測(cè)器,聯(lián)合一個(gè)時(shí)域幅度特征和兩個(gè)頻域多普勒幾何特征,在三維特征空間中,該檢測(cè)器采用快速凸包學(xué)習(xí)算法,獲得虛警可控的判決區(qū)域.而Shi等[9]提出了基于時(shí)頻三特征的檢測(cè)器,充分挖掘了目標(biāo)和海雜波在時(shí)頻域的精細(xì)化幾何特征,包括頻譜的波動(dòng)性和分散性.考慮不同特征對(duì)不同數(shù)據(jù)的敏感性,聯(lián)合使用更多互補(bǔ)特征成為進(jìn)一步提高檢測(cè)性能的有效途徑.
在高維特征空間中,目標(biāo)檢測(cè)的主要難點(diǎn)是設(shè)計(jì)虛警可控的分類(lèi)器.目前,主要有兩條途徑可以實(shí)現(xiàn)高維分類(lèi)器設(shè)計(jì).第一條途徑是特征壓縮,將高維分類(lèi)器簡(jiǎn)化為低維分類(lèi)器.通過(guò)沿著一類(lèi)最大方差方向投影到低維空間中,Gu[10]提出了基于主成分分析(Principle Component Analysis,PCA)的三特征檢測(cè)器.基于兩類(lèi)最大距離的壓縮,Shui等[11]提出了基于B氏距離的特征壓縮檢測(cè)器.但是,特征壓縮勢(shì)必會(huì)帶來(lái)部分性能損失.第二條途徑是設(shè)計(jì)高維分類(lèi)器.郭子薰等[12]提出了改進(jìn)的KNN算法,實(shí)現(xiàn)高維判決區(qū)域劃分.通過(guò)調(diào)節(jié)參數(shù)實(shí)現(xiàn)虛警控制,Zhou等[13]提出了基于決策樹(shù)的特征檢測(cè)器.這些檢測(cè)器保證了高維信息量,但高維分類(lèi)器需要遍歷搜索參數(shù)以滿足給定虛警率,導(dǎo)致計(jì)算量大且控制不準(zhǔn)確.因此,亟需設(shè)計(jì)虛警可控且計(jì)算復(fù)雜度低的高維分類(lèi)器.
為了滿足實(shí)際雷達(dá)快速檢測(cè)的需求,本文引入梯度提升樹(shù)(Gradient Boosting Decision Tree,GBDT)[14-15]算法,快速獲得高維域虛警可控的二分類(lèi)器.GBDT分類(lèi)器集成了多個(gè)弱分類(lèi)器,具有顯著的泛化性能以及更高的分類(lèi)準(zhǔn)確度.首先,將從時(shí)域、頻域、時(shí)頻域提取的多維特征作為GBDT分類(lèi)器的輸入,獲得屬于一類(lèi)的概率預(yù)測(cè)值.然后,將之作為檢測(cè)統(tǒng)計(jì)量,獲得虛警可控的判決門(mén)限.最后,基于實(shí)測(cè)數(shù)據(jù)的實(shí)驗(yàn)結(jié)果表明:所提出的檢測(cè)器能快速獲得判決門(mén)限,實(shí)現(xiàn)海面小目標(biāo)檢測(cè)性能提升的目標(biāo).
假設(shè)雷達(dá)接收到某個(gè)距離單元的N個(gè)連續(xù)脈沖,構(gòu)成觀測(cè)向量z=[z(1),z(2),…,z(N)]T.若觀測(cè)向量只包含雜波,則稱H0假設(shè);若觀測(cè)向量由目標(biāo)回波和雜波組成,則稱H1假設(shè).因此,傳統(tǒng)的雷達(dá)目標(biāo)檢測(cè)問(wèn)題歸結(jié)為二元假設(shè)檢驗(yàn):
(1)
其中:z和zk分別表示待檢測(cè)距離單元(Cell Under Test,CUT)以及周?chē)鶮個(gè)參考距離單元的回波向量,為CUT提供雜波信息;c表示海雜波;s表示目標(biāo)回波;ck表示第k個(gè)距離單元為海雜波.
事實(shí)上,檢測(cè)的本質(zhì)就是判斷觀測(cè)向量屬于哪種假設(shè).通常,傳統(tǒng)的檢測(cè)方法基于單個(gè)域特性設(shè)計(jì)統(tǒng)計(jì)量,存在小目標(biāo)檢測(cè)概率低、虛警點(diǎn)高的問(wèn)題.基于多特征聯(lián)合的檢測(cè)方法主要是利用海雜波和含目標(biāo)回波在多個(gè)域的差異性,并將這些差異性轉(zhuǎn)變?yōu)樘卣?實(shí)現(xiàn)高維特征域目標(biāo)檢測(cè).
為了充分利用觀測(cè)向量的信息,本文從時(shí)域、頻域、時(shí)頻域3個(gè)域提取7個(gè)特征,分別記為δ1,δ2,…,δ7,如表1所示.在時(shí)域,提取Hurst指數(shù)[6]和相對(duì)平均幅度[8],分別反映幅度的幾何粗糙度和能量特性.在頻域,提取相對(duì)多普勒峰高[8]和相對(duì)向量熵[8],分別反映海雜波和含目標(biāo)回波在頻譜寬度、聚集度方面的差異性.在時(shí)頻域,提取脊能量[9]、連通區(qū)域數(shù)目[9]和最大連通區(qū)域尺寸[9],進(jìn)一步精細(xì)化動(dòng)態(tài)頻譜的幾何特性.此外,表1給出了2種假設(shè)在不同特征下相對(duì)取值的大小,這與海雜波和含目標(biāo)回波的差異性有關(guān).
表1 7個(gè)特征描述
考慮到不同特征的取值范圍不同,對(duì)每個(gè)特征作歸一化預(yù)處理,保證所有特征投影到相同的尺度上.對(duì)于第i個(gè)特征,假設(shè)獲得H0假設(shè)下Q個(gè)樣本,歸一化定義為
(2)
其中,μi表示第i個(gè)特征的均值.
下面,構(gòu)建高維特征空間.為了保證信息的充分運(yùn)用,將每個(gè)特征作為一個(gè)維度,構(gòu)建七維特征空間.此時(shí),觀測(cè)向量轉(zhuǎn)換為歸一化特征向量為
(3)
在高維特征空間中,式(1)中的目標(biāo)檢測(cè)問(wèn)題轉(zhuǎn)化為二分類(lèi)檢測(cè)問(wèn)題,即:
(4)
第一類(lèi)為H0假設(shè),觀測(cè)向量只含雜波;第二類(lèi)為H1假設(shè),觀測(cè)向量含有目標(biāo)回波.因此,高維特征域中分類(lèi)問(wèn)題的核心在于設(shè)計(jì)一個(gè)具有虛警可控的二分類(lèi)器.
基于虛警可控GBDT(False-Alarm-Controllable GBDT,FAC-GBDT)檢測(cè)器的流程如圖1所示.整個(gè)檢測(cè)結(jié)構(gòu)包括在線檢測(cè)分支和離線訓(xùn)練分支兩部分.在檢測(cè)分支,首先,CUT的觀測(cè)向量通過(guò)時(shí)域、頻域、時(shí)頻域提取多個(gè)特征,并歸一化預(yù)處理,去除不同尺度的影響;其次,構(gòu)建高維特征向量,作為GBDT分類(lèi)器的輸入;然后,將GBDT分類(lèi)器輸出的概率預(yù)測(cè)值,作為統(tǒng)計(jì)量;最后,統(tǒng)計(jì)量和門(mén)限進(jìn)行比較,獲得最終的判決結(jié)果.
圖1 FAC-GBDT檢測(cè)器的流程Fig.1 Flowchart of FAC-GBDT detector
在訓(xùn)練分支,兩類(lèi)均衡訓(xùn)練樣本用于訓(xùn)練學(xué)習(xí),獲得GBDT模型的最優(yōu)參數(shù)和給定虛警率下的判決門(mén)限.通常,由于小目標(biāo)的空間稀疏性以及軍事保密性,海雜波數(shù)據(jù)可大量獲得但含目標(biāo)回波數(shù)據(jù)極其稀少.為了提升二分類(lèi)器的分類(lèi)準(zhǔn)確度,兩類(lèi)的訓(xùn)練樣本數(shù)目應(yīng)當(dāng)均衡.因此,在H1假設(shè)下,觀測(cè)回波建模[10,12]為
z(n|H1)=c(n)+ρ(n)10RSC/20×
(5)
其中:c是實(shí)測(cè)海雜波,來(lái)自H0假設(shè)下的訓(xùn)練數(shù)據(jù);ρ是均值為1的相關(guān)序列,描述目標(biāo)起伏特性;RSC為信雜比(SCR)的值;λ是雷達(dá)波長(zhǎng);Tr是雷達(dá)的脈沖重復(fù)周期;|a|≤2是目標(biāo)的加速度;φ0∈[-π,π]是初始相位;|v0|≤5是目標(biāo)的初始速度.
在實(shí)際工作中,海洋雷達(dá)更關(guān)注的是在線檢測(cè)時(shí)間.由于GBDT模型參數(shù)可離線訓(xùn)練獲得,因而不影響雷達(dá)實(shí)時(shí)檢測(cè).此外,當(dāng)探測(cè)環(huán)境發(fā)生變化時(shí),可啟動(dòng)離線訓(xùn)練分支.通過(guò)收集當(dāng)前海雜波數(shù)據(jù),重新學(xué)習(xí)模型的最優(yōu)參數(shù).FAC-GBDT檢測(cè)器具有的這種動(dòng)態(tài)更新模式,可以實(shí)現(xiàn)對(duì)海洋環(huán)境的恒虛警特性.
在高維特征空間中,K近鄰、決策樹(shù)、支持向量機(jī)等機(jī)器學(xué)習(xí)方法都可以實(shí)現(xiàn)二分類(lèi).但是,上述分類(lèi)器自身無(wú)法控制虛警率,只能通過(guò)建立某個(gè)參數(shù)和虛警率的關(guān)系,進(jìn)行全局搜索獲得給定虛警率下的參數(shù)值[12-13].這類(lèi)方法明顯計(jì)算量大,且參數(shù)精度設(shè)置對(duì)虛警精準(zhǔn)度有較大的影響.因此,本文引入GBDT算法,無(wú)需搜索參數(shù)且能精準(zhǔn)控制虛警率.
圖2給出了GBDT模型的結(jié)構(gòu)[14-15],以Cart回歸樹(shù)作為基本的弱分類(lèi)器,通過(guò)多個(gè)弱分類(lèi)器級(jí)聯(lián),獲得魯棒性更高的分類(lèi)結(jié)果.GBDT算法核心是一種貪婪最優(yōu)策略,通過(guò)不斷減小訓(xùn)練過(guò)程產(chǎn)生的殘差來(lái)達(dá)到準(zhǔn)確分類(lèi).在訓(xùn)練弱分類(lèi)器的過(guò)程中,準(zhǔn)則是最小化損失函數(shù).這里,定義損失函數(shù)為
圖2 GBDT模型結(jié)構(gòu)Fig.2 GBDT model structure
L(y,f(x))=ylog(1+e-f(x))+
(1-y)(f(x)+log(1+e-f(x)),
(6)
其中,y∈{0,1}表示x的真實(shí)標(biāo)簽值,f(x)是y的預(yù)測(cè)值.
在GBDT分類(lèi)器訓(xùn)練時(shí),假設(shè)H0假設(shè)下有Q個(gè)向量樣本,標(biāo)簽為0;H1假設(shè)下有Q個(gè)向量樣本,標(biāo)簽為1.因此,在7D特征空間中,輸入訓(xùn)練集Ω為
Ω={(x1,y1),(x2,y2),…,(x2Q,y2Q)},
xq∈R7,yq∈{0,1}.
(7)
下面,給出GBDT算法的具體步驟.
步驟1.初始化.根據(jù)訓(xùn)練集Ω,初始預(yù)測(cè)值為
(8)
步驟2.生成第m棵Cart回歸樹(shù).首先,對(duì)于第q個(gè)樣本,計(jì)算損失函數(shù)的負(fù)梯度,即殘差值
(9)
然后,通過(guò)擬合殘差值gm,q,得到第m棵樹(shù)的葉子節(jié)點(diǎn)區(qū)域?yàn)镽m,j,j=1,2,…,Jm,其中,Jm是第m棵樹(shù)葉子節(jié)點(diǎn)的個(gè)數(shù).通過(guò)最小化損失函數(shù),計(jì)算第j個(gè)葉子節(jié)點(diǎn)的最佳擬合值cm,j:
(10)
最后,更新預(yù)測(cè)值為
(11)
其中,ν∈[0,1]是學(xué)習(xí)率,用于控制過(guò)擬合度.
步驟3.更新迭代.重復(fù)步驟2,最終生成M棵Cart回歸樹(shù).第M棵樹(shù)的輸出,即最終的預(yù)測(cè)值為
(12)
至此,可以獲得GBDT的最優(yōu)模型參數(shù).
為了獲得虛警可控的二分類(lèi)器,將輸入x預(yù)測(cè)為正樣本的概率
(13)
作為統(tǒng)計(jì)量ξ.借助蒙特卡羅實(shí)驗(yàn)方法[8-13],將H0假設(shè)下Q個(gè)樣本帶入具有最優(yōu)模型參數(shù)的GBDT分類(lèi)器中,按照式(13)計(jì)算獲得Q個(gè)統(tǒng)計(jì)量,記為ξ1,ξ2,…,ξQ.并且,這些統(tǒng)計(jì)量按照值從大到小進(jìn)行排序.那么,在給定虛警率Pfa下,判決門(mén)限為
γ=ξ[Q×Pfa],
(14)
其中,[]表示取整數(shù).
圖3演示了虛警可控門(mén)限的獲取過(guò)程,設(shè)置Pfa=10-3,則11 231個(gè)海雜波樣本中存在11個(gè)虛警點(diǎn).但是,傳統(tǒng)分類(lèi)器輸出以γ=0.5為分界線(即黑色線),存在39個(gè)虛警點(diǎn),虛警率為0.003.這就意味著門(mén)限γ=0.5無(wú)法保證分類(lèi)器獲得設(shè)定的虛警率.因此,調(diào)整門(mén)限位置至紅色直線位置,精確保證虛警點(diǎn)個(gè)數(shù)為11個(gè).因此,通過(guò)調(diào)整判決門(mén)限,達(dá)到設(shè)定的虛警率,即虛警可控,實(shí)現(xiàn)檢測(cè)器的恒虛警特性.
圖3 虛警可控判決門(mén)限的演示Fig.3 Demonstration of false-alarm-controllable decision threshold
實(shí)測(cè)數(shù)據(jù)來(lái)自1993年采集的IPIX雷達(dá)目標(biāo)數(shù)據(jù)庫(kù)(http:∥soma.mcmaster.ca∥ipix.php.2012.10.11),該數(shù)據(jù)庫(kù)是目前公認(rèn)的小目標(biāo)測(cè)試數(shù)據(jù)庫(kù).實(shí)驗(yàn)采用10組數(shù)據(jù),每組數(shù)據(jù)包含14個(gè)距離單元、217個(gè)脈沖數(shù).雷達(dá)工作頻率為9.3 GHz,工作在駐留模式,脈沖重復(fù)頻率fr=1 000 Hz,距離分辨率30 m.測(cè)試目標(biāo)為被金屬絲包裹的小球,直徑為1 m,可視為漂浮低速運(yùn)動(dòng)小目標(biāo).每組數(shù)據(jù)涉及多種海洋環(huán)境且SCR起伏較大,具體參照文獻(xiàn)[8-10].
在高維特征空間中,GBDT分類(lèi)器的性能影響著后續(xù)的檢測(cè)結(jié)果.因此,有必要對(duì)分類(lèi)器性能進(jìn)行分析.圖4演示了二維特征空間中GBDT分類(lèi)器的區(qū)域劃分過(guò)程.對(duì)比第1棵Cart回歸樹(shù)和第15棵Cart回歸樹(shù)的結(jié)果,判決區(qū)域明顯具有較好的劃分.隨著Cart回歸樹(shù)的增加,判決區(qū)域不斷地在優(yōu)化和更新,驗(yàn)證了集成多個(gè)弱分類(lèi)器的性能優(yōu)勢(shì).此外,總的判決區(qū)域?yàn)榉蔷€性邊界,適用于非線性的兩類(lèi)樣本分類(lèi)情況.
圖4 GBDT二分類(lèi)區(qū)域劃分過(guò)程Fig.4 Division process of dichotomy region in GBDT
圖5討論了Cart回歸樹(shù)數(shù)目M和回歸樹(shù)的最大深度D對(duì)檢測(cè)概率的影響.在圖5a中,隨著M的增大,檢測(cè)概率上升,這體現(xiàn)了弱檢測(cè)器集成的優(yōu)勢(shì).但是,這種性能優(yōu)勢(shì)在M>12以后,檢測(cè)概率趨于穩(wěn)定.在圖5b中,當(dāng)回歸樹(shù)的深度D<5時(shí),檢測(cè)性能波動(dòng)性大.因此,綜合考慮計(jì)算量和性能,設(shè)置參數(shù)M=15,D=7.
圖5 Cart回歸樹(shù)參數(shù)對(duì)檢測(cè)性能的影響Fig.5 Parameter influence of Cart regression tree on detection performance
實(shí)驗(yàn)中,設(shè)定Pfa=10-3,脈沖累積數(shù)N=512(即觀測(cè)時(shí)間0.512 s).由于10組數(shù)據(jù)都含有目標(biāo),因而對(duì)每組不同極化下數(shù)據(jù)進(jìn)行獨(dú)立檢測(cè).在訓(xùn)練分支中,從純雜波單元和按式(5)產(chǎn)生的含目標(biāo)回波中,獲取兩類(lèi)均衡訓(xùn)練樣本,構(gòu)建訓(xùn)練集Ω.在檢測(cè)分支中,從目標(biāo)單元中提取特征向量,計(jì)算檢測(cè)概率.圖6中給出了4種檢測(cè)器在10組數(shù)據(jù)下的檢測(cè)結(jié)果,橫軸表示數(shù)據(jù)名稱.可以發(fā)現(xiàn),檢測(cè)概率最低的是基于Hurst指數(shù)的檢測(cè)器[6],HH、HV、VH、VV極化下平均檢測(cè)概率分別為0.248、0.351、0.351、0.290.這意味著該檢測(cè)器無(wú)法探測(cè)到小目標(biāo),主要原因在于只利用了幅度信息,且觀測(cè)時(shí)間未達(dá)到幾秒以上.基于三特征的檢測(cè)器[8]聯(lián)合了時(shí)域和頻域的特性,4種極化下的平均檢測(cè)概率分別為0.534、0.622、0.619、0.518,性能得到大幅度提升.對(duì)于基于時(shí)頻三特征的檢測(cè)器[9],4種極化下的平均檢測(cè)概率分別為0.698、0.699、0.698、0.614.相對(duì)于三特征的檢測(cè)器[8]性能平均提升18%,特別是后5組數(shù)據(jù),性能提升明顯.對(duì)于提出的FAC-GBDT檢測(cè)器,4種極化下的平均檢測(cè)概率為0.774、0.777、0.789、0.733,相對(duì)于時(shí)頻三特征的檢測(cè)器[9]性能提升13%.此外,可以明顯看到,FAC-GBDT檢測(cè)器的檢測(cè)概率在不同數(shù)據(jù)、不同極化下都具有最佳的性能.這主要源于檢測(cè)器采用了7個(gè)特征,充分利用了多個(gè)域的信息,而且具有較好的穩(wěn)健性能.
圖6 4種檢測(cè)器的性能對(duì)比(N=512,Pfa=10-3)Fig.6 Performance comparison between four detectors
下面,討論觀測(cè)時(shí)間對(duì)檢測(cè)性能的影響.表2列出了N=512和N=1 024兩種情況下的平均檢測(cè)概率,對(duì)應(yīng)觀測(cè)時(shí)間為0.512 s和1.024 s.從表2中,得到以下3個(gè)結(jié)論:
表2 不同觀測(cè)時(shí)間下4種檢測(cè)器性能對(duì)比
1)所有檢測(cè)器在更長(zhǎng)的觀測(cè)時(shí)間下,檢測(cè)性能均有所提升.這驗(yàn)證了長(zhǎng)時(shí)累積是提升小目標(biāo)的檢測(cè)性能的有效途徑.
2)FAC-GBDT檢測(cè)器具有最優(yōu)的檢測(cè)結(jié)果,這是因?yàn)槁?lián)合了時(shí)域、頻域以及時(shí)頻域的7維特征,能夠充分利用海雜波和含目標(biāo)回波在多域的差異性.
3)當(dāng)觀測(cè)時(shí)間增加1倍后,FAC-GBDT檢測(cè)器沒(méi)有其他3個(gè)檢測(cè)器性能提升多.這是因?yàn)楹?組數(shù)據(jù)的檢測(cè)存在“天花板效應(yīng)”.在觀測(cè)時(shí)間為0.512 s時(shí),FAC-GBDT檢測(cè)器的檢測(cè)概率已經(jīng)接近于1,因此性能提升空間有限.
本文提出一種高維特征域FAC-GBDT檢測(cè)器,能充分利用時(shí)域、頻域、時(shí)頻域多個(gè)域的特征信息.通過(guò)將GBDT分類(lèi)器的一類(lèi)概率值作為統(tǒng)計(jì)量,能快速獲得判決門(mén)限,解決了高維分類(lèi)器虛警率難以控制的問(wèn)題.后續(xù)可進(jìn)一步優(yōu)化分類(lèi)器模型參數(shù),滿足海洋雷達(dá)在復(fù)雜海洋環(huán)境下穩(wěn)健且快速探測(cè)的需要.