劉峻臣,胡 進,何航峰
(中國船舶重工集團公司第七二四研究所,南京 211106)
隨著電子信息技術(shù)的不斷發(fā)展,新的雷達體制和信號調(diào)制樣式相繼出現(xiàn),電子偵察面臨的電磁環(huán)境越來越復(fù)雜。如何在復(fù)雜的電磁環(huán)境中正確地分選出未知雷達信號,一直是電子偵察工作中的重點和難題。
聚類算法是數(shù)據(jù)挖掘中的一種重要算法,它能挖掘未知數(shù)據(jù)間的相關(guān)性,將性質(zhì)相似的數(shù)據(jù)歸為一類[1]。聚類作為一種無監(jiān)督的分類方法,很適合解決缺乏先驗信息的未知雷達信號的分類問題[2]。K-means聚類算法因收斂快、易于實現(xiàn)、思想簡單、不需要先驗信息在雷達信號分選中應(yīng)用比較廣泛[2]。但是傳統(tǒng)的K-means聚類算法需要人工設(shè)定聚類數(shù)目,并且對聚類中心敏感,從而影響了雷達信號分選準確率。對于聚類數(shù)目的確定,一般使用手肘法,但是并不是所有代價函數(shù)曲線都存在明顯的“肘部”,并且也無法解決算法對聚類中心敏感的問題。K-means++算法能夠更加合理地給出初始聚類中心,但是當數(shù)據(jù)量增加時,算法的初始化回變得很慢。為了實現(xiàn)對聚類數(shù)目和聚類中心的自動確定,文獻[3]使用數(shù)據(jù)場對雷達信號進行分選,能自動選取聚類中心和聚類個數(shù),但是需要手動設(shè)定影響因子;文獻[4]提出勢熵的概念,利用勢熵可以自動選取輻射因子,但是運算量較大。大部分數(shù)據(jù)場使用歐式距離進行計算[5-6],對分布多為矩形簇的雷達信號進行分選時容易發(fā)生錯誤。
本文對傳統(tǒng)的數(shù)據(jù)場方法進行改進,使用子空間劃分的方法快速確定影響因子,提高數(shù)據(jù)場的計算速度,并使用密度閾值清除信號交疊區(qū)域的網(wǎng)格;針對雷達信號的矩形簇分布,提出使用矩形等效距離替代歐氏距離的方法,從而更準確地獲得聚類數(shù)目和聚類中心,較好地實現(xiàn)了雷達信號的分選。
李德毅院士[7]參照傳統(tǒng)物理中場的定義,提出了數(shù)據(jù)場理論。數(shù)據(jù)場理論假定數(shù)據(jù)空間中的點都是具有一定質(zhì)量的粒子,每個數(shù)據(jù)粒子都會對周圍空間產(chǎn)生一定的作用效果,數(shù)據(jù)空間中其他數(shù)據(jù)點將受到該點場力的作用,同時該粒子也會受到其他粒子場力的作用。
設(shè)定已知空間Ω中包含有n個數(shù)據(jù)粒子集合D={x1,x2,…,xn},其中每一個數(shù)據(jù)粒子為m維向量xi={xi1,xi2,…,xim},即使用高斯影響函數(shù)來表示數(shù)據(jù)場中某一個數(shù)據(jù)點xa在數(shù)據(jù)中點xb產(chǎn)生的場強函數(shù)如下:
(1)
式中:σ表示影響因子,用來決定每個數(shù)據(jù)粒子的作用距離;m為每個數(shù)據(jù)粒子的等效質(zhì)量;d(xa,xb)為兩點之間的歐式距離。
數(shù)據(jù)場中所有數(shù)據(jù)粒子對xb產(chǎn)生的場強函數(shù)的和稱為勢函數(shù),定義如下:
(2)
由式(2)可知,勢值和距離成反比,即數(shù)據(jù)密集的地方勢值大,稀疏的地方勢值小。
雷達分選中一般使用雷達信號的脈沖描述字(Pulse Descriptor Word,PDW)作為分選依據(jù),PDW一般包含雷達的幅度(Pulse Amplitude,PA)、到達時間(Time of Arrival,TOA)、載頻(Radio Frequency,RF)、脈寬(Pulse Width,PW)、脈沖到達角(Direction of Arrival,DOA)[8]。其中,PA穩(wěn)定度不高,TOA在混疊的信號中無法直接作為分選依據(jù),因此本文使用RF、PW和DOA作為信號分選的參數(shù)。
現(xiàn)代雷達信號參數(shù)復(fù)雜多變,在載頻的調(diào)制上一般有固定載頻、載頻捷變、載頻滑變和載頻參差組變。其中,固定載頻由于存在系統(tǒng)測量誤差,在分布上呈現(xiàn)正態(tài)分布規(guī)律;載頻捷變?yōu)樾盘栞d頻在一個區(qū)間內(nèi)隨機變化,變化規(guī)律服從均勻分布;載頻參差組變?yōu)樾盘栍卸鄠€頻點,信號在每個頻點上持續(xù)一定時間,然后跳變到下一個頻點;載頻滑變的分布取決于滑變步長的大小,當步長較小時可看作與載頻捷變類似,步長較大時與載頻參差組變類似。脈寬的調(diào)制方式一般有固定脈寬、脈寬捷變,其分布規(guī)律與載頻相似。
雷達信號的到達角參數(shù)的改變僅取決于電子偵察系統(tǒng)與輻射源之間的相對位置,DOA的變化相對較慢,可以假設(shè)為一個勻速變化的過程。DOA參數(shù)的計算如下式所示:
DOA=DOAs+δ(t)。
(3)
式中:DOAs為初始的DOA參數(shù),δ(t)為目標的角度變化值。DOA的變化在分布上也可看作均勻分布。
為了對參數(shù)復(fù)雜多變的雷達信號進行研究,選擇信號的載頻、脈寬和到達角中任意兩種參數(shù)進行組合,得到可能的雷達信號參數(shù)組合如表1所示。
表1 雷達信號二維分布形式
為了直觀表現(xiàn)出雷達信號參數(shù)在二維空間上的分布特點,將表1中雷達信號的各種分布形式展示在二維平面上,如圖1所示。
圖1 雷達信號分布特征示意圖
結(jié)合表1和圖1可以看出,當雷達信號的兩個參數(shù)的調(diào)制類型為捷變或者參差組變時,雷達信號在二維空間上呈現(xiàn)出近似矩形簇的形態(tài)(如圖1中的分布1、分布3、分布5)。
傳統(tǒng)的數(shù)據(jù)場在計算時使用歐式距離,單個數(shù)據(jù)點產(chǎn)生的數(shù)據(jù)場的等勢線在二維空間中體現(xiàn)為以數(shù)據(jù)點為圓心、作用范圍為半徑的圓。當數(shù)據(jù)的分布近似圓形簇時,歐氏距離數(shù)據(jù)場分析可以取得較好的效果。當雷達信號為圖1中的分布1、分布3、分布5時,其分布形狀近似為矩形簇,使用歐氏距離數(shù)據(jù)場進行分析時,效果不太理想。為了提高數(shù)據(jù)場對矩形簇的雷達信號分析的效果,本文對數(shù)據(jù)場中的距離函數(shù)進行改進,使用矩形等效距離代替歐式距離,使得數(shù)據(jù)場中的單個數(shù)據(jù)點的作用范圍變?yōu)榫匦?,從而提高?shù)據(jù)場對雷達信號的分析能力。
以二維空間為例對數(shù)據(jù)空間中的單個數(shù)據(jù)點進行分析,單個數(shù)據(jù)點的空間分布如圖2所示。
圖2 矩形等效距離原理圖
假設(shè)改進的數(shù)據(jù)場中數(shù)據(jù)點產(chǎn)生的作用范圍為邊長為L的正方形。將正方形劃分為4個區(qū)域,求取每個區(qū)域的等效距離。假設(shè)數(shù)據(jù)點的坐標為(x1,y1),位于正方形邊長上的任意點為(x2,y2),則向量1可表示為(x2-x1,y2-y1)。利用向量1在x軸方向和y軸方向上的投影距離對正方形進行區(qū)域劃分:
(4)
對于不同的區(qū)域,分別求出其等效距離為
(5)
使用兩種距離函數(shù)的數(shù)據(jù)場對雷達矩形簇信號進行分析,如圖3所示。
圖3 數(shù)據(jù)場作用范圍對比
在影響因子相同的情況下,原始數(shù)據(jù)場和矩形數(shù)據(jù)場的作用范圍分別為直徑為2L的圓和邊長為2L的正方形。當數(shù)據(jù)分布為矩形簇時,有一部分數(shù)據(jù)會落在區(qū)域2中,對比數(shù)據(jù)場的作用范圍可知,原始數(shù)據(jù)場會將區(qū)域2中的數(shù)據(jù)點劃分到另外一類中,矩形數(shù)據(jù)場則會將這部分的數(shù)據(jù)點與中心數(shù)據(jù)點歸為一類,因此,對于數(shù)據(jù)分布為矩形簇的信號,使用改進的數(shù)據(jù)場能得到更好的分析效果,并且相對于原始的歐式距離,改進的距離函數(shù)在計算上只有減法和判斷,在運算速度上有所提高。
由式(2)可知,數(shù)據(jù)對象的作用距離與σ值的大小成正比。當σ值過小時,數(shù)據(jù)空間中的每個數(shù)據(jù)粒子都不能對其他數(shù)據(jù)粒子產(chǎn)生作用,每個數(shù)據(jù)粒子相互獨立,自成一類;當σ值過大時,整個數(shù)據(jù)場會只出現(xiàn)一個勢心。上述的兩種情況都不能準確反映數(shù)據(jù)空間中數(shù)據(jù)的分布情況,所以如何選擇一個合適的輻射因子值對數(shù)據(jù)場的構(gòu)建十分重要。
目前常用的影響因子選取方法有兩種。一種是根據(jù)經(jīng)驗,在數(shù)據(jù)量小于1 000時,選取影響因子為0.1,數(shù)據(jù)量增加一個數(shù)量級時,影響因子設(shè)定為0.05[1]。但使用這種方法設(shè)定影響因子不夠靈活,在對不同類型數(shù)據(jù)進行處理時容易出現(xiàn)錯誤。第二種方法為找到勢熵的最小值,利用勢熵的最小值來求取影響因子[4,9]。此方法可以較好地確定影響因子的值,但是運算量很大。
本文提出一種基于網(wǎng)格劃分的影響因子選取方法。首先根據(jù)數(shù)據(jù)總數(shù)N來確定每一維區(qū)間劃分個數(shù)K[10]:
(6)
式中:m為可調(diào)參數(shù),m取值越大,劃分網(wǎng)格數(shù)越少;m取值越小,劃分網(wǎng)格數(shù)越多,一般數(shù)據(jù)點數(shù)越多時,m取值越大,當數(shù)據(jù)量在100~10 000時m通常取值為2~4。歸一化后的數(shù)據(jù)空間的每個區(qū)間的邊長為
(7)
定義每個網(wǎng)格中包含的數(shù)據(jù)點個數(shù)為網(wǎng)格密度ρ,對被劃分到一個網(wǎng)格中的所有數(shù)據(jù)點的參數(shù)求平均值合成一個新的等效數(shù)據(jù)點,其等效質(zhì)量的數(shù)值設(shè)為網(wǎng)格密度ρ。在最后進行數(shù)據(jù)場計算時,使用等效數(shù)據(jù)點進行計算,進一步提高了數(shù)據(jù)場的計算速度。
完成網(wǎng)格劃分后,借鑒網(wǎng)格聚類原理,在進行數(shù)據(jù)場的計算時將兩個相鄰網(wǎng)格的數(shù)據(jù)點歸為同一個勢心。當兩個數(shù)據(jù)點的距離減小時,兩個數(shù)據(jù)點會被歸為一個勢心;當兩個數(shù)據(jù)點的距離增加時,兩個數(shù)據(jù)點會被劃分為兩個勢心。兩個數(shù)據(jù)點疊加的勢F為
(8)
式中:l為單個網(wǎng)格的邊長,d為與數(shù)據(jù)點的距離。兩個數(shù)據(jù)點的勢函數(shù)在l=d時相交,當交點的勢為最大值時,兩個數(shù)據(jù)點會被歸為一個勢心。用式(8)對d求一階偏導(dǎo):
(9)
當l=d時,式(9)等于0。用式(8)對d求二階偏導(dǎo),可得
(10)
在l=d點解得式(10)嚴格小于0的條件為d<σ,此時F在l=d處取得最大值,因此利用子空間的邊長l可以確定影響因子為
σ=1.01×l。
(11)
數(shù)據(jù)場算法的本質(zhì)是基于密度的聚類算法。在兩個信號交疊的時候,交疊處的密度大于兩個信號本身的密度,數(shù)據(jù)場算法很容易將兩個信號聚類為一個勢心,因此本文在網(wǎng)格劃分的基礎(chǔ)上對信號交疊部分的網(wǎng)格進行處理。首先對2.3節(jié)中每一個帶數(shù)據(jù)的網(wǎng)格求取平均得到平均網(wǎng)格密度ρmean為
(12)
式中:N為帶數(shù)據(jù)的網(wǎng)格總數(shù),ρi為單個網(wǎng)格的密度。利用網(wǎng)格中數(shù)據(jù)密度的標準差S來設(shè)置密度閾值,將密度大于平均密度兩倍標準差的網(wǎng)格清除,因此密度閾值ρthreshold的設(shè)定如下:
ρthreshold=ρmean+2×S。
(13)
2.5.1 數(shù)據(jù)預(yù)處理
本文使用RF、PW和DOA作為信號分選的參數(shù)。為了確保聚類算法不受量綱的影響,多維數(shù)據(jù)聚類時需要對數(shù)據(jù)進行歸一化處理。假設(shè)需要對N個PDW進行分選,其歸一化過程如下:
(14)
式中:i表示PDW的第i維參數(shù),i=1,2,3;j表示第j個數(shù)據(jù),j=1,2,…,N。
2.5.2 算法流程
首先對信號PDW進行歸一化處理,然后使用網(wǎng)格劃分方法對數(shù)據(jù)空間進行劃分,根據(jù)網(wǎng)格的長度確定數(shù)據(jù)場的影響因子,并且對交疊的高密度網(wǎng)格進行清除處理,通過矩形數(shù)據(jù)場的分布獲得聚類數(shù)目和初始聚類中心,最終使用K-means均值算法完成信號分選。算法的總體流程如圖4所示。
圖4 算法總體流程圖
為了測試矩形數(shù)據(jù)場對雷達信號的分析效果,使用原始數(shù)據(jù)場和矩形數(shù)據(jù)場分別對圖1中5種分布的數(shù)據(jù)進行分析測試,其中數(shù)據(jù)場的影響因子范圍設(shè)置為0.01~0.15,增加步長為0.01,結(jié)果如表2所示。
表2 數(shù)據(jù)場對比測試效果
由表2可以得出,當數(shù)據(jù)為分布1、分布3和分布5時,矩形數(shù)據(jù)場比原始數(shù)據(jù)場更快收斂到正確的勢心個數(shù);當數(shù)據(jù)為分布2和分布4時,矩形數(shù)據(jù)場和原始數(shù)據(jù)場保持相近的分析能力,因此使用矩形場對雷達信號進行分析時可以獲得比原始數(shù)據(jù)場更好的分析效果。
本文使用Matlab對算法進行仿真驗證,仿真信號參數(shù)如表3所示,并且在仿真時對各個參數(shù)加入一定的高斯測量誤差。
表3 仿真信號參數(shù)
對仿真的雷達信號分別使用原始數(shù)據(jù)場和改進后數(shù)據(jù)場進行計算,其中原始數(shù)據(jù)場的影響因子取值為0.03,改進后數(shù)據(jù)場的網(wǎng)格劃分參數(shù)m取值為4,得到的數(shù)據(jù)場二維圖如圖5~7所示。
(a)原始數(shù)據(jù)場
(b)改進數(shù)據(jù)場圖5 載頻和脈寬數(shù)據(jù)場二維圖
(a)原始數(shù)據(jù)場
(b)改進數(shù)據(jù)場圖6 載頻和方位角數(shù)據(jù)場二維圖
(a)原始數(shù)據(jù)場
(b)改進數(shù)據(jù)場圖7 脈寬和方位角數(shù)據(jù)場二維圖
根據(jù)數(shù)據(jù)場的定義可知,影響因子取值越大,單個數(shù)據(jù)點的作用范圍越大,數(shù)據(jù)場的勢心數(shù)減少;影響因子取值越小,單個數(shù)據(jù)點的作用范圍越小,數(shù)據(jù)場的勢心數(shù)增加。由圖5(a)中可以看出,雷達4被數(shù)據(jù)場分為了兩個勢心,如果需要使數(shù)據(jù)場中的雷達4變?yōu)?個勢心,則需要增大影響因子的值,但此時雷達2和雷達3被劃分為一個勢心,要使其被數(shù)據(jù)場分為兩個勢心,則需要減小影響因子的值,與雷達4的劃分需求矛盾,圖6(a)和圖7(a)均存在類似問題。由圖5(b)、圖6(b)和圖7(b)可以看出,對于同樣的雷達信號,改進的數(shù)據(jù)場方法相比于傳統(tǒng)方法,可以更好地確定雷達的數(shù)目和聚類中心。
使用手肘法(聚類個數(shù)范圍設(shè)定為1~7),傳統(tǒng)數(shù)據(jù)場(影響因子與改進數(shù)據(jù)場求得的影響因子0.063 1保持一致)和改進數(shù)據(jù)場對雷達信號進行100次蒙特卡洛實驗,得到結(jié)果如表4所示。
表4 聚類個數(shù)算法迭代時間
由表4可以看出,手肘法因為需要使用多個k值(聚類個數(shù))進行聚類和計算損失值,運算速度最慢;改進的數(shù)據(jù)場方法因只需要對網(wǎng)格合并后的數(shù)據(jù)點進行計算,并且避免了歐氏距離的計算,運算速度最快。取數(shù)據(jù)場計算后的峰值(勢心個數(shù))作為聚類個數(shù),可以得到數(shù)據(jù)的聚類個數(shù)為5個,得到聚類中心如表5所示。
表5 初始聚類中心
使用5作為K-means算法的聚類數(shù)目,表5中的參數(shù)作為K-means算法的初始聚類中心,對雷達信號進行100次蒙特卡洛實驗,對分選正確率和運行時間取平均值,對比原始K-means算法和K-means++算法,得到的結(jié)果如表6所示。
表6 算法準確率與運行時間對比
由表6可以看出,改進后算法相比于傳統(tǒng)的K-means算法,雖然運行時間有所增加,但是算法的迭代次數(shù)減少,分選準確率更高;K-means++算法雖然有較高的準確率,但是運行速度很慢。K-means算法、K-means++算法和本文算法的迭代次數(shù)折線圖(運行30次)如圖8所示。
圖8 算法迭代次數(shù)對比
由圖8可以看出,改進的數(shù)據(jù)場算法在提供了聚類數(shù)目和初始聚類中心后,算法的迭代次數(shù)趨于穩(wěn)定,只提供聚類數(shù)目的K-means算法和K-means++算法的迭代次數(shù)不夠穩(wěn)定,每次運行的迭代次數(shù)變化較大。
本文針對雷達信號的特點,對傳統(tǒng)的數(shù)據(jù)場算法進行改進,使用矩形等效距離替代原始歐式距離,并且利用網(wǎng)格劃分的方法,快速確定影響因子,清除信號交疊處的高密度網(wǎng)格,最后結(jié)合K-means算法對信號進行聚類分選。仿真實驗表明,網(wǎng)格劃分數(shù)據(jù)場算法能更好地求取聚類個數(shù)和聚類中心,并且能夠減少K-means算法的迭代次數(shù),提高數(shù)據(jù)場計算速度和分選準確率,具有一定的參考價值。但文中只給定了網(wǎng)格劃分中m參數(shù)的選取策略,對于m參數(shù)的自動化選取還有待進一步研究。