趙貴喜,穆成新,劉永波,王睿東
(解放軍93163部隊(duì),哈爾濱 150001)
隨著現(xiàn)代科學(xué)技術(shù)的不斷發(fā)展,各種體制雷達(dá)不斷涌現(xiàn),使得雷達(dá)信號環(huán)境日益復(fù)雜,這就對雷達(dá)信號分選提出了新的要求。傳統(tǒng)的基于利用脈沖重復(fù)間隔(PRI)單參數(shù)進(jìn)行信號分選的方法已經(jīng)越來越不能適應(yīng)當(dāng)前復(fù)雜的電磁環(huán)境。支持向量聚類(SVC)是由Asa Ben.Hur等人在支持向量機(jī)的基礎(chǔ)上提出的一種非參數(shù)聚類算法,被廣泛應(yīng)用于各個(gè)領(lǐng)域。
本文將SVC聚類算法應(yīng)用到雷達(dá)信號分選中,在利用SVC進(jìn)行聚類分析時(shí)發(fā)現(xiàn),SVC不僅時(shí)間復(fù)雜度高,而且在處理分布復(fù)雜、不均勻的樣本時(shí),識別率較低。K-Means聚類算法在處理大量數(shù)據(jù)時(shí)時(shí)間復(fù)雜度不高,但是存在需要事先確定數(shù)據(jù)聚類數(shù)目的明顯缺陷,本文將SVC聚類算法與K-Means聚類算法相結(jié)合,提出了聯(lián)合聚類分選算法,并通過仿真實(shí)驗(yàn)驗(yàn)證了算法的可行性。
SVC聚類是2001年由Asa Ben-Hur等人在支持向量機(jī)的基礎(chǔ)上提出一種非參數(shù)聚類算法。它的基本思想是:將樣本點(diǎn)經(jīng)過一個(gè)非線性映射映射到一個(gè)高維特征空間,并在此空間中尋找一個(gè)包圍所有樣本點(diǎn)且具有最小半徑的超球,當(dāng)這個(gè)球面被映射到數(shù)據(jù)空間時(shí),能分割成幾個(gè)部分,每個(gè)部分都包含了獨(dú)立的數(shù)據(jù)點(diǎn)聚類,位于球表面的點(diǎn)即為支持向量,一個(gè)高維空間的球在原來的空間中可以是任意的形狀。
SVC通過二次規(guī)劃問題求解,得到全域最優(yōu)解,而且能處理任意形狀的聚類,并劃分有重疊區(qū)域的聚類形狀,對噪聲也能有效分析[1-3]。
定義1:設(shè)數(shù)據(jù)空間x i∈Rd,數(shù)據(jù)集{x i}∈X,包含d維空間i個(gè)數(shù)據(jù)點(diǎn),運(yùn)用非線性變換將數(shù)據(jù)從x映射到高維特征空間,尋找Hilbert空間最小包絡(luò)x點(diǎn)的超球體半徑R。為了發(fā)現(xiàn)帶有軟邊界的最小包絡(luò)球體,表達(dá)為:
式中:||·||為歐基里德函數(shù);a為球體中心。
引入松弛系數(shù)ξj,式(1)變?yōu)椋?/p>
引入拉格朗日乘式:
如果βi=C,則表示點(diǎn)x i映象位于特征空間的球體之外,被稱作約束支持向量(SV)。如果0<βj<C,則點(diǎn)x i的映像將位于特征空間球體的表面。這樣的點(diǎn)被當(dāng)作是支持向量(SV)。SV位于聚類邊界,基本支持向量(BSV)位于邊界之外,其他所有點(diǎn)都在邊界之內(nèi)。
用高斯核函數(shù)K(x i,x j)表示點(diǎn)積,則得到只包含βj的Wolfe對形式為:
SVC算法在處理中等規(guī)模的數(shù)據(jù)樣本時(shí),計(jì)算和存儲非常困難,而且對于分布復(fù)雜、不均勻的樣本,尋找獲得全局最優(yōu)聚類配置的參數(shù)值極其困難,容易陷入局部最優(yōu)解,而非全局最優(yōu)[4-5]。
K-Means聚類算法由 Mac Queen首先提出,屬于聚類方法中一種基于劃分的方法,它是一種較簡單的迭代優(yōu)化方法。該算法首先隨機(jī)地選擇k個(gè)對象,每個(gè)對象初始地代表了一個(gè)類的平均值或中心。對剩余的每個(gè)對象,根據(jù)其與各個(gè)類的中心距離,將它賦給最近的類,然后重新計(jì)算每個(gè)類的平均值。這個(gè)過程不斷重復(fù),直到準(zhǔn)則函數(shù)收斂。通常采用平方誤差準(zhǔn)則。
K-Means聚類算法選用雷達(dá)數(shù)據(jù)的脈沖到達(dá)角(DOA)tDOA、載頻(RF)fRF和脈寬(PW)τPW三維參數(shù)作為聚類分選參數(shù)。設(shè)某一信號p i經(jīng)過標(biāo)準(zhǔn)化處理后,取出tDOA、fRF和τPW這三維數(shù)據(jù),成為新的形式p′i(tDOA,fRF,τPW),i=1,2,…,N,這樣就形成了雷達(dá)脈沖描述向量集合P′= {p′1,p′2,…,p′N}。K-Means聚類就是要找到P′的一個(gè)劃分V k={C1,C2,…,C k},使目標(biāo)函數(shù)f(V k)值收斂最小。f(V k)為:
從K-Means聚類算法分選流程上可以看出,有2個(gè)關(guān)鍵步驟可以影響聚類結(jié)果:
高等動物細(xì)胞核直徑一般為5~10 μm,高等植物細(xì)胞核直徑一般為5~20 μm。教師利用超輕黏土、廢棄膠頭滴管膠帽和細(xì)鐵絲等材料,分別模擬核模、核孔復(fù)合體和核酸,制作放大約4萬倍的細(xì)胞核模型(即直徑約20 cm),如圖1所示。
(1)聚類數(shù)目k在算法開始運(yùn)行之前必須確定,然而這個(gè)k值的選定往往是困難的。很多時(shí)候,并不知道給定的全脈沖數(shù)據(jù)應(yīng)該分成多少部雷達(dá)才最合適。如果聚類數(shù)目k設(shè)置不正確,聚類分選會出現(xiàn)嚴(yán)重的“增批”和“漏批”現(xiàn)象。在實(shí)際運(yùn)用中,k值要么直接給定,要么根據(jù)經(jīng)驗(yàn)來選取,沒有一個(gè)比較通用的好方法。這是該算法的局限性。
(2)初始聚類中心的選擇。這是K-Means算法的關(guān)鍵步驟,這種隨機(jī)選擇初始聚類中心的方式常常使算法在不同的運(yùn)行中產(chǎn)生不同的聚類結(jié)果,很多時(shí)候有可能得不到最佳的聚類結(jié)果,算法常以局部最優(yōu)結(jié)束,甚至出現(xiàn)無解。
K-Means聚類算法當(dāng)選定合適的初始聚類中心和合適的聚類數(shù)目時(shí)會取得良好的分選效果,而SVC聚類分選算法是一種無監(jiān)督聚類分選算法,不需要事先知道數(shù)據(jù)的類別數(shù)目。
基于以上考慮,本文將2種聚類算法相結(jié)合,利用SVC算法事先確定雷達(dá)信號數(shù)據(jù)的分類數(shù)目,再利用K-Means分選算法進(jìn)行分選,從而縮短聚類分選時(shí)間和復(fù)雜程度。
算法描述如圖1所示。
圖1 算法描述圖
聯(lián)合聚類算法采用雷達(dá)脈沖到達(dá)角tDOA、脈沖重頻fRF和脈沖寬度τPW3個(gè)參數(shù)聯(lián)合分選,按如下步驟執(zhí)行:
(1)讀入雷達(dá)脈沖數(shù)據(jù),提取雷達(dá)信號參數(shù)tDOA、fRF和τPW進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理;
(3)對每段數(shù)據(jù)分別進(jìn)行SVC聚類處理;
(4)將分段聚類的數(shù)據(jù)再進(jìn)行SVC聚類處理,得到數(shù)據(jù)的初始劃分;
(5)運(yùn)用聚類算法提供的初始聚類數(shù)目和初始聚類中心作為輸入,用K-Means算法進(jìn)行聚類分析;
(6)統(tǒng)計(jì)聚類信息,輸出結(jié)果。
實(shí)驗(yàn)?zāi)M了4部雷達(dá),按照到達(dá)時(shí)間進(jìn)行混合,對同時(shí)到達(dá)的信號進(jìn)行丟失處理,共320個(gè)脈沖信號。雷達(dá)參數(shù)設(shè)置如表1所示。
4部雷達(dá)混合數(shù)據(jù)經(jīng)過標(biāo)準(zhǔn)化后,分布如圖2所示(圖中“*”代表雷達(dá)脈沖)。
表1 雷達(dá)仿真數(shù)據(jù)
圖2 雷達(dá)混和數(shù)據(jù)二維屬性分布圖
從圖2(a)、2(b)、2(c)的雷達(dá)混合數(shù)據(jù)分布圖可以看出,4部雷達(dá)在不同的屬性維度上混合嚴(yán)重,從圖3(d)的分選結(jié)果可以看出本文提出的聯(lián)合聚類分選算法準(zhǔn)確地將混合數(shù)據(jù)分選成了4類,并且每部雷達(dá)數(shù)的分選數(shù)目正確。
圖3 聯(lián)合聚類分選效果圖
通過詳細(xì)的對比可以看出雷達(dá)A中有5個(gè)數(shù)據(jù)被錯(cuò)誤地分選成了雷達(dá)B,雷達(dá)B中的5個(gè)數(shù)據(jù)被錯(cuò)誤地分選成了雷達(dá)A,雷達(dá)C和雷達(dá)D均正確分選,分選正確率達(dá)到96.88%。
本文提出的基于SVC聚類和K-Means聚類的聯(lián)合聚類分選算法可以很好地分選出雷達(dá)信號,經(jīng)過仿真實(shí)驗(yàn)驗(yàn)證取得了比較理想的效果。這只是本文對雷達(dá)信號分選算法的一種嘗試,還存在很多缺點(diǎn),如處理大量數(shù)據(jù)時(shí),消耗時(shí)間較長,參數(shù)設(shè)置困難,這些都有待進(jìn)一步研究。
[1]蘇意玲.一種基于支持向量機(jī)和聚類的Web挖掘新方法[J].計(jì)算與現(xiàn)代化,2009,172(12):33-35.
[2]蔣加伏,趙嘉,胡益紅.一種基于支持向量聚類的圖像分割 方 法 [J].計(jì) 算 機(jī) 工程 與 應(yīng) 用,2009,45(30):165-167.
[3]孫德山,李海清.基于線性規(guī)劃的支持向量聚類算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(6):1305-1307.
[4]Francesco Camastra,Alessandro Verro.A novel kernel method for clustering[J].IEEE Transaction on Pattern Analysis and Machine Intelligence,2005,27(5):801-805.
[5]孫德山,吳今培.基于線性規(guī)劃的多類支持向量機(jī)算法[J].計(jì)算機(jī)科學(xué),2005,32(10):160-163.