胡冬翠,謝福鼎,楊 俊,張 永
(1. 遼寧師范大學(xué)城市與環(huán)境學(xué)院,遼寧 大連 116029;2. 遼寧師范大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,遼寧 大連 116029)
由于高光譜影像具有分辨率高、地球表面信息豐富、地物光譜曲線連續(xù)、能清晰識(shí)別地物的細(xì)微特征等優(yōu)點(diǎn),目前,高光譜遙感技術(shù)越來越多地被應(yīng)用于各個(gè)學(xué)科領(lǐng)域[1]。但是高光譜遙感影像數(shù)據(jù)量大且存在大量的數(shù)據(jù)冗余[2]。因此,在降低高光譜數(shù)據(jù)維數(shù)的同時(shí),盡量保持原始波段中蘊(yùn)含的信息,并采用合適的分類器進(jìn)行分類,是獲取高光譜遙感數(shù)據(jù)中有用信息的重要手段。
譜聚類(spectral clustering)方法是一種簡單有效的聚類方法[3]。該方法以圖譜理論為依托,根據(jù)遙感影像的光譜信息,定義了一個(gè)相似度矩陣。計(jì)算該矩陣的特征值和特征向量,然后通過選擇合適的特征向量進(jìn)行降維和聚類[4]。只利用遙感影像光譜信息,忽視了地物目標(biāo)的空間結(jié)構(gòu)特征,往往導(dǎo)致分類精度不理想,不能全面準(zhǔn)確地表達(dá)地理數(shù)據(jù)的信息特征[5]。為了彌補(bǔ)只利用光譜信息進(jìn)行聚類的不足,進(jìn)一步提高分類精度,考慮將像素點(diǎn)的光譜信息與空間信息有機(jī)地結(jié)合起來。
本文在譜方法的基礎(chǔ)上,借助高光譜圖像中像素點(diǎn)的鄰居信息、部分類標(biāo)簽信息和高斯核函數(shù)給出了一種新的度量樣本點(diǎn)之間相似度的函數(shù)?;诙x的相似度函數(shù)和K近鄰方法(KNN)構(gòu)造圖,在圖的構(gòu)建中加入空間信息,并賦權(quán)值,在遺傳算法中通過不斷變異和優(yōu)化的方法得到了最佳的圖。對(duì)于降維后的數(shù)據(jù),結(jié)合局部平均偽近鄰算法對(duì)數(shù)據(jù)進(jìn)行聚類分析。試驗(yàn)結(jié)果表明了所提出方法的可行性。
假設(shè)圖G=(V,E),其中V是點(diǎn)的集合,E是邊的集合。W是其對(duì)應(yīng)的鄰接矩陣。將鄰接矩陣W的每行元素相加為對(duì)角元素構(gòu)成對(duì)角矩陣,用D表示。
(1)
廣義的特征值問題被定義為
(D-W)v=λDv
(2)
式中,λ為特征值;v為λ所對(duì)應(yīng)的特征向量。
規(guī)范Laplacian矩陣有如下形式
L=D-1/2LD-1/2=D-1/2(D-W)D-1/2=I-D-1/2WD-1/2
(3)
式中,I為單位矩陣。
求解式(3)中L的特征值問題,不妨假設(shè)其前d個(gè)最大特征值為λ={λ1,λ2,…,λd},對(duì)應(yīng)的特征向量構(gòu)成的矩陣是V={v1,v2,…,vd},即為所求的映射,然后用k-means等聚類算法對(duì)降維后的數(shù)據(jù)進(jìn)行分類。
一般來說,構(gòu)建鄰接矩陣W的方法有2種:ε-鄰近法,K近鄰法[6]。本文采用的是K近鄰法。
LMPNN[7-8]首先在每類中尋找待測(cè)樣本點(diǎn)的k個(gè)最近鄰,并計(jì)算k個(gè)近鄰點(diǎn)的局部平均向量,然后采用k個(gè)局部平均向量(均值向量)計(jì)算和預(yù)測(cè)該樣本點(diǎn)的類標(biāo)簽。
具體步驟如下:
(4)
(5)
(6)
(4)dj表示測(cè)試樣本x與類Cj中的局部均值向量的距離加權(quán)和,則有
(7)
(5) 預(yù)測(cè)類標(biāo)簽:將距離x最近的基于局部平均偽近鄰的類標(biāo)簽賦給x,則有
(8)
僅僅使用高光譜圖像中像素點(diǎn)的光譜信息進(jìn)行分類時(shí),不能全面準(zhǔn)確地表達(dá)地理數(shù)據(jù)的信息特征。本文提出的方法考慮了高光譜數(shù)據(jù)空間一致性的特點(diǎn),在構(gòu)圖時(shí)加入空間信息,將地理空間近鄰像元點(diǎn)的信息加入到圖的構(gòu)建中,從而增強(qiáng)地理空間鄰域像元的緊密性,試圖保持原高維空間中數(shù)據(jù)的類結(jié)構(gòu)。
給定一幅高光譜圖像HSI,像素?cái)?shù)據(jù)集為HSI={x1,x2,…,xn},xi∈Rd(i=1,2,…,n),n為像素點(diǎn)個(gè)數(shù)。每類隨機(jī)標(biāo)記少量像素點(diǎn),同時(shí)從像素?cái)?shù)據(jù)中隨機(jī)選取部分無標(biāo)記數(shù)據(jù),共同組成訓(xùn)練集。在IGASC算法中,如果點(diǎn)xi與近鄰點(diǎn)xj屬于同類,或近鄰或空間位置近鄰,則連起來構(gòu)成圖G。
本文采用的是像素點(diǎn)xi的Moore鄰居,定義如下
N(xi)={xj||i1-j1|≤1 or |i2-j2|≤1,xj∈HSI}
(9)
式中,(i1,i2)為像素點(diǎn)xi的空間位置坐標(biāo)。
(10)
(11)
式中,A為一個(gè)對(duì)HSI通過KNN方法構(gòu)造的相似圖的鄰接矩陣;Aij表示A中的第i行第j列元素;⊙表示2個(gè)矩陣對(duì)應(yīng)元素相乘。
本文應(yīng)用遺傳算法[9],KNN相似圖的優(yōu)化問題被適當(dāng)?shù)剞D(zhuǎn)換成染色體問題,優(yōu)化問題被定義為
(12)
式中,Aij∈{0,1}表示KNN鄰接矩陣A中的第i行第j列元素。優(yōu)化過程描述如下:
2.2.1 構(gòu)建初始種群
分別計(jì)算k=3,4,…,M時(shí)的KNN矩陣A,由于A是對(duì)稱矩陣,因此只提取每個(gè)鄰接矩陣的上三角元素就能代表全部信息,可表示為
a12,…,a1n,a23,…,a2n,…,an-1n
構(gòu)成由M-2條染色體組成的初始種群pop(0)。
為了豐富種群,轉(zhuǎn)換小部分?jǐn)?shù)據(jù),即隨機(jī)提取一定比例的元素把“0”元素轉(zhuǎn)換成“1”,反之亦然。
2.2.2 適應(yīng)度評(píng)估
在本文提出的算法中,分類精度指標(biāo)OA被用作適應(yīng)度函數(shù)f(x)。
2.2.3 遺傳算子
(1) 選擇:采用輪盤賭選擇法[9],每條染色體被選擇的概率pi和其適應(yīng)度值fi成正比。
(13)
(2) 交叉:本文選用的是單點(diǎn)交叉,交叉概率設(shè)置為0.7,在每一組染色體中隨機(jī)的選擇一個(gè)交叉點(diǎn),所形成的子序列分別進(jìn)行交換。
(3) 變異:隨機(jī)選擇染色體的一部分經(jīng)歷突變,即“0”變成“1”,或“1”變?yōu)椤?”,試驗(yàn)中突變率設(shè)置為0.1。此外,為了保證新產(chǎn)生的染色體不改變太多,隨機(jī)選取一定比例的元素把“1”變成“0”,然后在隨機(jī)取相同數(shù)量的元素把“0”變成“1”。
2.2.4 譜方法
遺傳算子在染色體上的應(yīng)用,形成新一代種群pop(1)。重建KNN矩陣A,分別把pop(1)中的每一條染色體轉(zhuǎn)換成KNN矩陣,因此結(jié)合空間近鄰信息的譜方法即可執(zhí)行,然后利用局部平均偽近鄰算法(LMPNN)進(jìn)行分類。
2.2.5 適應(yīng)度排序
下一步是計(jì)算所有新產(chǎn)生的染色體的適應(yīng)度值,并將它們與父代染色體的適應(yīng)度值一同排序,只保留前M-2個(gè)較高適應(yīng)度值的染色體。
已經(jīng)達(dá)到50代最大,或當(dāng)連續(xù)5代沒有被優(yōu)化的標(biāo)準(zhǔn)改變,該算法終止。
基于上面的譜方法和遺傳算法,給出本文所提出算法的詳細(xì)步驟。
輸入:像素?cái)?shù)據(jù)集HIS。
輸出:分類精度指標(biāo)OA值。
(1) 從數(shù)據(jù)集中按一定比例標(biāo)記少量樣本點(diǎn),同時(shí)從數(shù)據(jù)集中剩余部分隨機(jī)選取部分無標(biāo)簽的數(shù)據(jù),共同組成訓(xùn)練集。
(3) 調(diào)用2.2中的遺傳算法優(yōu)化圖。
(4) 利用2.1中的譜方法進(jìn)行降維。
(5) 利用1.2中描述的LMPNN算法對(duì)所有像素點(diǎn)分類。
本文選擇在高光譜圖像分類中常用的SalinasA數(shù)據(jù)集和Botswana數(shù)據(jù)集上進(jìn)行試驗(yàn),說明本文方法的有效性。試驗(yàn)結(jié)果采用分類精度指標(biāo)OA值來衡量,OA值越大,說明分類結(jié)果越精確。將本文提出的算法與其他算法進(jìn)行比較,結(jié)果表明本文提出的算法分類精度較高。
SalinasA圖像數(shù)據(jù)是Salinas圖像的一部分,是加利福尼亞薩利納斯山谷地區(qū),由AVIRIS傳感器獲取,每個(gè)波段由83×86個(gè)像素點(diǎn)組成,共224個(gè)波段,去除噪聲波段,用于試驗(yàn)分析的波段數(shù)是204個(gè)。包含6類地物,地物真實(shí)分類情況如圖1(a)所示。
由表1可以看出,在隨機(jī)選取40%像素點(diǎn)作為訓(xùn)練樣本(其中2%帶標(biāo)簽,38%無標(biāo)簽),其余作為測(cè)試樣本的情況下,本文算法的分類精度高于傳統(tǒng)的譜方法與K近鄰、局部平均偽近鄰等結(jié)合的算法,同樣高于遺傳優(yōu)化譜方法與K近鄰結(jié)合算法,高光譜圖像分類結(jié)果如圖1(b)所示。表2給出了在隨機(jī)選取40%像素點(diǎn)作為訓(xùn)練樣本(其中1.1%帶標(biāo)簽,38.9%無標(biāo)簽),其余作為測(cè)試樣本的情況下,本文算法相對(duì)于無監(jiān)督的譜聚類、K-means和WSS-SC算法,分類精度提升13%~31%,相對(duì)于半監(jiān)督算法SVM、LapSVM和SSG+W,分類精度提升1.4%~8%。
表1 4種算法在SalinasA數(shù)據(jù)集上的分類結(jié)果 (%)
圖1 SalinasA數(shù)據(jù)
算法標(biāo)記比例OAK-means[10]066.90譜聚類[10]067.80WSS-SC[10]084.44SVM[11]1.190.03LapSVM[12]1.196.58SSG+W[13]1.193.27IGASC+LMPNN1.198.02
Botswana數(shù)據(jù)是南非博茨瓦納奧卡萬戈三角洲地區(qū)影像,由搭載在NASA的EO-1衛(wèi)星上的Hyperion傳感器獲取。該影像空間分辨率達(dá)30 m,由1476×256個(gè)像素組成,共242個(gè)波段,波長范圍是400~2500 nm,經(jīng)過輻射校正,去除噪聲、大氣吸收波段,用于試驗(yàn)分析的是145個(gè)波段,共14種地貌類別,真實(shí)影像如圖2(a)所示。
由表3可以看出,在隨機(jī)選取20%像素點(diǎn)作為訓(xùn)練樣本(其中10%帶標(biāo)簽,10%無標(biāo)簽),其余作為測(cè)試樣本的情況下,本文算法的OA值是90.15%,影像分類結(jié)果如圖2(b)所示,高于傳統(tǒng)的譜方法與K近鄰、局部平均偽近鄰相結(jié)合的算法,同樣高于遺傳優(yōu)化譜方法與K近鄰結(jié)合算法。此外將提出的算法與K-means、FCM、SSGC和SSGCK算法進(jìn)行比較,見表4,可以看出隨機(jī)標(biāo)記10%時(shí),本文提出算法的總體分類精度就高于以上4種算法,標(biāo)記15%時(shí),分類精度達(dá)到94.27%。
表3 4種算法在Botswana數(shù)據(jù)集上的分類結(jié)果 (%)
圖2 Botswana數(shù)據(jù)
算法標(biāo)記比例OAK-means[14]068.00FCM[15]069.00SSGC[12]1589.00SSGCK[16]1590.00IGASC+LMPNN1090.151594.27
本文提出了一種基于空間信息和遺傳算法的半監(jiān)督高光譜圖像分類方法。該方法的核心內(nèi)容是根據(jù)空間信息、少量類標(biāo)簽信息和部分無標(biāo)記數(shù)據(jù)組成訓(xùn)練樣本集,結(jié)合高斯核函數(shù)定義新的相似度函數(shù),構(gòu)造出圖G。通過遺傳算法不斷優(yōu)化相似圖,然后應(yīng)用局部平均偽近鄰對(duì)降維后的數(shù)據(jù)進(jìn)行分類。本文提出的算法可以有效解決高光譜圖像半監(jiān)督分類問題,具有很好的實(shí)用性。并且本文提出的方法還可以用于人臉識(shí)別、語音分析、降維等方面,具有很好的通用性。