周 敏 ,陸 奎 ,王詩兵
(1.安徽理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,安徽 淮南 232001;2.阜陽師范大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,安徽 阜陽 236037)
高光譜圖像分類在精準(zhǔn)農(nóng)業(yè)、地質(zhì)勘測(cè)等領(lǐng)域具有重要作用。隨著成像光譜儀技術(shù)的發(fā)展,高光譜圖像的光譜分辨率越來越高,數(shù)據(jù)維度也隨之增長(zhǎng),直接使用高光譜數(shù)據(jù)進(jìn)行分類容易出現(xiàn)“維數(shù)災(zāi)難”問題[1]。因此,對(duì)高光譜數(shù)據(jù)進(jìn)行特征提取是高光譜圖像分類的重要步驟。主成分分析(principle component analysis,PCA)方法使降維后數(shù)據(jù)間的方差達(dá)到最大,是對(duì)圖像的全局信息進(jìn)行提取[2-3]。局部保持投影(locality preserving projection,LPP)算法能夠揭示高維數(shù)據(jù)中的低維流形結(jié)構(gòu),挖掘高光譜圖像中的局部信息[4]。綜合考慮PCA、LPP算法的全局、局部結(jié)構(gòu)保持特性,在各領(lǐng)域的應(yīng)用中都取得了不錯(cuò)的效果[5-7]。
研究表明,聯(lián)合使用高光譜圖像的光譜特征和空間特征進(jìn)行特征提取能夠獲得較好的分類效果[8-11]。Huang等提出基于空-譜距離度量準(zhǔn)則的KNN算法進(jìn)行高光譜圖像分類[12]。Hou等在線性判別分析(linear discriminant analysis,LDA)算法的目標(biāo)函數(shù)中引入空間信息參數(shù)因子,保留了局部判別信息和圖像的空間結(jié)構(gòu)信息,獲得了較高的分類精度[13]。因此,本文提出一種空-譜聯(lián)合的PCA-LPP特征提取算法(spatial-spectral combined pca-lpp feature extraction algorithm,SSPCA-LPP)以提取高光譜圖像的鑒別特征。
PCA和LPP都是經(jīng)典的特征提取算法[14]。設(shè)原始高維數(shù)據(jù)集X=[x1,x2,...,xn]∈RK,經(jīng)投影矩陣W∈RK×k映射后所得的低維數(shù)據(jù)集Y=WTX,Y=[y1,y2,...,yn]∈Rk(k<K),k表示選取的主成分個(gè)數(shù)。
PCA算法通過線性變換去除數(shù)據(jù)相關(guān)性,以投影后的方差最大為優(yōu)化目標(biāo)[15],優(yōu)化函數(shù)
LPP算法通過構(gòu)造近鄰圖G來記錄像元的局部信息,并使這種近鄰關(guān)系在投影之后仍得以保持[16]。圖G中頂點(diǎn)表示像元,若兩像元之間存在近鄰關(guān)系,則用邊將兩頂點(diǎn)進(jìn)行連接,否則,不連接。對(duì)圖G中任意兩點(diǎn)xi,xj之間邊的權(quán)重
其中,參數(shù)δ等于總體樣本方差。
LPP算法以最小化近鄰像元之間的距離為優(yōu)化目標(biāo)[17],優(yōu)化函數(shù)
式中,D是對(duì)角矩陣,對(duì)角元素Dii=∑jAij,L=D-A是Laplacian矩陣。
空間一致性原理具有明確的物理解釋,即在真實(shí)地物圖像中,同類地物往往具有聚集性,距離越近,屬于同類地物的概率越大[18]。設(shè)高光譜圖像X∈RM×N×B,M×N表示空間大小,B表示光譜維度,像元xij的近鄰空間表示為:
Ω(xij)={xpq|p∈[i-a,i+a],q∈[j-a,j+a]},其中,xpq表示近鄰空間中的任一像元,a=(ω-1)/2,ω是空間因子,表示近鄰空間的大小,通常取奇數(shù),近鄰點(diǎn)個(gè)數(shù)s=ω2-1。
式中,ωpq=表示近鄰空間中任一像元xpq到中心像元xij的權(quán)重大小,t是光譜因子,表征不同像元間的影響程度。
重構(gòu)后的圖像中,像元,之間的空-譜距離=‖-。
對(duì)重構(gòu)后的高光譜圖像數(shù)據(jù)集使用PCA算法提取全局特征,SSPCA-LPP算法的全局函數(shù)
引入光譜信息散度[19]分析近鄰像元的相關(guān)性,像元越相似,構(gòu)造近鄰圖時(shí)權(quán)值越大。近鄰像元、之間的光譜信息散度
其中
基于空-譜距離度量準(zhǔn)則構(gòu)造局部近鄰圖,將近鄰像元的光譜信息散度作為光譜因子,邊的權(quán)重計(jì)算公式改進(jìn)
因此,SSPCA-LPP算法的局部目標(biāo)函數(shù)為
由于約束條件WTXDXTW=I,則上式可轉(zhuǎn)變?yōu)榍笕∽畲笾祮栴}。
基于最大邊緣準(zhǔn)則[20],構(gòu)建SSPCA-LPP的目標(biāo)函數(shù)
式中,=C+T,β是平滑參數(shù),用于控制局部信息在特征提取過程中的占比。
使用拉格朗日乘子法,將式(8)轉(zhuǎn)化為求解特征值問題。
上式對(duì)W進(jìn)行求導(dǎo)并置0,進(jìn)一步化簡(jiǎn)可得
選取前k個(gè)特征值所對(duì)應(yīng)的特征向量作為主成分分量構(gòu)成投影矩陣W,得到低維數(shù)據(jù)。
SSPCA-LPP算法的步驟如下:
輸入:高光譜圖像數(shù)據(jù)集X,空間因子ω,平滑參數(shù)β,特征維度k。
輸出:投影矩陣W,低維數(shù)據(jù)Y。
Step 1:對(duì)原始數(shù)據(jù)集X進(jìn)行空譜重構(gòu),計(jì)算近鄰像元的空-譜距離;
Step 3:根據(jù)式(8)構(gòu)造目標(biāo)函數(shù)并計(jì)算特征值和特征向量;
Step 4:選取前k個(gè)特征向量構(gòu)成投影矩陣W,得到低維數(shù)據(jù)Y。
在Indian Pines公開數(shù)據(jù)集上,分別使用PCA、LDA、LPP、PCA-LPP、SSPCA-LPP 算法對(duì)高光譜圖像數(shù)據(jù)進(jìn)行特征提取,然后使用SVM算法進(jìn)行分類。評(píng)價(jià)指標(biāo)采用總體精度(overall accuracy,OA)、平均精度(average accuracy,AA)和 kappa系數(shù)。
實(shí)驗(yàn)中,訓(xùn)練樣本和測(cè)試樣本按比例隨機(jī)選取,不同算法的影響參數(shù)均調(diào)整到最佳值,各算法統(tǒng)一提取30維特征,LDA算法提取c-1維(c是地物類別數(shù))[21]。為保證算法的客觀性,以下實(shí)驗(yàn)數(shù)據(jù)均為10次實(shí)驗(yàn)結(jié)果的平均數(shù)。
影響SSPCA-LPP算法的主要參數(shù)是ω和β。從數(shù)據(jù)集中隨機(jī)選取5%的樣本作為訓(xùn)練集進(jìn)行實(shí)驗(yàn)。當(dāng)檢驗(yàn)ω對(duì)分類精度的影響時(shí),β的值設(shè)置為0.3;當(dāng)檢驗(yàn)β對(duì)分類精度的影響時(shí),ω設(shè)置為7。圖1是ω和β對(duì)分類精度的影響。
圖1 Indian Pines數(shù)據(jù)集上ω和β對(duì)分類精度的影響
分類精度在ω=7,β=0.3處取得最高。當(dāng)ω<7時(shí),ω越大意味著近鄰區(qū)域包括的像元越多,從而能夠更好地利用像元的空間信息;當(dāng)ω>7時(shí),近鄰區(qū)域中包含異類像元,導(dǎo)致分類精度下降。同樣,β越大表明可利用的局部信息越多,突出了局部信息在分類中的貢獻(xiàn)率,但當(dāng)大于最佳值時(shí),局部信息過于突出,反而忽略了全局信息。
從每類中隨機(jī)選取5%、10%、15%和20%的樣本作為訓(xùn)練集(樣本數(shù)不足100的類別統(tǒng)一選取10個(gè)樣本作為訓(xùn)練集),剩余d的為測(cè)試集。使用不同算法對(duì)高光譜圖像進(jìn)行特征提取并分類,不同算法的分類結(jié)果如表1。
表1 不同算法在Indian Pines數(shù)據(jù)集上的分類結(jié)果(總體精度±標(biāo)準(zhǔn)差(kappa系數(shù)))
從表1可以看出,訓(xùn)練樣本越多,各算法的分類精度越高。訓(xùn)練樣本的增加,意味著包含的類別信息越豐富,提取的特征能更好地表征不同地物之間的差異性,從而提高分類精度。在相同訓(xùn)練樣本數(shù)下,SSPCA-LPP的OA和kappa系數(shù)均是最高,這是因?yàn)镾SPCA-LPP兼顧全局和局部信息構(gòu)造投影矩陣,并在提取局部特征時(shí),對(duì)原始數(shù)據(jù)進(jìn)行空譜重構(gòu),減小像元的信息冗余和噪聲干擾,從自信息量的角度引入光譜信息散度,使同類像元之間的權(quán)值增大,從而在特征提取的過程中能夠保持原有局部結(jié)構(gòu)。
為研究各算法在不同地物上的分類效果,隨機(jī)選取6%的樣本作為訓(xùn)練集,表2是不同算法在不同地物上的分類精度,除“Corn”和“Grass/Pasture-mowed”兩類地物,SSPCA-LPP算法在各類地物上的分類精度均是最高,在“Alfalfa”、“Oats”等6類地物上的分類精度達(dá)到100%。圖2是在6%的樣本數(shù)下,不同算法在Indian Pines數(shù)據(jù)集上的分類效果。易知,SSPCA-LPP算法分類后圖像的“麻點(diǎn)”明顯減少,錯(cuò)分現(xiàn)象比其他算法明顯降低。
表2 不同算法在Indian Pines數(shù)據(jù)集上對(duì)各類地物的分類結(jié)果/%
圖2 不同算法在Indian Pines數(shù)據(jù)集上的分類效果
針對(duì)高光譜圖像分類中易出現(xiàn)“維數(shù)災(zāi)難”問題,提出了一種空譜聯(lián)合的PCA-LPP特征提取算法,利用空間一致性原理對(duì)高光譜圖像進(jìn)行重構(gòu),減小噪聲干擾,增強(qiáng)像元的光譜特性,然后對(duì)重構(gòu)后的像元基于空-譜距離度量準(zhǔn)則構(gòu)造局部近鄰圖,并引入光譜信息散度計(jì)算近鄰像元的相似性,增大同類像元在近鄰圖中的權(quán)值,使近鄰像元在投影之后仍能保持近鄰關(guān)系,聯(lián)合PCA、LPP算法構(gòu)造投影矩陣,在提取全局信息的同時(shí)能夠保持局部結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果表明,本文算法的分類效果比傳統(tǒng)方法更好。