陳志超,張正,劉昌華 ,周亞文,蘆俊俊,王春陽
(1.河南理工大學 測繪與國土信息工程學院,河南 焦作 454000;2.北京吉威時代軟件股份有限公司,北京 100194)
高光譜遙感影像包含幾十甚至幾百個窄波段形成的連續(xù)光譜波段,光譜范圍可覆蓋紫外、可見光、近紅外乃至熱紅外[1-2]。通過獲取不同地物超高分辨率的光譜信息,高光譜遙感可實現(xiàn)對地面目標的精細描述,其“圖譜合一”的成像方式將影像空間結構信息與光譜信息結合在一起,大大提高了人類對地全方位探測的能力,以及對觀測對象的理解和認識[3]。高光譜遙感影像成百上千的波段在帶來豐富光譜信息的同時,也出現(xiàn)了大量冗余信息以及數(shù)據(jù)傳輸和存儲困難。高光譜影像應用中不同波段均具有不同貢獻值,有些波段甚至沒有貢獻值,將高維空間中的數(shù)據(jù)通過線性或非線性映射投影到低維空間中,找出隱蔽在高維觀測數(shù)據(jù)中有意義且能揭示數(shù)據(jù)本質的低維子結構,可以避免高維數(shù)據(jù)的維數(shù)災難問題,從而有效促進高維數(shù)據(jù)的分類、反演等應用[4]。在綜合分析張量空間和影像稀疏特性優(yōu)勢的基礎上,針對以往特征提取算法均基于向量對高光譜影像進行處理,沒有利用高光譜影像的立方體空間結構信息這一缺點,本文提出基于多線性稀疏主成分分析(MSPCA)的高光譜遙感影像特征提取算法,并利用中國嘉興典型村莊和美國內華達州Curprite礦區(qū)的高光譜影像數(shù)據(jù)進行分類試驗,以驗證所提算法的有效性。
本文分別選取AVIRIS光譜儀獲取的美國內華達州Curprite礦區(qū)高光譜影像和AISA獲取的我國浙江嘉興地區(qū)高光譜影像進行試驗。
浙江省嘉興市典型村莊利用AISA獲取的高光譜影像,光譜380~2 500 nm,影像大小525像素×356像素,原始數(shù)據(jù)共126個波段。遙感影像中包含植被1(樹木)、植被2、土路、水泥路、房屋、水體6種地物,由波段95,64和33組成的假彩色影像和地面參照數(shù)據(jù)如圖1(a)和(b)所示。
圖1 嘉興地區(qū)高光譜影像
美國內華達州Curprite礦區(qū)高光譜遙感數(shù)據(jù)是由機載可見光/近紅外成像光譜儀(AVIRIS)獲取,光譜400~2 500 nm,光譜分辨率約10 nm,影像大小500像素×320像素,原始數(shù)據(jù)共有224個波段,但是有一些波段受噪聲干擾和水蒸氣吸收影響嚴重,去除這些受影響嚴重的波段后,用余下190個波段進行試驗。遙感影像中包含伊利石、地開石、凝灰?guī)r、干鹽湖、石英石、高嶺石、水銨長石、明礬石等8種礦物,由波段178,111和33組成的假彩色影像和地面參照數(shù)據(jù)如圖2(a)和(b)所示。
圖2 內華達州高光譜影像
浙江省嘉興市典型村莊遙感數(shù)據(jù)為自主拍攝獲取的影像,由于所使用AISA傳感器獲取數(shù)據(jù)的數(shù)據(jù)格式本身就與其他數(shù)據(jù)格式存在差異,加上拍攝過程中造成的幾何畸變,因此,在降維試驗之前首先需要對影像進行預處理。本文使用的AISA數(shù)據(jù)所進行的幾何校正屬于已知幾何信息的幾何校正這一范疇,具體預處理步驟:TIF影像左右翻轉;查找表文件(geographic lookup table,GLT)地理位置的生成;利用GLT文件幾何校正影像;輸出降維試驗中使用影像。從圖3可以看出,嘉興地區(qū)幾何校正前后存在影像角度和地物位置等多個變化。
圖3 嘉興地區(qū)幾何校正前后影像
高光譜影像特征提取旨在降低數(shù)據(jù)維數(shù),消除“維數(shù)災難”現(xiàn)象并且減弱由于樣本有限導致的建模不準確等問題,從而有效提高高光譜影像反演、分類等應用的效率和精度[5]。隨著高光譜特征提取技術的不斷發(fā)展,以數(shù)據(jù)立方體結構為主的數(shù)據(jù)分析方法逐漸受到重視。張量是在向量與矩陣基礎上的推廣(最早由William Ron Hamilton在1846年引入到數(shù)學中),眾多學者開始研究張量空間的高光譜遙感影像特征提取方法。YAN S等[6-7]將線性判別分析(linear discriminant analysis,LDA)推廣到高階張量空間中,提出多線性判別分析(multilinear discriminant analysis,MDA)即張量表示的判別分析(discriminant analysis with tensor representation,DATER),但MDA變量無法收斂且受參數(shù)影響較大,也就是說YAN S等[6]的算法不能全面而系統(tǒng)地確定子空間維度。由于張量對象的子空間維數(shù)可能非常高,致使窮舉法確定參數(shù)不可行。LU H等[8]將主成分分析[9](principal component analysis,PCA)推廣到任意高階張量空間中,提出多線性判別分析(multilinear principal component analysis,MPCA)。MPCA是PCA的拓展,MPCA的目的是獲取一個多線性轉換(或投影)集。PCA是將向量投影到低維向量,而MPCA是將張量投影到低維張量,最終在低維子張量上進行分類或其他應用。模式識別或機器視覺應用中的典型張量對象通常為指定的高維張量空間,高維空間數(shù)據(jù)復雜、計算量大且樣本相對稀少。然而,由于張量對象與周圍對象具有強相關性,因此,可以假設張量空間高度約束在本質低維的流形子空間中,其優(yōu)勢在于能夠直接將多維張量形式數(shù)據(jù)投影到低維張量子空間,而不改變影像數(shù)據(jù)的空間結構,并在此基礎上解決高維小樣本問題并提高計算速度和處理效率。但是,由于高光譜影像中復雜多樣的地物類型以及樣本分布的不規(guī)范,若不考慮數(shù)據(jù)本身的稀疏結構,特征提取就不具備合理性;而稀疏表示利用感興趣信號的稀疏性和海量高維數(shù)據(jù)的高冗余性,可有效提取高光譜遙感影像的地物特征信息,是一種新型的數(shù)據(jù)表達方式[10],該數(shù)據(jù)表達方式已成功應用在高光譜影像空-譜數(shù)據(jù)融合、混合像元分解、超分辨率重建和去噪等方面。因此,本文將稀疏表示引入到MPCA中,提出多線性稀疏主成分分析(multilinear sparse principal component analysis,MSPCA),進行高光譜遙感影像的特征處理,同時利用稀疏與張量學習的優(yōu)勢以期得到更高精度的分類效果。
相關研究表明[6-11],當一維的方法擴展到高階張量時,相應的擴展方法通常優(yōu)于原始方法,尤其是在小樣本的情況下。其次,引入稀疏特征選擇的L1范數(shù)可以提高投影精度、增強泛化能力和分類魯棒性[12-14]。將PCA擴展到更高階張量形式(MPCA)后,引入用于稀疏特征選擇的L1范數(shù),可以進一步改進算法(即MSPCA)性能。本文的多線學習方法受到L1規(guī)范施加的稀疏約束。MSPCA在所有張量模式中執(zhí)行稀疏降維,并且捕獲原始張量的大部分變量。
假設訓練樣本被表示為n階張量,其中N為訓練樣本的總數(shù)。根據(jù)對于任意給定模式k下多線性回歸問題與MPCA的目標函數(shù)之間的密切關系[15],為了獲得多線性稀疏主分量,lasso[16](一種補償最小二乘方法,在L1范數(shù)的基礎上增加一個約束)被強加于MPCA標準模式k扁率的回歸表示上。MSPCA目標函數(shù)為
(1)
其中,βk,j≥0作為約束優(yōu)化處理的懲罰系數(shù),用于懲罰不同主成分向量的荷載。當βk,j=0時為MPCA算法,因此,在MSPCA中假設βk,j>0。
MSPCA的操作步驟如下。
輸入:張量樣本{Xi∈Rm1×m2×…×mn,i=1,2,…,N},迭代次數(shù)Tmax,低維維度di(≤mi),i=1,2,…,n。
輸出:多線性稀疏子空間U1,U2,…,Un(i=1,2,…,N)。
第一步:中心化輸入的訓練樣本。
第三步:對于t=1:Tmax
對于k=1:n
解決彈性網(wǎng)問題:
結束
結束
第四步:輸出多線性稀疏子空間U1,U2,…,Un(i=1,2,…,n)。
下面介紹MSPCA的解法,公式(1)可得
(2)
可見,如果Bk已知,式(2)與下面彈性網(wǎng)問題的解相同
j=1,…,m′k;
(3)
另一方面,有
當Uk固定且已知時,式(4)中第1,3,4項為常數(shù),可寫為
(5)
根據(jù)文獻[17],對于給定Uk,上述最大化問題的最優(yōu)解為
(6)
為簡便起見,假設m1=m2=…=mn=m且訓練樣本N的總數(shù)與特征維度mn相當,MSPCA的復雜度為tO(n2Nmn+1+nNmn+1+nTm3),其中t為迭代次數(shù),T為彈性網(wǎng)的迭代次數(shù)。雖然形式復雜,但彈性網(wǎng)在一個很低的維度上能很快收斂,且整體迭代次數(shù)通常不會太大。在相同的迭代次數(shù)下,MSPCA顯然比MPCA和SPCA更復雜。然而,計算稀疏主成分向量只是在模式識別任務的訓練階段才需要,因此,這一不足可以被忽略。
選取3種特征提取方法進行對比試驗,以驗證本文所提方法的有效性,選取對比的特征提取算法包括PCA,SPCA和MPCA。在監(jiān)督特征提取和影像分類中,隨機選擇每類地物樣本中50個作為訓練樣本,剩余的樣本作為驗證樣本。為增加試驗的可比性,所有特征提取方法設置特征提取后的維數(shù)為C-1(C為樣本類別個數(shù))。
選用支持向量機(support vector machine,SVM)[18]分類器相結合對高光譜影像進行分類,并與其他PCA特征提取方法進行對比分析。使用Kappa系數(shù)、平均精度(average accuracy,AA)和總體精度(overall accuracy,OA)作為分類評價指標。為了提高試驗的可靠性和準確性,本文對SVM分類中核函數(shù)參數(shù)和規(guī)則化系數(shù)分別在{2-10,…,210},{2-5,…,210}的范圍內選擇最優(yōu)[19],并使用一對余(OAR)的策略進行分類。而且每種算法進行10次重復分類試驗,最后選取10次重復分類試驗的平均值為最終結果。
表1為在不同算法下嘉興地區(qū)影像中各類地物的分類精度OA,AA和Kappa系數(shù),其中Kappa系數(shù)和OA為10次試驗的平均值。從表1可以看出,相比其他算法,MSPCA分類精度均較高,尤其是水體分類精度達到了85.81%,而基于原始波段特征分類精度僅為64.16%;總體精度OA達到96.36%,平均精度AA達到95.02%,Kappa系數(shù)達到92.33%,均優(yōu)于其他算法精度。在圖4的分類圖中也可以看出,MSPCA降維算法錯分點更少,地物分布更加平滑。
圖4為原始影像及各特征提取方法對應的分類結果圖,從圖4可以看出,對于本文提出的MSPCA方法,分類圖中的類別噪聲最少,空間連續(xù)性得到有效的增強。
表1 嘉興地區(qū)影像中各類地物在不同算法下的分類精度
圖4 各算法在嘉興地區(qū)數(shù)據(jù)集上的分類結果
Fig.4 Classification results of each algorithm of the data set of Jiaxing area
在Curprite礦區(qū)數(shù)據(jù)集中,使用與嘉興市典型村莊數(shù)據(jù)集相同的參數(shù)設置方法,在不同特征提取方法下各類地物的分類精度OA,AA和Kappa系數(shù)如表2所示,對應的分類圖如圖5所示。由表2可知,MSPCA方法對大部分地物的分類精度、總體分類精度、平均分類精度和Kappa系數(shù)要明顯優(yōu)于其他算法,這表明在高光譜影像特征提取過程中,MSPCA算法能提取出更為有效的特征。表2和圖5顯示MAPCA在分類圖中錯分點更少,地物分布更加平滑,進一步驗證了本文所提特征提取算法的有效性。
(1)基于張量學習的優(yōu)勢和稀疏特性的問題,提出多線性稀疏主成分分析模型,進而提出MSPCA高光譜遙感影像特征提取方法。
(2)兩組試驗的分類精度均較高,其中MSPCA的特征提取算法精度的OA,AA和Kappa系數(shù)均為最高值,特別是嘉興市典型村莊遙感影像中的水體和Curprite礦區(qū)遙感影像中凝灰?guī)r等弱特征地物的分類精度得到了大幅提高。
表2 Curprite礦區(qū)影像中各類地物在不同算法下的分類精度
圖5 各算法在Curprite礦區(qū)數(shù)據(jù)集上的分類結果
(3)在綜合考慮影像稀疏特性和張量空間算法優(yōu)勢的基礎上,MSPCA降維算法有效提高了影像分類精度,為較難分類的弱特征地物分類與反演提供了新的方法。