孫偉偉,楊剛,彭江濤,孟祥超
1.寧波大學地理與空間信息技術(shù)系,寧波315211;
2.湖北大學數(shù)學與統(tǒng)計學學院,湖北省應用數(shù)學重點實驗室,武漢430062;
3.寧波大學信息科學與工程學院,寧波315211
以高分五號為代表的高光譜遙感是一種先進的對地觀測技術(shù),利用較窄的光譜波段來獲取地表地物的連續(xù)光譜響應信息,有利于區(qū)分具有較小光譜響應差異的地表地物(Tong 等,2014;童慶禧等,2016;Zhong 等,2018)。然而,影像的光譜維數(shù)很高且波段相關(guān)性很強,存在明顯的信息冗余和計算量大問題,給數(shù)據(jù)處理和應用造成較大困難(Zhang 等,2011;張兵,2016;張良培和李家藝,2016;張良培等,2018)。波段選擇能夠選取代表性的波段子集,解決上述問題并最大程度地保持原始影像的應用效果(Sun 等,2015b,2016,2017a;孫偉偉等,2018)。
目前國內(nèi)外學者提出多種策略來選取合適的波段子集,如排序策略、搜索策略、稀疏策略和聚類策略等(Sun 和Du,2018)?;谂判虻姆椒ㄍㄟ^比較每個波段的重要性來選取若干波段,如最大方差主成分分析法MVPCA(Maximum Variance Principal Component Analysis)(Chang等,1999)和限制波段選擇法(Chang 和Wang,2006)。然而該方法忽略不同波段的差異性,容易選取相關(guān)性較強的波段。基于搜索的方法轉(zhuǎn)換波段選擇為準則函數(shù)的優(yōu)化求解問題,如線性預測LP(Linear Predication)(Du 和Yang,2008)和多目標優(yōu)化搜索(Pan 等,2019)。搜索策略相比排序策略能夠選擇更好的波段子集,然而該方法大多需要較高的計算量?;谙∈璧姆椒?gòu)建高光譜波段的稀疏表達模型(孫偉偉等,2017),通過求解稀疏限制的優(yōu)化問題來選擇代表性波段,如稀疏非負矩陣分解(Sun 等,2015a)、差異性加權(quán)稀疏表達模型(Sun 等,2016)和圖正則的魯棒主成分分析模型(Sun 和Du,2018)。稀疏系數(shù)估計對目標函數(shù)的收斂較為敏感,波段選擇的結(jié)果變化較大?;诰垲惖姆椒▽⑺胁ǘ尉酆现敛煌念悇e或子空間中,選擇離聚類中心最近的波段,如雙聚類方法(Yuan等,2016)和最優(yōu)聚類框架(Wang等,2018)等。
譜聚類SC(Spectral Clustering)是一種經(jīng)典的非監(jiān)督聚類方法,廣泛應用于高維數(shù)據(jù)的非監(jiān)督聚類且效果較好(von Luxburg,2007)。譜聚類能夠利用不同波段的相似性度量來構(gòu)建連通圖譜(或相似矩陣),實現(xiàn)波段在圖譜上的非監(jiān)督聚類并選取波段子集。采用的相似性度量如光譜角度距離SAD(Spectral Angle Distance)、相關(guān)系數(shù)CC(Correlation Coefficient)和光譜信息散度SID(Spectral Information Divergence)。近年來,隨著稀疏理論引入至高光譜遙感領(lǐng)域,波段的稀疏系數(shù)也被用來構(gòu)建相似矩陣,其中稀疏系數(shù)代表波段之間的重構(gòu)概率(Sun 等,2015b,2016)。然而,上述相似性度量假設(shè)高光譜遙感成像服從高斯或線性分布,在表征波段的相似程度時,相似矩陣容易受到光譜噪聲或異常值影響,從而降低波段子集的選取效果(Xia 等,2014;Sun 等,2018)。同時,上述相似性度量僅能描述波段在某一角度的相似程度,并不能夠完全表征波段的全部相似特征(Sun 等,2015b)。以相關(guān)系數(shù)CC 為例,相似矩陣僅代表波段之間的相關(guān)強弱,無法體現(xiàn)波段之間的信息可區(qū)分性。波段選擇目的是尋找信息量較大、相關(guān)性較低且差異度較高的代表性波段。因此,常規(guī)譜聚類方法構(gòu)建的相似矩陣并不能夠代表波段選擇所需的特征信息,無法得到滿足分類應用需求的波段子集。
針對上述問題,本文提出魯棒多特征譜聚類方法RMSC(Robust Multi-feature Spectral Clustering)來改進傳統(tǒng)SC方法,選取更優(yōu)代表性的波段子集。相比傳統(tǒng)SC 方法,RMSC 認為每一特征的相似矩陣僅能反映波段聚類的部分結(jié)構(gòu)信息且受到噪聲的負面影響。RMSC 通過整合單個相似特征矩陣來得到涵蓋多個特征相似信息的綜合相似矩陣,實現(xiàn)不同角度的相似信息的匯總表達,提升相似矩陣的信息總量并降低噪聲的影響,改善波段子集的選取結(jié)果。假設(shè)每一特征(如信息熵、波段相關(guān)性和波段差異性)構(gòu)建的波段相似矩陣具有低階的結(jié)構(gòu)特征(Xia 等,2014),RMSC 能夠分解單一特征相似矩陣為綜合相似矩陣和噪聲矩陣,并將綜合相似矩陣的估計問題轉(zhuǎn)換為低秩稀疏矩陣分解問題,采用增強拉格朗日乘子ALM(Augmented Lagrangian Multiplier)(Lin 等,2015)來進行優(yōu)化求解。進一步,RMSC 利用譜聚類方法來聚合所有波段至不同的類別中,從各個類別選取代表性波段。本文采用Indian Pines 和PaviaU 兩個常用的高光譜影像數(shù)據(jù)集,對比5種主流的波段選擇方法來驗證方法的效果。
假設(shè)高光譜數(shù)據(jù)的所有波段構(gòu)成二維矩陣Y=[y1,…,yN]∈RM×N,其中M和N分別為像素個數(shù)和波段數(shù)量,yi為第i個波段對應的向量;選取得到的波段子集為Φ=Y(:,κ)∈RM×k,其中κ為所選波段的索引集合,k為所選的波段子集大小。考慮到波段子集的較高信息量、較低相關(guān)性和較大差異性要求,本文采用光譜信息散度SID、相關(guān)系數(shù)CC、拉普拉斯圖譜LG(Laplacian Graph)(Sun 和Du,2018)和光譜角度距離SAD 來構(gòu)建多個特征的相似矩陣。SID 表征不同波段的相對信息量差異,構(gòu)建波段信息量特征的相似矩陣。CC 表征波段的相關(guān)性,本文利用相關(guān)系數(shù)平方和來構(gòu)建描述相關(guān)性特征的相似矩陣。LG 考慮波段的內(nèi)在聚類結(jié)構(gòu),利用波段的鄰域結(jié)構(gòu),構(gòu)建鄰域差異性特征的相似矩陣。SAD 考慮波段的光譜角度差異,構(gòu)建反映波段向量形狀差異特性的相似矩陣。上述4個特征度量,每一個特征的相似矩陣都能夠涵蓋部分的波段聚類的相似性結(jié)構(gòu)信息,都為非負相似矩陣。
假設(shè)上述4個特征的波段相似矩陣都能從某一方面來表征波段的聚類結(jié)構(gòu),RMSC 通過構(gòu)建波段綜合矩陣來匯總4個特征矩陣的波段相似信息,更好揭示所有波段的內(nèi)在聚類結(jié)構(gòu)特征。相應地,每個特征的波段相似矩陣S(i)可以分解為兩部分,
式中,S(i)∈RN×N分別為光譜信息散度SID、相關(guān)系數(shù)CC、拉普拉斯圖譜LG 和光譜角度距離SAD構(gòu)建得到的波段相似矩陣,B∈RN×N為待求的綜合相似矩陣,E(i)∈RN×N為每個特征的誤差矩陣,代表其噪聲或粗差的影響。約束項rank(B)=r限制矩陣B為低秩。波段的子空間聚類結(jié)構(gòu),導致位于相同子空間(或類別)的波段相似系數(shù)較大,不同類別的波段相似系數(shù)較小,從而使得矩陣B具有低秩結(jié)構(gòu)。每一特征的相似矩陣都能代表大部分的波段聚類結(jié)構(gòu)信息,因此限定每一相似矩陣與綜合相似矩陣的差異較小。利用式(1)的低秩和稀疏分解,能夠分離出單個相似矩陣的噪聲信息,降低噪聲影響并匯總4個特征矩陣的波段聚類結(jié)構(gòu)信息。
研究表明,核范數(shù)和L1范數(shù)能夠分別很好地近似表達低秩和L0范數(shù)約束條件(Sun 等,2017b)。因此,綜合相似矩陣B的求解轉(zhuǎn)換為一個凸優(yōu)化問題:
目標函數(shù)式(3)的拉格朗日方程可以展開為
式中,Λ(i)和Δ 是拉格朗日乘子,μ是懲罰參數(shù),tr(·)是矩陣的跡。在t+1 次循環(huán)中,當固定其他變量時,變量Q的更新可以轉(zhuǎn)換為
進一步,式(5)可以等價轉(zhuǎn)換為
類似地,固定其他變量,求解式(8)來更新變量E(i)
接下來,固定其他變量,求解式(9)來更新變量B,
最后,固定其他變量,來依次更新拉格朗日乘子Δ(t+1)和,
利用優(yōu)化估計的綜合相似矩陣B^,采用譜聚類方法來選取最優(yōu)波段子集。首先,利用B^ 來計算歸一化拉普拉斯矩陣。其次,通過本征值分解來得到矩陣U,其每一列為拉普拉斯矩陣的前k個最小的非零本征值對應的本征向量。接下來,將矩陣U的每一列進行歸一化處理,采用K-均值聚類方法來聚類至k個不同的類別中。最后,選擇每一類中距離中心最近的行向量對應的波段來構(gòu)成波段子集。RMSC選取k個波段的技術(shù)流程包括:
(1)轉(zhuǎn)換高光譜影像數(shù)據(jù)立方體為二維的波段矩陣Y,利用SID,CC,SAD 和LG 度量,分別構(gòu)建4個特征的波段相似矩陣;
(2)構(gòu)建多特征譜聚類模型(2),將每個特征的相似矩陣分解為低秩矩陣和稀疏誤差矩陣項;
(3)采用ALM算法來依次求解式(7)—(11),得到最優(yōu)的波段綜合相似矩陣B^;
(4)采用譜聚類方法來聚類綜合相似矩陣B^,劃分所有波段到k個不同的類別中;
(5)從各個聚類中尋找靠近中心最近的波段來選取得到最終的波段集Φ =Y(:,κ)。
Indian Pines 數(shù)據(jù)由美國普渡大學的遙感應用實驗室提供,于1992-06-12 通過美國JPL 成像光譜儀采集得到。影像的空間分辨率為20 m,光譜區(qū)間為200—2400 nm,預處理后的波段數(shù)為200 個。圖1 為美國印第安納州西拉法葉地區(qū)西部8 km 的一小塊區(qū)域,影像大小為145×145像素,包含16類地物,其真實樣本信息見表1。
圖1 Indian Pines影像Fig.1 The Indian Pines image
表1 Indian Pines數(shù)據(jù)的地物真實樣本信息Table 1 Ground truth of main classes on Indian Pines
PaviaU數(shù)據(jù)由自西班牙巴斯克大學智能課題組提供,由ROSIS 成像光譜儀采集得到,共103個波段,空間分辨率為1.3 m,光譜區(qū)間為430—860 nm。圖2 為帕維亞大學區(qū)域的部分影像,大小為610×340像素,包含9類地物,其真實樣本信息見表2。
圖2 PaviaU影像Fig.2 The PaviaU image
表2 PaviaU數(shù)據(jù)的地物真實樣本信息Table 2 Ground truth of main classes on PaviaU
本節(jié)采用Indian Pines 和PaviaU 數(shù)據(jù)集,設(shè)計分類實驗來驗證RMSC 方法。對比的主流波段選擇方法包括聚類策略方法WaluDI(Martínez-Usómartinez-Uso 等,2007)、排序策略方法快速密度峰值聚類方法FDPC(Fast Density-Peak based Clustering)(Jia 等,2016)、正交投影方法OPBS(Orthogonal Projections based Band Selection)(Zhang等,2018)和稀疏策略方法ISSC。同時,對比傳統(tǒng)譜聚類方法SC-SID,其采用的波段相似特征性度量為光譜信息散度SID。實驗分類器采用支持向量機SVM(Support Vector Machine),定量評價指標為總體分類精度OCA(Overall Classification Accuracy)。SVM 的核函數(shù)采用徑向基函數(shù),采用交叉驗證方法來確定方差和懲罰因子的參數(shù)取值(https://www.csie.ntu.edu.tw/~cjlin/libsvm/[2019-05-25])。對每個數(shù)據(jù)集進行10 次進行獨立試驗,得到下述平均結(jié)果。
(1)不同波段子集大小的分類精度對比。Indian Pines 和PaviaU 數(shù)據(jù)集中波段數(shù)的選擇區(qū)間為5—60,步長為5,隨機選取10%作為訓練樣本,其余作為測試樣本。Indian Pines 和PaviaU 數(shù)據(jù)集中,ISSC 的正則化因子分別取值為0.1 和0.001;RMSC的正則化因子分別取值為0.005和0.001。
圖4 可以看出,OPBS 的OCA 曲線低于其他方法。RMSC 的OCA 在6 種方法中表現(xiàn)最優(yōu),高于SC-SID,這表明綜合相似矩陣相比單一相似矩陣用于選擇波段子集的顯著優(yōu)勢。RMSC 的OCA 略高于ISSC。這是因為RMSC 采用綜合相似矩陣,降低噪聲負面影響并提升波段相似矩陣的信息量,從而提升波段選取效果。圖3 和圖5 為各種方法在波段數(shù)量為30 時得到的分類結(jié)果圖。RMSC 波段子集的分類精度高于其他5 種方法,與圖4 的結(jié)果保持一致。因此,在不同波段數(shù)量的條件下,RMSC的總體分類精度OCA表現(xiàn)最優(yōu)。
圖3 不同方法在Indian Pines數(shù)據(jù)的SVM分類圖Fig.3 Different classification maps of Indian Pines
圖4 不同波段子集下的各種方法的OCA曲線對比Fig.4 The comparison of different OCA curves with different number of selected bands
圖5 不同方法在PaviaU數(shù)據(jù)的SVM分類圖Fig.5 Different classification maps of PaviaU
(2)不同訓練樣本大小下的分類結(jié)果對比。實驗中的采樣比率區(qū)間為[0.05,0.1,0.15,0.2,0.25,0.3,0.35,0.4,0.45,0.5],波段子集大小k都設(shè)置為30。圖6 為RMSC 和其他幾種方法的總體分類精度OCA 曲線圖,總體結(jié)果與上述實驗保持一致。隨著訓練樣本的采樣百分比增加,各種方法的總體分類精度OCA 逐漸提升。OPBS的OCA最低;FDPC 和WaluDI 的OCA 曲線高于OPBS,但明顯低于ISSC、SC-SID 和RMSC。RMSC 的OCA在所有方法中表現(xiàn)最優(yōu),優(yōu)于SC-SID和ISSC。
圖6 不同訓練樣本大小下的各種波段選擇方法的OCA曲線Fig.6 OCA curves of different methods with different size of training samples per class
(3)不同方法的計算效率對比。表3為不同波段子集大小條件下各種方法的計算時間,兩個數(shù)據(jù)的波段子集大小的取值范圍均為10—50。實驗的計算平臺為戴爾Win10臺式計算機,硬件配置為Inter Xeon Gold 6130 CPU 2.10 GHz 和64 GB 內(nèi)存,代碼的執(zhí)行環(huán)境為MATLAB 2014a。各種方法的計算時間隨著波段數(shù)量增加逐漸上升。結(jié)合實驗(1)和(2),可以看出,OPBS 方法的波段選擇效果較差,但計算速度較快。WaluDI 的計算效率最低,選取的波段子集卻優(yōu)于FDPC 和OPBS。FDPC 和OPBS 的計算效率相比最高,但選取的波段子集結(jié)果較差。ISSC、SC-SID 和RMSC 的計算效率較高,尤其ISSC 和SC-SID,但RMSC 波段子集的分類精度最高。
表3 不同波段選擇方法的計算時間對比Table 3 Lists of computational time from different methods on two datasets
(4)參數(shù)λ對RMSC 波段子集的影響分析。實驗中,Indian Pines和PaviaU 數(shù)據(jù)的波段子集大小k設(shè)置為30,參數(shù)λ的選擇區(qū)間為[0.001,0.005,0.01,0.05,0.1,0.5,1,5,10]。表4 列出Indian Pines 和PaviaU 數(shù)據(jù)中不同λ對應的總體分類精度OCA??梢钥闯?,隨著λ的逐漸增加,RMSC 波段子集的OCA 呈現(xiàn)波動但總體較為穩(wěn)定。因此,參數(shù)λ的選擇對RMSC 的影響有限,可以選擇較小的λ來確保波段子集的較高分類精度。
表4 不同正則化參數(shù)λ下的RMSC總體分類精度Table 4 The OCA of RMSC with different choices of regularized parameter λ
本文提出魯棒多特征譜聚類RMSC模型來克服傳統(tǒng)譜聚類方法中相似特征矩陣的不足,提升傳統(tǒng)SC 用于高光譜波段選擇的相似特征信息量,改善波段選擇結(jié)果。RMSC 認為波段選擇的目的為選取信息量大、相關(guān)性低且差異性強的波段子集。該方法整合光譜信息散度、相關(guān)系數(shù)、光譜角度距離和拉普拉斯圖譜4個度量項的相似矩陣,轉(zhuǎn)換波段綜合相似矩陣的求解問題為單一相似矩陣的稀疏低秩分解模型;利用ALM 方法來優(yōu)化求解目標函數(shù),采用譜聚類方法來選取最佳波段子集?;贗ndian Pines 和PaviaU 數(shù)據(jù)來設(shè)計4 組實驗,驗證RMSC方法的效果。實驗結(jié)果表明,在不同的波段子集大小和不同地物的訓練樣本采樣比例條件下,RMSC 波段子集的OCA 明顯優(yōu)于其他5 種主流方法WaluDI、FDPC、OPBS、ISSC 和SC-SID,而且計算效率較高。同時,正則化參數(shù)λ對RMSC波段子集的分類效果影響較小,較小的λ能夠帶來較高分類精度。后續(xù)工作將對比更多的波段選擇方法,采用更多的數(shù)據(jù)集包括國產(chǎn)GF-5 衛(wèi)星高光譜影像來進一步驗證本文提出的方法。