馬斯宇 劉德山 閆德勤 丁一民
摘? 要:高光譜圖像包含光譜和空間信息,這增加了其在分類與識別方面的難度。特征學(xué)習(xí)作為高光譜圖像分類技術(shù)之一,能較好地提取圖像中包含的特征。針對經(jīng)典極限學(xué)習(xí)機算法難以較好地提取光譜特征,引入特征學(xué)習(xí)技術(shù),提出了一種基于判別信息的復(fù)合核極限學(xué)習(xí)機(CKELM-L)方法。CKELM-L通過最大化類間矩陣與最小化類內(nèi)矩陣,使投影后的低維數(shù)據(jù)同類越近而異類越遠(yuǎn)。實驗結(jié)果表明,所提方法保留了更好的光譜特征,計算復(fù)雜度低且實現(xiàn)了出色的可分離性。
關(guān)鍵詞:極限學(xué)習(xí)機;高光譜圖像分類;線性判別分析;特征學(xué)習(xí)
中圖分類號:TP391? ? ?文獻(xiàn)標(biāo)識碼:A
文章編號:2096-1472(2021)-09-32-06
Abstract: Hyperspectral images contain spectral and spatial information, which increases the difficulty of classification and recognition. Feature learning, as one of the hyperspectral image classification techniques, can better extract features contained in the image. Aiming at the difficulty of classical extreme learning machine algorithms in extracting spectral features, this paper introduced feature learning technology, and proposes a composite kernel extreme learning machine (CKELM-L) method based on discriminant information. CKELM-L maximizes the between-class matrix and minimizes the intra-class matrix, so that the projected low-dimensional data is closer to the same class and farther away from the different class. Experimental results show that the proposed method retains better spectral features, low computational complexity and achieves excellent separability.
Keywords: extreme learning machine; hyperspectral image classification; linear discriminant analysis; feature learning
1? ?引言(Introduction)
高光譜圖像(Hyperspectral Image, HSI)包含大量數(shù)據(jù)和冗余信息,并且波段間具有高度相關(guān)性[1]。因此,在不丟失有用信息的前提下,高光譜圖像的特征學(xué)習(xí)[2]可以獲得更準(zhǔn)確、可靠的信息。
HUANG等人提出了一種基于單隱層前饋神經(jīng)網(wǎng)絡(luò)的求解方法——極限學(xué)習(xí)機(Extreme Learning Machine, ELM)[3],與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)相比,其學(xué)習(xí)速度較快,泛化性能較好。但ELM及其改進(jìn)算法并未充分考慮HSI分布信息中的判別特征和數(shù)據(jù)中的局部幾何結(jié)構(gòu)。引入特征學(xué)習(xí)技術(shù)[4]可以解決上述問題。線性判別分析(Linear Discriminant Analysis, LDA)[5-6]是一種有效的特征學(xué)習(xí)技術(shù),主要用于圖像分類和特征縮減[7]。本文提出一種基于判別信息的復(fù)合核極限學(xué)習(xí)機(CKELM-L)。對于數(shù)據(jù)樣本分類問題,CKELM-L可以考慮到數(shù)據(jù)樣本中的局部幾何結(jié)構(gòu)和圖像分布信息中的判別特征,通過最大化類間距離和最小化類內(nèi)距離,優(yōu)化極限學(xué)習(xí)機的輸出權(quán)重,增強KELM在有限的高光譜圖像訓(xùn)練樣本下的分類性能,從而在一定程度上提高ELM的學(xué)習(xí)速度、泛化性能及辨識精度。
2? ?KELM算法(KELM algorithm)
ELM是一種訓(xùn)練單隱層前饋神經(jīng)網(wǎng)絡(luò)的算法,通過隨機生成輸入層和隱藏層之間的輸入權(quán)值和偏差,利用最小二乘法直接求出隱藏層與輸出層關(guān)聯(lián)的輸出權(quán)值矩陣。
對于利用個訓(xùn)練樣本來區(qū)分個類別的傳統(tǒng)分類問題,第個訓(xùn)練樣本可以表示為,其中是一個的輸入向量;是對應(yīng)的的輸出向量,即,,那么具有個隱藏層節(jié)點的隱藏層輸出為:
其中,和分別表示第個隱藏層節(jié)點的權(quán)重和偏差,表示神經(jīng)網(wǎng)絡(luò)的激活函數(shù),表示將第個隱藏層節(jié)點連接到輸出層節(jié)點的權(quán)重向量。則:
其中,為隱藏層輸出矩陣,為輸出權(quán)值矩陣,為期望輸出矩陣。
在式(2)中,只有是未知的,因此采用最小二乘算法來獲取解,可以描述如下:
其中,表示隱藏層輸出矩陣的Moore-Penrose廣義逆。
為了提高傳統(tǒng)ELM的泛化性能,HUANG從優(yōu)化的角度訓(xùn)練ELM[8],將和同步最小化,因此等式優(yōu)化約束的ELM可以表示為:
其中,表示個輸出節(jié)點相對于訓(xùn)練樣本的訓(xùn)練誤差向量;表示懲罰因子,是在訓(xùn)練誤差最小化和普遍性最大化之間的權(quán)衡。根據(jù)Karush-Kuhn-Tucker(KKT)定理,式(3)可描述如下:
由式(5)可得ELM的輸出函數(shù)為:
在ELM算法中,隱藏層節(jié)點的權(quán)重和偏差是已知的。如果隱藏層節(jié)點的權(quán)重和偏差未知,則可以采用如下方法定義ELM的內(nèi)核矩陣。
與支持向量機(Support Vector Machines, SVM)[9]相似,可以使用內(nèi)核將式(6)中的傳統(tǒng)ELM推廣到具有內(nèi)核的ELM。具體地說,可以用以下核函數(shù)代替和的計算中涉及的內(nèi)積運算:。替換后,使用輸出函數(shù)獲得內(nèi)核ELM(KELM)。
3? ?CKELM-L算法(CKELM-L algorithm)
在分類中,當(dāng)空間的維數(shù)增大,訓(xùn)練集的大小固定時,經(jīng)常會遇到休斯現(xiàn)象(又稱維數(shù)詛咒)[10]。特征學(xué)習(xí)可以很好地解決這一問題。LDA[11]是特征學(xué)習(xí)中常用的一種提取特征方法。LDA使用每個類的平均向量和協(xié)方差矩陣來形成類內(nèi)、類間散布矩陣。基于Fisher準(zhǔn)則,在低維空間中尋找類間離差與類內(nèi)平均離差之比最大的特征。因此,本文提出一種基于判別信息的復(fù)合核極限學(xué)習(xí)機(CKELM-L)。
3.1? ?CKELM-L算法
首先采用線性判別分析方法對數(shù)據(jù)樣本進(jìn)行處理,提取具有判別信息的特征數(shù)據(jù)。是第類樣本的集合,是第類樣本的個數(shù),和是所有訓(xùn)練樣本的數(shù)量?;贔isher準(zhǔn)則,投影到的維低維空間的樣本矩陣為,其中是由向量組成的,該樣本矩陣即為具有判別信息特征數(shù)據(jù)的樣本矩陣,則可被表示為:
根據(jù)HSI的光譜空間均勻分布特性[12-13],分類時應(yīng)該考慮空間像素與光譜像素間的相關(guān)性[14-17]。因此采用復(fù)合核(Composite Kernels, CK)方法[18-23]執(zhí)行空間光譜分類。在CK方法中,首先使用局部空間特征提取方法來提取空間特征,然后使用提取的空間特征和光譜特征來計算光譜核和空間核,它們被組合以形成CK。
對于給定的像素,分別將其光譜和空間特征表示為和。光譜特征向量是原始由所有頻帶上的光譜反射值組成。空間特征是從像素的局部空間鄰域提取并且定義為的空間鄰域中的像素均值。構(gòu)造了光譜和空間特征和后,分別計算相應(yīng)的空間核和光譜核。
綜上所述,本文的主要貢獻(xiàn)如下:
(1)提出的算法繼承了ELM的優(yōu)點,優(yōu)化了ELM的特征提取。
(2)將線性判別信息引入ELM中,充分學(xué)習(xí)了數(shù)據(jù)樣本中的局部幾何結(jié)構(gòu)和圖像分布信息中的判別特征。
(3)將多個核函數(shù)引入ELM算法中,優(yōu)化ELM分類器。
(4)利用ELM本身求解過程中的廣義逆法(即最小二乘法)有效地解決了引入線性判別信息后矩陣奇異問題。
3.2 算法步驟
輸入:
HSI原始三維數(shù)據(jù)集
輸出:
HSI數(shù)據(jù)集中每個測試像素的預(yù)測標(biāo)簽
1.初始化數(shù)據(jù)集
2.采用式(9)、式(10)計算類間散布矩陣和類內(nèi)散布矩陣
3.根據(jù)求得的和計算投影后矩陣
4.采用式(14)、式(15)計算空間核和光譜核
5.將計算得到的空間核和光譜核送入KELM框架中
6.通過CKELM-L分為訓(xùn)練和測試數(shù)據(jù)集,將其分類
7.為HSI返回每個測試像素的預(yù)測標(biāo)簽
4? ? 實驗與結(jié)果分析(Experiment and result analysis)
4.1? ?實驗數(shù)據(jù)集
為了驗證所提出的CKELM-L方法的性能,本文使用了三個可公開獲得的HSI數(shù)據(jù)集Indian Pines、University of Pavia和Salinas Scene。如圖1至圖3所示的三幅圖展示了三個數(shù)據(jù)集的三波段偽彩色圖和真實地面圖。
4.2? ?實驗結(jié)果與分析
為驗證本文所提算法在高光譜圖像分類過程中的有效性,對照實驗選擇傳統(tǒng)的分類算法ELM[17]、KELM、SVM[9],具有復(fù)合核函數(shù)的算法ELMCK[18]、KELMCK[18]、SVMCK[18]和目前較新穎的HiFi[23]算法進(jìn)行綜合比較。采用四個廣泛使用的評價指標(biāo),即類內(nèi)分類準(zhǔn)確性(CA)、總體準(zhǔn)確性(OA)、平均準(zhǔn)確性(AA)和kappa系數(shù)[19]評估三個HSI數(shù)據(jù)集上所有算法的分類性能。
在傳統(tǒng)ELM方法中,使用Sigmoid函數(shù),隱藏層參數(shù)基于范圍[-1,1]均勻分布隨機生成,并且隱藏層節(jié)點的數(shù)量設(shè)置為1,000。對于CK方法,即SVMCK、ELMCK和KELMCK,其組合系數(shù)設(shè)置為0.8。對于所有基于核的算法,使用高斯徑向基函數(shù)RBF核。這些方法中涉及的RBF核參數(shù)在范圍中,懲罰參數(shù)的范圍從到。在上述方法中,使用三重交叉驗證和網(wǎng)格搜索策略來確定參數(shù)或的最優(yōu)值。
對比實驗都是在一臺配備Intel(R) Core(TM) 3.20 GHz CPU和帶有MATLAB R2016b的8 GB RAM的計算機上進(jìn)行的。為了避免偏差,通過重復(fù)實驗10 次來平均給出的實驗結(jié)果。
4.2.1? ?Indian Pines數(shù)據(jù)集實驗結(jié)果
在實驗中,根據(jù)文獻(xiàn)[20],對16 類真實數(shù)據(jù)選取10%作為訓(xùn)練樣本總計1,031 個,其余9,218 個數(shù)據(jù)作為測試樣本。不同分類算法對Indian Pines數(shù)據(jù)集的分類結(jié)果如表1所示,圖4給出了在Indian Pines數(shù)據(jù)集上分類結(jié)果圖對比。
表1首先給出了在Indian Pines數(shù)據(jù)集上固定訓(xùn)練樣本個數(shù)后不同算法的類內(nèi)分類準(zhǔn)確性(CA),同時給出了總體準(zhǔn)確性(OA)、平均準(zhǔn)確性(AA)和kappa系數(shù)。通過比較7 種算法的OA、AA和kappa系數(shù)可以很清楚地看到,本文所提算法具有最優(yōu)的分類效果,根據(jù)CA可以看出,在16 類數(shù)據(jù)樣本中本文所提算法有10 類的準(zhǔn)確率要高于其他算法。與傳統(tǒng)分類算法KELM相比總體準(zhǔn)確性提高17.67%,與帶有傳統(tǒng)CK方法的KELMCK相比總體準(zhǔn)確性提高1.33%,與目前較新穎的算法HiFi算法相比總體準(zhǔn)確性提高10.32%。
4.2.2? ?University of Pavia數(shù)據(jù)集實驗結(jié)果
在實驗中,對9 類真實數(shù)據(jù)選取1%作為訓(xùn)練樣本總計432 個,其余42,344 個數(shù)據(jù)作為測試樣本。不同分類算法對University of Pavia數(shù)據(jù)集的分類結(jié)果如表2所示,圖5給出了在University of Pavia數(shù)據(jù)集上分類結(jié)果圖對比。
表2首先給出了在University of Pavia數(shù)據(jù)集上固定訓(xùn)練樣本個數(shù)后不同算法的類內(nèi)分類準(zhǔn)確性(CA),也給出了總體準(zhǔn)確性(OA)、平均準(zhǔn)確性(AA)和kappa系數(shù)。通過比較7 種算法的OA、AA和kappa系數(shù)可以很清楚地看到,本文所提算法具有最優(yōu)的分類效果,根據(jù)CA可以看出,在9 類數(shù)據(jù)樣本中本文所提算法有7 類的準(zhǔn)確率要高于其他算法。與傳統(tǒng)分類算法KELM相比總體準(zhǔn)確性提高12.66%,與帶有傳統(tǒng)CK方法的KELMCK相比總體準(zhǔn)確性提高7.36%,與目前較新穎的算法HiFi算法相比總體準(zhǔn)確性提高11.41%。
4.2.3? ?Salinas Scene數(shù)據(jù)集實驗結(jié)果
在實驗中,對16 類真實數(shù)據(jù)選取5%作為訓(xùn)練樣本總計2,713 個,其余51,416 個數(shù)據(jù)作為測試樣本。不同分類算法對Salinas Scene數(shù)據(jù)集的分類結(jié)果如表3所示,圖6給出了在Salinas Scene數(shù)據(jù)集上分類結(jié)果圖對比。
表3首先給出了在Salinas Scene數(shù)據(jù)集上固定訓(xùn)練樣本個數(shù)后不同算法的類內(nèi)分類準(zhǔn)確性(CA),同時給出總體準(zhǔn)確性(OA)、平均準(zhǔn)確性(AA)和kappa系數(shù)。通過比較7 種算法的OA、AA和kappa系數(shù)可以很清楚地看到,本文所提算法具有最優(yōu)的分類效果,根據(jù)CA可以看出,在16 類數(shù)據(jù)樣本中本文所提算法有11 類的準(zhǔn)確率要高于其他算法。與傳統(tǒng)分類算法KELM相比總體準(zhǔn)確性提高6.62%,與帶有傳統(tǒng)CK方法的KELMCK相比總體準(zhǔn)確性提高0.52%,與目前較新穎的算法HiFi算法相比總體準(zhǔn)確性提高7.07%。
5? ?結(jié)論(Conclusion)
本文提出了一種基于判別信息的復(fù)合核極限學(xué)習(xí)機(CKELM-L)的HSI分類模型。該模型采用線性判別分析(LDA)算法對HSI進(jìn)行提取特征。利用空間特征和提取的光譜特征,采用CKELM對HSI數(shù)據(jù)集進(jìn)行分類,可以大大提高分類性能。通過在三個真實可用的HSI數(shù)據(jù)集上的實驗和比較,證實了該模型與其他算法相比具有較好的分類效果,表明圖像分布信息中潛在的判別特征有利于HSI分類任務(wù)。然而,本文所提算法仍存在一些不足,對數(shù)據(jù)進(jìn)行分類時,由于數(shù)據(jù)含有噪聲點等干擾信息,使得提出的算法在HSI數(shù)據(jù)的某些類別中不能較好地分類。在未來的工作中,將引入各種平滑噪聲和消除干擾信息的方法,對HSI進(jìn)行更好的分類。
參考文獻(xiàn)(References)
[1] CAI Y, LIU X, CAI Z. BS-Nets: An End-to-End framework for band selection of hyperspectral image[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 58(3):1969-1984.
[2] 任越美.高光譜圖像特征提取與分類方法研究[D].西安:西北工業(yè)大學(xué),2017.
[3] HUANG G B, ZHU Q Y, SIEW C K. Extreme learning machine: A new learning scheme of feedforward neural networks[C]// EE Engineers. 2004 IEEE International Joint Conference on Neural Networks (IEEE Cat. No. 04CH37541). Budapest, Hungary: IEEE, 2004:985-990.
[4] 李思.復(fù)雜光照下圖像特征提取技術(shù)研究[D].西安:長安大學(xué),2018.
[5] JOY A A, HASAN M A M, HOSSAIN M A. A comparison of supervised and unsupervised dimension reduction methods for hyperspectral image classification[C]// BHUIYAN M A M. 2019 International Conference on Electrical, Computer and Communication Engineering (ECCE). Cox's Bazar: IEEE, 2019:1-6.
[6] ZHENG X, YUAN Y, LU X. Dimensionality reduction by spatial-spectral preservation in selected bands[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(9):5185-5197.
[7] 阿茹罕,何芳,王標(biāo)標(biāo).加權(quán)空-譜主成分分析的高光譜圖像分類[J].國土資源遙感,2019,31(2):17-23.
[8] HUANG G B. An insight into extreme learning machines: Random neurons, random features and kernels[J]. Cognitive Computation, 2014, 6(3):376-390.
[9] MELGANI F, BRUZZONE L. Classification of hyperspectral remote sensing images with support vector machines[J]. IEEE Transactions on Geoscience and Remote Sensing, 2004, 42(8):1778-1790.
[10] CAO F, YANG Z, REN J, et al. Sparse representation-based augmented multinomial logistic extreme learning machine with weighted composite features for spectral-spatial classification of hyperspectral images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(11):6263-6279.
[11] FUKUNAGA K. Introduction to statistical pattern recognition[M]. New York: Elsevier, 2013:256-483.
[12] CAO F, YANG Z, REN J, et al. Local block multilayer sparse extreme learning machine for effective feature extraction and classification of hyperspectral images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(8):5580-5594.
[13] ZHOU L, MA L. Extreme learning machine-based heterogeneous domain adaptation for classification of hyperspectral images[J]. IEEE Geoscience and Remote Sensing Letters, 2019, 16(11):1781-1785.
[14] MOU L, BRUZZONE L, ZHU X X. Learning spectral-spatial-temporal features via a Recurrent Convolutional Neural Network for change detection in multispectral imagery[J]. IEEE Transactions on Geoscience & Remote Sensing, 2018, 57(2):924-935.
[15] MEI X, PAN E, MA Y, et al. Spectral-spatial attention networks for hyperspectral image classification[J]. Remote Sensing, 2019, 11(8):963-981.
[16] SHU L, MCISAAC K, OSINSKI G R. Learning spatial-spectral features for hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(9):5138-5147.
[17] BAZI Y, ALAJLAN N, MELGANI F, et al. Differential evolution extreme learning machine for the classification of hyperspectral images[J]. IEEE Geoscience and Remote Sensing Letters,? 2013, 11(6):1066-1070.
[18] ZHOU Y, PENG J, CHEN C L P. Extreme learning machine with composite kernels for hyperspectral image classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2014, 8(6):2351-2360.
[19] MARCONCINI M, CAMPS-VALLS G, BRUZZONE L. A composite semisupervised SVM for classification of hyperspectral images[J]. IEEE Geoscience and Remote Sensing Letters, 2009, 6(2):234-238.
[20] RICHARDS J A, JIA X. Remote sensing digital image analysis[M]. Berlin: Springer, 1999:146-303.
[21] TU B, ZHANG X, KANG X, et al. Hyperspectral image classification via fusing correlation coefficient and joint sparse representation[J]. IEEE Geoscience and Remote Sensing Letters, 2018, 15(3):340-344.
[22] CAMPS-VALLS G, GOMEZ-CHOVA L, MUNOZ-MARI J, et al. Composite kernels for hyperspectral image classification[J]. IEEE Geoscience and Remote Sensing Letters, 2006, 3(1):93-97.
[23] PAN B, SHI Z, XU X. Hierarchical guidance filtering-based ensemble classification for hyperspectral images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(7):4177-4189.
作者簡介:
馬斯宇(1995-),女,碩士生.研究領(lǐng)域:模式識別,機器學(xué)習(xí).
劉德山(1970-),男,碩士,教授.研究領(lǐng)域:機器學(xué)習(xí),智能信息處理,模式識別.
閆德勤(1962-),男,博士,教授.研究領(lǐng)域:模式識別,機器學(xué)習(xí).
丁一民(1997-),男,碩士生.研究領(lǐng)域:模式識別,機器學(xué)習(xí).