李淑英,程 磊,彭柏棟,張 強
(西安郵電大學(xué) 自動化學(xué)院,陜西 西安 710121)
高光譜遙感圖像由成像光譜儀獲得的大量連續(xù)的光譜波段組成,其能夠獲取地物上百個連續(xù)光譜波段的信息,有效增強地物區(qū)分能力,已被廣泛地應(yīng)用于經(jīng)濟、農(nóng)業(yè)及軍事等諸多領(lǐng)域[1]。然而,過多的光譜波段使得地物分類精度會隨著波段維數(shù)的增大而呈現(xiàn)先增后減的趨勢,使用數(shù)據(jù)降維的預(yù)處理方法可以有效降低光譜波段維數(shù)避免這種趨勢發(fā)生。分類是高光譜圖像應(yīng)用的一項重要內(nèi)容,其目的是為了給圖像中的每個像元標(biāo)識類別[2],但高光譜遙感影像的數(shù)據(jù)高維性會增加計算成本,降低分類器的分類精度,而機器學(xué)習(xí)和模式識別理論方法具有對新樣本進行預(yù)測的特點,可有效利用現(xiàn)有少量樣本的情況下實現(xiàn)并提高高光譜遙感圖像的分類精度。
高光譜遙感數(shù)據(jù)降維方法主要分為特征提取和波段選擇兩類。特征提取是通過映射和變換的方法將波段空間的高維數(shù)據(jù)變換為特征空間的低維數(shù)據(jù)[3],如主成分分析[4]及最小噪聲分離[5]等。特征提取能迅速減少特征數(shù)目,但會損失原始數(shù)據(jù)的物理意義。與特征提取相比,波段選擇能夠保留遙感數(shù)據(jù)的原始特征和物理意義。波段選擇是從原始的光譜波段集中選擇出部分最具代表性的波段子集,也可有效降低數(shù)據(jù)緯度,如最佳指數(shù)子法[6](Optimal Index Factor,OIF)、自適應(yīng)波段選擇法[7](Adaptive Band Selection,ABS)等。但是,OIF算法計算量過大、運算效率較低,而ABS算法計算量大且易獲得連續(xù)波段,此類波段的相關(guān)性較高,依舊導(dǎo)致數(shù)據(jù)冗余問題。為了彌補這些缺陷,近年來不斷有研究者對傳統(tǒng)算法進行改進。文獻[8]將K-mean聚類與ABS算法結(jié)合,降低了模型的復(fù)雜度。但是,該算法在聚類過程舍棄了大量信息熵較大的波段,并未考慮這些波段是否有助于提升分類精度。文獻[9]使用貝葉斯優(yōu)化后的隨機森林模型對波段進行特征評估,從而實現(xiàn)高光譜數(shù)據(jù)降維。同時,文獻[10]提出隨機森林-遞歸特征消除(Random Forest-Recursion Feature Elimination,RF-RFE),該方法將隨機森林特征評估和遞歸特征消除結(jié)合。但是,上述兩種算法都存在保留連續(xù)波段的問題,過多的連續(xù)波段依舊會造成光譜信息的冗余,不利于后續(xù)的分類任務(wù)。
機器學(xué)習(xí)算法常用于完成高光譜遙感圖像的分類任務(wù),如隨機森林、支持向量機(Support Vector Machines,SVM)、K最鄰近(K-Nearest Neighbor,KNN)等。隨機森林(Random Forest,RF)分類器因集成學(xué)習(xí)的思想,比單一分類器算法更適合解決特征維數(shù)高的數(shù)據(jù)。在進行分類任務(wù)前,需對分類器的超參數(shù)進行設(shè)定,一組最優(yōu)超參數(shù)可以有效提高分類器的性能。目前,常用的優(yōu)化算法有網(wǎng)格搜索[11](Grid Search,GS)、隨機搜索(Random Search,RS)等算法。但是,GS算法為貪心算法,其搜索效率較為低下,而RS算法的每次尋優(yōu)結(jié)果無法保證一致。因此,需要對經(jīng)典尋優(yōu)算法進行優(yōu)化,基于改進網(wǎng)格搜索的隨機森林參數(shù)優(yōu)化算法使用粗細網(wǎng)格劃分的網(wǎng)格搜索進行超參數(shù)搜索[12],但該算法并未脫離貪心算法的范疇,時間成本仍然較大。文獻[13]在文本分類領(lǐng)域?qū)㈦S機搜索和網(wǎng)格搜索結(jié)合,一定程度上彌補了網(wǎng)格搜索的缺陷,但該算法受限于隨機搜索的結(jié)果,得到局部最優(yōu)解可能性較高。
為了改善目前波段選擇降維方法存在去冗余能力不足及分類器超參數(shù)尋優(yōu)算法的時間成本高、尋優(yōu)結(jié)果不穩(wěn)定的問題,擬提出一種優(yōu)化隨機森林的高光譜圖像降維及分類算法(Optimized Random Forest Algorithm for Hyperspectral Image Dimensionality Reduction and Classification,ORFDRC)。所提算法包括數(shù)據(jù)預(yù)處理和構(gòu)建高光譜遙感圖像分類模型兩部分內(nèi)容。在數(shù)據(jù)預(yù)處理部分,提出增強型隨機森林降維(Enhanced Random Forest Dimension Reduction,ERFDR)的高光譜數(shù)據(jù)降維算法,通過聯(lián)合互信息的隨機森林特征評估對原始高光譜全體波段進行初步降維。其次,使用自適應(yīng)臨近波段融合進行新特征的構(gòu)建。最后,將原始光譜特征和新特征進行評估替換完成新特征集的構(gòu)建。在高光譜遙感圖像分類模型構(gòu)建部分,提出網(wǎng)格-爬山(Grid-Hill Climbing,GHC)算法,將網(wǎng)格搜索及爬山算法[14](Hill Climbing,HC)結(jié)合,對RF分類器進行超參數(shù)優(yōu)化,并構(gòu)建優(yōu)化后的GHC-RF分類器。 將ORFDRC算法與KNN及SVM兩種算法在設(shè)定相同測試樣本比例的情況下進行對比,驗證所提算法的有效性。
隨機森林算法屬于并行生成的集成學(xué)習(xí)算法。集成的思想使得隨機森林算法在處理類標(biāo)簽不平衡數(shù)據(jù)的過程中更具有優(yōu)勢,更適合高光譜數(shù)據(jù)的處理。將隨機森林應(yīng)用于高光譜圖像的分類中,從而將進一步提升高光譜遙感圖像在農(nóng)業(yè),軍事等領(lǐng)域的地物分類的精度。隨機森林算法結(jié)構(gòu)具體如圖1所示。
圖1 隨機森林算法結(jié)構(gòu)
隨機森林采用有放回采樣方法從總訓(xùn)練集中抽取訓(xùn)練樣本,產(chǎn)生多個子訓(xùn)練集,再由每個訓(xùn)練集各自構(gòu)造決策樹進行分類,最后對決策樹進行投票得到最優(yōu)結(jié)果[15]。隨機森林中每棵決策樹的訓(xùn)練集約含有原始訓(xùn)練集2/3的樣本,剩余1/3樣本構(gòu)成袋外數(shù)據(jù)。對于每一棵決策樹,使用相應(yīng)的袋外數(shù)據(jù)計算其袋外誤差,可用于特征評估。特征重要性[16]的表達式為
(1)
式中:a為波段編號;e1表示波段未加入擾動袋外誤差;e2表示加入擾動的袋外誤差;c表示決策樹的個數(shù)。
對波段a的值進行擾動,如果擾動前后分類正確率變化較大,說明該波段在分類器中貢獻較高,此時e1-e2的值將會很大。因此,I(a)值越大,該波段對于分類越重要,可根據(jù)不同數(shù)據(jù)集保留重要性得分前25%~50%的波段。
超參數(shù)是模型學(xué)習(xí)過程前設(shè)置值的參數(shù),一組最優(yōu)超參數(shù)可提高分類器的分類性能。超參數(shù)優(yōu)化算法的任務(wù)是在盡可能短的時間內(nèi)找到超參數(shù)值的最優(yōu)組合,充分發(fā)揮分類器性能。常見的優(yōu)化算法有網(wǎng)格搜索、爬山算法及模擬退火等。
GS算法是一種窮舉方法。給定一系列超參數(shù),從全部超參數(shù)組合中窮舉遍歷,找出最優(yōu)解。當(dāng)需要設(shè)定兩個超參數(shù)時,每種超參數(shù)各有一組候選參數(shù),將兩組參數(shù)組合即可得到一個二維的網(wǎng)格,遍歷網(wǎng)格中的所有節(jié)點,選出最優(yōu)解。但是,該算法比較消耗資源和時間,當(dāng)超參數(shù)比較多的時候這一缺點更加突出。
HC算法是一種啟發(fā)式局部擇優(yōu)算法,其利用反饋信息幫助生成解的決策。該算法模擬爬山的過程,隨機選擇一個位置爬山,從當(dāng)前的點開始和鄰域節(jié)點進行比較,若已為最優(yōu),則返回當(dāng)前節(jié)點;否則,更新起點,重復(fù)上述步驟,繼續(xù)搜索到達到最高點[14]。但是爬山算法極易陷入局部最優(yōu)解,得到全局最優(yōu)解取決于初始點的位置,一個較優(yōu)的爬山起點對著求解全局最優(yōu)解有著重要影響。
信息論常用來研究信息處理問題,常用的指標(biāo)有互信息、信息熵及聯(lián)合熵等。這些指標(biāo)現(xiàn)在已被廣泛應(yīng)用于高光譜遙感領(lǐng)域。
1)互信息?;バ畔⒖梢远攘績蓚€隨機變量間相互依賴性,在波段選擇中常用于度量兩個波段的相關(guān)性。對于兩波段圖像X和圖像Y的互信息[17]計算公式為
(2)
式中:x表示圖像X中的元素;y表示圖像Y中的元素;Pi(x),Pj(y)分別表示變量x和變量y在第i個狀態(tài)和第j個狀態(tài)下的邊緣概率密度;Pi(x)Pj(y)表示變量x和變量y的聯(lián)合概率密度。
2)信息熵。信息熵常被用來作為一個系統(tǒng)的信息含量的量化,其可以衡量一個波段所含信息量的大小,信息熵[17]的表達式為
(3)
式中:Ω表示樣本空間;pi表示樣本i出現(xiàn)在圖像中的概率。
3)峰值信噪比。峰值信噪比在圖像處理上用于量化有損圖像和重建圖像質(zhì)量,均方誤差M及峰值信噪比P[18]的計算表達式分別為
(4)
(5)
高光譜圖像數(shù)據(jù)具有波段維數(shù)高及相鄰波段間相關(guān)性大的特點。因此,需要對原始光譜波段進行降維的預(yù)處理工作。使用ERFDR算法對原始數(shù)據(jù)進行降維,在獲取到新特征集后將特征輸入到GHC算法超參數(shù)尋優(yōu)后的RF模型構(gòu)建的GHC-RF分類器中,完成高光譜遙感圖像的分類任務(wù)。ORFDRC算法原理如圖2所示。
圖2 ORFDRC原理
ORFDRC算法步驟如下。
步驟1輸入高光譜圖像數(shù)據(jù)。將原始高光譜數(shù)據(jù)記為X,X∈RM×N×L,M×N為波段圖像的大小,L為光譜維數(shù)。
步驟2數(shù)據(jù)預(yù)處理。使用ERFDR算法對高光譜圖像降維。
步驟3構(gòu)建遙感圖像分類器。劃分訓(xùn)練樣本及測試樣本,使用GHC算法對隨機森林分類器的超參數(shù)進行尋優(yōu),構(gòu)建GHC-RF分類器。
步驟4將特征及其對應(yīng)的類別信息輸入到分類器中進行訓(xùn)練,用所得模型對整個數(shù)據(jù)進行分類,得到分類結(jié)果。
考慮到高光譜遙感圖像數(shù)據(jù)的高維及冗余特性,采用ERFDR算法對高光譜數(shù)據(jù)降維。該算法在有效降低數(shù)據(jù)的冗余性的基礎(chǔ)上,利用到臨近波段的互補信息為高光譜數(shù)據(jù)降維預(yù)處理任務(wù)提供算法支持。ERFDR算法實現(xiàn)由聯(lián)合互信息的隨機森林特征評估、自適應(yīng)臨近波段融合及構(gòu)建新特征集等3部分組成。
1)聯(lián)合互信息的隨機森林特征評估。隨機森林重要性評估保留的光譜波段存在部分連續(xù),此類波段存在數(shù)據(jù)冗余,使用互信息及信息熵進行波段評定。計算相鄰波段的互信息,由全體波段互信息數(shù)值分布設(shè)定閾值,若互信息大于閾值,則判定該組波段為相似,需剔除連續(xù)波段中信息熵值較小的波段,以此實現(xiàn)去除連續(xù)波段目的。
2)自適應(yīng)臨近波段融合。相鄰波段間高光譜遙感圖像的臨近波段具有高相關(guān)性,計算高相關(guān)像素的均值會產(chǎn)生一個低噪聲情形下的像素值,均值波段融合可在有效保留原始波段中大部分有用信息基礎(chǔ)上,利用臨近波段的互補信息,并去除部分噪音。通過計算第l波段的與其鄰近波段的均值,構(gòu)建新的波段Ql,其表達式為
(6)
式中:Pl表示高光譜波段子集中的第l波段;n表示單側(cè)臨近波段的個數(shù)n=1,2。根據(jù)波段自適應(yīng)選擇需融合的鄰近波段數(shù)量,其評定標(biāo)準(zhǔn)為不同數(shù)量波段融合后的信息熵值,信息熵值大的為最佳融合波段。
3)構(gòu)建新特征集。波段融合所得的波段并非一定比原始波段所含信息量高,因此需要對兩者進行質(zhì)量評定。通過計算原始波段及最佳融合波段的信息熵及峰值信噪比,完成對原始波段及融合波段的質(zhì)量評定。若在信息熵不降低的情況下,噪音得到去除,則用最佳融合波段替換原始波段;反之,則保留原始波段,完成新特征集的構(gòu)建。
隨機森林算法中樹的數(shù)量或樹的深度及SVM中懲罰因子等都是分類器在進行模型訓(xùn)練前需要設(shè)置的超參數(shù)。對超參數(shù)進行優(yōu)化,可提高分類器的性能。為了尋找到分類器的一組最優(yōu)超參數(shù),提出GHC算法,將網(wǎng)格搜索和爬山算法結(jié)合,可有效發(fā)揮兩種算法各自的優(yōu)勢。
GHC算法主要的實現(xiàn)步驟如下。
步驟1確定決策樹數(shù)量及最大分離特征數(shù)的范圍,設(shè)定粗步長,建立網(wǎng)格坐標(biāo)系。
步驟2對網(wǎng)格節(jié)點上的每組參數(shù)構(gòu)建模型,并計算其分類誤差。
步驟3選擇分類精度最高的參數(shù)組合爬山算法的起點,最終輸出爬山的最高點。
在使用粗步長劃分網(wǎng)格進行粗搜索得到的參數(shù)組合不一定是目標(biāo)區(qū)域全局最優(yōu)解,其網(wǎng)格點鄰域是否存在著更優(yōu)的參數(shù)組合。將粗搜索最優(yōu)參數(shù)作為爬山算法的起始值進行鄰域搜索,不斷更新爬山算法起點,直至搜索到最優(yōu)組合。將GHC算法尋找到的最優(yōu)超參數(shù)輸入到RF分類器中,構(gòu)建GHC-RF分類器。
為驗證所提算法有效性,使用Indian Pines、University of Pavia以及Salinas等3組數(shù)據(jù)集進行實驗,高光譜圖像數(shù)據(jù)的基本信息如表1所示。
表1 高光譜數(shù)據(jù)基本信息
Indian Pine、University of Pavia及Salinas的影像信息具體如圖3所示。Indian Pines影像采集于印第安納州西北部:圖3(a)是由波段7、波段166和波段186合成的假彩色圖像;圖3(b)為該數(shù)據(jù)的地面真實分類,共16種農(nóng)作物類。University of Pavia影像采集于意大利:圖3(c)是由波段9、波段40和波段58合成的假彩色圖像;圖3(d)為該數(shù)據(jù)的地面真實分類,共9種地物類別。Salinas影像采集于美國加利福尼亞州:圖3(e)是波段40、波段66和波段107合成的假彩色圖像;圖3(f)為該數(shù)據(jù)的地面真實分類,共16種農(nóng)作物類別。實驗使用整體精度(Overall Accuracy,OA)和 Kappa 系數(shù)(Kappa Coefficient)進行定量評價。
圖3 Indian Pine、University of Pavia及Salinas影像信息
隨機森林分類器總決策樹數(shù)量及最大分離特征數(shù)是影響分類器性能的兩個主要參數(shù)。使用GHC算法對這兩者進行參數(shù)優(yōu)化。決策樹數(shù)量搜索范圍為[50,600],搜索步長為50,最大分離特征數(shù)搜索范圍為[5,25],搜索步長為5。粗搜索設(shè)定大于經(jīng)驗設(shè)定范圍,可避免搜索不充分,得到局部最優(yōu)解的情況發(fā)生?,F(xiàn)以University of Pavia數(shù)據(jù)集為例使用GHC算法對RF進行超參數(shù)優(yōu)化。粗步長網(wǎng)格搜索結(jié)果如圖4所示。
圖4 University of Pavia數(shù)據(jù)集粗步長網(wǎng)格搜索結(jié)果
由圖4可以看出,當(dāng)進行粗長網(wǎng)格搜索時,決策樹數(shù)量為500,最大分離特征為15時,RF分類器的整體精度值最高。并且觀察到?jīng)Q策樹數(shù)量不斷增大,OA并未一直提高,這是由于決策樹的數(shù)目增多,使得樹的相關(guān)性也提高,大量高相關(guān)的樹會影響模型性能,因此分類精度出現(xiàn)下降的現(xiàn)象。
以當(dāng)前粗步長網(wǎng)格搜索的最優(yōu)值為爬山算法的起點進行局部搜索,經(jīng)過多次迭代搜索得到最優(yōu)參數(shù)組合,決策樹數(shù)量為489,最大分離特征為15。將該組合作為后續(xù)GHC-RF分類器的參數(shù)設(shè)置。
為驗證ERFDR算法的有效性,實驗選取增強快速密度峰值聚類[19](Enhanced Fast Density Peak Clustering,E-FDPC)、最大方差主成分分析[20](Maximum Variance PCA,MVPCA)、正交投影波段選擇[21](Orthogonal Projection Band Selection,OPBS)及RF-RFE作為對比算法。
1) E-FDPC。由快速密度峰值聚類改進而來,結(jié)合了排序和聚類兩類方法,算法包括快速密度聚類獲得代表波段及自動確定最優(yōu)波段。
2) MVPCA。將像素向量之間的方差按照從大到小進行排序,選出最大的方差所對應(yīng)的向量作為降維后的波段圖像。
3) OPBS。由最大橢圓球體積-序列前向搜索法(Maximum Elliptic Sphere Volume-Sequence Forward Search,MEV-SFS)改進而來,充分利用橢球體積與候選帶的正交投影的關(guān)系,是MEV-SFS算法的等效快速版本。
4) RF-RFE。使用隨機森林計算波段的重要性并進行排序,采用序列后向搜索方法去掉特征集合中重要性小的特征[10]。
RF的最大分離特征已設(shè)定為15,考慮RF分類器低維特征和高維特征時超參數(shù)設(shè)定無法保持一致,在此階段僅使用KNN及SVM兩種分類算法。由于高光譜圖像標(biāo)簽樣本采集困難,人工標(biāo)注成本高昂,實際應(yīng)用中存在部分類別標(biāo)簽過少的情況,為使實驗貼近實際,使用數(shù)據(jù)集的30%作為訓(xùn)練樣本,其他作為測試樣本,對Indian Pines,University of Pavia,Salinas進行分類。實驗中分類器參數(shù)設(shè)置相同,以確保實驗的準(zhǔn)確性,不同降維算法OA對比情況如圖5所示。
圖5 不同降維算法OA對比
(續(xù))圖5 不同降維算法OA對比
由圖5可以看出,圖5(a)及圖5(b)為Indian Pines數(shù)據(jù)集上5種降維算法在KNN及SVM分類算法下分類精度的對比情況。ERFDR算法精度明顯優(yōu)于EFDPC、MVPCA、OPBS及RF-RFE這4種降維算法。在KNN上,ERFDR算法雖然在特征維度為5時分類效果略低于次優(yōu)OPBS算法,但OPBS算法隨著其特征維度增加分類精度并未有明顯提高,甚至還有所降低,這說明OPBS算法在Indian Pines數(shù)據(jù)集上使用KNN算法進行分類時降維效果不如ERFDR算法穩(wěn)定。在特征維度為10時,ERFDR算法已全面優(yōu)于其他4種降維算法,這一優(yōu)勢體現(xiàn)在OA平穩(wěn)值更高。在SVM算法上,ERFDR的OA曲線在特征維度15以上時具有明顯的優(yōu)勢。在特征維度為5時ERFDR的精度比次優(yōu)的OPBS算法的OA值高了6.824%,并且這一優(yōu)勢一直保持。圖5(c)及圖5(d)為University of Pavia數(shù)據(jù)集下5種降維算法在KNN及SVM分類算法下的對比情況。在此數(shù)據(jù)集上,ERFDR算法在兩種分類器上的表現(xiàn)相比較于其他4種算法的優(yōu)勢并不明顯,但ERFDR更快地達到了“拐點”,這表明ERFDR算法在降維至低特征維數(shù)時仍具有不錯的降維效果。圖5(e)及圖5(f)為Salinas數(shù)據(jù)集下5種降維算法在KNN及SVM分類算法下的對比情況,不論是在低特征維度還是高特征維度,ERFDR算法全面優(yōu)于其他4種對比算法。
從3個數(shù)據(jù)集在不同分類算法上的整體OA情況進行分析:MVPCA算法表現(xiàn)最差,這是由于MVPCA算法僅利用方差排序,選出其中最大的幾個方差所對應(yīng)的向量實現(xiàn)降維,并未考慮波段之間的相關(guān)性;同樣由隨機森林特征評估降維改進而來的RF-RFE算法,其在3個數(shù)據(jù)集上的OA值均遠遠低于ERFDR算法,尤其是使用KNN分類算法在Indian Pines數(shù)據(jù)集上特征數(shù)為5時差距最為明顯,該情況下RF-RFE精度比ERFDR算法低11.311%,實驗說明在特征維度較低時考慮到臨近波段的相關(guān)性及互補信息可顯著提高降維原始隨機森林的降維效果,并且在高特征緯度時ERFDR仍然比同為隨機森林降維改進而來的RF-RFE算法的降維效果更好,這是由于ERFDR考慮到了波段信息量的大小和不同波段間相似度的因素,降維后的特征具有更高的信息量和更低的冗余度。從不同數(shù)據(jù)集的OA情況來看,ERFDR算法在地物類型較為繁多、復(fù)雜的Indian Pines數(shù)據(jù)集上的優(yōu)勢最為明顯,體現(xiàn)出ERFDR算法在處理復(fù)雜的高光譜圖像時仍具優(yōu)勢。
為評估ORFDRC算法性能,實驗使用ERFDR算法將特征降維至25維,將降維后的特征集輸入GHC-RF分類器中構(gòu)建ORFDRC算法。使用KNN、SVM及ORFDRC等3種算法對Indian Pines、University of Pavia和Salinas等3種數(shù)據(jù)集進行地物分類并對結(jié)果分析,其具體分類結(jié)果如圖6所示。
圖6 不同算法在3種數(shù)據(jù)集上的分類結(jié)果
(續(xù))圖6 不同算法在3種數(shù)據(jù)集上的分類結(jié)果
由圖6可以看出,ORFDRC的分類效果最好,分類結(jié)果圖中地物錯分情況最少。上述分析基于圖像的視覺效果,其定量分析指標(biāo)如表2所示。
表2 不同分類算法在3種數(shù)據(jù)集上定量分析指標(biāo)
由表2可以看出,對于3組高光譜數(shù)據(jù),ORFDRC的OA及Kappa系數(shù)均高于另外兩種算法。這說明ORFDRC分類性能最佳,分類結(jié)果與地面真實地物的一致性也比較好。在Indian Pines數(shù)據(jù)集上,ORFDRC的性能分類優(yōu)勢最為突出,其OA值相對于KNN算法、 SVM算法分別高出18.476%和4.699%,Kappa系數(shù)高出0.217和0.050。在University of Pavia數(shù)據(jù)集上,ORFDRC的OA值比KNN、SVM算法分別高出8.322%和1.719%,Kappa系數(shù)高了0.107和0.016。在Salinas數(shù)據(jù)集上,ORFDRC的OA值比KNN、SVM算法分別高出6.406%和3.545%,Kappa系數(shù)高了0.065和0.032。通過以上分析結(jié)果表明,ORFDRC算法可以對高光譜遙感圖像數(shù)據(jù)進行有效的分類,分類精度最高且分類的視覺效果最清晰。
為了更詳細說明ORFDRC算法性能優(yōu)勢,以Indian Pines數(shù)據(jù)集為例,與KNN算法、SVM算法進行詳細地物類別分類精度對比。在Indian Pines數(shù)據(jù)集上各個類別的精度對比情況如圖7所示,橫坐標(biāo)中的數(shù)字表示該數(shù)據(jù)集上對應(yīng)地物的類別,共16個地物類型;縱坐標(biāo)表示精度。Indian Pines數(shù)據(jù)集的圖像均包含16種不同地物類別。不同顏色代表不同的算法。
圖7 Indian Pines數(shù)據(jù)集上各類別的分類精度對比
由圖7可以看出,對于某些地物類別,ORFDRC算法分類精度并不是最高,如SVM在類別1分類精度上高于ORFDRC算法,KNN、SVM及ORFDRC在類別16均完全正確分類。但是,從總體來看,ORFDRC算法的分類精度在大多數(shù)類別均高于KNN及SVM,且ORFDRC算法具有更多完全分類正確的類別,這說明ORFDRC的分類效果最佳。
高光譜遙感圖像進行降維預(yù)處理工作能降低數(shù)據(jù)維度,有效完成地物分類任務(wù)。而傳統(tǒng)隨機森林降維算法存在著去冗余能力不足,隨機森林分類器缺乏有效的尋優(yōu)方法獲取最優(yōu)超參數(shù)的問題。針對上述問題提出了用于高光譜遙感的降維及分類任務(wù)的ORFDRC算法。ORFDRC算法首先通過ERFDR算法對原始數(shù)據(jù)集進行降維,有效降低高光譜數(shù)據(jù)維度。再使用GHC算法快速準(zhǔn)確地對RF模型進行超參數(shù)搜索并構(gòu)建分類器。最后,將降維后數(shù)據(jù)輸入GHC-RF分類器中,完成高光譜地物精細分類任務(wù)。為了驗證ERFDR算法的有效性,實驗選取E-FDPC、MVPCA、OPBS及RF-RFE等4種降維算法與其對比,實驗結(jié)果證明ERFDR算法具有更好的降維能力。為了驗證ORFDRC算法的分類能力,選用KNN及SVM兩種算法與其作對比,實驗結(jié)果表明在同等訓(xùn)練集比例下ORFDRC算法具有更高的分類精度,更適合完成高光譜分類任務(wù)且在多個數(shù)據(jù)集上適用。