許自昌
(1.中國地質(zhì)大學(xué) 資源學(xué)院,武漢 430074;2.福建省地質(zhì)測繪院遙感中心,福州 350011)
地表覆蓋變化檢測與信息提取是測繪、規(guī)劃和土地等相關(guān)機構(gòu)和職能部門日常工作的基礎(chǔ)環(huán)節(jié),對提升城市管理水平、促進土地集約利用、改善人居環(huán)境具有重要意義[1-2]。隨著遙感數(shù)據(jù)獲取技術(shù)的不斷進步,高分影像數(shù)據(jù)成為包括地表變化檢測在內(nèi)的各種應(yīng)用的主流數(shù)據(jù)源,但空間分辨率提高使高分影像的光譜異質(zhì)性增大,“同物異譜”“異物同譜”、陰影與細小地物對信息提取的干擾更為嚴重,基于高分影像的變化檢測也更具挑戰(zhàn)性[3]。
基于機器學(xué)習(xí)的方法是當前變化檢測領(lǐng)域的研究熱點,但是面對復(fù)雜多變的高分影像場景,單一的分類算法和固有的優(yōu)化策略在高分影像變化檢測中并未展現(xiàn)出良好的泛化性能,難以適合用于所有類別的地表變化信息提取。近年來部分學(xué)者采用集成學(xué)習(xí)算法進行土地利用和土地覆蓋信息提取[4-6],均取得了較理想的檢測效果。集成學(xué)習(xí)是指對若干個個體學(xué)習(xí)器進行訓(xùn)練,再采用一定的結(jié)合策略,充分利用各學(xué)習(xí)器的特性,形成一個強學(xué)習(xí)器。集成模型構(gòu)建過程一般包括個體學(xué)習(xí)器生成和學(xué)習(xí)器組合輸出兩個步驟。常用的個體學(xué)習(xí)器生成策略有boosting[7]、bagging[8]、RSM[9]。boosting策略是通過算法迭代提升個體學(xué)習(xí)器精度,以加權(quán)平均形式輸出學(xué)習(xí)器組合模型的集成方案,更關(guān)注偏差降低。相較boosting策略,bagging更關(guān)注降低方差以增強個體學(xué)習(xí)器的多樣性。而RSM的特征空間抽取是比boosting的數(shù)據(jù)重賦權(quán)和bagging樣本抽取更有效地提升基學(xué)習(xí)器多樣性的策略。學(xué)習(xí)器組合方法可分為全員組合法和選擇組合法兩類。選擇組合法的相關(guān)研究較少,常用的全員組合法有投票法[10]、基于D-S證據(jù)理論的方法[11]、基于元學(xué)習(xí)的方法[12]等,其中元學(xué)習(xí)算法是一類將個體學(xué)習(xí)器產(chǎn)生過程和組合過程相結(jié)合的策略,通過將人工先驗知識獲取的手工特征翻譯為機器更易理解的抽象特征,對原始訓(xùn)練集進行特征重構(gòu)或合并,提升數(shù)據(jù)集的線性可分性。部分研究表明當原始數(shù)據(jù)特征維度較低時,將原始特征集與初級學(xué)習(xí)器產(chǎn)生的特征集組合重構(gòu),可擬合效果更佳的次級學(xué)習(xí)器判別模型。
鑒于此,本文從監(jiān)督變化檢測算法的時間復(fù)雜度角度切入,提出一種基于元學(xué)習(xí)同/異質(zhì)混合集成和K-means聚類分析的兼顧算法精度與效率的高分影像變化檢測模型,利用K-means聚類分析完成堆疊的訓(xùn)練集分割出訓(xùn)練子樣本集,提供多元次級學(xué)習(xí)器提煉輸出層的最終決策邊界,并利用雙重約束濾波優(yōu)化初檢結(jié)果,從算法運行效率、泛化性能和檢測精度3個維度確保變化檢測結(jié)果魯棒可靠,為相關(guān)領(lǐng)域研究與工程實踐提供新的技術(shù)實現(xiàn)途徑,具有重要的理論意義與應(yīng)用價值(圖1)。
圖1 基于元學(xué)習(xí)和K-means聚類的變化檢測
本文選用梯度提升樹、隨機森林和極端隨機樹作為元學(xué)習(xí)的初級(組件)學(xué)習(xí)器。先通過5折交叉驗證分別訓(xùn)練各組件學(xué)習(xí)器,并對原始訓(xùn)練集和測試集進行預(yù)測,將各組件學(xué)習(xí)器的概率預(yù)測標簽作為抽象特征與原始樣本集的手工特征進行組合重構(gòu),再通過K-means算法對重構(gòu)的訓(xùn)練樣本集進行聚類分析,得到K個重構(gòu)訓(xùn)練樣本子集擬合邏輯回歸算法,輸出多元次級學(xué)習(xí)器,完成分類器混合集成模型的構(gòu)建,最后測試階段首先度量重構(gòu)測試樣本集中每個待分類像元與K個聚類中心的歐式距離,就近選擇判別像元的次級學(xué)習(xí)器完成最終分類。
1)基于交叉驗證的樣本集特征空間重構(gòu)。為提升元學(xué)習(xí)的泛化能力,避免過擬合現(xiàn)象,通過交叉驗證的形式分段訓(xùn)練初級學(xué)習(xí)器進行樣本集特征空間重構(gòu)。交叉驗證元學(xué)習(xí)算法流程如下。
設(shè)原始訓(xùn)練樣本集RO為N×P維矩陣(N個樣本,每個樣本有P維特征),原始測試樣本集EO為M×P維矩陣,初級學(xué)習(xí)器(算法)為{Y1,Y2,…,YQ}(其中1,2,…,Q代表不同的初級學(xué)習(xí)器算法),次級學(xué)習(xí)器(算法)為L,元學(xué)習(xí)集成模型的目標就是通過初級學(xué)習(xí)器將RO和EO分別重構(gòu)為N×(P+Q)維的堆疊訓(xùn)練樣本集RF和N×(P+Q)維的堆疊測試樣本集EF,然后基于RF擬合次級學(xué)習(xí)器L,最后通過L處理EF輸出集成模型最終判別結(jié)果。
單種初級學(xué)習(xí)器的樣本集交叉驗證重構(gòu)過程如圖2所示。首先對原始訓(xùn)練樣本集RO進行5折劃分,復(fù)制5組大小相同的樣本集(圖2上部),每組樣本集包括1折臨時訓(xùn)練集(4份藍色訓(xùn)練集構(gòu)成)和1折臨時測試集(1份橙色測試集),前者的樣本數(shù)是后者的4倍;其中,5組臨時測試集(橙色)互不重疊。利用第1折臨時訓(xùn)練集擬合初級學(xué)習(xí)器算法Y1得到分類模型M11,并通過M11預(yù)測該折臨時測試集和原始測試樣本集的標簽,分別得到A11和B11,A11對應(yīng)的位置索引為原始訓(xùn)練樣本集中的后N/5條樣本。同理分別采用另外4折樣本集訓(xùn)練-測試得到A12、A13、A14、A15并結(jié)合A11構(gòu)成N×1維特征,將新特征加入RO構(gòu)成新的訓(xùn)練樣本集Rs(N×(P+1)維)。相應(yīng)地,將B11、B12、B13、B14、B15組合成5維特征,計算它們的均值,產(chǎn)生M×1維新特征加入原始測試樣本集EO中構(gòu)成新的測試樣本集Es(M×(P+1)維)。至此完成第一種初級學(xué)習(xí)器算法Y1的特征重構(gòu)過程,同法獲取另外Q-1種學(xué)習(xí)算法的重構(gòu)特征,組合最終的堆疊訓(xùn)練樣本集RZ和堆疊測試樣本集EZ,通過RZ訓(xùn)練次級學(xué)習(xí)器對EZ進行最終判別。
圖2 基于5折交叉驗證的元學(xué)習(xí)初級學(xué)習(xí)器生成過程
2)初級學(xué)習(xí)器的選擇。為權(quán)衡算法效率、泛化性能和分類精度,保證元學(xué)習(xí)集成模型的變化檢測結(jié)果魯棒可靠,本文綜合利用集成學(xué)習(xí)中的boosting和bagging的優(yōu)點,選用梯度提升樹(gradient boosting decision tree,GBDT)、隨機森林(random forest,RF)和極端隨機樹(extreme random tree,ERT)3種集成算法構(gòu)建元學(xué)習(xí)的初級層。
①梯度提升樹。GBDT是集成學(xué)習(xí)提升策略的代表算法,可用于處理回歸和分類問題,但基學(xué)習(xí)器都僅采用CART回歸樹。由于大多數(shù)損失函數(shù)的優(yōu)化過程較為復(fù)雜,Friedman[13]提出通過求解損失函數(shù)的負梯度來逼近損失函數(shù)值最優(yōu)解的優(yōu)化方案,擬合回歸樹構(gòu)建新的集成模型?;诖烁禄鶎W(xué)習(xí)器,可以降低基學(xué)習(xí)器的偏差,提升集成模型精度,本文選用GBDT作為元學(xué)習(xí)混合集成模型的一種初級學(xué)習(xí)器。在變化檢測二分類中,GBDT選用二項似然函數(shù)構(gòu)建損失函數(shù),然后計算它的負梯度值gm(xi),并通過gm(xi)擬合一棵包含J個葉節(jié)點的CART回歸樹,最后通過更新強學(xué)習(xí)器輸出最終集成模型FM(x)。
在測試階段,對于任一待分類像元xt,集成模型對其的預(yù)測值為p=FM(xt),通過二項似然對數(shù)將預(yù)測數(shù)值映射為二分類概率標簽。由式(1)計算出變化像元xt的概率P+(xt),則可判別未變化像元的概率為1-P+(xt)。
(1)
②隨機森林。bagging策略中最常用的算法是隨機森林,本文選用C4.5決策樹作為RF的基學(xué)習(xí)器。RF基于bagging的自主采樣策略,在運算過程中由于隨機過程的引入,RF的算法運行效率和泛比性能顯著提升,且對數(shù)據(jù)缺失不敏感,因此bagging是一種非常高效的集成策略。
③極端隨機樹。ERT是一種隨機森林的變種算法。ERT中沿用RF中的自助采樣和隨機特征子集策略,在決策樹擬合過程中,仍然通過信息增益率搜索每層決策樹樁的最佳分裂特征fi,但分裂特征值si則是在原始樣本集中特征f的所有取值里隨機選擇一個。由于ERT在生成過程中引入更多的隨機過程,在集成模型泛化性能方面通常優(yōu)于RF。
3)基于K-means聚類分析的多元次級學(xué)習(xí)器。本文選用boosting算法(GBDT)和兩種bagging算法(RF和ERT)構(gòu)建元學(xué)習(xí)算法的第1層,重構(gòu)原始樣本集特征空間,快速提升樣本的可分離性。經(jīng)上述混合集成處理后,原始訓(xùn)練樣本集RO(N×P維)和測試樣本集EO(S×P維)被轉(zhuǎn)換為堆疊訓(xùn)練樣本集RZ(N×(P+3)維)和堆疊測試樣本集EZ(S×(P+3)維)。通常元學(xué)習(xí)的第2層利用RZ擬合一個次級學(xué)習(xí)器L(如線性SVM、邏輯回歸等),對EZ進行最終判別。為提升集成模型的精度,本文在次級學(xué)習(xí)學(xué)習(xí)器生成過程中引入K-means聚類分析,構(gòu)建多元次級學(xué)習(xí)器提煉輸出層的最終決策邊界,過程如下。
(2)
步驟4:將P1、P2和P3作為K-means算法的初始聚類中心,對堆疊訓(xùn)練集RZ進行聚類分析,算法迭代結(jié)束時RZ被分割為3個子集RZ1、RZ2和RZ3,聚類中心更新為Q1、Q2和Q3。
步驟5:基于RZ1、RZ2和RZ3分別擬合3個邏輯回歸分類器L1、L2和L3,構(gòu)建元學(xué)習(xí)的輸出層(次級學(xué)習(xí)器)。
步驟6:在分類階段,對于堆疊測試樣本集EZ中的任一待檢測像元u,首先計算它和Q1、Q2和Q3的歐式距離,根據(jù)就近原則選取相應(yīng)的邏輯回歸分類器對其進行標簽判別。
步驟7:采用雙重約束濾波優(yōu)化檢測結(jié)果。
簡單線性迭代聚類(simple linear iterative clustering,SLIC)超像素分割算法[14]是對K-means的一種改進算法,算法復(fù)雜度較低,且分割所得的超像素塊能較好地保持與地理實體的邊緣一致性。SLIC算法中的K值用于指定生成的超像素塊數(shù)。本文按照Chen等[15]將SLIC超像素分割算法與高分影像空間鄰域信息相結(jié)合構(gòu)建雙重約束濾波,優(yōu)化集成模型的監(jiān)測結(jié)果,減輕以像元為處理單元所產(chǎn)生的“椒鹽噪聲”,降低變化檢測誤檢率和漏檢率,提升檢測精度。雙重約束濾波優(yōu)化過程如下。
步驟1:對雙時相影像的差值影像D進行SLIC分割。
步驟3:遍歷步驟2處理的二值影像中的所有像元,統(tǒng)計每個像元空間八鄰域的像元標簽,若變化像元數(shù)量大于等于6,則將鄰域中心像元設(shè)置為變化類別,產(chǎn)生最終的變化檢測結(jié)果圖。
雙重約束濾波優(yōu)化通過步驟2分割對象邊界約束可有效抑制基于像元的檢測方案所產(chǎn)生的“椒鹽噪聲”,降低變化檢測誤檢率。通過步驟3挖掘空間上下文鄰域信息,可有效減少基于像元的檢測結(jié)果中的地理實體內(nèi)部破碎現(xiàn)象,使檢測結(jié)果更加完整,降低變化檢測漏檢率。
本文選用WorldView-2和SPOT 5兩組雙時相高分影像為數(shù)據(jù)源(圖3),兩組數(shù)據(jù)源均通過ENVI 5.2進行數(shù)據(jù)預(yù)處理,處理內(nèi)容包括輻射定標、大氣校正、幾何校正和G-S融合。SPOT 5影像包含綠、紅、近紅外、短波紅外和全色共5個波段,全色波段為2.5 m。兩景影像成像時間分別為2006年12月和2007年12月,區(qū)域位于廣東省清遠市,影像大小為512像素×512像素,主要變化為水體變成裸地,以及裸地變?yōu)橹脖弧orldView-2影像包含紅、綠、藍、近紅外和全色共5個波段,全色波段為0.5 m,多光譜波段均為1.8 m。兩景影像的成像時間分別為2012年11月和2016年10月,區(qū)域位于福建省福州市,影像大小為1 800像素×1 300像素。主要變化是植被、裸土和建設(shè)用地三者之間的轉(zhuǎn)換。
圖3 變化檢測的原始影像
首先,對預(yù)處理后的雙時相影像的差值影像提取每個波段的光譜特征、GLCM 紋理特征和形態(tài)學(xué)特征,構(gòu)建原始訓(xùn)練樣本集,其中數(shù)據(jù)集1的紋理特征,方向設(shè)置為0°,掃描窗口大小為3像素×3像素,灰度量化等級為16;數(shù)據(jù)集2紋理特征的掃描窗口為5像素×5像素,其他參數(shù)設(shè)置同數(shù)據(jù)集1。兩個數(shù)據(jù)集的形態(tài)學(xué)結(jié)構(gòu)算子均設(shè)置為圓形,掃描窗口為3像素×3像素。其次,通過提出的結(jié)合元學(xué)習(xí)和K-means的方案(MK,空間約束處理后為MK-SC)分別對兩組數(shù)據(jù)集堆疊重構(gòu)進行變化檢測。對比算法包括GBDT、RF、ERT和HCM-SC[16]。
隨著基學(xué)習(xí)器數(shù)量的迭代增加,不同集成方法的學(xué)習(xí)曲線如圖4所示。從圖4可以看出,對于數(shù)據(jù)集1,GBDT、RF、ERT和MK的最佳基學(xué)習(xí)器個數(shù)分別為41、54、68和51,相應(yīng)的錯誤像元數(shù)為8 658、9 504、9 164和6 095。數(shù)據(jù)集2相應(yīng)的最佳基學(xué)習(xí)器個數(shù)和錯誤像元數(shù)分別為45、74、87、63以及167 565、174 236、160 807、101 473。算法HCM-CS對于兩組數(shù)據(jù)集的最佳基學(xué)習(xí)器個數(shù)分別是60和70,錯誤像元數(shù)分別為5 306和89 248。在算法迭代初期,隨著基學(xué)習(xí)器數(shù)量的增加,4種變化檢測方法的錯誤像元數(shù)均迅速降低。由于采用了最速下降法優(yōu)化參數(shù),兩組實驗中GBDT算法收斂時基學(xué)習(xí)器數(shù)量均少于對比算法,由于ERT在決策樹葉節(jié)點分裂階段比RF引入了更多的隨機過程,基學(xué)習(xí)器的多樣性隨之增強,因此需要更多基學(xué)習(xí)器(決策樹)來改善集成模型精度。兩組數(shù)據(jù)集中ERT的收斂決策樹棵樹大致為65和81,RF的收斂棵樹大致為50和68,且ERT的收斂精度均優(yōu)于RF。本文算法綜合GBDT、RF和ERT 3種算法的特性,并通過交叉驗證和K-means聚類分析降低過擬合風險、提升算法精度,兩組數(shù)據(jù)集中MK的基學(xué)習(xí)器數(shù)量分別在50和60左右算法進入收斂。相較元學(xué)習(xí)集成前的3種算法,本文方法誤檢像元數(shù)最少。
圖4 不同基學(xué)習(xí)器個數(shù)下4種集成方法的學(xué)習(xí)曲線
表1展示了5種算法到達最佳變化檢測精度時(最佳基學(xué)習(xí)器個數(shù))的運行時間。兩組數(shù)據(jù)集中,bagging系列算法(RF和ERT)的運行效率均優(yōu)于GBDT;雖然ERT算法需要比RF算法更多的基學(xué)習(xí)器才能收斂至最佳精度,但由于決策樹生成過程中更多隨機過程的引入,ERT算法擬合單棵決策樹的平均時間和算法運行總時間都小于RF。本文提出的MK算法時間復(fù)雜度顯著低于HCM-SC。
表1 5種算法到達最佳變化檢測精度時(最佳基學(xué)習(xí)器個數(shù))的運行時間
從圖5、圖6可以看出,兩組數(shù)據(jù)集中未經(jīng)空間約束處理的4種方法(GBDT、RF、ERT和MK)的檢測結(jié)果均有“椒鹽噪聲”和不同程度的地理實體內(nèi)部破碎現(xiàn)象。對于3種同質(zhì)集成算法(GBDT、RF和ERT),綜合4種評價指標,數(shù)據(jù)集1的最優(yōu)檢測算法是GBDT,針對影像中大面積水域變化以及東南側(cè)裸地到植被變化的檢測結(jié)果較為完整。ERT的總體精度略優(yōu)于RF,但漏檢現(xiàn)象多于GBDT。由于數(shù)據(jù)集2的場景較為復(fù)雜,GBDT算法通過貪心策略尋求最優(yōu)解,產(chǎn)生大量漏檢現(xiàn)象。相較而言,RF和ERT引入隨機過程使基學(xué)習(xí)器的多樣性大幅提升,檢測結(jié)果總體優(yōu)于GBDT,其中隨機過程更強的ERT表現(xiàn)出可觀的檢測效果,4種評價指標均優(yōu)于RF。因此適當提升基學(xué)習(xí)器的多樣性、增強學(xué)習(xí)器之間的差異可提升復(fù)雜場景的變化檢測效果。此外,3種同質(zhì)集成算法在兩組數(shù)據(jù)集中均有大面積的漏檢區(qū)域和較多的誤檢碎斑,數(shù)據(jù)集1的漏檢區(qū)域主要集中在影像東北側(cè)裸地到植被的部分偽變化和陰影區(qū)域。數(shù)據(jù)集2漏檢區(qū)域主要為影像西北部和南部從植被-裸地混合區(qū)域到建設(shè)用地的轉(zhuǎn)換。
圖5 數(shù)據(jù)集1變化檢測結(jié)果
圖6 數(shù)據(jù)集2變化檢測結(jié)果
本文提出的元學(xué)習(xí)-聚類分析混合集成模型(MK)綜合3種同質(zhì)集成算法的特性,檢測結(jié)果中誤檢和漏檢現(xiàn)象得到明顯改善,4種精度評價指標均優(yōu)于混合集成前的同質(zhì)算法。經(jīng)空間約束優(yōu)化后(MK-SC)的檢測結(jié)果中大量“椒鹽像元”被濾除,總體精度和誤檢率得到改善,但由于部分被正確檢測的細小地物以及地理實體內(nèi)部的少量不連續(xù)像元被“誤刪”,如表2、表3所示MK-SC的漏檢率相對于MK有略微提升(數(shù)據(jù)集1為0.132 1和0.128 3,數(shù)據(jù)集2為0.215 2和0.201 0)。值得說明的是,本文構(gòu)建的混合集成模型的綜合精度評價結(jié)果僅略低于HCM-SC算法,但算法運行時間卻大幅縮短,MK對于兩個數(shù)據(jù)集的處理耗時分別為40.843 s和417.308 s,而HCM-SC對于兩個數(shù)據(jù)集的處理耗時分別為570.495 s和15 121.635 s。
表2 數(shù)據(jù)集1變化檢測精度評價
表3 數(shù)據(jù)集2變化檢測精度評價
本文結(jié)合元學(xué)習(xí)和K-means聚類分析實現(xiàn)的混合集成高分影像變化檢測算法通過快速重構(gòu)原始樣本集特征空間、增強數(shù)據(jù)集的線性可分離性,在保證泛化性能和檢測精度的同時提高了分類效率,為變化檢測提出新的研究思路,結(jié)論如下。
1)元學(xué)習(xí)算法可對不同策略的同質(zhì)集成算法(boosting和bagging)進行混合異質(zhì)集成,在降低基學(xué)習(xí)器的偏差的同時也能降低基學(xué)習(xí)器的方差,是一種處理集成學(xué)習(xí)中基學(xué)習(xí)器精度-多樣性權(quán)衡難題的有效途徑。
2)通過交叉驗證策略進行元學(xué)習(xí)的堆疊樣本集重構(gòu),可有效避免算法過擬合風險。而通過K-means聚類分析提煉元學(xué)習(xí)輸出層的決策邊界,構(gòu)建多元次級學(xué)習(xí)器的元學(xué)習(xí)混合集成模型能有效處理復(fù)雜場景變化檢測任務(wù)。
3)元學(xué)習(xí)混合集成策略的變化檢測精度雖然略低于HCM-SC算法,但前者的算法運行效率顯著優(yōu)于后者,更適合用于海量時序高分遙感數(shù)據(jù)源的變化檢測工作。
本文提出的基于元學(xué)習(xí)同/異質(zhì)混合集成和K-means聚類的高分影像變化檢測方法可在較高檢測精度下大幅縮減集成算法的運行時間,從算法運行效率、泛化性能和檢測精度3個維度確保變化檢測結(jié)果魯棒可靠,但針對建筑物密集的復(fù)雜地表,檢測結(jié)果仍有待提升。同時,如何合理選擇異質(zhì)弱分類器并針對其特定的組合構(gòu)建高效、魯棒的集成策略,如何將該方法拓展到多類變化檢測樣本自動選擇均是后續(xù)研究的重點和努力的方向。