杜培軍,林 聰,陳 宇,王 欣,張 偉,郭山川
(1. 南京大學(xué)地理與海洋科學(xué)學(xué)院,江蘇南京 210023;2. 自然資源部國(guó)土衛(wèi)星遙感應(yīng)用重點(diǎn)實(shí)驗(yàn)室,江蘇南京 210023;3. 中國(guó)礦業(yè)大學(xué)環(huán)境與測(cè)繪學(xué)院,江蘇徐州 221116;4. 成都理工大學(xué)地質(zhì)災(zāi)害防治與地質(zhì)環(huán)境保護(hù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,四川成都 610059)
對(duì)地觀測(cè)衛(wèi)星提供了多譜段、多分辨率、多時(shí)相、海量的準(zhǔn)實(shí)時(shí)及存檔遙感影像,具備了大數(shù)據(jù)種類多、體量大、動(dòng)態(tài)多變、高價(jià)值以及冗余模糊的“5V”特征[1]。雖然對(duì)地觀測(cè)數(shù)據(jù)在體量、時(shí)效性、分辨率等方面提升迅速,但遙感數(shù)據(jù)處理、分析以及進(jìn)一步感知、認(rèn)知的能力尚顯缺乏,影像信息智能提取與理解成為亟需解決的關(guān)鍵技術(shù)問題[2-4]。因此,突破遙感信息解譯的傳統(tǒng)模式,采用知識(shí)構(gòu)建多屬性的樣本庫,借助先進(jìn)機(jī)器學(xué)習(xí)方法的支持,從而高效利用海量遙感影像數(shù)據(jù),將遙感數(shù)據(jù)轉(zhuǎn)化為知識(shí),深化遙感在各個(gè)行業(yè)內(nèi)的應(yīng)用,是遙感信息科技發(fā)展的重要方向[1,5]。
地表覆蓋是地表各種物體的類型、狀態(tài)、特征與自然屬性的綜合體[6-7]。遙感影像是地表覆蓋分類的重要數(shù)據(jù)源[8]。在過去的幾十年內(nèi),地表覆蓋遙感解譯在數(shù)據(jù)、策略、模型、計(jì)算能力、應(yīng)用等方面取得了重大的進(jìn)展[9]。機(jī)器學(xué)習(xí)方法已成為地表覆蓋分類制圖的重要技術(shù)手段[10]。
國(guó)內(nèi)外許多研究團(tuán)隊(duì)致力于大尺度地表覆蓋產(chǎn)品的研究,得到了一系列不同空間分辨率的全球尺度地表覆蓋產(chǎn)品。低分辨率數(shù)據(jù)覆蓋產(chǎn)品如:全球5km分辨率的34年連續(xù)年度地表覆蓋產(chǎn)品GLASSGLC[11],全球1 km空間分辨率的IGBP DISCover地表覆蓋產(chǎn)品[12],馬里蘭大學(xué)全球1km覆蓋數(shù)據(jù)集[13],全球1km 覆蓋數(shù)據(jù)庫GLC2000[14],MODIS 全球地表覆蓋類型產(chǎn)品等[15-16]。隨著Landsat 系列以及Sentinel-2 衛(wèi)星影像的廣泛應(yīng)用,30m 及更高分辨率地表覆蓋產(chǎn)品的生產(chǎn)成為新的研究重點(diǎn)。Gong等[17]制作了2010 年全球30m 地表覆蓋產(chǎn)品FROMGLC 2010,進(jìn)一步更新生產(chǎn)了FROM-GLC 2015 與FROM-GLC 2017,此后采用2014—2015 年Landsat 8全球影像標(biāo)記生成包含了約14萬樣本點(diǎn)的訓(xùn)練樣本集,對(duì)Sentinel-2 數(shù)據(jù)進(jìn)行分類得到了全球首套10m空間分辨率的地表覆蓋產(chǎn)品FROM-GLC10[18]。國(guó)家基礎(chǔ)地理信息中心于2014 年發(fā)布了GlobeLand30 V2000 與GlobeLand30 V2010,目 前GlobeLand30 V2020 已經(jīng)可以公開獲?。?9-20]。Zhang等[21]以已有全球地表覆蓋產(chǎn)品為基礎(chǔ),自動(dòng)生成時(shí)空光譜庫,生產(chǎn)了30m 分辨率全球精細(xì)地表覆蓋產(chǎn)品GLC_FCS30。
全球或大尺度的地表覆蓋產(chǎn)品為地表覆蓋分類研究提供了豐富的數(shù)據(jù)集。特別是對(duì)于基于監(jiān)督算法的地表覆蓋分類研究,通過對(duì)已有地表覆蓋產(chǎn)品的充分利用,可以挖掘潛在的訓(xùn)練樣本標(biāo)簽或分類規(guī)則,解決當(dāng)前地表覆蓋監(jiān)督分類選取高質(zhì)量訓(xùn)練樣本費(fèi)事費(fèi)力的問題。在這一背景下,以已有地表覆蓋產(chǎn)品為參考,充分利用產(chǎn)品中有效的知識(shí),自動(dòng)完成地表覆蓋制圖具有重要的實(shí)用價(jià)值。因此,探索樣本遷移方法在地表覆蓋動(dòng)態(tài)制圖中的作用,推進(jìn)遙感影像的智能化解譯,支持大數(shù)據(jù)時(shí)代下的遙感影像數(shù)據(jù)處理、分析、理解與應(yīng)用,對(duì)以地表覆蓋為基礎(chǔ)的相關(guān)科學(xué)研究具有重要的意義。
遷移學(xué)習(xí)的主要思想是通過采用已有知識(shí)對(duì)不同但是相關(guān)的領(lǐng)域問題進(jìn)行求解[21]為多源多時(shí)相的地表覆蓋分類提供了更加低成本的解決方法,在遙感領(lǐng)域得到了廣泛的關(guān)注與研究[22-29]。領(lǐng)域適應(yīng)(Domain Adaptation,DA)是一類重要的遷移學(xué)習(xí)方法。遙感影像的領(lǐng)域適應(yīng)問題是將不同區(qū)域的影像或同一區(qū)域不同時(shí)相的影像考慮為源領(lǐng)域與目標(biāo)領(lǐng)域兩個(gè)部分,利用源領(lǐng)域中的知識(shí)訓(xùn)練分類器,解決目標(biāo)領(lǐng)域的影像分類問題[30]。領(lǐng)域適應(yīng)在遙感影像遷移學(xué)習(xí)中可以被劃分為四種類型,分別為不變特征選擇法[31-32](DA by selecting invariant features)、數(shù) 據(jù) 分 布 適 應(yīng) 法[33-34](DA by adapting data distribution)、分類器適應(yīng)法[35-36](DA by adapting the classifier)與主動(dòng)學(xué)習(xí)法(DA by active learning)[37-38]。上述的遷移學(xué)習(xí)算法往往比較復(fù)雜,難以在大尺度地表覆蓋制圖中應(yīng)用。而基于變化檢測(cè)的樣本遷移方法高效、簡(jiǎn)便、魯棒性強(qiáng),具備在大尺度地表覆蓋分類中廣泛應(yīng)用的潛力。
相比其他遷移學(xué)習(xí)方法,基于變化檢測(cè)的樣本遷移方法無需對(duì)源領(lǐng)域與目標(biāo)領(lǐng)域之間的特征或分類器進(jìn)行調(diào)整,通過確定雙時(shí)相/多時(shí)相影像之間的不變區(qū)域來降低目標(biāo)領(lǐng)域影像與源領(lǐng)域影像之間的統(tǒng)計(jì)分布差異?;谧兓瘷z測(cè)的樣本遷移方法在降低領(lǐng)域之間的分布差異上有較好的魯棒性,廣泛應(yīng)用于大尺度地表覆蓋分類研究,如聯(lián)合變化檢測(cè)與分類的地表覆蓋自動(dòng)更新方法[39]、變化檢測(cè)驅(qū)動(dòng)的遷移學(xué)習(xí)(Change Detection driven Transfer Learning,CDTL)方法[40]、面向?qū)ο蟮淖兓瘷z測(cè)與源領(lǐng)域樣本遷移[41]、時(shí)間序列影像變化檢測(cè)與不變區(qū)域參考地表覆蓋標(biāo)簽遷移[42]、源領(lǐng)域影像分類后驗(yàn)概率高置信度樣本標(biāo)簽選擇與遷移[43]、聯(lián)合深度學(xué)習(xí)與變化檢測(cè)的樣本遷移方法[44]等,以上方法均在應(yīng)用場(chǎng)景中取得了理想的樣本遷移與地表覆蓋更新制圖效果。但是這類樣本遷移方法大多基于準(zhǔn)確的源領(lǐng)域訓(xùn)練樣本,當(dāng)源領(lǐng)域訓(xùn)練樣本不夠準(zhǔn)確時(shí),例如采用已有地表覆蓋產(chǎn)品作為類別標(biāo)簽,則缺乏降低不確定性的策略,目標(biāo)領(lǐng)域影像將難以獲得理想的地表覆蓋分類結(jié)果。
綜上,對(duì)于大尺度區(qū)域的多時(shí)相地表覆蓋分類,缺乏快速、自動(dòng)化的樣本遷移方法。直接采用基于變化檢測(cè)的樣本遷移算法缺乏對(duì)源領(lǐng)域訓(xùn)練樣本不確定性的考慮。雖然綜合多源地表覆蓋產(chǎn)品可以提供更加可靠的訓(xùn)練樣本[45-46],或是依賴時(shí)間序列的多源遙感信息來提高含噪聲樣本集下的地表覆蓋分類精度[47-48],但是這些方法依賴過多的輸入數(shù)據(jù),導(dǎo)致模型相對(duì)復(fù)雜,對(duì)大尺度區(qū)域或缺乏多源參考數(shù)據(jù)的歷史存檔數(shù)據(jù)的地表覆蓋分類應(yīng)用并不完全適用。因此,本文提出了一種快速的、輕量級(jí)的樣本遷移方法,依賴更少的數(shù)據(jù)輸入從地表覆蓋產(chǎn)品中自動(dòng)獲得高質(zhì)量訓(xùn)練樣本,與基于變化檢測(cè)的多時(shí)相分類相結(jié)合,自動(dòng)獲得高精度多時(shí)相地表覆蓋制圖截圖。研究以太湖流域?yàn)樵囼?yàn)區(qū),提出一種幾何與光譜屬性約束下的無監(jiān)督樣本遷移算法,實(shí)現(xiàn)利用單景影像有效降低地表覆蓋產(chǎn)品的不確定性,研究基于產(chǎn)品和多時(shí)相影像的樣本遷移模型與自動(dòng)分類框架,以期為長(zhǎng)時(shí)間序列地理環(huán)境演變分析提供支持。
研究區(qū)域包含太湖流域及周邊快速城鎮(zhèn)化地區(qū),如圖1所示。太湖流域位于中國(guó)東部地區(qū),處于長(zhǎng)三角城市群的核心位置,包括了上海市、江蘇南部、浙江北部以及部分安徽地區(qū),總面積約37 000km2,流域整體以平原地貌為主。太湖流域是長(zhǎng)三角城市群重要組成部分,經(jīng)濟(jì)水平發(fā)達(dá),城鎮(zhèn)化程度高,人類活動(dòng)劇烈,地表覆蓋變化快速。
根據(jù)地表覆蓋產(chǎn)品GlobeLand30 的分類統(tǒng)計(jì)結(jié)果,研究區(qū)主要地表覆蓋類型為人工地表、耕地、水體、林地、草地和濕地,其他地類占比均低于0.03%。夜間燈光遙感數(shù)據(jù)通過觀測(cè)城鎮(zhèn)地區(qū)的人造光源信息來反映當(dāng)?shù)氐娜祟惢顒?dòng)情況和城鎮(zhèn)化水平[49]。分析研究區(qū)1992—2013 年間的多期DMSP-OLS 夜間燈光遙感數(shù)據(jù)(圖2)可知,該區(qū)域在1992 年就具備較好的城鎮(zhèn)化基礎(chǔ),主要的大城市已經(jīng)具備一定城鎮(zhèn)化規(guī)模。1992—2007,研究區(qū)城鎮(zhèn)化進(jìn)展迅速,主要表現(xiàn)為大城市的持續(xù)擴(kuò)張以及小城市的迅速城鎮(zhèn)化,使得太湖流域內(nèi)的城市群有明顯一體化的趨勢(shì)。至2010年,太湖流域及其周邊地區(qū)已經(jīng)具有較高的城鎮(zhèn)化水平,2010—2013年期間,研究區(qū)的城鎮(zhèn)化仍在進(jìn)一步發(fā)展,城區(qū)范圍仍然有較為明顯的擴(kuò)展。綜上,研究區(qū)地表覆蓋類型復(fù)雜,地表覆蓋持續(xù)長(zhǎng)時(shí)間地快速變化,是典型的快速城鎮(zhèn)化地區(qū)。
選用的地表覆蓋產(chǎn)品為GlobeLand30 全球地表覆蓋產(chǎn)品,該產(chǎn)品基于POK的遙感影像制圖技術(shù)制作,研究采用了V2000以及V2010兩個(gè)年份的產(chǎn)品。GlobeLand30 產(chǎn)品分類的影像主要包括Landsat 的TM、ETM+以及OLI 傳感器的多光譜數(shù)據(jù)以及中國(guó)環(huán)境減災(zāi)衛(wèi)星(HJ-1)的多光譜數(shù)據(jù),空間分辨率均為30m。GlobeLand30 產(chǎn)品組織開展了大量第三方的精度評(píng)價(jià)工作,評(píng)價(jià)得到V2010 產(chǎn)品的總體精度為83.50%,Kappa系數(shù)為0.78[50]。
研究區(qū)為包含太湖流域空間范圍的外接多邊形,試驗(yàn)區(qū)大小為9 752×8 074,共計(jì)78 737 648 個(gè)像元,需要6 幅Landsat 影像覆蓋,圖幅號(hào)分別為120/038、119/038、118/038、120/039、119/039 與118/039(圖1)。各個(gè)年份的影像采用當(dāng)年Landsat年度觀測(cè)序列中值合成,試驗(yàn)中選取的影像年份為1990年、1995年、2000年、2005年、2010年與2015年共計(jì)6期中值合成數(shù)據(jù)。經(jīng)過投影轉(zhuǎn)換與裁切等預(yù)處理,獲得試驗(yàn)區(qū)的多時(shí)相影像數(shù)據(jù)。
高精度的地表覆蓋產(chǎn)品中存在部分可利用的類別標(biāo)簽,結(jié)合同一年份或相近時(shí)相的遙感影像生成訓(xùn)練樣本集,重復(fù)利用這些訓(xùn)練樣本,可以減少甚至完全避免手動(dòng)標(biāo)記新的訓(xùn)練樣本。地表覆蓋產(chǎn)品可以視為土地斑塊與其對(duì)應(yīng)類別的集合,提供了類別信息與代表地表覆蓋空間連續(xù)性的土地斑塊信息。
地表覆蓋產(chǎn)品中的斑塊提供了一種有效的幾何約束,可以作為遷移與優(yōu)化原始地表覆蓋信息的一種先驗(yàn)局部空間單元??紤]產(chǎn)品中的斑塊信息作為先驗(yàn)知識(shí),提出一種針對(duì)地表覆蓋產(chǎn)品的樣本優(yōu)化遷移模型,在無需手動(dòng)設(shè)置任何參數(shù)與選擇新訓(xùn)練樣本的前提下,利用單時(shí)相影像快速準(zhǔn)確地從地表覆蓋產(chǎn)品中獲取有價(jià)值的可利用樣本標(biāo)簽,替代傳統(tǒng)遙感影像監(jiān)督分類中的手動(dòng)選取樣本的環(huán)節(jié)。將提出的樣本遷移模型嵌入多時(shí)相影像分類的算法中,快速獲得高精度多時(shí)相地表覆蓋制圖結(jié)果。
該方法主要包括三個(gè)步驟:
(1)以地表覆蓋產(chǎn)品斑塊為局部單元,遷移樣本標(biāo)簽:從斑塊單元的幾何約束確定地表覆蓋不確定性分析的計(jì)算單元,通過挖掘影像光譜屬性信息有效降低地表覆蓋產(chǎn)品的不確定性;
(2)以類別信息為全局單元,優(yōu)化樣本標(biāo)簽:考慮不同地物類型在特定特征空間內(nèi)的分布,從全局出發(fā)將不同地物類型分別構(gòu)建高斯混合模型(Gaussian Mixture Model,GMM),通過求解GMM的過程去除錯(cuò)分斑塊以及步驟(1)帶來的錯(cuò)誤標(biāo)簽;
(3)變化檢測(cè)與集成學(xué)習(xí)分類器協(xié)同獲取多時(shí)相地表覆蓋分類結(jié)果:通過變化檢測(cè)技術(shù)確定源影像與目標(biāo)遙感影像之間的不變區(qū)域,形成多時(shí)相目標(biāo)影像的訓(xùn)練樣本集,獲得多時(shí)相地表覆蓋分類結(jié)果。
為了方便描述方法與公式部分涉及的變量,對(duì)輸入的數(shù)據(jù)統(tǒng)一定義:令X=(X1,X2,…,Xq,…XQ)代表對(duì)同一區(qū)域重復(fù)觀測(cè)Q次的Landsat 多時(shí)相多光譜影像集,其中Xq∈RB×d代表由B個(gè)波段和d個(gè)像素組成的獲取于tq時(shí)間的Landsat多光譜影像;令M={Ω,p}代表tq時(shí)相的地表覆蓋產(chǎn)品,其中Ω=代表I種地表覆蓋類別的集合,而代表J個(gè)土地斑塊組成的集合,其中每個(gè)斑塊具有唯一的地表覆蓋類型。
原始地表覆蓋產(chǎn)品中的多邊形信息難以直接作為幾何約束,主要原因有以下兩點(diǎn):
(1)由于影像分類的椒鹽效應(yīng),產(chǎn)品中存在一些細(xì)小的多邊形,不適合作為局部單元開展聚類算法;
(2)由于分類錯(cuò)誤、后處理、以及地物真實(shí)分布,產(chǎn)品中存在由于斑塊聯(lián)合構(gòu)成大多邊形,使得局部單元的聚類算法難以收斂,屬于錯(cuò)誤的幾何先驗(yàn)知識(shí)?;诖?,采用形態(tài)學(xué)開運(yùn)算預(yù)處理原始產(chǎn)品,使得細(xì)小的多邊形可以被去除,斑塊聯(lián)合構(gòu)成的多邊形可以被分解為有效的斑塊單元,形成有效的幾何約束。
為了有效約束斑塊單元內(nèi)的錯(cuò)誤地表覆蓋信息,采用集成多種光譜指數(shù)特征的歸一化光譜向量[51](normalized difference spectral vector,NDSV)作為聚類的特征輸入。該特征對(duì)于聚類算法有以下優(yōu)勢(shì):
(1)NDSV 計(jì)算得到的光譜向量特征是歸一化且全局連續(xù)的,適合直接作為無監(jiān)督模型的輸入特征;
(2)NDSV 的每一維特征信息相互關(guān)聯(lián),有助于分析復(fù)雜地表覆蓋環(huán)境下的各類地物的分布,增益聚類算法的相似性度量過程;
(3)該方法完整計(jì)算了所有的波段組合,保障了在聚類分析過程中有效約束斑塊單元內(nèi)的錯(cuò)誤地表覆蓋信息。對(duì)于第d個(gè)像元而言,原始光譜特征為相應(yīng)的NDSV 基于式(1)計(jì)算為
式中:yd代表第d個(gè)像元的光譜特征向量為bB波段的反射率值波段與bB波段的歸一化差值。將計(jì)算得到的NDSV特征與地形特征(高程、坡度)組合,形成屬性約束特征集。
將K-means 作為基礎(chǔ)的聚類算法對(duì)逐個(gè)實(shí)施聚類分析,以第j個(gè)斑塊pj為例,其中pj由N個(gè)像元組成,則pj對(duì)應(yīng)的多光譜數(shù)據(jù)為Xpj=對(duì)應(yīng)的屬性特征集為Ypj={y1,y2,…,yn,…yN}。假設(shè)pj對(duì)應(yīng)的類別標(biāo)簽為ωu,為了從pj中分離出與ωu正確關(guān)聯(lián)的子集,將Ypj通過K-means 方 法 聚 類 劃 分 為Kj個(gè) 簇,K-means通過最小化平方誤差完成對(duì)簇的劃分,即
式中:E為平方誤差;Kj為預(yù)期劃分的簇?cái)?shù);yn為Ypj中n的第個(gè)特征向量為第k個(gè)簇,μk為的均值向量。
Kj是上述過程中唯一需要輸入的變量,且最優(yōu)的聚類簇?cái)?shù)可以更好地劃分Ypj。通過計(jì)算Calinski-Harabasz(C-H)指數(shù)來尋優(yōu)每個(gè)局部單元內(nèi)的最優(yōu)簇?cái)?shù),C-H 指數(shù)通過方差比準(zhǔn)則(variance ratio criterion ,VRC)來評(píng)價(jià)聚類效果的好壞,在聚類結(jié)果的基礎(chǔ)上,計(jì)算總體簇間方差σB(overall betweencluster variance)與總體簇內(nèi)方差σW(overall withincluster variance),通過式(3)計(jì)算方差比:
式中:N為Ypj的特征向量的數(shù)目,Kj為聚類簇?cái)?shù),VKj為簇?cái)?shù)為Kj下的方差比結(jié)果。通過定義簇?cái)?shù)范圍,逐個(gè)計(jì)算VRC結(jié)果,將VRC最大值對(duì)應(yīng)的簇?cái)?shù)作為當(dāng)前局部單元下的聚類簇?cái)?shù)。
在幾何與屬性約束下,將每個(gè)局部單元內(nèi)的像素集合劃分為多個(gè)簇,將占比最多的簇保留并繼承原始地表覆蓋產(chǎn)品的類別標(biāo)簽[48],遷移得到偽樣本集。之所以稱為偽樣本集,是考慮到地表覆蓋產(chǎn)品幾乎不可能保證每個(gè)斑塊都分類正確,因此當(dāng)前的樣本集中存在一定數(shù)量的錯(cuò)誤,需要進(jìn)一步優(yōu)化。
局部單元樣本遷移方法從地表覆蓋產(chǎn)品M={Ω,p} 中 獲 取 了 偽 訓(xùn) 練 樣 本 集Dpseudo={dp1,dp2,…,dpj,…,dpJ}。為了盡量剔除偽樣本集中錯(cuò)誤的樣本,獲得一個(gè)優(yōu)化后的訓(xùn)練樣本集D(D∈Dpseudo),提出了一種基于高斯混合模型的全局樣本優(yōu)化方法。從全局影像特征出發(fā),構(gòu)建高斯混合分布,從統(tǒng)計(jì)分布角度約束偽樣本集中的錯(cuò)誤樣本。采用高斯混合模型分解的手段將偽樣本集劃分,保留正確分布,獲得目標(biāo)訓(xùn)練樣本集,自動(dòng)完成樣本優(yōu)化的過程。
對(duì)Dpseudo按照對(duì)應(yīng)類別標(biāo)簽ωi進(jìn)行分解,在分類體系下將偽樣本表達(dá)為不同地類偽樣本集 的集合Dpseudo={Dω1,Dω2,…,Dωi,…DωI}。Dωi為類別ωi對(duì)應(yīng)的偽樣本集,可以視為ωi類與非ωi類的兩個(gè)高斯分布的混合,對(duì)Dωi構(gòu)建如下高斯混合模型:
其中pM(·)為概率密度函數(shù),α1、μ1、Σ1分別為第一個(gè)高斯分布的混合系數(shù)、均值向量與協(xié)方差向量,α2、μ2、Σ2分別為第二個(gè)高斯分布的混合系數(shù)、均值向量與協(xié)方差向量。
選擇NDVI、MNDWI以及地形數(shù)據(jù)中的坡度特征作為關(guān)鍵特征,完成對(duì)地表覆蓋主要類別水體、人工地表、林地、草地以及耕地的全局優(yōu)化,具體優(yōu)化流程如圖4所示。
圖4 基于高斯混合模型的全局偽樣本優(yōu)化流程Fig.4 Global pseudo-sample optimization process based on Gaussian mixture model
通過變化矢量分析(change vector analysis,CVA)結(jié)合大津法Otsu的變化檢測(cè)方法確定不變區(qū)域,傳遞不變區(qū)域的樣本標(biāo)簽,獲得待分類時(shí)相的訓(xùn)練樣本。采用隨機(jī)森林(random forest,RF)作為分類器完成多時(shí)相地表覆蓋分類制圖。由于研究中用于分類的訓(xùn)練樣本并非手動(dòng)選擇,導(dǎo)致最終用于多時(shí)相分類的樣本中存在少量錯(cuò)誤,另一方面,由于RF中的基分類器互相之間相關(guān)性較弱,各自的錯(cuò)誤預(yù)測(cè)也應(yīng)該是幾乎不相關(guān)的,因此對(duì)RF通過對(duì)多個(gè)基分類器的集成學(xué)習(xí)可以提高最終分類的結(jié)果。其他的類似的集成學(xué)習(xí)方法也可以替代RF 完成本研究的分類任務(wù)。
對(duì)GlobeLand30 V2000 與2000 年中值合成影像、GlobeLand30 V2010 與2010 年中值合成影像分別執(zhí)行無監(jiān)督樣本遷移方法,得到2000年與2010年的訓(xùn)練樣本。通過變化檢測(cè)方法,將不變區(qū)域的樣本進(jìn)行傳遞,基于2000年的訓(xùn)練樣本得到1990年與1995 年的訓(xùn)練樣本,基于2010 年訓(xùn)練樣本的得到2005 年與2015 年的訓(xùn)練樣本。采用隨機(jī)森林作為分類器,只采用影像原始的多光譜數(shù)據(jù)與地形特征(高程、坡度)參與分類,將6個(gè)時(shí)相的訓(xùn)練樣本輸入分類器,得到6 個(gè)時(shí)相的地表覆蓋分類結(jié)果,如圖5所示。
圖5 太湖流域1990—2015年多時(shí)相地表覆蓋分類結(jié)果Fig.5 Multi-temporal land cover classification results in the Taihu Basin from 1990 to 2015
為了進(jìn)一步驗(yàn)證地表覆蓋分類結(jié)果的可靠性,定量評(píng)價(jià)各期地表覆蓋分類結(jié)果,基于GEE平臺(tái)的TimeSync+(TimeSync-Plus)工具結(jié)合Landsat影像時(shí)序信息來標(biāo)記驗(yàn)證樣本。在隨機(jī)生成樣本點(diǎn)的基礎(chǔ)上,在TimeSync+中獲得多期驗(yàn)證樣本點(diǎn)數(shù)據(jù),將樣本點(diǎn)疊加在影像上進(jìn)行目視解譯的驗(yàn)證、刪除與增選,在2010 與2015 年選擇Google Earth 高分影像輔助上述過程,獲得多期驗(yàn)證樣本點(diǎn)數(shù)據(jù),對(duì)地表覆蓋分類結(jié)果進(jìn)行精度評(píng)價(jià)。
表1為1990—2015 年共6 期的地表覆蓋分類精度評(píng)價(jià)結(jié)果。可以看出,2000年與2010年的總體精度超過91%,表明樣本遷移方法可以有效替代手動(dòng)標(biāo)記樣本的過程,獲得高質(zhì)量的訓(xùn)練樣本。在只采用原始多光譜特征與地形特征的基礎(chǔ)上,其他年份的地表覆蓋分類精度也都在90%左右,因此提出的樣本遷移方法與多時(shí)相分類技術(shù)可以自動(dòng)生成可靠的地表覆蓋分類結(jié)果。
表1 太湖流域1990—2015年年地表覆蓋分類精度評(píng)價(jià)結(jié)果Tab.1 Accuracy assessment results of the Taihu Basin from 1990 to 2015
為了進(jìn)一步驗(yàn)證比較提出方法的可靠性,選擇2000 年的分類結(jié)果與GlobeLand30 V2000 進(jìn)行目視比對(duì),選擇2010 年的分類結(jié)果與FROM-GLC 2010 進(jìn)行對(duì)比,選擇2015 年的分類結(jié)果與FROMGLC 2015 以 及GLC_FCS30 的2015 年 產(chǎn) 品 進(jìn) 行對(duì)比。
從圖6 對(duì)比結(jié)果來看,提出的無監(jiān)督樣本遷移模型支持的地表覆蓋分類結(jié)果在空間細(xì)節(jié)上對(duì)比原始產(chǎn)品GlobeLand30 有顯著提升,更加符合影像中地物真實(shí)分布的狀況。由于采用基于面向?qū)ο蟮姆诸惙椒ㄒ约叭斯ぞ庉嫼筇幚?,?dǎo)致GlobeLand30 產(chǎn)品雖然有較好的評(píng)價(jià)精度結(jié)果,但是實(shí)際上沒有對(duì)30m 影像中的地物進(jìn)行空間上的精準(zhǔn)制圖,提出的無監(jiān)督樣本遷移方法基于GlobeLand30,在保持較高的分類精度的前提下,獲得了細(xì)節(jié)更加豐富的地表覆蓋分類結(jié)果。
圖6 2000年地表覆蓋分類結(jié)果與GlobeLand30 V2000的對(duì)比Fig.6 Comparison of land cover classification results in 2000 with GlobeLand30 V2000
從圖7 對(duì)比結(jié)果來看,本研究獲得的2010 年地表覆蓋產(chǎn)品分類結(jié)果明顯優(yōu)于FROM-GLC 2010。FROM-GLC 2010 存在將大量耕地與人工地表錯(cuò)分為裸地的情況,而事實(shí)上研究區(qū)只存在極少量的裸地。同時(shí),F(xiàn)ROM-GLC 2010 也將大量的林地錯(cuò)分為了耕地,而提出的方法基本上正確分類了這些林地像元。值得注意的是,F(xiàn)ROMGLC 2010 是較早發(fā)布的全球地表覆蓋產(chǎn)品,因此在地表覆蓋情況比較復(fù)雜的太湖流域地區(qū)精度存在一定不足。
圖7 2010年地表覆蓋分類結(jié)果與FROM-GLC 2010的對(duì)比Fig.7 Comparison of land cover classification results in 2010 with FROM-GLC 2010
從圖8 對(duì)比結(jié)果來看,提出的方法得到了較好的2015 年的地表覆蓋分類,與影像中的地物類別信息基本一致。GLC_FCS30 在研究區(qū)內(nèi)也取得較好的地表覆蓋制圖結(jié)果,但是相比于本研究的分類結(jié)果,明顯存在將水體錯(cuò)分為草地、濕地,以及將耕地錯(cuò)分人工地表的情況。FROM-GLC 2015 在人工地表與水體上取得了非常好的分類制圖結(jié)果,但是存在大量將耕地錯(cuò)分為林地與草地的情況??傮w而言,2015 年的地表覆蓋分類在研究區(qū)內(nèi)優(yōu)于GLC_FCS30 以及FROM-GLC 2015。
圖8 2015年地表覆蓋分類結(jié)果與GLC_FCS30(產(chǎn)品A)以及FROM-GLC 2015(產(chǎn)品B)的對(duì)比Fig.8 Comparison of land cover classification results in 2015 with GLC_FCS30 and FROM-GLC 2015
針對(duì)歷史時(shí)期地表覆蓋分類中對(duì)訓(xùn)練樣本數(shù)量與質(zhì)量的需求,研究提出了一種幾何與屬性約束下的無監(jiān)督樣本遷移模型和分類框架,得到的太湖流域1990—2015 年的多期地表覆蓋分類結(jié)果精度均優(yōu)于89%。因此,無監(jiān)督樣本遷移方法充分利用了已有土地覆蓋產(chǎn)品的幾何約束和遙感影像的光譜特征,從局部斑塊尺度和全局樣本分布上對(duì)地表覆蓋產(chǎn)品中隱含的信息進(jìn)行了優(yōu)選,可以形成高質(zhì)量的訓(xùn)練樣本集,在多分類器集成系統(tǒng)支持下獲得高精度多時(shí)相土地覆蓋分類結(jié)果,是一種輕量級(jí)、可靠、快速的樣本遷移模型。
未來將進(jìn)一步改進(jìn)時(shí)間序列變化檢測(cè)方法,降低樣本在時(shí)序傳遞造成的誤差,為長(zhǎng)時(shí)間序列地表覆蓋動(dòng)態(tài)制圖和地理環(huán)境時(shí)空感知提供可靠的信息支持。
作者貢獻(xiàn)聲明:
杜培軍:負(fù)責(zé)論文總體設(shè)計(jì),提出需求與思路,完成論文的前言與結(jié)論部分,統(tǒng)籌論文寫作與修改。
林聰:負(fù)責(zé)方法的代碼編寫與實(shí)現(xiàn),完成論文方法與試驗(yàn)部分的寫作。
陳宇:負(fù)責(zé)論文初稿的整體修改,負(fù)責(zé)論文全過程的格式、排版,完成了研究區(qū)介紹部分。
王欣:協(xié)助完成了方法的代碼編寫與實(shí)現(xiàn),修改了論文的方法與試驗(yàn)部分。
張偉:負(fù)責(zé)論文中數(shù)據(jù)的預(yù)處理部分。
郭山川:在論文完稿過程中提出了大量的修改建議。