葉雨陽,呂獻(xiàn)林,羅鍇澍,操華雙,陳 剛
(1.中國地質(zhì)大學(xué) 海洋學(xué)院,湖北 武漢 430074; 2.中國電建集團(tuán)河南省電力勘測設(shè)計院有限公司,河南 鄭州 450007; 3.湖北大學(xué) 資源環(huán)境學(xué)院,湖北 武漢 430062; 4.竹山縣水利和湖泊局,湖北 十堰 442200)
湖泊作為陸地水圈的重要組成部分,參與自然界的水分循環(huán),使得地球表層系統(tǒng)各圈層相互聯(lián)結(jié)。同時湖泊也是環(huán)境變化重要的指示器,近年來由于氣候變化以及人類活動的影響[1],洞庭湖趨于萎縮,洪澇干旱災(zāi)害頻繁發(fā)生,水環(huán)境形勢不容樂觀,進(jìn)而影響洞庭湖區(qū)及周邊生態(tài)環(huán)境。因此,精準(zhǔn)、快速識別湖泊水體信息并掌握其水體時空分布特征對于水資源監(jiān)測與應(yīng)用具有重要意義[2],且可為有關(guān)部門制定保護(hù)政策從而改善湖泊周邊生態(tài)環(huán)境提供可靠依據(jù)。
衛(wèi)星遙感技術(shù)因具有宏觀、綜合、動態(tài)、快速等無可比擬的優(yōu)點[3],已經(jīng)成為分析和傳遞不同地球資源特別是地表水變化數(shù)據(jù)的重要信息來源。目前,Landsat系列衛(wèi)星數(shù)字產(chǎn)品因其較高的空間分辨率、覆蓋范圍全球化及易獲取性被廣泛應(yīng)用于水體信息提取。利用遙感數(shù)據(jù)提取水體信息的方法一般大致分為兩類:一類為光譜分析方法,即考慮水體在多光譜波段的輻射特性提取水體信息。例如,Xu[4]基于各地物在不同波段光譜特性的差異提出改進(jìn)的歸一化差異水體指數(shù)(Modified Normalized Difference Water Index,MNDWI),可以有效分割建筑區(qū)水體;Feyisa等[5]提出的自動水體提取指數(shù)(Automated Water Extraction Index,AWEIsh)能有效抑制陰影以正確識別水體特征。另一類為影像分類方法,即采用特征提取和分類技術(shù)進(jìn)行水域檢測和定量分析。例如,Paul等[6]的研究表明,即使僅用少量的標(biāo)記樣本進(jìn)行訓(xùn)練,支持向量機(jī)(Support Vector Machine,SVM)分類方法也能較好地從遙感影像中提取水體信息;王雪等[7]構(gòu)建的全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolution Neural Networks,FCN)模型可以從抽象特征中恢復(fù)出每個像素所屬類別來提取水體;王新宇[8]利用隨機(jī)森林算法(Random Forest,RF)挖掘特征組合信息,提升遙感影像水體范圍的提取效果。
本文對比分析了MNDWI,AWEIsh,SVM,ANNs和RF等5種典型方法在洞庭湖水體提取中的表現(xiàn)。以Landsat-8枯水期影像數(shù)據(jù)為基礎(chǔ),豐水期影像數(shù)據(jù)為輔,將通過目視解譯的水體信息作為真值,據(jù)此建立混淆矩陣并評價各方法提取精度。通過對比枯水期5種方法提取結(jié)果細(xì)節(jié)差異及枯、豐水期水體提取精度等,為各提取方法在不同應(yīng)用及制圖需求中的靈活運用及基于中等空間分辨率遙感數(shù)據(jù)的湖泊動態(tài)監(jiān)測精準(zhǔn)化研究等方面提供一定參考[9]。
洞庭湖區(qū)位于長江中游(27°39′N~29°51′N,111°19′E~113°34′E;如圖1所示),是中國第二大淡水湖,大型通江湖泊,具有防旱蓄洪、調(diào)節(jié)湖區(qū)周邊濕地生態(tài)環(huán)境等重要作用[10]。東洞庭湖向南連接湘江,向西連通資水、沅江和澧水,經(jīng)調(diào)蓄后由城陵磯匯入長江[1],形成錯綜復(fù)雜的吞吐調(diào)蓄性湖泊。其東、南、西三面環(huán)山,呈河網(wǎng)平原地貌景觀,屬于典型的亞熱帶季風(fēng)濕潤氣候。1~3月為枯水期,7~9月為豐水期,枯、豐水期水域分布變化極為強(qiáng)烈,素有“洪水一大片,枯水幾條線”之景。鑒于研究區(qū)基礎(chǔ)影像是洞庭湖區(qū)枯水期影像且湖區(qū)內(nèi)水系面域較大[11],本文選取背景地物復(fù)雜、水體類型多樣的東洞庭湖區(qū)及水系分布復(fù)雜的湖區(qū),共2塊具有代表性的區(qū)域,見圖1(b)、(c),作精度評定。
注:黑色方框為精度驗證區(qū)所在位置,水體邊界以黃色線條描繪。圖1 研究區(qū)示意
本文以Landsat-8為數(shù)據(jù)源,枯水期影像數(shù)據(jù)為基礎(chǔ)、豐水期影像數(shù)據(jù)為輔,其中枯水期選取成像時間為2020年3月19日和2020年4月29日各一景影像,軌道號為124/40和123/40;豐水期選取成像時間為2020年10月22日的兩景影像,軌道號為123/39和123/40。所選影像皆為云量低于5%的高質(zhì)量影像。
因獲取影像存在地物間對比度低,受大氣散射、吸收、反射影響等問題,本文進(jìn)行了如下預(yù)處理操作。首先使用ENVI5.3軟件對影像數(shù)據(jù)進(jìn)行線性拉伸,突出顯示水體信息[12];其次進(jìn)行輻射定標(biāo)及FLAASH大氣校正;然后使用三次卷積法進(jìn)行無縫鑲嵌;最后使用研究區(qū)矢量圖裁剪影像,以獲得研究區(qū)范圍枯、豐水期數(shù)據(jù)。
為全面對比分析湖泊水體信息提取方法在洞庭湖的應(yīng)用效果,本文從水體指數(shù)法和機(jī)器學(xué)習(xí)法中分別選取多種代表性分類方法,通過總體精度、Kappa系數(shù)、漏提率及過提率等4種評價指標(biāo)進(jìn)行評價分析。
水體指數(shù)法因其提取速度快、可擴(kuò)展性強(qiáng)等優(yōu)點被廣泛用于水體信息提取。本文選取改進(jìn)的歸一化差異水體指數(shù)(Modified Normalized Difference Water Index,MNDWI)和自動水體提取指數(shù)(Automated Water Extraction Index,AWEIsh)兩種方法作為典型代表用于后文對比分析。通過研究發(fā)現(xiàn),閾值的大小會受亞像素土地覆蓋組成成分占比影響,當(dāng)土地覆蓋由水、土壤和植被組成時,水分占比越高,選取的最優(yōu)分割閾值越接近理論分割閾值0[13]。因此,本文通過對比分析水體、植被、農(nóng)用地等地物灰度值,將理論分割閾值0進(jìn)行調(diào)整,得到最優(yōu)分割閾值。且通過試驗發(fā)現(xiàn),水體指數(shù)法提取時間皆小于30 s。
2.1.1 MNDWI
Xu[4]改進(jìn)了歸一化差異水體指數(shù)(Normalized Difference Water Index,NDWI)[14],將近紅外波段(NIR)替換為短波紅外波段(SWIR1),提出MNDWI,即
(1)
式中:Green(0.525~0.600 μm)為綠光波段;SWIR1(1.560~1.660 μm)為短波紅外1波段。由于水體與建設(shè)用地等地物反射特性在NIR波段相似但在SWIR1波段差異較大,MNDWI能更有效地抑制甚至去除建成區(qū)、植被及土壤噪聲。根據(jù)單波段影像灰度直方圖(圖2)選取閾值發(fā)現(xiàn),當(dāng)閾值設(shè)定為0.464 2和0.459 4時,水體信息提取效果良好且受背景地物影響較小。因此,本文將大于0.464 2的像元劃分為枯水期水體,將大于0.459 4的像元劃分為豐水期水體。
圖2 MNDWI法枯、豐水期水體灰度直方圖
2.1.2 AWEIsh
Feyisa等[5]利用Landsat-5 TM數(shù)據(jù)提出了AWEIsh指數(shù),表達(dá)式為
AWEIsh=Blue+2.5×Green-
1.5×(NIR+SWIR1)-0.25×SWIR2
(2)
式中:Blue(0.450~0.515 μm)為藍(lán)光波段;SWIR2(2.100~2.300 μm)為短波紅外2波段;下標(biāo)“sh”表明旨在有效消除陰影像元,提高存在山體陰影和其他暗面區(qū)域的水體提取精度。本文根據(jù)單波段影像灰度直方圖(圖3)選取閾值,最終選定0.064 8和0.093 0作為最優(yōu)分割閾值,將大于0.064 8的像元劃分為枯水期水體,大于0.093 0的像元劃分為豐水期水體。
圖3 AWEIsh法枯、豐水期水體灰度直方圖
機(jī)器學(xué)習(xí)分為傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí),近年來在水體信息提取方面的應(yīng)用受到廣泛關(guān)注,該方法可以提取出更精細(xì)的水體細(xì)部信息。本文選取傳統(tǒng)機(jī)器學(xué)習(xí)支持向量機(jī)(Support Vector Machine,SVM)、隨機(jī)森林(Random Forest,RF)以及深度學(xué)習(xí)人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANNs)共3種方法用于后文對比分析,且均使用5,4,3波段(NIR,Red,Green)作為輸入波段。
2.2.1 SVM
SVM是以統(tǒng)計學(xué)為基礎(chǔ),實現(xiàn)結(jié)構(gòu)風(fēng)險最小化原則的智能算法[15]。在水體提取中,由于SVM能有效解決影像混合像元等問題而被廣泛應(yīng)用。其性能主要取決于核函數(shù)類型選擇和參數(shù)設(shè)置[16]。徑向基(RBF)核函數(shù)相較于線性核函數(shù)、多項式核函數(shù)及Sigmoid核函數(shù)識別率更高,性能更好,且訓(xùn)練集減少時分類性能最穩(wěn)定[11],因此本文選取RBF作核函數(shù)。設(shè)置不同的Gamma值相當(dāng)于調(diào)整模型復(fù)雜度,當(dāng)Gamma值過大時,模型過擬合;Gamma值過小時,模型欠擬合。本文測試了Gamma值為[1,20]時的提取效果,最終將Gamma值設(shè)置為10,懲罰參數(shù)C為100。訓(xùn)練時間為10 min。
2.2.2 RF
RF由Breiman[17]于2001年提出,是一種基于分類樹的機(jī)器學(xué)習(xí)算法[18],其思路是改進(jìn)早前提出的Bagging算法[19]在節(jié)點特征選擇部分引入了隨機(jī)過程,它提高了簡單決策樹的預(yù)測精度。本文使用基尼不純度確定節(jié)點最優(yōu)條件,測試樹數(shù)量為[100,150]時的提取效果,通過對比發(fā)現(xiàn)當(dāng)子樹數(shù)量為130時提取效果最佳,訓(xùn)練時間為3 min。
2.2.3 ANNs
人工神經(jīng)網(wǎng)絡(luò)簡稱為“神經(jīng)網(wǎng)絡(luò)”(Neural Networks,NNs),本文采用的神經(jīng)網(wǎng)絡(luò)由3層組成:輸入層、隱藏層和輸出層。輸入層負(fù)責(zé)數(shù)據(jù)接收和類型轉(zhuǎn)化等操作,隱含層將抽象層處理后的數(shù)據(jù)進(jìn)行數(shù)據(jù)屬性抽象描述[20],輸出層負(fù)責(zé)將特征映射到特定維度并輸出預(yù)測結(jié)果。本文使用209個訓(xùn)練樣本,146個測試樣本,Logistic函數(shù)作為激活函數(shù)[21],測試隱含層數(shù)量為[1,2],學(xué)習(xí)率為[0.2,0.5]時的提取效果,最終將隱含層設(shè)置為1層,學(xué)習(xí)率為0.2,迭代次數(shù)為1 000次,訓(xùn)練時間為7 min。
本文基于混淆矩陣[22]計算總體分類精度、Kappa系數(shù)、漏提率和過提率等4個指標(biāo)進(jìn)行提取結(jié)果精度評價。
2.3.1 總體分類精度(Overall Accuracy,OA)
OA表示被正確分為水體的像元數(shù)占像元總數(shù)的百分比,其表達(dá)式為
(3)
式中:TP表示實際為水體像元且檢測結(jié)果也為水體像元的像元數(shù);TN表示實際為非水體像元且檢測結(jié)果也為非水體像元的像元數(shù);FP表示實際為非水體像元而檢測結(jié)果為水體像元的像元數(shù);FN表示實際為水體像元而檢測結(jié)果為非水體像元的像元數(shù)。
2.3.2 Kappa系數(shù)
Kappa系數(shù)是衡量一致性的常用統(tǒng)計方法,其表達(dá)式為
(4)
(5)
式中:P0為總體分類精度;Pe為期望一致率,即兩次提取結(jié)果由于偶然機(jī)會所造成的一致率;n為總像元數(shù)。
2.3.3 漏提率及誤提率
本文采用“漏提率”和“過提率”對水體提取效果差異進(jìn)行量化描述,公式為
(6)
(7)
為驗證各提取方法精度,本文通過如下方法提取驗證數(shù)據(jù)集,制作流程如圖4所示。
圖4 驗證數(shù)據(jù)集制作流程
(1) 分別選取枯、豐水期影像為底圖,在ArcGIS軟件平臺通過人工目視解譯獲得精度驗證區(qū)水體真值;
(2) 在人工目視解譯結(jié)果的基礎(chǔ)上,以枯、豐水期水體分布作為約束條件,創(chuàng)建隨機(jī)水體樣本點[23];
(3) 同理,生成非水體樣本點。
最后,本文共收集了6 512個水體樣本點,6 512個非水體樣本點。
本研究通過分析水體提取精度及影響因素揭示各提取方法魯棒性并針對提取精度、提取時長及適用范圍對各方法作出評價。
本文使用MNDWI,AWEIsh,SVM,ANNs和RF法對研究區(qū)水體進(jìn)行提取,5種方法提取結(jié)果總體精度及漏提、過提等情況如表1所示;精度驗證區(qū)如圖1(b),(c)所示。可以看出,區(qū)域b中,SVM法漏提率最低,總體精度最高。區(qū)域c中,雖然AWEIsh法過提率最高但總體精度也最高,這是由于它對湖體的提取較其他方法更加完整,即漏提率最低;SVM法過提率最低但漏提率高于AWEIsh法和RF法,因此總體精度略低于這兩種方法。2個區(qū)域中,RF法過提率雖相對AWEIsh法更低,漏提率卻更高,因此總體精度略低于AWEIsh法。由此可見,漏提率指標(biāo)在總體精度評定中起到更重要的參考作用。
3.2.1 水體類型及背景地物影響
本文將選取精度驗證區(qū)b,c中的差異水體類型及背景地物共4個重點區(qū)域,通過視覺比較和定量指標(biāo)進(jìn)一步評估5種方法的水體提取性能并分析影響提取精度的原因。其中,因本研究提取對象為洞庭湖區(qū)內(nèi)由湖泊、水庫及細(xì)小河流組成的水系,魚場雖為水體但會對提取結(jié)果造成一定影響,因此將其視為背景地物。具體分類結(jié)果如圖5~6所示。
圖5 5種算法在水庫、細(xì)小河流的提取效果差異
通過與原始影像數(shù)據(jù)目視比較,提取效果差異主要表現(xiàn)為水庫、細(xì)小河流的漏提現(xiàn)象,農(nóng)用地、魚場的過提現(xiàn)象。其中,MNDWI法、AWEIsh法對水庫漏提較嚴(yán)重,SVM法、AWEIsh法對農(nóng)用地及魚場過提較嚴(yán)重,RF法最輕且對湖體間淺水處水體提取效果最好。為了定量評價水體分類的準(zhǔn)確性及差異性,本文計算了水庫、細(xì)小河流、農(nóng)用地及魚場的漏提率或過提率,結(jié)果如表2所示。
表2 5種方法在4個區(qū)域的提取效果評價
從表2中可知,MNDWI法對水庫漏提最嚴(yán)重,其原因可能是水庫與背景地物通過波段計算后DN值相似。AWEIsh法對細(xì)小河流的提取效果最好,但對背景地物過提嚴(yán)重,通過分析發(fā)現(xiàn)農(nóng)用地、魚場等背景地物的光譜特性與部分水體相近容易造成過提。SVM法提取的水庫最貼近真實形態(tài),且通過對比效果圖發(fā)現(xiàn),該方法提取水體細(xì)部信息的效果較ANNs法更好。RF法對背景環(huán)境敏感性最低,即過提率最低。總體來說,水體指數(shù)法對細(xì)小水體提取效果較好,機(jī)器學(xué)習(xí)法對于水體輪廓復(fù)雜度適應(yīng)性良好,對背景環(huán)境敏感度基本低于水體指數(shù)方法,魯棒性更強(qiáng)。且綜合各水體類型及背景地物的漏提率、過提率排序來看,可與表1中結(jié)果相互印證。
3.2.2 水域季節(jié)性變化影響
由于洞庭湖區(qū)水系水體分布隨季節(jié)變化巨大,分為枯水期與豐水期(圖7中淡藍(lán)色部分為豐水期水體分布,深藍(lán)色虛線為枯水期水體分布范圍),本文通過計算4種定量評價指標(biāo)分析水域變化對各方法提取精度的影響程度,結(jié)果見表3。
通過對比發(fā)現(xiàn),水域面積季節(jié)性變化對各方法漏提率及過提率影響較大但對總體精度及Kappa系數(shù)影響不大。除ANNs法豐水期提取精度外,各方法枯、豐水期總體精度高的漏提率較低,且過提率相近時漏提率越高,總體精度越低。分析豐水期過提率高于枯水期的原因,發(fā)現(xiàn)豐水期水體分布更加復(fù)雜且裸露河床及淺水區(qū)較多易過提。各方法中,SVM法枯、豐水期總體提取精度均最高(95.02%,95.76%),表明其在應(yīng)對湖泊水域面積變化時具有更好的魯棒性。精度表現(xiàn)最差的是MNDWI法(94.61%,93.06%),該方法枯、豐水期平均總體精度最低,且兩者差異最大,這表明指數(shù)型方法在區(qū)域化應(yīng)用時泛化能力較差。因此綜合來看,表現(xiàn)更好的是機(jī)器學(xué)習(xí)法,其中SVM法效果最好,而水體指數(shù)法表現(xiàn)略遜一籌。
通過前文對5種水體提取方法的綜合分析得知,MNDWI法和AWEIsh法提取結(jié)果受光譜特性影響較大,因此,在有大面積農(nóng)用地等背景地物時不建議選擇水體指數(shù)法,但該種方法操作簡單、提取速度快,可用于自動化應(yīng)急監(jiān)測。RF與ANNs相比:從提取水體類型來看,RF法適于提取細(xì)小河流,ANNs法適于提取面域較大的水體;從提取時長、背景環(huán)境影響來看,RF法速度更快且對背景環(huán)境敏感性更低,適用于背景地物復(fù)雜地區(qū)水域動態(tài)監(jiān)測。SVM法能較好地適應(yīng)水域面積變化并能保證輪廓復(fù)雜水體的提取精度要求,適用于提取精度要求較高、水體類型多樣時的水體提取并制作地表水體分布圖。但該方法提取速度受樣本數(shù)量影響較大,因此,選取有效訓(xùn)練樣本至關(guān)重要,這可以提高正確識別率及分類速度。
本文基于Landsat-8影像數(shù)據(jù)采用5種方法提取洞庭湖區(qū)枯、豐水期水體信息,得到以下結(jié)論:
(1) 漏提率指標(biāo)在精度評價中具有更高參考價值。
(2) 基于Landsat-8影像,洞庭湖區(qū)水體信息提取精度及魯棒性排序為SVM>RF>AWEIsh>ANNs>MNDWI;提取時長排序為SVM>ANNs>RF>水體指數(shù)法。
(3) 機(jī)器學(xué)習(xí)方法中,SVM法提取精度最高、魯棒性強(qiáng),適用于多尺度、多類型水體精細(xì)化提取,能夠基本滿足高精度地表水體制圖需求;RF法對背景地物敏感度最低,適用于背景地物復(fù)雜地區(qū)的水體提取;ANNs法較適用于大面積水域提取。水體指數(shù)法受光譜特征影響較大,適用于城區(qū)內(nèi)小型湖泊提取。
本文研究僅選取同一衛(wèi)星兩個不同時期的洞庭湖水系進(jìn)行分析,下一步將選取Landsat系列衛(wèi)星,使用多時相、長時間序列遙感影像數(shù)據(jù)分析洞庭湖水系面積季節(jié)變化及年際變化,為洞庭湖資源合理利用規(guī)劃提供科學(xué)依據(jù)。