王玉珍,高琪 ,白建鐸 ,彭杰*
(1塔里木大學(xué)農(nóng)學(xué)院,新疆 阿拉爾 843300)
(2昌吉州地質(zhì)環(huán)境監(jiān)測站,新疆 昌吉 831100)
我國是世界人口第一大國,糧食需求量大,農(nóng)業(yè)快速發(fā)展對我國糧食安全和社會穩(wěn)定具有重要意義,因此及時準(zhǔn)確地了解農(nóng)田地塊的范圍和位置對農(nóng)業(yè)監(jiān)測、糧食產(chǎn)量評估具有重要作用[1]。傳統(tǒng)的人工調(diào)查不僅耗費(fèi)大量的人力物力,而且資金投入高,隨著遙感技術(shù)的快速發(fā)展,利用遙感手段進(jìn)行農(nóng)田信息提取克服了傳統(tǒng)調(diào)查方法的不足,且逐漸成為研究熱點(diǎn)[2]。
已有研究多利用中低分辨率遙感影像提取農(nóng)田信息,盡管提取速度快,但提取精度低,無法獲得精確的農(nóng)田地塊信息,僅適用于大范圍農(nóng)田耕地信息監(jiān)測[3]。高分辨率遙感影像的出現(xiàn),使得高效、精確和低成本農(nóng)田測繪成為可能[4]。高分辨率影像能夠清晰、準(zhǔn)確表達(dá)地物的邊界、形狀、表面紋理、內(nèi)部結(jié)構(gòu)和空間關(guān)系,可以充分利用高分辨率遙感影像進(jìn)行農(nóng)田地塊信息提取,且提取結(jié)果從數(shù)量和空間分布上也更為可信[5]。近年來,利用高分辨率遙感數(shù)據(jù)提取地物的研究日益增多。丁相元等[6]基于高分一號衛(wèi)星時間序列數(shù)據(jù)研究土地分類識別技術(shù),提出了利用高分辨率單時相原始遙感影像和時間序列NDVI數(shù)據(jù)結(jié)合進(jìn)行沙化土地遙感分類的新思路;陸昳麗[7]從植被光譜特征和邊緣特征兩個方向,詳細(xì)探究了面向?qū)ο蟮母呖臻g分辨率遙感影像農(nóng)田目標(biāo)的識別和提取方法。這些研究所用數(shù)據(jù)源均為高分辨率影像,有效避免了部分像元混分的問題。因此本研究選擇國產(chǎn)高分二號影像為數(shù)據(jù)源,探究其高精度提取農(nóng)田信息的潛力。
盡管利用高分辨率遙感影像提取地物信息十分方便,但是基于像素的分類方法僅考慮影像的單一像素光譜特征因素,該方法已較少用于含有豐富信息特征的高分辨率影像信息提取。而面向?qū)ο蟮姆诸惙椒ǜ⒅貙ο筇卣鞯目臻g相關(guān)性,因此采用面向?qū)ο蟮姆诸愄崛》椒ǔ蔀槟壳皣鴥?nèi)外學(xué)者研究的焦點(diǎn)問題[8]。目前面向?qū)ο笥跋穹治鲆呀?jīng)逐漸成為高空間分辨率遙感信息提取的主流技術(shù)[9],對于高分辨率遙感影像數(shù)據(jù),面向?qū)ο蠓诸惪梢猿浞掷闷湄S富的光譜、形狀、紋理、大小等特征更好地區(qū)分地物。WATKINS B等[10]通過改進(jìn)基于目標(biāo)的圖像分析方法,實(shí)現(xiàn)了分時段Sentinel-2圖像中5種不同農(nóng)業(yè)景觀的農(nóng)田自動識別與輪廓檢測,總體精度高達(dá)83.6%。面向?qū)ο蠓诸惙椒O大提高了地物分類提取精度,故本研究選擇兩種較為典型的分類器算法對農(nóng)田地塊展開研究。此外,近年來深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)在遙感圖像處理領(lǐng)域受到了很大的關(guān)注,因?yàn)槠淠軌驈挠?xùn)練集中以分層的方式自動學(xué)習(xí)具有代表性和區(qū)別性的特征[11]。郭文等[12]采用一種注意力增強(qiáng)的卷積神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)了從衛(wèi)星遙感影像中自動提取建筑物。WALDNER F等[13]使用 ResUNet神經(jīng)網(wǎng)絡(luò)模型解決多任務(wù)語義分割問題,從衛(wèi)星圖像中提取農(nóng)田邊界。因此本研究又嘗試采用加入注意力模塊的卷積神經(jīng)網(wǎng)絡(luò)模型提取農(nóng)田信息。
鑒于已有研究運(yùn)用面向?qū)ο蠓椒ㄒ约吧疃葘W(xué)習(xí)在影像分類提取中所表現(xiàn)出的優(yōu)勢,本研究以阿拉爾墾區(qū)部分區(qū)域?yàn)檠芯繀^(qū)域,該墾區(qū)為典型的灌溉農(nóng)業(yè)區(qū),農(nóng)業(yè)機(jī)械化作業(yè)程度高,土壤鹽漬化問題突出。因此,農(nóng)田周邊分布有農(nóng)機(jī)通行的機(jī)耕道,用于灌溉的灌渠和排除鹽堿水的排堿渠。利用中低分辨率影像進(jìn)行農(nóng)田信息提取時,由于混合像元問題,該部分面積通常被計(jì)算在農(nóng)田中,導(dǎo)致農(nóng)田統(tǒng)計(jì)面積往往大于實(shí)際種植面積。針對這一問題,本研究以高分二號(GF-2)遙感影像為數(shù)據(jù)源,采用面向?qū)ο蠓诸惙ㄖ械膬煞N分類器以及深度學(xué)習(xí)方法提取農(nóng)田種植區(qū)并比較分類精度,最后將提取農(nóng)田地塊面積與實(shí)際農(nóng)田種植面積對比,計(jì)算農(nóng)田識別精度,為高精度提取耕地信息提供新的方法和技術(shù)。
研究區(qū)位于新疆維吾爾自治區(qū)南部的阿拉爾墾區(qū)部分區(qū)域內(nèi)(80°30′~81°58′E,40°22′~40°57′N)如圖1所示,該墾區(qū)地處阿克蘇地區(qū)境內(nèi),北起天山南麓山地,南至塔克拉瑪干沙漠北緣,東西相距281 km,南北相距180 km,總面積約為4 197.58km2。阿拉爾墾區(qū)氣候類型為暖溫帶大陸性干旱荒漠氣候,年均降水量少,地表蒸發(fā)強(qiáng)烈,地勢由西北向東南傾斜。墾區(qū)內(nèi)光熱資源豐富,適宜耐旱作物棉花的生長,棉花是墾區(qū)內(nèi)種植面積最大的作物,墾區(qū)棉田周圍田埂極其寬闊,用于通行大型農(nóng)機(jī),如大馬力拖拉機(jī)和采棉機(jī)。由于土壤鹽漬化嚴(yán)重,鹽堿地廣布,故在鹽堿地中或周圍開挖用來排堿的渠,用這些排堿渠改良土壤,減緩鹽堿程度。為驗(yàn)證本研究所采取方法的有效性,本研究選取墾區(qū)內(nèi)地物類別相對豐富并靠近墾區(qū)中心的地區(qū)作為研究區(qū)域,其中研究訓(xùn)練區(qū)作為研究區(qū)的一部分用于制作深度學(xué)習(xí)樣本數(shù)據(jù)集。
圖1 研究區(qū)位置
高分二號影像是我國目前分辨率最高的民用陸地觀測衛(wèi)星,搭載有兩臺高分辨率相機(jī),分別是0.8 m全色、3.2 m多光譜相機(jī)[14]。高分二號衛(wèi)星參數(shù)如表1所示。為精確識別農(nóng)田周圍田埂級別地物,本研究使用的高分二號影像成像時間為2020年9月16日。該時相影像農(nóng)田植被較為旺盛,與其他地物光譜差異顯著,區(qū)分度較好。影像數(shù)據(jù)包括紅、綠、藍(lán)、近紅外四個波段,將獲取的影像通過ENVI 5.3軟件進(jìn)行大氣校正、正射校正、裁剪融合等預(yù)處理過程保存為圖片格式,為制作數(shù)據(jù)集做準(zhǔn)備。
表1 GF-2影像參數(shù)
1.3.1 影像多尺度分割
eCognition中影像分割是分類的第一步,選取合適的分割參數(shù)進(jìn)行分割,為后續(xù)分類奠定基礎(chǔ),否則將會直接影響后期的分類效果。由于本研究目標(biāo)是提取農(nóng)田地塊,所以只建立一個分割層保證農(nóng)田地塊的分割效果。本研究采用多尺度分割算法,該算法主要由影像對象的光譜(color)和形狀(shape)的異質(zhì)性決定影像的異質(zhì)性[15]。影像異質(zhì)性按照下列公式計(jì)算:
式(1)中,wc為光譜信息的權(quán)重值;ws為形狀信息的權(quán)重值,且wc+ws=1;hc為光譜信息異質(zhì)性的值:hc=Σwb·sb,wb為各波段權(quán)重;sb為各波段的標(biāo)準(zhǔn)差值;hs為形狀異質(zhì)性的值,包括光滑度(smooth)和緊湊度(compactness)2個指標(biāo),根據(jù)公式(2)計(jì)算為:
式中,ht為緊湊度;hc為光滑度;wt和 wc分別代表ht和 hc的權(quán)重,即 wt+wc=1
基于上述過程,參考eCognition 9.0軟件中的ESP(Estimation of Scale Parameter)插件,在尺度參數(shù)分析工具(Scale Parameter Analysis)中進(jìn)行多次參數(shù)設(shè)置,利用局部方差(local variance,LV)的變化率值(rates of change,ROC)結(jié)合目視解譯確定最優(yōu)尺度,當(dāng)LV的變化率值最大即出現(xiàn)峰值時,該點(diǎn)對應(yīng)的分割尺度即為最佳尺度[16]。圖2所示為設(shè)置不同尺度參數(shù)和形狀因子的分割效果對比圖。本研究最終將分割參數(shù)設(shè)置如下:尺度參數(shù)為1.5;形狀因子權(quán)重為0.000 5;緊致度因子權(quán)重為0.5。在最優(yōu)分割尺度設(shè)置下,影像被分割為142 550個像元,后續(xù)基于該分割尺度的分割像元進(jìn)行分類。
圖2 不同分割尺度下的分割效果
1.3.2 CART分類器分類
決策分類回歸樹(classification and regression tree,CART)是Breiman提出的一種二分遞歸分割技術(shù),它將包含測試變量與目標(biāo)變量構(gòu)成的訓(xùn)練數(shù)據(jù)集進(jìn)行循環(huán)迭代分為兩個子樣本集,使生成的每個非葉子節(jié)點(diǎn)均有兩個分支,進(jìn)一步形成二叉樹形式的決策樹結(jié)構(gòu)圖[17]。該算法是挖掘數(shù)據(jù)常用的一種方法,可將復(fù)雜的決策形式過程抽象成易于理解和表達(dá)的規(guī)則和判斷[18]。這種分類方法可將復(fù)雜的分類問題簡單化,按照一定的規(guī)則將遙感數(shù)據(jù)集逐級向下細(xì)分最終得到不同屬性的各個子集,其基本思路是不局限于使用一種算法,一個決策規(guī)則就將所有類別一次性分開。
1.3.3 隨機(jī)森林分類
隨機(jī)森林(random forest,RF)是將多棵樹集成為一種的算法,它的基本單元是決策樹。該算法每棵樹的訓(xùn)練樣本均由初始選擇的樣本“隨機(jī)”產(chǎn)生[19],所有的樹都以相同的特征但是以不同的訓(xùn)練樣本進(jìn)行訓(xùn)練,分類過程中根據(jù)每棵樹所對應(yīng)的樣本的投票數(shù)決定該樣本所屬的類別,RF分類法提取速度較快[20],常用于面向?qū)ο蠓诸愵I(lǐng)域。
本研究根據(jù)第三次全國《土地利用現(xiàn)狀分類》[19]、阿拉爾墾區(qū)土地利用現(xiàn)狀圖和本研究選用影像的季相特點(diǎn),將研究區(qū)主要分為農(nóng)田、林草地、園地、水體、建設(shè)用地、其他六大類[21]。其中,其他地類包括沙地、裸地、鹽堿地等。本研究在CART和RF分類實(shí)施過程中,先結(jié)合原始影像與野外實(shí)地調(diào)查經(jīng)驗(yàn)選取訓(xùn)練樣本,各訓(xùn)練樣本的分布遵循均勻、全方位覆蓋的原則選取建筑用地(包括道路)、農(nóng)田、林草地、園地、水體以及其他地類(包括鹽堿地、裸地、沙地等)共1 749個訓(xùn)練樣本。其中建筑用地230個、農(nóng)田251個、林草地77個、園地230個、水體461個、其他500個,基于這些樣本進(jìn)行分類。首先將分割后的矢量轉(zhuǎn)化為樣本,然后運(yùn)用不同分類器訓(xùn)練樣本,最后將訓(xùn)練的樣本應(yīng)用到影像中得到分類結(jié)果。
1.4.1 卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)是一組使用卷積運(yùn)算的深度神經(jīng)網(wǎng)絡(luò),由于可以利用圖像從局部到全局的特征,因此在圖像分析中得到廣泛的應(yīng)用[22]。本研究根據(jù)高分二號影像的特點(diǎn)采用基于注意力機(jī)制的U-Net模型對研究區(qū)農(nóng)田進(jìn)行提取,該神經(jīng)網(wǎng)絡(luò)模型是基于PyTorch深度學(xué)習(xí)框架搭建的,包括上采樣和下采樣部分,上采樣和下采樣左右對稱,形成“U”型結(jié)構(gòu)。如圖3所示,下采樣部分用來捕捉圖像詳細(xì)特征,通過卷積部分形成特征圖,由編碼器完成。上采樣部分將特征圖進(jìn)行反卷積,由解碼器完成并與編碼器部分提取的特征聯(lián)系起來,使網(wǎng)絡(luò)最大程度保留基本的原始特征信息[23]。如圖4所示,本研究將注意力機(jī)制加入到編碼器和解碼器中形成的特征圖拼接之前,從通道注意力模塊和空間注意力模塊兩個維度對特征圖進(jìn)行推斷,以達(dá)到優(yōu)化圖像特征的目的。
圖3 U-Net模型結(jié)構(gòu)圖
圖4 U-Net注意力模塊圖
1.4.2 模型訓(xùn)練
通過U-Net模型并加入注意力模塊對影像進(jìn)行分割,實(shí)驗(yàn)數(shù)據(jù)采用研究區(qū)部分高分二號影像,通過ArcGIS Pro軟件人工標(biāo)記農(nóng)田與非農(nóng)田并導(dǎo)出為深度學(xué)習(xí)數(shù)據(jù)集[24],其中不同波段三通道組合樣本各348個以及相同數(shù)量對應(yīng)的標(biāo)簽影像。為提高模型的訓(xùn)練速度和精度,將數(shù)據(jù)集中的影像通過滑動窗口裁剪為256×256像素大小,并對數(shù)據(jù)通過旋轉(zhuǎn)、翻轉(zhuǎn)等手段進(jìn)行擴(kuò)增[25]。按照深度學(xué)習(xí)數(shù)據(jù)集3:1的比例劃分為訓(xùn)練集和測試集。最后在實(shí)驗(yàn)室提供的硬件GTX1080Ti 11GB顯卡下進(jìn)行模型訓(xùn)練并測試。模型中涉及的部分參數(shù)見表2。
表2 U-Net模型參數(shù)設(shè)置
影像分割結(jié)束后,結(jié)合同時期影像對象的光譜、形狀特征及紋理信息等,采用CART、RF分類方法對阿拉爾墾區(qū)一景高分影像進(jìn)行分類,最后利用eCognition的部分修改功能進(jìn)行分類后處理,將分類時錯分和誤分的對象判別到正確的類別當(dāng)中,結(jié)果如圖5所示。圖5顯示了兩種面向?qū)ο蠓诸惙椒ǖ淖罱K結(jié)果以及部分相同區(qū)域的細(xì)節(jié),從分類結(jié)果圖中可以得出,兩種分類器算法在阿拉爾墾區(qū)土地利用分類中取得了不同的分類視覺效果。從局部放大細(xì)節(jié)處可得出在分類過程中CART和RF分類法都存在錯分、漏分現(xiàn)象;比如細(xì)節(jié)處所顯示的農(nóng)田、林草地和園地這三種地物類型混分嚴(yán)重,影響最終的農(nóng)田提取,這主要是三種地物類型在分類時的光譜特征相似所導(dǎo)致,即“異物同譜”現(xiàn)象導(dǎo)致的問題。
圖5 CART和RF分類結(jié)果圖
本研究使用加入注意力模塊的U-Net卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,并利用訓(xùn)練好的模型對測試數(shù)據(jù)進(jìn)行農(nóng)田提取,訓(xùn)練過程和測試精度如圖6。
圖6 CNN訓(xùn)練過程及測試精度
由圖6A中分析可知,模型訓(xùn)練損失率在3 k次以后逐漸趨于穩(wěn)定,模型訓(xùn)練過程中將最優(yōu)模型參數(shù)自動保存。采用保存的最優(yōu)模型對影像進(jìn)行語義分割。分割的圖像即訓(xùn)練過程中不包括的測試集圖像[16]。測試結(jié)果如圖6B所示,測試精度在120次趨于穩(wěn)定,最終精度為90.46%。最終測試影像結(jié)果如圖7所示。分析可知,大部分清晰的農(nóng)田邊界可以被提取出,但是仍存在農(nóng)田與非農(nóng)田的混分現(xiàn)象,出現(xiàn)未被識別的農(nóng)田邊界。雖然利用CNN模型仍存在誤分現(xiàn)象,但是農(nóng)田邊界的提取效果更接近人工標(biāo)注真實(shí)標(biāo)簽,提取效果較好。
圖7 測試提取效果
為了直觀比較兩種方法對農(nóng)田的提取效果,需要對比兩種分類方法的精度。將提取結(jié)果圖進(jìn)行局部放大并結(jié)合天地圖影像進(jìn)行實(shí)地調(diào)查,將分類后的錯分像元剔除并對邊緣進(jìn)行細(xì)化,以提升分類精度。驗(yàn)證時根據(jù)兩種方法的分類效果建立混淆矩陣,混淆矩陣包括用戶精度(User Precision,UA)、制圖精度(Producer Precision,PA)、OA值和 Kappa系數(shù)等。由于CNN模型為二分類,因此在精度評價與驗(yàn)證時將面向?qū)ο蠓椒ㄖ械某r(nóng)田外的其他類別都用非農(nóng)田來計(jì)算。由表3中可以直觀比較出,RF分類所得的OA值為78.79%,Kappa系數(shù)為0.57,在分類方法中最低;CART分類法OA值為80.29%,Kappa系數(shù)為0.61,相比RF分類法結(jié)果有所提升;CNN提取效果最佳,OA值為95.24%,Kappa系數(shù)為0.84。
表3 CART、RF、CNN識別農(nóng)田精度對比
本研究最終目的是提取農(nóng)田種植面積信息,為了篩選一種最優(yōu)的農(nóng)田種植區(qū)提取方法,以一塊經(jīng)過實(shí)地量測的農(nóng)田區(qū)域?yàn)轵?yàn)證區(qū)域,對比面向?qū)ο笈c深度學(xué)習(xí)提取方法的實(shí)際精度,統(tǒng)計(jì)不同方法的識別精度,農(nóng)田識別精度為分類農(nóng)田種植面積與實(shí)際農(nóng)田種植面積的百分比。統(tǒng)計(jì)結(jié)果如表4所示。分析可知,面向?qū)ο笈c深度學(xué)習(xí)方法的農(nóng)田種植區(qū)提取面積與實(shí)地調(diào)查所得面積相比差異不大,這主要是因?yàn)楦叻侄栍跋窬哂泻芨叩目臻g分辨率,能有效識別出機(jī)耕道、灌排渠和防護(hù)林等非農(nóng)田種植區(qū),顯著減少了像元混分現(xiàn)象?;诜诸惥茸罡叩腃NN方法提取的農(nóng)田種植面積與實(shí)際農(nóng)田種植面積最接近,且提取面積識別精度高達(dá)93.05%;而基于CART分類法提取的農(nóng)田種植面積與實(shí)際種植面積相差47.45 hm2,提取面積識別精度為92.40%;識別精度最低的RF分類法提取的農(nóng)田種植面積與實(shí)際種植面積相差最大,提取面積識別精度最低,為90.15%。造成面積誤差的主要來源是農(nóng)田種植區(qū)域和田埂交界處為混合像元,易錯分、漏分,導(dǎo)致提取農(nóng)田的種植面積與實(shí)際農(nóng)田種植面積存在誤差。綜合比較三種方法的分類精度、農(nóng)田種植面積識別精度發(fā)現(xiàn),CNN方法不僅農(nóng)田分類精度高而且面積提取精度也高,RF和CART分類器算法雖然面積識別精度高,但是分類精度較低,因此基于注意力模塊的CNN深度學(xué)習(xí)方法不僅可以高精度識別農(nóng)田,還可更準(zhǔn)確提取農(nóng)田種植面積信息,因而深度學(xué)習(xí)方法可為未來墾區(qū)耕地種植面積監(jiān)測以及糧食產(chǎn)量評估提供一定的理論參考意義。
表4 三種方法提取農(nóng)田面積驗(yàn)證精度對比
本研究基于高分二號數(shù)據(jù),采用面向?qū)ο蠛蜕疃葘W(xué)習(xí)方法提取農(nóng)田種植區(qū)域。其中面向?qū)ο蠓椒ㄒ杂跋裰兴膫€波段的光譜特征指數(shù)為基礎(chǔ)并結(jié)合影像形狀指數(shù)特征和紋理特征,選取CART和RF兩種分類器提取農(nóng)田;深度學(xué)習(xí)方法引入一種加入注意力模塊的U-Net網(wǎng)絡(luò)識別農(nóng)田信息,結(jié)果表明:基于加入注意力模塊的U-Net模型識別農(nóng)田精度最高,效果最好,總體精度可達(dá)95.24%,但深度學(xué)習(xí)對硬件要求高,模型在一般設(shè)備上耗時較久,經(jīng)記錄有5.5 h;CART分類效果次之,OA值和Kappa系數(shù)居中,RF分類效果最差,其OA值和Kappa系數(shù)分別為78.79%和0.57,但面向?qū)ο蠓诸惙椒ǚ诸惼鬟\(yùn)行時間均較少約2~3 h,綜合比較,深度學(xué)習(xí)方法更能為高精度提取耕地信息提供新的方法和技術(shù)。此外,基于分類精度最高的深度學(xué)習(xí)方法,其提取的農(nóng)田面積與實(shí)際種植面積相比誤差較小,識別農(nóng)田面積精度高達(dá)93.05%,這一結(jié)果與張宏鳴等[26]基于改進(jìn)U-Net識別葡萄種植區(qū)所得精度相似;相比基于面向?qū)ο蟮姆诸惙椒ê突谙裨姆诸惙椒?,本研究中的深度學(xué)習(xí)方法在提取農(nóng)田的面積和精度方面都有較好的優(yōu)勢,再次說明該方法對墾區(qū)耕地種植面積精準(zhǔn)監(jiān)測、糧食產(chǎn)量評估具有一定的參考意義。但本研究僅討論了該方法在有限范圍內(nèi)的空間可轉(zhuǎn)移性,在未來的研究中,整個墾區(qū)甚至整個國家的空間轉(zhuǎn)移仍有待探索[27]。