王 琰,周亞男,汪順營(yíng)
(河海大學(xué)水文水資源學(xué)院,南京 211100)
灌溉是提升糧食產(chǎn)量的最主要條件之一,灌溉農(nóng)業(yè)的單產(chǎn)水平是雨養(yǎng)農(nóng)業(yè)的2.5 倍[1]。此外,灌溉消耗了近80%的人類(lèi)用水[2],實(shí)際灌溉面積和灌溉空間范圍之間有著很強(qiáng)的不確定性,這也進(jìn)一步導(dǎo)致了在估計(jì)灌溉實(shí)際用水時(shí)的不確定性。準(zhǔn)確掌握灌溉耕地的數(shù)量和空間分布等信息,對(duì)國(guó)內(nèi)國(guó)際的糧食安全、水資源管理甚至氣候變化領(lǐng)域都有重要的現(xiàn)實(shí)意義。然而,傳統(tǒng)的灌溉數(shù)據(jù)統(tǒng)計(jì)方法通常要耗費(fèi)大量的時(shí)間和人力,不僅效率不高、精度低,且可獲取的范圍有限。隨著科技的發(fā)展,遙感、GIS 等更加高效的技術(shù)手段有著覆蓋范圍大、探測(cè)周期短、成本低等優(yōu)點(diǎn),已廣泛應(yīng)用于農(nóng)田地物識(shí)別研究中[2]。
在遙感提取灌溉耕地的方向上,學(xué)者們的研究大致有以下幾種方法:第一種是基于指數(shù)的方法,通過(guò)各類(lèi)指數(shù)從土壤濕度、干旱程度等各方面判斷地塊是否進(jìn)行灌溉。例如Deines 等人[8]開(kāi)發(fā)了兩個(gè)新的組合指數(shù)AGI 和WGI,嘗試將濕度信息和綠度指數(shù)相結(jié)合來(lái)擴(kuò)大灌溉狀態(tài)的差異,在測(cè)試中該指數(shù)與傳統(tǒng)指數(shù)相比具有更高的重要性,可將該指數(shù)應(yīng)用于其他農(nóng)業(yè)地區(qū)灌溉耕地的分類(lèi)。但基于指數(shù)的方法需要依賴(lài)大量的現(xiàn)有統(tǒng)計(jì)數(shù)據(jù)用于數(shù)學(xué)模型分析與驗(yàn)證,對(duì)于一些缺少相關(guān)資料的地區(qū)難以使用該方法建立指數(shù),因此該方法能夠應(yīng)用的范圍有限;第二種是基于機(jī)器學(xué)習(xí)的方法,機(jī)器學(xué)習(xí)作為一門(mén)源于人工智能和統(tǒng)計(jì)學(xué)的學(xué)科,是當(dāng)前數(shù)據(jù)分析領(lǐng)域重點(diǎn)研究方向之一,分類(lèi)問(wèn)題及其算法是機(jī)器學(xué)習(xí)的一個(gè)重要分支。如Ketchum 等人[9]建立了各類(lèi)土地覆蓋的地理空間數(shù)據(jù)庫(kù),基于谷歌地球引擎使用Landsat 衛(wèi)星圖像以及氣候、氣象、地形數(shù)據(jù)來(lái)訓(xùn)練隨機(jī)森林分類(lèi)器并預(yù)測(cè)土地類(lèi)型,繪制了30 m 分辨率的灌溉地圖IrrMapper。但各類(lèi)別的機(jī)器學(xué)習(xí)算法都有各自擅長(zhǎng)的領(lǐng)域和難以克服的缺陷,沒(méi)有一種算法可以解決所有問(wèn)題,此外,數(shù)據(jù)降維、特征選擇等因素會(huì)對(duì)分類(lèi)算法的發(fā)展產(chǎn)生很大的影響,因此在實(shí)際應(yīng)用中,應(yīng)該結(jié)合實(shí)際進(jìn)行比較和選擇適當(dāng)?shù)姆诸?lèi)算法以達(dá)到更高的分類(lèi)精度;第三種是空間分配的方法,Zhu 等人[10]估計(jì)出每個(gè)像素的灌溉潛力,并提出一種中國(guó)灌區(qū)的空間分配模型,將格網(wǎng)內(nèi)灌溉潛力最高的像素識(shí)別為灌溉像素,再把所有灌溉像素進(jìn)行組合以獲得整個(gè)研究區(qū)的灌溉地圖。這種空間分配的方法主要是通過(guò)構(gòu)建一定的分配規(guī)則后將像素識(shí)別為灌溉,但其中建立分配規(guī)則的依據(jù)通常是一些影響灌溉耕地空間分布的特征量,由于這些特征量過(guò)于依賴(lài)樣本數(shù)據(jù),所以在很大程度上影響了結(jié)果的準(zhǔn)確性;還有一些其他方法,例如朱秀芳等人[11]利用降水、實(shí)際蒸散發(fā)和潛在蒸散發(fā)數(shù)據(jù)提出了雨養(yǎng)指示線的概念,以此來(lái)表征耕地受灌溉可能性的大小,為灌溉耕地制圖提供了指示意義強(qiáng)的灌溉特征參量。楊永民等人[12]使用水云模型實(shí)測(cè)土壤水分?jǐn)?shù)據(jù),利用散射系數(shù)的時(shí)序變化探測(cè)灌溉信號(hào),提取實(shí)際灌溉面積。但這種使用非遙感數(shù)據(jù)的方法所制作的地圖尺度較小,在制作大范圍灌溉地圖方面有所欠缺。
綜上所述,學(xué)者們研究所用的數(shù)據(jù)大多是中低分辨率的多源衛(wèi)星影像及氣候數(shù)據(jù),制作的國(guó)內(nèi)外灌溉產(chǎn)品多為大尺度。然而有研究表明,以地塊為單元的農(nóng)業(yè)遙感分析更符合農(nóng)業(yè)生產(chǎn)的應(yīng)用,而傳統(tǒng)基于像元的遙感分析方法往往會(huì)受到椒鹽噪聲的干擾,使地塊的基本形態(tài)遭到破壞,因而分類(lèi)精度有限,所以本文以地塊尺度展開(kāi)研究是核心要點(diǎn)之一。此外,在耕地較為精細(xì)、破碎的農(nóng)田區(qū)域,單時(shí)相衛(wèi)星影像所做出的地圖往往達(dá)不到所需精度[13],而時(shí)序遙感提供了大量的高質(zhì)量、連續(xù)的地表信息,也方便進(jìn)行多源數(shù)據(jù)融合和分析,所以一直是遙感研究的熱門(mén)領(lǐng)域[14],故本文使用了2020年3-10月的Sentinel-2高分辨率時(shí)間序列影像,這在獲取連續(xù)的高質(zhì)量研究區(qū)相關(guān)地表信息方面具有一定優(yōu)勢(shì)。同時(shí)本文還運(yùn)用了機(jī)器學(xué)習(xí)中的XGBoost模型進(jìn)行灌溉耕地的訓(xùn)練和預(yù)測(cè),通過(guò)使用集成了機(jī)器學(xué)習(xí)、時(shí)序遙感、以地塊為尺度這3個(gè)特點(diǎn)的創(chuàng)新思路來(lái)探究該方法應(yīng)用于灌溉耕地提取的潛力,并進(jìn)行對(duì)比驗(yàn)證以證明該方法的必要性。經(jīng)驗(yàn)證,本文的方法可實(shí)際應(yīng)用于灌溉耕地的調(diào)查與監(jiān)測(cè),同時(shí)為該方向后續(xù)的研究提供了參考。
研究區(qū)是一個(gè)以南普拉特河為主要水源的農(nóng)業(yè)灌溉集中區(qū),有良好的灌溉數(shù)據(jù)基礎(chǔ),它位于美國(guó)科羅拉多州東北部,這里氣候溫和干燥,年平均溫度在10~20 ℃左右,以丘陵為主,主要農(nóng)作物有玉米、小麥等。這里的農(nóng)田大部分依靠灌溉,灌溉系統(tǒng)主要通過(guò)地下水和河流水源來(lái)進(jìn)行,常用的灌溉方法包括噴灌、滴灌、漫灌等,灌溉面積僅次于加利福尼亞、德克薩斯和愛(ài)達(dá)荷,居全國(guó)第四位(見(jiàn)圖1)。
圖1 研究區(qū)示意圖Fig.1 Schematic diagram of the study area
1.2.1 Google地圖影像
研究選用Google 地圖影像來(lái)提取研究區(qū)的農(nóng)田地塊。Google 地圖影像具有3個(gè)可見(jiàn)光波段、且其空間分辨率為1 m,能夠精細(xì)地描述研究區(qū)的農(nóng)業(yè)種植場(chǎng)景。
1.2.2 Sentinel-2影像
本文的主要數(shù)據(jù)源是高分辨率多光譜成像數(shù)據(jù)哨兵2 號(hào)(Sentinel-2)衛(wèi)星,地面分辨率分別為10 m、20 m 和60 m。本研究下載了2020 年3 月4 日至10 月25 日共48 幅L1C 級(jí)的遙感影像,使用歐空局(ESA)發(fā)布的插件Sen2cor 對(duì)這些影像進(jìn)行大氣校正,生成L2A 級(jí)產(chǎn)品數(shù)據(jù),并在ENVI 中對(duì)影像進(jìn)行云掩膜。
1.2.3 灌溉樣本數(shù)據(jù) CIL
研究選用2020 年的科羅拉多灌溉耕地?cái)?shù)據(jù)集(Colorado Irrigated Lands, CIL)來(lái)訓(xùn)練和驗(yàn)證所提出的識(shí)別模型。灌溉耕地?cái)?shù)據(jù)集以矢量多邊形的形式提供了灌溉耕地的空間分布,并記錄了作物類(lèi)型、灌溉方式、灌溉面積等信息(見(jiàn)表1)。
灌溉耕地?cái)?shù)據(jù)集為模型訓(xùn)練和驗(yàn)證提供了足夠的正樣本。首先將灌溉耕地?cái)?shù)據(jù)集CIL空間連接到研究區(qū)耕地地塊專(zhuān)題圖FP 上,然后計(jì)算FP 上落入每個(gè)耕地地塊P 內(nèi)的灌溉面積A;當(dāng)A 大于地塊P 總面積的70%時(shí),我們認(rèn)為地塊P 為灌溉正樣本。接著,在耕地地塊專(zhuān)題圖FP 上,從非灌溉樣本地塊中隨機(jī)選取與灌溉正樣本相等數(shù)量的地塊,作為負(fù)樣本集。最后,研究共獲得2 000 個(gè)地塊灌溉樣本,并按照2∶2∶6 的比例,將其劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
本文研究流程如圖2 所示,主要包括以下內(nèi)容:利用Google地圖影像進(jìn)行耕地地塊的提取與修正,并結(jié)合經(jīng)過(guò)預(yù)處理的Sentinel-2 時(shí)序數(shù)據(jù)集進(jìn)行空間映射及地塊特征處理,得到地塊時(shí)序特征數(shù)據(jù)集后,結(jié)合灌溉樣本,利用XGBoost模型訓(xùn)練預(yù)測(cè)灌溉耕地,最后對(duì)分類(lèi)展開(kāi)分析與評(píng)價(jià)。
圖2 研究流程圖Fig.2 Research flow chart
地塊提取參考了Wang 等人[20]提出的邊界語(yǔ)義融合深度卷積網(wǎng)絡(luò),該方法的核心是將具有準(zhǔn)確空間定位的淺層邊界特征與用于類(lèi)別識(shí)別的深層語(yǔ)義特征相結(jié)合進(jìn)行地塊識(shí)別,從而預(yù)測(cè)出整個(gè)研究區(qū)的耕地地塊并進(jìn)行修正。圖3展示了模型預(yù)測(cè)出的耕地地塊結(jié)果,結(jié)果表明,即使在農(nóng)田分布密集的地區(qū),模型也可以精確提取出耕地的精細(xì)邊界,并且對(duì)河流、建筑等干擾地物有著良好的辨別能力[圖3(a)、圖3(b)],這為本研究灌溉耕地提取提供了空間約束。
圖3 耕地預(yù)測(cè)結(jié)果Fig.3 Farmland prediction results
對(duì)48景Sentinel-2數(shù)據(jù)基于地塊單元進(jìn)行分區(qū)統(tǒng)計(jì),分別獲取每一期影像中b2~b8、b8a、b11~b12 共10 個(gè)波段的均值、中值、標(biāo)準(zhǔn)差及眾數(shù)作為特征變量,用于遙感分類(lèi)的候選變量。為了比較采用不同光譜特征下的灌溉耕地識(shí)別精度,設(shè)計(jì)了11 種不同的組合方式如表2 所示,意在對(duì)比均值、中值、標(biāo)準(zhǔn)差、眾數(shù)這4類(lèi)光譜特征及不同種類(lèi)之間的相互組合在灌溉耕地識(shí)別上的不同效果,優(yōu)選出其中精度最高的特征組合方式對(duì)研究區(qū)進(jìn)行灌溉耕地識(shí)別。
表2 不同特征類(lèi)型組合方式Tab.2 Combination of different feature types
本研究使用的是XGBoost 算法,由Chen 等人[21]在2016 年提出,這是一種基于集成學(xué)習(xí)原理Boosting 的機(jī)器學(xué)習(xí)方法,除了有精度高、速度快的優(yōu)點(diǎn),XGBoost 算法還可以對(duì)影像缺失值進(jìn)行處理[22]。它以CART 決策樹(shù)作為基分類(lèi)器,充分利用了多核CPU 并行計(jì)算的優(yōu)勢(shì),大幅度提高了模型的運(yùn)算速度和預(yù)測(cè)分類(lèi)精度[23],基模型為:
式中:xi是第i個(gè)樣本的預(yù)測(cè)值;fk(xi)是第k棵樹(shù)對(duì)數(shù)據(jù)集中第i個(gè)樣本的計(jì)算分?jǐn)?shù);F是所有樹(shù)的集合。
并定義XGBoost目標(biāo)函數(shù)為:
式中:N為樣本的數(shù)量;為損失函數(shù);為正則化項(xiàng)。
損失函數(shù)衡量模型與數(shù)據(jù)的吻合程度,正則化項(xiàng)衡量模型的復(fù)雜性。對(duì)目標(biāo)函數(shù)的泰勒展開(kāi)式進(jìn)行整合、重組,轉(zhuǎn)化為與預(yù)測(cè)殘差相關(guān)的多項(xiàng)式,得到葉節(jié)點(diǎn)最優(yōu)權(quán)重和目標(biāo)值最優(yōu)解分別為:
在機(jī)器學(xué)習(xí)的分類(lèi)任務(wù)中,常用的精度評(píng)價(jià)指標(biāo)有很多,本研究中使用的指標(biāo)共5 種(以下公式中,TP 指真正例(True Positive),TN 指真反例(True Negative),F(xiàn)P 指假正例(False Positive),F(xiàn)N 指假反例(False Negative)),相關(guān)指標(biāo)定義詳見(jiàn)文獻(xiàn)[24]。
(1)總體精度(Overall Accuracy - OA)。總體精度衡量的是分類(lèi)正確的比例,計(jì)算公式如下:
(2)F1分?jǐn)?shù)(F1_Score)。F1是精確率和召回率的調(diào)和均值,同時(shí)考慮了查準(zhǔn)率和查全率,F(xiàn)1值越大認(rèn)為學(xué)習(xí)器的性能越好,計(jì)算公式如下:
(3)精確率(Precision)。精確率又叫查準(zhǔn)率,是指被預(yù)測(cè)為正樣本的所有樣本中預(yù)測(cè)正確的占比,代表對(duì)正樣本結(jié)果的預(yù)測(cè)準(zhǔn)確程度,計(jì)算公式如下:
(4)召回率(Recall)。召回率又叫查全率,是指在實(shí)際為正的樣本中被預(yù)測(cè)為正樣本的概率,計(jì)算公式如下:
(5)Kappa 系數(shù)(Kappa Coefficient)。Kappa 系數(shù)綜合考慮了分類(lèi)器預(yù)測(cè)結(jié)果與實(shí)際情況之間的差異和隨機(jī)誤差,可以衡量分類(lèi)器在各類(lèi)別上的分類(lèi)能力是否超過(guò)了隨機(jī)選擇的水平,計(jì)算公式如下:
式中:po也就是總體分類(lèi)精度;pe是所有類(lèi)別分別對(duì)應(yīng)的實(shí)際與預(yù)測(cè)數(shù)量的乘積的總和除以樣本總數(shù)的平方。
3.1.1 特征組合精度分析
本研究中,在地塊尺度下利用11 種特征組合進(jìn)行灌溉耕地的識(shí)別,得到不同組合方式下的識(shí)別精度(表3)。結(jié)果表明,包含了均值、中值、標(biāo)準(zhǔn)差這三類(lèi)光譜特征的組合8獲得了最高精度0.850 3,對(duì)灌溉耕地的識(shí)別最有利。由組合1、2、3可知單個(gè)變量的加入對(duì)提升分類(lèi)精度影響不大,從組合11的精度表現(xiàn)可以看出眾數(shù)的參與會(huì)導(dǎo)致分類(lèi)精度下降,在灌溉耕地的分類(lèi)中應(yīng)避免輸入該特征以降低被誤分類(lèi)的可能?;诖耍谔崛」喔雀貢r(shí)可將均值、中值、標(biāo)準(zhǔn)差輸入模型,以提高識(shí)別精度,準(zhǔn)確地提取特征并分類(lèi),同時(shí)也保證了模型的泛化能力和穩(wěn)定性。
表3 各組合不同指標(biāo)下的分類(lèi)精度Tab.3 Classification accuracy under different indicators of each combination
3.1.2 時(shí)相敏感性分析
從時(shí)間維度來(lái)探究灌溉耕地識(shí)別精度的變化規(guī)律,將不同長(zhǎng)度時(shí)間序列遙感影像數(shù)據(jù)以月為單位輸入模型,數(shù)據(jù)長(zhǎng)度等差增長(zhǎng),將完整的時(shí)間序列進(jìn)行分割,得到了不同時(shí)間節(jié)點(diǎn)的灌溉耕地識(shí)別情況。
圖4 中精度總體呈逐漸上升趨勢(shì),當(dāng)加入4 月和5 月的特征時(shí),精度增長(zhǎng)幅度最大,此時(shí)正是農(nóng)作物迅速生長(zhǎng)的季節(jié),后續(xù)繼續(xù)加入特征時(shí)增長(zhǎng)幅度逐漸趨于平緩,是由于農(nóng)作物于9、10月份完全成熟進(jìn)入了收獲期。再結(jié)合研究區(qū)當(dāng)?shù)刈匀粭l件,5 月前和9 月后的天氣多為寒潮及大范圍降雪[24],積雪的覆蓋不利于影像的識(shí)別,這也是導(dǎo)致精度不高的原因之一。綜上得出下列結(jié)論:對(duì)灌溉耕地提取較為敏感的時(shí)相集中在農(nóng)作物生長(zhǎng)季的中后期,該時(shí)相的遙感影像用于提取灌溉耕地可獲取較高的制圖精度。
圖4 不同時(shí)序長(zhǎng)度下總體精度變化圖Fig.4 Overall accuracy variation chart under different time series lengths
總體來(lái)看,灌溉耕地識(shí)別的最佳時(shí)間與作物的生長(zhǎng)階段特征關(guān)系明顯,在成熟期作物出現(xiàn)較為獨(dú)特、明顯的特征后識(shí)別精度將會(huì)大幅度提升,而當(dāng)作物早期特征不明顯時(shí),應(yīng)使用完整的生長(zhǎng)序列提取灌溉耕地以保證識(shí)別精度。從3月份到5月份精度迅速增加,分類(lèi)精度提升效果明顯,說(shuō)明這一時(shí)期的數(shù)據(jù)含有較多信息量。繼續(xù)增加時(shí)間長(zhǎng)度,可以看到精度仍不斷上升,證明時(shí)間序列長(zhǎng)度的增加可以有效提升分類(lèi)精度,作物在8月份之后可以達(dá)到84%以上的精度,是一個(gè)比較理想的水平。當(dāng)使用完整時(shí)間序列長(zhǎng)度的數(shù)據(jù)時(shí),識(shí)別精度最高,可見(jiàn)隨著時(shí)間序列長(zhǎng)度的增加,特征數(shù)量也隨之增加,識(shí)別精度能夠達(dá)到最高水平。
以上結(jié)果表明,與傳統(tǒng)的單時(shí)相影像相比,結(jié)構(gòu)化的時(shí)間序列影像數(shù)據(jù)不僅可以降低天氣對(duì)識(shí)別的影響,同時(shí)還蘊(yùn)含了更多的特征信息,有利于灌溉耕地的提取。
根據(jù)3.1.1 節(jié)的結(jié)論,將精度最高的特征組合8 放入模型生成研究區(qū)灌溉耕地空間分布圖,并給出該模型的混淆矩陣,對(duì)精度進(jìn)行評(píng)價(jià),同時(shí)還使用特征重要性這一評(píng)價(jià)標(biāo)準(zhǔn)對(duì)每個(gè)特征要素在模型預(yù)測(cè)中的作用進(jìn)行了評(píng)估。
3.2.1 灌溉耕地空間分布
由圖5可知,南北兩端灌溉耕地的規(guī)模很小,多數(shù)分布于研究區(qū)的中西部地區(qū)及東北部。灌溉耕地靠近南普拉特河以及一些水庫(kù),是由于美國(guó)西半部干旱缺水,所以在許多河干、支流上興建了大型的引水工程用于農(nóng)業(yè)灌溉,靠近河流便于獲取水源進(jìn)行輸水,依靠灌溉手段才能更好地發(fā)展農(nóng)業(yè)。例如,在該州的艾爾伯特縣和沙拉摩亞縣,大量種植玉米、小麥和大豆等灌溉作物。模型提取出的灌溉耕地大量聚集在研究區(qū)的最左側(cè)邊緣,因?yàn)檫@里靠近科羅拉多河流域,在這片流域內(nèi)有許多重要的灌溉水源,如科羅拉多河的支流莫阿布河、弗拉格斯塔夫河、漢尼拔河等,這些河流的水源較為充足,可以為灌溉作物提供足夠的水資源。
圖5 研究區(qū)灌溉耕地預(yù)測(cè)結(jié)果Fig.5 Prediction results of irrigated farmland in the research area
3.2.2 精度評(píng)價(jià)
此次分類(lèi)模型各項(xiàng)表現(xiàn)如表4所示,Kappa系數(shù)達(dá)到0.69,顯示出了相對(duì)較高的一致性水平,總體精度達(dá)到85.03%,意味著模型能夠正確地分類(lèi)大部分樣本,其中灌溉耕地分類(lèi)精度為86.76%,非灌溉耕地分類(lèi)精度為82.30%。綜上,該分類(lèi)模型在整體上表現(xiàn)良好,并且在灌溉耕地和非灌溉耕地的分類(lèi)任務(wù)上都有著有優(yōu)異的表現(xiàn),各項(xiàng)精度指標(biāo)均優(yōu)于Zhu 等人[10]的研究。
表4 灌溉耕地分類(lèi)混淆矩陣Tab.4 Classification confusion matrix of irrigated farmland
3.2.3 特征及重要性評(píng)價(jià)
(1)最佳特征變量。優(yōu)選出20 個(gè)表現(xiàn)最好的特征變量如圖6 所示,其中包含了10 個(gè)均值特征、7 個(gè)標(biāo)準(zhǔn)差特征、3 個(gè)中值特征,0個(gè)眾數(shù)特征,可以看出均值和標(biāo)準(zhǔn)差對(duì)提升整體分類(lèi)精度的影響較大。在眾多特征變量中,5 月13 日影像b8波段的標(biāo)準(zhǔn)差、8 月21 日影像b1 和b3 波段的均值的特征重要性遠(yuǎn)高于其他特征變量,在分類(lèi)中起到重要作用。
圖6 組合8前20個(gè)最佳特征變量Fig.6 Combining the top 20 best feature variables of 8
(2)時(shí)序特征。即使是相同類(lèi)型的特征變量在不同時(shí)相也會(huì)具有不同的敏感性,圖7中每一期影像的特征重要性都由均值、中值、標(biāo)準(zhǔn)差這三類(lèi)變量共同組成,但其在灌溉耕地識(shí)別中的作用截然不同。在美國(guó),玉米、大豆等主要農(nóng)作物的物候期一般集中在4-11 月,從圖7 可以明顯看出有利于識(shí)別的遙感影像集中在5-9月,而該時(shí)間段正是農(nóng)作物的生長(zhǎng)期及成熟期,此結(jié)論與3.1.2 節(jié)相符。也有部分影像的重要性為0,可能是這幾期影像云量較大范圍較廣,覆蓋了整個(gè)研究區(qū),使用這些重要性較低的特征變量進(jìn)行制圖對(duì)分類(lèi)精度的提升可能沒(méi)有作用甚至起到副作用,所以在進(jìn)行灌溉制圖前有必要進(jìn)行特征的選擇工作。
圖7 時(shí)序特征重要性Fig.7 Importance of temporal features
(3)不同類(lèi)型特征的重要性。從圖8可以看出,均值變量在分類(lèi)中的重要性最高,對(duì)灌溉耕地的識(shí)別最有幫助;標(biāo)準(zhǔn)差的重要性略低于均值,但總體重要性得分也高;比起均值和標(biāo)準(zhǔn)差,中值這一類(lèi)型的特征變量在參與分類(lèi)任務(wù)時(shí)的作用較小,但對(duì)灌溉耕地和非灌溉耕地的分類(lèi)也具有一定影響。
圖8 特征類(lèi)別重要性Fig.8 Importance of feature categories
本文利用高分辨率Google 影像,結(jié)合研究區(qū)耕地的形態(tài)特征,利用邊界語(yǔ)義融合深度卷積網(wǎng)絡(luò)提取當(dāng)?shù)氐母剡吔?,該方法與常規(guī)模型進(jìn)行地塊分割或提取的方法相比,對(duì)本文農(nóng)業(yè)灌溉集中區(qū)的耕地提取更加精細(xì),鮮少有錯(cuò)提、漏提的現(xiàn)象,為后續(xù)耕地分類(lèi)提供了良好的基礎(chǔ)。在使用時(shí)序遙感影像方面,與單時(shí)相遙感影像相比,本文充分考慮科羅拉多州地區(qū)作物種植類(lèi)型及耕地類(lèi)型復(fù)雜多樣的特點(diǎn),通過(guò)綜合多類(lèi)型、多時(shí)相的特征變量提升分類(lèi)精度。在分類(lèi)模型選擇方面,和常用的隨機(jī)森林方法相比,本文選擇的XGBoost分類(lèi)方法已被證實(shí)有速度快、精度高等優(yōu)點(diǎn),且對(duì)于本實(shí)驗(yàn)采用的光學(xué)數(shù)據(jù)源由于云的覆蓋導(dǎo)致的特征信息缺失的部分,XGBoost分類(lèi)方法能對(duì)缺失值進(jìn)行相關(guān)處理[22],因此該方法更適用于本研究。
由于研究區(qū)內(nèi)作物種植類(lèi)型及耕地類(lèi)型的多樣性,使分類(lèi)工作成為一個(gè)很大的挑戰(zhàn),分類(lèi)過(guò)程中引入的一些誤差會(huì)導(dǎo)致分類(lèi)結(jié)果的不確定性,具體內(nèi)容如下:
(1)地塊提取的工作仍有一定的進(jìn)步空間,由于影像的質(zhì)量的問(wèn)題,還是存在一定的地塊錯(cuò)分、漏提的現(xiàn)象,這也進(jìn)一步導(dǎo)致了在耕地識(shí)別時(shí)發(fā)生錯(cuò)誤的可能性。
(2)不同類(lèi)型耕地上種植的作物可能由于生長(zhǎng)期相近,導(dǎo)致有相似的特征信息,這不利于區(qū)分耕地類(lèi)型。
(3)光學(xué)遙感影像易受天氣影響,當(dāng)云霧或水汽等遮擋時(shí)會(huì)導(dǎo)致圖像質(zhì)量下降或無(wú)法成像,導(dǎo)致在特征構(gòu)建時(shí)有缺失現(xiàn)象,會(huì)在一定程度上影響模型分類(lèi)精度。
由于Sentinel-2 易受天氣影響的原因,在后續(xù)的工作中,考慮增加Sentinel-1 等微波數(shù)據(jù)以多源數(shù)據(jù)融合的方式進(jìn)一步展開(kāi)研究,利用微波遙感滲透力強(qiáng)、全天候工作的優(yōu)勢(shì),以提高分類(lèi)精度。此外還可構(gòu)建物候、紋理、地形等特征解決“同物異譜”或“異物同譜”的現(xiàn)象,通過(guò)更多的特征組合方式建立更加精確的灌溉耕地提取模型。在算法方面,數(shù)據(jù)降維、特征選擇等因素會(huì)對(duì)分類(lèi)算法產(chǎn)生很大的影響,可以結(jié)合實(shí)際對(duì)比擇優(yōu)使用更加穩(wěn)定、精確的模型,選擇適當(dāng)?shù)姆诸?lèi)算法以達(dá)到更高的分類(lèi)精度。
本文以美國(guó)科羅拉多州南普拉特河流域的農(nóng)業(yè)灌溉集中區(qū)為研究區(qū),綜合利用高分辨率遙感影像和Sentinel-2 時(shí)間序列影像開(kāi)展地塊尺度的灌溉耕地提取,分析不同時(shí)相和不同特征組合情況下的識(shí)別精度,探究了XGBoost模型在時(shí)序遙感灌溉耕地提取中的應(yīng)用潛力,得出以下結(jié)論:
(1)相比于傳統(tǒng)基于像元的遙感灌溉提取,本文基于地塊的提取方法不會(huì)破環(huán)地塊基本形態(tài),在耕地情況破碎、復(fù)雜的區(qū)域也能夠?qū)崿F(xiàn)灌溉耕地的精確提取,且長(zhǎng)時(shí)間序列的影像蘊(yùn)含更豐富的特征信息,為灌溉耕地的提取提供了有力的支撐,結(jié)合XGBoost機(jī)器學(xué)習(xí)模型,此次分類(lèi)總體精度高達(dá)85.03%;
(2)在特征的構(gòu)建與組合中,不同類(lèi)型的光譜特征表現(xiàn)不同,精度表現(xiàn)最好的是均值、標(biāo)準(zhǔn)差、中值這三類(lèi)光譜特征的組合,Kappa 系數(shù)達(dá)到0.69,其中灌溉耕地分類(lèi)精度為86.76%,非灌溉耕地分類(lèi)精度為82.30%;
(3)從時(shí)相敏感性分析結(jié)果可知,對(duì)灌溉耕地和非灌溉耕地的區(qū)分較為敏感的時(shí)相集中在農(nóng)作物生長(zhǎng)季的中后期,其分類(lèi)精度隨著時(shí)序長(zhǎng)度的增加而不斷提高。
本研究利用高分辨率影像的光譜特征進(jìn)行灌溉耕地的識(shí)別,為灌溉制圖提供了研究思路,對(duì)準(zhǔn)確掌握灌溉耕地的數(shù)量和空間分布等信息有重要的現(xiàn)實(shí)意義,將來(lái)有望廣泛應(yīng)用于大區(qū)域乃至全球灌溉耕地空間產(chǎn)品研制。