王 蓉,馮美臣,楊武德,張美俊
(1.山西農(nóng)業(yè)大學(xué)資源環(huán)境學(xué)院,山西 太谷 030801;2.山西農(nóng)業(yè)大學(xué)農(nóng)學(xué)院,山西 太谷 030801)
遙感是獲取作物播種信息的關(guān)鍵技術(shù),在農(nóng)情監(jiān)測領(lǐng)域具有對地表信息獲取的覆蓋面廣、信息量大、周期短、受地面條件限制少、調(diào)查成本相對較低等明顯優(yōu)勢[1]。在農(nóng)作物遙感估產(chǎn)中,農(nóng)作物種植面積的遙感估算是農(nóng)作物產(chǎn)量預(yù)測的基礎(chǔ)和主要內(nèi)容;準(zhǔn)確而及時的農(nóng)作物類型及其空間分布更新信息是優(yōu)化種植結(jié)構(gòu)的基本依據(jù),為制定合理、有效的糧食宏觀調(diào)控措施、保證國家糧食安全提供科學(xué)支撐[2]。
農(nóng)作物遙感識別分類與面積提取的研究主要考慮遙感數(shù)據(jù)源、特征變量和分類算法[3]3 個方面。到目前為止,適合開展大范圍高空間分辨率農(nóng)作物種植區(qū)域識別與提取的遙感數(shù)據(jù)源主要有GF-1,Sentinel-2 和Landsat-8。田海峰等[4]使用多景GF-1全色多光譜(Pan Multiple Spectral,PMS)影像,對河南省滑縣冬小麥種植分布信息進行了提取研究,并取得良好效果。BELGIU 等[5]采用Sentinel-2 多光譜傳感器(Multi Spectral Sensor,MSI)數(shù)據(jù),對時間加權(quán)動態(tài)時間規(guī)整(Time-Weighted Dynamic Time Warping,TWDTW)算法在農(nóng)作物分類的應(yīng)用效果進行研究。ZHANG 等[6]提出利用 Landsat-8 OLI 時間序列和物候參數(shù)的融合數(shù)據(jù),在多云雨地區(qū)提取水稻種植面積。與MODIS 數(shù)據(jù)相比,GF-1,Sentinel-2 和Landsat-8 等影像數(shù)據(jù)具有高空間分辨率和高時間分辨率的雙重優(yōu)勢,并在一定程度上減少了混合像元對作物分類結(jié)果的干擾,提高了農(nóng)作物分類制圖精度與效率。
遙感光譜數(shù)據(jù)及其衍生的各種指數(shù)信息、紋理特征、時間序列閾值和變化信息常被國內(nèi)外學(xué)者用作研究農(nóng)作物遙感分類的特征變量。其中,光譜及其衍生指數(shù)的信息相對容易獲得也是最常用的[3]。SONOBE 等[7]在研究Sentinel-2A 多光譜傳感器數(shù)據(jù)計算植被指數(shù)的潛力中發(fā)現(xiàn),植被指數(shù)在確定特定作物類型方面貢獻最大。史飛飛等[8]采用多源數(shù)據(jù)集進行了農(nóng)作物分類信息提取研究,發(fā)現(xiàn)在NDVI 時間序列數(shù)據(jù)中融入高光譜數(shù)據(jù)可以提高分類精度。紋理信息作為區(qū)分特征,對高分辨率(米級或亞米級以下)影像數(shù)據(jù)的分類效果較好[9]。CHUANG等[10]將主成分、灰度共生矩陣紋理信息作為分類器的輸入變量,解譯出臺灣中部地區(qū)茶葉種植區(qū)域。
另外,選擇不同的算法對農(nóng)作物面積的提取也有著較大的影響。隨機森林(Random Forest,RF)方法由于2 個隨機性(隨機且有放回地抽樣訓(xùn)練集、隨機地從樣本特征維度中選取特征子集)的引入,在分類中不易陷入過擬合,具有分類精度高、泛化能力強、數(shù)據(jù)挖掘能力優(yōu)異、抗噪聲能力良好等優(yōu)點,對處理樣本數(shù)據(jù)分布不平衡等方面表現(xiàn)優(yōu)良,成為當(dāng)前機器學(xué)習(xí)領(lǐng)域的研究熱點[2]。GAO 等[11]研究探討了新型高光譜快照馬賽克相機在雜草和玉米分類方面的潛力,發(fā)現(xiàn)RF 模型表現(xiàn)總體上優(yōu)于K-最近鄰(K-Nearest Neighbor,K-NN)模型。
以上研究都不同程度提高了作物識別精度,但綜合數(shù)字高程模型、遙感影像數(shù)據(jù)及其衍生的植被指數(shù)信息、紋理特征,利用單時相遙感影像進行雨養(yǎng)區(qū)冬小麥與灌溉區(qū)冬小麥空間分布信息提取方面的研究少有報道。
筆者在前人研究的基礎(chǔ)上,利用冬小麥生長關(guān)鍵期的Sentinel-2A 遙感影像數(shù)據(jù),選擇紅邊歸一化植被指數(shù)、主成分分量與幾何紋理特征作為特征變量,研究基于隨機森林算法的冬小麥種植面積提取方法,并結(jié)合DEM 數(shù)據(jù)實現(xiàn)雨養(yǎng)區(qū)和灌溉區(qū)冬小麥的分類,以期為不同灌溉類型冬小麥長勢遙感監(jiān)測以及產(chǎn)量估測提供科學(xué)依據(jù)。
研究區(qū)位于山西省運城市北部的聞喜縣,總面積 1 167.1 km2,地理坐標(biāo)為 110°59′33″~111°37′29″E,35°9′38″~35°34′11″N。聞喜縣地處運城盆地與臨汾盆地的交界處,地形多樣,河谷、塬地、丘陵、山地共存。氣候?qū)倥瘻貛Т箨懶约撅L(fēng)氣候,晝夜溫差大,四季分明。農(nóng)作物以冬小麥種植為主,屬南部冬麥區(qū)。
1.2.1 Sentinel-2A 影像數(shù)據(jù) Sentinel-2A 的多光譜成像儀含有13 個通道,主要應(yīng)用于地表覆蓋變化監(jiān)測、資源調(diào)查、近海域污染檢測、災(zāi)害監(jiān)測等,波段信息如表1所示。結(jié)合運城地區(qū)冬小麥與其他作物主要生育期,為有效提取冬小麥種植面積[12],選擇使用2018年3月27日獲取的上層大氣反射的L1C 級別的Sentinel-2A 數(shù)據(jù)。
表1 Sentinel-2A 波段信息
1.2.2 地面調(diào)查 為獲取山西省運城市聞喜縣冬小麥的分布情況,2018年3月進行了實地調(diào)查。野外調(diào)查時采用手持GPS 獲取冬小麥的經(jīng)緯度信息,調(diào)查路線覆蓋聞喜縣絕大部分鄉(xiāng)鎮(zhèn)(石門鄉(xiāng)除外)。在野外調(diào)查GPS 數(shù)據(jù)基礎(chǔ)上,結(jié)合目視解譯方法,確定訓(xùn)練樣本數(shù)據(jù)集和驗證樣本數(shù)據(jù)集。
1.3.1 數(shù)據(jù)預(yù)處理 數(shù)據(jù)下載自歐洲航空局的數(shù)據(jù)共享網(wǎng)站(http://scihub.copernicus.du/s2/#/home)。原始數(shù)據(jù)已進行過幾何校正處理,由于處理前各波段分辨率不同,因此,使用三次卷積內(nèi)插法對各波段(不包括 Band1,Band8,Band9,Band10)進行重采樣,經(jīng)處理后的各波段分辨率為20 m。
1.3.2 隨機森林分類算法 其通過對數(shù)據(jù)及特征變量進行隨機重采樣,構(gòu)建多個CART 決策樹(不剪枝),最終采用多決策樹投票的方式確定數(shù)據(jù)的類別歸屬。它能夠處理具有高維特征的輸入樣本,又對過度擬合不敏感[13],在生成的過程中就可以對誤差建立一個無偏估計。因而,對于遙感影像農(nóng)作物面積提取具有很好的抗噪性能,在農(nóng)田制圖研究方面取得了有效的分類結(jié)果[14-15]。
1.3.3 特征變量的選擇
1.3.3.1 主成分分析 主成分分析(Principal component analysis,PCA)又稱 K-L 變換,利用波段間的相互關(guān)系,在盡可能不丟失信息的條件下,用幾個綜合性波段代表多波段的原圖像,使處理的數(shù)據(jù)量減少。
1.3.3.2 植被指數(shù) 本研究選擇窄帶綠度植被指數(shù)(Narrowband greenness)中的紅邊歸一化植被指數(shù)(Red Edge Normalized Difference Vegetation Index,RENDVI)[16]。其計算公式如下。
式中,ρ705和 ρ750分別對應(yīng)表2中的 Band5 和Band6 的反射率,RENDVI 值的范圍是 -1~1,一般綠色植被區(qū)的范圍是0.2~0.9。
1.3.3.3 紋理特征 紋理是指圖像色調(diào)作為等級函數(shù)在空間上的變化[17]。由HARALICK 提出的灰度共生矩陣(GLCM)方法是公認(rèn)的紋理特征提取的有效方法,具有較強的適應(yīng)能力和魯棒性[18]。該方法首先計算圖像的GLCM,然后由GLCM 導(dǎo)出描述紋理的二階統(tǒng)計特征[19]。在合適的空間分辨率遙感影像中,農(nóng)作物區(qū)別于其他地物具有更為鮮明的空間紋理特征[20]。因此,加入紋理特征,有利于冬小麥分布區(qū)域的準(zhǔn)確提取。
1.3.4 基于DEM 的地形分析 數(shù)字地面模型(Digiatl Terrain Model,DTM)中地形屬性為高程時稱為數(shù)字高程模型(Digital Elveatoin Model,DEM)。數(shù)字高程模型是指描述地球表面形態(tài)多種信息空間分布的有序數(shù)值陣列。根據(jù)文獻[21],本研究采用三次卷積方法對研究區(qū)DEM 數(shù)據(jù)進行重新采樣,以減少精度損失。
1.3.5 精度評價方法 基于地面樣點數(shù)據(jù)驗證是精度驗證的主要手段之一,也是說明分類結(jié)果準(zhǔn)確程度的指標(biāo)之一。本研究以Kappa 系數(shù)、總體精度、制圖精度、用戶精度等4 項指標(biāo)表述基于地面樣點數(shù)據(jù)精度驗證結(jié)果[22]。此外,由于區(qū)域冬小麥提取面積在產(chǎn)量估產(chǎn)中具有重要作用,因此,同樣需要評價冬小麥面積提取值與實際冬小麥面積值之間的比值。
2.1.1 波段數(shù)據(jù)的統(tǒng)計特征分析 從表2可以看出,B8A 波段標(biāo)準(zhǔn)差(1 247.058 207)為所有波段中最大,其次是B11 波段、B7 波段,標(biāo)準(zhǔn)差分別為1 235.138 932 和1 155.616 279。標(biāo)準(zhǔn)差最大,說明該波段內(nèi)地物的亮度取值距均值的離散程度最大,即地物間的差異可能表現(xiàn)最明顯,信息量最豐富。因此,B8A 波段包含的信息量最豐富,同時也進一步表明原始影像的B8A 波段在植被類型分類中具有顯著作用。
表2 原始影像波段基本信息量
2.1.2 主成分分析 從表3可以看出,第1 主成分分量(PC1)的信息占9 個波段總信息量的97.3%,第2 主成分占總信息量的2.23%,第3 主成分占總信息量的0.38%,前3 個主成分共占據(jù)了99.91%的信息量,其他成分對于影像信息只是噪音,所以,前3 個成分可以代表原始影像的數(shù)據(jù)信息。在構(gòu)成第1 主成分的向量中,B8A 最高(為 0.44),占各波段特征向量和的15.3%。這說明第1 主成分中,B8A波段的貢獻最大,其次是B11(14.6%) 和B7(14.2%),說明在原始影像的9 個波段中,B8A 波段包含的地物信息量最豐富。
2.1.3 波段間相關(guān)性分析 從表4可以看出,B8A與B7 波段間相關(guān)系數(shù)最高(r=0.999 4),其次是與B6 波段(r=0.997 4) 和 B5 波段(r=0.959 5),與B11 波段的相關(guān)系數(shù)為0.958 2。說明B8A 波段與這些波段數(shù)據(jù)彼此重疊較多。
2.1.4 特征變量選擇結(jié)果 選用B8A 波段作為專門提取紋理特征的波段,經(jīng)多次試驗對比分析,選用3 多3 大小的移動窗口,利用灰度共生矩陣計算該波段的8 種紋理特征:均值、方差、同質(zhì)性、對比度、差異性、熵(Entropy)、二階矩、相關(guān)性。
綜上所述,本研究提取3 類特征波段:紅邊歸一化植被指數(shù)(RENDVI)、主成分變換前3 個分量以及原始影像B8A 波段的紋理特征,共計12 個變量。各變量具體信息列于表5。
表3 研究區(qū)Sentinel-2A 各波段主成分分析結(jié)果
表4 研究區(qū)Sentinel-2A 各波段數(shù)據(jù)相關(guān)分析結(jié)果
表5 用于分類的特征變量信息
將 2018年3月27日的 Sentinel-2A 影像輸入到隨機森林分類器[23]中,將前 3 個主成分(PC1,PC2,PC3)、紅邊歸一化植被指數(shù)(RENDVI)和 B8A 波段紋理特征組合進行分類提取,獲得聞喜縣冬小麥種植面積空間分布(圖1)。由圖1可知,冬小麥主要分布在中部地區(qū),北部有少量種植分布,原因為聞喜縣地處運城盆地與臨汾盆地的交界夾槽處,三面環(huán)山,地勢西北、東南高,中間低,冬小麥適宜生長在地形平坦地區(qū),林地等非冬小麥植被主要分布在東南山地;另外,由于丘陵塬地遍布縣境,冬小麥在西北部分布較為零散,這與實地調(diào)查情況相符。
2.2.1 特征波段對分類精度的影響 由表6可知,未加入特征波段,采用原始影像波段作為隨機森林分類器的輸入數(shù)據(jù),分類結(jié)果的總體精度為94.72%,Kappa 系數(shù)為0.92;采用3 項特征波段后,分類結(jié)果的總體精度增加了3.39 百分點,Kappa 系數(shù)增加了0.05,這與分類結(jié)果(圖1)表現(xiàn)一致,說明綜合主成分分析、紅邊歸一化植被指數(shù)以及紋理特征后能提高遙感影像分類總體精度,同時冬小麥的分類用戶精度由87.91%提升到92.22%,說明引入特征波段有助于提高冬小麥種植面積提取的可信度。
表6 隨機森林算法條件下原始影像波段與特征波段分類精度對比
2.2.2 決策樹和特征變量的數(shù)量對精度的影響考慮到在隨機森林分類過程中,決策樹和特征變量的數(shù)量可能影響最終分類的精度,需研究決策樹和特征變量的數(shù)量對分類精度的影響。特征變量的數(shù)量對分類精度的影響甚微可忽略不計,即分類精度對特征變量數(shù)量的設(shè)置并不敏感[24]。因此,本研究僅分析決策樹的數(shù)量對分類精度的影響。由圖2可知,當(dāng)保持特征變量數(shù)量不變時,將決策樹的數(shù)量分別設(shè)定為20,40,60,80,100,120,140,160,180進行試驗,得到的分類精度隨決策樹數(shù)量變化而改變。由圖2可知,在20~100 的范圍內(nèi),當(dāng)決策樹數(shù)量增加,分類精度隨之增加,并且在決策樹數(shù)量為100 時分類精度達(dá)到最大值;當(dāng)決策樹數(shù)量超過100 時,分類精度隨決策樹數(shù)量的增加而出現(xiàn)降低趨勢,且隨著決策樹數(shù)量增加,模型訓(xùn)練時間也在增加。
為進一步驗證本研究所采用的隨機森林分類方法的有效性,利用實地調(diào)查點信息將隨機森林算法分類結(jié)果與支持向量機算法、最大似然算法進行對比分析(圖3)。
從圖3可以看出,隨機森林算法(RF)、最大似然算法(ML)和支持向量機算法(SVM)分類結(jié)果在空間分布上大致趨于一致,但隨機森林算法分出的冬小麥地塊較為完整,且能分出絕大部分冬小麥種植區(qū)域,其分類總體精度和Kappa 系數(shù)均最高,分別為98.11%和0.97(圖4),其次是支持向量機算法(總體精度和Kappa 系數(shù)分別為96.3%和0.95),最大似然算法最差。這是由于最大似然算法分類器基于統(tǒng)計算法,計算給定像元屬于某一訓(xùn)練樣本的似然度,根據(jù)似然度將像元歸并到似然度最大的一類當(dāng)中,而在3月下旬聞喜縣冬小麥與蔬菜的光譜特征容易混淆,增大了利用似然度劃分地物像元的難度。支持向量機分類是一種建立在統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上的機器學(xué)習(xí)方法,可以自動尋找那些對分類有較大區(qū)分能力的支持向量,由此構(gòu)造出分類器,可以將類與類之間的間隔最大化,因而較最大似然法有更高的分類準(zhǔn)確率,但是蔬菜與冬小麥的混淆光譜仍對其有一定的影響。而隨機森林算法通過對數(shù)據(jù)及特征變量進行隨機重采樣,采用多決策樹投票的方式確定數(shù)據(jù)的類別歸屬,在生成過程中就可以對誤差進行一個無偏估計,因此,其可信度最高,為92.22%。黃健熙等[25]使用MODIS 數(shù)據(jù)對黑龍江省主要農(nóng)作物的種植面積提取進行研究,發(fā)現(xiàn)SVM算法分類精度優(yōu)于RF,ML 算法的分類精度,這可能是由于MODIS 數(shù)據(jù)空間分辨率低,混合像元效應(yīng)明顯,導(dǎo)致每棵決策樹的分類能力降低,而森林的分類效果(錯誤率)與每棵樹的分類能力有關(guān);本研究中Sentinel-2A 數(shù)據(jù)空間分辨率明顯優(yōu)于MODIS 數(shù)據(jù),故RF 算法分類效果最佳。
由于不同灌溉條件下冬小麥有著不同的生育進程,因此,在冬小麥長勢監(jiān)測和估產(chǎn)的研究中應(yīng)該進行雨養(yǎng)區(qū)冬小麥與灌溉區(qū)冬小麥分類,以提高監(jiān)測精度。在晉南地區(qū)冬小麥種植區(qū)域中,灌溉區(qū)冬小麥一般分布在海拔600 m 以下,坡度小于15°的平川區(qū)域,此區(qū)域有利于土壤水分涵養(yǎng);反之,則為雨養(yǎng)區(qū)冬小麥分布區(qū)[26]。
從圖5和表7可以看出,灌溉區(qū)冬小麥主要分布在禮元鎮(zhèn)、東鎮(zhèn)鎮(zhèn)、侯村鄉(xiāng)、桐城鎮(zhèn)、郭家莊鎮(zhèn)、裴社鄉(xiāng)、河底鎮(zhèn)以及神柏鄉(xiāng)東南部等各鄉(xiāng)鎮(zhèn)沿涑水河流域的平川區(qū)域,面積為12 773.33 hm2,占總面積的34.92%;而雨養(yǎng)區(qū)冬小麥主要分布在聞喜縣西北部和東南部各鄉(xiāng)鎮(zhèn)丘陵垣臺區(qū)域,在西北部分布較為零散,在后宮鄉(xiāng)西部分布較為集中,面積為23 806.66 hm2,占聞喜縣冬小麥總面積的65.08%。同山西省統(tǒng)計年鑒數(shù)據(jù)(38 800 hm2)進行對比分析,聞喜縣冬小麥總提取面積的精度可以達(dá)到94.28%,雨養(yǎng)區(qū)為93.48%,灌溉區(qū)為95.8%。本研究得出的雨養(yǎng)區(qū)和灌溉區(qū)冬小麥提取精度明顯優(yōu)于文獻[26]的研究結(jié)果(86.16%和86.15%),說明Sentinel-2A數(shù)據(jù)可以明顯降低混合像元效應(yīng),更適合區(qū)域冬小麥種植面積提取研究。
表7 聞喜縣雨養(yǎng)區(qū)、灌溉區(qū)冬小麥分類統(tǒng)計結(jié)果
本研究以2018年冬小麥拔節(jié)期內(nèi)的Sentinel-2A 數(shù)據(jù)為數(shù)據(jù)源,以山西省運城市聞喜縣為研究區(qū),通過利用遙感影像主成分變換、波段特征提取技術(shù),將主成分信息、波段空間紋理特征、紅邊歸一化植被指數(shù)以及大量調(diào)查樣本點輸入到隨機森林分類器中進行決策樹構(gòu)建,并基于數(shù)字高程模型提取的坡度、高程信息,提取了2018年聞喜縣冬小麥的灌溉區(qū)與雨養(yǎng)區(qū)的空間分布信息。結(jié)果表明,Sentinel-2A 遙感數(shù)據(jù)適合作為縣域尺度冬小麥監(jiān)測的數(shù)據(jù)源。Sentinel-2A 數(shù)據(jù)重訪周期為10 d,在農(nóng)作物物候時期內(nèi)更容易獲得質(zhì)量較好地遙感影像,并且該數(shù)據(jù)影像空間分辨率較高,獲取成本低,能夠滿足大面積冬小麥監(jiān)測的要求。采用隨機森林分類器對聞喜縣地物進行識別與分類,其分類總體精度達(dá)到98.11%,Kappa 系數(shù)達(dá)到0.97,優(yōu)于同等條件下采用支持向量機法與最大似然算法。主成分分析、紋理特征和RENDVI 的引入可以提高單時相遙感影像對縣域冬小麥分類識別能力。2018年聞喜縣冬小麥遙感監(jiān)測面積為36 580 hm2,提取精度達(dá)到94.28%。其中,雨養(yǎng)區(qū)冬小麥遙感監(jiān)測面積為23 806.66 hm2,提取精度達(dá)到93.48%,占當(dāng)年總面積的65.08%;灌溉區(qū)冬小麥遙感監(jiān)測面積為12 773.33 hm2,提取精度為95.8%,占當(dāng)年總面積的34.92%。