內(nèi)蒙古自治區(qū)農(nóng)牧業(yè)科學(xué)院 包珺瑋 于利峰 烏蘭吐雅
科技迅速發(fā)展,農(nóng)業(yè)遙感技術(shù)用于農(nóng)業(yè)資源監(jiān)測(cè)已成為當(dāng)今人們研究和應(yīng)用的熱點(diǎn)。傳統(tǒng)的農(nóng)業(yè)信息獲取方式往往采用統(tǒng)計(jì)匯總,以行政區(qū)域?yàn)榻y(tǒng)計(jì)單位,逐級(jí)統(tǒng)計(jì)匯總,需要投入大量的人力、財(cái)力,而統(tǒng)計(jì)結(jié)果時(shí)效性差、干擾因素多。遙感技術(shù)具有監(jiān)測(cè)范圍廣、時(shí)效性強(qiáng)、信息量大、成本低、數(shù)據(jù)及時(shí)準(zhǔn)確等特點(diǎn),被廣泛應(yīng)用于農(nóng)情監(jiān)測(cè)中,為農(nóng)業(yè)產(chǎn)業(yè)規(guī)劃、鄉(xiāng)村振興提供了科技支撐。
隨著遙感影像數(shù)據(jù)源的不斷豐富,高分辨率影像已廣泛應(yīng)用于大范圍農(nóng)作物面積的提取研究。自2015年6 月歐空局成功發(fā)射Sentinel-2A 以來(lái),因其影像覆蓋范圍大、分辨率高、光譜信息風(fēng)度等優(yōu)勢(shì)被廣泛應(yīng)用于土地覆蓋分類(lèi)、農(nóng)作物識(shí)別、物種分類(lèi)等領(lǐng)域,取得了很好的效果。朱琳利用Sentinel-2A 多源遙感數(shù)據(jù)進(jìn)行了農(nóng)作物分類(lèi)和面積的提取研究,取得了不錯(cuò)的效果,分類(lèi)精度及Kappa 系數(shù)都比光學(xué)遙感分類(lèi)結(jié)果好。王蓉等利用Sentinel-2A 影像結(jié)合DEM 高程模型提取雨養(yǎng)區(qū)和灌溉區(qū)的冬小麥種植面積,Sentinel-2A 影像對(duì)冬小麥提取效果明顯。農(nóng)作物面積提取是農(nóng)作物估產(chǎn)、長(zhǎng)勢(shì)等農(nóng)情信息分析的基礎(chǔ),如何提高農(nóng)作物提取的準(zhǔn)確性,改善分類(lèi)時(shí)效性就顯得尤為重要。
隨機(jī)森林法作為一種集成學(xué)習(xí)方法,具有高效、靈活、準(zhǔn)確、選擇能力強(qiáng)等特點(diǎn),被廣泛應(yīng)用于中高分辨率影像分類(lèi)中。黃春燕等基于Sentinel-2A 數(shù)據(jù),采用機(jī)器學(xué)習(xí)法以地塊特征基元為基本單元,提取農(nóng)作物分類(lèi)信息,有效解決了“椒鹽”效應(yīng),提高了農(nóng)作物分類(lèi)精度。雷小雨等利用隨機(jī)森林法結(jié)合構(gòu)建差值特征對(duì)南方水稻種植面積進(jìn)行提取,改善了水稻面積的提取精度。王娜等利用單變量特征和隨機(jī)森林法進(jìn)行蘇北地區(qū)主要農(nóng)作物識(shí)別和提取,有效降低了數(shù)據(jù)冗余,提高了農(nóng)作物的分類(lèi)精度。因此,如何利用遙感數(shù)據(jù)源、特征變量及面積提取算法模型提高分類(lèi)精度已成為農(nóng)作物識(shí)別的主要研究?jī)?nèi)容。
基于前人研究成果,本文在Sentinal-2A 光譜特征、數(shù)據(jù)提取方法和模型選擇方面進(jìn)行嘗試,較高精度地提取研究區(qū)的主要農(nóng)作物種植面積并繪制空間分布“一張圖”,通過(guò)阿榮旗部分區(qū)域?qū)嵺`和探索,制定出適合內(nèi)蒙古自治區(qū)東北部地區(qū)的主要農(nóng)作物提取方法和模型,為將來(lái)更大幅度地提取打下堅(jiān)實(shí)基礎(chǔ)。
阿榮旗地處呼倫貝爾市東南部,全旗總面積1.36萬(wàn)km2,耕地面積31.44 萬(wàn)hm2,種植作物種類(lèi)豐富,主要有玉米、馬鈴薯、大豆、水稻等,常年糧食生產(chǎn)量15 億kg,是全國(guó)441 個(gè)優(yōu)質(zhì)商品糧基地之一和內(nèi)蒙古自治區(qū)5 個(gè)大豆主產(chǎn)區(qū)之一。
Sentinel-2A 衛(wèi)星是可覆蓋13 個(gè)光譜波段并攜帶多光譜成像儀的全球環(huán)境衛(wèi)星,包括10 m 分辨率的紅、綠、藍(lán)波段及1 個(gè)近紅外波段、4 個(gè)20 m 分辨率植被紅邊波段、2 個(gè)短波紅外波段,另外還有60 m 分辨率水蒸氣、卷云、沿海氣溶膠數(shù)據(jù)。研究區(qū)影像在USGS網(wǎng)站下載后,經(jīng)過(guò)大氣校正、重采樣,得到10 m 分辨率影像,利用ENVI 軟件轉(zhuǎn)換為標(biāo)準(zhǔn)格式并裁剪得到影像。
研究區(qū)影像采用2018 年7 月的Sentinel-2A 衛(wèi)星影像,選取11 波段、5 波段、4 波段組合顯示圖像。該方法利用與Rapideye 相近的紅邊波段及短波近紅外波段。短波近紅外波段能夠顯著放大作物之間的光譜差異性,是識(shí)別作物的有效手段。(見(jiàn)表1)
表1 Sentinel-2A光譜范圍
地面調(diào)查數(shù)據(jù)為解譯點(diǎn)坐標(biāo)信息、驗(yàn)證點(diǎn)坐標(biāo)信息、照片等。獲取方式是選擇農(nóng)作物種植類(lèi)型豐富且集中連片的區(qū)域,利用手持差分GPS 沿著省級(jí)、市級(jí)、縣級(jí)等主要道路,按照每5 km 一個(gè)點(diǎn)的標(biāo)準(zhǔn)采集。此次共采集解譯標(biāo)志394 個(gè)、驗(yàn)證點(diǎn)100 個(gè)。采集作物包括玉米、高粱、水稻、大豆、小麥、甜菜及其他作物。采集多種解譯標(biāo)志避免其他作物特征影響目標(biāo)作物識(shí)別。(見(jiàn)表2)
表2 農(nóng)作物地面點(diǎn)詳情
線狀地物采集類(lèi)型為省級(jí)、縣級(jí)、鄉(xiāng)道及田間道路、河流、溝渠、林帶等,共采集19 條線狀地物。經(jīng)過(guò)實(shí)際調(diào)查,受兩盟市耕地種植結(jié)構(gòu)和種植習(xí)慣影響,采集的線狀地物小于1 個(gè)像元15 m。
2014—2015 年快鳥(niǎo)影像、Wordview 影像為底圖解譯出已經(jīng)確定耕地面積范圍并去除了線狀地物信息的2 m 分辨率的呼倫貝爾市耕地底圖。
研究區(qū)主要農(nóng)作物面積提取主要以計(jì)算機(jī)解譯為主,充分利用Sentinel-2A 影像豐富的光譜信息,結(jié)合研究區(qū)種植結(jié)構(gòu)制定如下技術(shù)路線。(見(jiàn)圖1)
在實(shí)際農(nóng)作物遙感提取中,人工目視解譯實(shí)效性差、效率較低,而傳統(tǒng)基于像元的高分辨率數(shù)據(jù)分類(lèi)會(huì)受到“同物異譜”“同譜異物”的影響出現(xiàn)“椒鹽”現(xiàn)象,使得地塊整體結(jié)構(gòu)破壞。因此,本文擬從光譜特征、參數(shù)特征與紋理特征入手,充分挖掘數(shù)據(jù)信息,實(shí)現(xiàn)精確作物提取。
1.光譜特征分析。目前,有大量的影像分割處理軟件,但是對(duì)于提升影像的分割精度和準(zhǔn)確度往往難度較大,因?yàn)閷?duì)于同一個(gè)農(nóng)田,溫度、水分、光照等影響因素導(dǎo)致其農(nóng)作物長(zhǎng)勢(shì)不同,呈現(xiàn)的光譜特征差異較大。研究區(qū)屬于農(nóng)業(yè)大縣,種植作物種類(lèi)豐富,大量的雜糧雜豆,光譜特征變化不大,種植作物邊界不清晰,研究區(qū)耕地種植緊湊,農(nóng)田間邊界不清晰,影像分割難度大。
本文采用均值漂移的算法改善影像分割精度和準(zhǔn)確度。均值漂移MS(Mean Shift)算法是一種通用的聚類(lèi)算法,其特點(diǎn)是不受數(shù)據(jù)分布特征及形態(tài)影響,適用于各種分布特征的影像數(shù)據(jù)。該算法最初由Fukunaga 和Hostetler 于1975 年提出,Cheng 和Comaniciu 等針對(duì)采樣點(diǎn)對(duì)周?chē)鷺颖镜闹匾潭忍岢隽艘唤M核函數(shù),將均值漂移算法的使用范圍進(jìn)行了發(fā)展,其基本數(shù)學(xué)形式為:給定一個(gè)d 維空間中,存在n 個(gè)樣本點(diǎn),則均值漂移基本形式為:
式中,Sh是一個(gè)半徑為h 的高維球區(qū)域,k表示n 個(gè)樣本點(diǎn)有k個(gè)點(diǎn)落入Sh中。
對(duì)于所有采樣點(diǎn),每個(gè)樣本點(diǎn)的重要性應(yīng)該是不同的,離中心點(diǎn)越遠(yuǎn),其權(quán)值應(yīng)該越小。因此,應(yīng)引入核函數(shù)和權(quán)重系數(shù)來(lái)提高跟蹤算法的濾波性并增加搜索跟蹤能力。在一個(gè)d 維的歐式空間中,x 表示該空間中的一個(gè)點(diǎn),用一列向量表示,存在標(biāo)準(zhǔn)化常量c,d 使得核函數(shù)K(x)=cdk(||x||)2。K(x)核函數(shù)應(yīng)滿足K 是非負(fù)的、K 是非增的、K(x)連續(xù)的。
平均的偏移量會(huì)指向樣本點(diǎn)最密的方向,也就是概率密度函數(shù)的梯度方向,引入核函數(shù)和權(quán)重系數(shù)后得到:
式中G(x)是一個(gè)單位核函數(shù),H是一個(gè)正定d×d的對(duì)稱(chēng)矩陣,ω(x(i))是采樣點(diǎn)x(i)的權(quán)重。蘇騰飛等利用改進(jìn)型MS 濾波算法對(duì)高分辨率影像分割,其結(jié)果明顯改善了農(nóng)田邊界的平滑效果,優(yōu)化了影像分割精度。
2.參數(shù)特征分析。遙感的參數(shù)特征是指采用了比值運(yùn)算和歸一化(normalization)處理得到的一系列指數(shù)。由于進(jìn)行了比值計(jì)算,其生成的指數(shù)影像有助于消除地形差異的影響。通過(guò)比值運(yùn)算,以幾何級(jí)數(shù)進(jìn)一步擴(kuò)大反射率之間的差距,使要研究的農(nóng)作物在指數(shù)影像上得到最大的亮度增強(qiáng),達(dá)到農(nóng)田特征區(qū)分的目的。
歸一化植被指數(shù)NDVI(Normalized Difference Vegetation Index)表達(dá)式為NDVI=(NIR-Red)/(NIR+Red)
NDVI 通常是用衛(wèi)星遙感數(shù)據(jù)計(jì)算,以評(píng)估目標(biāo)地區(qū)綠色植被的生長(zhǎng)狀況。計(jì)算方式是利用紅光與近紅外光的反射,顯示出植物生長(zhǎng)、生態(tài)系活力與生產(chǎn)力等信息。數(shù)值越大表示植物生長(zhǎng)越多。Huete 提出了土壤調(diào)節(jié)植被指數(shù)SAVI(Soil Adjusted Vegetation Index),通過(guò)引入土壤調(diào)節(jié)因子l,使無(wú)論是在深色土壤或淺色土壤背景中求得的植被指數(shù)都完全相等,從而消除了土壤背景的干擾。表達(dá)式為:
式中,L即為土壤調(diào)節(jié)因子,其值在0~1?!?”和“1”分別代表植被覆蓋率極高和極低的兩種極端情況。通常選擇0.5 可以較好地減弱土壤的背景差異,清除土壤的噪聲影響。增強(qiáng)植被指數(shù)EVI(Enhanced Vegetation Index)表達(dá)式為:
EVI通過(guò)加入藍(lán)色波段以增強(qiáng)植被信號(hào),矯正土壤背景和氣溶膠散射的影響。EVI常用于LAI值高,即植被茂密區(qū)。
3.紋理特征分析。紋理是地物的物理形態(tài)所表達(dá)出的灰度空間的相關(guān)特性,紋理特征的核心問(wèn)題是紋理區(qū)域的一致性和相鄰區(qū)域邊界的準(zhǔn)確性。高分辨率數(shù)據(jù)下,由于不同作物之間的生理形態(tài)與疏密情況的差異,不同作物之間也存在紋理區(qū)別,可以有效區(qū)分農(nóng)作物類(lèi)型。
機(jī)器學(xué)習(xí)法是人工智能的一個(gè)分支,是一類(lèi)從數(shù)據(jù)中自動(dòng)分析獲得規(guī)律,并利用規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)的算法。作為新興的、高度靈活的一種機(jī)器學(xué)習(xí)算法,隨機(jī)森林法RF(Random Forest)擁有廣泛的應(yīng)用前景,它的本質(zhì)是集成學(xué)習(xí)(Ensemble Learning)方法。從直觀角度來(lái)解釋?zhuān)靠脹Q策樹(shù)都是一個(gè)分類(lèi)器,那么對(duì)于一個(gè)輸入樣本,N 棵樹(shù)會(huì)有N 個(gè)分類(lèi)結(jié)果。而隨機(jī)森林法集成了所有的分類(lèi)投票結(jié)果,將投票次數(shù)最多的類(lèi)別指定為最終的輸出。在遙感領(lǐng)域其優(yōu)點(diǎn)是幾乎不需要設(shè)置參數(shù)就可以得到比較好的提取結(jié)果,而且能夠有效地運(yùn)行在大數(shù)據(jù)集上,能夠滿足未來(lái)大尺度范圍提取的要求。
本研究通過(guò)挖掘遙感數(shù)據(jù)的光譜特征、參數(shù)特征和紋理特征等信息,構(gòu)建基于機(jī)器學(xué)習(xí)法的作物提取模型,對(duì)于未來(lái)大尺度提取農(nóng)作物面積提供借鑒。在耕地底圖范圍內(nèi),基于2018 年Sentinel-2A 影像數(shù)據(jù),利用隨機(jī)森林法得到各主要農(nóng)作物的空間分布情況。
分類(lèi)精度是影像像元被正確分類(lèi)程度的評(píng)價(jià)指標(biāo)。本文采用混淆矩陣精度分類(lèi),確定分類(lèi)結(jié)果的精度和可靠性?;煜仃嚨姆诸?lèi)評(píng)價(jià)指標(biāo)包括總體分類(lèi)精度、Kappa 系數(shù)、漏分誤差、錯(cuò)分誤差、制圖精度、用戶(hù)精度,而制圖精度指標(biāo)和用戶(hù)精度指標(biāo)直接影響和決定分類(lèi)結(jié)果的準(zhǔn)確性。在精度評(píng)價(jià)過(guò)程中,將野外采集的100個(gè)地面驗(yàn)證點(diǎn),采用定性和定量的方式對(duì)作物品種判別準(zhǔn)確度和作物面積提取的精確度進(jìn)行驗(yàn)證,建立了混淆矩陣評(píng)價(jià)指標(biāo)。(見(jiàn)表3)
表3 精度驗(yàn)證混淆矩陣
隨機(jī)森林法對(duì)農(nóng)作物分類(lèi)的制度精度能達(dá)到80%;Kappa 系數(shù)0.72,表示分類(lèi)精度相對(duì)較好,尤其是大豆和甜菜的制圖精度可以達(dá)到90%,但是對(duì)于玉米和高粱的用戶(hù)精度則不高,分別是82%和53%,其主要原因是玉米和高粱在8 月的光譜特征相似,玉米和高粱錯(cuò)分、混淆的概率加大,影響了整體的Kappa系數(shù)。采用均值漂移MS 法可以有效改善混合像元模糊與地塊內(nèi)部光譜特征差別大的現(xiàn)象,但是對(duì)于光譜特征相似的作物,分類(lèi)結(jié)果不理想。
本研究主要以農(nóng)作物分布的遙感提取方法和模型為出發(fā)點(diǎn),通過(guò)Sentinel-2A 數(shù)據(jù)進(jìn)行一系列預(yù)處理和分析,并利用機(jī)器學(xué)習(xí)算法提取研究區(qū)的主要農(nóng)作物分布“一張圖”,建立呼倫貝爾東北部的作物提取模型,為將來(lái)更大尺度地監(jiān)測(cè)打下堅(jiān)實(shí)基礎(chǔ)。
雖然通過(guò)模型可以提取較好的作物分布“一張圖”,但仍存在許多不足之處。首先,數(shù)據(jù)選取時(shí)受多種因素影響,是否存在與最佳提取時(shí)期不匹配的情況,應(yīng)該進(jìn)一步研究。其次,通過(guò)提取、挖掘遙感影像信息,可以較高精度地識(shí)別農(nóng)作物分布,但在一定程度上也造成數(shù)據(jù)量冗余。最后,大尺度的數(shù)據(jù)選取與模型改進(jìn)仍需一段時(shí)間的研究。