柳 琳 徐 鵬 王哲奇
(1. 正元地理信息集團股份有限公司, 北京 100000;2. 紹興市上虞區(qū)規(guī)劃管理服務(wù)中心, 浙江 紹興 321300)
冬小麥是中國的主要糧食作物,播種面積占糧食播種面積的1/5。及時、準確地監(jiān)測預報大范圍冬小麥產(chǎn)量數(shù)據(jù),可為政府部門根據(jù)國內(nèi)外農(nóng)產(chǎn)品市場需求的變化,調(diào)整農(nóng)業(yè)種植結(jié)構(gòu)提供科學依據(jù)。
遙感技術(shù)提供了快速估算大面積冬小麥產(chǎn)量的唯一經(jīng)濟、可行的方法。文獻分析發(fā)現(xiàn)目前遙感估產(chǎn)中最為有效的方法有2種:一是利用數(shù)據(jù)同化技術(shù),把遙感反演參數(shù)信息融入作物機理過程模型之中,實現(xiàn)大面積作物生長狀態(tài)及產(chǎn)量模擬的目的[1-2],如基于Wofost[3]、Oryza2000[4]、WheatSM[5]、ChinaAgroys[6]四個作物模型所構(gòu)建的中國作物生長模擬監(jiān)測系統(tǒng)(crop growth monitoring system-china,CGMS-China),CGMS-China對冬小麥各主產(chǎn)省的平均預報相對誤差為7%[7];二是基于統(tǒng)計模型方法的遙感估產(chǎn)。支持向量回歸這種傳統(tǒng)統(tǒng)計學習方法并不適合大規(guī)模數(shù)據(jù)處理,當前基于神經(jīng)網(wǎng)絡(luò)法的作物估產(chǎn)得到了快速發(fā)展[8]。同時,隨機森林(random forest,RF)是一種基于分類與回歸樹的機器學習算法,由BREIMAN提出[9],相對于傳統(tǒng)決策樹構(gòu)建方法,其優(yōu)越性體現(xiàn)在同等運算率下的高預測精度,以及在處理多維特征上對多重共線性并不敏感的特性[10],目前在農(nóng)作物產(chǎn)量預估方面,也取得了優(yōu)于支持向量機(support vector machine,SVM)、反向傳播(back propagation neural network,BP)神經(jīng)網(wǎng)絡(luò)等算法的性能[11-12];KAUL等[13-14]結(jié)合氣候、氣象和土壤等數(shù)據(jù)用人工神經(jīng)網(wǎng)絡(luò)進行作物估產(chǎn),在不同區(qū)域中人工神經(jīng)網(wǎng)絡(luò)相比于多元線性回歸模型都有了優(yōu)越表現(xiàn)。WANG等[15]在You的研究基礎(chǔ)上,使用深度學習方法對巴西的大豆進行估產(chǎn),在解決遙感應(yīng)用的實際需求中,發(fā)現(xiàn)深度學習方法在遙感數(shù)據(jù)分析中具有極大的應(yīng)用潛力。
本文以中國冬小麥主要產(chǎn)區(qū)黃河中下游河南省為研究對象,以像元和地塊為基本單元,使用Sentinel-2遙感數(shù)據(jù)和實地采樣數(shù)據(jù),分別建立基于長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)、RF、SVM的冬小麥估產(chǎn)模型,進行精度對比和適用性評價,旨在為冬小麥估產(chǎn)提出新的研究思路。
河南省是我國重要的人口和農(nóng)業(yè)大省,跨31°23′N~36°22′N,踞東經(jīng)110°22′E~116°38′E,地勢西高東低。河南省所處緯度是亞熱帶季風氣候帶與溫帶季風氣候帶的交界處,具有雨熱同期、復雜多樣的氣候特點。河南省糧棉油等主要農(nóng)產(chǎn)品產(chǎn)量均居全國前列,是全國重要的優(yōu)質(zhì)農(nóng)產(chǎn)品生產(chǎn)基地。2009年全年糧食總產(chǎn)達到1 078億斤,連續(xù)四年突破千億斤,連續(xù)10年產(chǎn)量居全國第一。因此,研究適合于河南省農(nóng)作物估產(chǎn)的遙感評估方法至關(guān)重要。
Sentinel-2是高分辨率多光譜成像衛(wèi)星,攜帶一枚多光譜成像儀(multispectral imager,MSI),高度為786 km,可覆蓋13個光譜波段,幅寬達290 km。一顆衛(wèi)星的重訪周期為10 d,兩顆互補,重訪周期為5 d。可見光、近紅外、短波紅外,具有不同的空間分辨率,地面分辨率分別有10、20和60 m。在光學數(shù)據(jù)中,Sentinel-2數(shù)據(jù)是唯一一個在紅邊范圍含有三個波段的數(shù)據(jù),這對監(jiān)測農(nóng)作物信息非常有效,因此可將其用作冬小麥估產(chǎn)的數(shù)據(jù)來源。
此次研究選取河南省62個產(chǎn)量大縣作為小麥調(diào)查區(qū)域,根據(jù)縣域內(nèi)小麥面積,每縣均勻預選取10~15個點,按照導航定位至目標地塊。重點關(guān)注低產(chǎn)、受災(zāi)地塊,到達田塊后先大致觀察并記錄田塊的情況,例如倒伏、病蟲害等,并依據(jù)實際到達位置記錄地塊經(jīng)緯度。依次用取樣框取樣,取樣時記錄樣本框中(樣框大小30 cm×30 cm)的穗數(shù),用于計算畝穗數(shù);然后從框中取5個穗(需要滿足水分儀測量需求,提前一天實測,如有需要,適當增加穗數(shù)),脫粒用于計算平均穗粒數(shù)。每個地塊測5次穗數(shù),一共取25個穗,共采集產(chǎn)量樣本點6 090個。
隨機森林(RF)是一種集成學習方法,是基分類器的分類回歸樹算法(classification and regression tree,CART)構(gòu)建的決策樹。針對分類問題,利用投票法進行最后結(jié)果的計算;針對回歸問題,采用簡單平均方法得到最終結(jié)果,由于這里隨機森林回歸是由簡單平均方法進行最后結(jié)果的集成,容易導致低值高估以及高值低估問題。
隨機森林的抽樣機制包括Bagging以及Boosting,其中Bagging是在每次訓練過程中,從原始樣本集有放回地隨機抽取一個子集,再利用該子集對分類器進行訓練。而Boosting則是對每個樣本賦予權(quán)重,代表該樣本被選入訓練集中的概率,Boosting還會對每個分類器也賦予權(quán)重,代表該分類器分類結(jié)果的置信度,在模型訓練過程中,會根據(jù)預測樣本與真實樣本差異,動態(tài)調(diào)整權(quán)重,使得模型可以學習到困難樣本。隨機森林具有兩種隨機機制,即隨機選取訓練樣本以及隨機選取屬性集,即使用部分屬性集進行分類器構(gòu)建。隨機性的引入使得隨機森林方法避免陷入過擬合并且具有很好的抗噪聲能力,提高了學習穩(wěn)定性。
支持向量機(SVM)是一種監(jiān)督學習算法,基本思想是使用核函數(shù)將輸入數(shù)據(jù)轉(zhuǎn)換到高維空間,核函數(shù)既可以是線性,也可以是非線性,完全取決于實際應(yīng)用中自變量與因變量關(guān)系。支持向量機既可以用于分類,也可以用于回歸。當將其用于分類時其目標是尋找合適的超平面分隔不同類的樣本,并最大化距離超平面最近的數(shù)據(jù)與超平面的間隔;當將其用于回歸任務(wù)時,其目標是最小化距離超平面最遠數(shù)據(jù)與超平面間隔。本文的單產(chǎn)預估屬于回歸任務(wù)。
隨機森林、支持向量機等機器學習算法顯著優(yōu)點是在較少的假設(shè)下,可以通過信息挖掘較好地實現(xiàn)大范圍的作物產(chǎn)量預估,過程簡單,且具有普適性的潛力。相比于作物模型,該方法無法表達各因素對產(chǎn)量影響的具體機理。同時,本文發(fā)現(xiàn),利用不同生長時段的樣本建模,模型的預測精度不同,表明變量的時段是模型非常重要的影響因素之一。
在機器學習模型中,需要人工選擇的參數(shù)稱為超參數(shù),如隨機森林中決策樹的個數(shù)、人工神經(jīng)網(wǎng)絡(luò)模型中隱藏層層數(shù)和每層的節(jié)點個數(shù)、正則項中常數(shù)大小等。超參數(shù)選擇不恰當,就會出現(xiàn)欠擬合或者過擬合問題。在選擇超參數(shù)時,有兩個途徑,一是憑經(jīng)驗微調(diào);另一個是選擇不同大小參數(shù),帶入模型中,挑選最優(yōu)參數(shù)。
網(wǎng)格搜索(Grid Search)是一種用來選取最優(yōu)參數(shù)的窮舉搜索法:在所有候選的參數(shù)選擇中,通過循環(huán)遍歷,嘗試每一種可能性,表現(xiàn)最好的參數(shù)就是最終結(jié)果。當模型中有多個參數(shù)需要確定時,網(wǎng)格搜索算法使用每組超參數(shù)訓練模型并挑選驗證集誤差最小的超參數(shù)組合。
長短期記憶網(wǎng)絡(luò)(LSTM)是一種循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)特殊類型,可以學習長期依賴信息。所有RNN都具有一種重復神經(jīng)網(wǎng)絡(luò)模塊的鏈式形式。在標準RNN中,這個重復的結(jié)構(gòu)模塊只有一個非常簡單的結(jié)構(gòu)tanh層。而在LSTM中,tanh層結(jié)構(gòu)復雜得多。
LSTM的關(guān)鍵是細胞狀態(tài),通過精心設(shè)計“門”的結(jié)構(gòu)來去除或增加信息到細胞狀態(tài)。LSTM有三個門:遺忘門、輸入門、輸出門。LSTM的第一步是通過遺忘門決定,會從細胞狀態(tài)中丟棄冗余信息,然后通過輸入門確定新信息被存放在細胞狀態(tài)中,最終通過輸出門確定輸出值。這種運算方式理解起來就是將上一時刻的部分信息進行壓縮或更新,然后再加上本時刻信息,通過這種方式來記憶長期信息。
由于獨特的設(shè)計結(jié)構(gòu),LSTM適合于處理和預測中間隔和延遲非常長的重要事件,例如本文中的冬小麥估產(chǎn)。本文所用的LSTM模型,其中包括四層LSTM模型,并且還添加Dropout層以防止模型過擬合。
根據(jù)相關(guān)系數(shù)(R)、均方根誤差(root mean squared error,RMSE)對從Sentinel-2多光譜數(shù)據(jù)中得到的冬小麥估產(chǎn)結(jié)果進行了準確性分析。
本文采用SVM模型、RF模型機器學習方法以及LSTM模型深度學習方法,進行像元級的冬小麥產(chǎn)量預估。利用格網(wǎng)搜索進行機器學習參數(shù)的優(yōu)化,使用均方根誤差作為優(yōu)化參數(shù)標準。SVM模型的最優(yōu)參數(shù)為:使用線性核函數(shù),懲罰因子C為800,gamma值為0.01。RF模型的最優(yōu)參數(shù)為:使用bootstrap框架,最大的弱學習器n_estimators為200,最大特征數(shù)max_features為6。
圖1為得到的結(jié)果,在實驗中,以8∶2比例隨機劃分訓練集和測試集。SVM模型,訓練集預估產(chǎn)量與實測產(chǎn)量R=0.57,測試集預估產(chǎn)量與實測產(chǎn)量R=0.50。RF模型,訓練集預估產(chǎn)量與實測產(chǎn)量R=0.96,測試集預估產(chǎn)量與實測產(chǎn)量R=0.59。
(a)為SVM在訓練集上的精度
(b)為SVM在測試集上的精度
(c)為RF在訓練集上的精度
(d)為RF在測試集上的精度
從實驗結(jié)果分析,RF模型的總體精度要高于SVM模型,其原因可能為RF的預測能力對輸入數(shù)據(jù)集的適應(yīng)能力更強。本實驗的輸入數(shù)據(jù)為Sentinel-2影像原始波段序列數(shù)據(jù),數(shù)據(jù)的特征維度較高,SVM模型易受到共線性影響,其精度要低于RF模型。但是RF模型的結(jié)果呈明顯地過擬合現(xiàn)象,主要原因為其訓練集精度要遠高于測試集精度。因此SVM模型、RF模型泛化能力還有待提高,更適用于區(qū)域內(nèi)小范圍的估產(chǎn)。
圖2為LSTM模型最終得到的預估產(chǎn)量,其預估產(chǎn)量與實際產(chǎn)量間的相關(guān)性比SVM模型的結(jié)果高,比RF模型的結(jié)果低。而在測試集上,LSTM模型對于高產(chǎn)部分的預估產(chǎn)量相關(guān)性要好于SVM模型和RF模型。對于LSTM模型最終預估精度還有進一步提高的空間,主要是因為模型結(jié)果以及參數(shù)還待優(yōu)化,沒有充分發(fā)掘深度學習模型的潛力,但LSTM模型泛化能力強、普適性高,更適用于大范圍農(nóng)作物估產(chǎn)。表1為三種模型的精度對比結(jié)果。
(a)訓練集
(b)測試集
表1 SVM,RF,LSTM模型精度對比
利用不同估產(chǎn)模型對地塊級的冬小麥產(chǎn)量進行預估,地面采樣時利用五個樣點生成一個樣方,在后續(xù)進行地塊生成時,基于五個樣點生成凸包多邊形作為地塊,五個樣點的平均產(chǎn)量作為該地塊的平均產(chǎn)量。
在進行地塊數(shù)據(jù)提取的時候,基于時空遙感云服務(wù)平臺(PIE Engine)進行數(shù)據(jù)預處理,每10 d進行影像的中值合成,生成原始影像的時間序列數(shù)據(jù),并在地塊范圍內(nèi)對影像數(shù)據(jù)取平均。后續(xù)的模型訓練流程與像元級產(chǎn)量預估的模型訓練流程相同。利用格網(wǎng)搜索優(yōu)化機器學習參數(shù),使用均方根誤差作為優(yōu)化參數(shù)的標準。SVM模型的最優(yōu)參數(shù)為:使用線性核函數(shù),懲罰因子C為200,gamma值為0.1;RF模型的最優(yōu)參數(shù)為:使用bootstrap框架,最大的弱學習器n_estimators為200,最大特征數(shù)max_features為8。LSTM模型的最優(yōu)參數(shù)為:使用fit函數(shù),分割比例為0.2,訓練周期為100次,數(shù)據(jù)塊大小為16。
圖3為使用SVM、RF、LSTM模型得到的最終的結(jié)果,其結(jié)果與直接進行像元級估產(chǎn)有明顯的提高,對比來看,其均方根誤差(RMSE)有一定程度的降低,且LSTM模型精度較高,分析其原因可能是地塊區(qū)域內(nèi)小麥產(chǎn)量實測樣本數(shù),足以表征整個地塊的產(chǎn)量。因此LSTM模型更適用地塊級的冬小麥估產(chǎn)。
(a)SVM
(b)RF
(c)LSTM
本文采用了SVM模型、RF模型機器學習方法以及LSTM模型深度學習方法,進行像元級和地塊級的冬小麥產(chǎn)量預估,得出如下結(jié)論:
(1)進行像元級估產(chǎn),SVM模型和RF模型易受到特征共線性的影響,且RF模型的結(jié)果呈現(xiàn)明顯地過擬合現(xiàn)象,其訓練集精度要遠高于測試集精度,因此SVM模型和RF模型更適用于小范圍的估產(chǎn);
(2)進行地塊級估產(chǎn),LSTM模型估產(chǎn)精度明顯高于SVM模型、RF模型,且LSTM模型泛化能力強、普適性高,因此LSTM模型更適用于大范圍農(nóng)作物地塊級估產(chǎn);
(3)構(gòu)建LSTM模型需調(diào)節(jié)的參量相比SVM模型、RF模型更加合理,其模型結(jié)構(gòu)影響最終預測估產(chǎn)結(jié)果精度,LSTM模型不僅能表征作物在生育期的生長變化,同時能夠降低人為因素的干擾,估產(chǎn)結(jié)果更加客觀真實。
雖然本文實現(xiàn)了利用LSTM模型進行河南省冬小麥的產(chǎn)量預估,但是精度有進一步提升空間。針對以上優(yōu)勢與不足,提出以下兩點改進措施:
(1)利用一定大小的窗口提取周圍像元的信息,將二維空間信息與該像元一維序列信息進行融合,以提高產(chǎn)量預估的精度;
(2)利用雷達SAR遙感數(shù)據(jù)對表層土壤物理性質(zhì)比較敏感的特性,與具有熱紅外波段的光學影像融合,進行農(nóng)作物的估產(chǎn)研究,可降低光學特征權(quán)重造成地過擬合影響估產(chǎn)精度。