劉 娣,孫佳倩,余鐘波,4
(1.河海大學(xué) 水災(zāi)害防御全國重點(diǎn)實(shí)驗(yàn)室,南京 210024;2.河海大學(xué)水文水資源學(xué)院,南京 210024;3.河海大學(xué)全球變化與水循環(huán)國際合作聯(lián)合實(shí)驗(yàn)室,南京 210024;4.長江保護(hù)與綠色發(fā)展研究院,南京 210024)
土壤濕度(Soil Moisture, SM)指土壤的含水量,通過改變地表反射率、地表蒸散發(fā)過程、陸面植被的生長狀況、蒸散發(fā)過程以及能量輸送過程等方式影響蒸散發(fā)、通量等物理過程,進(jìn)而影響陸地與大氣之間的耦合及水分和能量交換,給氣候變化帶來影響[1]。通過機(jī)器學(xué)習(xí)反演獲取高精度表層至深層土壤濕度數(shù)據(jù),對研究氣候預(yù)報(bào)、水文模型模擬預(yù)報(bào)、干旱監(jiān)測[2]、農(nóng)作物生長[3]等具有重要意義。
機(jī)器學(xué)習(xí)被廣泛應(yīng)用于水文領(lǐng)域的研究中。其中BP 神經(jīng)網(wǎng)絡(luò)(Back Propagation Neuron Network,BPNN)因具有較強(qiáng)的非線性映射能力、自適應(yīng)能力和泛化能力,被大量的應(yīng)用于土壤濕度反演的工作中[4,5]。但隨著研究的深入,BP 神經(jīng)網(wǎng)絡(luò)也展現(xiàn)出較強(qiáng)的隨機(jī)性和不確定性,存在不能保證收斂到全局最小點(diǎn)等問題[6]。使用天牛須搜索算法(Beetle Antennae Search Algorithm, BAS)對BP 神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn)是目前一個(gè)新的研究方向,李琪等[7]使用BAS-BP模型對鉆井鉆速進(jìn)行預(yù)測,結(jié)果表明BAS-BP具有良好的收斂性和搜索能力且預(yù)測效果優(yōu)于BP、PSO-BP 及GA-BP。徐轟釗等[8]建立了BAS-BP 柴油機(jī)故障診斷和識(shí)別模型,證明了BAS-BP 模型在各方面都優(yōu)于PSO-BP 和GA-BP 模型,且BAS-BP 的故障分類準(zhǔn)確率可達(dá)到98.90%。但目前BAS-BP模型在反演土壤濕度的適用性領(lǐng)域還缺乏具體的研究。
機(jī)器學(xué)習(xí)模型是黑箱模型,主要是利用已有的指標(biāo)對結(jié)果進(jìn)行評(píng)價(jià),不能自主選擇輸入變量??紤]到氣象因子與土壤濕度之間存在互饋效應(yīng)[9-12],遲凱歌等[13]利用主成分分析法辨識(shí)了影響流域NDVI 變化的主導(dǎo)氣候因素,并在此基礎(chǔ)上構(gòu)建了BP 神經(jīng)網(wǎng)絡(luò),證明因子篩選能夠顯著提高模型精度。李柳陽等[14]基于站點(diǎn)觀測的10cm 深度土壤濕度數(shù)據(jù)和8 個(gè)氣象數(shù)據(jù),通過主成分分析法選取溫度、日照時(shí)間、降水、風(fēng)速及相對濕度作為線性回歸和BP 神經(jīng)網(wǎng)絡(luò)模型的輸入數(shù)據(jù),構(gòu)建BP神經(jīng)網(wǎng)絡(luò)模型。
本文基于BP 神經(jīng)網(wǎng)絡(luò),利用有限氣象站點(diǎn)觀測數(shù)據(jù)進(jìn)行驅(qū)動(dòng),構(gòu)建適應(yīng)于不同深度土壤濕度反演的BP 神經(jīng)網(wǎng)絡(luò)模型。采用天牛須搜索算法(Beetle Antennae Search Algorithm,BAS)對BP 神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),構(gòu)建BAS-BP 神經(jīng)網(wǎng)絡(luò)模型(Beetle Antennae Search-Back Propagation Neural Networks),驗(yàn)證BAS-BP模型對不同區(qū)域不同深度土壤濕度的反演效果。
主成分分析法是目前最常用的線性降維方法之一,其核心思想是利用某種線性投影,將高維度的數(shù)據(jù)映射到低維度的空間當(dāng)中[19],使投影到低維度上數(shù)據(jù)信息在降低維數(shù)的同時(shí)能夠盡可能的保留原數(shù)據(jù)的信息,達(dá)到使用少數(shù)具有代表性數(shù)據(jù)代替多個(gè)原始變量的目的。其主要原理如下[20]:
(1)對由n維相關(guān)變量組成的原始變量集X進(jìn)行z分?jǐn)?shù)(z-score)標(biāo)準(zhǔn)化處理,得到均值為0、方差為1 的標(biāo)準(zhǔn)化矩陣ZX。
(2)基于標(biāo)準(zhǔn)化矩陣ZX建立協(xié)方差矩陣R,利用特征值分解法求解標(biāo)準(zhǔn)化矩陣ZX的特征值并將其從大到小排列,得到特征值λk(k=1,2,…,n)、特征向量Gk與主成分Fk。
(3)根據(jù)方差貢獻(xiàn)率和累計(jì)方差貢獻(xiàn)率確定主成分。
BP 神經(jīng)網(wǎng)絡(luò)是1986 年由Rumelhart 和McCelland 團(tuán)隊(duì)提出來的機(jī)器學(xué)習(xí)方法,是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò),由輸入層、隱藏層和輸出層組成。其核心思想是利用負(fù)梯度下降算法,將誤差控制在設(shè)計(jì)的范圍之內(nèi),再將誤差的變化量反向傳播到神經(jīng)網(wǎng)絡(luò)的每一層,進(jìn)而調(diào)整每一層神經(jīng)網(wǎng)絡(luò)的參數(shù)值,通過多次迭代之后,誤差就會(huì)穩(wěn)定在一定的范圍內(nèi)[21,22],使最終輸出結(jié)果接近期望值。
天牛須搜索算法BAS 是在2017 年提出的一種受到生物啟發(fā)的智能優(yōu)化算法,具有搜索速度快、實(shí)施便捷、不依賴目標(biāo)函數(shù)的具體形式和梯度信息即可實(shí)現(xiàn)尋優(yōu)計(jì)算等優(yōu)點(diǎn)[23]。神經(jīng)網(wǎng)絡(luò)隨機(jī)生成初始連接權(quán)值和閾值,會(huì)對BP 神經(jīng)網(wǎng)絡(luò)的收斂速度和泛化能力產(chǎn)生影響,使用天牛須搜索算法對BP 神經(jīng)網(wǎng)絡(luò)的初始權(quán)值和閾值進(jìn)行優(yōu)化重構(gòu),可以減少BP 神經(jīng)網(wǎng)絡(luò)的運(yùn)行時(shí)間,提高收斂速度和穩(wěn)定性。其基本步驟如下[24]。
(1)建立并初始化BP 神經(jīng)網(wǎng)絡(luò),獲取網(wǎng)絡(luò)初始權(quán)值和閾值。
(2)設(shè)置初始步長和迭代次數(shù),對天牛須搜索算法進(jìn)行初始化,創(chuàng)建天牛須朝向的隨機(jī)向量且做歸一化處理,創(chuàng)建天牛左右須空間坐標(biāo)。
(3)將BP 神經(jīng)網(wǎng)絡(luò)的初始權(quán)值和閾值分別設(shè)置為天牛須的方向與初始位置。
(4)通過計(jì)算適應(yīng)度函數(shù)值判斷天牛左右兩須所感知到的氣味濃度。
(5)進(jìn)行探尋氣味、前進(jìn)操作:利用自適應(yīng)函數(shù)計(jì)算左右兩須感知的氣味濃度,如果左邊觸角感知到的氣味濃度比右邊強(qiáng),則天牛下一步向左邊前進(jìn),如果右邊觸須感知到的氣味濃度比左邊強(qiáng),則天牛下一步向右邊前進(jìn)。
(6)判斷是否達(dá)到迭代終止條件,即天牛是否找到食物,亦即輸出的權(quán)值與閾值是否為全局最優(yōu)解。若是全局最優(yōu)解則停止迭代;否則返回步驟(3)。
(7)獲得最優(yōu)權(quán)值和閾值后,將其賦值給BP 神經(jīng)網(wǎng)絡(luò),得到BAS-BP神經(jīng)網(wǎng)絡(luò)模型。
本文采用均方根誤差(Root Mean Squared Error,RMSE)、平均絕對誤差(Mean Absolute Error,MAE)、相關(guān)系數(shù)(Correlation Coefficient,R)對BP 及BAS-BP 模型的反演效果進(jìn)行評(píng)估,RMSE和MAE越小,R越大,反演效果越優(yōu)。
本文技術(shù)路線如圖1所示。首先,采用主成分分析法篩選出有效氣象觀測數(shù)據(jù)作為驅(qū)動(dòng),構(gòu)建不同深度土壤濕度BP 神經(jīng)網(wǎng)絡(luò)模型;其次,利用天牛須搜索算法對BP 神經(jīng)網(wǎng)絡(luò)模型進(jìn)行改進(jìn),構(gòu)建不同深度土壤濕度BAS-BP神經(jīng)網(wǎng)絡(luò)模型;最后,綜合利用統(tǒng)計(jì)分析指標(biāo)評(píng)估不同模型的反演效果。主成分分析方法、BP 神經(jīng)網(wǎng)絡(luò)模型、天牛須搜索算法及評(píng)估指標(biāo)介紹如下。
圖1 技術(shù)路線Fig.1 Technology route
本研究數(shù)據(jù)資料選自美國南卡羅來納州(South Carolina)的McClellanville 站(北緯33°5′20.23″,西徑79°28′2.23″)和青藏高原野外觀測站MAWORS(Muztagh Ata Westerly Observation and Research Station,慕士塔格西風(fēng)帶環(huán)境綜合觀測研究站)(北緯38°24′30.26″,東經(jīng)75°2′21.31″)的站點(diǎn)觀測數(shù)據(jù)。在McClellanville 站,選用2010年1月1日-2013年12月31日的實(shí)測數(shù)據(jù),共計(jì)4 a 的有效數(shù)據(jù)進(jìn)行訓(xùn)練與模擬。所選數(shù)據(jù)要素包括平均降雨量、相對濕度、氣溫、太陽能、紅外表面溫度、土壤溫度以及土壤濕度。將2010 年1 月1 日-2012 年12 月31日(1 096 d)的數(shù)據(jù)作為訓(xùn)練集建立模型,將2013年1月1日-2013 年12 月31 日(365 d)的數(shù)據(jù)作為測試集檢驗(yàn)?zāi)P偷姆囱菥取T贛AWORS 站,由于觀測數(shù)據(jù)資料序列缺失較多,選用2012 年1 月1 日-2016 年12 月31 日的多年日平均數(shù)據(jù)(共計(jì)365 d)進(jìn)行訓(xùn)練與模擬,所選數(shù)據(jù)包括氣象數(shù)據(jù)、地表輻射數(shù)據(jù)、EC數(shù)據(jù)、土壤溫度、土壤濕度。將第1~250 d 的數(shù)據(jù)作為訓(xùn)練集建立模型,第251~365 d 的數(shù)據(jù)作為測試集檢驗(yàn)?zāi)P偷姆囱菥?。各站的?shù)據(jù)資料如表1所示,各要素時(shí)間序列如圖2所示。
表1 McClellanville和MAWORS站數(shù)據(jù)資料Tab.1 McClellanville and MAWORS station data information
圖2 研究數(shù)據(jù)時(shí)間序列Fig.2 Time series of the hydroclimate variables
通過MATLAB 中的pca 函數(shù)和wmspca 函數(shù),計(jì)算各項(xiàng)特征因子與所選因子之間的相關(guān)性進(jìn)而選取不同深度土壤濕度的主成分(表2)。在反演不同深度土壤濕度時(shí),使用表中相應(yīng)的主成分作為輸入數(shù)據(jù),對應(yīng)的土壤濕度作為輸出數(shù)據(jù),分別利用BP 神經(jīng)網(wǎng)絡(luò)和BAS-BP 神經(jīng)網(wǎng)絡(luò)建立反演模型。根據(jù)不同土壤深度對應(yīng)的主成分計(jì)算得到BP 和BAS-BP 模型對McClellanville 站和MAWORS 站訓(xùn)練集和測試集不同深度土壤濕度的反演值與觀測值的RMSE、MAE及R如表3所示。
表2 McClellanville站與MAWORS站主成分分析結(jié)果Tab.2 Results of principal component analysis for McClellanville and MAWORS stations
表3 BP、BAS-BP模型對各站各層土壤濕度反演的均方根誤差(RMSE)、平均絕對誤差(MAE)及相關(guān)系數(shù)(R)Tab.3 The RMSE, MAE, and R of BP and BAS-BP models for the inversion of soil moisture in each layer at each station
2.2.1 訓(xùn)練集與測試集對比分析
由表3可知,BP和BAS-BP模型對各站訓(xùn)練集的不同深度土壤濕度的反演效果較好,證實(shí)構(gòu)建的BP 和BAS-BP 模型適應(yīng)于各站不同深度土壤濕度的反演。其中,在McClellanville站,各模型反演的各層土壤濕度的RMSE范圍為0.005~0.039 m3/m3,MAE范圍為0.004~0.025 m3/m3,R范圍為0.948~0.997;在MAROWS 站,各模型反演的各層土壤濕度的RMSE范圍為0.010~0.092 m3/m3,MAE范圍為0.007~0.165 m3/m3,R范圍為0.830~0.942。
McClellanville 站各模型反演的各層土壤濕度的RMSE范圍為0.015~0.191 m3/m3,MAE范圍為0.010~0.115 m3/m3,R范圍為0.625~0.994;在MAROWS 站,各模型反演的各層土壤濕度的RMSE范圍為0.014~0.181 m3/m3,MAE范圍為0.010~0.177 m3/m3,R范圍為0.390~0.903。通過對比分析,BP 和BAS-BP模型對各站訓(xùn)練集不同深度土壤濕度的反演效果均優(yōu)于測試集,主要體現(xiàn)在訓(xùn)練集各模型反演的各站不同深度土壤濕度的RMSE和MAE均略低于相同深度的測試集,而R均略高于相同深度的測試集。
2.2.2 不同深度土壤濕度反演結(jié)果對比
通過對比分析,在測試集,BP 和BAS-BP 模型對各站不同深度土壤濕度的反演效果在表層(SM5、SM10) 及中層(SM20、SM40、SM50)較優(yōu)且均在表層SM10達(dá)到最佳,而隨著土壤深度的增加(SM80、SM100、SM160),各模型對各站深層土壤濕度的模擬能力呈減弱趨勢。主要體現(xiàn)在各站各模型在SM10處的RMSE與MAE量值較其余土壤深度最低,而R最高。隨著土壤深度的增加,反演的表層土壤濕度的RMSE和MAE低于深層土壤,而R高于深層土壤。例如,在McClellanville站,BAS-BP 模型在SM5和SM10的RMSE和MAE分別為0.018 m3/m3、0.012 m3/m3和0.015 m3/m3、0.010 m3/m3,而R分別為0.978、0.994。隨著土壤深度的增加,BAS-BP 模型的反演效果逐漸減弱,在SM20、SM50及SM100的RMSE增加至0.019 m3/m3、 0.026 m3/m3、 0.107 m3/m3,MAE增加至0.013 m3/m3、0.019 m3/m3、0.082 m3/m3,R下降為0.975、0.954、0.776。BP模型對McClellanville 站測試集的反演效果與此一致。在MAWORS 站,BP 模型在SM10和SM20的RMSE和MAE分別為0.016 m3/m3、0.012 m3/m3和0.016 m3/m3、0.016 m3/m3,而R分別為0.879、0.561。隨著土壤深度的增加,BAS-BP 模型的反演效果逐漸減弱,在SM20、SM50及SM100的RMSE增加至0.025 m3/m3、0.053 m3/m3、0.181 m3/m3,MAE增加至0.026 m3/m3、0.038 m3/m3、0.177 m3/m3,R下降為0.530、0.403、0.390。BAS-BP模型對MAWORS站測試集的反演效果與此一致。
2.2.3 BP與BAS-BP模型反演精度對比分析
綜合統(tǒng)計(jì)分析指標(biāo)(表3)及對比圖(圖3)和離差圖(圖4),BAS-BP 模型對各站各層土壤濕度的反演效果均優(yōu)于同一土壤深度的BP 模型。在測試集,BAS-BP 模型在各站反演的各層土壤濕度的RMSE與MAE均低于BP 模型,而R均高于BP模型。例如,在MAWORS站,BP與BAS-BP模型在SM10處的RMSE和MAE分別為0.016 m3/m3、0.014 m3/m3和0.012 m3/m3、0.010 m3/m3,R分別為0.879、0.903。在SM160處的RMSE和MAE分別為0.181、0.143 和0.177、0.131,R分別為0.390、0.504。此外,BAS-BP模型對各站不同深度土壤濕度發(fā)反演值與觀測值時(shí)間序列擬合性更好(圖3),偏差較?。▓D4)。以上結(jié)果表明,通過天牛須搜索算法優(yōu)化的BP 模型有效提高了表層至深層土壤濕度的反演能力,BAS-BP 模型穩(wěn)定性與適配性更優(yōu)。
圖3 基于BAS-BP模型、BP模型反演不同深度土壤濕度與觀測值對比圖Fig.3 Comparison of soil moisture at different depths with observed values based on BAS-BP model and BP model inversion
目前,土壤濕度反演常用的機(jī)器學(xué)習(xí)方法有BP 神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林(Random Forest,RF)、支持向量機(jī)(Support Vector Machine, SVM)、 極限學(xué)習(xí)機(jī)(Extreme LearningMachine, ELM)、廣義回歸神經(jīng)網(wǎng)絡(luò)(Generalized Regression Neural Network,GRNN)[26-28]等。相較于BP 神經(jīng)網(wǎng)絡(luò)、GRNN、ELM 和SVM 模型,RF 模型在土壤濕度反演中的穩(wěn)定性更好,精度更高[29-32]。然而,原始機(jī)器學(xué)習(xí)模型的預(yù)測效果易受外界影響。越來越多的研究聚焦于模型參數(shù)的優(yōu)化,例如,利用遺傳算法(Genetic Algorithm, GA)、粒子群算法(Particle Swarm Optimization, PSO)、 蟻群算法(Ant Colony Algorithm, ACA)、天牛須搜索算法、二次移動(dòng)平均法(Double Moving Average, DMA)、 變分模態(tài)分解(Variational Mode Decomposition,VMD)、灰狼優(yōu)化算法(Grey Wolf Optimizer,GWO)算法等對機(jī)器學(xué)習(xí)模型進(jìn)行優(yōu)化重構(gòu)[33-35],優(yōu)化后的模型能克服原始模型的缺點(diǎn),具有更強(qiáng)的穩(wěn)定性和擬合能力,可以大幅提高模型計(jì)算精度。在眾多優(yōu)化機(jī)器學(xué)習(xí)的算法中,BAS具有原理簡單、參數(shù)少、計(jì)算量少等優(yōu)點(diǎn),現(xiàn)有研究[7,8,36]表明基于BAS 優(yōu)化的機(jī)器學(xué)習(xí)模型的計(jì)算精度和穩(wěn)定性均優(yōu)于GA、PSO 等算法。然而,將BAS-BP 神經(jīng)網(wǎng)絡(luò)模型用于土壤濕度反演的研究鮮有報(bào)道。因而,本文嘗試使用BAS 算法對BP 神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,構(gòu)建BAS-BP 神經(jīng)網(wǎng)絡(luò)模型,驗(yàn)證其在不同深度土壤濕度反演中的效能。研究結(jié)果表明,基于BAS-BP 神經(jīng)網(wǎng)絡(luò)模型顯著提高了BP 神經(jīng)網(wǎng)絡(luò)模型在表層至深層土壤濕度的反演能力。
由于土壤中各種物理過程的熱力和水力結(jié)構(gòu)特性,使得土壤過程相較于大氣的變化更為緩慢,從而使得土壤濕度具有一定“記憶性”。趙家臻等[25]利用中國氣象局國家氣象信息數(shù)據(jù),通過比較皮爾遜相關(guān)法和自相關(guān)法計(jì)算,量化了土壤濕度的記憶能力,結(jié)果顯示隨著土壤深度的增加,土壤濕度的記憶性也顯著增強(qiáng)。表層土壤濕度受到大氣的影響最為直接,土壤記憶性較短,使用機(jī)器學(xué)習(xí)方法反演得到的土壤濕度精度較高。隨著土層向下延伸,土壤濕度的記憶性增強(qiáng),其變化過程相較于大氣變化更加緩慢,反演得到的土壤濕度精度隨之下降。因此,兩個(gè)站均在表層土壤10 cm 處土壤濕度的反演效果最佳,隨著土壤濕度的增加,反演精度逐漸下降,在深層土壤100 cm以及160 cm處反演精度最差。
通過對比分析,McClellanville 站的反演效果更佳,使用BP 和BAS-BP 模型相關(guān)系數(shù)R的變化幅度分別為10.789%、5.061%,MAWORS 站使用BP 和BAS-BP 模型相關(guān)系數(shù)R的變化幅度分別為38.531%、14.624%,BP 和BAS-BP 模型對McClellanville 站各層土壤濕度的反演效果均優(yōu)于MAWORS站,這主要?dú)w因于地理?xiàng)l件及數(shù)據(jù)資料等因素。青藏高原是我國最大、海拔最高的高原,被譽(yù)為“亞洲水塔”。然而,由于環(huán)境條件惡劣、海拔高、地形復(fù)雜、地表不均等諸多因素,青藏高原的水文氣象觀測站點(diǎn)較為稀少,觀測數(shù)據(jù)有限。這些因素對機(jī)器學(xué)習(xí)模型的反演性能影響較大。
本文采用天牛須搜索算法對BP 神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,構(gòu)建BAS-BP 神經(jīng)網(wǎng)絡(luò)模型。 選用美國南卡羅來納州的McClellanville 站及青藏高原MAWORS 站水文氣象觀測數(shù)據(jù),利用主成分分析法篩選土壤濕度反演的驅(qū)動(dòng)因子作為BP 及BAS-BP模型的輸入數(shù)據(jù),分別構(gòu)建BP及BAS-BP模型,對不同深度土壤濕度進(jìn)行反演。主要結(jié)論如下:
(1)BP 及BAS-BP 模型適應(yīng)于各站點(diǎn)表層至深層土壤濕度的反演,其對訓(xùn)練集的反演效果優(yōu)于測試集。
(2)融合天牛須搜索算法優(yōu)化的BAS-BP 模型優(yōu)于BP 模型。BAS-BP 模型可以有效提高表層至深層土壤濕度的反演精度,穩(wěn)定性與適配性更優(yōu)。
(3)BP 與BAS-BP 模型均在SM10反演效果最佳。隨著土壤深度增加,反演效果減弱。在SM100和SM160,BP 與BAS-BP模型反演效果最低。在相同條件下,BAS-BP 模型始終優(yōu)于BP模型。
(4)青藏高原受到環(huán)境、海拔、地形、地表等諸多因素的影響,站點(diǎn)觀測數(shù)據(jù)質(zhì)量略有不足,BP 及BP-BAS 模型對MAWORS站各層土壤濕度的反演效果略低于McClellanville站。