黃智杰,沈 佳,簡文彬,樊秀峰,聶 聞
(1. 福州大學(xué) 巖土與地質(zhì)工程系,福建 福州 350108; 2. 福州大學(xué) 福建省地質(zhì)災(zāi)害重點(diǎn)實(shí)驗(yàn)室,福建 福州 350108;3. 中國科學(xué)院海西研究院泉州裝備制造研究所,福建 泉州 362200)
滑坡是一種常見的自然災(zāi)害,目前僅次于地震被列為全球第二大自然災(zāi)害,不僅對人們的生命財(cái)產(chǎn)安全造成嚴(yán)重的損害,也對自然資源、生態(tài)環(huán)境等造成嚴(yán)重的破壞[1]。對滑坡的預(yù)測一直以來都是廣大學(xué)者研究的熱點(diǎn)之一,其大致可以分為以下幾類:1)物理模型預(yù)測,即通過揭示滑坡破壞時的物理力學(xué)機(jī)制并依據(jù)相應(yīng)的知識對滑坡破壞做出預(yù)測。例如,HO等[2]在無限邊坡穩(wěn)定性分析以及飽和水位分析的基礎(chǔ)上建立了能夠預(yù)測淺層滑坡發(fā)生的物理模型;HONG等[3]通過定義無限邊坡模型上安全系數(shù)與降雨深度的關(guān)系建立了能夠從時間與空間上預(yù)測降雨型滑坡破壞的模型等。2)統(tǒng)計(jì)模型預(yù)測,即利用數(shù)理統(tǒng)計(jì)的相關(guān)知識對滑坡進(jìn)行預(yù)測。例如,盧繼強(qiáng)等[4]基于指數(shù)平滑法及回歸分析對滑坡位移進(jìn)行預(yù)測;LI等[5]通過小波分析等理論建立了非線性動態(tài)模型進(jìn)而對滑坡發(fā)生的時間進(jìn)行預(yù)測等。3)智能模型預(yù)測,即在計(jì)算機(jī)科學(xué)高速發(fā)展的背景下,研究人員逐漸將滑坡預(yù)測的重點(diǎn)轉(zhuǎn)到通過智能技術(shù)、機(jī)器學(xué)習(xí)等手段來實(shí)現(xiàn)。例如,張洪吉等[6]通過一維卷積神經(jīng)網(wǎng)絡(luò)對四川蘆山縣區(qū)域滑坡進(jìn)行危險(xiǎn)性預(yù)測和評價;胡安龍等[7]利用幾種優(yōu)化的SVM(support vector machine)支持向量機(jī)模型對湖北竹溪縣滑坡穩(wěn)定性進(jìn)行預(yù)測;溫亞楠等[8]利用遙感大數(shù)據(jù)和機(jī)器學(xué)習(xí)算法對滑坡空間進(jìn)行預(yù)測等。
在上述對滑坡的各類預(yù)測中,其中較為直觀的就是對滑坡位移進(jìn)行預(yù)測,其預(yù)測研究的核心是提升預(yù)測的準(zhǔn)確性和精確度。在已有的通過機(jī)器學(xué)習(xí)預(yù)測滑坡位移的方法中,常用的有:BP(back propagation)神經(jīng)網(wǎng)絡(luò)[9-11]、LSTM(long short-term memory)神經(jīng)網(wǎng)絡(luò)[12-14]、RNN(recurrent neural network)神經(jīng)網(wǎng)絡(luò)[15-16]、RF(random forest)隨機(jī)森林[17]等。以上方法雖然對滑坡位移的預(yù)測取得較好的效果,但對不同類型的滑坡適用性尚存在局限性,且滑坡位移預(yù)測的精度仍有提升的空間。例如對于階躍型滑坡,其位移曲線大致可分為“顯著上升段”以及“平穩(wěn)發(fā)展段”,這也給該類滑坡位移預(yù)測增添了難度[18]。目前對于階躍型滑坡位移預(yù)測方面的研究,大多數(shù)學(xué)者主要集中于三峽庫區(qū)受降雨和庫水位等因素聯(lián)合影響的滑坡,如白家包滑坡、白水河滑坡、八字門滑坡等庫區(qū)階躍型滑坡[19-23]。例如,彭令等[19]通過移動平均法將白家包滑坡位移分解為趨勢項(xiàng)和周期項(xiàng),利用多項(xiàng)式擬合及GA-SVR模型分別對兩者進(jìn)行預(yù)測;楊背背等[20]同樣將白水河滑坡位移分解為趨勢項(xiàng)和周期項(xiàng),采用LSTM模型對周期項(xiàng)位移進(jìn)行預(yù)測;周超等[21]則利用GA-SVM模型對八字門滑坡位移的周期項(xiàng)進(jìn)行預(yù)測。其中,趨勢項(xiàng)指滑坡位移中受自身地質(zhì)情況控制且代表滑坡變形主要趨勢的部分;周期項(xiàng)指滑坡位移中受庫水位、降雨等外界影響因素控制而呈現(xiàn)出周期性規(guī)律的部分。在上述的研究案例中因庫水位升降呈現(xiàn)出明顯的周期性變化、用于訓(xùn)練的數(shù)據(jù)時間跨度較長而呈現(xiàn)出更明顯的周期性,通常將滑坡位移分解為趨勢項(xiàng)和周期項(xiàng)來提升預(yù)測精度[24]。但將位移分解為周期項(xiàng)和趨勢項(xiàng)的過程中往往存在人為誤差[25],用于提取趨勢項(xiàng)的數(shù)據(jù)時間跨度的選擇也會影響著模型的預(yù)測效果[26]。此外,降雨誘發(fā)階躍型滑坡頻發(fā)于東南丘陵山地,其主要受降雨的影響而控制,降雨對位移的周期性影響沒有上述研究中明顯。因此將位移分解為趨勢項(xiàng)和周期項(xiàng)的方法對于降雨誘發(fā)階躍型滑坡的預(yù)測存在局限性。除此之外,大多數(shù)機(jī)器學(xué)習(xí)模型因在對位移不同階段訓(xùn)練時存在模型過擬合等問題,進(jìn)而影響后續(xù)位移的預(yù)測,往往對階躍型滑坡的預(yù)測效果不佳,因此需要一個新的預(yù)測模型來解決此類問題。
XGBoost模型是機(jī)器學(xué)習(xí)集成算法中的一類,在已有的滑坡位移預(yù)測研究中尚不多見。相較其余算法,因其在目標(biāo)函數(shù)中引入正則項(xiàng)以控制模型復(fù)雜程度從而防止模型過擬合等優(yōu)點(diǎn),具有更高的精確度和靈活性。因此,文中以福建省泉州市安溪縣堯山滑坡為例,在分析該滑坡機(jī)制的基礎(chǔ)上,利用建立的滑坡遠(yuǎn)程自動化監(jiān)測試驗(yàn)場數(shù)據(jù),通過Python搭建XGBoost模型,基于最大信息系數(shù)理論進(jìn)行輸入特征的篩選后,對該滑坡位移進(jìn)行預(yù)測。結(jié)果表明,XGBoost模型對于東南沿海丘陵山地由降雨誘發(fā)所致階躍型滑坡的位移預(yù)測具有很高的預(yù)測精度,且能實(shí)現(xiàn)用較短時間跨度的數(shù)據(jù)進(jìn)行訓(xùn)練并達(dá)到很好的預(yù)測效果。
滑坡地災(zāi)點(diǎn)位于福建省泉州市安溪縣堯山村境內(nèi),研究區(qū)最高海拔為957 m,最低海拔290 m,高差達(dá)650 m,為構(gòu)造侵蝕中低山地貌?;挛挥谛逼轮星安科侣刺?如圖1所示,平面上呈“長條舌狀”,后緣橫向?qū)捈s80 m,前緣寬約200 m,縱向長約350 m。其面積約5.2×104m2,體積約50×104m3,屬中型滑坡?;瑒用嫖挥诒韺颖榔路e碎石土層與殘積黏性土層交界處附近,滑動面深度約為10~13 m,后緣拉張裂縫發(fā)育。
根據(jù)前期的勘察資料,滑坡地災(zāi)點(diǎn)巖土體自上而下可分為:崩坡積碎石土、殘積黏性土、全風(fēng)化凝灰?guī)r、砂土狀強(qiáng)風(fēng)化凝灰?guī)r、碎塊狀強(qiáng)風(fēng)化凝灰?guī)r。其中,主要巖土層分布情況及力學(xué)參數(shù)見表1;主滑面工程地質(zhì)剖面圖對應(yīng)滑坡工程地質(zhì)平面圖(圖1)中的2-2′剖面,如圖2所示。
表1 主要巖土層分布及土的物理力學(xué)性質(zhì)Table 1 Distribution of main rock and soil layers and the physical and mechanical properties of soils
圖2 主滑面工程地質(zhì)剖面圖Fig. 2 Engineering geological section of the main sliding surface
滑坡地災(zāi)點(diǎn)雨量充沛,年降雨量1 500~2 000 mm,部分特別年份降雨可達(dá)2 900 mm。降雨主要集中在3~9月,其中7~9月為常見的臺風(fēng)季節(jié)。研究區(qū)滑坡呈上陡下緩地形,降雨時大部分雨水順地勢往低處排泄,地災(zāi)點(diǎn)區(qū)域匯水面積大,約為80萬m2。坡體地表水及地下水豐富,其中地下水主要以潛水的形式出現(xiàn),受大氣降水或地表水入滲補(bǔ)給。在降雨的影響下,滑坡位移呈現(xiàn)出“階躍”特點(diǎn),即雨季期間滑坡位移總體呈現(xiàn)顯著上升趨勢;少雨或干旱期間滑坡位移總體呈現(xiàn)出平穩(wěn)趨勢。
前期勘察結(jié)果表明,滑坡中部主滑面位移較大,兩側(cè)位移較小。根據(jù)滑坡變形范圍與主滑面,選取2個研究點(diǎn)進(jìn)行自動化監(jiān)測儀器的布設(shè)?;伦冃畏秶?、主滑面位置及監(jiān)測布置點(diǎn)A、B(見圖3),其中紅色實(shí)線范圍表示滑坡變形范圍,紅色虛線代表滑坡的主滑面位置。
圖3 滑坡范圍及監(jiān)測點(diǎn)示意圖Fig. 3 Diagram of the landslide area and the monitoring points
降雨誘發(fā)階躍型滑坡往往需要考慮諸如地下水位、孔隙水壓力等因素對滑坡位移的影響。因此,為探究滑坡發(fā)生時監(jiān)測點(diǎn)的地下水位、孔隙水壓力及位移指標(biāo),本試驗(yàn)場所用的主要監(jiān)測儀器見表2。其中,滲壓計(jì)用于測定地下水位的標(biāo)高,孔隙水壓力計(jì)用于測定土體的孔隙水壓力,固定測斜儀用于測定土體的深部位移。
表2 主要監(jiān)測儀器一覽表Table 2 List of the main monitoring instruments
試驗(yàn)場從2019年7月25日運(yùn)行至今,已獲得了2年多的降雨量、地下水位、孔隙水壓力、深部水平位移等監(jiān)測數(shù)據(jù),以便于對研究區(qū)滑坡進(jìn)行監(jiān)測與分析。
以監(jiān)測點(diǎn)A處2019-08-15至2020-09-15期間的日降雨量、地下水位、滑面附近深部孔隙水壓力(地下10 m)、深部水平位移(地下12 m)的監(jiān)測數(shù)據(jù)為代表(涵蓋了研究區(qū)旱季與雨季),對滑坡日降雨量、地下水位、深部孔隙水壓力這三者與深部水平位移的關(guān)系進(jìn)行探究。
研究區(qū)深部水平位移與降雨量的關(guān)系總體上呈現(xiàn)出降雨作用下滑坡位移增大(圖中實(shí)線框區(qū)域),無降雨或少雨時滑坡位移較平緩(圖中虛線框區(qū)域)的趨勢,且位移變化呈現(xiàn)出典型的“階躍”特點(diǎn),如圖4所示。其中,圖中陰影部分所示處滑坡位移在無明顯降雨時發(fā)生階躍是由于當(dāng)?shù)亻_挖盲溝所致。
圖4 研究區(qū)點(diǎn)A降雨量與地下12 m處深部水平位移關(guān)系曲線Fig. 4 Relationship curve between rainfall and horizontal displacement at a depth of 12 m below ground at point A in the study area
研究區(qū)地下水位和滑面附近深部孔隙水壓力的變化趨勢相類似,且總體來看,兩者均出現(xiàn)地下水位上升或孔隙水壓力增大時滑坡位移增大的現(xiàn)象,如圖5所示。說明地下水位上升或滑面附近深部孔隙水壓力的增大會影響滑坡的位移。相較于地下水位,滑面附近深部孔隙水壓力與位移數(shù)據(jù)之間的內(nèi)在關(guān)系更具規(guī)律性:1)如區(qū)域1所示,在孔隙水壓力由起始位置上升至第1個極大值點(diǎn)期間,滑坡位移曲線的斜率較大,位移速率較快;而后在孔隙水壓力由第1個極大值點(diǎn)下降到第1個極小值點(diǎn)期間,位移曲線斜率不斷減小,位移速率開始減緩;接著在孔隙水壓力回升至第2個極大值點(diǎn)這一階段,位移速率又有明顯增加;在孔隙水壓力由第2個極大值點(diǎn)回落至起始位置附近這一階段,位移速率又出現(xiàn)明顯減緩。該現(xiàn)象說明了:孔隙水壓力的上升往往伴隨著位移速率的增加,上升之后的回落往往伴隨著位移速率的降低。2)當(dāng)孔隙水壓力在某個值一定范圍內(nèi)上升并回落時,滑坡往往恰好發(fā)生一次階躍段位移。如區(qū)域1、2、3、4所示,在區(qū)域1內(nèi)孔隙水壓力從55 kPa附近上升回落、再上升再回落至55 kPa附近時,滑坡發(fā)生一次階躍段位移;在區(qū)域2內(nèi)孔隙水壓力由51.2 kPa上升并回落至起始孔壓附近,滑坡也發(fā)生一次階躍段位移。區(qū)域3與區(qū)域4同樣體現(xiàn)著類似規(guī)律。
圖5 研究區(qū)點(diǎn)A地下水位、深部孔隙水壓力與深部水平位移關(guān)系曲線Fig. 5 Relationship curves between groundwater level, deep pore water pressure and deep horizontal displacement at point A in the study area
孔隙水壓力波動的原因主要有以下2點(diǎn):其一,在降雨的作用下雨水經(jīng)過滑坡后緣裂縫入滲以及地表入滲,造成滑面附近孔隙水壓力發(fā)生顯著上升;其二,隨著雨停以及滑坡體地下水滲流排泄,滑面附近的孔隙水壓力會下降。一方面,孔隙水壓力會影響著滑坡的位移速率,當(dāng)孔隙水壓力上升時,滑坡的位移速率往往會隨之增加;當(dāng)孔隙水壓力回落時,滑坡的穩(wěn)定性提高,滑坡的位移速率往往會隨之減少直至趨于緩慢運(yùn)動。另一方面,滑坡的速率也會控制著孔隙水壓力的變化。當(dāng)滑坡處于加速階段時,孔隙水壓力由于土體的壓縮變形來不及消散,孔隙水壓力將會升高;當(dāng)滑坡處于減速階段或緩慢運(yùn)動階段時,孔隙水壓力將得到更有效的消散而降低。
以上分析說明了日降雨量、地下水位、深部孔隙水壓力同滑坡位移之間存在著聯(lián)系,且深部孔隙水壓力同滑坡位移之間內(nèi)在聯(lián)系的規(guī)律性更加明顯。
針對研究區(qū)滑坡位移“階躍”變化的特點(diǎn),基于前述監(jiān)測數(shù)據(jù)建立集成算法XGBoost模型,對該降雨誘發(fā)階躍型滑坡位移進(jìn)行預(yù)測。
最大信息系數(shù)(maximum information coefficient, MIC)由哈佛大學(xué)RESHEF等[27]于2014年提出,是用于衡量2個變量x和y之間關(guān)聯(lián)程度的測度。MIC測度具有2個重要的屬性:普適性和均勻性。普適性指的是MIC可表征多種函數(shù)關(guān)系,包括線性與非線性關(guān)系及其它多種函數(shù)關(guān)系;均勻性是指給定的函數(shù)關(guān)系受到相同水平的噪聲干擾時,它們的MIC值與干擾前是相近的,從而最大程度上減輕了同等水平的噪聲對用MIC值比較變量相關(guān)性時的干擾。
MIC的計(jì)算原理如下:
設(shè)變量x與變量y構(gòu)成的集合為D,其中X={xi,i=1,2,…,n},Y={yi,i=1,2,…,n},n為樣本數(shù)量。在x軸、y軸上依次劃分a個格子、b個格子,即可得到一個a×b的網(wǎng)格G,并且改變不同的a、b值可得到不同的網(wǎng)格。定義網(wǎng)格G下D的最大互信息公式為:
MI*(D,x,y)=maxI(D|G)
(1)
將所有不同劃分得到的MI值組成特征矩陣并進(jìn)行規(guī)范化,得D的特征矩陣為:
(2)
然后對特征矩陣取最大值,即得到MIC:
MIC(D)=maxxy≤B(n){M(D)x,y}
(3)
式中:B(n)為網(wǎng)格數(shù)量的上限,其值約為n的0.6次冪。
基于其屬性及優(yōu)勢,文中用最大信息系數(shù)來尋找與位移數(shù)據(jù)高度相關(guān)的監(jiān)測指標(biāo)作為XGBoost模型的輸入特征。
XGBoost算法[28]是集成學(xué)習(xí)算法中Boosting類的一個代表,其方法是將許多基礎(chǔ)模型(包括分類與回歸決策樹、線性模型)集成在一起,形成一個能力較強(qiáng)的模型,從而達(dá)到預(yù)測分類問題或回歸問題的效果。其原理為:模型會產(chǎn)生多輪迭代,且每輪迭代中會產(chǎn)生一個弱分類器。通過在上一輪分類器的殘差基礎(chǔ)上訓(xùn)練,下一輪分類器的精度將得到提高。最后,對所有弱分類器的預(yù)測結(jié)果加權(quán)求和得到最終結(jié)果。
XGBoost算法對第i個樣本的預(yù)測過程如式(4)所示:
(4)
XGBoost算法中對于回歸問題構(gòu)造平方項(xiàng)損失作為目標(biāo)函數(shù),用泰勒級數(shù)對目標(biāo)函數(shù)進(jìn)行二項(xiàng)展開以解決目標(biāo)函數(shù)優(yōu)化困難的問題,并且用梯度下降算法進(jìn)行優(yōu)化求解。XGBoost算法的目標(biāo)函數(shù)一般形式如式(5):
(5)
(6)
式中:γ、λ為模型復(fù)雜度變量;T為葉子節(jié)點(diǎn)個數(shù);ωj為葉節(jié)點(diǎn)j的權(quán)重。對式(5)目標(biāo)函數(shù)泰勒展開后求偏導(dǎo)并令其等于0,即可得到葉子節(jié)點(diǎn)j對應(yīng)的最優(yōu)解:
(7)
此時目標(biāo)函數(shù)為:
(8)
式中:Gj=∑gi,Hj=∑hi,gi和hi分別為目標(biāo)函數(shù)的一階導(dǎo)數(shù)、二階導(dǎo)數(shù)。其值越小,代表模型的結(jié)構(gòu)越好,計(jì)算的精度越高。
XGBoost模型相較于其它機(jī)器學(xué)習(xí)模型在預(yù)測階躍型滑坡位移上具有如下的優(yōu)點(diǎn):1)預(yù)測精度更高。階躍型滑坡在位移上呈現(xiàn)出“顯著上升”與“平穩(wěn)發(fā)展”階段交替變化的特點(diǎn),且大多數(shù)機(jī)器學(xué)習(xí)模型因在對位移不同階段訓(xùn)練時容易產(chǎn)生過擬合,會影響下一階段的預(yù)測精度。XGBoost模型通過在目標(biāo)函數(shù)中引入正則項(xiàng)來減少對數(shù)據(jù)的過擬合,從而改善這一問題,提升了預(yù)測的精度;2)運(yùn)行速度更快。模型支持并行化,可以利用多線程對每個事先存儲好的樣本預(yù)排序塊并行計(jì)算以尋找每個特征的最佳分割點(diǎn),從而達(dá)到運(yùn)行速度快的特點(diǎn);3)算法效率更高。模型考慮了訓(xùn)練數(shù)據(jù)為稀疏值的情形,可為缺失值指定分支的默認(rèn)方向,極大地提升算法的效率。
在滑坡監(jiān)測系統(tǒng)中,監(jiān)測點(diǎn)降雨量、地下水位、孔隙水壓力數(shù)據(jù)按照固定的頻率實(shí)時傳輸?shù)较到y(tǒng)中。由于各因素對滑坡位移的影響程度及關(guān)聯(lián)性不同,因此需要進(jìn)行特征篩選來確定與滑坡位移相關(guān)性最大的因素,以此作為滑坡位移預(yù)測的輸入特征。降雨量、地下水位、孔隙水壓力同位移數(shù)據(jù)之間存在復(fù)雜的非線性關(guān)系,且在自然狀態(tài)下監(jiān)測點(diǎn)所測數(shù)據(jù)總會受到一定的環(huán)境干擾。因MIC具有普適性和均勻性,故選用MIC來分別衡量降雨量、地下水位、孔隙水壓力與位移數(shù)據(jù)之間的相關(guān)性。
文中選取了2019-08-15~2020-09-15期間監(jiān)測點(diǎn)A的日降雨量、地下水位、深部孔隙水壓力、深部水平位移數(shù)據(jù),運(yùn)用Python分別計(jì)算了日降雨量、地下水位、深部孔隙水壓力這三者同深部水平位移數(shù)據(jù)的MIC值,計(jì)算結(jié)果見圖6。在此時間序列中,地下水位、深部孔隙水壓力同位移之間的MIC值較大,有很好的關(guān)聯(lián)程度。因深部孔隙水壓力同位移之間的MIC值最大,結(jié)合1.3節(jié)中深部孔隙水壓力與位移之間的內(nèi)在聯(lián)系,選取孔隙水壓力作為XGBoost模型中的輸入特征對位移進(jìn)行預(yù)測。
圖6 各影響因素同深部水平位移數(shù)據(jù)的散點(diǎn)圖及對應(yīng)的MIC值Fig. 6 Scatterplots of influencing factors and deep horizontal displacement and the corresponding MIC values
依據(jù)輸入特征篩選的結(jié)果,將安溪縣堯山滑坡2019-08-15至2020-09-15期間內(nèi)單日孔隙水壓力、深部水平位移作為數(shù)據(jù)集。首先將原始數(shù)據(jù)轉(zhuǎn)化為監(jiān)督學(xué)習(xí)形式,使得原有的時間序列轉(zhuǎn)化為輸入時間序列以及輸出時間序列,從而利用輸入時間序列對輸出時間序列進(jìn)行預(yù)測。其次將數(shù)據(jù)集劃分成訓(xùn)練集和測試集。具體而言,其劃分采用前向驗(yàn)證的方式,即:1)為了使模型有充足的數(shù)據(jù)進(jìn)行訓(xùn)練且保證預(yù)測序列的長度和精度,參照大多數(shù)機(jī)器學(xué)習(xí)數(shù)據(jù)集的劃分[29-31],首先對數(shù)據(jù)集按照7∶3的比例初步劃分為第一次的訓(xùn)練集、測試集;2)在模型對訓(xùn)練集進(jìn)行擬合、訓(xùn)練,得出測試集中一定數(shù)量的預(yù)測值后,會將這些預(yù)測值納入到原有訓(xùn)練集中使之成為新的訓(xùn)練集,再對新的測試集進(jìn)行一定數(shù)量的預(yù)測,以此類推。其優(yōu)點(diǎn)是充分利用測試集中的數(shù)據(jù),將其加入擬合,以便于在下一次預(yù)測中達(dá)到更好的預(yù)測效果。文中將2019-08-15至2020-05-15期間的數(shù)據(jù)作為第1次的訓(xùn)練集,2020-05-16至2020-09-15期間內(nèi)的數(shù)據(jù)作為第1次的測試集,依據(jù)上述過程,對滑坡位移進(jìn)行預(yù)測和校驗(yàn)。
經(jīng)過預(yù)測結(jié)果的比對,為取得最好的預(yù)測效果,最終模型將t-1、t-2 天的孔隙水壓力數(shù)據(jù)、位移數(shù)據(jù)作為輸入變量來預(yù)測第t天的位移量。前向驗(yàn)證中每次預(yù)測的數(shù)量為1,即:每次對原有訓(xùn)練集進(jìn)行擬合、訓(xùn)練后,得出一個新的預(yù)測值,并將其納入原有的訓(xùn)練集中成為一個新的訓(xùn)練集,繼續(xù)進(jìn)行預(yù)測。
文中利用XGBoost模型,將某一時間點(diǎn)當(dāng)天及前一天的孔隙水壓力和位移數(shù)據(jù)作為輸入特征,從而預(yù)測該時間點(diǎn)后一天的位移數(shù)據(jù)。文中采用平均絕對誤差MAE(mean absolute error)以及擬合優(yōu)度R2來評價模型的預(yù)測效果,其中MAE是預(yù)測樣本絕對誤差的平均值,可用來體現(xiàn)預(yù)測樣本的誤差程度;R2可用來檢驗(yàn)位移預(yù)測曲線和實(shí)際位移曲線之間的擬合程度。
降雨誘發(fā)階躍型滑坡滑面附近的深部水平位移呈現(xiàn)出復(fù)雜的非線性及明顯的“階躍”性,見圖4。XGBoost模型因在數(shù)據(jù)劃分時采用前向驗(yàn)證的劃分方式、在模型中引入正則項(xiàng)控制模型過擬合等優(yōu)點(diǎn),能在同等條件下相較于大多數(shù)機(jī)器學(xué)習(xí)模型實(shí)現(xiàn)更高的預(yù)測精度。為了比較XGBoost模型相較于大多數(shù)機(jī)器學(xué)習(xí)模型在預(yù)測階躍型滑坡位移上的優(yōu)勢,分別選取XGBoost模型、LSTM神經(jīng)網(wǎng)絡(luò)模型、SVM支持向量機(jī)模型以及PLS(partial least squares)偏最小二乘法模型在同等情況下對滑面附近水平位移進(jìn)行預(yù)測,其對比結(jié)果如圖7所示。圖中,通過XGBoost模型得到的預(yù)測值能很好地反映位移的變化趨勢且貼近實(shí)際值,其MAE=1.059,R2=0.994,說明利用XGBoost模型進(jìn)行降雨誘發(fā)階躍型滑坡位移預(yù)測,能實(shí)現(xiàn)很好的預(yù)測精度。
圖7 不同機(jī)器學(xué)習(xí)模型位移預(yù)測對比圖Fig. 7 Comparison of displacement prediction by different machine learning models
進(jìn)一步分析,在區(qū)域1內(nèi)XGBoost模型、LSTM模型、SVM支持向量機(jī)模型、PLS偏最小二乘法模型均能取得較好的預(yù)測效果;隨著預(yù)測天數(shù)的增加,LSTM模型、SVM支持向量機(jī)模型、PLS偏最小二乘法模型的預(yù)測誤差將逐漸增大(如圖中的區(qū)域2、3、4)。誤差增大的原因推測是3種模型在對階躍型滑坡位移不同階段訓(xùn)練時易造成局部過擬合,進(jìn)而影響下一階段的預(yù)測效果。例如,3種模型對區(qū)域1的預(yù)測效果較好,但因存在過擬合的問題,區(qū)域2的預(yù)測出現(xiàn)明顯誤差。同理,區(qū)域3和區(qū)域4也出現(xiàn)明顯誤差,且這種誤差呈持續(xù)放大的趨勢。除此之外,SVM支持向量機(jī)模型、PLS偏最小二乘法模型對位移的預(yù)測在區(qū)域3和區(qū)域4中存在明顯的波動和不穩(wěn)定性,與實(shí)際位移存在較大的偏差。
因此,XGBoost模型對降雨誘發(fā)階躍型滑坡位移的預(yù)測能充分反映滑坡自身特性和外部因素的影響。其在數(shù)據(jù)集劃分和控制模型過擬合等方面具有顯著優(yōu)勢,能用時間跨度較少的數(shù)據(jù)較高精度地預(yù)測出數(shù)月內(nèi)的滑坡變形,且其預(yù)測能力要明顯強(qiáng)于LSTM神經(jīng)網(wǎng)絡(luò)模型、SVM支持向量機(jī)模型以及PLS偏最小二乘法模型。文中所述不同機(jī)器學(xué)習(xí)模型的對比情況見表3。
表3 不同機(jī)器學(xué)習(xí)模型的對比Table 3 Comparisons of different machine learning models
文中以福建省泉州市安溪縣堯山滑坡為例,基于最大信息系數(shù)理論選定輸入特征,搭建XGBoost模型對降雨誘發(fā)階躍型滑坡位移進(jìn)行預(yù)測。模型通過采用前向驗(yàn)證方式劃分?jǐn)?shù)據(jù)集、將數(shù)據(jù)轉(zhuǎn)換成監(jiān)督學(xué)習(xí)形式、在目標(biāo)函數(shù)中引入正則項(xiàng)控制模型過擬合等,實(shí)現(xiàn)了對滑坡位移的高精度預(yù)測。最后,將其預(yù)測結(jié)果與LSTM神經(jīng)網(wǎng)絡(luò)模型、SVM支持向量機(jī)模型以及PLS偏最小二乘法模型的預(yù)測結(jié)果對比。主要結(jié)論如下:
1)最大信息系數(shù)用于衡量2個變量x和y之間的關(guān)聯(lián)程度,因其具有普適性和均勻性的特點(diǎn),適用于判斷自然狀態(tài)下滑坡各指標(biāo)之間的關(guān)聯(lián)程度,可用于預(yù)測模型中輸入特征的選擇。通過比較日降雨量、地下水位、深部孔隙水壓力這三者數(shù)據(jù)與滑面附近深部水平位移數(shù)據(jù)的MIC值,選定深部孔隙水壓力作為位移預(yù)測模型的輸入特征之一。
2)XGBoost模型因其在目標(biāo)函數(shù)中引入正則項(xiàng)控制模型的過擬合、采用前向驗(yàn)證方式劃分?jǐn)?shù)據(jù)集等優(yōu)點(diǎn),相較于大多數(shù)機(jī)器學(xué)習(xí)模型能更加精確地預(yù)測出滑坡的位移。文中用LSTM神經(jīng)網(wǎng)絡(luò)模型、SVM支持向量機(jī)模型以及PLS偏最小二乘法模型的預(yù)測效果與XGBoost模型進(jìn)行對比,結(jié)果表明XGBoost模型預(yù)測效果較其余模型有很大提升,預(yù)測精度更高、預(yù)測效果更加穩(wěn)定。
3)文中建立的模型通過對監(jiān)測數(shù)據(jù)的分析,充分考慮了降雨誘發(fā)階躍型滑坡的機(jī)制,具有明確的物理意義。其能較好地對東南丘陵山地降雨誘發(fā)階躍型滑坡的位移進(jìn)行預(yù)測,并對此類滑坡早期監(jiān)測預(yù)警具有重要的參考意義。