李子軒,杜 鵑,徐 偉
(1.北京師范大學(xué) 地理科學(xué)學(xué)部 環(huán)境演變與自然災(zāi)害教育部重點(diǎn)實(shí)驗(yàn)室,北京 100875;2.北京師范大學(xué) 地表過(guò)程與資源生態(tài)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京100875;3.應(yīng)急管理部-教育部 減災(zāi)與應(yīng)急管理研究院,北京 100875)
現(xiàn)有降雨—滑坡災(zāi)害鏈的研究主要集中在兩方面:第一個(gè)是誘發(fā)滑坡的降雨閾值[1-4],包括降雨誘發(fā)滑坡的閾值形式,不同的研究區(qū)的閾值曲線特點(diǎn),以及加入閾值曲線的新的變量等;第二個(gè)是降雨滑坡敏感性(易發(fā)性)評(píng)估,采用不同的方法如邏輯回歸模型、隨機(jī)森林模型等實(shí)現(xiàn)降雨滑坡敏感性分布圖的繪制[5-9]。而關(guān)于滑坡的社會(huì)經(jīng)濟(jì)影響方面的現(xiàn)有研究仍然很少[10-11]。一般來(lái)說(shuō),由于數(shù)據(jù)缺乏,大多數(shù)關(guān)于滑坡的社會(huì)經(jīng)濟(jì)影響評(píng)估是有限的[12],并且在量化方法上呈現(xiàn)一定的復(fù)雜性[10]。如ZHANG等[13]利用動(dòng)態(tài)投入產(chǎn)出模型和重力模型評(píng)估公路沿線滑坡導(dǎo)致的間接經(jīng)濟(jì)損失;ZUMPANO等[14]以農(nóng)村土地為研究對(duì)象基于山體滑坡事件估計(jì)了歷史和未來(lái)的經(jīng)濟(jì)損失。但針對(duì)降雨—滑坡災(zāi)害鏈致災(zāi)與成害過(guò)程聯(lián)系,即脆弱性研究仍較為缺乏。在滑坡脆弱性研究中,往往難以對(duì)致災(zāi)因子的具體強(qiáng)度進(jìn)行表征,因此研究者更多的關(guān)注社會(huì)脆弱性,即通過(guò)影響災(zāi)害損失的社會(huì)經(jīng)濟(jì)多方面因素進(jìn)行脆弱性評(píng)估。如SAHA等[15]采用深度學(xué)習(xí)算法結(jié)合災(zāi)害脆弱性影響要素的空間分布,評(píng)估了不丹的滑坡脆弱性。本研究以貴州省畢節(jié)和六盤(pán)水兩市的降雨—滑坡災(zāi)害鏈?zhǔn)录槔?,利用機(jī)器學(xué)習(xí)方法建立降雨—滑坡災(zāi)害鏈直接經(jīng)濟(jì)損失脆弱性的定量評(píng)估模型,以期為降雨—滑坡災(zāi)害風(fēng)險(xiǎn)評(píng)估提供關(guān)鍵參數(shù),也為風(fēng)險(xiǎn)管理實(shí)踐提供參考。
本文以貴州省畢節(jié)、六盤(pán)水兩市作為研究區(qū)進(jìn)行降雨—滑坡災(zāi)害鏈直接經(jīng)濟(jì)損失脆弱性定量評(píng)估。兩市地處貴州省西部云貴高原一、二級(jí)臺(tái)階地區(qū)斜坡地帶,地形地勢(shì)復(fù)雜;同時(shí)位于亞熱帶季風(fēng)區(qū),全年濕潤(rùn),降水較多,時(shí)有強(qiáng)降水發(fā)生。兩市滑坡災(zāi)害發(fā)生頻繁,尤其是在降水密集的6—8月份。根據(jù)畢節(jié)市自然資源和規(guī)劃委(https://www.bijie.gov.cn/bm/bjszrzyhghj)和六盤(pán)水市自然資源局(http://zrzyj.gzlps.gov.cn)統(tǒng)計(jì),至2021年年末,兩市共有具有變形跡象的地質(zhì)災(zāi)害隱患點(diǎn)2 171處,占貴州全省的21.66%。其中滑坡隱患點(diǎn)950處,占貴州全省的19.62%(圖1)。
圖1 研究區(qū)與滑坡編目數(shù)據(jù)位置示意圖(基于貴州省自然資源廳標(biāo)準(zhǔn)地圖服務(wù)網(wǎng)站審圖號(hào)為黔S(2022)005號(hào)的標(biāo)準(zhǔn)地圖制作,底圖無(wú)修改)
本文所使用的數(shù)據(jù)如表1所示。基于災(zāi)害系統(tǒng)的功能體系,本文從致災(zāi)因子危險(xiǎn)性、孕災(zāi)環(huán)境敏感性以及承災(zāi)體暴露三個(gè)維度,選取可能影響研究區(qū)暴雨—滑坡直接經(jīng)濟(jì)損失脆弱性的因子,共3個(gè)類(lèi)別9個(gè)變量。
(1)致災(zāi)因子指標(biāo)。降雨強(qiáng)度指標(biāo)直接影響著滑坡發(fā)生的可能性以及影響強(qiáng)度。本文選取降雨持續(xù)時(shí)間(D)、累積有效降雨量(CR)作為致災(zāi)因子指標(biāo)。其中CR考慮了距離災(zāi)害發(fā)生時(shí)間點(diǎn)不同時(shí)間長(zhǎng)度內(nèi)的降雨可能對(duì)滑坡發(fā)生的貢獻(xiàn)不同,計(jì)算公式為[16]:
(1)
式中:CR為累積有效降雨量,i為前期降雨的n個(gè)時(shí)段,Ri表示每個(gè)時(shí)段內(nèi)的降水量,α為經(jīng)驗(yàn)降雨系數(shù),取0.8。
(2)孕災(zāi)環(huán)境指標(biāo)。不同地形地貌、植被覆蓋、水文條件、以及人類(lèi)活動(dòng)因素都可能對(duì)滑坡的發(fā)生產(chǎn)生不同的影響。本文選取高程(DEM)、NDVI、距水系距離(DS)和距道路距離(DR)作為脆弱性模型的孕災(zāi)環(huán)境指標(biāo)。
(3)承災(zāi)體指標(biāo)。通常,在人口和財(cái)富集中的地區(qū),災(zāi)害可能導(dǎo)致的直接經(jīng)濟(jì)損失也會(huì)相對(duì)較高。本文采用GDP和人口密度(PP)作為脆弱性模型的承災(zāi)體指標(biāo)。
在得到各指標(biāo)原始數(shù)據(jù)之后,將歷史暴雨—滑坡點(diǎn)分布與各指標(biāo)空間分布圖疊加,提取災(zāi)害點(diǎn)各指標(biāo)的屬性值,共同構(gòu)成降雨—滑坡災(zāi)害鏈直經(jīng)濟(jì)損失脆弱性評(píng)估的數(shù)據(jù)清單。其中直接經(jīng)濟(jì)損失折算為2015年基準(zhǔn)價(jià)。
考慮到影響直接經(jīng)濟(jì)損失脆弱性的要素是多方面的,且不存在明顯的線性關(guān)系。為更好地建立致災(zāi)因子強(qiáng)度—損失的關(guān)系,本文在脆弱性模型的選取中選擇基于決策樹(shù)算法的隨機(jī)森林、XGBoost機(jī)器學(xué)習(xí)算法進(jìn)行定量評(píng)估,并進(jìn)行評(píng)估效果的對(duì)比分析。
(1)決策樹(shù)算法(Decision Tree,DT)。決策樹(shù)算法本質(zhì)上是一個(gè)樹(shù)形結(jié)構(gòu)的算法,樹(shù)的節(jié)點(diǎn)代表對(duì)輸入因子要素的判斷,樹(shù)的分叉則代表對(duì)每一個(gè)判斷結(jié)果進(jìn)行的輸出,通過(guò)多次的輸出過(guò)程得到了最后的葉節(jié)點(diǎn)則代表了模型最后輸出的結(jié)果。
決策樹(shù)算法常用于分類(lèi)問(wèn)題與回歸問(wèn)題。當(dāng)目標(biāo)問(wèn)題為回歸問(wèn)題時(shí),主要指CART回歸樹(shù)算法,其核心步驟為:
(2)
式中:yi為輸入樣本點(diǎn)的值,c1和c2分別為兩組樣本的輸出均值。式(2)表示在建立回歸樹(shù)時(shí),對(duì)于任意用于劃分的樣本特征A,對(duì)應(yīng)的任意的劃分點(diǎn)s兩邊劃分成的數(shù)據(jù)集D1和D2,求出一個(gè)使得D1和D2各自所對(duì)應(yīng)的均方差最小,同時(shí)兩者均方差之和最小所對(duì)應(yīng)的特征和特征值劃分點(diǎn)。通過(guò)輸入災(zāi)害損失脆弱性的影響因素作為回歸樣本,建立非線性回歸模型,通過(guò)影響因素的屬性值實(shí)現(xiàn)對(duì)災(zāi)害損失的預(yù)測(cè)。
(2)隨機(jī)森林模型(Random Forest,RM)。隨機(jī)森林算法是機(jī)器學(xué)習(xí)領(lǐng)域常用于分類(lèi)問(wèn)題和回歸問(wèn)題的算法之一。通過(guò)隨機(jī)森林的回歸模塊可以實(shí)現(xiàn)對(duì)災(zāi)害損失的預(yù)測(cè),從而將其使用于災(zāi)害脆弱性和風(fēng)險(xiǎn)評(píng)估中。
隨機(jī)森林算法也是基于決策樹(shù)的一種算法,不同的是,它是對(duì)多個(gè)決策樹(shù)的綜合運(yùn)用,來(lái)避免單一決策樹(shù)容易出現(xiàn)的過(guò)擬合問(wèn)題。用于回歸問(wèn)題時(shí),隨機(jī)森林由多個(gè)互不相關(guān)的回歸樹(shù)組成,且模型的最后輸出結(jié)果由每一個(gè)回歸樹(shù)來(lái)確定。
(3)極致梯度回歸模型(XGBoost)。XGBoost 是一種用于構(gòu)建監(jiān)督回歸模型的機(jī)器學(xué)習(xí)方法,屬于Boosting算法族GBDT(梯度提升決策樹(shù))算法框架下中的一種。在目標(biāo)問(wèn)題為回歸問(wèn)題時(shí),目標(biāo)函數(shù)包括梯度提升算法損失和正則化項(xiàng):
(3)
表1 研究數(shù)據(jù)
表2 脆弱性變量相關(guān)性檢驗(yàn)矩陣
在回歸問(wèn)題中常使用reg:linear作為損失函數(shù),之后使用二階泰勒展開(kāi)近似,在基于殘差的擬合條件下將目標(biāo)函數(shù)改寫(xiě),使其最小化;而正則化項(xiàng)的處理需要將寫(xiě)成樹(shù)結(jié)構(gòu)的形式,并代入目標(biāo)函數(shù),得到最終優(yōu)化之后的目標(biāo)函數(shù),即一個(gè)二次函數(shù),根據(jù)二次函數(shù)的性質(zhì)公式可以得到最優(yōu)的參數(shù)和目標(biāo)函數(shù)最小值。
XGBoost由于其正則化,并行計(jì)算、引進(jìn)特征子采樣等優(yōu)點(diǎn),在避免過(guò)擬合的同時(shí),又能減少計(jì)算,在處理災(zāi)害損失預(yù)測(cè)等多元非線性回歸問(wèn)題時(shí)有著較大的優(yōu)勢(shì)。
在進(jìn)行模型模擬之后,本文采用RMSE(均方根誤差)、MAE(平均絕對(duì)誤差)和R2(確定性系數(shù))統(tǒng)計(jì)量對(duì)模型的擬合效果進(jìn)行檢驗(yàn)。其中R2越接近1表示擬合效果越好,反之則越差;RMSE和MAE統(tǒng)計(jì)量越接近0表示模型的擬合效果越好。
在選取變量后,需要對(duì)變量的自相關(guān)性進(jìn)行檢驗(yàn),以剔除具有較強(qiáng)相關(guān)性的變量。本文采用斯皮爾曼相關(guān)系數(shù)進(jìn)行檢驗(yàn),該相關(guān)系數(shù)對(duì)數(shù)據(jù)的分布沒(méi)有要求,適用范圍廣。變量的相關(guān)性矩陣如表2所示。
基于多重共線性的考慮,不存在明顯與其它多個(gè)變量均相關(guān)的變量,因此,本文將8個(gè)指標(biāo)均納入模型中進(jìn)行計(jì)算。
在得到降雨—滑坡災(zāi)害鏈?zhǔn)录p失數(shù)據(jù)清單之后,將數(shù)據(jù)寫(xiě)入模型進(jìn)行訓(xùn)練。其中,模型的相同類(lèi)型參數(shù)應(yīng)盡可能保持一致。本文中選取70%的樣本作為訓(xùn)練集,30%的樣本作為預(yù)測(cè)集,構(gòu)建脆弱性預(yù)測(cè)模型:
Loss~f(D,CR,NDVI,DEM,DR,DS,GDP,PP)。
(4)
模型的訓(xùn)練結(jié)果如表3所示。模型訓(xùn)練結(jié)果顯示,隨機(jī)森林算法相比于決策樹(shù)算法擁有更高的精度,XGBoost算法在研究區(qū)的直接經(jīng)濟(jì)損失脆弱性評(píng)估中缺乏可靠性。
為了更直觀的展現(xiàn)模型的預(yù)測(cè)效果,使用模型測(cè)試集數(shù)據(jù)建立實(shí)際損失—預(yù)測(cè)損失曲線圖,其中y=x曲線(虛線)表示實(shí)際損失與預(yù)測(cè)損失重合線,即越靠近曲線,模型的預(yù)測(cè)效果越好。圖2展示了模擬預(yù)預(yù)測(cè)效果較好的隨機(jī)森林算法模型4(圖2a)以及決策樹(shù)算法模型1(圖2b)的實(shí)際損失與預(yù)測(cè)損失關(guān)系。
表3 不同機(jī)器學(xué)習(xí)算法得到的模型訓(xùn)練結(jié)果比較
圖2 不同模型的實(shí)際損失—預(yù)測(cè)損失曲線
表4 不同模型事件測(cè)試集中損失極值區(qū)域預(yù)測(cè)的效果實(shí)例比較
圖2的散點(diǎn)圖表明,基于測(cè)試集的損失預(yù)測(cè)結(jié)果均落在了y=x曲線的兩側(cè),但對(duì)于損失的極大值和極小值的預(yù)測(cè)效果較差,損失的中位數(shù)附近預(yù)測(cè)結(jié)果較好。一方面,損失的極值本身就是相對(duì)小概率的事件;另一方面,已有的數(shù)據(jù)量條數(shù)較少限制了模型對(duì)于損失極值的預(yù)測(cè)效果。從散點(diǎn)圖的比較來(lái)看,決策樹(shù)算法的預(yù)測(cè)趨勢(shì)更接近于參照線y=x,總體預(yù)測(cè)效果要好,隨機(jī)森林方法雖然統(tǒng)計(jì)檢驗(yàn)量表現(xiàn)較好,但在實(shí)際預(yù)測(cè)中偏離值仍然相對(duì)較大(表4)。
雖然基于機(jī)器學(xué)習(xí)算法的模型無(wú)法提供顯性關(guān)系的表達(dá)式,但可以通過(guò)對(duì)回歸分析中變量重要性的計(jì)算來(lái)比較不同影響因素之間的重要性關(guān)系。圖3是決策樹(shù)算法和隨機(jī)森林算法的變量重要性結(jié)果。
圖3 不同模型的變量重要性結(jié)果
兩類(lèi)模型前四個(gè)重要解釋變量總解釋率均超過(guò)80%,但不同模型對(duì)變量重要性的識(shí)別不同。決策樹(shù)模型前四重要的解釋變量為NDVI、GDP、高程以及距河流距離,而隨機(jī)森林模型中累積有效降雨量(CR)是最為重要的變量,單一變量解釋率達(dá)到0.51,距道路距離(DR)變量次之,重要性只有0.15。人口密度因素(PP)在兩個(gè)模型中得到的變量重要性均低于0.05。根據(jù)變量重要性結(jié)果的分析,不同模型對(duì)于變量的識(shí)別也存在不同的結(jié)果。決策樹(shù)算法采用的是單一的樹(shù)狀結(jié)構(gòu)對(duì)應(yīng)特征要素進(jìn)行回歸結(jié)果的輸出,而隨機(jī)森林模型是隨機(jī)選取同時(shí)訓(xùn)練多棵決策樹(shù)的集成學(xué)習(xí)算法,相比決策樹(shù)算法來(lái)說(shuō)對(duì)非平衡和內(nèi)部偏差比較大的數(shù)據(jù)有更好的效果,在特征采樣過(guò)程中也更為復(fù)雜。因此決策樹(shù)與隨機(jī)森林輸出的變量重要性也不同,相比較而言,隨機(jī)森林方法能夠更好地反應(yīng)不同變量對(duì)于最終損失值的貢獻(xiàn)程度。
對(duì)于數(shù)據(jù)相對(duì)較為不平衡的災(zāi)害損失數(shù)據(jù)來(lái)說(shuō),隨機(jī)森林方法往往具有更好的效果。因此在應(yīng)用脆弱性評(píng)估模型對(duì)區(qū)域脆弱性評(píng)估時(shí),考慮區(qū)域的自然環(huán)境和社會(huì)條件特征也較為重要,進(jìn)行多模型的比較,更有助于選取最適合目標(biāo)評(píng)估區(qū)域的模型。
本文通過(guò)對(duì)貴州省畢節(jié)、六盤(pán)水兩市的降雨—滑坡災(zāi)害鏈?zhǔn)录姆治?,基于決策樹(shù)、隨機(jī)森林和XGBoost機(jī)器學(xué)習(xí)算法,建立了定量的直接經(jīng)濟(jì)損失脆弱性評(píng)估模型。結(jié)果表明:
(1)隨機(jī)森林和決策樹(shù)方法具有相對(duì)較高的精度,最優(yōu)模型的R2分別為0.284和0.342,RMSE分別為7.92和7.59;
(2)模型均顯示出對(duì)損失極大值和極小值預(yù)測(cè)的不精確;
(3)不同的模型對(duì)脆弱性貢獻(xiàn)變量的重要性識(shí)別結(jié)果也不同。決策樹(shù)模型中脆弱性貢獻(xiàn)變量最為重要的是NDVI、GDP和高程,而隨機(jī)森林模型中則為累計(jì)有效降雨量和距道路距離。
機(jī)器學(xué)習(xí)方法已經(jīng)在災(zāi)害脆弱性評(píng)估領(lǐng)域得到使用,包括滑坡和其它災(zāi)種的研究[15,17-18],但已有的基于機(jī)器學(xué)習(xí)的脆弱性評(píng)估重點(diǎn)在區(qū)域特征的空間分布,采用基于網(wǎng)格單元的評(píng)估,更多表征的是區(qū)域脆弱性的相對(duì)大?。换蚴腔谛姓卧M(jìn)行多要素的社會(huì)脆弱性評(píng)估。本文的創(chuàng)新點(diǎn)在于,通過(guò)災(zāi)害事件點(diǎn)的社會(huì)經(jīng)濟(jì)屬性數(shù)據(jù)與損失數(shù)據(jù),建立了基于災(zāi)害事件的機(jī)器學(xué)習(xí)的降雨—滑坡脆弱性評(píng)估模型,從而實(shí)現(xiàn)了損失絕對(duì)值的評(píng)估,同時(shí)提供了可能的災(zāi)害直接經(jīng)濟(jì)損失預(yù)測(cè),從而提供更為精確的脆弱性評(píng)估。同時(shí)本文對(duì)比了多種機(jī)器學(xué)習(xí)算法,更好反映了不同算法在模型構(gòu)建中的差異。與傳統(tǒng)的致災(zāi)因子—災(zāi)情范式的脆弱性評(píng)估相比,機(jī)器學(xué)習(xí)方法擴(kuò)展了評(píng)估的范圍,納入了更多影響區(qū)域?yàn)?zāi)害損失的因素,能夠更全面的反映區(qū)域特點(diǎn);而與傳統(tǒng)的滑坡脆弱性評(píng)估相比,本文通過(guò)降水要素與滑坡導(dǎo)致的損失在模型中的結(jié)合,提出了能夠運(yùn)用于降雨—滑坡災(zāi)害鏈的脆弱性評(píng)估模型。
基于本文的研究,結(jié)合現(xiàn)有的災(zāi)害風(fēng)險(xiǎn)管理工作現(xiàn)狀,本文認(rèn)為以下內(nèi)容仍然需要在之后的研究中得到重視:
(1)目前滑坡?lián)p失數(shù)據(jù)的獲取較為困難。自然災(zāi)害的社會(huì)經(jīng)濟(jì)影響或風(fēng)險(xiǎn)評(píng)估需要翔實(shí)的損失數(shù)據(jù)作為基礎(chǔ)。在未來(lái)的研究工作中,需要重點(diǎn)關(guān)注如何建立可靠的損失數(shù)據(jù)收集和篩選機(jī)制,有關(guān)災(zāi)害管理部門(mén)也應(yīng)推進(jìn)拓寬數(shù)據(jù)獲取渠道,建立統(tǒng)一可獲取的滑坡災(zāi)害損失編目數(shù)據(jù)庫(kù)。
(2)對(duì)降雨—滑坡災(zāi)害鏈的研究現(xiàn)有的重點(diǎn)仍然在致災(zāi)過(guò)程中,關(guān)注滑坡可能導(dǎo)致的社會(huì)經(jīng)濟(jì)影響相關(guān)工作較少。本文的研究為可能的降雨—滑坡災(zāi)害鏈綜合災(zāi)害風(fēng)險(xiǎn)評(píng)估框架的構(gòu)建提供了可行的方法思路,以適應(yīng)在自然災(zāi)害影響不斷變化的大背景下災(zāi)害風(fēng)險(xiǎn)管理工作的需要。