陳 博,王 洋,黃 信,黃精濤
(東華理工大學水資源與環(huán)境工程學院,330013,南昌)
全國每年平均地質災害多達1.4萬起,其中滑坡災害約占災害總數(shù)的70%(國土資源部,2010—2016),造成了巨大的人命財產(chǎn)和經(jīng)濟損失,滑坡已成為中國主要的地質災害類型之一??茖W有效地評價預測滑坡的易發(fā)性,可在一定程度上降低災害帶來的損失。目前,常用的滑坡易發(fā)性評價模型包括:信息量模型、證據(jù)權模型(WEM)、層次分析法(AHP)、邏輯回歸模型(LRM)、隨機森林模型等[1-4],國外學者Wei等[5]通過LR模型和 RF 模型對比研究的方法開展滑坡危險性評價,驗證結果顯示RF模型適用度高于LR模型;Zhao等[6]運用旋轉森林(ROF)和RF模型對比開展巴東地區(qū)滑坡易發(fā)性研究,結果顯示 RF 模型精度更高;He等[7]選用RF算法對全球地震誘發(fā)的滑坡開展易發(fā)性研究,結果表明該模型適用性較好,有助于該類滑坡應急響應的研究。在國內,吳潤澤等[8]運用RF模型選取三峽庫區(qū)湖北段為研究區(qū)進行易發(fā)性研究,結果顯示研究區(qū) 3/4左右區(qū)域位于較高和高易發(fā)區(qū);楊碩等[9]選取烏江地區(qū)滑坡為研究對象,運用RF模型對其進行易發(fā)性研究,并對評價結果開展了精度驗證;管家琳等[10]運用信息量模型與RF模型對比研究龍門鎮(zhèn)北部小流域的崩崗風險,結果顯示RF模型具有較高的評估精度。一系列國內外研究表明,隨機森林模型具有很強的非線性處理能力,且在處理大數(shù)據(jù)量、高維度數(shù)據(jù)方面具有很好的泛化能力,預測精度高,適合用于地質災害易發(fā)性評價中[11],但隨機森林模型存在分類精度受不平衡數(shù)據(jù)影響和投票平局造成算法停滯的問題[12],而信息量模型可以處理數(shù)據(jù)分布不平衡的問題。
因此,本文以江西省吉安市新干縣為例,建立基于信息量-隨機森林耦合模型進行滑坡災害易發(fā)性分區(qū)評價,并通過信息量模型進行對比分析,對評價結果使用ROC曲線進行檢驗,其結果可為地方政府防災減災以及規(guī)劃建設提供科學依據(jù)。
地質災害數(shù)據(jù)來源于新干縣1/5萬地質災害詳細調查,DEM數(shù)據(jù)來源于ALOS,分辨率為5 m;高程、坡度、坡向、平面曲率通過ArcGIS表面分析獲得;工程地質巖組和道路來源于新干縣1/5萬地質災害詳細調查中的MapGIS圖件。
控制滑坡形成的因素很多,包括基礎因素和人類工程活動影響的誘發(fā)因素,因此滑坡易發(fā)性區(qū)劃是一個復雜的多元系統(tǒng)[13]。本次研究在野外調查成果的基礎上,從基礎因素和誘發(fā)因素兩個方面進行滑坡易發(fā)性評價。充分考慮新干縣自然地理特征、資料的可獲得性、研究范圍大小及研究精度等要求,在保證評價有效性的前提下,選取高程、坡向、坡度、工程地質巖組、距道路距離、平面曲率6個評價指標,作為滑坡易發(fā)性分區(qū)評價的評價指標。
1)高程。高程是坡體內應力值大小的重要影響因素,應力會隨著坡高的增加而增加,影響著坡體的勢能,從而影響坡體的穩(wěn)定性[14]。自然斜坡高程一般在50~150 m之間易發(fā)生滑坡,大于150 m易發(fā)生崩塌。
2)坡向。不同坡向與巖層傾向的空間組合關系不同,對斜坡的穩(wěn)定性有一定影響[15]。
3)坡度。坡度影響巖土體的天然應力狀態(tài),導致自然斜坡形成不同的臨空面,從而形成的地質災害也不一樣。坡度一般在10°~45°之間易發(fā)生滑坡,大于45°易發(fā)生崩塌。
4)工程地質巖組。工程地質巖組是形成地質災害的物質基礎,其決定巖土體強度、應力分布、變形破壞等特征等[16]。一般巖性質地堅硬、結構完整的巖組,產(chǎn)生滑坡的可能性??;而質地松散、結構破碎的巖組,產(chǎn)生滑坡的可能性大。
5)距道路距離。修建道路開挖坡腳、破壞坡面植被,改變斜坡應力分布容易引發(fā)崩塌和滑坡地質災害[17]。
6)平面曲率。平面曲率是等高線彎曲程度的具體量化,其反映的是斜坡在水平方向上的地形變化率,對滑坡發(fā)育具有非常重要的影響。平面曲率影響滑坡的表面形態(tài)特征,進而影響邊坡土地利用類型以及坡體結構特征。
1.3.1 信息量模型 信息量模型(IVM)是把一定地質環(huán)境下已經(jīng)發(fā)生變形破壞或可能存在變形破壞的的信息,通過統(tǒng)計分析的方法,計算各影響因素對研究對象所提供信息量大小的統(tǒng)計模型。信息量值越小,說明地質災害發(fā)生的可能性越小;反之信息量值越大,地質災害越可能發(fā)生[18]。對應某種因素特定狀態(tài)下的地質災害信息量公式可表示為:
(1)
式中:IAj→B為對應因素A在j狀態(tài)(或區(qū)間)下地質災害B發(fā)生的信息量;Nj為對應因素A在j狀態(tài)(或區(qū)間)下地質災害分布的單元數(shù);N為調查區(qū)已知有地質災害分布的單元總數(shù);Sj為因素A在j狀態(tài)(或區(qū)間)分布的單元數(shù);S為為調查區(qū)單元總數(shù)。
由于每個評價單元受眾多因素的綜合影響,各因素又存在若干狀態(tài),各狀態(tài)因素組合條件下地質災害發(fā)生的總信息量可用公式(2)確定:
(2)
式中:I為對應特定單元地質災害發(fā)生的總信息量;Ni為對應特定因素在第i狀態(tài)(或區(qū)間)條件下的地質災害面積或地質災害點數(shù);N為調查區(qū)地質災害總面積或總地質災害點數(shù);Si為對應特定因素在第i狀態(tài)(或區(qū)間)的分布面積;S為調查區(qū)總面積。
1.3.2 信息量-隨機森林耦合模型 隨機森林( RF )是由Breiman[19]首次提出機器學習中基于多個決策樹的分類智能算法。信息量-隨機森林耦合模型的總樣本由災點與非災點1:1構成,其中總樣本信息為各評價指標的信息量值,將總樣本再分為訓練集與測試集,利用訓練集生成決策樹模型,再將測試集代入決策樹模型中,得到分類結果,最后通過投票進行預測分類。由于每顆決策樹的訓練樣本及節(jié)點分裂屬性均為隨機選取,在一定程度上避免了模型的過擬合現(xiàn)象[20]。采用RF模型進行分類預測的流程見圖1。
圖1 隨機森林(RF)模型分類預測流程圖
基于信息量-隨機森林耦合模型的評價模型先計算出每個樣本的信息量值,再利用 MATLAB軟件編好的RF代碼進行訓練,得到各指標的客觀權重,再將各評價指標專題圖和MATLAB軟件得到的權重值在 ArcGIS 10.5軟件經(jīng)加權總和工具進行疊加,而信息量模型直接將各評價指標專題圖的信息量疊加,得到2個模型全區(qū)的滑坡易發(fā)性圖。采用自然間斷點法將易發(fā)性區(qū)域劃分為5個等級,分別為低易發(fā)區(qū)、較低易發(fā)區(qū)、中易發(fā)區(qū)、較高易發(fā)區(qū)、高易發(fā)區(qū)。最后采用ROC曲線進行驗證,AUC值高的模型,其預測精度更高,更適合此研究區(qū)的滑坡易發(fā)性評價。
研究區(qū)位于江西省新干縣,總面積1 245.38 km2(115°14′48″~115°43′54″E,27°30′09″~27°57′50″N),屬亞熱帶季風氣候,年平均氣溫為17.6 ℃,年平均降雨量為1 579.2 mm,最大年降雨量2 295.9 mm(2012年),屬贛江流域。研究區(qū)地形以中低山-丘陵為主,地層發(fā)育較齊全,分別為第四系松散巖組、紅色碎屑巖組、一般碎屑巖組、碳酸鹽巖組、變質巖組、巖漿巖組。研究區(qū)構造復雜。
本文通過收集影響滑坡發(fā)生的相關基礎數(shù)據(jù),最初選取高程、坡度、坡向、工程地質巖組、平面曲率、距道路距離、距斷層距離、距水系距離8個評價指標,但由于距斷層和水系近的地方滑坡不發(fā)育,而距離遠的地方滑坡反而發(fā)育。最終選取高程、坡度、坡向、工程地質巖組、平面曲率、距道路距離6個評價指標進行滑坡易發(fā)性評價。各評價指標分級圖如圖2。
圖2 各評價指標分級圖
利用 ArcGIS 10.5軟件值提取至點工具提取研究區(qū) 291個滑坡點各評價指標的屬性數(shù)據(jù),標記為“1”,接著選取與滑坡點數(shù)量相同的非滑坡點,提取291個非滑坡點各評價指標的屬性數(shù)據(jù),標記為“0”。用高程、坡度、坡向、工程地質巖組、平面曲率、距道路距離的信息量值與是否為災點(1為災點,0為非災點)構成模型的總樣本。隨機選取滑坡點及非滑坡點樣本中的70%(407個)作為訓練樣本,剩下的30%(175個)作為測試樣本。利用MATLAB軟件,將訓練樣本代入編好的代碼進行訓練,訓練之后的模型用于測試樣本,隨后調用重要性函數(shù)得到各評價指標的權重如圖3所示。
圖3 評價指標權重圖
使用 ArcGIS 10.5軟件分別將6個評價指標與滑坡點位分布圖疊加,計算各個指標類對應的滑坡數(shù)量,由公式(1)得出評價指標對應的信息量值(表1)。
表1 評價指標信息量表
在信息量模型中,信息量值反映了評價指標對滑坡發(fā)生的可能性大小,值越大則表示對滑坡發(fā)生的可能性越大,負值則表示不利于滑坡的形成[21]。由表 1可知,信息量值較大的評價指標類分別是:高程為50~150 m;坡向為南西、西和北西方向;坡度為5°~25°;工程地質巖組為紅色碎屑巖組;距道路距離為200 m以內;平面曲率為凸坡。總體來看,距道路距離對滑坡的影響最大,其次為工程地質巖組、高程、坡向、坡度,而平面曲率則是對滑坡發(fā)生影響最小的評價指標。
2.5.1 滑坡易發(fā)性評價結果 將各評價指標專題圖和MATLAB 軟件得到的權重值在 ArcGIS 10.5軟件經(jīng)柵格計算器工具進行疊加,得到全區(qū)的滑坡易發(fā)性圖。采用自然間斷點法將易發(fā)性區(qū)域劃分為5個等級,分別為低易發(fā)區(qū)、較低易發(fā)區(qū)、中易發(fā)區(qū)、較高易發(fā)區(qū)、高易發(fā)區(qū)。生成的滑坡易發(fā)性分區(qū)圖如圖4所示。
圖4 基于信息量-隨機森林模型的滑坡易發(fā)性分區(qū)圖
將表1中各評價指標分級的信息量值代入公式(2)得到各評價指標的總信息量I,借助 ArcGIS 10.5軟件計算得到該模型下的研究區(qū)滑坡的易發(fā)性圖,采用自然間斷點法將易發(fā)性區(qū)域劃分為5個等級,分別為低易發(fā)區(qū)、較低易發(fā)區(qū)、中易發(fā)區(qū)、較高易發(fā)區(qū)、高易發(fā)區(qū),等級劃分后生成滑坡易發(fā)性分區(qū)圖如圖5所示。
圖5 基于信息量模型的滑坡易發(fā)性分區(qū)圖
結合圖4和圖5可知,信息量模型得出的滑坡易發(fā)性分布趨勢與信息量-隨機森林模型預測結果大致相同,較高易發(fā)區(qū)和高易發(fā)區(qū)均呈線性分布在道路附近,影響滑坡的主控因素均為距道路距離。
2.5.2 ROC對比驗證 為對比評價信息量-隨機森林模型和信息量模型的預測精度,采用受試者特征曲線(ROC)對兩種模型的空間預測性能進行檢驗。通常用曲線與X坐標軸圍成的面積(AUC)來評價模型的預測性能,AUC值越大,其預測效果越好[22]。利用SPSS軟件繪制出兩種模型的ROC曲線圖如圖6所示。
圖6 ROC曲線
由圖6可知,信息量-隨機森林模型及信息量模型的AUC值分別為0.966和0.759,其中信息量-隨機森林模型較信息量模型的預測精度高了20.7%。
1)對評價指標分析可以得出,在信息量-隨機森林模型和信息量模型中最為顯著的評價指標都是距道路距離,其中信息量-隨機森林模型中次重要的評價指標依次為工程地質巖組和高程,而信息量模型次重要的評價指標依次為坡向、工程地質巖組和坡度。
2)信息量-隨機森林模型得出的滑坡易發(fā)性分布趨勢與信息量模型預測結果大致相同,滑坡高易發(fā)區(qū)和較高易發(fā)區(qū)呈線性分布在道路附近,影響滑坡的主控因素為距道路距離。
3)由ROC曲線可知,信息量-隨機森林模型及信息量模型的AUC值分別為0.996和0.759,其中信息量-隨機森林模型較信息量模型的預測精度高了20.7%,說明信息量-隨機森林模型更適合此研究區(qū)的滑坡易發(fā)性評價。