摘要:為開展湖北省巴東縣滑坡災(zāi)害防治,針對(duì)該區(qū)域進(jìn)行滑坡易發(fā)性評(píng)價(jià)。在分析滑坡災(zāi)害與地形地貌、基礎(chǔ)地質(zhì)、水文環(huán)境、人類工程活動(dòng)等相關(guān)因子統(tǒng)計(jì)關(guān)系的基礎(chǔ)上,采用支持向量機(jī)(SVM)、高斯樸素貝葉斯(GNB)和隨機(jī)森林(RF)3種機(jī)器學(xué)習(xí)模型對(duì)巴東縣滑坡災(zāi)害進(jìn)行易發(fā)性評(píng)價(jià),并通過ROC曲線精度分析方法對(duì)比分析3種模型的評(píng)價(jià)結(jié)果。結(jié)果表明:① RF模型滑坡易發(fā)性評(píng)價(jià)結(jié)果的精度更高,更符合巴東縣滑坡災(zāi)害實(shí)際情況;② 巴東縣滑坡極高易發(fā)區(qū)和高易發(fā)區(qū)面積約占巴東縣總面積的26.3%,中等易發(fā)性面積約占巴東縣總面積的24.5%,低易發(fā)區(qū)和極低易發(fā)區(qū)面積約占巴東縣總面積的49.2%;③ 地層巖性、水庫(kù)緩沖區(qū)、道路緩沖區(qū)、坡度、水系緩沖區(qū)、土地利用類型和斷層緩沖區(qū)是研究區(qū)中較為重要的7個(gè)因素,其中地層巖性是控制因素,水庫(kù)緩沖區(qū)和道路緩沖區(qū)是主要影響因素,因而滑坡極高、高易發(fā)區(qū)主要分布在長(zhǎng)江、清江兩岸及其支流地帶、道路兩側(cè)和切坡建房附近。研究成果可為巴東縣防災(zāi)減災(zāi)、合理規(guī)劃土地資源以及同類研究提供參考。
關(guān)鍵詞:滑坡易發(fā)性; 機(jī)器學(xué)習(xí); 支持向量機(jī); 高斯樸素貝葉斯; 隨機(jī)森林; 巴東縣; 三峽庫(kù)區(qū)
中圖法分類號(hào):P642.22;TV221.2
文獻(xiàn)標(biāo)志碼:A
DOI:10.15974/j.cnki.slsdkb.2024.11.008
文章編號(hào):1006-0081(2024)11-0048-08
0 引 言
1990年以來(lái),中外學(xué)者開展了大量滑坡易發(fā)性評(píng)價(jià)及其相關(guān)研究,這些研究主要側(cè)重于評(píng)價(jià)指標(biāo)和評(píng)價(jià)方法的選取。
目前較為常用的區(qū)域滑坡易發(fā)性評(píng)價(jià)方法主要包括知識(shí)驅(qū)動(dòng)模型和數(shù)據(jù)驅(qū)動(dòng)模型。知識(shí)驅(qū)動(dòng)模型[1]是指該研究的早期結(jié)合相關(guān)專家的實(shí)際經(jīng)驗(yàn)而形成的啟發(fā)式模型。數(shù)據(jù)驅(qū)動(dòng)模型[2]是指通過分析數(shù)據(jù),找尋數(shù)據(jù)之間的相關(guān)關(guān)系,從而對(duì)相關(guān)區(qū)域進(jìn)行滑坡易發(fā)性預(yù)測(cè)。機(jī)器學(xué)習(xí)模型是通過大量數(shù)據(jù)訓(xùn)練和算法優(yōu)化,更加準(zhǔn)確地預(yù)測(cè)滑坡發(fā)生的空間概率。Tsangaratos等[3]比較了邏輯回歸算法和樸素貝葉斯算法在滑坡易發(fā)性評(píng)估中的性能。Tien等[4]利用基于最小二乘支持向量機(jī)和人工蜂群優(yōu)化的混合智能方法,繪制了老街地區(qū)滑坡易發(fā)性圖。Lai等[5]提出了一種利用隨機(jī)森林尋找合適權(quán)重的新型權(quán)重確定方法。Nguyen等[6]提出了新的混合機(jī)器學(xué)習(xí)模型,基于粒子群優(yōu)化的自適應(yīng)神經(jīng)模糊推理系統(tǒng)、通過粒子群優(yōu)化的人工神經(jīng)網(wǎng)絡(luò)和基于最優(yōu)優(yōu)先決策樹的旋轉(zhuǎn)森林進(jìn)行滑坡空間預(yù)測(cè)。隨著計(jì)算機(jī)技術(shù)和人工智能的快速發(fā)展,數(shù)據(jù)驅(qū)動(dòng)模型得到廣大學(xué)者和工程師們的青睞;在研究和工程實(shí)踐中,模型算法對(duì)于不同地區(qū)的適用性也有所差異,因此需要比較多種機(jī)器學(xué)習(xí)模型的評(píng)價(jià)結(jié)果,尋求更適合目標(biāo)研究區(qū)的機(jī)器學(xué)習(xí)模型。
湖北省巴東縣地處三峽庫(kù)區(qū)及鄂西山區(qū),高山連綿,峽谷遍布,河流發(fā)育,地質(zhì)構(gòu)造復(fù)雜,易滑地層分布廣泛,是國(guó)內(nèi)知名的地質(zhì)災(zāi)害高易發(fā)區(qū)[7]。本文以巴東縣為研究區(qū)域,通過對(duì)多種機(jī)器學(xué)習(xí)模型的應(yīng)用對(duì)比研究,對(duì)巴東縣滑坡災(zāi)害進(jìn)行易發(fā)性建模、預(yù)測(cè)和制圖。
1 研究區(qū)概況及數(shù)據(jù)來(lái)源
1.1 研究區(qū)概況
巴東縣位于湖北省西南部,恩施土家族苗族自治州的東北部,地理位置為110°04′E~110°32′ E,30°28′N~31°28′N,見圖1。東西向橫距約10.3 km,南北向縱距約135 km,全縣總面積約3 351.6 km2。研究區(qū)地勢(shì)北西高、南東低,按成因和形態(tài)劃分為侵蝕構(gòu)造類型,其地貌形態(tài)主要為高中山、中低山、低中山,最高海拔2 977 m,最大相對(duì)高差3 031 m。地處亞熱帶季風(fēng)氣候區(qū),具有平均氣溫高、降雨充沛、四季分明、水熱條件好的特點(diǎn)。平均氣溫17.5 ℃,氣溫隨著高程增加而減小。區(qū)內(nèi)降雨具有空間和時(shí)間分布不均的特點(diǎn),多年平均降雨量1 285.9 mm;汛期集中分布在4~9月。研究區(qū)河流密集,主要水系有長(zhǎng)江干流水系和清江水系。區(qū)內(nèi)出露地層有二疊系及三疊系下統(tǒng)嘉陵江組碳酸鹽巖和三疊系中統(tǒng)巴東組碳酸鹽巖夾碎屑巖。
1.2 數(shù)據(jù)來(lái)源
本文研究使用的滑坡編錄數(shù)據(jù)截至2019年12月,來(lái)源于中國(guó)科學(xué)院資源環(huán)境科學(xué)與數(shù)據(jù)中心,為SHAPE格式?;戮庝洈?shù)據(jù)共計(jì)376個(gè)滑坡災(zāi)害點(diǎn)(圖1)?;滦畔旅Q、坐標(biāo)、發(fā)生時(shí)間、滑坡規(guī)模等。
根據(jù)巴東縣自然地理和地質(zhì)環(huán)境條件對(duì)滑坡災(zāi)害影響因素進(jìn)行分析,評(píng)價(jià)指標(biāo)的數(shù)據(jù)來(lái)源如下:① 巴東縣滑坡編錄(共計(jì)376個(gè)滑坡災(zāi)害點(diǎn));② 從30 m分辨率的數(shù)字高程模型數(shù)據(jù)中提取高程、坡度、坡向、地表切割深度、地形濕度指數(shù)、平面曲率、剖面曲率和地形起伏度;③ 1∶250 000的全國(guó)基礎(chǔ)地理數(shù)據(jù)中提取的道路、水系;④ 土地利用遙感監(jiān)測(cè)數(shù)據(jù)集的30 m土地利用數(shù)據(jù),來(lái)源于地理空間數(shù)據(jù)云;⑤ 巖性、斷層數(shù)據(jù)來(lái)源于全國(guó)地質(zhì)資料館中1∶200 000地質(zhì)圖;⑥ NDVI數(shù)據(jù)來(lái)源于地理空間數(shù)據(jù)云中的相關(guān)產(chǎn)品。
滑坡樣本點(diǎn)個(gè)數(shù)共376個(gè)。同時(shí)選擇預(yù)測(cè)精度較好且極低和低級(jí)別滑坡易發(fā)性區(qū)間面積較大的信息量模型作為初步易發(fā)性預(yù)測(cè)的基礎(chǔ),在其預(yù)測(cè)的低和極低易發(fā)性級(jí)別區(qū)域隨機(jī)選點(diǎn)作為負(fù)樣本點(diǎn),選擇的負(fù)樣本數(shù)量與正樣本一致,為376個(gè)。
本文將376個(gè)滑坡點(diǎn)正樣本與376個(gè)滑坡點(diǎn)負(fù)樣本,共752個(gè)樣本數(shù)據(jù)作為參與后續(xù)模型訓(xùn)練的對(duì)象。隨機(jī)抽取70%的樣本數(shù)據(jù)作為滑坡易發(fā)性預(yù)測(cè)模型的訓(xùn)練集,并選取30%的樣本數(shù)據(jù)作為測(cè)試集評(píng)價(jià)模型精度。
2評(píng)價(jià)技術(shù)路線及評(píng)價(jià)方法模型
2.1 評(píng)價(jià)技術(shù)路線
本次滑坡易發(fā)性評(píng)價(jià)技術(shù)路線(圖2)如下。
(1) 收集研究區(qū)自然地理及區(qū)域地質(zhì)環(huán)境條件資料,考慮不同影響因素對(duì)滑坡發(fā)育、發(fā)生的作用。
(2) 通過整理數(shù)據(jù),建立滑坡易發(fā)性評(píng)價(jià)指標(biāo)體系;再通過對(duì)各指標(biāo)進(jìn)行相關(guān)性檢驗(yàn),剔除相關(guān)性較高的指標(biāo),完善樣本空間數(shù)據(jù)集。
(3) 構(gòu)建滑坡易發(fā)性模型,得到研究區(qū)滑坡易發(fā)性區(qū)劃圖,并對(duì)3種評(píng)價(jià)模型的預(yù)測(cè)分類性能進(jìn)行對(duì)比分析,得到最終滑坡易發(fā)性區(qū)劃圖并探究評(píng)價(jià)指標(biāo)對(duì)滑坡發(fā)育的重要性排序。
2.2 機(jī)器學(xué)習(xí)模型概述
本文選取支持向量機(jī)(SVM)、高斯樸素貝葉斯(GNB)和隨機(jī)森林(RF)3種機(jī)器學(xué)習(xí)模型作為基礎(chǔ)學(xué)習(xí)器。評(píng)價(jià)指標(biāo)分級(jí)頻率比值,構(gòu)建頻率比-支持向量機(jī)、頻率比-樸素貝葉斯、頻率比-隨機(jī)森林3種耦合評(píng)價(jià)模型。
2.2.1 支持向量機(jī)模型
支持向量機(jī)模型因其可以有效解決有限樣本、非線性高維模式識(shí)別問題,被廣泛用于許多復(fù)雜的分類和回歸問題[8]。
基于統(tǒng)計(jì)方法的滑坡易發(fā)性建模時(shí),存在兩個(gè)問題:① 在經(jīng)典模型假設(shè)中通常假設(shè)數(shù)據(jù)是線性的,如果因變量和自變量之間的關(guān)系不是線性的,模型的表現(xiàn)將變得很差。② 模型過度擬合,這意味著用任意高的自由度來(lái)擬合一個(gè)模型,目的是使誤差最小化。
SVM模型中所使用的核函數(shù)可以有效解決上述誤差的影響,考慮到本文數(shù)據(jù)的實(shí)際情況,選擇徑向基函數(shù)為本文的核函數(shù)。
2.2.2 樸素貝葉斯模型
本文中高斯樸素貝葉斯算法的原理如下:假定樣本每個(gè)特征維度的條件概率均服從高斯分布,進(jìn)而再根據(jù)貝葉斯公式來(lái)計(jì)算得到新樣本在某個(gè)特征分布下其屬于各個(gè)類別的后驗(yàn)概率,最后通過極大化后驗(yàn)概率來(lái)確定樣本的所屬類別。
高斯樸素貝葉斯分類模型計(jì)算步驟:① 確定特征屬性和目標(biāo)類別;② 獲取訓(xùn)練樣本;③ 計(jì)算各類別概率Pyi;④ 分別計(jì)算各特征屬性屬于各類別的概率Pxiy。
2.2.3 隨機(jī)森林模型
隨機(jī)森林是由Breiman和Cutler提出的一種基于袋裝抽樣法(Bagging)和決策樹的集成學(xué)習(xí)算法[9]。建立隨機(jī)森林模型的步驟如下。
(1) 從所有的原始訓(xùn)練樣本中(N個(gè))隨機(jī)抽取且是抽取后又重新放回的抽取n個(gè)樣本(nlt;N)。
(2) 假設(shè)每個(gè)樣本數(shù)據(jù)都有K個(gè)特征,從所有的特征中隨機(jī)選取k(k≤K)個(gè)特征,選擇最佳分割屬性作為節(jié)點(diǎn)建立決策樹。
(3) 使用步驟1選取的訓(xùn)練子集對(duì)步驟2生成的決策樹進(jìn)行訓(xùn)練,在節(jié)點(diǎn)上的樣本特征中隨機(jī)選擇部分樣本特征,根據(jù)最小均方差的值來(lái)進(jìn)行決策樹左右子樹的劃分,遞歸建樹直到滿足終止條件。
(4) 重復(fù)上述步驟,使每棵決策樹都最大可能地成長(zhǎng),并將多棵樹組成隨機(jī)森林。
(5) 將選取的測(cè)試數(shù)據(jù)輸入到建立好的隨機(jī)森林分類模型中,通過每棵樹的決策,最終投票確認(rèn)分到哪一類中,并與已知值進(jìn)行對(duì)比,從而評(píng)價(jià)隨機(jī)森林模型的預(yù)測(cè)效果。
3 建立滑坡易發(fā)性評(píng)價(jià)體系
3.1 評(píng)價(jià)單元選擇
評(píng)價(jià)單元的選取決定了原始數(shù)據(jù)的獲取方式和評(píng)價(jià)結(jié)果的精度。目前,區(qū)域滑坡災(zāi)害易發(fā)性評(píng)價(jià)中常用評(píng)價(jià)單元有地貌單元、斜坡單元、地形單元、行政單元和柵格單元[10]。
巴東縣在1∶50 000比例尺下,大多滑坡災(zāi)害以點(diǎn)狀分布。柵格單元數(shù)據(jù)處理速度快,精度較高。研究區(qū)內(nèi)滑坡災(zāi)害規(guī)模多為中小型,考慮到研究區(qū)數(shù)據(jù)源比例尺和數(shù)據(jù)精度,本文以30 m×30 m柵格單元作為研究區(qū)的評(píng)價(jià)單元。
3.2 評(píng)價(jià)指標(biāo)選取
滑坡易發(fā)性評(píng)價(jià)常用頻率比聯(lián)接法[11]來(lái)實(shí)現(xiàn)滑坡編錄和評(píng)價(jià)指標(biāo)之間的非線性聯(lián)接。頻率比模型(frequency ratio,F(xiàn)R)是基于研究區(qū)中滑坡點(diǎn)分布和每個(gè)影響因子類別之間的關(guān)系進(jìn)行分析,并借助地理信息系統(tǒng)平臺(tái),結(jié)合空間數(shù)據(jù)進(jìn)行滑坡易發(fā)性定量評(píng)估的分析模型。FR是滑坡發(fā)生地區(qū)在整個(gè)區(qū)域內(nèi)的平均值,表示評(píng)價(jià)指標(biāo)各區(qū)間對(duì)滑坡發(fā)生的相對(duì)影響程度。FR值越大,滑坡易發(fā)性越大。頻率比的計(jì)算公式為
FR=Lj/LSj/S
式中:Lj為評(píng)價(jià)指標(biāo)在區(qū)間內(nèi)的滑坡個(gè)數(shù);L為研究區(qū)內(nèi)滑坡總個(gè)數(shù);Sj為評(píng)價(jià)指標(biāo)區(qū)間柵格面積數(shù);S為研究區(qū)柵格面積總數(shù)。FR值越大表明評(píng)價(jià)指標(biāo)所處的區(qū)間對(duì)滑坡的發(fā)育作用越大。
通過分析巴東縣的滑坡空間分布規(guī)律及形成條件,按照科學(xué)系統(tǒng)性、可操作性、代表性和主導(dǎo)性的評(píng)價(jià)因子選取規(guī)則,本文選取地形地貌因子(高程、坡度、坡向、地表切割深度、地形濕度指數(shù)、平面曲率、剖面曲率、地形起伏度)、基礎(chǔ)地質(zhì)因子(地層巖性、斷層緩沖區(qū))、水文環(huán)境條件因子(水系緩沖區(qū)、水庫(kù)緩沖區(qū)、歸一化植被指數(shù))、人類工程活動(dòng)因子(道路緩沖區(qū)、土地利用類型)等15個(gè)因子作為本次滑坡易發(fā)性評(píng)價(jià)的評(píng)價(jià)指標(biāo)。評(píng)價(jià)指標(biāo)的分級(jí)匯總?cè)绫?所示。
通過ArcGIS 10.8軟件中“多值提取至點(diǎn)”功能,將15個(gè)初始評(píng)價(jià)指標(biāo)原始屬性值提取至376個(gè)滑坡災(zāi)害點(diǎn),再通過計(jì)算每個(gè)屬性的頻率比值,并將頻率比值歸一化導(dǎo)入SPSS 18.0軟件中計(jì)算皮爾遜相關(guān)系數(shù)[12]。計(jì)算結(jié)果如圖3所示,其中X1,X2,X3,X4,X5,X6,X7,X8,X9,X10,X11,X12,X13,X14,X15分別表示評(píng)價(jià)指標(biāo)高程、坡度、坡向、地表切割深度、地形濕度指數(shù)、平面曲率、剖面曲率、地形起伏度、巖性、斷層緩沖區(qū)、水系緩沖區(qū)、水庫(kù)緩沖區(qū)、歸一化植被指數(shù)、道路緩沖區(qū)、土地利用。
當(dāng)兩個(gè)因子間的相關(guān)系數(shù)絕對(duì)值大于0.5時(shí),認(rèn)為其具有較高的相關(guān)性,小于0.3說明因子不相關(guān),大于等于0.8說明高度相關(guān)。地形濕度指數(shù)、平面曲率、剖面曲率、地形起伏度這4個(gè)因子與其他因子相關(guān)性較高,將其剔除。因此本文最終選取高程、坡度、坡向、地表切割深度、地層巖性、斷層緩沖區(qū)、水系緩沖區(qū)、水庫(kù)緩沖區(qū)、歸一化植被指數(shù)、道路緩沖區(qū)、土地利用類型11個(gè)因子作為本次滑坡易發(fā)性評(píng)價(jià)的評(píng)價(jià)指標(biāo)。
4 滑坡易發(fā)性評(píng)價(jià)
在滑坡評(píng)價(jià)指標(biāo)統(tǒng)計(jì)分析的基礎(chǔ)上,基于機(jī)器學(xué)習(xí)方法構(gòu)建滑坡易發(fā)性模型。通過支持向量機(jī)、樸素貝葉斯、隨機(jī)森林3種機(jī)器學(xué)習(xí)模型對(duì)研究區(qū)域進(jìn)行滑坡易發(fā)性區(qū)劃,然后對(duì)不同模型的滑坡易發(fā)性區(qū)劃結(jié)果進(jìn)行對(duì)比分析,找出適合研究區(qū)的滑坡易發(fā)性區(qū)劃圖。
(1) 以頻率比統(tǒng)計(jì)模型為聯(lián)接方法給11個(gè)評(píng)價(jià)指標(biāo)重新賦值,作為數(shù)據(jù)驅(qū)動(dòng)模型的輸入變量。把樣本空間數(shù)據(jù)集按照7∶3的比例隨機(jī)分配為訓(xùn)練集與測(cè)試集,70%訓(xùn)練數(shù)據(jù)用于模型的構(gòu)建,30%用于驗(yàn)證模型的性能。
(2) 將構(gòu)建好的訓(xùn)練與測(cè)試數(shù)據(jù)分別代入3個(gè)模型中對(duì)其進(jìn)行滑坡易發(fā)性預(yù)測(cè)。
(3) 利用訓(xùn)練后的滑坡易發(fā)性模型對(duì)整個(gè)研究區(qū)進(jìn)行滑坡易發(fā)性評(píng)價(jià),將模型預(yù)測(cè)的滑坡易發(fā)性概率分為極低、低、中等、高、極高5個(gè)易發(fā)性級(jí)別。
(4) 根據(jù)預(yù)測(cè)結(jié)果,分別通過ROC曲線、混淆矩陣等精度評(píng)價(jià)指標(biāo)對(duì)比分析各模型預(yù)測(cè)性能。
(5) 得出巴東縣滑坡易發(fā)性區(qū)劃圖,并評(píng)估分析評(píng)價(jià)因子對(duì)滑坡發(fā)育影響的重要性。
在ArcGIS 10.8環(huán)境中得到3種預(yù)測(cè)模型的滑坡易發(fā)性區(qū)劃圖,如圖4~6所示。在所生成的滑坡易發(fā)性區(qū)劃圖中,為了更加直觀地觀察及對(duì)比不同模型預(yù)測(cè)的結(jié)果,本文將所有模型預(yù)測(cè)的滑坡易發(fā)性概率值分為5類,分別為極低易發(fā)區(qū)、低易發(fā)區(qū)、中等易發(fā)區(qū)、高易發(fā)區(qū)和極高易發(fā)區(qū),相應(yīng)概率區(qū)間分別為[0,0.2),[0.2,0.4),[0.4,0.6),[0.6,0.8),[0.8,1)。
從易發(fā)性與影響因子關(guān)系分析,3種模型所得的滑坡易發(fā)性分區(qū)具有較高的相似性。研究區(qū)極高、高易發(fā)區(qū)主要分布在長(zhǎng)江兩岸及其支流地帶、沿道路兩側(cè)和切坡建房附近,地層巖性以巴東組第二段和第三段的泥灰?guī)r、泥巖為主,說明研究區(qū)水系、人類工程活動(dòng)、巖性均對(duì)滑坡的孕育起到很大的作用。中等易發(fā)性分布在主城區(qū)東西兩側(cè)地勢(shì)較為平坦的區(qū)域,這些區(qū)域的地勢(shì)起伏度相對(duì)于狹窄河谷地區(qū)而言更平緩,受到河流侵蝕程度相對(duì)較低,同時(shí)擁有相對(duì)較高的植被覆蓋率,土層穩(wěn)定性比較好。極低和低易發(fā)區(qū)分布在受人類工程活動(dòng)影響小的區(qū)域和海拔高于939 m的區(qū)域,因?yàn)楹0屋^高的區(qū)域河流較少,不利于滑坡的發(fā)生。
為了更直觀對(duì)3種模型預(yù)測(cè)結(jié)果進(jìn)行對(duì)比分析,對(duì)研究區(qū)滑坡易發(fā)性的面積占比及頻率比進(jìn)行了分級(jí)統(tǒng)計(jì)。由表2可知,SVM模型預(yù)測(cè)的高易發(fā)區(qū)和極高易發(fā)區(qū)滑坡占比為65.9%,分區(qū)面積比為27.2%,頻率比為5.03;GNB模型預(yù)測(cè)的高易發(fā)區(qū)和極高易發(fā)區(qū)滑坡占比為54.6%,分區(qū)面積比為25.0%,頻率比為4.56;RF模型預(yù)測(cè)的高易發(fā)區(qū)和極高易發(fā)區(qū)滑坡占比為83.4%,分區(qū)面積比為26.3%,頻率比為7.11。RF模型能對(duì)滑坡易發(fā)性進(jìn)行精準(zhǔn)預(yù)測(cè)。
4.1 易發(fā)性評(píng)價(jià)的精度分析
為了進(jìn)行定量化的精度評(píng)價(jià),采用受試者工作特征(receiver operating characteristic,ROC)精度曲線的AUC值指標(biāo)進(jìn)行判斷。
ROC曲線是目前用于評(píng)估機(jī)器學(xué)習(xí)模型易發(fā)性預(yù)測(cè)性能最常用的方法[13]。ROC曲線下的面積(AUC值)可以作為滑坡易發(fā)性評(píng)估模型預(yù)測(cè)性能的評(píng)價(jià)指標(biāo)。如圖7所示,在ROC曲線中,曲線越接近左上角,即AUC的面積越大,其值越接近于1,表示所選模型的精度越高,預(yù)測(cè)能力越強(qiáng)。
從各模型下的滑坡易發(fā)性ROC精度曲線(圖7)可知,3種模型下的滑坡易發(fā)性評(píng)價(jià)結(jié)果均較好且都表現(xiàn)出較好的穩(wěn)定性。不同模型的AUC值:SVM模型為0.926、GNB模型為0.847、RF模型為0.949。3個(gè)模型的AUC值均大于0.8,且RF模型相比于其他模型具有更優(yōu)的預(yù)測(cè)能力。不同模型的驗(yàn)證指標(biāo)如表3所示。綜上可以看出,RF模型在巴東縣的滑坡易發(fā)性評(píng)價(jià)中表現(xiàn)良好,具有較高的精度。
4.2 滑坡評(píng)價(jià)指標(biāo)的重要性排序
滑坡易發(fā)性評(píng)價(jià)中RF模型的評(píng)價(jià)指標(biāo)重要性排序如圖8所示,地層巖性、水庫(kù)緩沖區(qū)、道路緩沖區(qū)、坡度、水系緩沖區(qū)、土地利用類型以及斷層緩沖區(qū)是研究區(qū)中較為重要的7個(gè)因素。
(1) RF模型滑坡易發(fā)性評(píng)價(jià)中,地層巖性起著控制性作用,在巴東縣易發(fā)性評(píng)價(jià)中的重要程度不可或缺。這是由于地層巖性對(duì)滑坡發(fā)育有明顯的作用,研究區(qū)內(nèi)侏羅系地層主要為軟硬相間的中厚層狀砂、泥巖互層巖組,三疊系地層主要為軟硬相間的中厚層狀碳酸鹽巖、碎屑巖巖組,二疊系主要為堅(jiān)硬、較堅(jiān)硬層狀灰?guī)r、大理巖、白云巖巖組,受區(qū)內(nèi)大型構(gòu)造帶影響。該類巖體整體破碎,力學(xué)性質(zhì)較差,利于滑坡的發(fā)生。
(2) 其次是水庫(kù)緩沖區(qū),因?yàn)槿龒{水庫(kù)蓄水與水位周期性升降,改變了滑坡的水文地質(zhì)條件,易誘發(fā)滑坡災(zāi)害。
(3) 排名第三的指標(biāo)是道路緩沖區(qū),實(shí)地勘察結(jié)果表明,巴東縣的滑坡部分是由人類工程活動(dòng)引起的。比如人工切坡、道路的修建等,這些人為破壞的山體結(jié)構(gòu)在強(qiáng)降雨的影響下易發(fā)生滑坡。土地利用類型可以適當(dāng)?shù)胤从吵鋈祟惢顒?dòng)的頻率,絕大多數(shù)歷史滑坡發(fā)生在耕地區(qū)域內(nèi),這是因?yàn)楦孛娣e與人類活動(dòng)強(qiáng)度正相關(guān)。由于人類不斷開墾荒地,往往破壞了山體斜坡原始應(yīng)力平衡,而且農(nóng)作物多為短淺根系,對(duì)坡體的“屏障”作用微弱,無(wú)法對(duì)表層土壤起牽拉加固作用,因此耕地成為孕育滑坡的搖籃。由于道路因子是導(dǎo)致滑坡發(fā)生的比較重要的人為因素,因此,在設(shè)計(jì)、修建道路時(shí)應(yīng)避開易發(fā)生滑坡的區(qū)域。
5 結(jié) 論
在分析滑坡災(zāi)害與地形地貌、基礎(chǔ)地質(zhì)、水文環(huán)境、人類工程活動(dòng)等相關(guān)因子統(tǒng)計(jì)關(guān)系的基礎(chǔ)上,本文采用3種機(jī)器學(xué)習(xí)模型對(duì)比分析,對(duì)巴東縣滑坡災(zāi)害進(jìn)行易發(fā)性評(píng)價(jià),主要結(jié)論如下。
(1) 通過ROC曲線精度分析方法,對(duì)SVM、GNB和RF等3種機(jī)器學(xué)習(xí)模型評(píng)價(jià)結(jié)果進(jìn)行比較評(píng)價(jià),發(fā)現(xiàn)RF模型滑坡易發(fā)性評(píng)價(jià)結(jié)果精度更高,更符合巴東縣滑坡災(zāi)害實(shí)際情況。
(2) 滑坡易發(fā)性評(píng)價(jià)結(jié)果表明:巴東縣滑坡極高易發(fā)區(qū)和高易發(fā)區(qū)面積約占巴東縣總面積的26.3%;中等易發(fā)性面積約占巴東縣總面積的24.5%;低易發(fā)區(qū)和極低易發(fā)區(qū)面積約占巴東縣總面積的49.2%。
(3) 滑坡易發(fā)性評(píng)價(jià)指標(biāo)重要性排序結(jié)果表明:地層巖性、水庫(kù)緩沖區(qū)、道路緩沖區(qū)、坡度、水系緩沖區(qū)、土地利用類型和斷層緩沖區(qū)是研究區(qū)中較為重要的7個(gè)因素,其中地層巖性是控制因素,水庫(kù)緩沖區(qū)和道路緩沖區(qū)是主要影響因素,滑坡極高、高易發(fā)區(qū)主要分布在長(zhǎng)江、清江兩岸及其支流地帶、道路兩側(cè)和切坡建房附近。
參考文獻(xiàn):
[1] 許沖,戴福初,姚鑫,等.GIS支持下基于層次分析法的汶川地震區(qū)滑坡易發(fā)性評(píng)價(jià)[J].巖石力學(xué)與工程學(xué)報(bào),2009,28(增2):3978-3985.
[2] 劉福臻,王靈,肖東升,等.基于模糊綜合評(píng)判法的寧南縣滑坡易發(fā)性評(píng)價(jià)[J].自然災(zāi)害學(xué)報(bào),2021,30(5):237-246.
[3] TSANGARATOS P,ILIA I.Comparison of a logistic regression and Nave Bayes classifier in landslide susceptibility assessments:the influence of models complexity and training dataset size[J].Catena,2016,145:164-179.
[4] TIEN-BUI D,TUAN T A,HOANG N D,et al.Spatial prediction of rainfall-induced landslides for the Lao Cai area (Vietnam) using a hybrid intelligent approach of least squares support vector machines inference model and artificial bee colony optimization[J].Landslides,2017,14:447-458.
[5] LAI C,CHEN X,WANG Z,et al.Rainfall-induced landslide susceptibility assessment using random forest weight at basin scale[J].Hydrology Research,2018,49(5):1363-1378.
[6] NGUYEN V V,PHAM B T,VU B T,et al.Hybrid machine learning approaches for landslide susceptibility modeling[J].Forests,2019,10(2):157.
[7] 柯凱豪.庫(kù)水位波動(dòng)對(duì)三峽庫(kù)區(qū)巴東組典型滑坡穩(wěn)定性的影響規(guī)律[D].北京:中國(guó)地質(zhì)大學(xué)(北京),2016.
[8] KAVZOGLU T,SAHIN E K,COLKESEN I.Landslide susceptibility mapping using GIS-based multi-criteria decision analysis,support vector machines,and logistic regression[J].Landslides,2014,11:425-439.
[9] BREIMAN L.Random forests[J].Machine Learning,2001,45:5-32.
[10] GUZZETTI F,CARRARA A,CARDINALI M,et al.Landslide hazard evaluation:a review of current techniques and their application in a multi-scale study,Central Italy[J].Geomorphology,1999,31(1-4):181-216.
[11] 盛明強(qiáng),劉梓軒,張曉晴,等.基于頻率比聯(lián)接法和支持向量機(jī)的滑坡易發(fā)性預(yù)測(cè)[J].科學(xué)技術(shù)與工程,2021,21(25):10620-10628.
[12] 楊帆,馮翔,阮羚,等.基于皮爾遜相關(guān)系數(shù)法的水樹枝與超低頻介損的相關(guān)性研究[J].高壓電器,2014,50(6):21-25.
[13] 羅鴻東,李瑞冬,張勃,等.基于信息量法的地質(zhì)災(zāi)害氣象風(fēng)險(xiǎn)預(yù)警模型:以甘肅省隴南地區(qū)為例[J].地學(xué)前緣,2019,26(6):289-297.
(編輯:高小雲(yún))
Vulnerability evaluation of landslide disaster in Badong County based on machine learning
JIANG Gen1,XIAO Shirong1,YANG Xuanzhe2,MA Sizhe1
(1.College of Civil Engineering amp; Architecture,China Three Gorges University,Yichang 443002,China; 2.Changjiang Three Gorges Survey Institute Co.,Ltd.,Wuhan 430070,China)
Abstract:
In order to better prevent and control the landslide in Badong County of Hubei Province,we conducted a susceptibility assessment for landslides in this area.Based on the analysis of the statistical relationship between landslide disasters and related factors such as topography,basic geology,hydrological environment,and engineering activities,three machine learning models of Support Vector Machine (SVM),Gaussian Naive Bayes (GNB),and Random Forest (RF),were employed to assess the susceptibility of landslide disasters in Badong County.The evaluation results of the three models were compared and analyzed by using the ROC curve accuracy analysis method.The results showed that:① The RF model has a higher accuracy in evaluating landslide susceptibility,which was more in line with the actual situation of landslide disasters in Badong County.② The area of extremely high and high landslide susceptibility in Badong County accounted for about 26.3% of the county′s total area,the moderate susceptibility area accounted for about 24.5%,and the low and extremely low susceptibility areas accounted for about 49.2% of the county′s total area.③ Lithology,reservoir buffer zones,road buffer zones,slope,river buffer zones,land use types and fault buffer zones were the seven most important factors in the study area,among which,lithology was the controlling factor,and reservoir buffer zones and road buffer zones were the main influencing factors.Therefore,the areas of extremely high and high landslide susceptibility were mainly distributed along the banks of Yangtze River and Qingjiang River and their tributaries,alongside roads,and near areas where slopes were cut for housing construction.The research findings can provide references for disaster prevention and reduction,reasonable planning of land resources in Badong County and similar studies.
Key words:
landslide susceptibility; machine learning; Support Vector Machine; Gaussian Naive Bayes; Random Forest; Badong County; Three Gorges Reservoir area