林琴,郭永剛,吳升杰,臧燁祺,王國聞
(西藏農(nóng)牧學(xué)院水利土木工程學(xué)院,西藏 林芝 860000)
雅魯藏布江與尼洋河位于青藏高原東南部,盆地內(nèi)山脈縱橫起伏,形成大量沖溝、峽谷和河流。內(nèi)部動(dòng)力作用非?;钴S,地殼中初始高壓應(yīng)力釋放,盆地巖石結(jié)構(gòu)松弛。崩塌、滑坡和泥石流等自然災(zāi)害頻繁發(fā)生(蘇立彬,2020;武辰爽,2021)?;率亲匀缓腿祟惢顒?dòng)引起的對(duì)土壤的破壞(Taalab et al.,2018)。它是一種以大量巖石、碎屑或泥土向坡面移動(dòng)為特征的自然災(zāi)害。無論是由自然還是人類活動(dòng)造成的滑坡,每年都會(huì)造成重大的經(jīng)濟(jì)損失(Tien et al.,2018)。因此,利用高效穩(wěn)定的滑坡災(zāi)害評(píng)估技術(shù),針對(duì)滑坡易發(fā)區(qū),快速準(zhǔn)確地識(shí)別高易發(fā)區(qū)的災(zāi)害,預(yù)測滑坡災(zāi)害的發(fā)生,可以有效地提高災(zāi)害預(yù)測的效率,減少滑坡災(zāi)害造成的損失,為防災(zāi)減災(zāi)提供參考(張琪等,2023;周硼焜等,2023)。
滑坡易發(fā)性劃區(qū)是通過滑坡發(fā)生后的影響因子屬性來預(yù)測滑坡發(fā)生的概率,是滑坡預(yù)測的有效方法(沈玲玲等,2016;孟曉捷等,2022)。滑坡易發(fā)性評(píng)價(jià)通常采用傳統(tǒng)的定性方法和定量方法(賈俊等,2023)。定性方法依賴于專家在歷史資料和滑坡清單的經(jīng)驗(yàn)和意見,如加權(quán)線性組合與層次分析法(Rehman et al.,2022),但計(jì)算結(jié)果受人為因素影響。定量方法包括數(shù)據(jù)模型和確定性模型。確定性模型可以提供精確的分析結(jié)果,但需要大量的數(shù)據(jù),尤其是在大尺度地區(qū)實(shí)踐中難以獲得(楊創(chuàng)奇等,2022)。近年來,包括機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)的數(shù)據(jù)驅(qū)動(dòng)模型在地質(zhì)災(zāi)害研究方面取得了顯著進(jìn)展,如證據(jù)權(quán)模型(WoE)(Batar et al.,2021)、頻率比(FR)(Khan et al.,2019)和確定性系數(shù)法(CF)(喬德京等,2020)等。這些算法計(jì)算簡便,甚至在一些大型區(qū)域也能適用,但是過分依賴樣本質(zhì)量且無法有效處理復(fù)雜的滑坡及其影響因子之間的關(guān)系。機(jī)器學(xué)習(xí)中的隨機(jī)森林(Arabameri et al.,2019)、決策樹(Hong et al.,2018)、BP神經(jīng)網(wǎng)絡(luò)(康孟羽等,2022;張林梵等,2022)、梯度提升等也被廣泛地運(yùn)用在滑坡識(shí)別中(張文龍等,2023),較好地解決了非線性關(guān)系表達(dá)的問題,提高了滑坡識(shí)別的精度。然而,這些模型通常依賴于單一的學(xué)習(xí)器,滑坡易發(fā)性所涉及的影響因子眾多,通常很難獲得理想的預(yù)測結(jié)果,容易發(fā)生過擬合現(xiàn)象。因此,筆者利用集成學(xué)習(xí)將多個(gè)單學(xué)習(xí)器組合起來進(jìn)行區(qū)域滑坡易發(fā)性評(píng)估,以比較其與傳統(tǒng)方法更具有優(yōu)越性和高效性。
近年來,大量基于機(jī)器學(xué)習(xí)的方法被成功應(yīng)用于地質(zhì)災(zāi)害研究,而較新的梯度提升(Boosting)模型,包括XGBoost 和LightGBM 模型,在滑坡易發(fā)性方面很少被研究與比較,且不平衡類分布可能會(huì)影響特征選擇的假設(shè)。在此基礎(chǔ)上,筆者以雅魯藏布江與尼洋河兩岸為例,首次引入了基于基尼系數(shù)的加權(quán)隨機(jī)森林作為特征選擇過程過程,并與基于Boosting 算法的XGBoost和LightGBM 模型對(duì)研究區(qū)滑坡易發(fā)性進(jìn)行分析和比較。
筆者選取雅魯藏布江下游與尼洋河兩岸為研究對(duì)象(圖1)。研究區(qū)位于西藏自治區(qū)林芝市西部,E 92°09′~95°51′,N 27°55′~30°36′,總面積約為68 000 km2,包括工布江達(dá)縣、波密縣、米林縣、朗縣、墨脫縣。研究區(qū)屬于典型的高原丘陵、高山峽谷地貌,是世界陸地垂直地貌落差最大的地帶,區(qū)內(nèi)地形起伏大,呈現(xiàn)北高南低走勢,山脈多為東西走向,絕大多數(shù)為高海拔大起伏山地,其次為高海拔極大起伏山地與中高海拔極大起伏山地,最高海拔7 782 m,地處米林縣與墨脫縣的交界地帶。研究區(qū)位于高原溫帶濕潤半濕潤季風(fēng)區(qū)氣候帶寒帶跨越到熱帶。地區(qū)水汽含量高,雨季開始得早,結(jié)束晚,持續(xù)時(shí)間長,年平均降水量約為650 mm,年平均氣溫為9.1 ℃。研究區(qū)內(nèi)有日土-青丁斷裂、達(dá)機(jī)翁-朗縣斷裂、賈桑斷裂、札達(dá)-邛多斷裂等斷裂帶,主要出露底層有盆地相上三疊統(tǒng)的砂巖、夾板巖、火山巖以及海相下—中三疊統(tǒng)的千枚巖、砂巖、含礫狀灰?guī)r等。由于高降雨量以及土壤和板塊內(nèi)動(dòng)力活躍,該區(qū)域極易發(fā)生滑坡。
圖1 研究區(qū)地理位置及滑坡分布Fig.1 Geographical location and landslide distribution of the study area
主要數(shù)據(jù)來源包括:①地理空間數(shù)據(jù)云的ASTER GDEM 30 m 分辨率數(shù)字高程數(shù)據(jù),基于ArcGIS 軟件對(duì)坡度信息進(jìn)行了提取。②1∶5 萬地質(zhì)圖來源于中國地質(zhì)調(diào)查局,用來提取地層巖性性質(zhì)。③Landsat8影像來源于地理國情普查,用于土地利用數(shù)據(jù)的提取。④滑坡數(shù)據(jù)出自中國科學(xué)院資源環(huán)境科學(xué)數(shù)據(jù)中心。⑤斷層帶從地震活動(dòng)斷層探察數(shù)據(jù)中心獲取。
筆者在已有的研究方法上將30 m×30 m 柵格大小設(shè)定為基礎(chǔ)的評(píng)價(jià)單元(Tanyas et al.,2019),研究區(qū)域劃分為123 156 296 個(gè)網(wǎng)格。同時(shí)為了解決樣本不均衡問題,筆者采用下采樣方式從非滑坡區(qū)選取等量滑坡點(diǎn)組成188 個(gè)樣本點(diǎn)(Polykretis et al.,2018),滑坡單元設(shè)為1,非滑坡單元設(shè)為0,從中隨機(jī)抽取70%(131)數(shù)據(jù)作為訓(xùn)練樣本,剩余30%(57)作為測試樣本。滑坡點(diǎn)具體流程見圖2。
圖2 流程圖Fig.2 Flow Chart
已有對(duì)雅魯藏布江流域的研究結(jié)果和現(xiàn)場勘查表明:河水對(duì)河谷的不斷侵蝕作用加上高海拔高寒區(qū)凍融加劇滑坡區(qū)巖石的風(fēng)化,使得雅魯藏布江流域極易孕育滑坡(趙永輝,2019);地層巖性是滑坡產(chǎn)生的重要因素(趙永輝,2021);坡度為滑坡發(fā)生的主控因素(王瑞琪等,2019)。再根據(jù)對(duì)研究區(qū)的地質(zhì)災(zāi)害形成條件與地質(zhì)環(huán)境背景研究分析,選取高程、坡度、斷裂帶與斷層、河流、道路、地層巖性、土地利用7 個(gè)評(píng)價(jià)因子。利用ArcGIS 軟件,將高程、坡度、地層巖性、土地利用4 個(gè)連續(xù)型因子結(jié)合分布規(guī)范,采用自然間斷法將研究區(qū)分為5 個(gè)等級(jí)(圖3a~圖3d),對(duì)于離散型因子例如斷裂帶與斷層、河流、道路利用多環(huán)緩沖區(qū)工具建立0~200、200~400、400~600、600~800、>800 m 共5 個(gè)等級(jí)范圍(圖3e~圖3g)。
統(tǒng)計(jì)各評(píng)價(jià)因子分級(jí)范圍內(nèi)滑坡點(diǎn)數(shù)量并繪制蔟類柱狀圖(圖4)。結(jié)果表明:當(dāng)高程處在32~1 544 m時(shí),滑坡發(fā)生的最多,占總數(shù)的30.9%,其次是出現(xiàn)在2 722~3 752 m 范圍內(nèi)。其原因是在海拔低于1 544 m時(shí),開挖坡腳等人類活動(dòng)頻繁,隨著海拔的提升,坡度增大,加劇了滑坡的發(fā)生;隨著坡度上升,滑坡數(shù)也增加,直到坡度上升達(dá)到閾值40°,發(fā)生災(zāi)害的概率降低,由原來的41.5%逐漸降低到16.0%;當(dāng)?shù)貙訋r性為雅魯藏布江帶閃片巖時(shí),相比其他巖性,滑坡發(fā)生最頻繁;草地土壤侵蝕嚴(yán)重,是淺層滑坡的重要原因。本研究中大量滑坡點(diǎn)分布在坡度為10°~20°的草地上;斷裂帶與斷層會(huì)降低巖層的強(qiáng)度和完整性,是滑坡易發(fā)性增大的關(guān)鍵,在距斷層帶200 m 以內(nèi)容易發(fā)生滑坡,滑坡點(diǎn)占總數(shù)的41.5%,離斷裂帶與斷層越遠(yuǎn)滑坡災(zāi)害越少;河岸受水流不斷沖刷,土石在地下水及重力作用下越發(fā)失穩(wěn),因此越靠近河流越容易發(fā)生滑坡,滑坡在距河流200 m 以內(nèi),發(fā)生次數(shù)最多,達(dá)到40.4%;修建鐵路、公路時(shí)因大力爆破、強(qiáng)行開挖,常使坡體下部失去支撐而發(fā)生下滑,距離道路200 m 以內(nèi)的滑坡數(shù)占了總數(shù)一半以上達(dá)到52.1%,距離道路越遠(yuǎn),滑坡活動(dòng)減少。文中結(jié)論與相關(guān)研究均吻合(Kouhartsiouk et al.,2021;Zweifel et al.,2021)。
為了研究各評(píng)價(jià)因素的相對(duì)獨(dú)立性以及評(píng)價(jià)模型的準(zhǔn)確性和可靠性,筆者采用皮爾遜相關(guān)系數(shù)計(jì)算影響評(píng)價(jià)因子的相關(guān)性。皮爾遜相關(guān)系數(shù)是用于度量兩個(gè)變量之間的線性關(guān)系,利用兩個(gè)變量間的協(xié)方差和變量的標(biāo)準(zhǔn)差進(jìn)行計(jì)算而來(Lee et al.,2020)。
式中:X,Y表示變量,N表示取值個(gè)數(shù)。
變量間呈現(xiàn)極弱相關(guān)時(shí),相關(guān)系數(shù)為0.0~0.2;0.2~0.4 表示變量之間弱相關(guān)性。將評(píng)價(jià)因子的7 個(gè)屬性值代入式(1)計(jì)算,結(jié)果見表1,發(fā)現(xiàn)相關(guān)性最高為坡度與道路(R=0.349 3),其他變量間相關(guān)關(guān)系均小于0.4。總體而言,變量的共線性不強(qiáng)。
表1 因子間皮爾遜相關(guān)系數(shù)表Tab.1 Pearson correlation coefficient between factors
隨機(jī)森林(Random Forest)是一種基于決策樹模型的Bagging(Bootstrap AGgregation)的優(yōu)化版,由于其具有對(duì)特征魯棒性強(qiáng)、適用于高維稠密性數(shù)據(jù)、并行集成、對(duì)不平衡的數(shù)據(jù)集可自動(dòng)調(diào)整誤差、微調(diào)超參數(shù)等優(yōu)勢,可以獲得準(zhǔn)確結(jié)果,常被用于各種分類和回歸任務(wù)(Alsahaf et al.,2018)。它的基本單元是決策樹,但其本質(zhì)是集成學(xué)習(xí)方法,是機(jī)器學(xué)習(xí)的一個(gè)分支,其核心思想始終為Bagging。然而,已經(jīng)做了一些特有的改進(jìn),隨機(jī)森林使用CART 決策樹作為基學(xué)習(xí)器。
基于Gini 系數(shù)的隨機(jī)森林建立在許多決策樹上并支持各種特征權(quán)重度量。其中之一為特征與不平衡數(shù)據(jù)輸出的相關(guān)性,一旦分類器測量了Gini 系數(shù),這種特征選擇技術(shù)就在 RF 中采用了權(quán)重調(diào)整技術(shù)。Gini 指數(shù)具有在特定節(jié)點(diǎn)中劃分二進(jìn)制類的能力(Disha et al.,2022)。對(duì)于具有兩個(gè)以上不同值的屬性,考慮屬性子集,通過調(diào)整不平衡類分布的隨機(jī)森林算法中的權(quán)重,使用Gini 系數(shù)標(biāo)準(zhǔn)來分裂樹,計(jì)算特征重要性得分。GI 值越高,特征對(duì)模型預(yù)測的平均貢獻(xiàn)越大,模型的解釋能力越好,所有GI 特性之和為1。
公式(2):GIm為基尼指數(shù),K代表k個(gè)類別,pmk表示節(jié)點(diǎn)m中k的比例;公式(3):表示特征i在第j顆樹的權(quán)重;公式(4)表示對(duì)所求出的所有重要度得分進(jìn)行歸一化處理。
筆者把94 個(gè)滑坡點(diǎn)記為‘1’,等量非滑坡點(diǎn)記為‘0’,將7 個(gè)評(píng)價(jià)指標(biāo)因子的屬性提取至訓(xùn)練集,構(gòu)造隨機(jī)森林二分類模型,并從sklearn 庫中調(diào)用Random Forest Classifier 方法,將訓(xùn)練集代入RF 模型進(jìn)行訓(xùn)練。同時(shí)為了確保結(jié)果的可靠性和準(zhǔn)確性,在原本的參數(shù)設(shè)定基礎(chǔ)上,采用貝葉斯優(yōu)化算法搜索最優(yōu)參數(shù)值。優(yōu)化結(jié)果中,當(dāng)每次迭代完成后更新權(quán)重時(shí)的步長取0.1,max_depth 取4,num round 取30 時(shí),效果最佳。用測試集對(duì)RF 模型進(jìn)行預(yù)測,結(jié)合公式(3),將得到各評(píng)價(jià)因子的權(quán)重歸一化后導(dǎo)入ArcGIS 中的柵格計(jì)算器生成滑坡易發(fā)性圖,采用自然間斷法將分區(qū)圖劃分為極高、高、中、低、極低5 個(gè)等級(jí)(圖5),易發(fā)性越高代表越容易發(fā)生滑坡。
圖5 Gini-RF 模型滑坡易發(fā)性分區(qū)圖Fig.5 Susceptibility zoning map of Gini-RF
XGBoost 是一種基于決策樹模型和梯度提升的集成機(jī)器學(xué)習(xí)算法,為了控制模型的復(fù)雜度,它將正則化項(xiàng)添加到損失函數(shù)中,正則項(xiàng)包括每個(gè)葉子節(jié)點(diǎn)權(quán)重的平方和與節(jié)點(diǎn)個(gè)數(shù)。XGBoost 處理缺失值并通過學(xué)習(xí)模型選取缺失值最佳的默認(rèn)分割方向(Inan et al.,2021)。
描述的數(shù)據(jù)在預(yù)處理過程之后,基于Python3.6與R 語言,采用Scikit-learn 構(gòu)建XGBoost 多分裂滑坡易發(fā)性模型(Alsahaf et al.,2018)。同時(shí)為了在獨(dú)立的驗(yàn)證數(shù)據(jù)集上對(duì)子序列進(jìn)行測試降低偶然性,選取最優(yōu)子樹,通過貝葉斯算法優(yōu)化,利用五折交叉驗(yàn)證獲得每個(gè)模型評(píng)價(jià)度量的平均值,所有測試集的平均指標(biāo)被認(rèn)為是最終結(jié)果。將預(yù)測結(jié)果導(dǎo)入ArcGIS 繪制滑坡易發(fā)性圖(圖6)。樣本集在所選參數(shù)值上的交叉驗(yàn)證準(zhǔn)確度結(jié)果顯示:當(dāng)進(jìn)行第5 次五折交叉后,訓(xùn)練集和測試集的AUC 值達(dá)到最大值并趨于穩(wěn)定(圖7)。
圖6 基于XGBoost 的滑坡易發(fā)性圖Fig.6 Susceptibility zoning map of XGBoost
圖7 XGBoost 五折交叉驗(yàn)證結(jié)果Fig.7 XGBoost 50% ross validation results
Light Gradient Boosting Machine(LightGBM)是一種高性能、開源、快速的分類、回歸、排名的方法,同時(shí)也是基于決策樹算法的梯度提升算法。LightGBM采用直方圖算法來降低內(nèi)存消耗,使數(shù)據(jù)分割更簡單,將浮點(diǎn)的連續(xù)特征離散化為式子中的k 個(gè)離散值,構(gòu)造一個(gè)寬度為 k 的直方圖,將數(shù)據(jù)進(jìn)行遍歷訓(xùn)練,計(jì)算直方圖中每個(gè)離散值的累積統(tǒng)計(jì)信息,在特征選擇中,只要根據(jù)直方圖離散值搜索最佳的分割點(diǎn)即可(Zeng et al.,2019)。
在4.2 使用方法基礎(chǔ)上,將研究區(qū)的123 156 296個(gè)柵格提取各評(píng)價(jià)因子的屬性值到點(diǎn),生成123 156 296×7的表格,導(dǎo)入訓(xùn)練好的機(jī)器學(xué)習(xí)模型中,預(yù)測每個(gè)柵格發(fā)生滑坡的概率,利用點(diǎn)轉(zhuǎn)柵格工具將所有的點(diǎn)生成柵格數(shù)據(jù),再用自然間斷法將研究區(qū)的滑坡易發(fā)區(qū)分為極高、高、中、低、極低5 個(gè)類別(圖8)。圖9 為LightGBM 的學(xué)習(xí)曲線。
圖8 基于LightGBM 的滑坡易發(fā)性圖Fig.8 Susceptibility zoning map of Gini-RF
圖9 LightGBM 學(xué)習(xí)曲線Fig.9 LightGBM learning curve
基于ArcGIS,分別統(tǒng)計(jì)3 種不同機(jī)器學(xué)習(xí)模型在每個(gè)易發(fā)性分區(qū)的柵格個(gè)數(shù)與滑坡點(diǎn)個(gè)數(shù)(表2),3種模型的滑坡易發(fā)性結(jié)果呈現(xiàn)出一定的差異,但整體趨同。Gini-RF、XGBoost 和LightGBM 模型均在極低類別中的百分比值最高。對(duì)于Gini-RF 模型,從極高到極低易發(fā)性的面積比分別為11.99%、12.63%、19.58%、26.77%和29.03%。XGBoost 模型的極高、高、中、低和極低易發(fā)性區(qū)域分別占12.05%、12.50%、19.62%、26.78% 和29.05%。對(duì)于LightGBM 模型,極低、低、中、高和極高易發(fā)性區(qū)域分別占12.14%、12.41%、19.43%、26.47%和29.55%。根據(jù)滑坡位置的分布可以看出,大多數(shù)歷史滑坡記錄位于高易發(fā)性地區(qū),正如Gini-RF、XGBoost 和 LightGBM 模型所預(yù)測的那樣。LightGBM 模型的性能最高,其次為XGBoost 與Gini-RF。
表2 機(jī)器學(xué)習(xí)模型易發(fā)性分區(qū)對(duì)比Tab.2 Comparison of machine learning model vulnerability zones
根據(jù)評(píng)價(jià)因子的選取及易發(fā)性評(píng)價(jià)分區(qū)圖可知,滑坡高和極高易發(fā)區(qū)多位于墨脫縣的達(dá)木鄉(xiāng)、幫辛鄉(xiāng),林芝縣的丹娘、里龍、扎西饒登鄉(xiāng),朗縣的隴村,工布江達(dá)的江達(dá)鄉(xiāng)。在這些地區(qū)應(yīng)采取相應(yīng)的地質(zhì)災(zāi)害防治措施。特別是位于雅魯藏布江與尼洋河兩岸海拔較低、坡度為30°~40°,距河流、道路、斷裂帶200 m以內(nèi)的區(qū)域。
究其原因,這類地區(qū)位于雅魯藏布江與尼洋河兩岸南部與印度板塊和亞歐板塊交界,地殼運(yùn)動(dòng)劇烈,孕育一系列區(qū)域性斷裂,斷裂帶與斷層降低了巖層的完整性和強(qiáng)度,并且高程多位于200~1 000 m,大多數(shù)坡度小于40°,在此范圍內(nèi)人工多進(jìn)行切坡建房和道路建設(shè)等強(qiáng)烈活動(dòng),造成大量的裸露斜坡,加上長期的流水作用,使河流兩岸遭受嚴(yán)重的侵蝕和沖刷,導(dǎo)致沉積物飽和,從而降低斜坡的完整性,使斜坡運(yùn)動(dòng)或質(zhì)量運(yùn)動(dòng),且距道路越近,道路建設(shè)所造成的破壞性會(huì)對(duì)邊坡穩(wěn)定性產(chǎn)生負(fù)面影響,因此滑坡災(zāi)害頻發(fā)。
相反,滑坡低易發(fā)區(qū)主要分布在工布江達(dá)縣的錯(cuò)高、朱拉區(qū),林芝市的沖果俄、港阿如,米林縣的蘇魯胖地區(qū),其特點(diǎn)是坡度較緩、人類活動(dòng)較少,遠(yuǎn)離道路、河流、斷裂帶。
在機(jī)器學(xué)習(xí)中,性能指標(biāo)通常用于二進(jìn)制分類中測試集的正確預(yù)測數(shù)。筆者使用準(zhǔn)確度(Accuracy)、精確度(Precision)、召回率(Recall)、F1 分?jǐn)?shù)、(ROC)曲線和AUC 值6 個(gè)指標(biāo)對(duì)不同機(jī)器學(xué)習(xí)模型的精度進(jìn)行了評(píng)價(jià)。準(zhǔn)確度分?jǐn)?shù)是評(píng)估模型在二元分類問題中的性能的最常用指標(biāo),表示在所有樣本中,能被正確識(shí)別的概率;精確度是通過計(jì)算模型預(yù)測為真時(shí)實(shí)例為正樣本的頻率來評(píng)估模型性能的度量;召回率是模型正確檢測真陽性實(shí)例的度量;F1 分?jǐn)?shù)是召回率和精度之間的權(quán)衡指數(shù),同時(shí)考慮了FP 和FN,使模型整體更具準(zhǔn)確性。具體公式如下:
式中:TP和TN分別為真陽性和真陰性,代表正確分類的像素?cái)?shù);FP和FN分別是假陽性和假陰性,代表錯(cuò)誤分類的像素?cái)?shù)。
為了得到不同機(jī)器學(xué)習(xí)算法在測試數(shù)據(jù)集上的預(yù)測準(zhǔn)確性,基于上述方法,利用公式(5)~公式(8)計(jì)算精確度、精確度、召回率和F1 指數(shù),隨機(jī)抽取30%樣本作為測試樣本,得出模型的泛化能力和準(zhǔn)確率(表3)??梢钥闯?,基于不同框架算法的預(yù)測性能不一樣。3 種機(jī)器學(xué)習(xí)模型中,LightGBM 模型在超參數(shù)優(yōu)化下其AUC(0.843 2)、ACC(0.853 1)、F1 分?jǐn)?shù)(0.834 5)、Precesion(0.825 1)均高于另外兩種機(jī)器學(xué)習(xí)模型。
表3 各機(jī)器學(xué)習(xí)模型準(zhǔn)確率Tab.3 Accuracy of each machine learning model
在機(jī)器學(xué)習(xí)中,ROC 曲線被廣泛應(yīng)用于二分類問題中來評(píng)估分類器的可信度(張玘愷等,2020)。AUC為ROC 曲線下面積。AUC=1 表示該曲線存在至少一個(gè)閾值能得出完美預(yù)測。曲線縱軸為真陽率TPR,橫軸為假陽率FPR,越靠近左上角,則認(rèn)為該判斷指標(biāo)預(yù)測能力越好。從這條 ROC 曲線可以看出,經(jīng)過網(wǎng)格搜索與5 折交叉驗(yàn)證后的藍(lán)色曲線LightGBM 模型更接近左上角,AUC 值為0.843 2,與Gini-RF 模型的0.822 5 有較大提升,且準(zhǔn)確率高于XGBoost 模型的0.935 8(圖10)。XGBoost 相比Gini-RF 而言,對(duì)模型的損失函數(shù)進(jìn)行了改進(jìn),并加入了模型復(fù)雜度的正則項(xiàng),而LightGBM 是在XGBoost 基礎(chǔ)上,優(yōu)化了模型的訓(xùn)練速度。因此,LightGBM 的泛化能力最好,易發(fā)性劃區(qū)可靠性高。
圖10 機(jī)器學(xué)習(xí)模型ROC 曲線Fig.10 ROC curve of machine learning model
對(duì)比近幾年來雅魯藏布江與尼洋河兩岸發(fā)生的滑坡事件(表4),將9 個(gè)滑坡信息導(dǎo)入生成的滑坡易發(fā)性圖中,可知3 個(gè)滑坡點(diǎn)位于中易發(fā)區(qū),3 個(gè)滑坡點(diǎn)位于高易發(fā)區(qū),剩余均出現(xiàn)在極高易發(fā)區(qū)。
表4 近幾年以來滑坡事件Tab.4 Landslide events in recent years
為了進(jìn)一步驗(yàn)證本研究分析方法的可靠性,選擇羌納巴嘎滑坡與墨脫縣公路滑坡兩處滑坡現(xiàn)場調(diào)查進(jìn)行對(duì)比驗(yàn)證(圖11)。
圖11 典型滑坡驗(yàn)證Fig.11 Verification of typical landslides
西藏自治區(qū)林芝地區(qū)米林縣羌納鄉(xiāng)巴嘎村滑坡位于E 94°24′34″,N 29°20′16″;所處地形地貌為高山河谷地貌;下付基為板巖;斜坡結(jié)構(gòu)為巖土復(fù)合斜坡,坡度為30°;植被覆蓋率一般,土地利用較低;滑坡前緣至斜坡下方公路,后緣至斜坡山脊處,滑坡體主要為碎土石,滑床為板巖。該滑坡變形特征主要為前方公路開挖斜坡坡腳,導(dǎo)致斜坡失穩(wěn)。
林芝地區(qū)墨脫縣公路地處E 93°38′10″,N 29°08′28″,滑坡長為30 m,寬為40 m,厚度為2 m,面積為1 200 m2,體積為2 400 m3,坡度為35°,坡向?yàn)?60°,滑坡側(cè)邊界、前緣清晰可辨。該滑坡微地貌為陡坡,地層巖性為泥巖,位于白龍斷層附近,斜坡結(jié)構(gòu)類型為土質(zhì)斜坡,坡形為凸形,滑坡下方人類活動(dòng)較少,僅有一小段公路,植被覆蓋率較低,為低矮灌叢,滑坡位于河流右凸岸。目前狀況為不穩(wěn)定。
兩處滑坡均處于滑坡高易發(fā)區(qū),再次驗(yàn)證了本研究機(jī)器學(xué)習(xí)模型劃區(qū)的準(zhǔn)確性。研究結(jié)果可供區(qū)域滑坡防治相關(guān)部門參考。
(1)統(tǒng)計(jì)各評(píng)價(jià)因子分級(jí)范圍內(nèi)滑坡點(diǎn)數(shù)量,表明在高程為32~1 544 m 與2 722~3 752 m、坡度為30°~40°、地層巖性為雅魯藏布江帶閃片巖、土地利用為草地、距斷裂帶、河流與道路200 m 以內(nèi)滑坡發(fā)生的次數(shù)最多。
(2)采用五折交叉驗(yàn)證后,基于貝葉斯優(yōu)化算法的Gini-RF 模型準(zhǔn)確率由原來的0.752 4 提升到0.822 5,XGBoost 與LightGBM 模型準(zhǔn)確率也提升了0.032 3與0.017 6。3 種模型對(duì)研究區(qū)的滑坡分區(qū)都具有很高的準(zhǔn)確性,其中LightGBM 模型的性能最好,AUC 值、精確度、F1 分?jǐn)?shù)、泛化能力、擬合程度、精確率更高。
(3)利用Gini-RF、XGBoost、LightGBM 等3 種集成機(jī)器學(xué)習(xí)模型對(duì)滑坡易發(fā)性進(jìn)行分析,表明滑坡高和極高易發(fā)區(qū)多位于 墨脫縣的達(dá)木鄉(xiāng)、幫辛鄉(xiāng),林芝縣的丹娘、里龍、扎西饒登鄉(xiāng),朗縣的隴村,工布江達(dá)的江達(dá)鄉(xiāng)。特別是位于雅魯藏布江與尼洋河兩岸海拔較低、坡度為30°~40°、距河流、道路、斷裂帶200 m以內(nèi)的區(qū)域。在這些地區(qū)應(yīng)采取相應(yīng)的地質(zhì)災(zāi)害防治措施。
(4)滑坡極高與高易發(fā)性區(qū)占比分別為12.14%和12.41%,低和極低易發(fā)區(qū)分別占26.47%與29.55%,區(qū)內(nèi)一半以上的地區(qū)不容易發(fā)生滑坡災(zāi)害?;乱装l(fā)性分區(qū)結(jié)果與現(xiàn)場滑坡災(zāi)害調(diào)查結(jié)果吻合較好,同時(shí)利用研究區(qū)近幾年已發(fā)生的滑坡點(diǎn)進(jìn)行驗(yàn)證,表明模型的可靠性高,滑坡分區(qū)圖可為有關(guān)地方部門的防災(zāi)減災(zāi)活動(dòng)提供指導(dǎo)。