黃發(fā)明,張崟瑯,郭子正,范宣梅,周創(chuàng)兵
(1.南昌大學(xué)工程建設(shè)學(xué)院,江西南昌 330031;2.中國瑞林工程技術(shù)股份有限公司,江西南昌 330031;3.河北工業(yè)大學(xué)土木與交通學(xué)院,天津 300401;4.成都理工大學(xué)地質(zhì)災(zāi)害防治與地質(zhì)環(huán)境保護(hù)國家重點實驗室,四川成都 610059)
作為中國最為嚴(yán)重的地質(zhì)災(zāi)害類型之一,滑坡會給人民生命財產(chǎn)安全造成巨大威脅[1–2]。在常規(guī)的滑坡風(fēng)險普查和分區(qū)工作中,區(qū)域易發(fā)性預(yù)測的結(jié)果能夠揭示空間中潛在滑坡發(fā)育的地帶,已經(jīng)成為目前減少和緩解滑坡風(fēng)險過程中的一個重要步驟[3]。
大量學(xué)者關(guān)注區(qū)域尺度的滑坡易發(fā)性預(yù)測,但現(xiàn)有研究大多集中于預(yù)測模型的開發(fā)和對比,主要包括啟發(fā)式、確定性和數(shù)據(jù)驅(qū)動模型3類[4–6]。其中,因啟發(fā)式模型需要豐富的專家經(jīng)驗,這些經(jīng)驗是基于其在野外對地形等地質(zhì)條件的觀察和主觀判斷[7];確定性模型通常需要多個巖土力學(xué)和水文參數(shù),但這些參數(shù)在區(qū)域尺度上不易獲得且存在空間變異性[8–9]。因此,前兩種模型都具有較明顯的局限性,與之相比,數(shù)據(jù)驅(qū)動模型在理論基礎(chǔ)和實際應(yīng)用中都具有優(yōu)勢,這類模型通?;诩僭O(shè),即未來的滑坡將會發(fā)生在與過去的滑坡發(fā)生條件類似的地質(zhì)環(huán)境中[5,10]。機(jī)器學(xué)習(xí)是數(shù)據(jù)驅(qū)動模型中的一個重要分支,近年模型對比研究[11–13]表明,機(jī)器學(xué)習(xí)模型能夠很好地識別評價因子和滑坡之間的非線性關(guān)系,從而獲得較為精確的區(qū)域滑坡易發(fā)性分區(qū)圖。
基于機(jī)器學(xué)習(xí)的滑坡易發(fā)性建模包括如下步驟:選取環(huán)境因子,分析滑坡與各因子間的統(tǒng)計規(guī)律,模型訓(xùn)練和測試,預(yù)測滑坡易發(fā)性,采用合理的分級方法進(jìn)行易發(fā)性制圖,建模結(jié)果評價和驗證[14]。選擇正確的模型能確保預(yù)測出較為準(zhǔn)確的滑坡易發(fā)性指數(shù),并需要合理的分級方法,實現(xiàn)滑坡易發(fā)性分級制圖?,F(xiàn)有分級主要采用GIS平臺的自然斷點法、等間隔法、分位數(shù)法和幾何間隔法等[15–16]。這些方法由于能夠在GIS軟件中輕松實現(xiàn)而被廣泛使用,但也存在一定局限性,如自然斷點法在易發(fā)性指數(shù)集存在明顯突變時才更有效,易發(fā)性制圖會隨著斷點的主觀變化而發(fā)生較大變化[17];等間隔法具有截止依賴性;分位數(shù)法受易發(fā)性指數(shù)分布影響較大,如果易發(fā)性指數(shù)分布不均勻,將導(dǎo)致分析結(jié)果產(chǎn)生偏差。針對這些問題,有學(xué)者提出了其他的分級方法。如Pradhan[11]認(rèn)為可將全部滑坡易發(fā)性指數(shù)按照一定的面積比例分為極高(10%)、高(20%)、中(40%)、低(20%)和極低(10%)易發(fā)區(qū),類似的分級思想也體現(xiàn)在了郭子正等[18]的研究工作。Cantrino等[19]提出了一種基于ROC曲線的方法來確定易發(fā)性等級的閾值,該方法可從地形特征中提取信息且包含了“錯誤分級”概念,能夠產(chǎn)生更具同質(zhì)性和穩(wěn)定性的易發(fā)性分級結(jié)果。楊永剛等[20]提出使用聚類方法進(jìn)行易發(fā)性指數(shù)級別的劃分,該方法不基于GIS而使用自動聚類算法且取得了良好的實際應(yīng)用效果[21]??傮w而言,目前缺乏滑坡易發(fā)性分級方法的系統(tǒng)性研究,并且?guī)缀跛蟹旨壏椒ǘ純H僅是從滑坡易發(fā)性指數(shù)分布特征出發(fā),而沒有綜合考慮已知滑坡空間分布特征及其與滑坡易發(fā)性指數(shù)之間的非線性相關(guān)。
鑒于此,本文以陜西省延長縣作為研究區(qū),選取3種機(jī)器學(xué)習(xí)模型預(yù)測滑坡易發(fā)性,使用4種基于GIS的常規(guī)易發(fā)性分級方法(自然斷點法、等間隔法、分位數(shù)法、幾何間隔)以及頻率比閾值法進(jìn)行滑坡易發(fā)性分級制圖。具體研究目標(biāo)包括:1) 揭示3種基于不同軟件的機(jī)器學(xué)習(xí)模型預(yù)測滑坡易發(fā)性的優(yōu)缺點;2)探明4種常規(guī)分級法以及頻率比閾值法對滑坡易發(fā)性分級的準(zhǔn)確性,以揭示分級方法對易發(fā)性制圖的影響規(guī)律。
本文分別基于SPSS Modeler構(gòu)建分類和回歸樹(C&RT)模型、基于SPSS軟件構(gòu)建RBF模型并用R語言編程實現(xiàn)隨機(jī)森林(RF)模型。整個易發(fā)性建模中除模型外的其余步驟均一致,具體建模流程如圖1所示。
1)選取合適的滑坡—非滑坡樣本。用全部滑坡樣本以及在剔除滑坡樣本后的全區(qū)樣本中隨機(jī)選取等量的非滑坡樣本作為模型輸出變量,以便為機(jī)器學(xué)習(xí)建模提供歷史滑坡及其分布特征的學(xué)習(xí)樣本。
2)提取滑坡相關(guān)的12個環(huán)境因子。計算每個因子頻率比(FR),作為機(jī)器學(xué)習(xí)模型的輸入變量,這樣不僅能降低模型復(fù)雜度,且FR反映的因子對滑坡的影響也會被包含進(jìn)模型。
3)將步驟1)、2)的模型輸入-輸出變量導(dǎo)入機(jī)器學(xué)習(xí)中進(jìn)行訓(xùn)練和測試,因子對應(yīng)的FR為輸入數(shù)據(jù),將該點的滑坡狀態(tài)(滑坡點為1,非滑坡點為0)作為輸出值。輸入–輸出變量集中的80%被隨機(jī)劃分以用作模型訓(xùn)練,另外20%用作模型測試。
4)使用RF模型分析環(huán)境因子的重要性,主要的指標(biāo)是均值降低精度和平均降低基尼指數(shù)。
5)將全區(qū)環(huán)境因子數(shù)據(jù)導(dǎo)入訓(xùn)練好的模型中,以預(yù)測得到滑坡易發(fā)性指數(shù)。該值一般處于0~1,值越大,則滑坡的易發(fā)性越高。
6)依據(jù)不同的分級方法,劃分滑坡易發(fā)性指數(shù)等級,以繪制全區(qū)易發(fā)性預(yù)測圖。
7)分別采用ROC曲線法和統(tǒng)計方法評價建模性能,定量計算易發(fā)性分區(qū)的精度,并揭示不同易發(fā)性等級的分布模式及歷史滑坡在各等級中的分布特點。將滑坡面轉(zhuǎn)化為柵格單元,柵格的位置組合起來就是滑坡實際發(fā)生的位置?;碌拿娣e不同,其包含的柵格數(shù)也不同。
圖1 滑坡易發(fā)性分級建模流程Fig.1 Modelling flow chat of landslide susceptibility prediction
基于機(jī)器學(xué)習(xí)模型進(jìn)行環(huán)境因子與歷史滑坡的非線性關(guān)系分析,統(tǒng)計各環(huán)境因子范圍值內(nèi)的滑坡孕育。環(huán)境因子頻率比方法是實現(xiàn)環(huán)境因子與歷史滑坡的非線性關(guān)系鏈接最常見的手段之一[18],定義某一環(huán)境因子分類區(qū)間內(nèi)滑坡面積占滑坡總面積百分比與該區(qū)間面積占研究區(qū)總面積百分比的比為環(huán)境因子頻率比FR:
式中,Ni為某個環(huán)境因子第i個類別內(nèi)的滑坡總面積,TN為全區(qū)滑坡總面積,Ai為i個類別的總面積,TA為研究區(qū)總面積。若FR大于1,說明該區(qū)間利于滑坡孕育,而且FR越高對滑坡孕育越有利;反之,不利于滑坡孕育。
1.3.1分類和回歸樹(C&RT)模型
分類和回歸樹算法是決策樹的一種,可生成分類樹或回歸樹,C&RT算法遞歸地二分每個樣本集為兩個子樣本集,使得生成的每個非葉子節(jié)點都有兩個分支。非葉子節(jié)點的特征取值為“是”和“否”,因此C&RT算法生成的決策樹是結(jié)構(gòu)簡潔的二叉樹。其適合對多特征變量的復(fù)雜數(shù)據(jù)進(jìn)行建模,具有抽取規(guī)則簡單、準(zhǔn)確度高、可解釋性強(qiáng)的優(yōu)勢。
1.3.2隨機(jī)森林(RF)模型
RF算法生成的眾多決策樹形成森林,可以改變干擾目標(biāo)的因素并生成聚合以提供精確的輸出,因此,已經(jīng)被廣泛應(yīng)用于數(shù)據(jù)分類及預(yù)測。隨機(jī)森林中的每棵樹都是使用CART技術(shù)對數(shù)據(jù)進(jìn)行引導(dǎo)的樣本開發(fā)的,該技術(shù)在單個節(jié)點中隨機(jī)選擇變量子集,使用所有決策樹的多數(shù)票確定模型的最終預(yù)測。與其他方法相比,RF的主要優(yōu)勢在于不需要調(diào)節(jié)過多的模型參數(shù),只需要調(diào)節(jié)樹的數(shù)量,而且樹的數(shù)量越多則模型性能一般就越好。
1.3.3徑向基函數(shù)(RBF)神經(jīng)網(wǎng)絡(luò)模型
RBF神經(jīng)網(wǎng)絡(luò)是一種性能良好的前饋式網(wǎng)絡(luò),具有最佳逼近、訓(xùn)練簡潔、學(xué)習(xí)收斂速度快等優(yōu)點。目前其已經(jīng)被廣泛用于模式識別、非線性控制和圖像處理等領(lǐng)域。RBF神經(jīng)網(wǎng)絡(luò)是一種包括輸入層、隱含層、輸出層等3層的神經(jīng)網(wǎng)絡(luò)。從輸出空間到隱含層空間的變換是非線性的,而從隱含層空間到輸出層空間是線性的。
在用RF模型建模預(yù)測易發(fā)性過程中,可以獲得均值降低精度和平均降低基尼指數(shù)這兩個參數(shù),來評價各環(huán)境因子對模型預(yù)測效果的影響程度。均值降低精度體現(xiàn)為把一個變量變?yōu)殡S機(jī)數(shù),RF預(yù)測準(zhǔn)確率的降低程度,均值降低精度越大,表明該變量的重要性越高。平均降低基尼指數(shù)是通過計算每個變量對分類樹各節(jié)點上觀測值的異質(zhì)性的影響,從而比較各環(huán)境因子的重要性;平均降低基尼指數(shù)是變量的節(jié)點雜質(zhì)總減少量的平均值,通過RF中每個單獨決策樹中到達(dá)該節(jié)點的樣本比例進(jìn)行加權(quán)而得,平均降低基尼指數(shù)越大,表明該變量的重要性越高。
1.5.1自然斷點法
自然斷點法是基于數(shù)據(jù)中固有的自然分組,對分類間隔加以識別,將相似值進(jìn)行恰當(dāng)?shù)姆纸M并最大化各個類之間的差異[21]。將特征劃分為類,在數(shù)據(jù)值差異較大的地方設(shè)置類邊界。自然斷點法尋求類內(nèi)平均值的偏差最小化,同時使與其他類平均值的偏差最大化。該方法減少了類內(nèi)部的方差,最大化了類之間的方差,所以不適用于數(shù)據(jù)方差很小的情況。尋求類內(nèi)平均值的偏差最小化,同時使與其他類平均值的偏差最大化方法也被稱為方差擬合優(yōu)度,等于數(shù)組均值的偏差平方和減去類均值的偏差平方和。由于自然斷點法將聚集的值放在同一個類中,因此該方法適合于映射非均勻分布的數(shù)據(jù)值。
1.5.2等間隔、分位數(shù)和幾何間隔法
等間隔法是將屬性值的范圍根據(jù)需求劃分為若干個大小相等的子范圍,強(qiáng)調(diào)一個類別相對于其他類別,其優(yōu)點是能快速實現(xiàn)分類,缺點是沒有考慮數(shù)據(jù)分布的結(jié)構(gòu)。分位數(shù)法為每個類分配數(shù)量相等的數(shù)據(jù)值,適用于呈線性分布的數(shù)據(jù),不存在空類也不存在值過多或過少的類。幾何間隔法基于具有幾何級數(shù)的類區(qū)間創(chuàng)建分類間隔,該方法通過最小化每個類中元素數(shù)量的平方和來創(chuàng)建區(qū)間,確保每個類范圍內(nèi)的值數(shù)量大致相同并且間隔之間的變化一致。幾何間隔法是等間隔、自然斷點和分位數(shù)法的折中方法,其在突出顯示中間值變化和極值變化之間達(dá)成了一種平衡,尤其是對于顯示非正態(tài)分布的數(shù)據(jù)或者數(shù)據(jù)的分布及其傾斜時非常有用。
1.5.3頻率比閾值法
頻率比閾值法將連續(xù)型因子劃分為若干個離散型因子,再分析各離散型因子與滑坡發(fā)生的非線性相關(guān)的頻率比因子:1)將預(yù)測得到的滑坡易發(fā)性指數(shù)按從大到小的順序依次劃分為50~100等份,計算每一等份內(nèi)的滑坡柵格數(shù)量及其占總滑坡柵格數(shù)量的比例;2)用頻率比法計算每等份易發(fā)性指數(shù)區(qū)間的滑坡頻率比值,以頻率比值的轉(zhuǎn)折處為主,同時以頻率比值分布特征作為參考來劃分易發(fā)性級別。頻率比閾值法將滑坡易發(fā)性指數(shù)和滑坡分布結(jié)合起來做考慮,展現(xiàn)了工程地質(zhì)類比的思想。該方法避免了單純從滑坡易發(fā)性指數(shù)出發(fā)來進(jìn)行易發(fā)性分級,實現(xiàn)了滑坡易發(fā)性指數(shù)與滑坡分布之間的緊密結(jié)合。
統(tǒng)計不同易發(fā)性圖中各易發(fā)性等級的面積比例(A)、各等級滑坡占全部滑坡的比例(B)、各易發(fā)性等級中的滑坡比率(B/A)[15,22],根據(jù)各等級中這3個指標(biāo)的具體值定量比較不同易發(fā)性圖的效果。高/極高易發(fā)區(qū)的面積比例越小、區(qū)內(nèi)滑坡占全部滑坡的比例越大,表明被準(zhǔn)確預(yù)測的滑坡點越多;極低/低易發(fā)區(qū)的面積比例越大、區(qū)內(nèi)滑坡占全部滑坡的比例越小,表明被誤判的滑坡點越少;滑坡比例(B/A)越大,說明該等級中滑坡分布越集中。能夠以越少的高/極高易發(fā)區(qū)預(yù)測越多的滑坡點,說明模型預(yù)測效果越優(yōu)。
圖2為研究區(qū)位置及滑坡編錄圖。由圖2可見,延長縣位于陜西北部,全區(qū)面積共2 368 km2,屬于黃土高原中部的多山地帶。地勢由西北向東南傾斜,呈現(xiàn)中間低而南北高的特征。屬于大陸性季風(fēng)氣候,較干燥,年均降雨約500 mm。但由于不同區(qū)域間高程起伏較大,降雨和溫度也呈現(xiàn)出了較為明顯的空間差異性。降雨集中在夏季,約占全年75%。主要出露巖層為三疊紀(jì)和第四紀(jì)地層,共有5組沉積巖,其中砂泥巖互層和黃土最常見。另外區(qū)內(nèi)地表水系較為發(fā)達(dá),黃河及數(shù)條支流組成了較為復(fù)雜的徑流網(wǎng)絡(luò),主要的城鎮(zhèn)和居民區(qū)也多集中在河流附近。
圖2 研究區(qū)位置及滑坡編錄圖Fig.2 Location of the study area and the spatial distribution of landslides in the region
延長縣地處陜北黃土高原,全縣都有一定的黃土覆蓋現(xiàn)象,地貌方面則有丘陵以及溝壑相對較多的特征,同時地質(zhì)狀態(tài)偏差,水土流失現(xiàn)象嚴(yán)重,加上黃土的大孔隙和對水的敏感性,在強(qiáng)降雨條件下容易濕陷,使得延長縣成為滑坡高發(fā)區(qū),因此選擇該區(qū)域作為研究區(qū)。為對其進(jìn)行滑坡易發(fā)性預(yù)測,需先制備可靠的滑坡編錄數(shù)據(jù)庫;通過地災(zāi)監(jiān)測部門提供的項目報告,將區(qū)內(nèi)滑坡地理位置導(dǎo)入到ArcGIS 10.2軟件中,并通過Google Earth影像探查每一處滑坡的變形情況以確?;碌臏?zhǔn)確性。需要說明的是,報告中都有明確的滑坡邊界信息,但由于本研究使用柵格單元作為評價單元,因此,在分析過程中將滑坡面轉(zhuǎn)變?yōu)闁鸥襁M(jìn)行分析。研究區(qū)數(shù)據(jù)見表1。
在屬性表中鏈接各單體滑坡的編錄信息,包括面積、體積、發(fā)生時間等,建立區(qū)域滑坡編錄數(shù)據(jù)庫。圖2中:該區(qū)共有滑坡82處,其中,大型滑坡37個,巨型滑坡1個,其余為中小型滑坡,累計體積達(dá)到了5.2×107m3;滑坡面積介于7.4×103~1.3×103m2,滑坡總面積為3.1 km2,約占據(jù)全縣面積的0.13%;從物質(zhì)組成來看絕大部分為黃土滑坡,少數(shù)由砂巖或泥巖構(gòu)成;這些滑坡大多發(fā)生在雨季,即每年的6~8月份,極少數(shù)幾個為人為工程活動所誘發(fā),如斜坡開挖和道路修建等。
表1 研究區(qū)數(shù)據(jù)列表Tab.1 List of study area data
環(huán)境因子的選取是易發(fā)性預(yù)測中重要的一步,其涉及影響滑坡發(fā)育。目前,常用環(huán)境因子主要包括地貌類因子、基礎(chǔ)地質(zhì)類因子、水文因子和地表覆被因子等[23–24]。黃土地區(qū)地形破碎、山地溝壑和垂直節(jié)理發(fā)育,第四系碎屑沉積物較厚、孔隙大、強(qiáng)度低且易被侵蝕。對于西北黃土邊坡,其發(fā)育形成滑坡的過程主要受一定坡度的山地和溝谷、易于風(fēng)化的巖層及其松散堆積物、地表徑流和地下水入滲等水文條件,以及土壤裸露和人類工程活動等地表覆被因素的影響。同時,黃土邊坡在短時間內(nèi)失穩(wěn)的重要誘發(fā)因素主要是強(qiáng)降雨和工程切坡等問題。常見黃土滑坡致災(zāi)條件因子包括地層巖性、地質(zhì)構(gòu)造、坡度、高程、坡形、地形起伏、降雨、溝壑網(wǎng)絡(luò)、植被覆蓋和人類工程活動等。實時降雨量等短時誘發(fā)因素一般用于滑坡危險性預(yù)警建模,易發(fā)性建模不考慮此類的時間效應(yīng)。同時,由于研究區(qū)內(nèi)只有極少數(shù)滑坡由人類活動直接誘發(fā),且工程活動的地點及施工強(qiáng)度具有隨機(jī)性,因此人類活動因子也未被考慮在內(nèi)。對于這一點,地表植被覆蓋率也能間接反映人類活動的影響,歸一化植被指數(shù)(KNDVI)高的區(qū)域人類活動相對弱一些,且有研究表明,土地利用類型因子與KNDVI因子之間存在較強(qiáng)的相關(guān)性,因此主要采用KNDVI來間接表征人類活動特征。
結(jié)合以往研究[9,13],構(gòu)建4大類共12個因子的指標(biāo)體系。其中,地貌類因子包括高程、坡度、坡向、平面曲率、剖面曲率、地形起伏度、地表粗糙度和地表切割深度等;基礎(chǔ)地質(zhì)因子為巖性;水文因子包括地形濕度指數(shù)(KTWI)和距離河流的距離;地表覆被因子為KNDVI。圖3為滑坡易發(fā)性預(yù)測因子,由圖3可見:
高程(圖3(a))是影響滑坡空間分布的重要指標(biāo),地質(zhì)和環(huán)境條件會隨高程而改變,如巖石風(fēng)化程度,地表植被覆蓋等;同時山區(qū)小氣候差異顯著,降雨、日照等在不同高程分布也是不均的。全區(qū)的高程在470~1370 m之間,且西北高,東南低。本文數(shù)字高程模型(DEM)來自開源數(shù)據(jù)集地理空間數(shù)據(jù)云平臺(http://www.gscloud.cn/home),分辨率為30 m。
圖3 滑坡易發(fā)性預(yù)測因子Fig. 3 Influencing factors for landslide susceptibility
坡度(圖3(b))能夠直接影響坡體的穩(wěn)定性系數(shù),還能通過影響坡體內(nèi)部的應(yīng)力分布、地表徑流等來影響滑坡演化,全區(qū)坡度在0~51°之間。需要說明的是,這里的坡度因子并非原始地形數(shù)據(jù),而是提取出的坡度,原因如下:首先大部分滑坡的變形破壞特征以蠕變形式為主,并未發(fā)生長距離滑移破壞,滑動前后坡度變化不大;對于小部分發(fā)生長距離滑移破壞的滑坡,在圈定滑坡邊界時會把滑坡周界都繪制到滑坡范圍內(nèi),并能通過適當(dāng)擴(kuò)大滑坡周界來降低前后坡度變化造成的誤差;此外,30m分辨率柵格單元表征坡度時本身就會造成“坡度平均”的效應(yīng),也會降低滑坡前后造成的坡度變化。因此坡度值的誤差在一定程度上是可容忍的。
不同的坡向會影響坡體所受的太陽輻射的程度,并導(dǎo)致坡體產(chǎn)生的水熱比差異,從而影響坡體上的植被覆蓋與水體蒸騰。坡向的值在–1~360°,其中–1表示平地。
平面曲率反映的是山體曲率在水平面上的投影,可以影響斜坡坡面上的水流。研究區(qū)的平面曲率圖是由DEM得出的,在0~81之間。
剖面曲率(圖3(c))反映的是山體曲率在剖面上的投影,影響著坡體物質(zhì)加速或減速的運動形態(tài),同樣來自DEM。
地形起伏度(圖3(d))反映地貌特征,從整體揭示某地區(qū)的地勢。在GIS中計算每個柵格鄰域內(nèi)高程的最大和最小值,兩者的極差為地形起伏度。
地形粗糙度反映陸地表面的起伏程度和侵蝕強(qiáng)度的指標(biāo),可定義為特定區(qū)域內(nèi)坡度角的變化,并計算為坡度的標(biāo)準(zhǔn)偏差:
式中,S是坡度。延長縣的地形粗糙度在1.00~1.57。
地表切割深度(圖3(e))為地圖中某點周圍區(qū)域的最低海拔和平均海拔之間的差異,可以用來表示地表侵蝕程度。首先利用ArcGIS10.2中的鄰域統(tǒng)計工具計算特定像元周圍的區(qū)域形狀,然后使用統(tǒng)計類型工具來獲取鄰域內(nèi)具有3×3像元大小的高程的平均值和最小值,最后從柵格計算器獲得的平均值和最小值的差即為地表切割深度。
大部分滑坡分布在黃土所在的第四紀(jì)地層,因此有必要將巖性作為區(qū)分滑坡是否容易發(fā)生的一個指標(biāo),這也與“易滑地層”的概念一致(圖3(f))。巖性單元不同,對應(yīng)的巖土體參數(shù)也不同,從根本上影響坡體的穩(wěn)定性,因此該因子已被廣泛應(yīng)用于滑坡易發(fā)性評估研究[4,14–15]。不同巖性單元說明出露的地層年代不同。全區(qū)主要包括第四紀(jì)(Qp1-3)和三疊紀(jì)的地層,其中三疊紀(jì)的地層又可劃分為4個不同組(T2t、T3h、T3y、T2w),因此共出露5套沉積地層。
KNDVI反映了地區(qū)植被覆蓋程度,其可影響并改變斜坡上土壤和水文過程的分布(圖3(g))。KNDVI通常是從遙感影像中得出的:
式中,PNIR和PRed分別代表近紅和紅波。本文選擇Landsat8遙感影像作為KNDVI數(shù)據(jù)源,結(jié)果顯示該地區(qū)的KNDVI值在0.054~0.879范圍內(nèi)。
地形濕度指數(shù)(KTWI)作為一個水文參數(shù),可描述水文過程的地形屬性,因為該因子考慮了坡度和坡體上部貢獻(xiàn)面積(圖3(h))。
式中,a為從特定柵格流出的坡上部面積,tanβ為該柵格的傾斜角。為生成KTWI圖,使用GIS的水文統(tǒng)計工具來計算各柵格的流向和累積徑流量,最后將KTWI值歸一化為無量綱單位。
距河流距離(圖3(i))為河流侵蝕并沖刷坡體,從而制造邊坡臨空面;同時河流影響坡體地下水位,改變巖土體的滲透狀態(tài)。對河流以100m為單位進(jìn)行了緩沖分析,后期分析各個類別的頻率比值,再將頻率比值相近的間隔歸為一個類別。
離散型變量的類別是固定的(如巖性),而連續(xù)型變量,需首先使用一個較小的間隔將該因子等分成多個屬性區(qū)間,然后用式(1)計算不同區(qū)間的FR值,將FR值相近的區(qū)間合并成一個類別。一般而言,具有4~10個類別的因子對于機(jī)器學(xué)習(xí)的應(yīng)用是較為合理的[12],本文所有因子的二級區(qū)間數(shù)為4~9。歸類后各因子類別及其相應(yīng)的FR值見表2。
使用SPSS Statistics22軟件中的Pearson相關(guān)性方法對各因子進(jìn)行相關(guān)性分析,結(jié)果表明所有因子之間的相關(guān)性系數(shù)都小于0.5,說明因素之間均呈弱相關(guān),因此每個因子都可用于本次易發(fā)性評價計算。然后使用RF模型中的均值降低精度和平均降低基尼指數(shù)分析因子重要性,結(jié)果如圖4所示。雖然評價指標(biāo)不同,但是可以發(fā)現(xiàn)高程和距河流的距離始終是最重要的兩個因子,這與表2中FR相吻合。對于高程因子,其在800~1000m海拔內(nèi)的FR大于1,說明該高程區(qū)間利于滑坡發(fā)育;對于距河流距離因子,0~400m范圍內(nèi)的FR均大于1,說明研究區(qū)的滑坡大部分集中溝壑等的附近??傮w而言,巖性類別、坡向和地形起伏度對滑坡發(fā)育具有較為重要的影響,而剖面曲率、地形粗糙度、KTWI和KNDVI對研究區(qū)滑坡的影響相對較小。
圖4 各環(huán)境因子的重要性排序Fig. 4 Ranking of the importance of the factors
3.2.1延長縣滑坡易發(fā)性預(yù)測結(jié)果
分別利用3種機(jī)器學(xué)習(xí)模型預(yù)測延長縣的滑坡易發(fā)性指數(shù),結(jié)果如圖5所示。由圖5可見,3個易發(fā)性指數(shù)的結(jié)果均是從0到1分布,表示滑坡發(fā)生概率從低到高。研究區(qū)東部的滑坡易發(fā)性指數(shù)整體上明顯小于西部地區(qū),滑坡編錄的分布情況與易發(fā)性指數(shù)分布特征相吻合,即西部地區(qū)滑坡多而東部少。雖然3種模型預(yù)測的滑坡易發(fā)性圖分布規(guī)律總體相似,但在很多細(xì)節(jié)上仍然存在差異。比如在研究區(qū)東部,C&RT和RF模型預(yù)測的滑坡易發(fā)性指數(shù)要低于(顏色更深)RBF模型的預(yù)測結(jié)果。
3.2.2滑坡易發(fā)性預(yù)測的精度
采用測試集ROC曲線下面積(SAUC)作為評價不同模型性能的指標(biāo)。C&RT、RF、RBF等3種模型的ROC曲線如圖6所示。從圖6中可知,RF模型的SAUC(0.866)最大,其次是C&RT模型(0.852),而RBF模型的SAUC(0.780)相對較小。可見RF模型預(yù)測性能最好,依次優(yōu)于C&RT和RBF模型。
圖5 各模型易發(fā)性指數(shù)的空間分布圖及接收者操作特征曲線精度Fig. 5 Distribution of landslide susceptibility index from different models
圖6 模型易發(fā)性指數(shù)的接收者操作特征曲線精度Fig. 6 Receiver operating characteristic curve of all the models
3.2.3滑坡易發(fā)性指數(shù)的均值和標(biāo)準(zhǔn)差
進(jìn)一步采用均值和標(biāo)準(zhǔn)差分別反映滑坡易發(fā)性指數(shù)分布的平均水平和離散程度,以此分析不同模型預(yù)測滑坡易發(fā)性指數(shù)的不確定性。圖7為各模型獲得易發(fā)性指數(shù)與對應(yīng)的柵格個數(shù)和概率密度函數(shù),由圖7可知,3種模型預(yù)測的滑坡易發(fā)性指數(shù)分布存在較大差異:C&RT模型預(yù)測的易發(fā)性指數(shù)呈現(xiàn)“中間低兩頭高”的總體趨勢,且主要集中分布在0~0.4及0.6~0.9之間;RF模型預(yù)測的易發(fā)性指數(shù),總體上呈現(xiàn)為“遞減型指數(shù)函數(shù)”的分布模式;而RBF模型預(yù)測得到的易發(fā)性指數(shù)分布相對較為均勻,中間柵格數(shù)較多但在兩級分布較少,且模型的擬合和預(yù)測能力相對較差。
圖7 各模型獲得易發(fā)性指數(shù)與對應(yīng)的柵格個數(shù)和概率密度函數(shù)Fig. 7 Relationship between landslide susceptibility indexes and corresponding number of cells and probability density function
3種模型預(yù)測的易發(fā)性指數(shù)均值排序為:RF(0.318) 3.3.1不同分級方法和機(jī)器學(xué)習(xí)的滑坡易發(fā)性制圖 根據(jù)各模型預(yù)測的滑坡易發(fā)性指數(shù)的結(jié)果(圖5),使用GIS平臺中的自然斷點、等間隔、分位數(shù)和幾何間隔法4種分級方法以及本文提出的頻率比閾值法,分別將各易發(fā)性指數(shù)劃分成5個等級,即極高、高、中、低和極低易發(fā)區(qū),從而獲得延長縣滑坡易發(fā)性分級圖,基于RF模型和5種分級方法下繪制的易發(fā)性分區(qū)圖如圖8所示。由圖8可見,不同分級方法下繪制的滑坡易發(fā)性制圖結(jié)果具有顯著差異。幾何間隔分級方法和RF機(jī)器學(xué)習(xí)模型下的極高和高易發(fā)區(qū)較多,等間隔分級方法和C&RT機(jī)器學(xué)習(xí)模型下的極低和低易發(fā)區(qū)較多。 3.3.2滑坡易發(fā)性分級結(jié)果的不確定性分析 不同工況下的滑坡易發(fā)性圖中各易發(fā)性等級的面積比例(A)和各等級滑坡占全部滑坡的比例(B),以及滑坡比率(B/A)的統(tǒng)計結(jié)果見表3。根據(jù)表3中極高、高易發(fā)區(qū)和極低、低易發(fā)區(qū)A和B值,定量分析不同分級方法下的滑坡易發(fā)性分區(qū)圖的異同。對于C&RT模型,分位數(shù)和幾何間隔法的分級結(jié)果表明,極高和高易發(fā)區(qū)分別識別出91%和91.3%的滑坡,而等間隔法、自然斷點法和頻率比閾值法分別識別出82.0%、83.2%、82.9%;等間隔法在極高易發(fā)區(qū)只識別出28.5%的滑坡,大幅度低于高易發(fā)區(qū),并不合理。RF與C&RT模型中的易發(fā)性分級結(jié)果表現(xiàn)出類似趨勢,分位數(shù)和幾何間隔方法中極高和高易發(fā)性區(qū)的滑坡比例最高,分別達(dá)到了95.5%和96.1%。這兩種方法在極高易發(fā)區(qū)的滑坡點百分比要比其他3種分級方法高17.5%~25.7%。但是RF的等間隔分級法結(jié)果在極高易發(fā)區(qū)能識別大部分滑坡(59.8%),這與C&RT模型有所區(qū)別。 圖8 基于RF模型的滑坡易發(fā)性分區(qū)圖Fig. 8 Landslide susceptibility map by using the RF model 表3 各易發(fā)性制圖中的歷史滑坡統(tǒng)計結(jié)果Tab.3 Satistical results of historical landslides in each landslide susceptibility map 與RF和C&RT模型相比,RBF模型中極高和高易發(fā)區(qū)對歷史滑坡的識別性能較差。尤其在極高易發(fā)區(qū),5種分級方法中最高(分位數(shù)法)也只能識別出54.7%的滑坡數(shù),而最低的等間隔法僅能識別出18.9%的滑坡。進(jìn)一步分析各易發(fā)性等級中的滑坡比率(B/A),該值越大說明該等級中滑坡分布越集中,間接說明了對應(yīng)分級方法的有效性。由表3可知,每種計算工況中滑坡比率值都是從極低到極高易發(fā)區(qū)逐漸增大,顯示在高/極高易發(fā)區(qū)間內(nèi)的滑坡分布更為集中。在各種預(yù)測模型和分級方法組合工況下,頻率比閾值法的極高/高易發(fā)區(qū)的滑坡識別比率普遍大于其他4種方法,可見頻率比閾值的分級效果較優(yōu)。 3.3.3 滑坡易發(fā)性分級結(jié)果驗證分析 利用Google Earth中的遙感影像數(shù)據(jù)對部分滑坡點進(jìn)行驗證,如圖9所示。由圖9可見,大部分柵格均處于極高易發(fā)區(qū),這也說明頻率比閾值法得到的結(jié)果與實際情況較為一致。 圖9 使用遙感影像對于頻率比閾值法進(jìn)行驗證Fig.9 Verification for the frequency ratio threshold method by using the historical remote sensing images 總體而言,分級方法的選擇對于滑坡易發(fā)性制圖的影響較為顯著,同一預(yù)測模型和不同分級方法工況下的滑坡易發(fā)性分區(qū)圖的滑坡分布模式存在較大差異?;赗F模型和幾何間隔法的滑坡易發(fā)性分區(qū)圖的效果最好,其在極高易發(fā)區(qū)和高易發(fā)區(qū)中識別出了96.1%的滑坡點,且僅有0.4%的滑坡點被錯誤地劃分到了低易發(fā)區(qū)中,這種情況中極高和高易發(fā)區(qū)的總面積為全區(qū)面積的41.4%?;赗F模型和頻率比閾值法在極高易發(fā)區(qū)具有最大的滑坡比率(8.190)。因此,對于特定模型,應(yīng)該根據(jù)研究目的和易發(fā)性圖的用途來確定分級方法:如果地災(zāi)管理部門想盡可能識別出多的滑坡用于隱患點的識別與預(yù)警,就選擇分位數(shù)和幾何間隔分級法,但需要注意,不能因為想盡可能識別出多的滑坡數(shù)而提高研究區(qū)滑坡易發(fā)性等級。本文中41.4%的極高和高易發(fā)區(qū)面積是可以接受的;如果易發(fā)性圖被用于應(yīng)急管理工作,如在某次極端降雨之后確定最可能發(fā)生滑坡災(zāi)害的地區(qū),使用較少的極高和高易發(fā)區(qū)識別出盡可能多的滑坡,從而提高滑坡易發(fā)性分區(qū)圖的效率,此時應(yīng)選擇頻率比閾值法。 3.3.4 頻率比閾值法的其他不確定性問題 頻率比閾值法在確定頻率比值轉(zhuǎn)折點時存在一定的不確定性,圖10為頻率比閾值法劃分易發(fā)性級別。由圖10(a)可見,在頻率比值出現(xiàn)較明顯轉(zhuǎn)折點時,比較容易確定其具體的頻率比閾值;但是,在相鄰等級頻率比變化不明顯時,由圖10(c)可見,想要確定極低和低易發(fā)區(qū)的頻率比閾值還有一定困難。如果想要獲得一個較好的分級閾值,需要依靠科研人員的主觀經(jīng)驗判斷。針對頻率比閾值法在確定分級閾值時存在的主觀性問題,在下一步研究中考慮以自然間斷點法劃分的滑坡易發(fā)性分級標(biāo)準(zhǔn)為基礎(chǔ);再結(jié)合滑坡頻率比閾值的分布特征,對自然間斷點法的易發(fā)性分級結(jié)果進(jìn)行調(diào)整;最后,形成自然間斷點—頻率比閾值法實現(xiàn)主客觀有機(jī)結(jié)合改進(jìn)滑坡易發(fā)性分級方案。在頻率比值變化不明顯時,以自然間斷點法的分級閾值作為參考基礎(chǔ),再結(jié)合該閾值處的頻率比值對易發(fā)性分級閾值進(jìn)行綜合確定。頻率比值在某段易發(fā)性值范圍內(nèi)都變化較大,導(dǎo)致難以確定頻率比劃分的閾值時,就可以參考自然間斷點法的閾值劃分結(jié)果,確定頻率比閾值。 圖10 頻率比閾值法劃分易發(fā)性級別Fig.10 Frequency ratio threshold method to classify susceptibility levels 本文使用C&RT、RF和RBF等3種經(jīng)典機(jī)器學(xué)習(xí)模型預(yù)測延長縣滑坡易發(fā)性,三者預(yù)測精度均高于0.75。進(jìn)一步采用4種基于GIS的分級方法以及本文新提出的頻率比閾值法,對3種滑坡易發(fā)性預(yù)測結(jié)果進(jìn)行級別劃分,結(jié)果顯示,不同機(jī)器學(xué)習(xí)模型中效果最好的易發(fā)性分級方法也有差異:幾何間隔法和分位數(shù)法劃分出的極高和高滑坡易發(fā)區(qū)面積顯著大于自然斷點法、等間隔分級法和頻率比閾值法;然而自然斷點法、等間隔分級法和頻率比閾值法的極高和高易發(fā)區(qū)的滑坡比率更大,尤其是頻率比閾值法的滑坡比率普遍大于其余4種基于GIS的分級方法。從歷史滑坡識別數(shù)量的角度出發(fā),基于RF模型和幾何間隔法的滑坡易發(fā)性圖的性能最好,極高和高易發(fā)性區(qū)中共識別出了96.1%的滑坡,而極低和低易發(fā)性區(qū)中僅有1.4%的滑坡,并存在明顯的極高/高易發(fā)區(qū)比例過高;若從滑坡點的分布密度來看,基于RF模型和頻率比閾值分級法的滑坡易發(fā)性圖的性能最好,極高和高易發(fā)區(qū)只占全區(qū)面積的16.2%,卻能識別出79.7%的滑坡。本文提出的頻率比閾值法的定量精度與已知的基于GIS的分類方法相類似,且極高和高易發(fā)區(qū)中的滑坡密度更大,達(dá)到了用較少的高和極高易發(fā)區(qū)來表征盡可能多的已知滑坡的目的,且在極低和低易發(fā)區(qū)中被錯誤分類的滑坡很少,說明其是一種適用于防災(zāi)減災(zāi)實際工作的新型易發(fā)性等級分區(qū)方法。3.3 不同易發(fā)性等級中的滑坡分布模式
4 結(jié) 論