周天倫,曾 超,范 晨,畢鴻基,龔恩慧,劉 曉
(1.中國地質大學(武漢)教育部長江三峽庫區(qū)地質災害研究中心,湖北 武漢 430074;2.中交第二公路勘察設計研究院有限公司,湖北 武漢 430056)
滑坡是我國頻發(fā)的一種地質災害,不僅給人類生命安全帶來威脅,而且對財產、環(huán)境、資源等具有破壞性[1]。面對嚴峻的滑坡災害,傳統(tǒng)的面向單體滑坡的預測研究已顯得力不從心,區(qū)域性的、超前性的預測研究迫在眉睫[1]。近年涌現(xiàn)了大量區(qū)域滑坡易發(fā)性評價方法,如國外學者LEE等[2]使用頻率比法和邏輯回歸模型對馬來西亞雪蘭莪州進行了滑坡敏感性評價,并對兩種模型做出比較評價;POURGHASEMI等[3]運用支持向量機法對伊朗戈勒斯坦省滑坡易發(fā)性做出了評價。國內學者DU等[4]結合遙感數據集與啟發(fā)式易發(fā)性模型和統(tǒng)計學易發(fā)性模型,克服了滑坡數據空間覆蓋有限和滑坡解譯不確定性的問題;高克昌等[5]應用信息量模型對重慶萬州區(qū)進行滑坡易發(fā)性區(qū)劃;劉藝梁等[6]運用邏輯回歸模型和人工神經網絡模型(Artificial Neural Network,ANN)對三峽壩區(qū)東段進行滑坡易發(fā)性研究,并對兩種模型進行比較分析。
汶川地震后,隨著研究的深入,JIANG等[7]、馬國超[8]和王磊[9]對汶川縣及周邊縣滑坡災害分布做出了研究和評價,總體技術路線是:基于收集的滑坡數據,選取影響滑坡發(fā)生的影響因子,以各二級因子為輸入,通過特定的評價模型在GIS平臺上進行柵格運算,得出易發(fā)性分區(qū)圖。其中,對各個影響因子再次進行分級,以形成二級因子的過程是關鍵步驟之一。但現(xiàn)有文獻對此的處理通常要么基于難以把握的主觀判斷[10?11],要么基于武斷的等距分級等方法[12?14],因而忽視了二級因子本身所承載的內在聚類的特異性。
鑒于此,本文對傳統(tǒng)等距分類方法進行改進,提出一種“快速聚類-信息量模型”。該模型通過對二級因子的分類優(yōu)化,以及對滑坡樣本實際面積的考慮,提高了汶川及周邊兩縣的滑坡易發(fā)性評價精度,為該區(qū)域滑坡地質災害的防控提供了參考。
文章致力于提出“快速聚類-信息量模型”,其特色在于:第一,采用快速聚類法對生成信息量模型所需的二級評價因子進行分類;第二,考慮滑坡樣本的實際面積對信息量模型的影響?;谏鲜鰞身椞厣?,與常規(guī)的處理方案(等距分類、不考慮滑坡面積)展開對比分析,探究滑坡規(guī)模對滑坡區(qū)域易發(fā)性評價的影響,總體技術路線見圖1。首先,以汶川及周邊兩縣(理縣和茂縣)為研究區(qū),從截至2020年發(fā)生的176個歷史滑坡點隨機抽取159處作為訓練樣本,剩余17處作為驗證樣本;然后選定7個影響因子,結合快速聚類法對各因子進行分級,采用信息量模型生成滑坡災害易發(fā)性區(qū)劃圖;最后,利用線下面積(Area Under Curve,AUC)以及17處驗證滑坡點的分布等指標,與常規(guī)的二級因子等距分類方案所得結果進行對比,評價兩者的預測精度。
圖1 技術路線圖Fig.1 Technology road mapping
1.1.1 理論基礎
信息量法的理論依據主要是信息論和工程類比法,應用于滑坡易發(fā)性評價是通過統(tǒng)計分析歷史已發(fā)生的滑坡分布資料和導致滑坡發(fā)生的影響因子的實際數據來計算影響因子的信息量值。簡而言之,就是從研究區(qū)已發(fā)生的滑坡實際情況出發(fā),把影響滑坡發(fā)育的各因子的實測值轉化為影響滑坡易發(fā)性的信息量值[13]。按式(1)分別計算各因素xi對滑坡發(fā)生事件H提供的信息量,記為I(xi,H)[5]。
式中:P(xi,H)——滑坡發(fā)生情況下出現(xiàn)因子xi的概率;
H——滑坡發(fā)生事件;
P(xi)——區(qū)域內因子xi出現(xiàn)的概率。
1.1.2 基于滑坡樣本點數的信息量模型
式(1)僅是理論模型,在實際應用中常使用樣本頻率計算:
式中:Ii——評價單元總信息量;
Ni——xi因子區(qū)域內發(fā)生的滑坡數;
N——全區(qū)發(fā)生滑坡總數;
Si——全區(qū)含有xi因子所占面積;
S——全區(qū)總面積;
n——影響因子數。
1.1.3 基于滑坡樣本面積的信息量模型
滑坡是具有實際空間體積與位置的空間體,所以單純考慮滑坡點數量的信息量模型忽視了滑坡體規(guī)模對于信息量的影響,故對上述信息量模型的式(2)進行修改:
式中:Ai——xi因子區(qū)域內發(fā)生的滑坡面積;
A——全區(qū)發(fā)生滑坡總面積。
1.2.1 快速聚類與等距分類的區(qū)別
聚類是一個將數據集劃分為若干個子集的過程,并使得同一集合內的數據對象具有較高的相似度,而不同集合中的數據對象則是不相似的,相似或不相似的度量是基于數據對象描述屬性的取值來確定的,通常就是利用各個聚類間的距離來進行描述[15]。其中快速聚類法是聚類分析中的方法之一,其核心思想是通過對聚類中心的迭代更新,將N個樣本會分在K個類別中,并保證每個數據到對應聚類中心的距離(誤差)平方和最小,從而保證各數據組內盡量相似,組間相似性盡可能小。該方法并不需要事先知曉各個類別的具體劃分,屬于無監(jiān)督學習。
分類不同于聚類,分類是指在已知數據集類別標號的情況下將各數據分別屬于哪一類標記出來,這是一種監(jiān)督學習的過程,故而等距分類法所隱含的邏輯是假設樣本對于某一特征符合均勻分布,然而這一隱含假設在多數情況下并不能嚴格滿足。也就是說,對于指定的影響因子,實際發(fā)生的滑坡在影響因子值域中的分布并不均勻。因此,等距分類會因不符合實際情況而引入較大誤差,經過復雜的系統(tǒng)誤差傳遞、甚至放大等過程影響到最終的易發(fā)性評價結果。
快速聚類法區(qū)別于等距分類方法存在割裂樣本內在聚類的特異性等缺點,其有著不需要事先知曉樣本類別標簽,僅通過組內類別中心的迭代更新以達到將樣本按照組內盡量相似,組間相似度盡可能小的方式分類的優(yōu)點。且該方法具有易于描述、計算效率高且適于處理大規(guī)模數據等優(yōu)點,自20世紀70年代以來,該算法在國內外已經被應用到包括自然語言處理、土壤、考古等眾多領域[16]。
1.2.2 快速聚類法的理論及應用
分類時應用“歐式距離法”和就近原則確定聚類中心和樣本所屬類別,通過多次迭代聚類中心不再移動后完成分類,每個定量因子聚類流程如圖2所示。具體公式如下:
式中:Xi——樣本i(i=1,2,3,···,Q),Q為樣本個數;
Xc——樣本總體聚類中心(c=1,2,3,···,K),K為聚類數;
w——樣本Xi屬性指標個數;
Xij——樣本Xi的j屬性指標值;
Xjc——指標屬性j的聚類中心(c=1,2,3,···,K);
d(Xi,Xc)——樣本Xi關于聚類中心Xc的歐氏距離。
樣本Xi經過式(4)計算后,按照就近原則(距離聚類中心最近)將樣本分為K類。之后計算各組內樣本平均值作為新的聚類中心,并重新計算樣本與聚類中心的距離,然后更新分類,直至聚類中心不發(fā)生變化后,聚類結束,新的聚類中心計算公式如下:
式中:m——迭代次數;
第m次迭代后屬性指標j的聚類中心;
——第m?1次迭代后的分類結果(t=1,2,3,···,K);
——第m?1次迭代后類別中的樣本個數。
根據上述快速聚類原理分別對各定量影響因子聚類,每個定量因子聚類流程如圖2所示,具體聚類流程如下:
圖2 快速聚類流程圖Fig.2 Flow chart of K-means clustering model
(1)輸入滑坡數據集單個定量影響因子屬性值進行聚類分析(樣本空間為一維)。
(2)輸入初始聚類中心和所期望聚類數目K后,計算各樣本距離初始聚類中心的歐式距離,并根據就近原則將各樣本劃分為K類。
(3)重新計算組內聚類中心(組內平均值),從而得到新一輪的聚類中心并重復上述過程直到前后兩次聚類中心的差滿足收斂條件。
(4)以各類別中影響因子屬性值的最大值和最小值作為區(qū)間斷點,從而確定各類別的劃分區(qū)間,聚類結束。
選取相互毗鄰的汶川縣、理縣及茂縣作為研究區(qū),三縣位于四川省阿壩藏族羌族自治州東南部,總面積約為12 257.63 km2(圖3)。地勢由西北向東南傾斜,區(qū)內群山連綿,峰巒重疊,地貌為典型的高山峽谷區(qū)域,海拔762~5 974 m,高差懸殊,溝谷縱橫。三縣內三疊系、二疊系、侏羅系、志留系、石炭系、寒武系等地層均有出露,巖性復雜多變。研究區(qū)內主要分布有北東-南西走向斜穿汶川的茂縣-汶川斷裂和北川-映秀斷裂,兩側有明顯的片理和牽引構造的東西走向的石大關斷層[13]以及馬爾康北西向構造和薛城弧形構造。整體上地質構造復雜,新構造運動復雜,主要斷裂帶處巖體破碎,裂隙發(fā)育,風化嚴重,進一步導致滑坡發(fā)生。區(qū)內水系分布廣泛,主要分布有雜谷腦河、土門河、壽江和草坡河等支流,最后由西向東匯入岷江。
圖3 研究區(qū)地理位置及滑坡調查圖Fig.3 Location of study area and distribution of landslides
研究所采用的數據源主要包括:(1)滑坡分布數據共176處(其中分為訓練樣本159處與驗證樣本17處)來自于四川省自然資源廳和國家地球系統(tǒng)科學數據中心(國家科技基礎條件平臺—國家地球系統(tǒng)科學數據中心(http://www.geodata.cn));(2)1∶50 000區(qū)域地質構造圖;(3)30 m GDEMV2數字高程數據(地理空間數據云);(4)研究區(qū)域水系矢量數據和地表覆蓋數據均來自全國地理信息資源目錄服務系統(tǒng)(www.webmap.cn)。
滑坡易發(fā)性評價往往考慮多種要素的影響;為便于空間疊加等分析,常使用支持柵格數據結構的GIS軟件或利用GIS柵格分析功能[17],柵格數據存儲形式有利于滑坡易發(fā)性評價的研究與計算。
進行柵格分析前,需統(tǒng)一柵格單元的大小,柵格大小對滑坡易發(fā)性評價的影響逐步傳遞。所以本研究根據研究區(qū)1∶50 000底圖和李軍等[17]提供的柵格大小選定經驗公式計算:
GS=7.49+0.0006S?2.0×10?9S2+2.9×10?15S3(6)
式中:GS——柵格大??;
S——底圖比例尺分母。
最終選定柵格大小為30 m×30 m,所以將研究區(qū)共劃分為13 619 588個評價單元。
滑坡災害發(fā)生是多個環(huán)境和人為因素共同造成,王磊[9]在理縣地區(qū)以坡度、坡向、地層巖性、地質構造、河流水系、降雨、地震、人類工程活動為影響因子分析滑坡易發(fā)性;韓蓓[13]選取坡度、坡向、地層巖性、地質構造、河流水系、降雨和人類工程活動為影響因子分析岷江上游汶川-疊溪河段滑坡易發(fā)性;JIANG等[7]選取坡度、坡向、高程、巖性、地質構造、降雨、地震和土地利用類型作為汶川地區(qū)加權信息量模型的評價因子;王帥永[18]認為地震烈度、斷裂帶、水系、高程、坡度、巖性是汶川地區(qū)滑坡發(fā)生的主要因素;YANG等[19]選取坡度、地形粗糙度、高程、巖體、距公路的距離、地震烈度、距居民點的距離評價都汶公路滑坡易發(fā)性。
基于上述研究,并結合本研究區(qū)收集到的地質資料和矢量數據,選取坡度、坡向、高程、地層巖性、距構造的距離、距水系的距離以及土地利用為研究區(qū)滑坡災害易發(fā)性評價影響因子[20?22],最終結果見表1。
表1 影響因子選擇Table 1 Selection of impact factors
影響因子的分級是指把每個影響因子按照一定分類標準分為對發(fā)生滑坡貢獻相似的類別。本文為比較二級因子等距分類與快速聚類法分類對最終滑坡信息量結果的影響,對坡度、坡向、高程、距水系的距離、距構造的距離分別用上述兩種方法進行二級因子的分類。地層巖性與土地利用則依據巖石堅硬程度和土地類型分類。
3.3.1 快速聚類法分類
本文根據159處滑坡樣本點隸屬的各因子值為樣本進行快速聚類分析,將7個影響因子進行分類。
(1)坡度、坡向、高程
坡度、坡向和高程構成研究區(qū)3個的地形因子。本研究對坡度、坡向和高程因子分別借助SPSS軟件進行快速聚類分析,分類結果如圖4(a)、4(c)、4(e)所示。結果表明研究區(qū)滑坡主要集中于坡度在16°~37.1°內,其中16°~23.5°的滑坡比率較大;坡向在273°~360°范圍內滑坡數與滑坡比率最大,各坡向區(qū)間面積比較均勻;高程在2 141~2 647 m滑坡發(fā)生較多,但在0~1 560 m范圍內滑坡比率較大。
圖4 影響因子分類圖Fig.4 The classification diagram of the impact factors
(2)距水系的距離
研究區(qū)水系發(fā)達,河流密布,主要有岷江與其各大支流,水系的切割為滑坡的發(fā)生提供了臨空面,滑坡分布與距水系的距離有著極其密切的聯(lián)系[17]。本研究以159處滑坡點距水系的距離為樣本,借助SPSS軟件進行快速聚類分析,共將距水系的距離分為5類,分類結果如圖4(g)所示。結果表明距水系0~375 m范圍內滑坡比率最大,滑坡多發(fā),隨著距水系距離越遠,滑坡數和滑坡比率逐漸減小。
(3)距構造的距離
地質構造是區(qū)域滑坡災害分布的一大主導因素。本研究以159處滑坡點距構造的距離為樣本,借助SPSS軟件進行快速聚類分析,將該因子共分為8類,結果如圖4(i)。結果表明距構造0~912 m范圍內滑坡發(fā)生比率與頻數均較大。隨著距離構造越遠,滑坡數和滑坡比率整體上呈現(xiàn)遞減趨勢,偶有波動。
(4)地層巖性
地層巖性是滑坡災害發(fā)生的內在因素,由于研究區(qū)地層年代廣泛,巖性復雜,分布有中分化-強風化巖漿巖、千枚巖、灰?guī)r、泥巖、碳酸鹽巖和砂巖等。本次根據巖石的堅硬程度將研究區(qū)巖石分為5類:①堅硬巖石;②較硬巖石;③較軟巖石;④軟硬相間巖石;⑤軟巖。具體分類結果如圖4(k)。
(5)土地利用
本文根據全國地理信息資源目錄服務系統(tǒng)提供的地表覆蓋數據將研究區(qū)土地類型分為4類:①耕地;②林地;③人類活動;④其他用地。具體分類結果如圖4(l)。
3.3.2 等距分類法分類
為更直觀地評價快速聚類法對二級因子分類的效果,亦同時開展了二級因子的等距分類,以便作平行對比。
(1)坡度、坡向、高程
本文對坡度以10°為間距分類;坡向則以地理方位分為東南西北與平地;高程以1 000 m為間距分類。分類結果如圖4(b)、4(d)、4(f)所示。
(2)距水系的距離
水系以600 m為間距生成緩沖區(qū),分為5類:0~600 m、600~1 200 m、1 200~1 800 m、1 800~2 400 m、>2 400 m。分類結果如圖4(h)所示。
(3)距構造的距離
本文以1 000 m為間距,將距離構造的距離分為8 類:0~1 000 m、1 000~2 000 m、2 000~3 000 m、3 000~4 000 m、4 000~5 000 m、5 000~6 000 m、6 000~7 000 m、>7 000 m。具體分類結果如圖4(j)所示。
(4)地層巖性與土地利用
地層巖性和土地利用則與3.3.1小節(jié)分類結果相同,分類結果如圖4(k)、4(l)所示。
全區(qū)易發(fā)性區(qū)劃依據研究區(qū)各柵格信息量的分布進行劃分,區(qū)域信息量越高則其易發(fā)性越大。使用ArcGIS自然斷點法將全區(qū)域滑坡易發(fā)性劃分為5個等級:極高、較高、中等、較低、極低。ArcGIS自然斷點法參考了聚類的思想,其認為樣本之間存在著自然斷點,能夠將樣本自然劃分。依照這一思想,該方法通過尋找最大方差擬合優(yōu)度(GFV)來確定最優(yōu)劃分類別,使得組內盡量相似,組間盡量相異,但是其與聚類方法不同的是該方法兼顧了各類別中樣本數盡量相近,確保不存在特定類別樣本數過少而引起的過度分類。
4.2.1 快速聚類-數量模型分析
首先,根據各影響因子快速聚類圖層(圖4)與滑坡樣本點做空間分析,得到各因子各區(qū)間內滑坡數,并通過式(2)僅考慮滑坡數量計算各因子不同等級區(qū)間的信息量(表2)。之后對7個影響因子進行重分類,賦予各因子不同等級相應的信息量值。
最后利用ArcGIS柵格計算器對7個因子信息量值做柵格疊加運算,并用ArcGIS自然斷點法將滑坡易發(fā)性信息量共劃分為5個等級:極高、較高、中等、較低、極低。最終得到快速聚類-數量模型滑坡易發(fā)性區(qū)劃圖,如圖5(a)所示。
4.2.2 等距分類-數量模型分析
依據4.2.1所述流程計算等距分類-數量模型,計算結果如表2所示,同樣將信息量利用自然斷點法分為5個等級:極高、較高、中等、較低、極低。分級結果如圖5(b)所示。
4.3.1 快速聚類-面積模型分析
首先,將各因子快速聚類圖層(圖4)與滑坡樣本點做空間分析,得到各因子各區(qū)間內滑坡總面積,并通過式(3)計算各因子不同等級區(qū)間的信息量(表3)。最后通過對各因子疊加分析和自然斷點法將全區(qū)信息量分布同樣分為5個等級:極高、較高、中等、較低、極低。分級結果如圖5(c)所示。
4.3.2 等距分類-面積模型分析
與4.3.1所述流程相同,計算各因子不同等級區(qū)間的信息量(表3),最終得到等距分類-面積模型滑坡易發(fā)性區(qū)劃圖,并分為五個易發(fā)等級:極高、較高、中等、較低、極低。如圖5(d)所示。
圖5 研究區(qū)滑坡易發(fā)性區(qū)劃Fig.5 Landslide susceptibility regionalization in the study area
為評價研究區(qū)各因子對發(fā)生滑坡事件的敏感性,根據表2和表3各二級因子信息量值,分別統(tǒng)計各影響因子信息量的均值和方差(圖6)。關于影響因子信息量的統(tǒng)計分析有如下幾點認識:
表2 基于滑坡樣本點數的信息量表Table 2 Information table based on landslide sample points
表3 基于滑坡樣本面積的信息量表Table 3 Information table based on landslide sample area
第一,零信息量的含義。由式(2)和式(3)可知:二級因子信息量為零時表示滑坡發(fā)生條件下該二級因子出現(xiàn)的概率與該二級因子的面積占比(所覆蓋的區(qū)域面積占研究區(qū)總面積的比例)相等。更進一步,如果某一級因子與滑坡發(fā)生與否不具有相關性,則其下的各二級因子所呈現(xiàn)的信息量將以零為數學期望。
第二,自然對數的非線性放大效應。信息量是取自然對數而得到,由于自然對數函數呈現(xiàn)出非線性的放大效應,且在自變量(0,1)區(qū)間內的函數值為負數,即自變量越小,函數值以指數倍方式取負值。由此當滑坡在各個檔位的二級因子中分布不均勻時,某一檔位的二級因子出現(xiàn)概率明顯小于該二級因子的面積占比時,導致其信息量被放大為一個很大的負值,繼而在求二級因子平均值時,很大程度上掩蓋其它二級因子的信息量大小,從而整體上呈現(xiàn)出負數均值,如圖6(a)所示。
圖6 影響因子信息量值統(tǒng)計分析圖Fig.6 Statistical analysis diagram of impact factor information value
第三,信息量均值偏移基準線(零值)的程度,反映了該因子對滑坡發(fā)生的敏感程度。當某二級因子其下的若干分組對滑坡的敏感性有明顯差異時,其信息量不但會呈現(xiàn)出較大的方差,如圖6(b)所示,而且在上述第一、第二兩條規(guī)律作用下,其均值將會明顯偏移基準線。綜上可知:偏移基線越遠、方差越大,預示著該因子越敏感。
基于上述三點認識,從圖6中可總結出研究區(qū)以下幾點規(guī)律:
(1)同一影響因子在不同模型條件下,其均值偏離基線的程度不同,且方差也不相同。這反映了隨著模型的逐步改進(由考慮僅滑坡數量改進為考慮滑坡規(guī)模、由二級因子等距分類改進為快速聚類),影響因子的敏感性被逐步挖掘出來。模型c相比較其他模型而言,離基線更遠,且方差更大,預示著有最好的數據挖掘潛能,對滑坡的識別更加敏感;與之相反,模型b的數據挖掘潛能最低。
(2)在模型c條件下:從圖6(a)可知,高程、水系、構造這三個因子被凸顯;而從圖6(b)來看,則是高程、水系、土地利用這三個因子被凸顯。綜上可知,高程和水系這兩個因子對判斷滑坡易發(fā)性最為敏感。
(3)由于巖性和土地利用的二級因子是通過定性分類,故其信息量值存在重合點,無法體現(xiàn)快速聚類的優(yōu)勢。特別是巖性因子,其信息量均值接近基準值,且方差低,表明該因子對指示滑坡發(fā)生與否相對不敏感。
由圖5可知四種區(qū)劃方法存在差異,但其中都能發(fā)現(xiàn):
(1)極高易發(fā)區(qū)與較高易發(fā)區(qū)主要分布于水系干流與各大支流附近,例如岷江,雜谷腦河等,其信息量排名在表2和表3中均在前10名。
(2)龍門山斷裂帶、理縣薛城弧形構造以及馬爾康北西構造地區(qū)滑坡易發(fā)性高,這可能是由于構造運動活躍,斷裂帶致使巖體破碎,裂隙發(fā)育,例如汶川東部多分布中風化至強風化的巖漿巖,其信息量排名較高。
(3)極高易發(fā)區(qū)多分布于2 000 m高程以下范圍,且極高易發(fā)性地區(qū)大多分布有較軟巖石、軟硬相間巖石與軟巖且多見于耕地,這可能是因為人為改造邊坡的植被覆蓋與地形導致滑坡多發(fā),表2和表3中耕地信息量排名均在前2也能證明耕地對滑坡的影響。
4.6.1 基于高危區(qū)占比的精度評價
為分析研究區(qū)滑坡易發(fā)性評價結果的準確性,并對兩種分類方法以及計算時是否考慮滑坡面積進行比較,故對四種模型分別進行橫向與縱向的分析對比。本研究利用從176處滑坡點中隨機抽取的17處驗證滑坡點和159處樣本點對上述四種方法評價結果進行驗證,同時根據滑坡易發(fā)性區(qū)劃圖(圖5)統(tǒng)計各易發(fā)區(qū)滑坡發(fā)生占比與滑坡比率,結果如圖7和圖8所示。由圖7(a)所示,將各模型極高易發(fā)區(qū)與較高易發(fā)區(qū)的滑坡占比相加發(fā)現(xiàn):①模型a(快速聚類-數量)的樣本點中分布于極高和較高易發(fā)區(qū)的滑坡占比總和為93.08%,高于模型b(等距分類-數量)的對應值86.16%;②模型c(快速聚類-面積)中樣本點在極高和較高易發(fā)區(qū)的滑坡占比總和96.27%,也高于模型d(等距分類-面積)中對應值93.81%;③模型c(快速聚類-面積)中樣本點在極高和較高易發(fā)區(qū)的滑坡占比總和為96.27%,高于模型a(快速聚類-數量)的對應值93.08%;④模型d(等距分類-面積)中樣本點在極高和較高易發(fā)區(qū)的滑坡占比總和為93.81%也明顯分別高于模型b(等距分類-數量)中對應值86.16%。與圖7(a)類似,由圖7(b)展示的驗證點統(tǒng)計規(guī)律也符合上述①~④條。
圖7 四種模型評價結果對比之:滑坡占比(易發(fā)區(qū)間滑坡/總滑坡)Fig.7 Comparison of the evaluation results of the four models: landslide proportion (susceptibility grade landslide/total landslide)
綜合①②說明快速聚類法優(yōu)于等距分類;綜合③④說明考慮滑坡面積的模型具有優(yōu)勢,而常規(guī)的僅考慮滑坡數量的方法,由于忽視了滑坡規(guī)模對信息量的影響,存在弊端。
由圖8可以得出模型a(快速聚類-數量)與模型c(快速聚類-面積)驗證點與樣本點在不同易發(fā)性區(qū)間的滑坡比率分布趨勢較為一致,即隨著滑坡易發(fā)性等級的增加,各級滑坡比率逐漸遞增,符合滑坡易發(fā)性等級劃分原則,但是模型b(等距分類-數量)和模型d(等距分類-面積)中驗證點在不同易發(fā)性區(qū)間的滑坡比率分布趨勢不一致,出現(xiàn)較高易發(fā)區(qū)的滑坡比率小于中等易發(fā)區(qū)(模型b)和極高易發(fā)區(qū)滑坡比率小于較高易發(fā)區(qū)(模型d)。上述規(guī)律也可以佐證快速聚類法優(yōu)于等距分類法。
圖8 四種模型評價結果對比:滑坡比率(滑坡占比/易發(fā)區(qū)間面積比)Fig.8 Comparison of evaluation results of the four models: landslide ratio (landslide proportion/area ratio of susceptibility area)
4.6.2 基于AUC的精度評價
為進一步評價兩種分類方法以及信息量計算時是否考慮滑坡面積對于信息量模型預測精度的影響,故以滑坡易發(fā)面積百分比與其對應的實際滑坡累加占比構建成功預測曲線,結果如圖9所示。圖9表示易發(fā)性逐漸遞減的情況下實際滑坡發(fā)生累積百分比的變化情況,曲線越靠近左上角,曲線下面積(AUC)越大則表示模型評價精度越高。由圖9可知模型a線下面積比(AUC)為81.95%,模型b為80.46%,前者比后者高出了1.49%,評價精度有所提升。其次,在同時考慮滑坡面積時,模型c優(yōu)于模型d,精度提升1.62%,上述亦可證明快速聚類法優(yōu)于等距分類法。在相同二級因子分類方法下,模型c比模型a精度提升了5.30%;模型d比模型b精度提升了5.17%,說明考慮滑坡面積信息量計算更為精確。最終在快速聚類法和考慮滑坡面積信息量計算的兩項優(yōu)勢加持下可以得出快速聚類-面積模型(模型c)為最優(yōu)評價模型(AUC=87.25%),結合圖7和圖8的精度評價結果證明二級因子快速聚類法與考慮滑坡面積的信息量計算法能夠提升滑坡易發(fā)區(qū)域預測精度,對研究區(qū)滑坡地質災害預測與防治具有實際意義。
圖9 滑坡成功預測曲線Fig.9 The curve of successful landslide prediction
本文提出了基于快速聚類法的信息量模型,并以汶川及周邊兩縣(理縣和茂縣)為例,開展了滑坡災害易發(fā)性評價。主要結論如下:
(1)將汶川及周邊兩縣(理縣和茂縣)滑坡災害易發(fā)性分為極低、較低、中等、較高、極高五類。其中較高和極高易發(fā)區(qū)主要集中于高程較低的主要水系或斷裂帶附近,巖性通常在較軟巖石以下,且多見于耕地。評價結果對該區(qū)域滑坡地質災害的防控提供了參考。
(2)新模型采用快速聚類法對二級因子的分類進行了優(yōu)化,提高了滑坡易發(fā)性評價的精度。與傳統(tǒng)的等距分類法評價結果對比表明:①快速聚類-信息量模型的AUC值高于等距分類-信息量模型;②驗證點與樣本點不僅滑坡比率的分布更為符合滑坡易發(fā)性等級劃分的基本原則,而且處于極高易發(fā)區(qū)與較高易發(fā)區(qū)的滑坡占比均高于等距分類法。因此,基于快速聚類-信息量模型比等距分類-信息量模型在滑坡災害易發(fā)性預測方面有著更高的精度。
(3)通過對計算信息量時是否考慮滑坡面積,將上述新模型繼續(xù)分為兩個子類。比較發(fā)現(xiàn),在相同二級因子分類方法的前提下,考慮滑坡面積的信息量模型均優(yōu)于基于滑坡數量的信息量模型,其AUC值分別提高了5.30%(模型c比模型a)和5.17%(模型d比模型b)。