国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于信息增益比-支持向量機的泥石流易發(fā)性評價

2023-11-02 11:47:16姚皖路趙俊三李坤
城市勘測 2023年5期
關鍵詞:易發(fā)柵格泥石流

姚皖路,趙俊三,李坤

(1.昆明理工大學國土資源工程學院,云南 昆明 650093; 2.智慧礦山地理空間信息集成創(chuàng)新重點實驗室,云南 昆明 650093;3.云南省高校自然資源空間信息集成與應用科技創(chuàng)新團隊,云南 昆明 650211)

0 引 言

泥石流是在自然因素、人文因素或者自然與人文因素共同作用下形成的對生態(tài)環(huán)境或人類生命財產造成破壞的地質災害[1],據(jù)自然資源部發(fā)布的《2020年全國地質災害通報》統(tǒng)計,2020年全國共發(fā)生地質災害 7 840起,其中泥石流災害899起,約占地質災害總數(shù)的11.47%,對基礎設施、城市發(fā)展和人民生命財產造成重大損害和威脅。因此,開展區(qū)域泥石流災害易發(fā)性評價,對泥石流預警和防治具有重要的意義。

目前,泥石流易發(fā)評價方法主要分為定性評價方法(泥石流編錄方法和知識驅動方法)和定量評價方法(數(shù)據(jù)驅動方法和物理驅動方法)[2]。定性評價方法依據(jù)主觀經驗來篩選泥石流指標因子,然后根據(jù)指標因子來計算某區(qū)域泥石流暴發(fā)的概率,容易獲得,但是受到主觀因素影響較大。物理驅動方法主要是通過模擬泥石流暴發(fā)的環(huán)境來對泥石流進行預測,由于模型構建復雜且造價高,不適用于區(qū)域性的泥石流易發(fā)性評價[3]。隨著數(shù)據(jù)質量的提高,基于數(shù)據(jù)驅動的定量評價方法被廣泛運用于區(qū)域泥石流易發(fā)性評價。數(shù)據(jù)驅動評價模型主要包括信息量模型[4]、證據(jù)權重[5]、邏輯回歸[6]、人工神經網絡[7]、支持向量機[8]和隨機森林[9]等。在這些模型中,機器學習方法因為其良好的非線性預測能力,成為泥石流易發(fā)性評價建模主流。泥石流暴發(fā)受多種不同指標因子共同控制,不同指標因子對泥石流發(fā)育的貢獻率不同,一些因子可能包含著噪聲,從而降低泥石流易發(fā)性模型的精度。因此,有必要對泥石流影響因子的貢獻率進行評估,選擇合適的因子,并去除不相關或不重要的因子進行進一步的分析[10]。使用信息增益比來計算各指標因子對于泥石流發(fā)育的貢獻率,信息增益比為定量識別和選擇泥石流易發(fā)性建模的主控因子提供了強有力的方法。

本文以典型高原山區(qū)的東川區(qū)為例,綜合考慮研究區(qū)復雜的自然條件,從地形地貌、水文氣象、地質條件、植被覆蓋和人類活動5個維度選取泥石流易發(fā)性評價指標因子。使用信息增益比來篩選影響泥石流發(fā)育的主控因子,結合支持向量機模型(SVM)來構建東川區(qū)泥石流易發(fā)性評價模型,并對研究區(qū)泥石流易發(fā)性進行分析,旨在提高地質災害的預報能力,讓決策者可以更好地了解東川區(qū)地質災害發(fā)生的空間概率,進而更加準確地對地質災害進行監(jiān)測、預測并且能夠及時對災害進行預警,將地質災害所帶來的損失降至最低,以期為國土空間規(guī)劃提供決策參考。

1 研究區(qū)域與數(shù)據(jù)來源

1.1 研究區(qū)域

研究區(qū)位于云南省東北部,昆明市最北端,地處云貴高原北部邊緣,東與會澤縣接壤,南與尋甸縣相接,西與祿勸縣相靠,北與四川省會東縣和會理縣隔金沙江相望,介于102°47′E-103°18′E,25°57′N-26°32′N,國土面積約為 1 865 km2(圖1)。研究區(qū)內溝谷縱橫,地勢險峻,海拔介于695~4 344.1 m之間,高差達到 3 649.1 m,主要水系為小江流域,由南向北貫穿整個研究區(qū),復雜的地形條件和水文條件在該地區(qū)地質災害中起著重要的作用。由于長期的伐木煉銅、過度墾殖等人類活動造成研究區(qū)植被覆蓋率較低。其獨特的地形條件和人類活動等因素造成整個研究區(qū)地質災害頻發(fā),主要有泥石流、滑坡、崩塌等。其中,泥石流災害最為嚴重,主要分布于小江流域和金沙江流域,有“世界泥石流天然博物館”之稱。

圖1 研究區(qū)域和泥石流點區(qū)位圖

1.2 數(shù)據(jù)來源及處理

(1)泥石流指標因子來源及處理

指標因子的選擇與處理對泥石流易發(fā)性評價有著重要的影響[11-12]。本文結合研究區(qū)的實際情況,從地形地貌、水文氣象、地質條件、土地覆蓋和人類活動五個方面來選取泥石流指標因子。①地形地貌因子數(shù)據(jù),使用研究區(qū) 30 m分辨率的DEM數(shù)據(jù),經ArcGIS表面分析工具得到研究區(qū)坡度、坡向和剖面曲率數(shù)據(jù);②水文氣象數(shù)據(jù),使用會澤站、昆明站和宜良站的降雨量數(shù)據(jù),利用Kriging插值得到研究區(qū)2020年5—10月降水量。根據(jù)東川區(qū)第三次全國國土調查數(shù)據(jù)獲取研究區(qū)河網信息,處理后得到距河網距離;③地質條件數(shù)據(jù),使用研究區(qū)地層巖性和斷裂帶數(shù)據(jù),利用ArcGIS歐氏距離和柵格化處理后得到研究區(qū)距斷裂帶距離和地層巖性;④植被覆蓋數(shù)據(jù),采用研究區(qū)2020年7月植被最為茂盛時 30 m分辨率的Landsat 8近紅外和遠紅外波段計算得到歸一化植被指數(shù)(NDVI);⑤人類活動數(shù)據(jù),使用東川區(qū)第三次全國國土調查數(shù)據(jù),經ArcGIS歐氏距離處理后得到距道路距離;地形濕度指數(shù)(TWI)分別由下式計算:

(1)

式中:Ac表示要計算的柵格單元上游的匯水面積/m2;β表示柵格單元的坡度;Lc表示柵格單元的寬度/m。所有柵格圖層的空間分辨率均為 30 m×30 m。主要數(shù)據(jù)來源如表1所示:

表1 指標因子數(shù)據(jù)來源表

(2)泥石流編錄數(shù)據(jù)

泥石流編錄的收集對于泥石流易發(fā)性評價有重要作用[13]。首先,以高分辨率遙感影像數(shù)據(jù)(GF-2:2017-7)結合中國科學院資源環(huán)境科學與數(shù)據(jù)中心獲取的研究區(qū)地質災害點空間分布數(shù)據(jù)對泥石流災害點初步解譯。然后,在內業(yè)解譯的基礎上開展野外現(xiàn)場調查。最終識別出研究區(qū)共有106個泥石流點(圖1)。

2 研究方法

2.1 支持向量機

支持向量機(SVM)是在20世紀90年代發(fā)展起來的[14],在本文的研究過程中,實際是將泥石流數(shù)據(jù)集映射到一個高維空間,然后通過支持向量機(SVM)模型在高維空間中尋找超平面,盡可能地將是否發(fā)生過泥石流(發(fā)生過:1,未發(fā)生過:0)兩類樣本分開。最佳超平面可通過解決優(yōu)化函數(shù)問題來尋找:

(2)

其中:ξi表示松弛變量,c(>0)表示誤差的正則化變量。為了對樣本進行分類,SVM的決策函數(shù)表示如下:

g(x)=ωTφ(x)+b

(3)

其中φ(x)表示泥石流樣本x從輸入空間到高維特征空間的映射;ω=(ω1,ω2,…,ωd)為法向量,b表示位移項,兩個參數(shù)的最佳值均可由優(yōu)化函數(shù)計算獲得。

在SVM中常用的核函數(shù)包括線性核函數(shù)、多項式核函數(shù)、徑向基(Radial Basis Function,RBF)核函數(shù)、Sigmoid核函數(shù)。RBF核函數(shù)由下式計算:

(4)

式中K表示核函數(shù),γ為核函數(shù)的超參數(shù)。

本文采用Python語言結合Scikit-learn庫建立和訓練模型,通過GridSeachCV模塊對模型進行超參數(shù)調優(yōu)后,支持向量機模型的核函數(shù)為徑向基核函數(shù)(RBF),懲罰系數(shù)C為1,參數(shù)γ為0.109 854。

2.2 信息增益比

(5)

(6)

Info(T|a)表示在給定特征a的前提下,對數(shù)據(jù)集T進行分類的不確定性。信息增益為:

Gain(T,a)=Info(T)-Info(T|a)

(7)

數(shù)據(jù)集T關于特征a的值的信息熵為:

(8)

因此特征a的信息增益率為:

(9)

3 指標因子體系構建

3.1 多重共線性分析

在構建泥石流易發(fā)性模型之前,有必要檢查各指標因子之間是否存在共線性。一般采用容差和方差膨脹因子(VIF)來評價各指標因子之間共線性情況[16],本文使用SPSS20.0軟件,對12指標因子進行多重共線性分析,當VIF小于5并且容差大于0.2時,表明各因子之間不存在共線性問題,反之存在共線性。如表2所示,各指標因子之間并沒有存在共線性問題,可以用于構建泥石流易發(fā)性評價模型。

表2 多重共線性分析與因子貢獻率評價表

3.2 指標因子選取

由于各指標因子對于泥石流發(fā)育的貢獻率不同,過多的指標因子會增加數(shù)據(jù)量,不僅會帶來數(shù)據(jù)冗余,還有可能導致因子間存在一定的相關信息,對模型精度造成一定的影響。因此有必要篩選出最能誘發(fā)泥石流的指標因子來構建易發(fā)性模型。雖然坡度、距路網距離、距河網距離等因子對泥石流的形成有重要影響,但并不是最重要的[18],本文通過逆向淘汰方法,利用信息增益比計算各指標因子的貢獻率,主要根據(jù)信息增益比模型計算得到的指標因子貢獻率中,坡度、距路網距離、距河網距離等因子貢獻率較低。其值越大的指標因子對泥石流易發(fā)性模型的精度提升越大。如圖2所示,根據(jù)信息增益比的結果表明,NDVI、剖面曲率、5—10月降水量和TWI為誘發(fā)研究區(qū)泥石流的主控因子。

圖2 東川區(qū)泥石流災害各指標因子貢獻率

支持向量機具有計算速度快,結果穩(wěn)定等特點,經常被用于泥石流易發(fā)性評價。為了進一步優(yōu)化指標因子,剔除不重要的因素,本文首先使用所有初選因子訓練模型,然后根據(jù)信息增益比所計算的因子重要性從低到高逐個剔除因子,當剔除了坡度、距道路距離、距河流距離的時候精度最高,繼續(xù)剔除因子后精度逐漸下降。如表3所示:當消除了坡度、距路網距離和距河網距離三個因子后,模型的曲線下面積(Area Under Curve,AUC)值達到了 0.903 3,然而當繼續(xù)剔除距斷層距離和地層巖性兩個因子時,模型的AUC值逐漸下降分別為 0.884 8和 0.872 7。剔除了不重要因素以后能明顯提高模型的精度,最后選擇9個指標因子用于構建泥石流易發(fā)性評價模型。

表3 剔除不重要指標因子后模型精度表

4 泥石流易發(fā)性評價與精度分析

4.1 泥石流易發(fā)性模型構建與驗證

東川區(qū)在30 m×30 m分辨率的條件下被劃分為 2 074 122個柵格,其中研究區(qū)已發(fā)生的106處泥石流共劃分為 87 078個柵格單元,沒有發(fā)生過泥石流共有 1 987 044柵格單元。在對模型進行訓練時,為解決數(shù)據(jù)集不平衡問題,采用欠采樣方法隨機選擇與泥石流柵格相同數(shù)目的非泥石流柵格單元,共同組成一個新數(shù)據(jù)集作為模型的輸入變量,將新數(shù)據(jù)集按照7∶3的比例劃分為訓練數(shù)據(jù)集和測試數(shù)據(jù)集分別用于泥石流易發(fā)性模型的訓練與測試。模型的預測結果為各柵格單元內的泥石流概率,泥石流柵格單元取1,非泥石流點取0。本文的支持向量機模型采用python語言通過scikit-learn框架來構建,并通過GridSeachCV模塊對模型進行超參數(shù)調優(yōu)。

本文采用10折交叉驗證來驗證模型的穩(wěn)定性,并統(tǒng)計每一次驗證的精確度(ACC)值,如表4所示,發(fā)現(xiàn)該模型較為穩(wěn)定,訓練樣本的平均ACC值為 0.820 5,測試樣本的平均ACC值為 0.815 7。圖3為模型對測試數(shù)據(jù)集的泥石流概率結果與實際泥石流概率的散點分布圖,從圖中可以看出模型對非泥石流區(qū)域的預測更加準確。

表4 BP神經網絡評價結果ACC值記錄表

圖3 模型輸出結果和實際值的散點分布圖

4.2 泥石流易發(fā)性評價

在構建的泥石流易發(fā)性模型平穩(wěn)運行之后,計算各柵格單元的泥石流易發(fā)性指數(shù),利用ArcGIS10.2軟件的自然斷點法將泥石流易發(fā)性指數(shù)劃分為:極高易發(fā)區(qū)、高易發(fā)性區(qū)、中易發(fā)區(qū)、低易發(fā)區(qū)和極低易發(fā)區(qū)5個等級。然后,根據(jù)所劃分的易發(fā)性等級并使用GIS對研究區(qū)進行泥石流易發(fā)性制圖。

從圖4中可以看出,研究區(qū)泥石流高和極高易發(fā)區(qū)主要集中分布在小江河谷、烏龍河、塊河和金沙江南岸,其中在拖布卡鎮(zhèn)、烏龍鎮(zhèn)、銅都街道西部、阿旺鎮(zhèn)北部、因民鎮(zhèn)和舍塊鄉(xiāng)北部分布最為集中;低和極低易發(fā)區(qū)分布最為廣泛,主要集中分布于紅土地鎮(zhèn)、舍塊鄉(xiāng)、因民鎮(zhèn)和阿旺鎮(zhèn)南部、銅都街道東部;中易發(fā)區(qū)主要沿著高和極高易發(fā)區(qū)分布,與高和極高易發(fā)區(qū)的分布大致相同。評價結果可以采用泥石流密度來顯示,泥石流密度為某易發(fā)性等級內泥石流內柵格比例與其易發(fā)性等級內柵格比例的比值,反映出對應易發(fā)性等級內的泥石流強度。各易發(fā)區(qū)的泥石流數(shù)量和密度的直觀統(tǒng)計圖如圖5所示,其中高和極高易發(fā)區(qū)內的實際泥石流柵格數(shù)量占總泥石流柵格數(shù)量的88.47%。

圖4 東川區(qū)泥石流災害易發(fā)性等級圖

圖5 各易發(fā)區(qū)間比例及泥石流密度統(tǒng)計

4.3 優(yōu)化指標因子前后模型精度

對泥石流易發(fā)性模型的精度評價通常采用受試者工作特征曲線(Receiver-Operating Characteristic,ROC)以及曲線下面積(Area Under Curve,AUC)來對模型的性能進行評價[17]。ROC曲線越靠近左上角,意味著模型的性能越好,反之,則模型的性能越差,曲線如果在參考線的下方,證明模型完全無法使用;AUC值介于0~1,值越高表明模型的精度越好。根據(jù)以往的研究,基于AUC值的模型的性能可以分為幾個層次:0.5~0.6=差,0.6~0.7=中等,0.7~0.8=可接受,0.8~0.9=優(yōu)秀,0.9~1=近乎完美[19-20]。

從圖6中可以看出,指標因子經過優(yōu)化以后,ROC曲線更趨向于右上角,曲線下面積AUC值為 0.903 3,說明模型具有較好的精度。同時還計算了指標因子優(yōu)化前的評價結果的ROC曲線,AUC值為 0.875 8,經過優(yōu)化指標因子后,模型的精度提升了2.75%。對比結果表明,使用信息增益比剔除了對泥石流爆發(fā)貢獻率較小或者含有錯誤的指標因子后,模型的精度有了一定的提升。

圖6 模型ROC曲線

5 結 論

(1)本文通過信息增益比-支持向量機模型建立了泥石流易發(fā)性評價模型,對指標因子進行優(yōu)化處理后發(fā)現(xiàn),NDVI、剖面曲率、5—10月降水量和TWI為誘發(fā)研究區(qū)泥石流的主控因子,土地利用類型、高程、坡向、地層巖性和距斷層距離對泥石流的發(fā)育起到重要影響,ROC曲線檢驗模型的AUC值為 0.903 3有較高精度,滿足評價需求,可為東川區(qū)的災害防治提供參考。

(2)根據(jù)對研究區(qū)泥石流易發(fā)性制圖結果顯示,東川區(qū)大部分處于泥石流低和極低易發(fā)區(qū),主要集中分布于紅土地鎮(zhèn),舍塊鄉(xiāng)、因民鎮(zhèn)和阿旺鎮(zhèn)南部,銅都街道東部,其中紅土地鎮(zhèn)分布最廣;高和極高易發(fā)區(qū)分布較為集中,主要集中分布于小江河谷兩岸和金沙江南岸,其中在拖布卡鎮(zhèn)、烏龍鎮(zhèn)、銅都街道西部、阿旺鎮(zhèn)北部、因民鎮(zhèn)和舍塊鄉(xiāng)北部分布最為集中;中易發(fā)區(qū)的分布與高和極高易發(fā)區(qū)的分布大致相同,主要集中分布于烏龍鎮(zhèn)、拖布卡鎮(zhèn)、湯丹鎮(zhèn)、舍塊鄉(xiāng)和因民鎮(zhèn)北部、銅都街道西部和阿旺鎮(zhèn)北部。

(3)文中在評價單元的選擇上仍有一些不足,本文使用柵格單元作為評價單元,雖然柵格單元在計算統(tǒng)計方面具有很強的優(yōu)勢,但是流域單元即保證了流域的完整性,又反映出泥石流與指標因子之間的聯(lián)系。

猜你喜歡
易發(fā)柵格泥石流
機用鎳鈦銼在乳磨牙根管治療中的應用
貴州省地質災害易發(fā)分區(qū)圖
大眾科學(2022年5期)2022-05-18 13:24:20
夏季羊易發(fā)疾病及防治方法
基于鄰域柵格篩選的點云邊緣點提取方法*
冬季雞腸炎易發(fā) 科學防治有方法
泥石流
雜文月刊(2018年21期)2019-01-05 05:55:28
“民謠泥石流”花粥:唱出自己
海峽姐妹(2017年6期)2017-06-24 09:37:36
泥石流
機械班長
不同剖面形狀的柵格壁對柵格翼氣動特性的影響
稷山县| 武宁县| 轮台县| 友谊县| 台湾省| 鱼台县| 平陆县| 腾冲县| 四子王旗| 江陵县| 英德市| 会宁县| 乐平市| 宜黄县| 龙井市| 沧州市| 馆陶县| 浮山县| 油尖旺区| 循化| 自贡市| 汝城县| 夏邑县| 香港 | 天峻县| 松原市| 积石山| 仪陇县| 苏州市| 岳池县| 大厂| 阜阳市| 潜江市| 称多县| 阿坝| 陵川县| 新绛县| 五寨县| 昂仁县| 宁河县| 固镇县|