国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于耦合信息量法選擇負(fù)樣本的區(qū)域滑坡易發(fā)性預(yù)測

2022-05-25 07:45周曉亭黃發(fā)明吳偉成周創(chuàng)兵曾詩怡潘李含
工程科學(xué)與技術(shù) 2022年3期
關(guān)鍵詞:易發(fā)信息量坡度

周曉亭,黃發(fā)明,吳偉成*,周創(chuàng)兵,曾詩怡,潘李含

(1.東華理工大學(xué) 江西省數(shù)字國土重點(diǎn)實(shí)驗(yàn)室,江西 南昌 330013;2.東華理工大學(xué) 地球科學(xué)學(xué)院,江西 南昌 330013;3.南昌大學(xué) 建筑工程學(xué)院,江西 南昌 330000)

山體滑坡作為常見的地質(zhì)災(zāi)害,嚴(yán)重威脅著中國人民的生命及財(cái)產(chǎn)安全。在提取區(qū)域滑坡編錄信息及環(huán)境因子信息的基礎(chǔ)上構(gòu)建滑坡易發(fā)性預(yù)測模型并開展易發(fā)性分級制圖,是滑坡災(zāi)害防治的重要技術(shù)手段。研究表明,基于機(jī)器學(xué)習(xí)(machine learning,ML)的滑坡易發(fā)性預(yù)測模型的精度顯著高于知識驅(qū)動和常規(guī)數(shù)理統(tǒng)計(jì)模型。其中,采用監(jiān)督學(xué)習(xí)方式的ML模型預(yù)測滑坡易發(fā)性的本質(zhì)可被理解為是在滑坡環(huán)境因子的基礎(chǔ)上利用“歷史滑坡”正樣本和“非滑坡”負(fù)樣本的監(jiān)督分類過程。Zhu等認(rèn)為負(fù)樣本的存在有助于克服模型的過擬合現(xiàn)象,是滑坡易發(fā)性預(yù)測的必要數(shù)據(jù)條件??梢?,正確合理地選擇負(fù)樣本對提高區(qū)域滑坡易發(fā)性模型的預(yù)測精度和可靠性具有非常重要的影響。

目前,國內(nèi)外學(xué)者們對于易發(fā)性預(yù)測建模中滑坡負(fù)樣本的選擇還沒有統(tǒng)一的標(biāo)準(zhǔn)。如:郭子正、吳潤澤及徐勝華等直接將滑坡范圍外的隨機(jī)點(diǎn)作為負(fù)樣本點(diǎn);Dou等將歷史滑坡邊界作為緩沖區(qū),在距緩沖區(qū)一定距離的研究區(qū)隨機(jī)選取負(fù)樣本;Kavzoglu等利用高分辨率的谷歌地球影像,解譯研究區(qū)的河道和溝谷等低坡度地區(qū),并從該區(qū)域選取負(fù)樣本。從低坡度地區(qū)選擇負(fù)樣本的方法保證了負(fù)樣本的穩(wěn)定性,但卻會夸大坡度因子對易發(fā)性模型的貢獻(xiàn)度,導(dǎo)致滑坡易發(fā)性結(jié)果可靠性較低。例如:Choi等選用坡度為0的區(qū)域作為負(fù)樣本,其易發(fā)性預(yù)測結(jié)果中坡度因子的貢獻(xiàn)度遠(yuǎn)大于其他因子;繆亞敏等基于Xiao等提出的目標(biāo)空間外向化采樣法,將數(shù)據(jù)映射到地理空間中,驗(yàn)證所采集滑坡負(fù)樣本的可靠性。由上述方法可知,目前主要依賴專家主觀判斷、隨機(jī)選擇或根據(jù)某一因子特定屬性區(qū)選擇負(fù)樣本,導(dǎo)致所選擇的滑坡負(fù)樣本的失穩(wěn)概率不確定或夸大了部分因子對滑坡的貢獻(xiàn)度,即選擇的負(fù)樣本不夠準(zhǔn)確或不具有廣泛的代表性,從而降低了滑坡易發(fā)性預(yù)測建模的精度和可靠性。

針對易發(fā)性預(yù)測模型構(gòu)建時的負(fù)樣本選擇問題,以江西省受滑坡災(zāi)害影響較嚴(yán)重的瑞金市為例,利用不需要負(fù)樣本的信息量(information value,IV)模型,初步計(jì)算出研究區(qū)內(nèi)的滑坡易發(fā)性,劃定極低和低易發(fā)區(qū),并在劃定區(qū)域隨機(jī)選取負(fù)樣本,進(jìn)一步建立信息量-支持向量機(jī)(IV-SVM)和信息量-隨機(jī)森林(IV-RF)的耦合模型開展滑坡易發(fā)性預(yù)測。對比分析IV-SVM和IV-RF模型與目前研究中最常用的全區(qū)隨機(jī)選擇負(fù)樣本的單獨(dú)RF、SVM模型,以及從坡度小于2°的特定屬性區(qū)內(nèi)選擇負(fù)樣本的低坡度RF、SVM模型,為ML算法預(yù)測滑坡易發(fā)性中負(fù)樣本的選擇提供參考。

1 信息量-機(jī)器學(xué)習(xí)(IV-ML)模型理論

1.1 IV-ML建模流程

本文所提出的IV-ML模型預(yù)測滑坡易發(fā)性的建模思想為利用不需要負(fù)樣本的IV統(tǒng)計(jì)算法獲得低易發(fā)區(qū),并在該區(qū)隨機(jī)選擇ML易發(fā)性建模過程中需要的負(fù)樣本數(shù)據(jù),在確保負(fù)樣本低易發(fā)性的同時,不對環(huán)境因子進(jìn)行人為選擇。建模過程如下:1)根據(jù)歷史滑坡和環(huán)境因子數(shù)據(jù)之間的空間分布關(guān)系,利用IV模型計(jì)算各滑坡環(huán)境因子的信息量值;2)以環(huán)境因子總信息量值為基礎(chǔ),預(yù)測并繪制初步的滑坡易發(fā)性圖,從極低和低易發(fā)區(qū)中隨機(jī)選取“非滑坡”負(fù)樣本數(shù)據(jù);3)整合“歷史滑坡”正樣本和“非滑坡”負(fù)樣本構(gòu)成訓(xùn)練樣本集,建立IV-RF、IV-SVM模型;4)對比IV-SVM、IV-RF模型與單獨(dú)SVM、RF模型和低坡度SVM、RF模型的預(yù)測精度;5)深入討論分析各模型的精度統(tǒng)計(jì)指標(biāo)、ROC曲線和易發(fā)性指數(shù)分布。具體流程如圖1所示。

圖1 IV-ML模型預(yù)測滑坡易發(fā)性流程圖Fig. 1 Flow chart of landslide susceptibility prediction by IV-ML model

1.2 信息量(IV)模型及負(fù)樣本選擇

IV模型將統(tǒng)計(jì)分析的已發(fā)生滑坡點(diǎn)的環(huán)境因子屬性值轉(zhuǎn)化為反映滑坡易發(fā)性的可以量化的信息量值,單個影響因子在不同分級標(biāo)準(zhǔn)下的信息量表達(dá)式為:

式中,

Y

為滑坡災(zāi)害事件,

S

為在環(huán)境因子

X

在分級區(qū)間內(nèi)的滑坡面積,

S

為全區(qū)滑坡總面積,

A

為研究區(qū)內(nèi)含有環(huán)境因子

X

的分級區(qū)間的面積,

A

為研究區(qū)總面積。當(dāng)

I

<0時,表示環(huán)境因子

X

的分級區(qū)間提供的是有利于滑坡發(fā)生的信息;當(dāng)

I

>0時,表示環(huán)境因子

X

在該分級區(qū)間提供的是不利于滑坡發(fā)生的信息。

研究區(qū)各評價(jià)單元內(nèi)所有環(huán)境因子的總信息量值的表達(dá)式為:

式中,

n

為環(huán)境因子個數(shù)。

在ArcGIS10.2中,利用“Map Algebra”功能實(shí)現(xiàn)環(huán)境因子信息量圖層疊加,即可得到全區(qū)內(nèi)所有評價(jià)單元的總信息量值,并將其作為評判研究區(qū)滑坡易發(fā)性的依據(jù);利用自然斷點(diǎn)法將研究區(qū)分成極高、高、中等、低和極低5個級別易發(fā)區(qū)間;利用“Create Random Points”功能在低和極低易發(fā)區(qū)隨機(jī)采樣,以獲得負(fù)樣本數(shù)據(jù)。

1.3 機(jī)器學(xué)習(xí)模型

1.3.1 支持向量機(jī)(SVM)模型

SVM模型通過在高維空間內(nèi)構(gòu)建超平面,利用該超平面對數(shù)據(jù)進(jìn)行最遠(yuǎn)距離的分類,并在該空間內(nèi)進(jìn)行分離預(yù)測類別,如式(3)所示:

式中,

f

(

x

)為SVM的回歸函數(shù), φ (

x

)為非線性映射函數(shù),ω為權(quán)重向量,θ為偏置項(xiàng)。高維特征空間的維數(shù)一般比較高,所以求內(nèi)積比較困難,使用時只定義核函數(shù)。核函數(shù)有線性、多項(xiàng)式和徑向基函數(shù)(radial basis function,RBF)等。使用最多的核函數(shù)為RBF,其參數(shù)較少且能良好地反映非線性關(guān)系,如式(4)所示:

式中,

x

、

y

為輸入向量,α為RBF核函數(shù)的寬度參數(shù)。

1.3.2 隨機(jī)森林模型

RF為由多棵決策樹集合而成的一類有監(jiān)督的強(qiáng)分類器,其最大的特點(diǎn)是隨機(jī)森林生成過程中有兩個隨機(jī)過程:樣本的隨機(jī)有放回抽樣和特征變量子空間的隨機(jī)選擇。每棵決策樹的節(jié)點(diǎn)分裂以基尼系數(shù)(Gini Index)作為雜質(zhì)函數(shù),如式(5)所示:

式中,

c

為分類類別個數(shù),

t

為決策樹的節(jié)點(diǎn),

p

c

的相對頻率。RF中決策樹的生長過程是以隨機(jī)抽取特定數(shù)量的特征變量進(jìn)行節(jié)點(diǎn)分裂,抽取變量個數(shù)一般為總數(shù)的平方根。通過這種模型的構(gòu)建思路,可使RF分類器利用個體分類樹間差異性的增加,提升建模性能且避免模型過擬合。

1.4 滑坡易發(fā)性建模精度評價(jià)

基于混淆矩陣計(jì)算的Kappa系數(shù)(Kappa coefficient,KC)和準(zhǔn)確率(Overall Accuracy,OA)是評價(jià)滑坡易發(fā)性預(yù)測模型性能的重要指標(biāo),如式(6)和(7)所示:

式(6)和(7)中:

TP

FP

分別為被正確分類和被錯誤分類為滑坡樣本個數(shù);

TN

FN

分別為被正確分類和被錯誤分類的非滑坡樣本個數(shù);準(zhǔn)確率OA為模型精度的綜合評價(jià)指標(biāo);Kappa系數(shù)(KC)反映了易發(fā)性建模的可靠性,當(dāng)Kappa系數(shù)大于0.6時,表明建模可靠性高,大于0.8時,表明建模過程非常完善。另外,基于混淆矩陣可以繪制ROC曲線,該曲線下面積(AUC)被廣泛用于模型精度評估,AUC值越接近1,表明模型預(yù)測易發(fā)性的精度越高。

2 建模數(shù)據(jù)源

2.1 瑞金市概況

瑞金地處江西東南部(115°41′10″N~116°21′49″E),面積約為2 435.8 km,屬中亞熱帶濕潤氣候,1968—2019年的年均降雨量達(dá)1 663.5 mm,降水多集中在3—6月。區(qū)內(nèi)地勢南北高、中部低,地形坡度小于30°的區(qū)域占全區(qū)的90%以上。區(qū)內(nèi)地層出露比較齊全,除奧陶、志留系缺失外,其余時代地層均有出露;其中,變質(zhì)巖類分布最廣,其次為碎屑巖類和巖漿巖類,三者占全區(qū)面積的93.34%。研究區(qū)位于寧于坳陷和武夷隆起帶,在地質(zhì)發(fā)育期構(gòu)造變形強(qiáng)烈,巖漿活動頻繁,以強(qiáng)烈的斷裂活動為特色,如圖2所示。

圖2 研究區(qū)位置及地質(zhì)構(gòu)造Fig. 2 Location and geological structure of the study area

根據(jù)瑞金1∶50 000地災(zāi)調(diào)查資料,1970—2013年間,研究區(qū)共發(fā)生滑坡155處,造成的房屋損壞達(dá)100多間,受災(zāi)人口2 000多人。區(qū)域內(nèi)滑坡主要以小型為主,經(jīng)民宅基地、公路和水利工程設(shè)施建設(shè)等人工削坡后,自然的坡體松散堆積物(土質(zhì))或破碎巖體(主要為千板狀板巖及存在順坡層面或裂面的巖石)失去了支撐力和平衡,形成全新的邊坡臨空面,在強(qiáng)降雨作用下容易誘發(fā)邊坡失穩(wěn)。為實(shí)現(xiàn)滑坡范圍的最優(yōu)表達(dá),將歷史滑坡在Google Earth中識別并繪制成矢量多邊形,如圖3所示。

圖3 研究區(qū)Google Earth高清遙感影像滑坡俯視圖Fig. 3 Top view of high resolution remote sensing image of landslides from Google Earth in study area

2.2 滑坡環(huán)境因子

滑坡發(fā)育受多種因素影響,主要包括地層巖性、地形特征、植被土壤等長時間形成的內(nèi)在驅(qū)動因素,以及強(qiáng)降雨、工程活動、地震等在相對短時間內(nèi)起作用的外部誘發(fā)因素。根據(jù)前人對山體滑坡環(huán)境因子的研究、瑞金市滑坡發(fā)育與環(huán)境因子的關(guān)聯(lián)性特征及滑坡野外考察情況,在盡可能收集到的環(huán)境因子數(shù)據(jù)的基礎(chǔ)上,選取工程地質(zhì)、地形特征、氣象水文、地表覆被和土壤等幾大類別環(huán)境因子作為滑坡易發(fā)性預(yù)測建模的輸入變量,如表1和圖4所示。

圖4 滑坡環(huán)境因子及歷史滑坡分布Fig. 4 Landslide environmental factors and historical landslide distribution

表1 滑坡環(huán)境因子
Tab. 1 Landslide environmental factors

類別 數(shù)據(jù)源 文件類型 分辨率 處理平臺工程地質(zhì) 1∶50 000地質(zhì)圖 “shp” 多邊形矢量 ArcGIS 10.2地形特征 ASTER GDEM數(shù)據(jù) “tiff” 30 m ArcGIS 10.2氣象水文 江西省氣象局 “shp” 點(diǎn)矢量 ArcGIS 10.2 Google Earth遙感影像 “shp” 線矢量 Google Earth Landsant 8 OLI “tiff” 30 m ENVI 5.2 Landsant 4-5 TM “tiff” 30 m ENVI 5.2 Google Earth遙感影像 “shp” 線矢量 Google Earth土壤結(jié)構(gòu) 江西省煤田地質(zhì)局 “shp” 多邊形矢量 ArcGIS 10.2中國土壤數(shù)據(jù)(http://vdb3.soil.csdb.cn/) “tiff” 100 m ArcGIS 10.2地表覆被

2.2.1 工程地質(zhì)因子

境內(nèi)出露有巖漿巖類、變質(zhì)巖類、碎屑巖類、碳酸鹽巖類及松散巖類等六大巖性類型,如圖4(a)所示;不同巖性單元的邊界如圖4(b)所示。研究區(qū)斷裂構(gòu)造呈現(xiàn)相互穿插切割的形態(tài),錯綜復(fù)雜;依據(jù)其空間發(fā)育方向可分為東西向、北東向、北北東、北西向及武夷山環(huán)狀斷裂等5組,如圖4(c)所示。

2.2.2 地形與氣象水文因子

區(qū)內(nèi)以低山丘陵為主,但南部的拔英鄉(xiāng)及北部的瑞林、丁坡、下壩、大柏地等鄉(xiāng)鎮(zhèn)地勢高差大,如圖4(e)~(f)所示,且這些鄉(xiāng)鎮(zhèn)屬于強(qiáng)降雨多發(fā)區(qū),很容易誘發(fā)滑坡。境內(nèi)河流大都屬于山區(qū)性“V”型河流,兩岸坡度陡,豐枯季節(jié)徑流量懸殊大,由此而導(dǎo)致的滑坡等地質(zhì)災(zāi)害也很常見,如圖4(g)所示。該區(qū)域春夏交替時期為主汛期,降雨集中且強(qiáng)度較大,雨量占全年累積雨量50%以上,與滑坡發(fā)生的主要時段相吻合。

2.2.3 地表覆被與土壤因子

植被的根系有利于提高土體抗剪強(qiáng)度,對防止淺層堆積層滑坡有重要作用,用標(biāo)準(zhǔn)化植被指數(shù)(normalized difference vegetation index,NDVI)表示研究區(qū)植被發(fā)育程度,如圖4(h)所示。瑞金交通以公路為主(圖4(i)),公路建設(shè)依山傍水,尤其是公路的改建、擴(kuò)建,會使公路兩側(cè)山體因人為的削坡而失穩(wěn)。土壤因子包括土壤類型、土壤砂粒和黏粒含量。土壤表層黏粒含量低,砂粒含量高,有利于水的滲透;底層黏粒含量高,砂粒含量低,易于形成滑動面。

3 瑞金市滑坡易發(fā)性預(yù)測

3.1 IV法選擇負(fù)樣本

將整個研究區(qū)按30 m分辨率劃分柵格單元,共計(jì)2 711 543個。利用GIS空間分析功能計(jì)算各柵格單元內(nèi)所有環(huán)境因子的總信息量值,范圍為-31~22。柵格單元的總信息量值越大,該柵格內(nèi)滑坡發(fā)生的可能性就越大。圖5為信息量法的滑坡易發(fā)性圖及負(fù)樣本點(diǎn)分布。如圖5所示,負(fù)樣本數(shù)量與正樣本一致。將正樣本柵格賦值為“1”,表示滑坡發(fā)生;負(fù)樣本柵格賦值為“0”,表示滑坡不發(fā)生。選取70%的樣本柵格數(shù)據(jù)作為研究區(qū)滑坡易發(fā)性預(yù)測模型的訓(xùn)練集,剩余的30%的樣本柵格數(shù)據(jù)作為驗(yàn)證集評價(jià)預(yù)測模型精度(圖1)。

圖5 信息量法的滑坡易發(fā)性圖及負(fù)樣本點(diǎn)分布Fig. 5 Landslide susceptibility map by IV method and distribution of negative sample points

同時,在滑坡一定緩沖區(qū)外的其他區(qū)域隨機(jī)選擇負(fù)樣本,以便構(gòu)建單獨(dú)SVM和RF模型;并在低坡度區(qū)域(主要為坡度<2°的城市、河道和溝谷)隨機(jī)選取負(fù)樣本,構(gòu)建低坡度SVM和RF模型。最后,對比分析這3類不同負(fù)樣本選擇方案的機(jī)器學(xué)習(xí)模型易發(fā)性建模性能。

3.2 IV-SVM模型與其他SVM模型滑坡易發(fā)性預(yù)測性能對比

SVM模型的構(gòu)建是在EnMAP-Box 2.1軟件中實(shí)現(xiàn)的,使用內(nèi)部驗(yàn)證的2 維網(wǎng)格搜索法獲得IV-SVM模型的最優(yōu)高斯核函數(shù)寬度參數(shù)α和正則化參數(shù)

c

分別為0.1和10。同樣方法可得到單獨(dú)SVM和低坡度SVM模型的建模參數(shù)分別為0.1、100和0.1、1 000。為方便不同模型間的對比研究,將所有模型預(yù)測的滑坡發(fā)生概率值分為極低(0~0.2)、低(0.2~0.4)、中等(0.4~0.6)、高(0.6~0.8)和極高(0.8~1.0)5個易發(fā)性級別。整體而言,各模型下的研究區(qū)滑坡易發(fā)性分級規(guī)律類似,但細(xì)節(jié)上存在較大差異,如圖6所示。

圖6 基于SVM模型的滑坡易發(fā)性分區(qū)Fig. 6 Landslide susceptibility generated based on SVM models

各類模型預(yù)測得到的滑坡易發(fā)區(qū)面積占比如表2所示。IV-SVM、單獨(dú)SVM和低坡度SVM模型高和極高易發(fā)區(qū)面積之和分別為491.99、507.37和568.30 km,其中,歷史滑坡占比分別為85.61%、81.29%和82.58%,IV-SVM模型高和極高易發(fā)區(qū)歷史滑坡占比最高。該結(jié)果間接反映了IV-SVM模型對滑坡易發(fā)性的預(yù)測性能更優(yōu)。

表2 基于SVM模型的不同易發(fā)性等級區(qū)域面積及歷史滑坡分布
Tab. 2 Areas of different susceptibility levels and distribution of historical landslides based on SVM models

易發(fā)性級別面積/km2 歷史滑坡占比/%IV-SVM 單獨(dú)SVM 低坡度SVM IV-SVM 單獨(dú)SVM 低坡度SVM極低 1 611.89 1 470.53 1 276.95 4.52 4.52 8.39低207.46 248.48 385.94 4.52 3.23 2.58中等 130.04 214.01 209.20 5.16 10.97 6.45高142.23 265.26 187.55 4.52 17.42 9.03極高 348.76 242.11 380.75 81.29 63.87 73.55

3.3 IV-RF模型與其他RF模型滑坡易發(fā)性預(yù)測性能對比

RF模型的建立是采用與第3.2節(jié)中相同的環(huán)境因子數(shù)據(jù)集和訓(xùn)練集,在EnMAP-Box 2.1軟件中實(shí)現(xiàn)的。RF模型建立過程中決策樹的個數(shù)(NT)對模型精度有重要影響。當(dāng)NT較小時,RF的預(yù)測性能較差;當(dāng)NT越大時,RF的建模性能越好。但是,隨著NT的增大,RF模型復(fù)雜程度也增大,建模耗費(fèi)的時間也更長。多次實(shí)驗(yàn)表明,當(dāng)決策樹個數(shù)增加到300時,RF的預(yù)測性能達(dá)到穩(wěn)定,并以此建立預(yù)測滑坡易發(fā)性的IV-RF、單獨(dú)RF和低坡度RF模型。

滑坡易發(fā)性分區(qū)圖的繪制標(biāo)準(zhǔn)也與第3.2節(jié)一致,如圖7所示。

圖7 基于RF模型的滑坡易發(fā)性分區(qū)Fig. 7 Landslide susceptibility generated based on RF models

IV-RF、單獨(dú)RF和低坡度RF模型中,高和極高易發(fā)區(qū)面積分別為518.99、454.23和665.38 km,其中,歷史滑坡占比分別為95.49%、94.84%和91.61%,IVRF模型高和極高易發(fā)區(qū)歷史滑坡占比最高,如表3所示。

表3 基于RF模型的不同易發(fā)性等級區(qū)域面積及歷史滑坡分布
Tab. 3 Areas of different susceptibility levels and distribution of historical landslides based on RF models

易發(fā)性級別面積/km2 歷史滑坡占比/%IV-RF 單獨(dú)RF 低坡度RF IV-RF 單獨(dú)RF 低坡度RF極低 1 262.54 1 212.13 946.20 0 0.65 0.65低413.82 447.78 564.35 3.23 2.58 4.52中等 245.04 326.26 264.47 1.29 1.94 3.23高285.76 308.19 371.16 20.65 22.58 14.84極高 233.23 146.04 294.22 74.84 72.26 76.77

3.4 模型精度評價(jià)

3.4.1 精度統(tǒng)計(jì)指標(biāo)

各模型的Kappa系數(shù)和準(zhǔn)確率等評價(jià)指標(biāo)如表4所示。

表4 不同模型驗(yàn)證指標(biāo)
Tab. 4 Validation indicators of different models

模型 Kappa系數(shù)/% 準(zhǔn)確率/%IV-SVM 82.80 91.46單獨(dú)SVM 71.21 85.88低坡度SVM 77.78 88.89 IV-RF 87.60 93.90單獨(dú)RF 78.54 89.41低坡度RF 84.44 92.22

由表4可知:IV-SVM和IV-RF耦合模型驗(yàn)證集的準(zhǔn)確率值分別為91.46%和93.90%,均高于傳統(tǒng)采樣預(yù)測模型;RF模型預(yù)測易發(fā)性的精度高于SVM,其中,IV-RF耦合模型的Kappa系數(shù)為87.60%,表示該模型具有非常強(qiáng)的可靠性??傊詈夏P途茸罡?,低坡度模型次高,單獨(dú)模型精度最低。

3.4.2 ROC曲線精度

圖8為各模型的ROC曲線。由圖8可知:相比傳統(tǒng)采樣的單獨(dú)SVM、RF模型和低坡度SVM、RF模型,IV-SVM和IV-RF耦合模型的ROC曲線的AUC值更高,進(jìn)一步證明了基于IV模型負(fù)樣本采樣方法的優(yōu)勢;IV-RF模型ROC曲線的AUC值最高,為0.988,也說明RF算法的滑坡易發(fā)性預(yù)測性能好于SVM算法。

圖8 不同模型的ROC曲線Fig. 8 ROC curves of the different models

另外,單獨(dú)SVM和RF模型ROC曲線的AUC值分別為0.838和0.943,而低坡度SVM和RF模型ROC曲線的AUC值分別為0.879和0.967??梢?,在低坡度地區(qū)隨機(jī)選取負(fù)樣本的SVM和RF模型精度優(yōu)于單獨(dú)SVM和RF模型。低坡度的極端采樣方法對SVM和RF建模非常有利,但人為提高了坡度因子的貢獻(xiàn)度,過高估計(jì)了災(zāi)害的易發(fā)程度,這點(diǎn)從低坡度SVM和RF模型的極高易發(fā)區(qū)大于單獨(dú)SVM、RF模型和IVSVM、IV-RF模型的結(jié)論中也可以得到印證。

3.4.3 滑坡易發(fā)性指數(shù)分布規(guī)律

將所有模型預(yù)測概率值分為100個區(qū)間,統(tǒng)計(jì)研究區(qū)不同概率區(qū)間的柵格數(shù)量,計(jì)算易發(fā)性指數(shù)分布的均值和標(biāo)準(zhǔn)差,結(jié)果如圖9所示。均值表示滑坡易發(fā)性指數(shù)分布的平均水平,標(biāo)準(zhǔn)差表示易發(fā)性指數(shù)圍繞均值的離散程度,二者可用來分析不同模型預(yù)測結(jié)果的不確定性。由圖9可知:IV-SVM、單獨(dú)SVM和低坡度SVM模型的易發(fā)性指數(shù)分布規(guī)律為低概率和高概率區(qū)間分布高,中間概率區(qū)間分布低;其中,IV-SVM模型的平均值小于單獨(dú)SVM和低坡度SVM模型,而標(biāo)準(zhǔn)差大于低坡度SVM模型和單獨(dú)SVM模型。IV-RF、低坡度RF和單獨(dú)RF模型的易發(fā)性概率分布規(guī)律為隨預(yù)測概率值的增加而逐漸減??;其中,IV-RF模型均值小于單獨(dú)RF和低坡度RF模型,標(biāo)準(zhǔn)差大于單獨(dú)RF模型而小于低坡度RF模型。此外,SVM模型的標(biāo)準(zhǔn)差均大于RF模型,這與其概率小于0.01區(qū)間的柵格數(shù)量極高相關(guān)。

圖9 不同模型的易發(fā)性指數(shù)分布Fig. 9 Susceptibility indexes distribution of different models

IV-SVM和IV-RF模型既具備單獨(dú)SVM和單獨(dú)RF模型隨機(jī)采樣的優(yōu)點(diǎn),又在綜合所有因子信息量值的基礎(chǔ)上兼顧滑坡的易發(fā)性。因此,整體上IVSVM和IV-RF模型的易發(fā)性概率分布的平均值小而標(biāo)準(zhǔn)差大。結(jié)合精度統(tǒng)計(jì)指標(biāo)和ROC曲線精度結(jié)果可知,基于IV模型負(fù)樣本選擇的SVM和RF耦合模型具有更高的精度和更低的不確定性。

4 討 論

4.1 滑坡易發(fā)性空間分布

整體而言,本文提出的多個基于IV-ML的滑坡易發(fā)性預(yù)測模型的結(jié)果類似。研究區(qū)滑坡極高易發(fā)區(qū)主要分布在第四紀(jì)殘坡積層和其他層巖性的接觸帶及人類活動密集區(qū)域;高易發(fā)區(qū)主要擴(kuò)展在極高易發(fā)區(qū)的周圍,集中分布在東部的瑞林鎮(zhèn)和崗面鄉(xiāng)、中部的九堡鎮(zhèn)和云石山鎮(zhèn)及南部的謝坊鎮(zhèn);中等易發(fā)區(qū)明顯出現(xiàn)在道路兩側(cè)和地層界線交界處;低和極低易發(fā)區(qū)分布在受人類活動影響較小的植被豐富地區(qū)。

4.2 滑坡易發(fā)性預(yù)測模型分析

RF模型中單個決策樹預(yù)測器獨(dú)特的樹狀結(jié)構(gòu)能夠準(zhǔn)確檢測到特征因子間的相關(guān)關(guān)系,有效處理非線性數(shù)據(jù)。同時,RF模型的集成和隨機(jī)特征使其具有受數(shù)據(jù)的干擾影響較小、判斷準(zhǔn)確率高和有效防止過擬合的滑坡易發(fā)性建模優(yōu)勢。部分專門探討機(jī)器學(xué)習(xí)模型預(yù)測滑坡易發(fā)性性能的文獻(xiàn)顯示:RF表現(xiàn)出了比邏輯回歸、SVM和常規(guī)人工神經(jīng)網(wǎng)絡(luò)等其他模型更高的預(yù)測精度,更適用于滑坡易發(fā)性制圖。本文研究結(jié)果與這些文獻(xiàn)結(jié)論一致。

4.3 IV模型負(fù)樣本選擇的合理性

ML模型在環(huán)境因子擬合上的優(yōu)點(diǎn)依賴于訓(xùn)練數(shù)據(jù)即“歷史滑坡”正樣本和“非滑坡”負(fù)樣本,可見選擇“非滑坡”樣本點(diǎn)的這一因素對機(jī)器學(xué)習(xí)建模影響很大。單獨(dú)SVM和RF模型的負(fù)樣本是通過在研究區(qū)內(nèi)隨機(jī)均勻選擇的方式來實(shí)現(xiàn)的,不存在人為選擇干擾,對環(huán)境因子的影響程度較小。其優(yōu)點(diǎn)主要體現(xiàn)在模型預(yù)測的低風(fēng)險(xiǎn)區(qū)域分布均勻,且極高和高風(fēng)險(xiǎn)區(qū)面積較小,整體精度也較好。目前的大部分研究均采用這種采樣方法,但該方法的問題是所選擇的非滑坡點(diǎn)不能保證其穩(wěn)定性,可能為滑坡發(fā)生的潛在點(diǎn)。以往研究中對負(fù)樣本的不確定性的關(guān)注太少,引起易發(fā)性預(yù)測結(jié)果誤差較大。

低坡度SVM和RF模型的負(fù)樣本分布在瑞金市的地形平坦地區(qū),保證了所選擇的非滑坡點(diǎn)的穩(wěn)定性且預(yù)測精度也較好。但該模型最大的問題是過分強(qiáng)調(diào)坡度的作用,隨機(jī)森林模型中因子重要性排序結(jié)果顯示出坡度的重要性排在前列,導(dǎo)致該模型預(yù)測結(jié)果中的極高和高易發(fā)性區(qū)面積較大,且對高坡度的穩(wěn)定區(qū)域的識別能力弱。

對于負(fù)樣本選擇這一問題,繆亞敏等依據(jù)研究區(qū)地理環(huán)境的相似性規(guī)律,將與正樣本的地理環(huán)境不相似的點(diǎn)作為負(fù)樣本;黃發(fā)明等提出自組織映射神經(jīng)網(wǎng)絡(luò)方法,并繪制初始滑坡易發(fā)性圖,從極低易發(fā)區(qū)選擇非滑坡樣本。以上研究均通過合理地選擇負(fù)樣本提高了ML模型的精度。本文在上述分析中,選擇計(jì)算方法更簡單、預(yù)測精確的IV模型提取負(fù)樣本,在考慮到每個因子影響程度,確保負(fù)樣本選擇客觀準(zhǔn)確的同時,降低了對環(huán)境因子影響。建模結(jié)果也顯示,IV-ML模型預(yù)測出了規(guī)律更顯著、精度更高的滑坡易發(fā)性結(jié)果。下一步研究可重點(diǎn)關(guān)注提高滑坡易發(fā)性建模效率的方法,探究負(fù)樣本數(shù)量對建模結(jié)果的影響,以降低機(jī)器學(xué)習(xí)模型的不確定性及其干擾因素。

5 結(jié) 論

為構(gòu)建更為合理的滑坡易發(fā)性預(yù)測模型,針對ML建模中負(fù)樣本的選擇問題,構(gòu)建了IV-SVM和IV-RF模型預(yù)測瑞金滑坡易發(fā)性;并與單獨(dú)SVM、RF模型與低坡度SVM、RF模型做對比,開展建模討論。結(jié)果表明:IV-SVM和IV-RF模型具有比單獨(dú)SVM、RF模型及低坡度SVM、RF模型更高的滑坡易發(fā)性預(yù)測精度且更有效地反映了滑坡易發(fā)性的空間分布規(guī)律??梢?,基于IV法的滑坡負(fù)樣本選擇方案優(yōu)于全區(qū)隨機(jī)選擇負(fù)樣本及從坡度小于2°的特定屬性區(qū)內(nèi)隨機(jī)選擇負(fù)樣本的方案,選擇的負(fù)樣本準(zhǔn)確性更高且具有廣泛的代表性。因此,利用IV法選擇的負(fù)樣本可作為ML模型預(yù)測滑坡易發(fā)性的基礎(chǔ)。另外,RF算法相較于SVM模型具有更高的滑坡易發(fā)性預(yù)測精度。綜上,IV-RF等類似耦合模型能夠彌補(bǔ)單獨(dú)模型存在的缺點(diǎn),更加適合滑坡易發(fā)性預(yù)測建模。

猜你喜歡
易發(fā)信息量坡度
基于雙軸加速度的車輛坡度優(yōu)化算法研究
機(jī)用鎳鈦銼在乳磨牙根管治療中的應(yīng)用
貴州省地質(zhì)災(zāi)害易發(fā)分區(qū)圖
重磅!廣東省發(fā)文,全面放開放寬落戶限制、加大住房供應(yīng)……信息量巨大!
ArcGIS在地質(zhì)災(zāi)害易發(fā)性評價(jià)中的應(yīng)用
Aqueducts
放緩坡度 因勢利導(dǎo) 激發(fā)潛能——第二學(xué)段自主習(xí)作教學(xué)的有效嘗試
連云港市地質(zhì)災(zāi)害易發(fā)性分區(qū)評價(jià)研究
走出初中思想品德課的困擾探討
讓多媒體技術(shù)在語文課堂飛揚(yáng)
寻乌县| 西乌| 宣化县| 石景山区| 松原市| 乐昌市| 台湾省| 东乡族自治县| 达日县| 沛县| 南城县| 兰州市| 八宿县| 库车县| 逊克县| 犍为县| 昂仁县| 宁陕县| 八宿县| 惠东县| 罗山县| 郓城县| 绥芬河市| 新平| 道孚县| 松阳县| 宽城| 宜丰县| 潜山县| 呼图壁县| 恩平市| 隆德县| 陆川县| 常州市| 桂平市| 孟连| 海宁市| 通许县| 如东县| 丰原市| 叶城县|