基于集成學(xué)習(xí)的山區(qū)中小流域滑坡易發(fā)區(qū)早期識(shí)別優(yōu)化試驗(yàn)

2022-11-28 11:53劉海知包紅軍宋巧云狄靖月

工程科學(xué)與技術(shù) 2022年6期

劉海知，徐輝*，包紅軍，魯恒，宋巧云，狄靖月，王蒙，曹爽

(1.國(guó)家氣象中心，北京 100081；2.中國(guó)氣象局–河海大學(xué)水文氣象研究聯(lián)合實(shí)驗(yàn)室，北京 100081；3.四川大學(xué) 水利水電學(xué)院，四川成都 610065；4.四川大學(xué) 水力學(xué)與山區(qū)河流開發(fā)保護(hù)國(guó)家重點(diǎn)實(shí)驗(yàn)室，四川成都 610065)

滑坡是中國(guó)西部山區(qū)的一種典型自然災(zāi)害，汶川大地震后的破碎山體、巖體經(jīng)過長(zhǎng)時(shí)間風(fēng)化作用形成的大量潛在固體物源在重力侵蝕和水力坡面侵蝕的共同作用下被帶入溝道，成為山洪水沙災(zāi)害的主要泥沙補(bǔ)給[1]。目前，山洪水沙災(zāi)害的防治主要關(guān)注洪水的影響，忽視了洪水和泥沙的共同作用[2–4]，滑坡作為山洪水沙耦合運(yùn)動(dòng)的重要物源基礎(chǔ)，其易發(fā)區(qū)的識(shí)別是山洪水沙災(zāi)害預(yù)報(bào)預(yù)警和風(fēng)險(xiǎn)評(píng)估的重要前提[5–8]。近年來，隨著遙感數(shù)據(jù)處理技術(shù)的升級(jí)和計(jì)算機(jī)科學(xué)的快速發(fā)展，基于衛(wèi)星遙感的滑坡信息提取已經(jīng)成為流域尺度滑坡易發(fā)性早期識(shí)別的主要方法。宿方睿等[9]采用面向?qū)ο蠓诸惙ú⒔Y(jié)合目視解譯提高了遙感影像滑坡解譯的成功率。Xu等[10]基于地震觸發(fā)的滑坡數(shù)據(jù)改進(jìn)了滑坡體積的估算方法。黃潤(rùn)秋等[11]根據(jù)高分辨率衛(wèi)星影像數(shù)據(jù)目視解譯出6 877個(gè)地質(zhì)災(zāi)害點(diǎn)。此外，人工智能和模糊數(shù)學(xué)領(lǐng)域的技術(shù)方法也被更多地應(yīng)用于樣本數(shù)量少、影像光譜信息匱乏區(qū)域的災(zāi)害易發(fā)性識(shí)別研究[12–15]。張帥等[16]利用區(qū)域生長(zhǎng)算法和形態(tài)學(xué)實(shí)現(xiàn)了黃土高原巴謝河流域未解譯典型滑坡的識(shí)別。Ding等[17]提出基于紋理變化檢測(cè)和卷積神經(jīng)網(wǎng)絡(luò)的滑坡自動(dòng)識(shí)別方法。Huang等[18]使用汶川地震后60個(gè)流域的實(shí)測(cè)泥石流體積數(shù)據(jù)集開發(fā)混合機(jī)器學(xué)習(xí)模型。張群等[19]采用了3種方案建立了BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)滑坡體積。目前，大多數(shù)滑坡易發(fā)性早期識(shí)別工作對(duì)于非滑坡單元的選取及數(shù)據(jù)樣本的構(gòu)建過程仍較為主觀，也未將固體物源作為主要影響因子。本文從分區(qū)算法和影響因子的角度對(duì)山區(qū)小流域的滑坡易發(fā)性識(shí)別方法進(jìn)行優(yōu)化試驗(yàn)，評(píng)估單體算法和融合算法對(duì)于滑坡易發(fā)區(qū)的識(shí)別效果，并比較考慮物源因子前后的滑坡易發(fā)性分區(qū)結(jié)果。

1 研究區(qū)域與方法

1.1 研究區(qū)域概況和數(shù)據(jù)來源

壽溪河流域位于四川省阿壩藏族羌族自治州汶川縣內(nèi)，屬于川西多雨中心區(qū)。流域集水面積約554 km2，地理位置在東經(jīng)103°02′04″～103°26′56″，北緯30°47′42″～31°02′19″，海拔895～4 952 m。流域內(nèi)地形復(fù)雜、溝谷縱橫，是典型的山區(qū)流域。流域內(nèi)降水年內(nèi)分配不均，大部分集中于6—9月，且多為短時(shí)強(qiáng)降水，滑坡點(diǎn)主要分布于河谷兩岸區(qū)域，如圖1所示。

圖1 研究區(qū)及滑坡分布Fig.1 Research area and landslides distribution

滑坡信息主要通過對(duì)遙感影像中的地物特征進(jìn)行提取而獲得，遙感影像采用斯波特（Satellite Pour l’Observation de la Terre，SPOT）7號(hào)衛(wèi)星全色遙感影像圖。影響滑坡發(fā)生的環(huán)境因子很多，考慮到易發(fā)區(qū)早期識(shí)別優(yōu)化算法在更大范圍的適用性，選取應(yīng)用范圍較廣的環(huán)境因子對(duì)研究區(qū)域滑坡易發(fā)性進(jìn)行分析。針對(duì)滑坡易發(fā)性的大量研究中，常將地形因子、地質(zhì)因子、土壤因子、土地利用、植被覆蓋及水文環(huán)境作為主要評(píng)價(jià)因子[20]。本文將坡度、坡向、地形曲率、地形粗糙度作為地形因子，將地層巖性和距斷層距離作為地質(zhì)因子，將土壤類型作為土壤因子，將土地利用類型作為土地利用因子，將歸一化植被指數(shù)作為植被覆蓋因子，將汛期降水量作為水文環(huán)境因子。數(shù)字高程模型（digital elevation model，DEM）選用對(duì)地觀測(cè)衛(wèi)星（advanced land observing satellite，ALOS）相控陣型L波段合成孔徑雷達(dá)采集的DEM數(shù)據(jù)，來源于美國(guó)國(guó)家航空航天局（National Aeronautics and Space Administration，NASA）官方網(wǎng)站；坡度、坡向、地形曲率及地面粗糙度數(shù)據(jù)基于DEM空間分析生成；土地利用數(shù)據(jù)、土壤類型數(shù)據(jù)、植被覆蓋數(shù)據(jù)來源于中國(guó)科學(xué)院資源環(huán)境科學(xué)與數(shù)據(jù)中心；地層巖性和斷層數(shù)據(jù)來源于91衛(wèi)圖助手軟件地質(zhì)圖；降水?dāng)?shù)據(jù)采用的是國(guó)家氣象信息中心研發(fā)的中國(guó)區(qū)域高時(shí)空分辨率多源融合降水近實(shí)時(shí)實(shí)況分析產(chǎn)品（China Meteorological Administration Multisource Precipitation Analysis System，CMPAS），該產(chǎn)品可為山區(qū)小流域等自動(dòng)觀測(cè)站分布密度極小的區(qū)域提供精細(xì)化降水實(shí)況數(shù)據(jù)。以上數(shù)據(jù)來源與精度見表1。

表1 數(shù)據(jù)來源與精度Tab.1 Data source and resolution

1.2 主要方法

1）頻率比算法

統(tǒng)計(jì)方法在滑坡易發(fā)區(qū)識(shí)別中應(yīng)用最為廣泛，基于統(tǒng)計(jì)方法對(duì)環(huán)境因子進(jìn)行分析時(shí)多采用頻率比（式（1））對(duì)環(huán)境因子進(jìn)行屬性劃分，故從訓(xùn)練樣本集中獲取滑坡易發(fā)性與基礎(chǔ)環(huán)境因子之間的關(guān)系：

2）易發(fā)度分類算法

滑坡的易發(fā)性問題在一定程度上可以表示為分類問題，即在環(huán)境因子構(gòu)成的空間中對(duì)樣本集進(jìn)行分類，獲取易發(fā)性與環(huán)境因子之間的關(guān)系，進(jìn)而將這種關(guān)系從環(huán)境因子空間映射到地理空間，實(shí)現(xiàn)對(duì)滑坡易發(fā)性的識(shí)別與分區(qū)，并為每個(gè)空間單元標(biāo)記易發(fā)性等級(jí)。集成學(xué)習(xí)是一種將多個(gè)弱分類器合成單個(gè)強(qiáng)分類器以提高分類準(zhǔn)確率和泛化能力的技術(shù)框架。隨機(jī)森林（Random Forests，RF）是基于Bagging集成學(xué)習(xí)的代表性算法，以決策樹（Decision Tree，DT）作為基評(píng)估器，通過隨機(jī)抽樣對(duì)多個(gè)決策樹進(jìn)行集成并利用多數(shù)投票機(jī)制進(jìn)行預(yù)測(cè)。單個(gè)決策樹的準(zhǔn)確率越高，隨機(jī)森林的準(zhǔn)確率也會(huì)越高。其核心思想是，從原始樣本中有放回地多次取樣，每次取樣形成一個(gè)訓(xùn)練集及其對(duì)應(yīng)決策樹，生成的所有決策樹對(duì)新的數(shù)據(jù)進(jìn)行分類預(yù)測(cè)。自適應(yīng)增強(qiáng)（adaptive boosting，AdaBoost）是Boosting集成學(xué)習(xí)的代表算法，通過在迭代過程中對(duì)訓(xùn)練失敗的樣本賦予較大的權(quán)值來獲得較好的預(yù)測(cè)函數(shù)序列，采用投票方式對(duì)分類問題進(jìn)行預(yù)測(cè)，即樣本的分類由各分類器權(quán)值決定，其核心思想是，基于原始訓(xùn)練集訓(xùn)練一個(gè)基學(xué)習(xí)器，根據(jù)基學(xué)習(xí)器的分類結(jié)果對(duì)訓(xùn)練樣本分布進(jìn)行調(diào)整，對(duì)基學(xué)習(xí)器分類錯(cuò)誤的訓(xùn)練樣本在后續(xù)訓(xùn)練中賦予更大的權(quán)值，利用調(diào)整后的樣本分布訓(xùn)練下一個(gè)基學(xué)習(xí)器，直至學(xué)習(xí)器數(shù)目達(dá)到某一定值后將所有基學(xué)習(xí)器進(jìn)行加權(quán)結(jié)合。RF和AdaBoost的主要區(qū)別體現(xiàn)在分類器，RF的分類器是并行訓(xùn)練，即分類器可以同時(shí)訓(xùn)練數(shù)據(jù)，得出結(jié)果后再確定權(quán)重并綜合為最終分類器；AdaBoost的分類器是先后訓(xùn)練，后一輪分類器運(yùn)用的數(shù)據(jù)會(huì)受到上一輪分類器的影響。本文采用這兩種集成學(xué)習(xí)分類算法對(duì)研究區(qū)域的滑坡易發(fā)性等級(jí)進(jìn)行分類。

3）負(fù)樣本聚類算法

訓(xùn)練樣本中只包含滑坡樣本會(huì)使算法模型高估滑坡易發(fā)度，合理選用非滑坡樣本可以有效約束滑坡高易發(fā)區(qū)的過度擴(kuò)張，對(duì)滑坡易發(fā)性等級(jí)的分類結(jié)果合理性有重要影響[21–23]。常用的負(fù)樣本挑選方法包括隨機(jī)挑選法和專家經(jīng)驗(yàn)法，其中：隨機(jī)挑選法缺乏理論依據(jù)，往往誤差較大；專家經(jīng)驗(yàn)法太過于依賴專家個(gè)人主觀經(jīng)驗(yàn)，不同專家所分析的結(jié)果存在較大差異。基于同類樣本在環(huán)境因子特征空間中相對(duì)接近的原則[24–27]，負(fù)樣本可以在與滑坡樣本的環(huán)境特征差別較大的單元中篩選。聚類算法不需要數(shù)據(jù)標(biāo)簽及其他先驗(yàn)知識(shí)，主要通過輸入樣本的相似程度進(jìn)行歸類處理[28]。K-Means作為最常用的聚類算法，其核心思路是，在確定K個(gè)初始類簇中心點(diǎn)的初始條件下，將每個(gè)點(diǎn)分到距離其最近的類簇中心點(diǎn)代表的類簇中，根據(jù)類簇中所有點(diǎn)重新計(jì)算該類簇中心點(diǎn)（平均值），再迭代進(jìn)行分配點(diǎn)和更新類簇中心點(diǎn)步驟，直至類簇中心點(diǎn)變化小到指定程度或迭代過程達(dá)到指定次數(shù)。基于聚類算法模型的易發(fā)性結(jié)果可以大致反映研究區(qū)內(nèi)的滑坡易發(fā)區(qū)，在高易發(fā)區(qū)以外的區(qū)域隨機(jī)選取非滑坡點(diǎn)以保證負(fù)樣本的準(zhǔn)確性。

4）滑坡解譯

目視解譯作為最傳統(tǒng)、最直接、最精確的松散堆積物識(shí)別方法，需要基于松散堆積物的解譯要素建立解譯標(biāo)志，通過綜合分析獲取松散堆積物邊界、滑動(dòng)方向及影響范圍等信息。本文根據(jù)滑坡遙感影像特征（光譜、形狀、紋理），結(jié)合DEM和實(shí)地調(diào)查數(shù)據(jù)，通過目視解譯手段獲取壽溪河流域內(nèi)滑坡物源區(qū)域，直接解譯標(biāo)志為：形狀呈馬蹄形、簸箕形、弧形或不規(guī)則形；紋理粗糙，起伏不平，地表有坑洼時(shí)，可能存在斑點(diǎn)狀影紋；色調(diào)呈灰色、灰白色，當(dāng)周圍地形較穩(wěn)定時(shí)，顏色較暗，當(dāng)周圍植被較為茂密時(shí)，顏色較周圍物體差異明顯，隨植被恢復(fù)則會(huì)出現(xiàn)不均勻綠色；邊界明顯可見，前部有滑舌伸入溝谷或河道。由于滑坡深度獲取困難，本文利用Simonett[29]建立的滑坡體積–面積冪律關(guān)系對(duì)小型滑坡體積進(jìn)行估算，如式（2）所示：

式中，V為滑坡體積，A為滑坡面積，α、γ為系數(shù)。上述估算公式已應(yīng)用于多個(gè)滑坡研究案例[30–32]。大型滑坡的體積估算需要引入更多與滑坡體積相關(guān)的因子，如式（3）所示：

式中，V為滑坡體積，A為滑坡面積，H為高，L為長(zhǎng)，W為寬，Lith為巖性，Slp為坡度，PGA為峰值地動(dòng)加速度，Asp為坡向，α、γ1～γ7為系數(shù)。本文目視解譯最大的滑坡面積為30 413 m2，不屬于大型滑坡，因此采用式（2）估算松散堆積物體積。

1.3 數(shù)據(jù)處理

不同渠道獲取的數(shù)據(jù)表達(dá)形式存在差異，即使同為柵格數(shù)據(jù)，空間分辨率也因衛(wèi)星搭載的傳感器不同而不同，驅(qū)動(dòng)易發(fā)性分區(qū)算法之前需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。在提取滑坡發(fā)生的核心位置時(shí)，將滑坡面數(shù)據(jù)與DEM數(shù)據(jù)疊加，以滑面內(nèi)DEM最大值所在區(qū)域?yàn)榛掳l(fā)生源區(qū)。由于地形因子、土壤因子、土地覆蓋和植被覆蓋為柵格數(shù)據(jù)，汛期降水為格點(diǎn)數(shù)據(jù)，需要建立統(tǒng)一坐標(biāo)系和分辨率的柵格格式專題圖層。為保證所有柵格數(shù)據(jù)具有相同屬性，處理過程中以ALOS DEM數(shù)據(jù)為參考，對(duì)各環(huán)境因子進(jìn)行屬性統(tǒng)一操作：通過坐標(biāo)系轉(zhuǎn)換和數(shù)據(jù)重采樣操作將不同坐標(biāo)系和空間分辨率的圖像統(tǒng)一到與參考圖像相同的地理坐標(biāo)系（GCS_WGS_1984）和空間分辨率（12.5 m×12.5 m）。按照柵格數(shù)量接近原則將所有環(huán)境因子進(jìn)行區(qū)間劃分，具備自然分類屬性的環(huán)境因子按照自然情況進(jìn)行分級(jí)。利用GIS平臺(tái)的空間相交和屬性查詢功能，根據(jù)滑坡地理位置的矢量點(diǎn)要素提取環(huán)境因子數(shù)據(jù)，得出不同等級(jí)環(huán)境因子的空間分布及數(shù)量，構(gòu)建易發(fā)性早期識(shí)別算法的基礎(chǔ)數(shù)據(jù)集。

由于流域內(nèi)滑坡樣本數(shù)量相對(duì)較少，將其影響因子數(shù)據(jù)集用于算法訓(xùn)練時(shí)可能損失部分特征或趨勢(shì)。K–Fold交叉驗(yàn)證是一種評(píng)估有限數(shù)據(jù)樣本的機(jī)器學(xué)習(xí)算法模型的重采樣方法，可以擴(kuò)大樣本數(shù)量及降低過擬合概率。此處，將訓(xùn)練集分為10組大小相等的互斥子集（K=10），依次輪換10次進(jìn)行試驗(yàn)。樣本集按0.8和0.2的比例分為訓(xùn)練集和測(cè)試集，通過數(shù)據(jù)清洗去除無效值。影響因子以1維向量形式作為輸入項(xiàng)，輸出滑坡易發(fā)性等級(jí)。

1.4 評(píng)價(jià)指標(biāo)

滑坡易發(fā)性識(shí)別結(jié)果包含以下4種類型：真陽性（true postive，TP），即被預(yù)測(cè)為滑坡點(diǎn)的實(shí)際滑坡樣本數(shù)量；真陰性（true negative，TN），即被預(yù)測(cè)為非滑坡點(diǎn)的實(shí)際非滑坡樣本數(shù)量；假陽性（false positive，F(xiàn)P），即被預(yù)測(cè)為滑坡點(diǎn)的實(shí)際非滑坡樣本數(shù)量；假陰性（false negative，F(xiàn)N），即被預(yù)測(cè)為非滑坡點(diǎn)的實(shí)際滑坡樣本數(shù)量。根據(jù)易發(fā)性識(shí)別結(jié)果類型計(jì)算模型的以下指標(biāo)：召回率（recall，REC），即實(shí)際滑坡樣本中被預(yù)測(cè)為滑坡點(diǎn)的比例；虛警率（false alarm，F(xiàn)A），即實(shí)際非滑坡樣本中被預(yù)測(cè)為滑坡點(diǎn)的比例；準(zhǔn)確率（accuracy, ACC），即預(yù)測(cè)正確的樣本占總樣本的比例。計(jì)算公式分別如式（4）～（6）所示：

受試者工作特征曲線（receiver operating characteristic curve，ROC）是反映敏感性和特異性連續(xù)變量的綜合指標(biāo)，ROC下方面積（area under the curve，AUC）可評(píng)價(jià)模型的泛化能力，可通過該評(píng)價(jià)指標(biāo)對(duì)滑坡易發(fā)性分區(qū)結(jié)果進(jìn)行評(píng)價(jià)。

2 結(jié)果分析

研究區(qū)域影響因子各等級(jí)空間分布如圖2所示。根據(jù)已有的滑坡點(diǎn)位置信息計(jì)算影響因子各等級(jí)頻率比并替換影響因子初始值，影響因子最大頻率比見表2。

圖2 研究區(qū)域影響因子空間分布Fig.2 Spatial distribution of influence factors in research area

表2 影響因子最大頻率比Tab.2 Max frequency ratios of influence factors

將研究區(qū)域影響因子頻率比空間分布進(jìn)行疊加，并以1維向量形式作為K-means聚類算法輸入項(xiàng)，通過10折交叉驗(yàn)證進(jìn)行訓(xùn)練，輸出基于影響因子頻率比的滑坡易發(fā)性聚類結(jié)果，如圖3所示。將易發(fā)性聚類結(jié)果分為5個(gè)等級(jí)：低易發(fā)區(qū)[1,2]、較低易發(fā)區(qū)[3,4]、中易發(fā)區(qū)[5,6]、較高易發(fā)區(qū)[7,8]、高易發(fā)區(qū)[9,10]。其中，高易發(fā)區(qū)的覆蓋率為6.7%，較高易發(fā)區(qū)的覆蓋率為8.2%，較高和高易發(fā)區(qū)的滑坡點(diǎn)比例為61.7%。

圖3 基于K-Means聚類算法的壽溪河流域滑坡易發(fā)性分布Fig.3 Distribution of landslides susceptibility in Shouxi river basin based on K-Means clustering algorithm

從低易發(fā)區(qū)中隨機(jī)挑選與滑坡樣本等量的非滑坡樣本，將滑坡點(diǎn)（正樣本）和非滑坡點(diǎn)（負(fù)樣本）影響因子頻率比數(shù)據(jù)集作為RF分類算法和AdaBoost分類算法的輸入項(xiàng)，通過交叉驗(yàn)證進(jìn)行訓(xùn)練，輸出兩類集成學(xué)習(xí)分類算法的滑坡易發(fā)性等級(jí)，如圖4所示。

圖4 基于融合算法的壽溪河流域滑坡易發(fā)性分布Fig.4 Distribution of landslides susceptibility in Shouxi river basin based on fusion algorithm

融合算法（K-Means–RF、K-Means–AdaBoost）輸出的高易發(fā)區(qū)覆蓋率相對(duì)于單體聚類算法分別提高9.3%、12.1%。在對(duì)測(cè)試樣本集的分類效果評(píng)估中，將分類結(jié)果為較高易發(fā)性或高易發(fā)性的樣本表示為滑坡點(diǎn)，其余分類結(jié)果表示為非滑坡點(diǎn)。兩類融合算法的評(píng)估結(jié)果見表3。

表3 融合算法評(píng)估結(jié)果Tab.3 Fusion algorithm evaluation results

由表3可知：K-Means–RF融合算法的易發(fā)性等級(jí)分類結(jié)果中，24例滑坡樣本被預(yù)測(cè)為滑坡點(diǎn)（TP），9例滑坡樣本被預(yù)測(cè)為非滑坡點(diǎn)（FN），25例非滑坡樣本被預(yù)測(cè)為非滑坡點(diǎn)（TN），8例非滑坡樣本被預(yù)測(cè)為滑坡點(diǎn)（FP）；分類正確的滑坡樣本占實(shí)際滑坡樣本測(cè)試集的72.7%（REC為0.727），分類正確的非滑坡樣本占實(shí)際非滑坡樣本測(cè)試集的75.8%（FA為0.242），分類準(zhǔn)確率為0.742。K-Means–AdaBoost融合算法的易發(fā)性等級(jí)分類結(jié)果中，26例滑坡樣本被預(yù)測(cè)為滑坡點(diǎn)（TP），7例滑坡樣本被預(yù)測(cè)為非滑坡點(diǎn)（FN），24例非滑坡樣本被預(yù)測(cè)為非滑坡點(diǎn)（TN），9例非滑坡樣本被預(yù)測(cè)為滑坡點(diǎn)（FP）；分類正確的滑坡樣本占實(shí)際滑坡樣本測(cè)試集的78.8%（REC為0.788），分類正確的非滑坡樣本占實(shí)際非滑坡樣本測(cè)試集的72.7%（FA為0.273），分類準(zhǔn)確率為0.758。KMeans–AdaBoost融合算法的準(zhǔn)確率略高于KMeans–RF融合算法，K-Means–AdaBoost對(duì)于滑坡點(diǎn)的預(yù)測(cè)效果更優(yōu)，F(xiàn)N的數(shù)量比K-Means–RF融合算法少2例；K-Means–RF算法對(duì)于非滑坡點(diǎn)的預(yù)測(cè)效果更優(yōu)，F(xiàn)P的數(shù)量比K-Means–AdaBoost融合算法少1例。兩類融合算法的泛化能力較為接近，KMeans–AdaBoost、K-Means–RF算法AUC分別為0.893、0.879。

將物源因子作為滑坡易發(fā)性分區(qū)影響因子，在保留原有影響因子的基礎(chǔ)上，增加物源頻率比作為融合算法的輸入項(xiàng)。

根據(jù)目視解譯標(biāo)志，結(jié)合現(xiàn)場(chǎng)調(diào)查結(jié)果，得到松散堆積物源144處，面積總和為1 344 060 m2，平均面積為9 333.75 m2，最大面積約為30 413 m2；面積大于20 000 m2的松散堆積物數(shù)量和面積總和分別為19個(gè)、625 316 m2，面積小于5 000 m2的松散堆積物數(shù)量和面積總和分別為47個(gè)、136 488 m2?？傮w來看，面積較大（>20 000 m2）的松散堆積物數(shù)量和面積總和分別占總數(shù)和總面積的13.19%、46.52%；面積較?。ǎ?0 000 m2）的松散堆積物數(shù)量和面積總和分別占總數(shù)和總面積的65.28%、35.13%；研究區(qū)多以分散型小面積滑坡物源區(qū)為主。由于土層暴露，滑坡體色調(diào)較淺且不均勻，與周圍地物有較明顯分界線；滑坡體顏色較周圍植被更呈亮黃色或亮白色，稀疏灌木或草地使滑坡體呈現(xiàn)出零星的淡綠色；滑坡體邊緣與植被和路段分隔清晰，典型滑坡體的現(xiàn)場(chǎng)調(diào)查情況及其解譯標(biāo)志如圖5所示。

圖5 典型滑坡現(xiàn)場(chǎng)調(diào)查及遙感影像Fig.5 Typical landslide site survey and remote sensing image

根據(jù)式（2）估算各處松散堆積物體積，由于缺少滑坡體的現(xiàn)場(chǎng)測(cè)量條件，選用其他研究在汶川地區(qū)實(shí)測(cè)得到的面積和體積數(shù)據(jù)建立冪律關(guān)系[10,31,33–35]，得出體積和面積相關(guān)性方程為：

對(duì)松散堆積物體積進(jìn)行均勻間隔采樣后的空間分布如圖6所示，最大體積為9 245.28 m3。根據(jù)中國(guó)地質(zhì)調(diào)查局公布的《滑坡防治工程勘察規(guī)范》（GB/T 32864—2016）中關(guān)于滑坡體積的分類標(biāo)準(zhǔn)可知，研究區(qū)滑坡類別均屬于小型滑坡。

圖6 松散堆積物體積Fig.6 Volume of loose deposita

考慮物源因子后的兩類融合算法輸出的滑坡易發(fā)性分區(qū)如圖7所示。由圖7可知：K-Means–RF、KMeans–AdaBoost融合算法輸出的高易發(fā)區(qū)覆蓋率相對(duì)于未考慮物源因子時(shí)分別提高14.2%、17.7%?？紤]物源因子后對(duì)測(cè)試樣本集的分類效果評(píng)估結(jié)果見表4。K-Means–RF融合算法的易發(fā)性等級(jí)分類結(jié)果中：28例滑坡樣本被預(yù)測(cè)為滑坡點(diǎn)（TP），5例滑坡樣本被預(yù)測(cè)為非滑坡點(diǎn)（FN），分類正確的滑坡樣本占實(shí)際滑坡樣本測(cè)試集的84.8%，REC為0.848；25例非滑坡樣本被預(yù)測(cè)為非滑坡點(diǎn)（TN），6例非滑坡樣本被預(yù)測(cè)為滑坡點(diǎn)（FP），分類正確的非滑坡樣本占實(shí)際非滑坡樣本測(cè)試集的75.8%，F(xiàn)A為0.242，分類準(zhǔn)確率為0.803。K-Means–AdaBoost融合算法的易發(fā)性等級(jí)分類結(jié)果中：30例滑坡樣本被預(yù)測(cè)為滑坡點(diǎn)（TP），3例滑坡樣本被預(yù)測(cè)為非滑坡點(diǎn)（FN），分類正確的滑坡樣本占實(shí)際滑坡樣本測(cè)試集的90.9%，REC為0.909；24例非滑坡樣本被預(yù)測(cè)為非滑坡點(diǎn)（TN），9例非滑坡樣本被預(yù)測(cè)為滑坡點(diǎn)（FP），分類正確的非滑坡樣本占非滑坡樣本測(cè)試集的72.7%，F(xiàn)A為0.273，分類準(zhǔn)確率為0.818?？紤]物源條件的兩類融合算法的FN數(shù)量都減少4例，對(duì)于滑坡點(diǎn)的預(yù)測(cè)效果相較于未考慮物源條件時(shí)更優(yōu)，準(zhǔn)確率有一定提升。

圖7 考慮物源因子的融合算法的壽溪河流域滑坡易發(fā)性分布Fig.7 Distribution of landslides in Shouxi river basin based on fusion algorithm considering slump masssources factor

表4 考慮物源因子的融合算法評(píng)估結(jié)果Tab.4 Fusion algorithm evaluation results considering loose deposita factor

3 結(jié)論與討論

滑坡易發(fā)區(qū)早期識(shí)別是山洪水沙災(zāi)害易發(fā)性識(shí)別的基礎(chǔ)，本文從分區(qū)算法和影響因子兩個(gè)方面對(duì)山區(qū)中小流域滑坡易發(fā)性識(shí)別方法進(jìn)行了優(yōu)化試驗(yàn)。得出以下結(jié)論：

1）基于聚類–分類融合算法的山區(qū)中小流域滑坡易發(fā)性分區(qū)結(jié)果的高易發(fā)區(qū)覆蓋率相較于單體聚類算法明顯提高，K-Means–RF、K-Means–Ada-Boost融合算法的易發(fā)性分區(qū)中的高易發(fā)區(qū)覆蓋率分別提高9.3%和12.1%。

2）兩類融合算法的易發(fā)性分區(qū)準(zhǔn)確率和泛化能力比較接近，K-Means–AdaBoost融合算法對(duì)于滑坡點(diǎn)的預(yù)測(cè)效果更優(yōu)，K-Means–RF算法對(duì)于非滑坡點(diǎn)的預(yù)測(cè)效果更優(yōu)。

3）考慮物源因子后的K-Means–RF、K-Means–AdaBoost融合算法輸出的高易發(fā)區(qū)覆蓋率相對(duì)于未考慮物源因子時(shí)分別提高14.2%、17.7%，兩類融合算法REC提高12.1%。

從實(shí)際業(yè)務(wù)出發(fā)，滑坡的早期識(shí)別對(duì)于漏警的容錯(cuò)率遠(yuǎn)小于虛警，基于集成學(xué)習(xí)的分類算法模型在訓(xùn)練過程中確保高（低）召回率（漏報(bào)率）是前提，即著重于對(duì)滑坡樣本的濾取，這會(huì)在一定程度上造成部分非滑坡樣本被預(yù)測(cè)為滑坡樣本。綜合上述原因，K-Means–AdaBoost算法的實(shí)際業(yè)務(wù)應(yīng)用潛力高于K-Means–RF算法。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡