溫亞楠,張志華,慕號偉,田德宇,王筱宇
(1.蘭州交通大學(xué) 測繪與地理信息學(xué)院,甘肅 蘭州 730070; 2.地理國情監(jiān)測技術(shù)應(yīng)用國家地方聯(lián)合工程研究中心,甘肅 蘭州 730070;3.甘肅省地理國情監(jiān)測工程實驗室,甘肅 蘭州 730070; 4.中科院西北生態(tài)環(huán)境資源研究院,甘肅 蘭州 730000)
滑坡是世界范圍內(nèi)發(fā)生的最主要的地質(zhì)災(zāi)害,其嚴重威脅著人類的生命財產(chǎn)安全[1]。滑坡在中國廣泛分布,僅在2019年全國共發(fā)生滑坡4 220起,占地質(zhì)災(zāi)害總數(shù)的68.27%,造成了巨大的破壞[2]。及時發(fā)布滑坡預(yù)警信息有助于疏散民眾,從而減少由此造成的生命財產(chǎn)損失。為了降低滑坡災(zāi)害對人類的威脅,相關(guān)國家和組織通過響應(yīng)《2015-2030年仙臺減少災(zāi)害風(fēng)險框架》和《2030年可持續(xù)發(fā)展議程》,共同推進構(gòu)建自然災(zāi)害風(fēng)險防范協(xié)同機制[3],積極開展滑坡預(yù)測預(yù)警研究,及時采取相應(yīng)的防災(zāi)減災(zāi)措施。
在20世紀60年代滑坡時間預(yù)測[4]被提出后的10年間,國內(nèi)外專家學(xué)者開始將滑坡預(yù)測研究方向由時間預(yù)測擴展到空間預(yù)測,并且取得了較好的成果。滑坡空間預(yù)測分為確定性預(yù)測和非確定性預(yù)測。確定性預(yù)測是通過力學(xué)計算模型結(jié)合基礎(chǔ)地理信息預(yù)測滑坡災(zāi)害,但只適用于小范圍預(yù)測[5]。非確定性預(yù)測是通過結(jié)合歷史滑坡數(shù)據(jù)與滑坡誘發(fā)因子來預(yù)測不同尺度區(qū)域的滑坡災(zāi)害,具體分為滑坡知識驅(qū)動模型和滑坡數(shù)據(jù)驅(qū)動模型[6]。相關(guān)研究通過GIS技術(shù)分別結(jié)合知識驅(qū)動模型中的層次分析法[7]以及數(shù)據(jù)驅(qū)動模型中的CF多元回歸和神經(jīng)網(wǎng)絡(luò)模型[8],綜合多種滑坡誘發(fā)因子對滑坡災(zāi)害敏感區(qū)域進行空間預(yù)測。對比這兩種方法,數(shù)據(jù)驅(qū)動方法可以更好地通過定量方式預(yù)測不同等級的滑坡敏感區(qū)域,取得了較好的預(yù)測結(jié)果。此外,海量多源數(shù)據(jù)結(jié)合數(shù)據(jù)驅(qū)動中的BP神經(jīng)網(wǎng)絡(luò)方法提取了滑坡誘發(fā)因子,滑坡易發(fā)性等級評價較準確,滑坡空間預(yù)測精度較高[9-10]。支持向量機、隨機森林、回歸樹等機器學(xué)習(xí)方法結(jié)合多源數(shù)據(jù)在滑坡空間預(yù)測中同樣表現(xiàn)出較為準確的預(yù)測性能[11-13]。隨著物聯(lián)網(wǎng)和傳感器技術(shù)的快速發(fā)展,多學(xué)科領(lǐng)域與多途徑聯(lián)合探索及動態(tài)觀測為滑坡預(yù)測預(yù)警提供了動態(tài)多源觀測數(shù)據(jù),主要包含了滑坡發(fā)生過程的復(fù)雜時空變化信息、滑坡誘發(fā)因素,同時可以反映滑坡形變表現(xiàn)。天空地協(xié)同觀測數(shù)據(jù)驅(qū)動模擬分析方法,可以實現(xiàn)復(fù)雜地形地質(zhì)條件下滑坡災(zāi)害模擬分析[14]。地質(zhì)災(zāi)害自動檢測預(yù)警系統(tǒng),通過結(jié)合多源數(shù)據(jù)和數(shù)據(jù)驅(qū)動方法成功預(yù)測了黑方臺陳家6#滑坡[15]。另外,基于全球定位導(dǎo)航技術(shù)與合成孔徑雷達干涉技術(shù)總結(jié)了高精度空間檢測技術(shù)并且在2019年10月5日成功預(yù)報了黑方臺突發(fā)性黃土滑坡[16]。
本文從數(shù)據(jù)驅(qū)動的角度進行滑坡空間預(yù)測研究,基于谷歌地球引擎平臺(GEE)的動態(tài)多源遙感數(shù)據(jù),結(jié)合支持向量機(SVM)、隨機森林(RF)分類算法以及主成分分析(PCA)數(shù)據(jù)降維算法、特征遞歸消除(RFE)數(shù)據(jù)篩選算法,提出了一種動態(tài)多源遙感數(shù)據(jù)驅(qū)動模式下的滑坡預(yù)測模型,然后計算對比兩種分類器以及數(shù)據(jù)降維、數(shù)據(jù)篩選后兩種分類器的預(yù)測精度和泛化能力,并且通過受試者工作特征曲線(ROC曲線)的曲線下面積量化值(AUC值)評價預(yù)測模型,選出最優(yōu)滑坡預(yù)測模型。
為了確保研究數(shù)據(jù)的真實性和科學(xué)性,試驗數(shù)據(jù)來自國家自然資源部地質(zhì)災(zāi)害災(zāi)情險情報告,并獲取了2016年6月到2019年8月間全國(不包含港澳臺地區(qū))175個樣本數(shù)據(jù),包含75個滑坡樣本和100個非滑坡樣本,其中西南地區(qū)71個樣本,西北地區(qū)25個樣本,中南東南地區(qū)68個樣本,西北地區(qū)5個樣本,其它地區(qū)6個樣本。另外,非滑坡樣本參考滑坡樣本發(fā)生地點選取,同時試驗對獲取數(shù)據(jù)的經(jīng)緯度坐標進行了地理編碼處理。如圖1所示,試驗將地理編碼處理后的經(jīng)緯度坐標輸入GEE平臺,動態(tài)獲取需要時間范圍內(nèi)的影像以及篩選相應(yīng)的波段。關(guān)于GEE平臺的詳細內(nèi)容可以查詢其官網(wǎng)。
考慮不同誘發(fā)因子對滑坡的影響[17-18],試驗參考樣本數(shù)據(jù)選擇災(zāi)前和無災(zāi)的動態(tài)多源遙感數(shù)據(jù)集,其中將離滑坡災(zāi)害發(fā)生日期最近的災(zāi)前遙感影像作為災(zāi)前遙感數(shù)據(jù)。如表1,每個樣本點包含了災(zāi)前16景遙感影像,共92個波段,滑坡點選取災(zāi)前影像,非滑坡點參考滑坡發(fā)生地選取某一無災(zāi)日期前的影像,數(shù)據(jù)集共選取了2 800景遙感影像。因此,試驗將原始數(shù)據(jù)集構(gòu)建成175×92的特征向量,并將其按照7∶3的比例隨機劃分為訓(xùn)練集和驗證集。
注:本圖制作基于國家自然資源部標準地圖服務(wù)網(wǎng)站下載的國家標準地圖,審圖號為GS(2019)1815號,底圖未作修改。
表1 誘發(fā)因子Table 1 Inducing factors
其中,Sentinel-1幅寬干涉模式的VH極化波段和VV極化波段,可以廣泛地應(yīng)用于地表形變監(jiān)測。Sentinel-2的多光譜數(shù)據(jù)可以有效檢測地表反射條件和植被覆蓋信息,同時也包含了云掩膜信息,為滑坡預(yù)測提供有效參考。降水是導(dǎo)致滑坡災(zāi)害最大的外在因素[19],GPM降水?dāng)?shù)據(jù)產(chǎn)品每30分鐘進行一次觀測,每3小時提供一次全球雨雪觀測,可以及時提供降水信息。MCD12Q1土地覆蓋類型數(shù)據(jù)和SRTM DEM數(shù)據(jù)產(chǎn)品可以充分表達出地形地貌條件,在一定程度上體現(xiàn)了滑坡點的內(nèi)部地質(zhì)結(jié)構(gòu)。此外,試驗還把地表晝夜溫度、土壤濕度和土壤溫度等因素加入滑坡誘發(fā)因子。需要注意的是,試驗選擇的動態(tài)多源遙感數(shù)據(jù)在GEE平臺進行預(yù)處理,如Sentinel-2多光譜影像是經(jīng)過GEE預(yù)處理的一級產(chǎn)品,所選影像產(chǎn)品可以直接進入模型計算。考慮滑坡影響的地理范圍,試驗在GEE平臺上通過構(gòu)建半徑為10公里的圓形緩沖區(qū)對不同來源的遙感影像進行裁剪,并取其平均值作為試驗的數(shù)據(jù)集。本研究將所有數(shù)據(jù)的分辨率采樣至10 m,保證將所有數(shù)據(jù)的分辨率統(tǒng)一至其最高分辨率,并通過GEE平臺內(nèi)置算法統(tǒng)一坐標系,保證每個像素代表相同的地表范圍。
基于動態(tài)多源數(shù)據(jù)驅(qū)動模式進行滑坡空間預(yù)測的基本思路是通過對比分析全國區(qū)域內(nèi)未發(fā)生滑坡和發(fā)生滑坡前的動態(tài)多源遙感數(shù)據(jù)像素值,通過機器學(xué)習(xí)特征優(yōu)選算法和分類算法歸納出其中的像素值差異并進一步構(gòu)建滑坡預(yù)測模型。試驗流程圖如圖2所示,主要由數(shù)據(jù)獲取(滑坡和非滑坡點數(shù)據(jù)、動態(tài)多源遙感數(shù)據(jù))、特征優(yōu)選、滑坡分類預(yù)測和精度評價4個部分構(gòu)成。
圖2 試驗流程圖Fig.2 Experimental flow chart
本文滑坡和非滑坡數(shù)據(jù)由92個維度構(gòu)成,其中包括噪聲和相關(guān)性較差的特征,因此試驗選用PCA算法和RFE算法對研究中的數(shù)據(jù)集分別進行降維和篩選處理。PCA算法從高維度數(shù)據(jù)保留最重要的一系列特征,去除噪聲和相關(guān)性較差的特征,保留前N個主成分,使其累計貢獻率滿足一定要求,形成新的特征。這些特征既能代表原始數(shù)據(jù)集的絕大多數(shù)信息,又互不相關(guān),并且可以代替原始數(shù)據(jù)進一步統(tǒng)計分析[20]。試驗最終保留了累計貢獻率前90%的主成分,共15個,其中PC1-PC15的貢獻度分別為23.58%、12.34%、10.14%、8.56%、7.07%、5.47%、4.30%、3.89%、3.12%、2.49%、2.08%、1.76%、1.73%、1.50%和1.31%。RFE算法的目標是通過遞歸計算權(quán)重最小的特征,該過程在數(shù)據(jù)集上遞歸地運行,消除模型中可能存在的依賴關(guān)系和共線性,直到達到所需要選擇的特征數(shù)量。試驗通過設(shè)置篩選特征閾值,最終在保留30個特征時RFE算法效果最好。
SVM分類器將原始非線性數(shù)據(jù)映射到高維空間,尋找一個滿足分類要求的全局最優(yōu)分類超平面,以最優(yōu)分類超平面將滑坡數(shù)據(jù)和非滑坡數(shù)據(jù)進行區(qū)分,并保證得到最大分類間隔[20]。在實際運算中,還需要通過核函數(shù)解決高維空間中非線性不可分問題。而RF分類器是一個基于決策樹的集成學(xué)習(xí)模型,其基本組成單元是相互獨立的決策樹,這樣更穩(wěn)定、泛化能力更好[21],在森林構(gòu)建完成后,將帶有滑坡和非滑坡標簽的數(shù)據(jù)集輸入森林時,需對森林中的每一棵決策樹進行判斷,預(yù)測出數(shù)據(jù)集中的樣本是滑坡數(shù)據(jù)還是非滑坡數(shù)據(jù)。與其它分類器相比,這兩種分類器更加適用高維數(shù)據(jù)處理,并且均可以有效防止過擬合。眾多專家學(xué)者將SVM分類器和RF分類器廣泛地應(yīng)用于不同方向的分類和回歸研究[22-24]。最后,與特征優(yōu)選模型相結(jié)合,分別構(gòu)建各自的訓(xùn)練模型。
為了對滑坡預(yù)測的結(jié)果進行綜合評價,確定預(yù)測精度的可靠性,本研究采用了ROC曲線對滑坡預(yù)測結(jié)果進行精度驗證。
ROC曲線是一個綜合指標,能夠反映靈敏性和特異性連續(xù)變量的相互關(guān)系,可用于二分類模型的評價。靈敏度表示實際是滑坡災(zāi)害且預(yù)測模型判斷為滑坡災(zāi)害的概率;特異度表示實際是非滑坡災(zāi)害且預(yù)測模型判斷為非滑坡災(zāi)害的概率。AUC值是量化ROC曲線的指標,可通過計算ROC曲線下的面積衡量ROC曲線[25]。AUC值與滑坡預(yù)測結(jié)果對應(yīng)關(guān)系如表2所示。
表2 AUC值與滑坡預(yù)測結(jié)果的對應(yīng)關(guān)系Table 2 Correspondence between AUC values and landslide prediction results
本研究中動態(tài)多源觀測數(shù)據(jù)共選擇了7種遙感影像,從中選擇需要的波段,并把這些波段看作特征。試驗數(shù)據(jù)分為滑坡與非滑坡兩類,為了驗證數(shù)據(jù)集的可分性,對兩類數(shù)據(jù)進行了歸一化處理,計算每個特征的歸一化指數(shù)均值,從而得到滑坡與非滑坡兩條歸一化均值曲線。兩條曲線存在重疊區(qū)域,為了能夠區(qū)分重疊曲線,試驗放大了相關(guān)區(qū)域。如圖3所示,曲線在特征1-31間表現(xiàn)出明顯的差異性,滑坡數(shù)據(jù)集從特征1-特征29在不同程度上都要高于非滑坡數(shù)據(jù)集,而在特征30-31上則相反,這些特征來源于Sentinel-2多光譜數(shù)據(jù)、MCD12Q1土地覆蓋數(shù)據(jù)、MOD11A1地表晝夜溫度數(shù)據(jù);曲線在特征32-35和特征36-39上分別表現(xiàn)為非滑坡數(shù)據(jù)集高于滑坡數(shù)據(jù)集以及滑坡數(shù)據(jù)集高于非滑坡數(shù)據(jù)集,具有明顯的差異性,這些特征分別來源于FLDAS數(shù)據(jù)的土壤濕度和土壤溫度數(shù)據(jù);曲線在特征41-92上也表現(xiàn)出較好的差異性,滑坡數(shù)據(jù)集在變化趨勢上都要低于非滑坡數(shù)據(jù)集,這些特征來源于Sentinel-1雷達數(shù)據(jù)、GPM降水?dāng)?shù)據(jù)和SRTM坡度數(shù)據(jù)。綜合分析,兩類數(shù)據(jù)集在歸一化特征均值曲線上表現(xiàn)出了較好的差異性,這表明試驗數(shù)據(jù)集是可分的,可以應(yīng)用于滑坡預(yù)測預(yù)警研究。
圖3 滑坡與非滑坡數(shù)據(jù)集的歸一化均值特征曲線Fig.3 Normalized mean characteristic curve of landslide dataset and non-landslide dataset
3.2.1 滑坡特征相對重要性與模型選擇
試驗通過隨機森林算法對PCA降維數(shù)據(jù)和RFE篩選的30個特征數(shù)據(jù)進行分析,將得到的特征相對重要性來描述特征變量的影響權(quán)重,從而確定PCA降維數(shù)據(jù)和RFE篩選的30個特征數(shù)據(jù)中影響滑坡預(yù)測的特征相對重要性排序。圖4分別表示:(a)PCA降維數(shù)據(jù)中PC1-PC15特征相對重要性排序;(b)RFE方法篩選的前30個特征相對重要性排序。從圖4(a)中可以看出,PCA降維數(shù)據(jù)中第一主成分的相對重要性最高,并且遠大于其它主成分,對滑坡分類影響最大。圖4(b)中進一步分析具體特征,從RFE保留的30個特征數(shù)據(jù)中可以發(fā)現(xiàn)對滑坡預(yù)測影響較大的因子是GPM降水?dāng)?shù)據(jù),其它滑坡預(yù)測影響因子還包括FLDAS土壤濕度數(shù)據(jù)、Sentinel-2多光譜數(shù)據(jù)、FLDAS土壤溫度數(shù)據(jù)、SRTM4 DEM數(shù)據(jù),而MCD12Q1土壤覆蓋類型數(shù)據(jù)、MOD11A1地表晝夜溫度數(shù)據(jù)和Sentinel-1雷達數(shù)據(jù)未出現(xiàn)在前30個特征中。從而可以得出,PCA降維數(shù)據(jù)中第一主成分的特征相對重要性最大,與主成分分析理論相符合,而其它主成分的特征相對重要性卻與主成分排序不一致。另外,從RFE算法篩選的前30個特征的特征相對重要性排序結(jié)果中可以發(fā)現(xiàn)降雨是滑坡預(yù)測最重要的因子,這也與2014-2018年我國地質(zhì)災(zāi)害統(tǒng)計相吻合,我國84.3%的滑坡是由降雨直接誘發(fā)或與降雨有關(guān)[19]。
圖4 特征相對重要性排序Fig.4 Ranking of feature relative importance
模型選擇是調(diào)整分類器超參數(shù)的過程,經(jīng)過格網(wǎng)搜索確定了SVM分類器正則化系數(shù)為10,核函數(shù)選擇線性核函數(shù),并確定RF分類器樹的棵數(shù)為50。在確定好超參數(shù)后,試驗會根據(jù)所有模型的預(yù)測精度確定最優(yōu)模型。
3.2.2 原始數(shù)據(jù)的滑坡空間預(yù)測
為了對比SVM和RF分類器在本研究數(shù)據(jù)中哪一個具有更好的預(yù)測效果,試驗首先未使用PCA數(shù)據(jù)降維方法和RFE數(shù)據(jù)篩選方法,而是只使用SVM和RF分類器對原始數(shù)據(jù)進行滑坡分類與預(yù)測。具體步驟為將訓(xùn)練數(shù)據(jù)輸入SVM和RF分類器訓(xùn)練得到訓(xùn)練模型,然后將驗證集輸入到訓(xùn)練模型中計算預(yù)測精度。表3顯示了2種分類器的滑坡預(yù)測結(jié)果,從中可以發(fā)現(xiàn)RF滑坡預(yù)測模型比SVM滑坡預(yù)測模型具有更好、更穩(wěn)定的預(yù)測結(jié)果,預(yù)測精度分別為0.7777和0.6402。試驗除了計算驗證集的預(yù)測精度外,還計算了訓(xùn)練集的預(yù)測精度,通過對比訓(xùn)練集和驗證集的預(yù)測精度差值,比較兩種滑坡預(yù)測模型的泛化能力。
表3 試驗精度量化結(jié)果Table 3 Quantification results of experimental accuracy
從表3中的2種預(yù)測精度差值可以發(fā)現(xiàn),SVM和RF滑坡預(yù)測模型的訓(xùn)練集和驗證集差值均為正值,這表明:2種滑坡預(yù)測模型的訓(xùn)練集預(yù)測精度都大于驗證集預(yù)測精度;但SVM滑坡預(yù)測模型的2種預(yù)測精度差值為0.1971,而RF滑坡預(yù)測模型的兩種預(yù)測精度差值為0.0625,表明RF滑坡預(yù)測模型泛化能力較好。
此外,試驗還計算了2種滑坡預(yù)測模型訓(xùn)練集和驗證集的靈敏度和特異度,將靈敏度作為縱坐標,將特異度作為橫坐標,把訓(xùn)練集和驗證集的預(yù)測結(jié)果分別導(dǎo)入python的scikit-learn模塊中進行分析并繪制相應(yīng)的ROC曲線以及計算各自的AUC值,從而定量地評價兩種滑坡預(yù)測模型的預(yù)測結(jié)果。如圖5所示,SVM和RF訓(xùn)練集和驗證集的ROC曲線展現(xiàn)出了分類器的細微變化,其中RF滑坡預(yù)測模型表現(xiàn)較好,AUC值分別為0.8995和0.8389,而SVM預(yù)測模型表現(xiàn)較差,AUC值分別為0.9291和0.6951。這表明RF滑坡預(yù)測模型相比于SVM滑坡預(yù)測模型,其預(yù)測結(jié)果的準確度更高,模型泛化能力更好。
圖5 SVM和RF預(yù)測模型訓(xùn)練集和驗證集的ROC曲線Fig.5 ROC curves of training dataset and validation dataset in the SVM and RF prediction models
由此可見,綜合考慮兩種滑坡預(yù)測模型的預(yù)測精度、訓(xùn)練集和驗證集預(yù)測精度差值以及訓(xùn)練集和驗證集的AUC值,表明相較于SVM訓(xùn)練模型,RF訓(xùn)練模型精度更高,泛化能力也更好,更適于本研究。
3.2.3 特征優(yōu)選數(shù)據(jù)的滑坡空間預(yù)測
在對原始數(shù)據(jù)進行滑坡預(yù)測研究后,試驗采用PCA算法和RFE算法對原始數(shù)據(jù)分別進行了降維和篩選處理,得到了PCA數(shù)據(jù)和RFE篩選30個特征的數(shù)據(jù)。之后分別將PCA數(shù)據(jù)和RFE篩選30個特征的數(shù)據(jù)與SVM和RF分類器進行交叉組合,分別進行滑坡預(yù)測研究,得到了PCA-SVM、PCA-RF、RFE-SVM和RFE-RF共4種滑坡預(yù)測模型。訓(xùn)練集和驗證集的預(yù)測結(jié)果如表4所示,經(jīng)過PCA和RFE方法處理后2種分類器的預(yù)測精度都有了一定的提升,尤其是SVM分類器提升較高。PCA和RFE方法處理后,SVM驗證集的預(yù)測精度分別提升了0.1489和0.1030,而RF分類器驗證集的預(yù)測精度分別提升了0.0171和0.0399。對比四種滑坡預(yù)測模型的預(yù)測精度,RFE-RF模型的訓(xùn)練集和驗證集的預(yù)測精度都最高,分別為0.8314和0.8176;PCA-RF模型次之,預(yù)測精度分別為0.8115和0.7948;預(yù)測精度較差的是PCA-SVM模型,預(yù)測精度分別為0.8201和0.7891;預(yù)測精度最差的是RFE-SVM模型,預(yù)測精度分別為0.9144和0.7432。試驗進一步評價4種滑坡預(yù)測模型的泛化能力,對比4種模型的訓(xùn)練集和驗證集預(yù)測精度差值,可以發(fā)現(xiàn)RFE-SVM模型2種預(yù)測精度間的差值為0.1712,泛化能力最差;PCA-SVM模型2種預(yù)測精度的差值為0.0310,模型泛化能力居中;PCA-RF和RFE-RF的兩種預(yù)測精度差值分別為0.0167和0.0138,模型泛化能力較好。
表4 特征優(yōu)選后預(yù)測精度及AUC值Table 4 Prediction accuracy and AUC value after feature optimization
同樣,試驗計算了4種滑坡預(yù)測模型驗證集的靈敏度和特異度,將靈敏度作為縱坐標,把特異度作為橫坐標,繪制了4種滑坡預(yù)測模型驗證集的ROC曲線并計算其AUC值。從圖6中可以看出,RFE-RF滑坡預(yù)測模型的ROC曲線下面積最大,表明該模型的AUC值最高,模型評價最好。結(jié)合表4具體分析,RFE-RF滑坡預(yù)測模型表現(xiàn)最好,AUC值分別為0.8901和0.8751;PCA-RF滑坡預(yù)測模型的預(yù)測結(jié)果次之,AUC值分別為0.9047和0.7963;而PCA-SVM滑坡預(yù)測模型的預(yù)測結(jié)果最差,AUC值分別為0.8729和0.7928。
圖6 特征優(yōu)選后四種預(yù)測模型的ROC曲線Fig.6 ROC curve of four prediction models after feature optimization
綜合分析4種滑坡預(yù)測模型的預(yù)測精度、預(yù)測精度訓(xùn)練集和驗證集差值以及AUC值可以看出:RFE方法的篩選效果要優(yōu)于PCA方法的降維效果;4種滑坡預(yù)測模型中RFE-RF訓(xùn)練模型的曲線下面積最大、表現(xiàn)最好,并表現(xiàn)出最好的泛化能力;RFE-RF預(yù)測模型為滑坡預(yù)測提供了一種新的思路。同時從4種訓(xùn)練模型驗證集的預(yù)測精度和AUC值中可以發(fā)現(xiàn)兩者具有相同的排序,這驗證了預(yù)測模型精度的可信性。
數(shù)據(jù)量不夠,數(shù)據(jù)維度太高,都是造成預(yù)測精度低的原因。本文由于試驗數(shù)據(jù)獲取途徑單一,并且國家自然資源部地質(zhì)災(zāi)害災(zāi)情險情報告滑坡數(shù)據(jù)量也較少,短時間內(nèi)無法提高數(shù)據(jù)量,因此采用數(shù)據(jù)降維和數(shù)據(jù)篩選來優(yōu)化特征,繼而提高模型的預(yù)測精度。數(shù)據(jù)降維和數(shù)據(jù)篩選可以提高算法可用性,其更深層的意義在于提取綜合有效的信息以及剔除相關(guān)性較差的信息。本文滑坡預(yù)測模型與現(xiàn)在常用的實時綜合監(jiān)測滑坡的方法相比,應(yīng)用范圍更加廣泛,更加節(jié)省資源。雖然基于動態(tài)多源遙感數(shù)據(jù)的滑坡預(yù)測模型對于滑坡預(yù)測有較高的精度,但錯分現(xiàn)象卻無法避免。為了進一步提高和穩(wěn)定試驗精度,未來的研究應(yīng)著重于提高數(shù)據(jù)量以及通過優(yōu)化決策樹結(jié)構(gòu)來改進RF分類器,并且與深度學(xué)習(xí)方法相結(jié)合。同時,在優(yōu)化降水特征的基礎(chǔ)上,還應(yīng)考慮加入紋理特征,以進一步提高模型的預(yù)測精度。
本文針對近些年全國發(fā)生的滑坡災(zāi)害,在GEE遙感大數(shù)據(jù)平臺的基礎(chǔ)上結(jié)合多種經(jīng)典機器學(xué)習(xí)算法進行滑坡空間預(yù)測研究。其中用到的分類算法包括SVM和RF,考慮到試驗數(shù)據(jù)維度過高會影響預(yù)測精度,試驗引入PCA數(shù)據(jù)降維算法和RFE數(shù)據(jù)篩選算法,將分類算法和數(shù)據(jù)降維算法、數(shù)據(jù)篩選算法優(yōu)化組合分類,建立了針對全國滑坡進行預(yù)測的機器學(xué)習(xí)模型,并通過AUC指數(shù)評價模型精度。
通過上述研究,得出如下結(jié)論:
(1)試驗在所構(gòu)建的動態(tài)多源遙感數(shù)據(jù)集上計算了特征相對重要性,發(fā)現(xiàn)降水特征對預(yù)測結(jié)果起到了至關(guān)重要的作用。
(2)通過PCA和RFE兩種方法分別進行數(shù)據(jù)降維和數(shù)據(jù)篩選試驗,有效地提高了滑坡預(yù)測精度。在本文所有滑坡預(yù)測模型中,RFE-RF模型的訓(xùn)練集預(yù)測精度較高、驗證集預(yù)測精度和AUC值最高,滑坡預(yù)測性能最好。
(3)基于先驗知識和機器學(xué)習(xí)算法完成模型訓(xùn)練,選擇精度達到了81.76%的RFE-RF作為滑坡預(yù)測模型。在此基礎(chǔ)上對存在的滑坡隱患災(zāi)害區(qū)域進行持續(xù)觀測,通過GEE平臺實時獲取相應(yīng)的動態(tài)多源遙感數(shù)據(jù)并將其輸入RFE-RF模型,最后根據(jù)模型輸出結(jié)果判斷滑坡隱患區(qū)未來是否會發(fā)生災(zāi)害,以此達到預(yù)測的目的。