鄧念東, 李宇新, 崔陽陽, 石輝, 郭亞雷
(西安科技大學(xué)地質(zhì)與環(huán)境學(xué)院, 西安 710054)
安康市漢濱區(qū)地處陜南秦巴山區(qū),坡陡谷深,地質(zhì)構(gòu)造復(fù)雜,斷裂發(fā)育,巖體破碎,松散堆積層廣布,地質(zhì)環(huán)境與自然生態(tài)環(huán)境脆弱,加之濫砍亂挖等不合理人為因素,致使地質(zhì)環(huán)境嚴(yán)重惡化,滑坡、崩塌等地質(zhì)災(zāi)害問題十分突出,嚴(yán)重威脅人民群眾生命、財(cái)產(chǎn)安全,阻礙當(dāng)?shù)亟?jīng)濟(jì)發(fā)展[1]。為提供該區(qū)域防災(zāi)減災(zāi)的基礎(chǔ)依據(jù),現(xiàn)開展?jié)h濱區(qū)滑坡易發(fā)性評(píng)價(jià)研究。
自20世紀(jì)90年代以來,中外學(xué)者展開了大量滑坡易發(fā)性評(píng)價(jià)相關(guān)研究,主要集中在評(píng)價(jià)指標(biāo)與評(píng)價(jià)方法的選擇。評(píng)價(jià)指標(biāo)通常結(jié)合研究區(qū)地質(zhì)環(huán)境背景分析,目前尚無統(tǒng)一標(biāo)準(zhǔn)[2]。從評(píng)價(jià)方法上看,主要分為定性和定量模型[3]。定性評(píng)價(jià)采用專家經(jīng)驗(yàn)進(jìn)行指標(biāo)權(quán)重賦值,適用于小區(qū)域滑坡易發(fā)性評(píng)價(jià),但具有較強(qiáng)的主觀性[4]。隨著研究的深入,研究方法逐步向半定量以及定量模型過渡。許沖等[5]通過分析斷層、巖性、高程、坡度、坡向、河流、公路7個(gè)因素與汶川地震區(qū)滑坡分布的關(guān)系采用層次分析法賦予因素權(quán)重,結(jié)果表明滑坡易發(fā)性分區(qū)效果較好,高易發(fā)區(qū)滑坡占比達(dá)到60.5%。牛瑞卿等[6]采用粗糙集理論對(duì)評(píng)價(jià)因子進(jìn)行篩選,通過構(gòu)建支持向量機(jī)模型對(duì)三峽庫區(qū)秭歸至巴東段進(jìn)行滑坡易發(fā)性分區(qū),結(jié)果表明預(yù)測(cè)結(jié)果與野外調(diào)查情況高度吻合,采用支持向量機(jī)進(jìn)行評(píng)價(jià)預(yù)測(cè)能力強(qiáng)、效率高。Hong等[7]采用J48決策樹進(jìn)行構(gòu)建自適應(yīng)提升算法(adaptive boosting,Adaboost)、裝袋算法(bootstrap aggregating,Bagging)及旋轉(zhuǎn)森林模型,對(duì)撫州市廣昌縣滑坡易發(fā)性進(jìn)行對(duì)比研究,結(jié)果表明三種模型在該區(qū)域評(píng)價(jià)精度均較高,其中旋轉(zhuǎn)森林模型空間預(yù)測(cè)適用性更好。劉淵博等[8]采用旋轉(zhuǎn)森林模型對(duì)三峽庫區(qū)萬州段滑坡易發(fā)性進(jìn)行研究,結(jié)果顯示滑坡高易發(fā)區(qū)主要集中在萬州主城區(qū)和長(zhǎng)江及支流兩岸,模型預(yù)測(cè)精度達(dá)90.7%,再次體現(xiàn)機(jī)器學(xué)習(xí)模型預(yù)測(cè)精度高的特點(diǎn)。連志鵬等[9]分別采用信息量、證據(jù)權(quán)和頻率比模型進(jìn)行五峰縣滑坡易發(fā)性研究,并通過歸一化、主成分分析和優(yōu)勢(shì)融合,研究表明多模型混合是一種新的評(píng)價(jià)思路,其分區(qū)結(jié)果比單一模型更精確?;谇叭搜芯砍晒?,以隨機(jī)森林為代表的集成學(xué)習(xí)模型在滑坡易發(fā)性評(píng)價(jià)中被廣泛采用,為進(jìn)一步驗(yàn)證混合模型在滑坡易發(fā)性評(píng)價(jià)的泛化能力,現(xiàn)選取集成學(xué)習(xí)中具有代表性的自適應(yīng)提升與隨機(jī)森林模型,分別進(jìn)行單一模型與混合模型評(píng)價(jià),采用受試者工作特性曲線(receiver operating characteristic curve,ROC)驗(yàn)證其預(yù)測(cè)效果,通過隨機(jī)森林模型降低自適應(yīng)提升模型訓(xùn)練誤差為滑坡易發(fā)性評(píng)價(jià)方法的改進(jìn)提供新的思路。
自適應(yīng)提升模型由Freund和Schapire率先提出,是一種解決二分類問題的集成學(xué)習(xí)算法,屬于經(jīng)典集成學(xué)習(xí)算法Boosting算法族種的一類[10]。核心思想是通過一個(gè)基分類器得到二分類預(yù)測(cè)結(jié)果,根據(jù)分類結(jié)果計(jì)算加權(quán)訓(xùn)練誤差,若誤差大于0.5,重復(fù)在訓(xùn)練集重新生成均勻的權(quán)值分布直到誤差滿足小于0.5。再根據(jù)滿足誤差要求的分類結(jié)果對(duì)每個(gè)訓(xùn)練樣本的權(quán)值進(jìn)行調(diào)整,使得錯(cuò)誤分類樣本的權(quán)值提高。最終使用加權(quán)多數(shù)投票規(guī)則對(duì)基分類器的分類結(jié)果進(jìn)行組合得到各評(píng)價(jià)單元的滑坡易發(fā)性指數(shù)(landslide susceptibility index,LSI)。
隨機(jī)森林模型是集成學(xué)習(xí)Bagging算法族的代表算法[11]。首先,對(duì)初始訓(xùn)練集進(jìn)行多次bootstrap隨機(jī)抽樣。每次bootstrap隨機(jī)抽樣是指對(duì)于有放回的隨機(jī)抽樣所組成的新訓(xùn)練樣本集與初始一致。通過構(gòu)建決策樹作為基分類器,采用信息增益率在屬性集合中隨機(jī)候選最優(yōu)分裂屬性子集,對(duì)每個(gè)不同的新訓(xùn)練樣本集進(jìn)行訓(xùn)練,通過樣本與分裂節(jié)點(diǎn)的多樣性,從而提高分類的預(yù)測(cè)準(zhǔn)確率。最終通過簡(jiǎn)單多數(shù)投票原則對(duì)各訓(xùn)練樣本的結(jié)果整合。
安康市漢濱區(qū)位于陜西省南部山區(qū),108°30′E~109°25′E,32°22′N~33°17′N,轄內(nèi)共34個(gè)鄉(xiāng)鎮(zhèn)(街道),總面積為3 643.5 km2(圖1)。研究區(qū)地勢(shì)南北高,中部低,最高點(diǎn)為秦嶺佛爺嶺,高程2 135 m,最低點(diǎn)為漢江彭家溝,高程134 m,相對(duì)高差2 001 m。地處北亞熱帶濕潤(rùn)季風(fēng)氣候區(qū),具有明顯的垂直地帶性特征。平均氣溫15.5 ℃,南北山區(qū)氣溫低,中部河谷與丘陵區(qū)氣溫高。區(qū)內(nèi)降水具有空間和時(shí)間分布不均的特點(diǎn):多年平均降水量799.3 mm,總的趨勢(shì)為自北向南逐漸遞增;降水量年際變化大,70%年內(nèi)降水集中在7—9月。研究區(qū)內(nèi)河流密集,漢江橫貫研究區(qū)南部。區(qū)內(nèi)主要出露地層有震旦系白云母石英片巖、寒武系炭質(zhì)片巖、奧陶系灰?guī)r、志留系千枚巖、泥盆系鈣質(zhì)片巖、新近系細(xì)砂巖和第四系粉土。
圖1 研究區(qū)位置及滑坡編錄圖Fig.1 Location of study area andlandslide catalog
根據(jù)《漢濱區(qū)地質(zhì)災(zāi)害詳細(xì)調(diào)查報(bào)告》(以下簡(jiǎn)稱《詳查報(bào)告》)和解譯研究區(qū)遙感影像,在實(shí)地調(diào)查的基礎(chǔ)上,共圈定509處滑坡。使用地理信息系統(tǒng)(geographic information system,GIS)將滑坡周界轉(zhuǎn)為滑坡點(diǎn),生成滑坡編目圖,區(qū)內(nèi)各行政單元滑坡密度統(tǒng)計(jì)如表1所示?;掠绊懸蜃訑?shù)據(jù)主要由以下方式獲?。孩偻ㄟ^“地理空間數(shù)據(jù)云”平臺(tái)下載研究區(qū)30 m分辨率的數(shù)字高程模型(digital elevation model,DEM)數(shù)據(jù),使用表面分析工具獲取坡度、坡向、曲率和地表切割深度因子;②通過矢量化《詳查報(bào)告》中1∶50 000地質(zhì)圖得到地層巖性、斷層數(shù)據(jù);③通過清華大學(xué)2017年全球地表覆蓋監(jiān)測(cè)數(shù)據(jù)獲取研究區(qū)土地利用數(shù)據(jù);④通過研究區(qū)氣象站觀測(cè)數(shù)據(jù)獲取多年平均降雨量數(shù)據(jù);⑤通過“Bigemap”地圖軟件獲取研究區(qū)行政單元?jiǎng)澐?、水域及道路矢量化?shù)據(jù)。
表1 研究區(qū)各鎮(zhèn)(街道)滑坡統(tǒng)計(jì)Table 1 Landslide statistics of towns (streets) in the study area
參照《詳查報(bào)告》中研究區(qū)地質(zhì)環(huán)境背景與地質(zhì)災(zāi)害形成條件,區(qū)內(nèi)滑坡主要取決于地質(zhì)環(huán)境條件內(nèi)外力因素共同作用,包括地形的控制、斷層活動(dòng)的地形改造、低強(qiáng)度的破碎巖石及地表水的側(cè)蝕等。從上述數(shù)據(jù)源中初步選取高程、坡度、坡向、年均降雨量、地層巖性、平面曲率、剖面曲率、土地利用、地表粗糙度、地表切割深度、地形濕度指數(shù)(topographic wetness index,TWI)、距斷層距離、距道路距離和距水系距離,在ArcGIS中采用自然間斷法生成研究區(qū)影響因子專題圖(圖2)。
進(jìn)一步定量分析研究區(qū)滑坡影響因素,可削弱無關(guān)因子對(duì)評(píng)價(jià)的不利影響,亦對(duì)區(qū)內(nèi)滑坡調(diào)查具有借鑒意義。信息增益比是統(tǒng)計(jì)學(xué)進(jìn)行特征不確定性選擇的方法,本文用來分析所選因子的重要性[12](圖3)。結(jié)果顯示,所選影響因子與研究區(qū)孕災(zāi)均有一定關(guān)聯(lián),其中土地利用、高程、地表切割深度、粗糙度、坡度以及地層巖性對(duì)滑坡產(chǎn)生更加密切。頻率比分析顯示區(qū)內(nèi)滑坡主要分布在耕地與林地、高程介于134~737 m、地表切割深度介于2.65~83.83 m、粗糙度介于1~1.05、坡度介于10.1°~25.6°及地層為志留系云母石英片巖的區(qū)域。
圖2 研究區(qū)因子專題圖Fig.2 Study area factor thematic map
機(jī)器學(xué)習(xí)模型對(duì)樣本數(shù)據(jù)集有一定共線性要求,數(shù)據(jù)間的共線性易造成模型訓(xùn)練精度下降[13]。通過SPSS軟件進(jìn)行方差膨脹因子分析(variance inflation factor,VIF)。當(dāng)VIF大于10時(shí),表示數(shù)據(jù)間存在嚴(yán)重的共線性,需要進(jìn)行剔除。分析結(jié)果如表2所示,剔除粗糙度屬性(VIF為10.966),最終采用剩余13類因子進(jìn)行評(píng)價(jià)。
圖3 影響因子信息增益比Fig.3 Impact factor information gain ratio
表2 影響因子共線性分析Table 2 Collinearity analysis of impact factors
采用30 m×30 m柵格作為評(píng)價(jià)單元[14],研究區(qū)共被劃分為4 049 150個(gè)單元。在滑坡范圍外隨機(jī)提取等量的非滑坡數(shù)據(jù),與滑坡數(shù)據(jù)組建樣本數(shù)據(jù)庫[15-16],隨機(jī)選擇70%(712處)作為訓(xùn)練集,其余30%(356處)作為驗(yàn)證集,將研究區(qū)所有柵格數(shù)據(jù)作為驗(yàn)證集。懷卡托智能分析環(huán)境(waikato environment for knowledge analysis,WEKA)是集數(shù)據(jù)處理、學(xué)習(xí)算法與評(píng)估方法為一體的數(shù)據(jù)挖掘工具,本文研究借助該軟件構(gòu)建自適應(yīng)提升、隨機(jī)森林模型以及基于兩者的混合模型。
使用AdaboostM1算法構(gòu)建自適應(yīng)提升模型,基分類器選擇C4.5決策樹,它基于最大化標(biāo)準(zhǔn)化信息增益的屬性的選擇構(gòu)造決策樹,樹進(jìn)行修剪并且置信因子設(shè)置為0.25。模型迭代次數(shù)為10次,訓(xùn)練集正確率為76.9%,驗(yàn)證集預(yù)測(cè)率為75.3%,代入驗(yàn)證集得到基于自適應(yīng)提升的LSI。采用自然間斷法分為低易發(fā)區(qū)(0~0.258)、中等易發(fā)區(qū)(0.258~0.738)和高易發(fā)區(qū)(0.738~1),得到基于自適應(yīng)提升模型的滑坡易發(fā)性圖,如圖4(a)所示。
圖4 基于三種模型的滑坡易發(fā)性圖Fig.4 Landslide susceptibility mapping based on three models
在WEKA中選擇隨機(jī)森林算法,迭代次數(shù)為100次,通過十倍交叉驗(yàn)證進(jìn)行訓(xùn)練,正確率為83.0%,驗(yàn)證集預(yù)測(cè)率為80.1%。得到基于隨機(jī)森林的LSI值后,重分類為低易發(fā)區(qū)(0~0.316)、中等易發(fā)區(qū)(0.316~0.656)和高易發(fā)區(qū)(0.656~1),從而生成基于隨機(jī)森林模型的滑坡易發(fā)性圖,如圖4(b)所示。
將隨機(jī)森林模型作為自適應(yīng)提升模型的基分類器,調(diào)整上述參數(shù),以此構(gòu)建混合模型。同樣代入訓(xùn)練集進(jìn)行十倍交叉驗(yàn)證訓(xùn)練,正確率為82.6%,驗(yàn)證集預(yù)測(cè)率為80.8%。將LSI值分為低易發(fā)區(qū)(0~0.316)、中等易發(fā)區(qū)(0.316~0.656)和高易發(fā)區(qū)(0.656~1),生成基于混合模型的滑坡易發(fā)性圖,如圖4(c)所示。
對(duì)比三種模型的滑坡易發(fā)性圖,自適應(yīng)提升模型的分區(qū)結(jié)果較為極端,受權(quán)值調(diào)整影響主要集中分為低易發(fā)區(qū)和高易發(fā)區(qū),中易發(fā)區(qū)較少。隨機(jī)森林與混合模型的易發(fā)區(qū)分布規(guī)律基本一致。
(1)高易發(fā)區(qū)主要集中在區(qū)內(nèi)中部恒口鎮(zhèn)、大同鎮(zhèn)、五里鎮(zhèn)、建民辦事處、江北街道及關(guān)廟鎮(zhèn)6處區(qū)域,該區(qū)域出露地層為志留系千枚巖與新近系細(xì)砂巖,巖質(zhì)軟弱,節(jié)理裂隙發(fā)育。坡體覆蓋第四系破殘積土及粉土,結(jié)構(gòu)松散,平緩處均開發(fā)為耕地,人類活動(dòng)強(qiáng)烈,道路工程與房屋修建密集。
(2)中易發(fā)區(qū)主要位于區(qū)內(nèi)北部、中南部中山及低山丘陵區(qū)。北部包括大河鎮(zhèn)、譚壩鎮(zhèn)、雙溪鎮(zhèn)等,該區(qū)域溝谷縱橫,多呈V形,滑坡沿道路與水系發(fā)育。中南部包括瀛湖鎮(zhèn)、縣河鎮(zhèn)、關(guān)家鎮(zhèn)等,主要地層為震旦系云母石英片巖、流紋斑巖及志留系千枚巖,巖性弱、易風(fēng)化,道路與水系密集,為孕災(zāi)提供了基礎(chǔ)條件。
(3)低易發(fā)區(qū)主要分布于區(qū)內(nèi)南北端及東南端,包括葉坪鎮(zhèn)、中原鎮(zhèn)、紫荊鎮(zhèn)、早陽鎮(zhèn)、雙龍鎮(zhèn)等地區(qū)。該區(qū)域地勢(shì)較高,降水充沛,主要用地為林地,人口分布較少,滑坡發(fā)生頻率少。
對(duì)上述三種區(qū)劃結(jié)果進(jìn)行易發(fā)性等級(jí)統(tǒng)計(jì)(圖5),三種模型的滑坡密度隨之易發(fā)性等級(jí)的提升而增加,證明分區(qū)結(jié)果符合歷史滑坡分布。其中混合模型的滑坡密度在高易發(fā)區(qū)達(dá)到1.94,同比高于自適應(yīng)提升模型(1.68)和隨機(jī)森林模型(1.86),說明混合模型較單一模型對(duì)研究區(qū)滑坡預(yù)測(cè)更加敏感,也體現(xiàn)出對(duì)單一模型進(jìn)行混合提高了預(yù)測(cè)能力。
圖5 各模型滑坡易發(fā)性等級(jí)統(tǒng)計(jì)Fig.5 Landslide susceptibility grade statistics of each model
接受者操作特性曲線(receiver operating characteristic,ROC)被廣泛應(yīng)用于模型對(duì)比評(píng)價(jià),其線下面積(area under curve,AUC)取值介于0~1,值越大代表預(yù)測(cè)精度越高[17-18]。通過統(tǒng)計(jì)各模型的敏感度(即預(yù)測(cè)為滑坡的滑坡樣本)和1-特異性(即預(yù)測(cè)為滑坡的非滑坡樣本)生成ROC曲線(圖6)。由表3可以看出,混合模型的訓(xùn)練集與驗(yàn)證集AUC值均高于單一的自適應(yīng)提升模型和隨機(jī)森林模型,95%置信區(qū)間結(jié)果與AUC值一致,說明混合模型預(yù)測(cè)精度最高,其區(qū)劃結(jié)果可靠性高。
圖6 各模型ROC曲線對(duì)比Fig.6 Comparison of ROC curves of each model
在模型評(píng)價(jià)與統(tǒng)計(jì)的基礎(chǔ)上,針對(duì)混合模型的區(qū)劃結(jié)果,選擇區(qū)內(nèi)檬樹埡滑坡、李典前房后滑坡以及桑樹埫滑坡共三處滑坡進(jìn)行對(duì)比驗(yàn)證[19],如圖7所示。
圖7 典型滑坡驗(yàn)證Fig.7 Typical landslide verification
檬樹埡滑坡位于譚壩鎮(zhèn)后溝村1組,屬基巖順層滑坡,滑體長(zhǎng)200 m,寬100 m,平均厚10 m,體積約2×105m3,規(guī)模為中型,滑向30°;滑面為片巖層,呈弧型;滑體為殘坡積層和志留系強(qiáng)風(fēng)化片巖,產(chǎn)狀30°∠50°,滑坡后壁高約5 m,坡體整體滑動(dòng)可能性較大。
李典前房后滑坡位于恒口鎮(zhèn)青龍村7組,屬低山丘陵地貌,滑體為下新近系砂巖與泥巖互層,及其上覆厚約2 m的第四系中下更新統(tǒng)沖洪積含礫砂質(zhì)黏土,基巖產(chǎn)狀180°∠20°;坡上為坡耕地,坡度30°,坡高約30 m,為基巖順層滑坡;因建房開挖坡腳形成高約1.5 m陡坎,滑體下滑,水平移動(dòng)約15 m。
表3 模型精度評(píng)價(jià)Table 3 Evaluation of model accuracy
桑樹埫滑坡位于縣河鎮(zhèn)紅霞村1組,地處低山地貌、淺凹槽地形,坡體上陡下緩,坡度約35°,上部陡坡樹木茂密,下部為坡耕地,住戶緊鄰坡腳,房前為大面積平緩坡地?;w為殘坡積層,下伏基巖為志留系千枚巖,產(chǎn)狀90°∠45°。后緣坡體高陡,局部下錯(cuò)明顯,殘坡積層從上往下依次變厚,前緣臨空面較大,住戶緊鄰坡腳,坡體滑動(dòng)可能性大。
對(duì)比圖4(c),三處歷史滑坡均位于區(qū)劃圖中高易發(fā)性區(qū)域,再次驗(yàn)證基于該混合模型區(qū)劃結(jié)果的可靠性,其結(jié)果可作為相關(guān)部門進(jìn)行區(qū)域滑坡防治的借鑒。
提出了基于自適應(yīng)提升-隨機(jī)森林混合模型進(jìn)行滑坡易發(fā)性評(píng)價(jià),主要有以下結(jié)論。
(1)結(jié)合研究區(qū)地質(zhì)環(huán)境背景與地質(zhì)災(zāi)害形成條件選取高程、坡度、坡向等13類影響因子。采用信息增益比進(jìn)行因子重要度分析,結(jié)果顯示土地利用、高程、地表切割深度、粗糙度、坡度以及地層巖性與研究區(qū)滑坡發(fā)生更密切,主要分布在耕地與林地、高程介于134~737 m、地表切割深度介于2.65~83.83 m、粗糙度介于1~1.05、坡度介于10.1°~25.6°及地層為志留系云母石英片巖的區(qū)域。
(2)采用WEKA軟件分別構(gòu)建自適應(yīng)提升、隨機(jī)森林以及混合模型。ROC曲線表明,三種模型預(yù)測(cè)分類擬合程度較好,正確率均較高,其中自適應(yīng)提升-隨機(jī)森林混合模型的訓(xùn)練正確率和驗(yàn)證預(yù)測(cè)率均高于單一模型,進(jìn)一步驗(yàn)證混合模型較單一模型具有更高的泛化能力,為滑坡易發(fā)性評(píng)價(jià)模型的選擇提供了新方法。
(3)通過對(duì)比各易發(fā)性等級(jí)的滑坡密度,混合模型高易發(fā)區(qū)滑坡密度最高;同時(shí)通過研究區(qū)三處滑坡對(duì)混合模型的易發(fā)性區(qū)劃結(jié)果進(jìn)行驗(yàn)證,表明其評(píng)價(jià)結(jié)果可靠性高,易發(fā)性區(qū)劃圖可作為當(dāng)?shù)叵嚓P(guān)部門進(jìn)行防災(zāi)減災(zāi)的參考依據(jù)。