吳小君, 方秀琴, 任立良, 吳陶櫻, 苗月鮮
(1.河海大學 地球科學與工程學院, 南京 211100;2.河海大學 水文水資源與水利工程科學國家重點實驗室, 南京210098))
一般來說,山洪是由于降雨導致的具有突發(fā)性、流量大、破壞力強等特點的地表徑流,它是洪水的一種表現(xiàn)形式[1]。山洪災害對房屋建筑、交通道路、水利工程設施、農林畜牧業(yè)等造成破壞,極端情況下甚至會導致人員傷亡,給人口、社會和經濟帶來巨大損失[2]。我國地形復雜,丘陵較多,2/3的土地面積幾乎為丘陵。山區(qū)的面積遠遠超過世界平均水平[3],是世界上受山洪影響最嚴重的地區(qū)之一[4]。
評估山洪災害風險的影響因素有很多,例如社會經濟、自然和技術等,并且其評估過程需考慮多個指數(shù),與此過程相關的主要困難是指數(shù)和風險水平之間的多變量和非線性關系。因此,山洪災害的風險評估一直是人們研究的難點和重點[5-7]。近些年,快速發(fā)展的人工智能技術促使很多研究學者在對象評價中引用機器學習算法。這些方法大大提高了計算量,能較好地解決非線性問題,但仍存在許多弱點。比如,人工神經網絡具有收斂速度慢和局部極小的問題[8],支持向量機數(shù)學函數(shù)復雜,使用不方便,解決多分類問題效果不佳[9],決策樹很容易陷入局部最優(yōu)。最重要的是,這些智能算法無法估計每個指標對總風險的貢獻。而隨機森林(Random Forest,RF)是一種基于統(tǒng)計學習理論的組合分類方法,它的非線性特性使其適用于多變量預測,因此在很多領域都有廣泛的應用[10-14]。隨機森林的智能學習機器可以在大型數(shù)據庫上高效運行,并提供關于分類中特定變量重要性的估計,這使得RF在解決風險評估中固有的非線性問題以及估計每個指標的重要性程度方面具有相當大的優(yōu)勢。賴成光等通過構建隨機森林模型對東江流域進行洪災害風險評價,并在試驗中對比了SVM方法,結果表明RF方法比SVM方法精度更高[15];Zhaoli Wang等根據洪水系統(tǒng)理論,以東江流域為例,選取十一個指標構建評價體系,提出了一種基于RF的評價模型[16];Quanlong Feng等提出了一種基于高分辨率無人機圖像的隨機森林與紋理分析相結合的城市洪水制圖方法,并指出與其他分類器相比較,隨機森林優(yōu)于最大似然法和人工神經網絡[17]。但是目前隨機森林在山洪災害風險評估方面的研究比較匱乏,并且當前應用于洪災風險的研究評價指標體系不夠完善,對不同區(qū)域的洪災風險等級也無法進行準確判斷。
因此,本文嘗試選擇隨機森林算法,結合江西省山洪災害的特點和歷史山洪災害調查數(shù)據,構建指標體系,建立基于隨機森林算法的山洪災害風險評估模型。本文的目的是計算不同地區(qū)山洪災害的風險程度,然后對風險等級進行分類,繪制江西省山洪災害風險區(qū)劃圖,并對該地區(qū)進行統(tǒng)計分析。
本文的研究區(qū)域為江西省境域,其位于長江中下游南岸,土地總面積16.7萬km2,占全國國土面積的1.7%。江西省地理位置險要,以山地丘陵居多,北部則面朝鄱陽湖[18],全省東、南、西三面的邊緣山嶺構成省際天然界線,形成一個自然的分水嶺。
江西省屬中熱帶溫暖濕潤季風氣候,氣候濕潤,降雨較多,年降水量1 400~1 900 mm[19]。省內丘陵山地眾多,水網稠密,河湖眾多。獨特的氣候特征及地形地貌,導致了省內山洪災害的頻繁發(fā)生[20-22]。因此,為了加強對山洪災害的風險管理,制定相應的防災減災策略,在江西省開展山洪災害風險評估具有十分重要的意義。
依據山洪災害體系理論[23],綜合考慮研究區(qū)山洪災害的特征,參考相關研究,結合實地考察情況以及數(shù)據可獲取性,我們從致災因子、孕災環(huán)境和承災體3個方面選取了9個影響因素。具體選取的影響因素及其數(shù)據來源具體見表1。
為了數(shù)據空間尺度的統(tǒng)一,首先應結合實際情況進行相關的數(shù)據預處理。利用ArcGIS 10.2軟件中的柵格計算器對每個指標進行極差標準化,得到9個尺度一致的柵格數(shù)據,且數(shù)據的每個柵格單元都是1 km×1 km,各個指標見圖1。
表1 選取的9個影響因素及其數(shù)據來源
(1) 隨機森林算法概述。隨機森林包含兩個重要參數(shù),即預選變量的個數(shù)和樹的個數(shù),這兩個參數(shù)是決定隨機森林預測能力的兩個重要參數(shù)[24],預選變量的數(shù)目決定了單個決策樹的情況,隨機森林中的樹數(shù)決定了整個隨機森林的整體大小。
本文中隨機森林算法使用了R軟件中的randomForest包[25],具體實現(xiàn)時需預先設置兩個重要的參數(shù):mtree和ntry,這兩個參數(shù)所決定的值對應于上述隨機森林的兩個重要參數(shù),mtry為每棵分類回歸樹構建時節(jié)點拆分的次數(shù),ntree為隨機森林中分類回歸樹的個數(shù),這兩個參數(shù)是依據隨機森林構建時產生的袋外誤差確定的[26]。根據訓練樣本集和randomForest函數(shù),構建風險評估模型[27-28]。
圖1 9個影響因素空間分布
(2) 評價步驟。①根據江西省山洪特點選取風險指標;②選取歷史發(fā)生山洪災害的為正樣本,未發(fā)生過災害的為負樣本,同時把正負總樣本集分為70%的測試樣本和30%訓練樣本;③將訓練樣本輸入隨機森林算法,建立山洪風險評估模型,并通過測試樣本對模型進行檢驗;④將江西省數(shù)據輸入到模型中得到山洪災害風險度,利用ArcGIS制成山洪災害風險評價圖。
由圖2可以看出,該模型的核心部分是訓練樣本。隨機森林算法可通過輸入的樣本建立山洪風險度與指標數(shù)據之間的關系,從而建立相應的分類規(guī)則,從而對待測數(shù)據進行分類得到不同區(qū)域的山洪風險度。
圖2 評價流程
本研究以2 009個歷史發(fā)生山洪災害點構成正樣本數(shù)據集,為了更加科學地構建隨機森林模型,需要采集一定數(shù)量的未發(fā)生山洪災害的點來組成負樣本數(shù)據集。考慮到地理相似性,以歷史發(fā)生山洪災害點為中心做3 km范圍的緩沖區(qū),緩沖區(qū)外的區(qū)域即為負樣本可采樣的區(qū)域。在負樣本可采樣區(qū)域隨機采集與正樣本數(shù)據集同等數(shù)量的負樣本,從而形成負樣本數(shù)據集,將采集得到的負樣本數(shù)據集與正樣本數(shù)據集組合,組成基于隨機森林的山洪災害評估模型的總樣本數(shù)據集。
為了避免偶然現(xiàn)象的發(fā)生,對以上步驟重復5次,即在負樣本可采樣區(qū)域內重復隨機采樣5次,并分別與正樣本集組合,從而得到5組不同的總樣本數(shù)據集,以此來反映山洪災害評估的一般規(guī)律。
另外,為了方便構建模型和模型的驗證,分別對5組總樣本數(shù)據集進行訓練樣本集和測試樣本集的劃分,方法是運用R語言對總樣本數(shù)據集進行隨機劃分,將5組總樣本數(shù)據集中70%的樣本數(shù)據作為訓練樣本,用于隨機森林模型的構建,其余30%的樣本數(shù)據作為測試樣本,用于對模型的測試和精度驗證,保證研究的順利進行。通過ArcGIS軟件提取樣本點上的9個影響因素的數(shù)據,為之后隨機森林模型的構建基礎。
在用R軟件中的函數(shù)random Forest時,函數(shù)會存在默認的決策樹數(shù)量值以及決策樹節(jié)點分支所選變量個數(shù)。但是,在我們實際操作中,系統(tǒng)計算的默認值不一定是最適用的,因此我們在實際應用中需要通過不斷地嘗試計算出最優(yōu)值。
(1) mtry值的確定。在構建模型的時候,一定要通過逐次計算來挑選最佳的mtry值。參數(shù)mtry的默認值在分類模型中是變量個數(shù)的二次根式,在回歸模型中則是變量個數(shù)的1/3。
本研究為構建模型選取的影響因素為9個,為了得到最佳的變量個數(shù),具體試驗步驟為:(1) 設定決策樹數(shù)量為200,mtry的值從1取到9,進行9次試驗,得到9個模型的殘差平方和以及擬合優(yōu)度值;(2) 設定決策樹數(shù)量為1 000,再進行上述重復的試驗步驟,對比并分析兩組試驗結果,結果見圖3。
圖3 不同變量個數(shù)隨機森林的殘差平方均值
由圖3看出,不管ntree值是200或者1 000,mtry值為2的時候殘差平方和最小,即mtry值為2時模型為最優(yōu)。
(2) ntree值的確定。在確定了mtry值之后,下一步則要確定最優(yōu)ntree值。一般ntree設置成一個較大的值即可,也可以不設置,隨機森林模型會自動根據袋外誤差計算出適宜的ntree值。一般該參數(shù)值設為五百或者一千,但也不是完全固定的,還需要結合實際情況進行選擇。
從上一步的分析來看,最佳變量個數(shù)為2,即mtry值為2時模型為最優(yōu),所以接下來進行構建相應的隨機森林模型,設定模型中決策樹數(shù)量為200,500,1 000,分別進行可視化分析,以此來確定決策樹數(shù)量。模型誤差與決策樹數(shù)量關系見圖4。
從圖4看出,當ntree值約大于1 000之后,模型的誤差開始變得平穩(wěn),因此本文ntree值設為1 000,以此來構建出最優(yōu)的模型。
通過以上分析,確定了構建隨機森林的最優(yōu)模型的參數(shù)值,其中最佳變量個數(shù)為2個,最優(yōu)的決策樹數(shù)量為1 000棵。利用5組訓練樣本數(shù)據和參數(shù)值,在R中分別構建出5個基于隨機森林的山洪災害評估模型。研究表明,構建的5個模型中決策樹的節(jié)點數(shù)最少的為260個,而決策樹節(jié)點數(shù)最多的有360個。
圖4 不同決策樹數(shù)量情況下的模型誤差
隨機森林模型可以提取出模型中各個變量的重要性度量結果,可以通過R軟件的隨機森林包計算出各自變量對于模型判別效果的重要程度,這個功能幫助決策者認識并評估每個指標對總風險的貢獻。這也是隨機森林模型的一大特點。更確切地說,通過隨機森林模型的重要性分析計算出各個變量對模型分類的影響程度,可以看出具體是哪些變量比較重要,在模型判別中具有重大的影響。
通過計算構建出的5個隨機森林模型中各個影響因素對山洪災害形成的重要程度,得到模型中山洪災害影響因素的重要性排序圖,見圖5。其中IncMSE代表的是精度平均減少值,從圖5中可以看出,高程在構建出的5個隨機模型中都是最重要的影響因素,表明高程對山洪災害風險貢獻程度是最大的,可知江西省的山洪災害跟高程有著密不可分的關系,可能對最終的山洪災害風險形成起到了決定性的作用;地形指數(shù)、年暴雨天數(shù)、人口密度和年最大6 h暴雨均值是對山洪災害比較重要的4個影響因素;而年最大10 min暴雨均值、年最大1 h暴雨均值、年降雨量和GDP則是不太重要的4個影響因素,表明這4個影響因素對山洪災害風險的貢獻程度比較小,尤其是GDP,在構建出的5個隨機森林模型中均是最不重要的影響因素,說明GDP對最終的山洪災害風險形成起到的作用微乎其微。
將整個研究區(qū)的影響因素數(shù)據輸入到構建完成的5個隨機森林模型中,推測出整個研究區(qū)的山洪災害風險度值;然后進行山洪災害風險區(qū)劃,通過正態(tài)分布取值的方法來確定山洪災害風險的等級閾值,進而依次劃分出不用區(qū)域的山洪災害風險等級[29]。即:利用隨機森林計算出的山洪災害風險度值,將所有柵格單元按大小進行排列,然后依次取單元總數(shù)的10%,20%,40%,20%,10%作為5個風險等級的分級空間,分別對應山洪災害風險很高、較高、中等、較低和很低5個風險等級。
本研究從兩個方面進行精度分析:其一,是評價隨機森林模型的建模精度,即統(tǒng)計隨機森林模型將訓練樣本集正確分類的比率,用來進行衡量模型對于訓練樣本集的擬合程度;其二,是評價山洪災害風險評估結果的精度,即根據歷史山洪災害調查點數(shù)據與中等以上等級山洪災害風險的空間分布匹配度,來定量評估結果的精度。
(1) 建模精度的檢驗。在這里設置了一個山洪災害風險度的閾值(比如0.5),如果樣本所在位置的山洪災害風險度推測結果大于這個閾值,則認為這個樣本分類是正確的,否則為分類錯誤,如此就可以度量出測試樣本集分類正確的比率(表2)。
表2 隨機森林模型中樣本分類正確的比率
從表2可以看出,根據5組不同的樣本集構建的隨機森林模型的訓練樣本平均精度為99%以上,測試樣本精度在86%左右,測試平均精度為86.26%。通過分析可知,構建的隨機森林模型都比較滿足精度要求。
(2) 山洪災害風險評估結果的驗證。將基于隨機森林的山洪災害風險評估模型的5次結果做如下處理:在整個研究區(qū)的每個柵格單元上,對構建的5個隨機森林模型得到的山洪災害風險度取平均值,計算出每個柵格單元的洪災風險度平均值,作為基于隨機森林方法的山洪災害風險評估的最終結果。因此,山洪災害風險等級圖見圖6。
圖5 5個隨機森林模型中指標重要性
圖6 基于隨機森林的江西省山洪災害風險分區(qū)
把山洪災害風險區(qū)劃圖和歷史發(fā)生山洪點進行疊加,最終在每個風險等級上與若干災害統(tǒng)計數(shù)據發(fā)生重合,計算各個風險等級上重合的點數(shù)相對于總點數(shù)的占比,見表3。從表3中可以看出,與風險等級中等及以上的區(qū)域重合的歷史發(fā)生山洪災害點數(shù)占總點數(shù)的86.96%。而與風險等級很低的區(qū)域重合的歷史發(fā)生山洪災害點多數(shù)處于河流發(fā)源地,人煙稀少。驗證結果表明本研究最終得到的山洪災害風險等級區(qū)劃精度較高。
表3 歷史發(fā)生山洪災害點分布統(tǒng)計表
綜上分析,我們發(fā)現(xiàn)隨機森林在山洪災害的評估方面的精度完全滿足我們的研究需要,為下一步對江西省山洪災害等級分區(qū)統(tǒng)計提供了理論支持。
將基于隨機森林得出的山洪災害風險等級圖進行地級市分區(qū)的綜合統(tǒng)計分析。分別統(tǒng)計出在不同的隨機森林模型中,各地級市分區(qū)的5個山洪災害風險等級下所占面積的百分比和面積絕對值。
從圖7中可以發(fā)現(xiàn),南昌市中山洪風險等級為很低的面積占50%左右,風險等級為較低的面積也占了將近40%,而風險等級為較高和很高所占的面積幾乎為0,所以在南昌市范圍內可能發(fā)生山洪災害的區(qū)域幾乎沒有;在贛州、九江、鷹潭和吉安等市,山洪災害風險等級為很低和較低所占的面積大概在60%~70%,而風險等級為較高和很高的面積總共占了不到10%。
圖7 各地級市中不同風險等級下所占面積百分比
因此在這些地級市只有小部分區(qū)域可能會有山洪災害的發(fā)生;在宜春、撫州、新余和萍鄉(xiāng)市,雖然山洪災害風險等級為很低和較低所占的面積在40%左右,且風險等級為較高和很高的面積只占了10%左右,但這些地級市的大部分區(qū)域處在的風險等級為中等,因此大部分區(qū)域還是有山洪災害發(fā)生的可能的;而在景德鎮(zhèn)市和上饒市,山洪災害風險等級為較高和很高所占的面積比值是所有地級市中最高的,并且風險等級為中等的面積也占了30%以上,尤其是景德鎮(zhèn)市,風險等級為較高和很高的面積占了40%以上,風險等級為很低和較低的面積占了不到15%,所以絕大部分的區(qū)域都是有山洪災害發(fā)生的可能。
山洪災害風險等級為很高的區(qū)域面積絕對值中,上饒市是最大的,大概在1 500 km2以上,而山洪災害風險等級為較高的區(qū)域面積絕對值中,上饒市也是最大的,接近4 000 km2;在景德鎮(zhèn)市,山洪災害風險等級為較高和很高的面積絕對值也比較大,很高的面積絕對值在500 km2以上,較高的面積絕對值在2 000 km2左右;與其他市相比,九江市風險等級很高的面積絕對值比其他市的稍微高一點,贛州市、宜春市的風險等級為較高的面積絕對值是比較大的,接近2 000 km2,但贛州市風險等級很低、較低和中等的區(qū)域面積絕對值都在12 000 km2左右;風險等級為中等的面積絕對值中,上饒市、宜春市、撫州市和吉安市是比較大的,都在8 000 km2左右;而南昌市、鷹潭市、新余市和萍鄉(xiāng)市可能因為市面積小,基本各個風險等級上的面積絕對值都不到2 000 km2。
綜合分析發(fā)現(xiàn),在景德鎮(zhèn)市和上饒市,山洪災害風險等級為很高和較高的區(qū)域不僅面積占比大,而且所占面積絕對值也很大;在贛州市和宜春市,山洪災害風險等級為很高和較高的面積占比雖然比較小,但由于市面積很大,所以風險等級為很高和較高的面積絕對值都還是比較大的;而在南昌市和鷹潭市,山洪災害風險等級為很高和較高的面積百分比很小,面積絕對值也同樣是很小的。
(1) 隨機森林算法大大提升了計算速度,較好地解決非線性問題,基于隨機森林的山洪災害模型為山洪災害的智能化評價提供了一種有效的途徑;(2) 將歷史山洪災害點疊加到基于隨機森林構建的風險評估模型得出的風險分區(qū)圖上,統(tǒng)計每個風險等級上歷史發(fā)生山洪災害點的個數(shù),驗證隨機森林模型的精度為86.96%,說明本文使用隨機森林評價江西省山洪災害等級具有較高的準確性;(3) 經過統(tǒng)計,發(fā)現(xiàn)上饒市和景德市山洪風險等級較高和很高的面積絕對值較大,說明該區(qū)域發(fā)生山洪可能性較高造成損失較大,須預先做好相應的防洪和抗洪措施。其次是贛州、九江和宜春等地區(qū)風險等級很高的面積絕對值也很大,政府亦需給予相應重視;(4) 各地級市中不同風險等級下所占面積百分比來看,等級很高和較高所占面積百分比最多的依然是上饒市和景德市,其次是宜春、九江、贛州和萍鄉(xiāng)等地區(qū),其他區(qū)域山洪災害風險水平大多處于風險較低的等級,應以災害防治為主,同時也應加強災害監(jiān)測預警預報工作。
參考文獻:
[1]管珉,陳興旺.江西省山洪災害風險區(qū)劃初步研究[J].暴雨災害,2007,26(4):339-343.
[2]趙士鵬.中國山洪災害系統(tǒng)的整體特征及其危險度區(qū)劃的初步研究[J].自然災害學報,1996(3):93-99.
[3]馬建華,胡維忠.我國山洪災害防災形勢及防治對策[J].人民長江,2005,36(6):3-5.
[4]孟東勇,秦亞麗.山洪災害防治非工程措施項目建設探討[J].江西建材,2014(6):82-82.
[5]李林濤,徐宗學,龐博,等.中國洪災風險區(qū)劃研究[J].水利學報,2012,43(1):22-30.
[6]Woodruff J D, Irish J L, Camargo S J. Coastal flooding by tropical cyclones and sea-level rise[J]. Nature, 2013,504(7478):44-52.
[7]Hallegatte S, Green C, Nicholls R J, et al. Future flood losses in major coastal cities[J]. Nature Climate Change, 2013,3(9):802-806.
[8]劉小平,黎夏,葉嘉安,等.利用蟻群智能挖掘地理元胞自動機的轉換規(guī)則[J].中國科學:地球科學,2007,37(6):824-834.
[9]Martens D, Backer M D, Haesen R, et al. Classification with ant colony optimization[J]. Ieee Transactions on Evolutionary Computation, 2007,11(5):651-665.
[10]趙銅鐵鋼,楊大文,蔡喜明,等.基于隨機森林模型的長江上游枯水期徑流預報研究[J].水力發(fā)電學報,2012,31(3):18-24.
[11]Dong L J, Xi-Bing L I, Peng K. Prediction of rockburst classification using Random Forest[J]. Transactions of Nonferrous Metals Society of China, 2013,23(2):472-477.
[12]Tesfamariam S, Liu Z. Earthquake induced damage classification for reinforced concrete buildings[J]. Structural Safety, 2010,32(2):154-164.
[13]Chen X, Ishwaran H. Random forests for genomic data analysis[J]. Genomics, 2012,99(6):323-329.
[14]MihaiIlescu D M, Gui V, Toma C I, et al. Computer aided diagnosis method for steatosis rating in ultrasound images using random forests[J]. Medical Ultrasonography, 2013,15(15):184-190.
[15]賴成光,陳曉宏,趙仕威,等.基于隨機森林的洪災風險評價模型及其應用[J].水利學報,2015,46(1):58-66.
[16]Wang Z, Lai C, Chen X, et al. Flood hazard risk assessment model based on random forest[J]. Journal of Hydrology, 2015,527:1130-1141.
[17]Feng Q, Liu J, Gong J. Urban flood mapping based on unmanned aerial vehicle remote sensing and random forest classifier: A Case of Yuyao, China[J]. Water, 2015,7(4):1437-1455.
[18]劉筱琴,李昆.江西省暴雨洪水地理變化規(guī)律研究[R].華東七省(市)水利學會第二十次學術研討會,2007.
[19]李世勤,邱啟勇,王述強.江西山洪災害防治實踐及思考[J].中國水利,2012(3):51-54.
[20]李明輝,熊劍英.江西省山洪災害防治規(guī)劃概述[J].江西水利科技,2005,31(2):73-77.
[21]林俊.江西省山洪預警系統(tǒng)分析與設計[D].昆明:云南大學,2012.
[22]楊嫵,柏林, YANG W,等.淺談江西省山洪災害防治監(jiān)測、通信和預警系統(tǒng)的規(guī)劃[J].江西水利科技,2006,32(2):83-85.
[23]程曉陶.城市型水災害及其綜合治水方略[J].災害學,2010(S):10-15.
[24]王全才.隨機森林特征選擇[D].遼寧大連:大連理工大學,2011.
[25]吳喜之.應用回歸及分類:基于R[M].北京:中國人民大學出版社,2016.
[26]尼娜·朱梅爾,約翰·芒特, NinaZumel,等.數(shù)據科學:理論、方法與R語言實踐[M].北京:機械工業(yè)出版社,2016.
[27]李欣海.用R實現(xiàn)隨機森林的分類與回歸[R].北京:第五屆R語言會議,2012.
[28]趙北庚.基于R語言randomForest包的隨機森林建模研究[J].計算機光盤軟件與應用,2015(2):152-153.
[29]方秀琴,王凱,任立良,等.基于GIS的江西省山洪災害風險評價與分區(qū)[J].災害學,2017,32(1):111-116.