国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

應用機器學習模型對中國云貴川區(qū)域林火風險預測1)

2023-05-23 14:28王姊輝董恒趙洋甬何思聰袁艷斌張力文
東北林業(yè)大學學報 2023年5期
關鍵詞:火點林火梯度

王姊輝 董恒 趙洋甬 何思聰 袁艷斌 張力文

(武漢理工大學,武漢,430070)(浙江時空智子大數據有限公司)(武漢理工大學)(武漢華夏理工學院)

森林火災作為森林資源的主要災害之一。隨著全球氣候變化,森林火災發(fā)生頻率越來越高,全球平均每年發(fā)生森林火災數十萬次,且過火面積也逐漸增大,對森林生態(tài)環(huán)境造成破壞,導致了大量的人員傷亡和經濟損失[1-3]。20世紀60~90年代,由于森林火災發(fā)生所產生的碳排放量增加了900 Tg/a,對氣候變暖造成了一定影響[4-5]。同時,氣候變暖使森林火災行為更加復雜多變,大大增加了森林火災的撲救難度[6]。因此,林火預警在森林管理中變得尤為重要。目前,傳統(tǒng)的林火風險預測模型多采用經驗或半經驗方法構建,主要分為歷史數據的預測方法與實驗數據的預測方法,歷史數據的累積和實驗數據的獲取具有較強的局限性,模型預測精度較低[7],原因是森林火險指數主要考慮氣象因素[8-9],忽略了與森林火險指數相關的其他要素(如:可燃物含水率、地形因子等)。因此,傳統(tǒng)的林火預警方法難以滿足林火管理的需求。

隨著機器學習算法的應用越來越廣泛,利用機器學習的方法進行林火風險預測成為可能,機器學習算法在森林火災預測方面具有較為優(yōu)越的性能[10-14]。機器學習模型在不同區(qū)域,對森林火災風險預警有著巨大的潛力。邏輯回歸模型和隨機森林模型在林火風險預測方面有良好的表現(xiàn),但近年來提出的極端梯度提升模型在分類上也有很好的表現(xiàn)[15]。本研究以中國云貴川行政區(qū)作為研究區(qū)域,應用隨機森林模型、邏輯回歸模型及極端梯度提升模型對森林火災預測。并且在氣象因素作為預測因子預測的基礎上,引入地形因素及可燃物含水率因素,對預測模型進行改進,以提升模型預測精度,為云貴川區(qū)域林火預警提供技術支持。

1 研究區(qū)概況

以云貴川行政區(qū)作為主要研究區(qū),該地區(qū)擁有豐富的林業(yè)資源,平均森林覆蓋率為52.5%,且地形復雜,以山地、高原為主(見圖1)。云貴川地區(qū)氣候干濕狀況存在著較大的地理差異,整體上具有“東濕西干”的分布特征,該特點歸因于該地區(qū)降水量空間分布不均勻,局地差異大,大體呈由東、南向西北減少的分布形勢,干濕狀況季節(jié)特征明顯,夏季濕潤,春冬季干燥[16]。

圖1 云貴川地區(qū)地形概況

2 研究方法

2.1 數據來源及預處理

森林火災預測較為復雜,其不僅與氣象因素相關,還與可燃物含水率、地形等諸多因素相關[17-19]。因此,結合氣溫、風速、降水量、相對濕度、可燃物含水率及地形因子等環(huán)境因子構建森林火災預警監(jiān)測模型。

MCD64A1數據集:數據來源于美國航空航天局(https://earthdata.nasa.gov),MCD64A1數據集是中分辨率成像光譜儀MODIS數據[20],該數據集包括燃燒日期、燃燒日期不確定性、質量控制碼等信息。本研究使用2016—2020年MCD64A1數據集,提取其熱異常點數據,依據燃燒日期不確定性及質量控制碼篩選出火點數據,并對月合成火點數據建立半變異函數,用以確定緩沖區(qū)半徑,建立火點數據緩沖區(qū)[21];由于氣象、可燃物含水率及地形因素在一定范圍內存在相似性,因此在緩沖區(qū)范圍外,依據隨機空間分布,選取等量非火點數據構建預測數據集。

MCD14DL數據集:數據來源于美國航空航天局(https://earthdata.nasa.gov)發(fā)布的主動近實時火災產品[22]。該數據集包含火點發(fā)生的日期、經緯度位置、置信度等信息。本研究篩選出2021年1—4月每月1號中置信度大于30%的火點數據,作為模型的驗證數據集。

可燃物含水率數據:可燃物含水率即植被冠層含水量與其干質量的比率,直接影響森林火災發(fā)生的概率[23-24]。本文根據MODIS的8 d合成反射率數據(MOD09A1),計算植被水分指數(INDWI)代替可燃物含水率[25-26],INDWI=(ρNIR-ρMIR)/(ρNIR+ρMIR)。式中,ρNIR為近紅外波段反射率,ρMIR為中紅外波段反射率,INDWI為植被水分指數。

氣象數據:氣溫、風速、降水量、相對濕度、連續(xù)無降水日和蒸發(fā)量,都對森林火災的發(fā)生有著顯著影響。其中,降水量、氣溫與風速對云貴川地區(qū)森林火災的發(fā)生有顯著的影響,采用蒸發(fā)量與連續(xù)無降水日因素表征研究區(qū)域的干旱狀況[27-29]。蒸發(fā)量數據使用ECMWF對全球氣候的第五代大氣再分析數據集(https://cds.climate.copernicus.eu/cdsapp#!/dataset/reanalysis-era5-land?tab=overview)。氣溫、風速、降水量、相對濕度以及連續(xù)無降水日等使用的中國地面氣候資料日值數據集(v3.0),數據來來源于國家氣象信息中心(http://data.cma.cn),包括全國范圍內所有國家級氣象站2016—2021年的日降水量(08:00至次日08:00)、日平均氣溫、日平均濕度和日平均風速。利用反距離權重插值法(IDW)對日值氣象數據進行插值,作為森林火災的預測因子,構建模型訓練數據集。

地形數據:地形因子通過影響氣候、植被等要素,間接對森林火災的發(fā)生產生影響[30]。本研究使用的地形數據為SRTM1 V3.0數據集(https://earthdata.nasa.gov)[31]。利用SRTM1數據集,提取云貴川地區(qū)坡度、坡向數據。

2.2 森林火災預測模型的構建

邏輯回歸模型(LRM)。邏輯回歸模型通過對研究變量與影響因子進行回歸分析,并將結果利用sigmod函數進行歸一化處理,再進行閾值分割,常用于二分類問題[10-11]。本研究利用火點數據與氣象、地形及可燃物含水率數據,對邏輯回歸模型進行訓練,最終實現(xiàn)對森林火災發(fā)生概率的預測。

隨機森林模型(RFM)。隨機森林模型通過建立多棵決策樹,利用樣本對每棵決策樹進行訓練,最終使用決策樹構成的森林對預測數據進行預測[11-14]。本研究中隨機森林模型選取決策樹數量為100,結合影響因子數據集進行二元分類,最終用于日尺度森林火災事件的預測。

極限梯度提升模型(XGB)。梯度提升采用連續(xù)的方式構造樹,每顆樹都試圖糾正前一棵樹的錯誤,在分類方面表現(xiàn)良好[15]。本文在日尺度上,根據森林火災與影響因子數據,利用極端梯度提升模型,實現(xiàn)森林火災風險預測。

2.3 模型氣象因子選擇

從氣象站點的日觀測數據中選擇日降水量(08:00至次日08:00)、日平均氣溫、日平均濕度和日平均風速等候選氣象因子(見表1)。

各模型分別根據因子相關性及特征重要性從候選氣象要素中遴選出各模型的關鍵氣象要素。邏輯回歸模型因子選擇根據各因子之間的方差膨脹系數,在存在共線性(方差膨脹系數大于10)的因子間,保留與火災事件相關系數高的變量;隨機森林模型及極端梯度提升模型則選取特征重要性高于5%的變量[20]。因子選擇結果見表2。

表1 候選氣象因子

表2 各模型氣象因子選擇

2.4 模型評價方法

本研究選取了準確率、召回率和受試者特征(ROC)曲線作為模型驗證參數,其中準確率為所有預測正確的個數比例,即在樣本均衡的情況下,準確率越高,模型性能越好;召回率為正確分類的正例個數占實際正樣本個數的比例,即召回率越高,正確分類的實際火點比例越高。ROC曲線不受分割閾值的影響,可以很好的評判模型的泛化能力;ROC曲線是根據不同的分割閾值,以真正率為縱軸,假正率為橫軸繪制而成;ROC曲線下的面積(AUC)值越接近1,則說明模型預測能力越好。在保證模型預測精度的同時,為防止模型過擬合,確保其穩(wěn)定性,本研究還采用k折交叉驗證的方法對模型的魯棒性進行評價。

3 結果與分析

3.1 云貴川地區(qū)森林火點時空分布

根據MCD64A1數據集,共提取云貴川地區(qū)2016—2020年森林火點6 253個,森林火災主要發(fā)生在12月份至次年5月份。1—5月份發(fā)生森林火災約占全年森林火災次數的比例為86.1%,其中,2月份火災次數最多(31.7%),其次為3月份和4月份,占全年森林火災次數的比例分別為26.1%和11.5%。

由圖2、表3可知,2016—2020年云貴川地區(qū)實際發(fā)生森林火災點分布主要集中于云南省南部及西北部、四川省南部以及貴州省南部地區(qū)。云南省2016—2020年發(fā)生火災最多,共發(fā)生4 158起,占總森林火災事件的比例為66.5%;其次為四川省,占總森林火災事件的比例為31.3%;貴州省最少,占總森林火災事件的比例為2.2%。

表3 2016—2020年云貴川地區(qū)森林火點

3.2 預測性能及活化能力

由表4可知,在各機器學習模型中,極端梯度提升模型的準確率及召回率均高于隨機森林與邏輯回歸模型,前者準確率高于后者均超過2%,召回率高于后者均超過約4%。極端梯度提升及隨機森林模型優(yōu)于邏輯回歸的主要原因是溫度因素存在滯后性的影響,由于變量之間的共線性,邏輯回歸模型訓練集剔除了前24 h平均溫度、前72 h平均溫度兩個變量。因此,在模型預測性能方面,極端梯度提升模型表現(xiàn)最好,隨機森林模型次之,邏輯回歸模型相對較差。

由于準確率及召回率等評價指標容易受到模型分割閾值的影響,因而進一步根據ROC曲線對各模型進行評價。由圖3可知,3個機器學習模型均有較好的表現(xiàn),三者AUC值均接近或大于0.8,但其中極端梯度提升模型預測精度最好AUC值為0.956 7,隨機森林次之,邏輯回歸最差,森林火災數據集與預測因子數據集之間線性程度不高,故邏輯回歸模型表現(xiàn)不如極端梯度提升模型與隨機森林模型。因此,在模型泛化能力方面,極端梯度提升模型表現(xiàn)最好,隨機森林模型次之,邏輯回歸模型相對較差。

表4 不同模型準確率及召回率

圖2 2016—2020年云貴川地區(qū)森林火點分布

圖3 各模型日尺度預測的ROC曲線

3.3 林火預測模型的改進

除氣象因素外,地形因素對森林火災也有著間接的影響,而可燃物含水率對森林火災則有著直接的影響。本研究采用植被水分指數(INDWI)對植被可燃物含水率進行替代,引入地形因素及植被水分指數對模型進行修正。經過多重共線性檢驗或特征重要性排行,邏輯回歸模型訓練數據集加入坡向、高程及植被水分指數;隨機森林模型訓練數據集加入高程、植被水分指數;極端梯度提升模型訓練數據集加入坡度、高程及植被水分指數。

由表5可知,加入地形因素及植被水分指數后,各模型準確率及召回率均有所提升。極端梯度提升模型AUC值略有提升,邏輯回歸模型AUC值略有下降,隨機森林模型AUC值變化不大。但引入地形因素及植被水分指數對3種機器學習模型的預測效果均有優(yōu)化。

表5 地形因素及植被水分指數修正后各模型準確率、召回率及AUC值

由表6可知,采用10折交叉驗證對3種機器學習模型的魯棒性進行了評價,交叉驗證中采用準確率作為評估標準。3種模型準確率變異系數均小于0.05,模型均具有較好的魯棒性。極端梯度提升模型表現(xiàn)最好,準確率均值、標準差及變異系數均優(yōu)于邏輯回歸及隨機森林模型。

3.4 不同模型預測結果及驗證

由圖4可知,邏輯回歸模型預測云貴川地區(qū)的林火高發(fā)區(qū)域的分布,2021年1月1日林火高發(fā)區(qū)域主要集中在云南省中西部、四川省中部及貴州省西部;2021年2月1日林火高發(fā)區(qū)域主要集中在云南省東部與南部、四川省東部及貴州省西南部;2021年3月1日林火高發(fā)區(qū)域主要集中在云南省北部與東部、四川省中部及貴州省南部;2021年4月1日林火高發(fā)區(qū)域主要集中在云南省西南部與東部、四川省東部及貴州省東部。

由圖5可知,隨機森林模型預測云貴川地區(qū)的林火高發(fā)區(qū)域分布情況,2021年1月1日林火高發(fā)區(qū)域主要集中在云南省西部、四川省中部及貴州省東南部;2021年2月1日林火高發(fā)區(qū)域主要集中在云南省中部與西部、四川省中部;2021年3月1日林火高發(fā)區(qū)域主要集中在云南省中部、四川省西部;2021年4月1日林火高發(fā)區(qū)域主要集中在云南省中部與東部、四川省中部及貴州省西南部。

表6 各模型交叉驗證準確率均值、標準差及變異系數

圖4 邏輯回歸模型預測結果

由圖6可知,極端梯度提升模型預測的林火高發(fā)區(qū)域分布情況, 2021年1月1日林火高發(fā)區(qū)域主要集中在云南省西部、四川省中部及貴州省南部;2021年2月1日林火高發(fā)區(qū)域主要集中在云南省中部與西部、四川省中部;2021年3月1日林火高發(fā)區(qū)域主要集中在云南省中部與北部、四川省西部及貴州省西南部;2021年4月1日林火高發(fā)區(qū)域主要集中在云南省中部與東部、四川省中部及貴州省西部。

較高的林火燃燒概率僅表示該地區(qū)發(fā)生火災的可能性較高,并不代表火災的發(fā)生,這也是預測結果中存在大面積林火高發(fā)區(qū)域的主要原因。

根據MCD14DL數據集,預測日期內共有火點408個,對火點創(chuàng)建緩沖區(qū)(5 km),在緩沖區(qū)外依據空間分布,隨機選取等量非火點數據。根據邏輯回歸、隨機森林及極端梯度提升模型最優(yōu)分割閾值分別為0.512、0.532及0.509,據此計算預測值的準確率。

圖5 隨機森林模型預測結果

圖6 極端梯度提升模型預測結果

由表7可知,機器學習模型在預測林火燃燒概率方面均可以達到一個較好的準確率。在總準確率方面,極端梯度提升模型預測表現(xiàn)最優(yōu),隨機森林模型次之,邏輯回歸模型相對較差;而在火點預測準確率方面隨機森林模型表現(xiàn)最好,極端梯度提升模型次之,邏輯回歸最差。造成上述現(xiàn)象的原因:一是隨機森林整體林火燃燒概率預測值偏高;二是高林火燃燒概率并不等于火災的發(fā)生,即訓練數據集及驗證集中均存在高燃燒概率的非火點。但模型火點預測準確率較高,說明模型在林火燃燒概率預測方面表現(xiàn)較好。

表7 MCD14DL火點數據準確率

4 結論

本文結合氣象因子、地形因子及可燃物含水率因子,應用了邏輯回歸、隨機森林及極端梯度提升模型對云貴川區(qū)域林火燃燒概率進行預測。結果表明,在日尺度林火燃燒概率預測上,極端梯度提升模型的整體預測準確率高于邏輯回歸、隨機森林模型;隨機森林模型整體預測值較高,導致其在火點預測準確率高,非火點預測準確率差;而邏輯回歸模型在非火點預測方面準確率優(yōu)于其他兩個模型。其原因是由于極端梯度提升模型在訓練過程中不斷修正模型預測值與真值之間的誤差,因此最終可以達到一個較好的結果。此外,地形因素及植被水分指數對森林火災的發(fā)生具有重要影響,因此引入地形因素及植被水分指數對林火預測模型優(yōu)化,進一步提高了預測結果的準確率。

猜你喜歡
火點林火梯度
無錫惠山區(qū)堅持“六抓六強” 構建林火防治銅墻鐵壁
一個改進的WYL型三項共軛梯度法
林火監(jiān)測系統(tǒng)在森林防火中的應用與發(fā)展
亞像元火點對紅外預警衛(wèi)星的輻射干擾特性
一種自適應Dai-Liao共軛梯度法
半邊天
人身上有5個祛火點
一類扭積形式的梯度近Ricci孤立子
點煙頌
江蘇省海門市如何實現(xiàn)連續(xù)4年秸稈焚燒“零火點”?