張 愷,楊隆浩,高建清,鄭 晶
(1. 福建船政交通職業(yè)學院 信息與智慧交通學院,福建 福州 350007;2. 福州大學 經(jīng)濟與管理學院,福建 福州 350116;3. 福建江夏學院 電子信息科學學院,福建 福州 350108)
臺風災害是全球發(fā)生頻率最高、影響最嚴重的災害[1]。我國的沿海地區(qū)頻頻受到臺風災害的侵襲,且伴隨著巨大的經(jīng)濟損失和人員傷亡。據(jù)《中國氣象公報》統(tǒng)計,2011-2020年,我國臺風累計直接損失已達到6 651.8億元人民幣[2]。臺風災害直接經(jīng)濟損失的統(tǒng)計具有滯后的特點,這給應急響應工作帶來一定的難度。因此,深入研究臺風災害與直接經(jīng)濟損失之間的關系,并對臺風災害直接經(jīng)濟損失進行預測,更好地評估臺風災害帶來的損失,進而完善應急減災救災體系,這對臺風災害應急管理具有重要的研究意義[3- 4]。
為了有效評估臺風災害損失,國內外學者已經(jīng)提出了若干的臺風災害評估模型。例如,TAN等[5]提出了基于單值中智集的熵,并將其應用于臺風災害評估中。隨后,TAN等[6]又提出基于博弈理論和灰色理論的決策支持方法對臺風災害進行評估;陳莉婷等[7]探究了臺風災害的模糊性,應用模糊證據(jù)推理對臺風災害風險進行評估;潘金蘭等[8]應用層級分析法和TOPSIS方法構建了臺風災害風險評估模型;盧耀健等[9]運用組合權重和模糊隨機方法建立了臺風災害風險評估模型。但是需要指出的是,隨著臺風災害損失的預測對于準確性要求的提高,基于數(shù)據(jù)驅動的預測模型逐漸成為臺風災害評估的主要研究方向。例如,李博等[4]提出改進的神經(jīng)網(wǎng)絡模型對廣東省臺風災害經(jīng)濟損失進行預測;于小兵等[10]應用可計算一般均衡模型對廣東省臺風“山竹”帶來的損失進行評估;林江豪等[11]提出神經(jīng)網(wǎng)絡和支持向量機模型相集結的臺風災害經(jīng)濟損失評估模型;周納等[12]提出模糊神經(jīng)網(wǎng)絡算法對臺風災害損失進行預測;DU等[13]應用極度梯度提升樹和隨機森林相結合的機器學習方法對臺風災害損失進行評估;WANG等[14]通過案例推理方法預測臺風災害經(jīng)濟損失的空間分布;ZHENG等[15]應用案例檢索方法對臺風災害進行評估以便于快速做出應急響應。
上述研究成果為基于數(shù)據(jù)驅動的臺風災害評估與預測奠定了一定的基礎,但是仍存在以下幾個問題:首先,基于決策模型的評估方法缺少對歷史數(shù)據(jù)的合理利用,導致預測與評估的準確性不夠高;其次,基于數(shù)據(jù)驅動的臺風災害評估與預測通過歷史數(shù)據(jù)提升了評估與預測的準確性,但是忽略了決策者對模型可解釋性的需求。
擴展置信規(guī)則庫(Extended Belief Rule Base,EBRB)推理模型[16]采用IF-THEN規(guī)則存儲信息,不僅對模糊性和不確定信息具有較強的表達能力,訓練過程簡單,而且在可解釋性上具有獨特的優(yōu)勢[17,18]。EBRB被廣泛地應用于評估和預測問題中,如,環(huán)境治理成本預測[19]、橋梁風險評估[20]、交通事故預測[21]。臺風災害直接經(jīng)濟損失與臺風災害相關屬性息息相關,并具有大量的數(shù)據(jù),然而已有的預測模型鮮有考慮到直接經(jīng)濟損失與臺風災害信息之間的關系,以及數(shù)據(jù)驅動為導向的模型。此外,臺風災害直接經(jīng)濟損失對于模型的低復雜性和可解釋性具有較高的要求。鑒于此,本文將引入EBRB對臺風災害進行預測。但是考慮到臺風災害可能存在大量數(shù)據(jù)的情形,有可能造成EBRB中過量的規(guī)則和組合爆炸。因此,需要針對基于EBRB的臺風災害直接經(jīng)濟損失預測進一步深入研究。
針對上述的問題,本文提出基于累積置信規(guī)則庫(Cumulative Belief Rule Base,C-BRB)的臺風災害直接經(jīng)濟損失評估模型。首先,引入聚類方法和證據(jù)推理(Evidence reasoning,ER)方法構建C-BRB,提升了案例的可解釋性并克服了組合爆炸問題;其次,基于EBRB和ER提出累積推理過程,克服了規(guī)則的不一致性,從而提升推理結果的精確度;最后,通過臺風災害直接經(jīng)濟損失預測進行實例研究,驗證本文提出模型的可行性和有效性。
EBRB是由擴展置信度規(guī)則構成的,則第k(k=1,…,L)條擴展置信規(guī)則庫表示為:
(1)
在臺風災害直接經(jīng)濟損失預測中,當前置屬性房屋損壞和死亡人口的評價等級為低,中和高,輸出指標直接經(jīng)濟損失指數(shù)的結果等級為低和中時,則關于臺風災害直接經(jīng)濟損失指數(shù)的擴展置信規(guī)則表示為:
Rk:IF房屋損壞 is{(低,0.3),(高,0.6)} and 死亡人口 is {(低,0.7),(中,0.3)},THEN 直接經(jīng)濟損失指數(shù) is {(低,0.5),(中,0.5)}.
(2)
為了確保臺風災害直接經(jīng)濟損失預測的準確性,需要依據(jù)歷史數(shù)據(jù)和專家知識構建EBRB。構建流程(圖1)和步驟如下:
圖1 EBRB的構建流程
步驟 1:通過參數(shù)優(yōu)化模型確定EBRB中關鍵參數(shù)的取值。在構建EBRB時,根據(jù)專家知識可以確定前置屬性Ui(i=1,…,M)中評價等級的效用值u(Ai,j),輸出屬性D中評價等級Dn(n=1,…,N)的效用值u(Dn)和所有前置屬性的屬性權重δi。
步驟 2:將數(shù)值轉化為置信度分布。首先,收集臺風災害直接經(jīng)濟損失預測問題的數(shù)據(jù)
(3)
基于此,得到第i個前置屬性式置信度分布:
(4)
同理,根據(jù)式(2)得到輸出數(shù)據(jù)的置信度分布:
(5)
步驟3:計算每條擴展置信規(guī)則的規(guī)則權重θk。通過計算兩兩規(guī)則之間的前置相似性(SRA)和輸出相似性(SRC),來確定規(guī)則權重:
(6)
(7)
然后,計算第t條擴展置信規(guī)則庫的不一致度,其計算公式如下:
(8)
最后,根據(jù)不一致度,計算規(guī)則權重:
(9)
在EBRB構建的基礎上,通過EBRB規(guī)則推理,從而進行臺風災害直接經(jīng)濟損失預測,其基本流程如圖2所示。
圖2 基于EBRB的預測基本流程
EBRB規(guī)則推理的基本流程如下:
步驟1:計算個體匹配度。假設臺風災害直接經(jīng)濟損失指數(shù)預測問題的輸入值為x=(x1,…,xM,根據(jù)式(2)將其轉換為置信度分布形式:
S(xi)={(Ai,j,αi,j);j=1,…,Ji},
(10)
然后,計算第k條擴展置信規(guī)則中第i個前置屬性的個體匹配度,公式為:
(11)
步驟2:計算刺激權重。在步驟1的基礎上,第k條規(guī)則的刺激權重計算公式如下:
(12)
wk是評估規(guī)則是否需要被激活的憑證,即wk>0意味著第k條規(guī)則可以被激活,否則意味著該條規(guī)則不能被激活。
步驟3:集結激活規(guī)則。根據(jù)ER算法[23]對被激活規(guī)則的輸出屬性集結為新的置信度分布形式:
βn=
(13)
之后,根據(jù)輸出屬性評價等級Dn上的效用值u(Dn),計算臺風災害直接經(jīng)濟損失指數(shù)的預測值:
(14)
本節(jié)在EBRB預測模型的基礎上,通過聚類方法,提出C-BRB模型。同時,針對臺風災害中存在大數(shù)據(jù)量問題,說明基于C-BRB的臺風災害直接經(jīng)濟損失預測新模型。本節(jié)將圍繞置信庫生成、規(guī)則生成和規(guī)則合成三個部分介紹臺風災害直接經(jīng)濟損失預測過程,其中主要研究框架如圖3所示。
圖3 基于C-BRB對臺風災害直接經(jīng)濟損失進行預測
步驟1:規(guī)則聚類。根據(jù)每個擴展置信分布的最大置信度,可以確定多個相似置信度的規(guī)則集合。假設RCj1…jM為與前置屬性的M個參考值Ai,ji(ji∈{1,…,Ji};i=1,…,M)相關的規(guī)則集合,則相應的擴展置信規(guī)則集合可以表示為:
(15)
步驟2:累積置信庫生成。針對每個規(guī)則集合RCj1…jM,將所有屬于RCj1…jM的擴展置信規(guī)則通過證據(jù)推理方法進行集結,生成新的擴展置信規(guī)則如下:
(16)
步驟1:計算累積擴展置信規(guī)則的刺激優(yōu)先級。假設累積置信庫R有M個參考值集合{Ai,j;j=1,…,Ji}用來評價第i個前置屬性,那么,第i個前置屬性的刺激優(yōu)先級定義為:
(17)
在此基礎上,計算累積規(guī)則Rj1…jM(Rj1…jM∈R)的刺激優(yōu)先級:
(18)
步驟2:確定刺激擴展置信規(guī)則集合。當累積置信規(guī)則的優(yōu)先級等于最小的所有累積置信規(guī)則的刺激優(yōu)先級時,該累積置信規(guī)則將被認定為輸出數(shù)據(jù) 的刺激規(guī)則,那么,得到如下的刺激規(guī)則集合:
(19)
根據(jù)2.1節(jié)中的累積EBRB置信規(guī)則庫的構建和2.2節(jié)中的置信規(guī)則生成過程,可以為臺風災害直接經(jīng)濟損失預測問題構建基于C-BRB的預測模型。接下來,對臺風災害直接經(jīng)濟損失預測過程做進一步介紹。
步驟1:計算刺激權重。當臺風災害直接經(jīng)濟損失預測的新數(shù)據(jù)為x=(x1,…,xM)時,依據(jù)1.2中的步驟2轉換為置信度分布形式;再根據(jù)1.2中的步驟1確定輸入數(shù)據(jù)的刺激規(guī)則集合AR(x);接著,計算每個刺激規(guī)則Rj1…jM(Rj1…jM∈AR(x))的刺激權重:
(20)
步驟2:集結刺激規(guī)則預測臺風災害直接經(jīng)濟損失成本。當所有刺激規(guī)則的刺激權重確定后,選取刺激權重大于0的擴展置信規(guī)則作為刺激規(guī)則,根據(jù)1.3中的步驟3集結刺激規(guī)則獲取置信度βn。隨后,根據(jù)設置的輸出屬性在每個評價等級上的效用值u(D1)≤u(D2)≤…≤u(DN),得到臺風災害直接經(jīng)濟損失預測值:
(21)
臺風災害數(shù)據(jù)采用2005-2018年的中國氣象災害年鑒中的熱帶氣旋災情表中的數(shù)據(jù),每個臺風只選取登陸點的災害數(shù)據(jù),從中選取直接經(jīng)濟損失值大于0 的記錄,一共有113條。災害信息屬性包括:失蹤人口A1(人)、死亡人口A2(人)、受災人口A3(人)和轉移安置人口A4(人),房屋損壞A5(萬間),損害面積A6(萬hm2),登陸時風速大小A7(m/s)和登陸時風速級別(A8),直接經(jīng)濟損失A9(億元),GDPA10(億元),人口密度A11(人/km2)。
臺風災害所在年份的社會環(huán)境會影響災情數(shù)據(jù),因此需要對災害信息數(shù)據(jù)進行調整。通過將A1、A2、A3和A4除以該臺風當年人口密度進行調整,指標簡稱分別為B1,B2,B3和B4;將A9除以該臺風當年GDP進行調整,指標簡稱為B9。因此,預測模型中的問題屬性包括調整后的B1,B2,B3和B4,以及A5,A6,A7和A8;預測屬性為調整后的屬性B9。表1顯示了所有輸入輸出指標的描述性統(tǒng)計分析。
表1 輸入輸出指標的描述性統(tǒng)計分析
首先,根據(jù)1.2節(jié)的步驟1,得到C-BRB直接經(jīng)濟損失預測模型參數(shù)的初始取值(表2)。所有前置屬性的初始權重均設為1,前置屬性和輸出屬性的評價等級均分為3個等級。進而根據(jù)步驟2,轉換為置信度分布形式,以規(guī)則1為例,其置信度分布如表3所示。
表2 直接經(jīng)濟損失指數(shù)預測參數(shù)的初始取值
表3 規(guī)則1前置屬性和輸出屬性的置信度分布
然后,數(shù)據(jù)集按照8∶2的比例分為訓練集和測試集,通過2.1小節(jié)構建C-BRB,進而應用2.2小節(jié)計算刺激權重,并根據(jù)2.3小節(jié)合成激活規(guī)則,從而得到結果,訓練集的預測結果與真實結果比對如圖4所示。
圖4 訓練集的預測結果與真實結果的比對
在訓練的基礎上,測試集數(shù)據(jù)的預測結果,得到預測結果與真實結果的比對(圖5)。從圖5可知,大部分的測試集的預測結果與真實結果的擬合度較好,除了個別規(guī)則存在一定差異,這是因為不同臺風災害,其數(shù)據(jù)的統(tǒng)計可能存在一定的差異,對直接經(jīng)濟損失評估等采用的策略不同。
圖5 測試集的預測結果與真實結果的比對
最后,根據(jù)運行狀態(tài)得到運行參數(shù)指標(表4)可知,基于C-BRB的臺風災害直接經(jīng)濟損失模型的精確度較高,運行速度較快,能夠快速為相關部門專家提供決策參考,盡快做出應急響應,降低臺風災害帶來的直接經(jīng)濟損失。
表4 基于C-BRB的直接經(jīng)濟損失指數(shù)預測模型運行參數(shù)
為了進一步說明C-BRB在臺風災害直接經(jīng)濟損失指數(shù)預測中的優(yōu)越性,本節(jié)將EBRB和案例推理(Case-Based Reasoning,CBR)[24]模型與C-BRB進行性能比較。同時,將轉準確率作為評價指標。用平均絕對誤差(MAE)和對稱平均絕對百分比誤差(SMAPE)進行比較。三種不同預測方法的準確性對比結果如表5所示,其預測值與真實值的對比如圖6所示。從表5可知,基于C-EBRB模型的運行結果不管在MAE還是在SMAPE指標上都高于EBRB和CBR方法。為了進一步說明本文方法的精確性,進一步比對三種方法的預測值和真實值,結果如圖6所示。
表5 不同方法預測準確性對比分析
圖6 三種方法預測結果與真實數(shù)據(jù)的比較
從圖6中可以明顯發(fā)現(xiàn),C-BRB方法預測的結果有更多的案例更加貼近真實值,除個別點與真實值比較偏離,大部分與真實值的差距較小。因此,基于C-BRB的臺風災害直接經(jīng)濟損失指數(shù)預測模型具有較高的準確性。
此外,為了更進一步比較本文模型的優(yōu)越性,從三種方法的技術層面進行研究分析?;贑-BRB的預測模型在面對大數(shù)據(jù)量時,首先通過聚類方法生成置信規(guī)則庫,不僅降低了模型運行時間,同時也提高了模型的精確度。此外,C-BRB模型通過擴展置信度規(guī)則對案例進行表示,且其是一個白箱算法,具有較好的可解釋性能,這對于應急決策專家快速做出有效的應急響應起到了至關重要的作用。因此,良好的可解釋性可以輔助決策專家更好地了解模型及其給出的決策支持。三種方法的性能比較結果如表6所示。
表6 三種方法的性能比較
為了解決臺風災害直接經(jīng)濟損失預測中精確性和可解釋性問題,本文在EBRB的構建與推理的基礎上,通過聚類方法和ER方法對擴展置信規(guī)則進行累積,進而構建基于C-BRB的臺風災害直接經(jīng)濟損失預測模型。最后以收集并整理后的我國2005-2018年的臺風災害數(shù)據(jù)為例,說明本文提出模型的預測過程和結論。本文的主要研究結論有:
1)現(xiàn)有的臺風災害損失評估模型往往忽視了歷史數(shù)據(jù)對于預測模型構建的效用。因此,本文提出了基于C-BRB的臺風災害直接經(jīng)濟損失預測模型,克服了以往模型在數(shù)據(jù)驅動情形下的局限性。
2)針對預測模型的可解釋性對于決策者做出準確決策的重要性,通過EBRB模型的IF-THEN規(guī)則表示提高模型的可解釋性,避免決策者的認知不足而做出不夠精確的決策。
3)大量的臺風災害數(shù)據(jù)可能造成過量的擴展置信規(guī)則及集結爆炸問題,通過聚類方法和ER方法構建累積擴展置信規(guī)則,進而進行累積擴展置信規(guī)則的推理,提升了EBRB模型在臺風災害預測中的性能。
4)在實例分析中,以收集并整理后的我國2005-2018年的臺風災害數(shù)據(jù)為例,驗證本文提出方法的可行性、準確性和優(yōu)越性。此外,本文提出的預測模型也為其他災害損失預測提供有效的預測工具。
5)臺風災害具有動態(tài)性,累積置信規(guī)則庫推理在此情形下的應用有待進一步探索,今后將深入研究考慮臺風災害演變的直接經(jīng)濟損失預測,并拓展置信規(guī)則庫推理使其適用于時間序列的預測,進一步提高直接經(jīng)濟損失預測的精確度。