陳以祺 吳香華 劉鵬 劉端陽
1 南京信息工程大學數(shù)學與統(tǒng)計學院,南京 210044
2 南京信息工程大學大氣科學學院,南京 210044
3 南京交通氣象研究所,南京 210008
降水的科學有效預報,可以為工農業(yè)生產、水利開發(fā)和工程管理等有關部門減少不必要的損失。鑒于降水預報的重要性,學者們提出了各種各樣的預報方法,其中最常用的就是數(shù)值預報和統(tǒng)計預報(Aparna et al., 2018)。數(shù)值預報牽涉大量的物理過程,計算量巨大,不確定性較高,傳統(tǒng)統(tǒng)計預報計算過程較小,但其方法多以線性為主,難以處理降水這類非線性問題(白楊等, 2020)。隨著計算機的飛速發(fā)展,人工智能迎來第三次發(fā)展浪潮,并在多個大數(shù)據(jù)分析領域中取得巨大成功,這也為該項技術與氣象預報的結合提供了契機(孫健等,2021)。機器學習作為人工智能的重要分支,有效解決了降水預報的非線性和不確定性特征,在氣象預報中的熱度逐年上升(沈皓俊等, 2020)?;跈C器學習的統(tǒng)計預報模型已被廣泛應用于降水中,亟需從云降水物理學和統(tǒng)計學的角度,對降水的統(tǒng)計預報模型進行科學可靠的性能評估。
機器學習方法可以挖掘海量氣象數(shù)據(jù)中的潛在規(guī)律,在降水發(fā)生預報領域的效果顯著。神經(jīng)網(wǎng)絡以優(yōu)良的自學習、自組織、容錯性和非線性逼近能力廣泛應用于降水的預報中,尤其是BP 神經(jīng)網(wǎng)絡(Back Propagation Network,BPNN),通過信號向前傳播以及誤差反向傳播的不斷迭代訓練出整個預報模型(楊永生和何平, 2008; 李寧, 2011; 石曉燕等, 2013)。研究表明,無論是基于降水量歷史數(shù)據(jù)還是氣象資料,BPNN 均能夠成功預報出未來的降雨量且預報準確率較高(張輝, 2013; 葛彩蓮等,2010; 黎玥君和郭品文, 2017; 李嘉康等, 2017;劉莉和葉文,2010)。支持向量機(Support Vector Machine,SVM)通過采用線性算法構建超平面,高維甚至無限維空間,并基于核技巧將初始數(shù)據(jù)集投射到高維或無限維的希爾伯特空間,得到一個非線性輸入數(shù)據(jù)空間的算法(李萬慶等, 2007; 倪遠臣, 2014; 胡鳳良等, 2017),使得 SVM 非常適合具有復雜非線性特點的降水預報建模。相較幾種基于常規(guī)神經(jīng)網(wǎng)絡計算的方法而言,SVM 在日降水量預報中具有優(yōu)越性(楊淑群等, 2006; Ortiz-García et al., 2014;Hamidi et al., 2015; 許曉寧, 2018)。相比于神經(jīng)網(wǎng)絡和支持向量機收斂速度較慢的特點(史逸民等,2018),決策樹(Decision Tree,DT)收斂速度快,計算復雜度低,對于降水預報效果較好(Kusiak et al., 2009; 何東坡, 2016; Choubin et al., 2018)。除此之外,隨機森林(Ho et al., 2014; He et al., 2016)、極限學習機(孔德萌等, 2017)、樸素貝葉斯(周麗莉等, 2017; Voyant et al., 2017)等機器學習方法也逐漸被應用于降水預報中。
但是,就目前的降水預報工作而言,將機器學習和統(tǒng)計模擬方法相結合,對模型的預報性能進行分析和比較的研究較少。相關的研究主要有:基于交叉驗證技術的KNN(K-Nearest Neighbor)方法在一定程度上可以減少降水預報的空報率,使預報效果顯著提高(曾曉青等, 2008);采用相關加權,多元線性回歸以及支持向量機回歸與“交叉驗證”相結合的方法,開展有限區(qū)域模式的多模式短期超級集合預報研究(陳超輝等, 2010);借助交叉驗證手段評估夏季降水預報效果的穩(wěn)健性(朱連華等, 2015);采用10 折交叉驗證方法計算決策樹的預報準確度,進而評估不同降水預報決策樹的性能(張佳華等, 2017);采用LOO(Leave-One-Out )交叉驗證選擇模型,并用選定的模型修正TRMM(Tropical Rainfall Measuring Mission satellite)數(shù)據(jù),以獲得最接近“真值”的降水估計值(范科科等, 2017)。但是,這些研究或針對模型參數(shù)的調優(yōu)和最優(yōu)參數(shù)的選取,或針對模型性能指標的計算和模型的選擇,并沒有涉及在模型性能最優(yōu)的條件下,對模型的預報性能進行比較。
因此,在實際的降水預報工作中,建立可靠的預報模型,并對模型的預報性能做出客觀評價,是一個不可忽略并亟待解決的問題。另一方面,黑龍江省位于亞洲東部,易受強盛的季風氣候影響,冬季干冷,夏季降水充沛(韓玉梅, 2008)。同時,黑龍江省也是中國重要的糧食作物產區(qū),夏季是糧食作物的生長關鍵期。因此,對黑龍江省夏季降水的準確預報對農作物產量提高具有深遠的戰(zhàn)略意義。鑒于以上情況,本文基于我國黑龍江省2015~2019 年夏季逐日降水站點數(shù)據(jù),擬從統(tǒng)計學角度出發(fā),采用統(tǒng)計模擬技術,分析基于BP 神經(jīng)網(wǎng)絡、支持向量機和決策樹的3 種降水統(tǒng)計預報模型的性能,研究支持向量機逐日降水預報模型性能空間分布。為統(tǒng)計預報模型的性能評估,提供一種科學有效的實驗估計方法。
本文采用的資料來源于國家氣象科學數(shù)據(jù)中心(http://data.cma.cn[2020-11-05])提供的中國地面氣候資料日值數(shù)據(jù)集,包括20:00(北京時間,下同)至次日20:00 降水量、平均氣溫、平均氣壓、平均相對濕度和平均風速5 個氣象要素。選用黑龍江?。?3°N~54°N,121°E~136°E)28 個地面基本氣象觀測站及自動站的逐日觀測數(shù)據(jù),資料選取時段為2015~2019 年夏季(6~8 月),圖1 為黑龍江省氣象站點分布。依據(jù)20:00 至次日20:00 降水量數(shù)值大小,將降水事件劃分為發(fā)生(降水量>0 mm/d)和不發(fā)生(降水量=0 mm/d)兩類,以降水是否發(fā)生為研究對象,平均氣溫、平均氣壓、平均相對濕度和平均風速為預報因子,建立降水統(tǒng)計預報模型。為了消除量綱、單位不同以及數(shù)據(jù)缺測給預報結果帶來的影響,對預報因子進行標準化預處理和質量控制。
圖1 黑龍江省氣象站點分布Fig. 1 Distribution of meteorological stations in Heilongjiang Province
本文所用的性能評估方法主要有留出法(Holdout)、自助法(Bootstrap)和交叉驗證法(Crossvalidation)(梁子超等, 2020)。其中留出法和自助法用于模型訓練集(training set)和測試集(testing set)的劃分,交叉驗證法用于模型參數(shù)調節(jié)。
在同一數(shù)據(jù)集上對模型進行訓練和性能評價,缺乏模型泛化能力的分析。因此,在另一個數(shù)據(jù)集上對模型進行統(tǒng)計模擬評價,可以有效避免訓練樣本和測試樣本交叉而導致的過擬合。留出法、自助法和交叉驗證法3 種Monte Carlo 模擬抽樣的方法可以用于評估所有模型的預報性能。基本思想是把原始數(shù)據(jù)集劃分為兩個互斥的子集,其中一個子集作為訓練集,另一個子集作為測試集。一般而言,基于自助法的預報模型的性能分析相較于留出法更加客觀且有說服力。
留出法是一種隨機的非重復抽樣方法,是最早提出的統(tǒng)計模擬方法的基礎,它僅取決于數(shù)據(jù)的一次分割結果,由于沒有交叉處理,也被稱為驗證方法。留出法的具體做法為:首先將數(shù)據(jù)集隨機劃分為兩組,分別作為模型訓練集和測試集;然后用不同的統(tǒng)計學習方法在模型訓練集上構建模型,得到不同的訓練模型;最后用訓練模型擬合測試集,計算出模型的預報誤差,以此評估模型性能。一般而言,訓練樣本量越大,預報模型的性能越好;測試樣本量越大,誤差估計越準確。因此,測試誤差大小與數(shù)據(jù)劃分比例有很大關系,本文選用的劃分比例為7:3。留出法在進行模型的建立和評估時,存在一些眾所周知的局限性:第一,留出法將數(shù)據(jù)隨機分為了數(shù)量不同的兩組,數(shù)量較少的一組用于模型評估,數(shù)量較多的一組用于訓練模型,由于訓練模型的樣本數(shù)據(jù)偏少,建立的模型比不上使用全部數(shù)據(jù)建立的模型好。第二,訓練的數(shù)據(jù)越少,模型的方差就會越大,反過來,訓練的數(shù)據(jù)越多,模型的性能越不可靠。因此,訓練集與測試集的劃分很可能成為模型優(yōu)劣的重要因素。為了彌補留出法抽樣的局限,可以采用重抽樣的方法。
自助法是一種有放回的重抽樣,以自助采樣法為基礎。具體做法為:在樣本數(shù)量為n的數(shù)據(jù)集中隨機選取一個樣本,放入模型訓練集中,然后再將該樣本放回到數(shù)據(jù)集中,參加下一次的抽樣,抽樣n次 后,將會形成一個容量為n的新數(shù)據(jù)集,將這個新數(shù)據(jù)集用作模型訓練集。如此一來,某些樣本在測試集中可能重復出現(xiàn),也有可能從不出現(xiàn)。由于每個樣本每次被抽中的概率n-1和不被抽中的概率1-n-1都是相等的,因此,n次抽樣之后,樣本不被抽中的概率為(1-n-1)n,當n→+∞ 時,樣本未被抽中的概率為 e-1,約等于0.368,這樣實際評價的模型與期望評價的模型都使用n個訓練樣本,而測試樣本約為總樣本的36.8%。
模型參數(shù)的不同設置,往往會導致性能的顯著差別。因此,對模型性能進行評價時,需要先對模型的參數(shù)進行調節(jié)。交叉驗證是目前應用最為廣泛的模型參數(shù)調節(jié)方法。它是一種簡單地重復抽樣的方法,具體做法:首先決定一個折數(shù)S,并將訓練數(shù)據(jù)切分為S個相互獨立的均等子集;然后取其中一個子集作為測試集,剩余S-1 個子集的數(shù)據(jù)作為訓練模型的訓練集,不重復地取S次后,可以得到S個模型和它們的測試誤差;最后選擇S次評測中測試誤差最小的模型參數(shù)。由于每一個樣本數(shù)據(jù)既用于模型的建立又用于模型的參數(shù)選擇,所以交叉驗證能夠有效地利用樣本數(shù)據(jù)。
為了評估統(tǒng)計模型的性能,需要相應的性能度量指標。對于二分類模型而言,混淆矩陣、精度、準確率、敏感度、特異度、F1 分數(shù)、ROC(Receiver Operating Characteristic)曲線及ROC曲線面積是最常用的性能度量指標。本文主要選取了其中的準確率(accuracy)、敏感度(sensitivity)、特異度(specificity)、ROC 曲線和ROC 曲線面積。其中,準確率表示降水統(tǒng)計預報模型準確識別出降水是否發(fā)生的比例,是對降水統(tǒng)計預報模型準確率的評估;敏感度表示實際發(fā)生降水并且被準確識別的比例,衡量的是模型對發(fā)生降水的判別能力;特異度表示實際不發(fā)生降水并且被準確識別的比例,衡量的是模型對不發(fā)生降水的判別能力。ROC 曲線是針對樣本類別分布不平衡而提出的,它綜合考慮了敏感度和特異度的特點,以敏感度為橫坐標,1-特異度為縱坐標繪制而成,曲線越陡峭,越高聳,越接近直線y=1模型的性能越高。ROC 曲線面積是一個概率,是對ROC 曲線的量化。一般而言,ROC曲線面積的取值越大,模型的預報性能越好?;谏鲜鲈?,本文降水統(tǒng)計預報模型的性能評價綜合指標為ROC 曲線面積。
為了對3 種降水統(tǒng)計預報模型性能進行比較,本文采用ROC 曲線面積顯著性檢驗方法對模型的ROC 曲線面積進行比較檢驗。ROC 曲線面積顯著性檢驗方法主要包括以下幾個操作步驟:首先,計算出3 種降水統(tǒng)計預報模型的ROC 曲線面積和曲線面積方差,并將BPNN、SVM、DT 的ROC 曲線面積分別記為A1、A2、A3; ROC 曲線面積方差分別記為V1、V2、V3。其次,計算出任意兩個模型的ROC 曲線面積差值θ和協(xié)方差。BPNN、SVM、DT 的θ分別記為 θ1、 θ2、 θ3;協(xié)方差分別記為C1、C2、C3。然后,計算出任意兩個模型的Z值,BPNN、SVM、DT 的Z值分別記為Z1、Z2、Z3,其中,Z1的計算公式如下:
其余Z值的計算公式與之類似。最后,對Z值作顯著性檢驗,得到P值,P表示兩個降水統(tǒng)計預報模型的ROC 曲線面積存在差異的可能性,一般認為P<0.05,兩個降水統(tǒng)計預報模型的ROC 曲線面積差異有統(tǒng)計學意義;P<0.01,兩個降水統(tǒng)計預報模型的ROC 曲線面積差異顯著;P<0.001,兩個降水統(tǒng)計預報模型的ROC 曲線面積差異非常顯著,反之亦然。
利用留出法和自助法將黑龍江省夏季28 個站點的所有數(shù)據(jù)依次劃分為訓練集和測試集,在訓練集上對模型進行參數(shù)調優(yōu),用測試集上的判別效果估計模型在實際使用過程中的泛化能力。綜合考慮數(shù)據(jù)集樣本容量較大、3 種統(tǒng)計學習方法容易過度擬合的特點,在模型的構建中采用了重抽樣方法。重抽樣方法在大樣本中的差異性不明顯,與其他幾種重抽樣方法相比,10 折交叉驗證的方差適中,獲取模型最優(yōu)參數(shù)的計算速度較快,可以有效避免過擬合現(xiàn)象的發(fā)生。因此,降水統(tǒng)計預報模型的模型參數(shù)調節(jié)方法為10 折交叉驗證。
BPNN 無需提前給定映射關系方程,就能學習和存貯大量的映射(陳茜等, 2018),對于海量氣象數(shù)據(jù)的處理效果較好。Hecht-Nielsen(1989)證明了一個輸入層、一個隱含層和一個輸出層的三層神經(jīng)網(wǎng)絡可以解決任意復雜的非線性問題,并且擁有很強的非線性映射和自適應學習能力(李寧,2011)。在3 層BPNN 降水統(tǒng)計預報模型的構建中,需要選取的模型參數(shù)有隱含層神經(jīng)元節(jié)點數(shù)N以及權值衰減參數(shù)(Decay,D)。
BPNN 模型建立最為重要的就是N的確定,N較多,容易導致過度擬合和計算量過大的問題,N較少,模型性能又不容易達到預期的效果。目前對于N的選擇沒有特定的公式,基于降水預報的多種特征,綜合考慮多種因素,本文給定N的范圍為
其中,nI和nP分別為BPNN 輸入層和輸出層的神經(jīng)元節(jié)點數(shù)。根據(jù)公式(2)可知,N的選取范圍為[4,12]。權值衰減參數(shù)是為了避免BPNN 在訓練過程中發(fā)生過擬合的情況而給誤差函數(shù)添加的一個懲罰項。目前對于權值衰減參數(shù)的選取尚沒有普適的公式,常用的權值衰減參數(shù)取值為0.5、0.1 和0.01。
采用試錯法確定N和權值衰減參數(shù)的最優(yōu)組合,建立參數(shù)最優(yōu)的BPNN 降水統(tǒng)計預報模型。根據(jù)不同的參數(shù)組合訓練不同的模型,然后選擇準確率最高的參數(shù)組合。通過不斷地對比和調試,可以得到N和權值衰減參數(shù)不同組合下擬合模型的統(tǒng)計量。特別地,Kappa 系數(shù)是對準確率的修正,是衡量模型一致性的指標,它消除了正確分類的隨機性因素,數(shù)值越大,代表模型的預報效果越好。由圖2a 和圖2c 容易獲悉:基于留出法的BPNN 模型隱含層節(jié)點數(shù)為12,權值衰減參數(shù)為0.5 時,模型的準確率和Kappa 系數(shù)最大,最優(yōu)參數(shù)組合為N=12,D=0.5;由圖2b 和圖2d 容易獲悉:基于自助法的BPNN 模型隱含層節(jié)點數(shù)為11,權值衰減參數(shù)為0.1 時,模型的準確率和Kappa 系數(shù)最大,最優(yōu)參數(shù)組合為N=12,D=0.01。
圖2 2015~2018 年黑龍江省夏季逐日降水量基于留出法(左列)和自助法(右列)的BPNN 統(tǒng)計預報模型的參數(shù)調優(yōu):(a、b)準確率熱力圖;(c、d)Kappa 系數(shù)熱力圖Fig. 2 Parameter tuning of the BPNN statistical prediction model of daily summer precipitation in Heilongjiang Province from 2015 to 2018 based on Hold-out (left column) and Bootstrap (right column) methods: (a, b) Thermal maps of accuracy; (c, d) thermal maps of Kappa
SVM 良好的魯棒性和泛化性能使其在近年來的降水預報等相關領域得到了廣泛的應用。SVM的特點在于采用了工程問題上的核函數(shù)。使用核函數(shù)可以將數(shù)據(jù)映射到高維空間,使非線性的數(shù)據(jù)在高維空間線性可分,并能夠有效提高模型的預報精度。除此之外,SVM 懲罰因子的選擇可以降低模型的分類誤差以及可以更好地控制分離邊界。
常用的核函數(shù)有:線性核、多項式核、徑向基核和神經(jīng)網(wǎng)絡核。由于徑向基核函數(shù)可以用來解決目標變量和預報變量間的非線性關系,是一種非線性的映射,適用于不同規(guī)模的樣本量和不同維度的樣本空間。無特殊要求,一般選擇徑向基核函數(shù)。除了核函數(shù)的選擇以外,懲罰因子和Sigma 參數(shù)的選擇也可能成為SVM 模型預報性能的影響因素。懲罰因子是用來懲罰錯誤分類的訓練樣本的。一般而言,如果懲罰因子的數(shù)值較大,那么分類的間隔相應的就會較小,錯分樣本的比例就會增大;相反,當懲罰因子的數(shù)值減小時,分類的間隔就會變大,錯分樣本的比例也會相應的減少。因此,懲罰因子的大小直接影響模型分類的誤差和分類間隔的大小。Sigma 參數(shù)決定著分類界限的形狀和平滑程度,Sigma 越大,平滑程度越好。一般地,Sigma 參數(shù)設置的依據(jù)是Schuldt et al.(2004)提出的Sigma參數(shù)合理估計解析公式。
為了調優(yōu)SVM,主要設定了10 個懲罰因子取值。通過不斷地對比和調試,可以得到不同懲罰因子參數(shù)值下擬合模型的統(tǒng)計量。由表1 容易獲悉:基于留出法的SVM 模型懲罰因子取值為2,設置Sigma參數(shù)為0.3332 時,模型的準確率和Kappa 系數(shù)最大,取值為76.94%和0.5381;基于自助法的SVM模型懲罰因子取值為64,設置Sigma參數(shù)為0.3158時,模型的準確率和Kappa 系數(shù)最大,取值為77.47%和0.5481。
表1 基于留出法和自助法的2015~2018 年黑龍江省夏季逐日降水SVM 統(tǒng)計預報模型的參數(shù)調優(yōu)Table 1 Parameter tuning of the SVM (Support Vector Machine) statistical prediction model of summer daily precipitation in Heilongjiang Province from 2015 to 2018 based on Hold-out and Bootstrap methods
在訓練DT 模型時,追求更高的訓練集正確分類的準確率,容易導致建立的決策樹結構過于復雜、分支過于繁多,造成過擬合的問題,因此需要對某些分支進行主動刪減,簡化生成的決策樹,以減小過度擬合的風險。代價—復雜度參數(shù)(Complexity Parameter,CP)是DT 剪枝的依據(jù)。作為控制決策樹規(guī)模的懲罰因子,CP 參數(shù)值越大,決策樹的復雜度越小,準確率越低。因此合適的CP 參數(shù)值不僅可以解決過擬合的問題,而且可以提高準確率。一般選擇準確率最大值對應的CP 參數(shù)值對決策樹進行剪枝。
通過不斷地對比和調試,可以得到不同CP 參數(shù)值下擬合模型的統(tǒng)計量。根據(jù)表2 容易獲悉:基于留出法的DT 模型CP 取值為0.0073 時,模型的準確率和Kappa 系數(shù)最大,取值為73.96%和0.4786,因此最優(yōu)參數(shù)為0.0073;基于自助法的DT 模型CP 取值為0.0181 時,模型的準確率和Kappa 系數(shù)最大,取值為72.73%和0.4533,因此最優(yōu)參數(shù)為0.0181。
表2 基于留出法和自助法的2015~2018 年黑龍江省夏季逐日降水DT 統(tǒng)計預報模型的參數(shù)調優(yōu)Table 2 Parameter tuning of the DT statistical forecast model of daily precipitation in summer in Heilongjiang Province from 2015 to 2018 based on Hold-out and Bootstrap methods
基于10 折交叉驗證的參數(shù)最優(yōu)模型,通過對BPNN、SVM、DT 3 種降水統(tǒng)計預報模型擬合測試集數(shù)據(jù)后的準確率、敏感度、特異度進行比較,對降水統(tǒng)計預報模型的泛化性能做出有效估計;計算出3 種降水統(tǒng)計預報模型的ROC 曲線面積和95%置信區(qū)間(Confidence Interval,CI),對降水統(tǒng)計預報模型的預報性能進行分析;分別對3 種模型進行ROC 曲線面積的統(tǒng)計假設檢驗,對降水統(tǒng)計預報模型的預報性能進行比較;選擇泛化性能最好的模型,建立該模型下黑龍江省2019 年夏季各站點的降水統(tǒng)計預報模型,并對各站點的預報性能進行空間分布分析。
表3 給出的是基于留出法和自助法的3 種降水統(tǒng)計預報模型的準確率、敏感度、特異度性能度量指標值。由表3 可知:基于留出法的BPNN、SVM、DT 降水模型的準確率為75.96%、75.87%、72.14%;敏感度依次為71.76%、71.27%、68.77%;特異度依次為79.64%、79.88%、75.09%。針對準確率和敏感度的比較結果均為BPNN>SVM>DT;針對特異度的比較結果為SVM>BPNN>DT。基于自助法的BPNN、SVM、DT 降水模型的準確率依次為76.49、76.80、72.68;敏感度依次為72.80、72.47、69.45;特異度依次為79.90、80.81、75.67。針對準確率和特異度的比較結果均為SVM>BPNN>DT。綜上所述,對于降水發(fā)生的預報任務,BPNN的性能最好,而對于降水不發(fā)生的預報任務,SVM的性能最好。相比之下,無論基于何種性能度量,DT 的指標值均小于其他兩種模型,可認為在黑龍江省夏季降水預報中,DT 的性能最差。除此之外,自助法模擬技術下,3 種預報模型的所有性能度量指標值均比留出法模擬技術高,即自助法估計的性能始終優(yōu)于留出法。因此,自助法模擬技術能夠提高模型的預報性能,客觀有效的評價模型的預報效果。
表3 基于留出法和自助法的2015~2018 年黑龍江省夏季逐日降水的3 種統(tǒng)計預報模型的結果Table 3 Results of the three statistical forecast models of daily precipitation in Heilongjiang Province in the summer from 2015 to 2018 based on Hold-out and Bootstrap methods
不同的評價指標往往反映了不同的任務需求,因此使用不同的性能度量往往會導致不同的評判結果,綜合考慮統(tǒng)計預報模型在不同任務需求下的性能高低,或者說一般情況下性能的高低,使用ROC曲線及曲線下面積ROC 曲線面積對模型進行綜合評價。圖3 為基于留出法和自助法的3 種降水預報模型的ROC 曲線圖。其中,紅色線代表BPNN,綠色線代表SVM,藍色線代表DT,灰色線是一條分界線,衡量模型是否擁有預報效果,位于其上代表模型擁有預報價值,位于其下代表模型無預報價值??梢园l(fā)現(xiàn),圖3a 和圖3b 差別甚微,兩張圖中BPNN 的ROC 曲線與SVM 近乎重合,相比DT 更陡峭,更接近于直線y=1。由此表明,兩種統(tǒng)計模擬技術下,模型的性能分析結果具有一致性。
圖3 基于(a)留出法和(b)自助法的2015~2018 年黑龍江省夏季逐日降水的3 種統(tǒng)計預報模型的ROC 曲線。灰色線是一條分界線,位于其上代表模擁有預報價值,位于其下代表模型無預報價值Fig. 3 ROC curve of the three statistical forecasting models for the daily summer precipitation in Heilongjiang Province from 2015 to 2018 based on(a) Hold-out and (b) Bootstrap methods. The gray line is a dividing line. Above it, the model provides a forecast value, while below it, the model provides no forecast value
BPNN 和SVM 的曲線發(fā)生交叉,難以一般性地斷言二者孰優(yōu)孰劣,使用ROC 曲線面積綜合評價指標對3 種模型的性能進行合理比較。ROC 曲線面積為ROC 曲線下面積,是ROC 曲線陡峭程度的量化值,ROC 曲線面積越大,模型的預報性能越好。表4 為基于留出法和自助法3 種模型的ROC 曲線面積和95%置信區(qū)間匯總表,基于留出法的ROC 曲線面積按從大到小依次排序為BPNN>SVM>DT;基于自助法的ROC 曲線面積按從大到小依次排序為SVM>BPNN>DT。
表4 基于留出法和自助法的2015~2018 年黑龍江省夏季逐日降水的3 種統(tǒng)計預報模型的ROC 曲線面積和95%置信區(qū)間Table 4 The area under ROC cuvre and 95% confidence interval of three statistical forecasting models for daily summer precipitation in Heilongjiang Province from 2015 to 2018 based on Hold-out and Bootstrap methods
3 種統(tǒng)計預報模型本身具有一定的隨機性,僅根據(jù)評價指標的數(shù)值大小評價模型性能,顯然缺乏科學依據(jù)。為了對3 種降水預報模型進行客觀比較,站在統(tǒng)計學的角度,采用ROC 曲線面積顯著性檢驗方法統(tǒng)計假設檢驗,對3 種降水統(tǒng)計預報模型的ROC 曲線面積進行統(tǒng)計學差異的檢驗。根據(jù)表5可知:基于留出法的BPNN 與DT 的ROC 曲線面積的P為1.119×10-8,SVM 與DT 的ROC 曲線面積的P為3.801×10-8,均小于0.001,因此認為DT 與BPNN 和SVM 的差異非常顯著;而BPNN與SVM 的ROC 曲線面積的P為0.7233,大于0.05,因此認為二者的差異不顯著?;谧灾ǖ腂PNN與DT 的ROC 曲線面積的P為4.719×10-9,SVM與DT 的ROC 曲線面積的P為2.652×10-11,均小于0.001,因此認為DT 與BPNN 和SVM 的統(tǒng)計學差異非常顯著;而BPNN 與SVM 的ROC 曲線面積的P為0.5226,大于0.05,因此認為二者的差異不顯著。綜上所述,兩種統(tǒng)計模擬技術下,3種模型的性能分析結果一致。因此,對于黑龍江2015~2018 年夏季逐日降水的預報,BPNN 和SVM的預報性能差異無統(tǒng)計學意義,二者的預報性能顯著優(yōu)于DT。
表5 基于留出法和自助法的2015~2018 年黑龍江省夏季逐日降水的3 種統(tǒng)計預報模型的ROC 曲線面積統(tǒng)計學差異檢驗Table 5 The area under ROC cuvre test of three statistical prediction models of summer daily precipitation in Heilongjiang Province from 2015 to 2018 based on Hold-out and Bootstrap methods
為了進一步對降水統(tǒng)計預報模型性能空間分布進行分析,依據(jù)前兩節(jié)研究結果,利用自助法、10 折交叉驗證方法、SVM 統(tǒng)計學習方法和2019年黑龍江省夏季28 個站點氣象資料,基于SVM建立各站點的降水統(tǒng)計預報模型,并從空間分布角度對模型預報性能進行分析。
為了評估基于SVM 的各站點降水統(tǒng)計預報模型的預報性能,圖4 給出了該模型下黑龍江省各站點夏季降水的準確率、敏感度、特異度和ROC 曲線面積箱線圖??梢钥闯?,4 個評價指標均存在異常站點,準確率的異常值出現(xiàn)在寶清站和孫吳站,ROC 曲線面積的異常值出現(xiàn)在綏芬河站、孫吳站和寶清站,敏感度的異常值出現(xiàn)在寶清站和泰來站,特異度的異常值出現(xiàn)在綏芬河站。4 個指標的中位數(shù)分別為84.78%、84.52%、89.68%和82.09%,均高于80%。除了這4 個異常站點外,黑龍江省其他站點的夏季逐日降水預報性能都較好。
圖4 2019 年黑龍江省夏季逐日降水統(tǒng)計預報模型的準確率、ROC 曲線面積、敏感度和特異度箱線圖Fig. 4 Accuracy, area under ROC cuvre, sensitivity, and specificity boxplots of daily precipitation statistical prediction models in Heilongjiang Province in 2019
圖5 給出了黑龍江省2019 年各站點夏季降水發(fā)生頻率、逐日降水統(tǒng)計預報模型的準確率、敏感度、特異度和ROC 曲線面積的空間分布情況和變化趨勢。從圖中可以看出夏季降水頻率的高值中心位于黑龍江省張廣才嶺的綏芬河站和勃利站,降水頻率大于61.96%。東南地區(qū)的夏季降水頻率明顯高于西北地區(qū)。特別地,松嫩平原的泰來站和大興安嶺的漠河站的夏季降水頻率小于0.5,整體呈現(xiàn)由東南向西北遞減的趨勢。這主要是因為黑龍江省小興安嶺和張廣才嶺的迎風坡對地形有較好的抬升作用,再加上各種天氣系統(tǒng)在此過境,因此形成了降水頻率高值區(qū),而松嫩平原由于距離副熱帶高壓較遠,并且缺乏地形抬升條件,不易形成降水,因此頻率較小。準確率的高值中心位于小興安嶺的伊春市,并以北安站、鐵力站和通河站為軸線逐漸向兩側遞減,除了寶清站,孫吳站和綏芬河站外,其余站點的準確率均高于80.43%,并且勃利站、佳木斯站、北安站和通河站的準確率均高于90.22%。整體趨勢與降水頻率一致。敏感度的低值中心較為集中,位于西北部的齊齊哈爾市,東部地區(qū)除了牡丹江站和寶清站外,其余站點的敏感度均高于90.57%,西部地區(qū)除了齊齊哈爾市的所有站點和大興安嶺的呼瑪站外,其余站點的敏感度均高于81.25%,整體呈現(xiàn)由東南向西北遞減的趨勢。特異度的高值中心位于西北部的齊齊哈爾市,該區(qū)域內所有站點的特異度均高于88.99%,特別地,在齊齊哈爾站取最大值95.56%,整體呈現(xiàn)由西北向東南遞減的趨勢。ROC 曲線面積的分布與準確率的空間分布具有高度一致性,這從一個側面反映出:當類別數(shù)量差異較小時(本文降水和不降水的樣本比例約為6:4),準確率完全可以反映模型的整體預報性能。
圖5 2019 年黑龍江省各站點夏季逐日降水性能空間分布:(a)降水頻率;(b)SVM 的準確率;(c)SVM 的敏感度;(d)SVM 的特異度;(e)SVM 的ROC 曲線面積Fig. 5 Spatial distribution of the summer daily precipitation performance at different stations in Heilongjiang Province in 2019: (a) Precipitation frequency: (b) accuracy of SVM; (c) sensitivity of SVM; (d) specificity of SVM; (e) area under ROC cuvre of SVM
基于以上分析可以發(fā)現(xiàn),SVM 模型對于2019年黑龍江省夏季各站點的逐日降水整體預報效果較好,特別地,黑龍江省東南部的預報性能高于西北部。降水頻率與敏感度的空間分布趨勢吻合,與特異度的空間分布趨勢相反,即SVM 模型在降水頻率越高的地區(qū),對于發(fā)生降水的預報性能越好,而對于不發(fā)生降水的預報性能越差。兩個性能度量指標在同一區(qū)域的評判結果完全相反,這主要是因為不同的性能度量指標反映的是不同的預報任務需求,不同的任務需求評判依據(jù)不一樣,結果自然不相同。因此,模型的性能優(yōu)劣是相對的,一個模型預報性能的評價不僅取決于模型的算法和數(shù)據(jù),還取決于模型的預報任務需求和相應的性能度量指標。
本文利用黑龍江省28 個站點的夏季逐日降水資料,分析了2015~2018 年黑龍江省基于不同統(tǒng)計模擬技術和性能度量指標的3 種逐日降水統(tǒng)計預報模型的性能,歸納了2019 年黑龍江省夏季各個站點預報模型性能空間分布特征,并進一步分析了模型性能評估的影響因素,得到如下主要結論:
(1)自助法對于模型預報性能的估計始終優(yōu)于留出法,但最大相對提升幅度僅為1.2%。這主要是因為自助法雖然避免了訓練樣本規(guī)模不同而導致的估計偏差,但是它的效果在數(shù)據(jù)量較小,難以劃分訓練集和測試集時才更為顯著。由于本文數(shù)據(jù)量較大,提升幅度較小也事出有因。
(2)對于2015~2018 年黑龍江省夏季逐日降水預報,BPNN、SVM 和DT 的ROC 曲線面積均高于70%,3 種模型對于黑龍江夏季逐日降水均有較好的預報效果。特別地,BPNN 和SVM 的整體預報性能顯著優(yōu)于DT,而二者的整體預報性能無統(tǒng)計學差異。
(3)針對2019 年黑龍江省夏季各站點逐日降水預報,除了個別站點外,SVM 降水統(tǒng)計預報模型的整體預報性能較好,ROC 曲線面積可高達95.44%。特別地,在降水頻率較高的東南部,預報性能較好,而降水頻率較低的西北部,預報性能較差。此外,各站點的降水頻率與敏感度呈正相關,與特異度呈負相關。可見,SVM 模型在降水多的地區(qū)對發(fā)生降水的預報性能較好,對不發(fā)生降水的預報性能較差,由于黑龍江夏季降水頻率差異相對較小,敏感度和特異度的數(shù)值差異也較小。
(4)模型的預報性能既與算法和數(shù)據(jù)有關,又與預報任務需求和性能度量指標有關。因此,模型性能評估需要綜合考慮各種因素的影響,才能科學客觀的進行性能分析。