王 坤, 蔣 寧, 李 敏, 李 靜, 張樹民, 陳 鐵, 彭小燕
(1.江蘇省南通市氣象局, 南通 226000; 2.中國氣象科學研究院, 北京 100081;3.江蘇省海門市氣象局, 海門 226100; 4.中國地質(zhì)大學(武漢), 武漢 430074)
短時強降水是導致城市內(nèi)澇和山洪、滑坡等災害的重要原因,也是強對流天氣業(yè)務預報現(xiàn)階段的重點和難點之一,國內(nèi)外學者一直將短時強降水的機理和預報研究作為一個重要的研究方向[1-6]。前人對于短時強降水的預報方法主要集中于“配料法”,“配料法”是Doswell等[7]提出的一種暴雨預報思路,基于不穩(wěn)定、抬升和水汽條件等對強降水發(fā)生的關(guān)鍵影響因子進行分析,并根據(jù)各個因子的配合和演變對強對流天氣進行預報。這種預報思路提出后,對強對流天氣的預報產(chǎn)生了重要影響,被廣泛應用在暴雨、雷暴和短時強降水等強對流天氣的預報中[8-12]?!芭淞戏ā彪m然對短時強降水預報有一定參考價值,但漏報率和空報率較高。
短時強降水的預報可看作是一個分類問題,即出現(xiàn)短時強降水為一類,不出現(xiàn)短時降水為第二類。江蘇省汛期出現(xiàn)短時強降水的概率為0.2%~0.3%,屬于小概率事件,對短時強降水的預報建立分類模型時得到的訓練集出現(xiàn)了明顯的類別不平衡,即出現(xiàn)短時強降水的訓練集占比過小。合成少數(shù)類過取樣(synthetic minority over-sampling technique, SMOTE)算法是Chawla等[13]提出的使用鄰近的少數(shù)類樣本合成無重復的新樣本的算法,使少數(shù)類樣本的規(guī)模進行擴大,進而讓數(shù)據(jù)達到相對平衡的狀態(tài),以期提高分類器對少數(shù)類的分類性能。引入SMOTE算法可以解決傳統(tǒng)分類算法構(gòu)建短時強降水預報模型時的數(shù)據(jù)不平衡問題。
本研究構(gòu)建了基于SMOTE算法的短時強降水預報模型,通過引入SMOTE算法可以使邏輯回歸算法對短時強降水的發(fā)展的關(guān)鍵影響因子進行區(qū)分,從而對短時強降水進行有效預報,為強對流的預報提供了新思路。
采用2011—2018年每年汛期(5月1日—9月30日)江蘇省國家氣象觀測站逐小時降水資料,將降水記錄數(shù)少于總時數(shù)的98%的站點進行剔除。依據(jù)中國氣象局下發(fā)的業(yè)務規(guī)定定義:短時強降水為1 h降水量超過20 mm。將站點小時降水量大于等于20 mm定義為一次短時強降水事件,短時強降水次數(shù)定義為出現(xiàn)短時強降水事件的次數(shù),即小時數(shù),短時強降水頻次定義為多年平均的出現(xiàn)短時強降水次數(shù)。
本文使用的歐洲中期天氣預報中心(the European Center for Medium-range Weather Forecasts,ECMWF)的ERA5資料再分析場[14],ERA5是歐洲中心第五代再分析資料,使用的資料同化系統(tǒng)為IFS Cycle 41r2,水平分辨率約31 km,時間間隔為1 h,垂直方向為137層。預報資料為ECMWF 提供的預報資料[15]。ECMWF提供的是每天北京時08時和20時起報的6日預報,時間間隔為6 h,水平空間分辨率為0.5°×0.5°經(jīng)緯格點,垂直分8層。
SMOTE算法的基本思路是使用k近鄰算法對少數(shù)類樣本進行擴展,利用鄰近的少數(shù)類樣本隨機生成一個新的少數(shù)類樣本,以增加少數(shù)類數(shù)量,進而使得數(shù)據(jù)集平衡。其算法流程如下:①對于少數(shù)類中每一個樣本,以歐氏距離計算它到少數(shù)類樣本集中所有樣本的距離,得到其近鄰的少數(shù)類樣本;②根據(jù)多數(shù)類和少數(shù)類樣本的比例設(shè)置采樣倍率N,對于任一個少數(shù)類樣本O,從其近鄰中隨機選擇若干個樣本,假設(shè)選擇的近鄰為Xi,對于Xi,生成新的樣本具體公式為
Xnew=O+rand(0,1)|Xi-O|,i=1,2,…,N
(1)
式(1)中:Xnew為新生成的少數(shù)類樣本;O為原始少數(shù)類樣本數(shù)據(jù);rand(0,1)為0~1的隨機數(shù);Xi為O的最近鄰少數(shù)類樣本中選取的N個樣本。
與隨機過采樣算法相比,SMOTE算法能夠極大地緩解模型過擬合的問題,且不會損失有效的價值信息。但SMOTE算法只能生成可用樣本范圍內(nèi)的樣本,即永遠不會生成例外的樣本,這對于數(shù)據(jù)分布的真實性考慮欠佳,并會引入額外的噪聲。
邏輯回歸(logistic regression, LR)模型是一種簡單高效、應用廣泛的二分類模型。邏輯回歸模型在線性回歸模型的基礎(chǔ)上,應用sigmoid函數(shù)將結(jié)果轉(zhuǎn)換為二分類模型。
邏輯回歸的結(jié)果被限制為0或1,表示一種結(jié)果的兩種可能性。本研究中,邏輯回歸模型用于描述因變量短時強降水發(fā)生與否的二分變量與自變量不同氣象要素之間的關(guān)系。將短時強降水發(fā)生定義為1,未發(fā)生則定義為0。以P表示短時強降水發(fā)生的概率,取值范圍是[0,1]。1-P是短時強降水未發(fā)生的概率,而其比值取自然對數(shù)lnP/(1-P),P為因變量,選取的氣象因子Xn為自變量,邏輯回歸方程為
(2)
式(2)中:βi(i=1,2,…,n)為Logistic回歸系數(shù),α為常數(shù)項。
由式(2)可得
由(3)可以預測短時強降水發(fā)生的概率。
混淆矩陣是評判二分類模型結(jié)果的指標之一,可以用表1來表示。
表1 二分類模型的混淆矩陣
混淆矩陣里面僅給出個數(shù)的簡單統(tǒng)計,很難定量衡量模型的優(yōu)劣。因此在基本的統(tǒng)計結(jié)果上又延伸了如下3個評估指標:
(4)
(5)
(6)
式中:準確率為被正確分類的樣本比例或數(shù)量;精確率為在所有判別為短時強降水發(fā)生的結(jié)果中,真正短時強降水所占的比例;召回率為樣本中的短時強降水有多少被預測正確。
ROC(receiver operating characteristic curve)曲線是以真正類率為縱坐標,假正類率為橫坐標的曲線,其中真正類率TPR=TP/(TP+FN),代表將正類分對的概率;假正類率FPR=FP/(FP+TN),代表將負類錯分為正類的概率[16-17]。對短時強降水分類模型而言,根據(jù)其在測試數(shù)據(jù)集上的表現(xiàn)得到一個TPR和FPR點對,映射成ROC平面上的一個點。調(diào)整分類模型的閾值,即可得到一條經(jīng)過(0, 0)、(1, 1)的曲線,即為該分類模型的ROC曲線。ROC曲線越接近左上角,模型的準確性就越高。
AUC(area under roc curve)為ROC曲線下面積,可以定量衡量分類模型性能[18]。AUC的取值范圍在0~1。AUC越接近1,分類模型性能越好。當AUC超過0.85時,一般認為分類模型的性能較好,可以較好地給出預測。
根據(jù)2017年6月國家氣象中心制定的《強對流天氣短期/短時預報檢驗辦法》,由于強對流天氣具有時空尺度小,局地性強的特點,但常規(guī)的地面氣象站點布局相對稀疏,因此傳統(tǒng)觀測與預報“點對點”檢驗方法很難準確地反映分類強對流預報質(zhì)量。針對短時強降水預報的檢驗,基于評分站點周圍“半徑40 km圓”內(nèi)所有自動站小時降水實況觀測,來判定該評分站點短時強降水天氣的有無情況。
具體評分方法如下:
(7)
(8)
(9)
(10)
式中:NAk為預報正確站(次)數(shù);NBk為空報站(次)數(shù);NCk為漏報站(次)數(shù)。
圖1為江蘇短時強降水頻次分布特征,結(jié)果表明,每年5—9月出現(xiàn)短時強降水的次數(shù)平均在3~7之間,江淮之間短時強降水出現(xiàn)次數(shù)最低,一般為5次左右,蘇北的徐州和鹽城地區(qū)短時強降水的次數(shù)最少,年均在2~3次。
圖2為江蘇全省各時次短時強降水頻次日變化特征??梢姡饕邓霈F(xiàn)在15:00—19:00有明顯峰值,年平均次數(shù)超過17.6次,早晨04:00—10:00有第二個峰值出現(xiàn),年平均次數(shù)為14.3次左右,前半夜頻次則較少,年平均次數(shù)低于11次。
圖1 江蘇省短時強降水頻次分布特征Fig.1 Frequency distribution of short-term heavy precipitation in Jiangsu Province
圖2 江蘇省短時強降水頻次日變化特征Fig.2 Daily diurnal characteristics of short-term heavy rainfall frequency in Jiangsu Province
本研究選取江蘇70個國家站逐小時地面常規(guī)降水觀測、地面自動站加密降水資料,根據(jù)短時強降水出現(xiàn)與否,對樣本劃分進行劃分出現(xiàn)與不出現(xiàn)的樣本。本文將短時強降水出現(xiàn)與否作為研究對象,選取與短時強降水關(guān)系密切的水汽參數(shù)、穩(wěn)定度參數(shù)和熱力參數(shù)作為變量,建立江蘇短時強降水預報模型,具體選取的變量包括500、700、850、925、1 000 hPa的溫度、露點、位勢高度、風向、風速、假相當位溫、比濕、相對濕度,對流有效位能(CAPE),K指數(shù),大氣總水汽(TCW),500 hPa與850 hPa、500 hPa與700 hPa、925 hPa與850 hPa、925 hPa與700 hPa、850 hPa與700 hPa、700 hPa與700 hPa、925 hPa與1 000 hPa的溫度差和假相當位溫差。
由于選取的模式預報輸出間隔為6 h,本研究將未來6 h是否出現(xiàn)短時強降水進行分類。對于各站數(shù)據(jù)分別采用交叉驗證將短時強降水相關(guān)的變量進行SMOTE算法的插值,平衡短時強降水出現(xiàn)與否的樣本數(shù)量。利用LR算法對平衡后的數(shù)據(jù)集進行分類,并分類結(jié)果進行分析。本文以基于南通站數(shù)據(jù)構(gòu)建的結(jié)果為例,評估江蘇短時強降水預報模型的性能。
通常認為,AUC在0.85以上時有較高準確度。圖3為南通站的ROC曲線,對于未來6 h候是否出現(xiàn)短時強降水,其AUC=0.900 5,可以認為該預報模型對短時強降水有較好的預報能力。其他各站的結(jié)果與南通站的類似,各站的AUC基本上在0.85~0.95??梢钥闯鼋?jīng)過SMOTE-LR算法構(gòu)建的模型對江蘇省短時強降水有較好的識別能力。
精確率和召回率是一組矛盾的變量。圖4和表2分別為南通站短時強降水模型不同閾值的混淆矩陣和評估指標,可以看出,當閾值越小,準確率和召回率值越小,預報模型能找出短時強降水出現(xiàn)的個例就越多,但誤判的數(shù)量也較大。隨著閾值的提高,召回率和準確率逐漸升高,精確率值逐漸降低,誤判的數(shù)量也隨之減少。在實際預報中,鑒于短時強降水可能的致災危害性,為盡可能減少漏報,可以適當放寬閾值,接受一定程度的空報。
圖3 南通站短時強降水預報模型的ROC檢驗Fig.3 ROC curve of short-term heavy rainfall prediction model at Nantong Station
圖4 南通站短時強降水預報模型不同閾值的混淆矩陣Fig.4 Confusion matrix of different thresholds for short-term heavy rainfall prediction model of Nantong Station
表2 南通站短時強降水模型不同閾值的評估指標
利用前文所述的SMOTE-LR算法構(gòu)建的模型,使用ECMWF預報數(shù)據(jù)計算了2019年6—9月逐6 h 6~144 h預報預見期短時強降水概率,閾值選擇為0.5?;趪覛庀笾行闹贫ǖ摹稄妼α魈鞖舛唐?短時預報檢驗辦法》,計算了相應的TS(threat score)評分、空報率和漏報率。
圖5 短時強降水預報模型6~144 h預報預見期的TS評分、漏報率、空報率Fig.5 Short-term heavy rainfall prediction model TS score, MIS, and FAR for the forecast period of 6 to 144 hours
從圖5(a)可以看出,短時強降雨預報6~24 h時效6 h預報TS評分為0.2~0.25,隨著預報預見期增加,短時強降水的預報TS評分逐漸降低,在144 h,預報技巧在0.1左右。由于短時強降水主要出現(xiàn)在下午,其次是凌晨,對于起報時間在8和20時的預報,不同預報預見期的TS評分呈現(xiàn)高低間隔分布特征,在強降水出現(xiàn)頻繁時段的TS評分相對較高,在強降水出現(xiàn)較少時段TS評分較低。圖5(b)為0~144 h預報預見期短時強降水的空報率,短時強降雨預報,0~24 h時效6 h預預報空報率在0.7~0.75,隨著預報預見期增加,短時強降水的預報空報率逐漸升高,在144 h,預報技巧在0.85左右。圖5(c)為0~144 h預報預見期短時強降水的漏報率,短時強降雨預報,0~24 h時效6 h預預報空報率在0.38~0.55,隨著預報預見期增加,短時強降水的預報漏報率逐漸升高,在144 h,漏報率在0.8左右。
本研究選取2019年7月17日夜間江蘇省沿江中東部地區(qū)出現(xiàn)暴雨到大暴雨,局地特大暴雨過程作為個例對江蘇短時強降水預報模型進行天氣過程檢驗。本次過程降水極強,短時強降水主要出現(xiàn)在20:00后,圖6為該次強降水過程中17日20:00—18日02:00短時強降水的分布圖,其中紅點為短時強降水出現(xiàn)的站點。其中如皋站日降水量(286.4 mm)創(chuàng)本站1961年以來的日最大降水記錄,小時雨強(161.9 mm)創(chuàng)本站歷史極值及達1961年以來江蘇各站歷史最大小時降水量第二位;常州加密站日降水量(261.6 mm,戚墅堰潞城)創(chuàng)常州站1961年以來的日最大降水記錄,小時雨強(107.9 mm,戚墅堰潞城)創(chuàng)常州站最大小時降水極值。利用前文所述的SMOTE-LR算法構(gòu)建的江蘇短時強降水預報模型,使用ECMWF模式不同起報時間的預報數(shù)據(jù),分別計算了預報時間為2019年7月17日20:00預報預見期為12~144 h的短時強降水概率,短時強降水出現(xiàn)閾值選擇為0.5,由于ECMWF模式的起報時間為北京時間08:00和20:00,故對于北京20:00的未來6 h的短時強降水實際預報間隔為12 h。
圖6 2019年17日20:00至18日02:00短時強降水分布Fig.6 Short-term heavy rainfall distribution from 20:00 on the 17th to 02:00 on the 18th, 2019
圖7 預報預見期為12~144 h的17日20:00—18日02:00江蘇省短時強降水確定性預報Fig.7 Deterministic forecast of short-term heavy precipitation from 20:00 on the 17th to 02:00 on the 18th on the forecast period of 12 to 144 h
圖7和圖8從客觀角度分別展示了短時強降水預報模型輸出的確定性預報以及概率預報結(jié)果在2019年7月17日的表現(xiàn)??梢钥闯?,從144 h預報預見期起,短時強降水預報均對蘇南沿江一帶的短時強降水有所預警,所有時次的預報對該次短時強降水過程無漏報,但對于蘇北和蘇南地區(qū)有所空報。對于短時強降水,該預報模型輸出短時強降水結(jié)果相對于模式直接輸出的降水結(jié)果,對短時強降水出現(xiàn)的位置有較好的指示意義,但存在一定程度的空報。
本研究基于2011—2018年的逐小時降水資料,ERA5再分析資料,ECMWF預報資料,研究了江淮流域汛期逐小時的時空分布特征;基于對短時強降水形成機制的探討和分析,使用SMOTE方法和LR方法構(gòu)建了江淮流域短時強降水預報模型,并對該模型的性能進行了檢驗,并使用2019年ECMWF預報數(shù)據(jù)進行了系統(tǒng)性檢驗和天氣過程檢驗。主要得到以下幾個方面結(jié)論。
(1)分析了江蘇短時強降水頻次分布特征,短時強降水頻次分布為典型的南多北少,主要降水出現(xiàn)在早晨04—10時和午后15—19時,前半夜出現(xiàn)降水的概率則較低。
(2)探討了短時強降水發(fā)生臨近時刻表征水汽、不穩(wěn)定、動力條件等多個對流特征,選取對于短時強降水有較強判斷能力的氣象要素,使用SMOTE+LR方法,構(gòu)建短時強降水的預報模型,該模型總體性能較好,對短時強降水出現(xiàn)與否有較好的判別能力。
(3)使用2019年ECMWF預報數(shù)據(jù)基于短時強降水模式輸出江淮流域短時強降水確定性預報和概率預報,并對預報產(chǎn)品進行了系統(tǒng)性檢驗和天氣過程檢驗,該模型對短時強降水有較好的指示性,24 h內(nèi),TS評分在0.23以上,60 h以內(nèi)TS評分均在0.2以上,但也存在著一定程度的空報和漏報?;赟MOTE+LR方法構(gòu)建的江蘇短時強降水預報模型可以為短時強降水的預報提供具有業(yè)務上實用價值的指導。
圖8 預報預見期為12~144 h的17日20:00—18日02:00江蘇省短時強降水概率預報Fig.8 Probabilistic forecast of short-term heavy precipitation from 20:00 on the 17th to 02:00 on the 18th on the forecast period of 12 to 144 h