南剛強 陳明軒 秦 睿 韓 雷 曹偉華
1.中國海洋大學,青島,266100 2.北京城市氣象研究院,北京,100089
中尺度對流系統(Mesoscale Convective System,MCS)是具有旺盛對流性運動的天氣系統,其水平尺度大約為10—2000 km,生命期在3 h以上。Schumacher等(2006)研究了美國地區(qū)1999—2003年的極端降水事件,發(fā)現所有事件中有66%和暖季事件中有74%與MCS有關,并且美國北部幾乎所有的極端降雨事件都是由MCS引起的。Schumacher等(2020)研究表明MCS會產生很大比例的暖季降雨,且在氣候變暖的情況下,MCS的頻率和強度也可能會增大。中國國家氣候中心分析結果顯示,于1954、1969、1980、1991、1996、1998、1999、2003和2007年發(fā)生的特大暴雨洪澇都與MCS存在直接的關聯,這些災害給國民經濟和人民生命財產安全造成了重大損失(王曉芳等,2011)。自2012年以來,華北中東部暴雨事件頻發(fā)(雷蕾等,2020),對社會造成了巨大損失,并且這些暴雨特別是短時強降水的形成均與MCS存在直接關系。因此,做好MCS及其致災天氣的預報、預警,對人們了解暴雨、龍卷風和山洪等氣象災害的發(fā)展及演化有很大的幫助。
資料的選擇對MCS的研究有著至關重要的影響。從中尺度天氣的角度判斷,MCS的尺度范圍相對較大,且空間變化較廣,形態(tài)較為復雜,因此近幾十年來,氣象學家通常使用較大范圍的衛(wèi)星或雷達組網數據進行MCS的監(jiān)測、識別、追蹤和預報(Houze,2018)。
基于雷達探測資料的常用識別MCS的方法有2類。一類是基于雷達拼圖資料的TITAN算法(Thunderstorm Identification,Tracking,Analysis and Nowcasting)(Dixon,et al,1993)。TITAN屬于對流風暴三維特征自動識別、跟蹤、分析算法的典型代表,后續(xù)經過了多次改進和完善,并在多個臨近預報系統中得到應用(Mueller,et al,2003;韓雷等,2007;Han,et al,2009;陳明軒等,2006,2010)。另一類是基于雷達拼圖資料開發(fā)的SCIT算法(Storm Cell Identification and Tracking Algorithm)(Johnson,et al,1998),并 借 助Davis等(2006a,2006b)開發(fā)的模式評估工具(MODE,Method for Objective-based Diagnostic Evaluation)進 行 識別。但TITAN和SCIT均屬于風暴“質心”識別和追蹤算法,對尺度較小的超級單體風暴或孤立的風暴單體的識別效果更好,而對于結構和形態(tài)較為復雜的MCS的識別有時不夠準確。人們?yōu)榱四軌蚶肧CIT準確地識別MCS,對SCIT算法進行了一定改進,將SCIT算法中識別的位置比較接近的風暴單體組成MCS,以便對MCS進行跟蹤和預報。隨著機器學習算法的廣泛應用,人們開始借助人工智能來實現MCS的自動識別,Haberlie等(2018a)使用隨機森林、梯度提升和極度梯度提升3種分類算法實現了美國MCS的自動識別。
MCS的移動軌跡追蹤通常也使用TITAN算法或改進的SCIT算法實現,但是這類風暴“質心”算法也存在與上述識別MCS類似的追蹤缺陷。另一種常見的MCS移動軌跡追蹤方法是基于雷達回波的交叉相關追蹤(Tracking Radar Echoes by Crosscorrelation,TREC)(Rinehart,et al,1978),該方法同樣適用于基于衛(wèi)星觀測資料的MCS追蹤。楊吉等(2015)利用TREC和面積重疊算法實現了新的MCS追蹤預報方法。最近,曹偉華等(2019)將TITAN算法和TREC算法進行融合,發(fā)揮不同識別追蹤算法的優(yōu)勢,以提升強對流系統的識別和臨近預報水平。但是,TREC算法最大的問題是交叉相關矩陣的計算設置與對流系統回波的尺度密切相關,使得不同尺度對流系統的追蹤效果和精度差異較大。對于MCS的追蹤,還有Skok等(2009)提出的時間空間目標建立法,但是,該方法有一個很大的弊端,對多個對象的合并(分裂)將導致一個單一的、過度擴展的風暴帶。作為一種替代方法,可以使用Lakshmanan等(2009)提出的時、空重疊追蹤法,該方法將時、空對象構建過程僅應用于兩個相鄰時次雷達圖像在空間上重疊的風暴。
準線性MCS包含一條對流線,也就是一個連續(xù)或接近連續(xù)的對流回波鏈,該回波鏈共享一個幾乎共同的前緣,并以近似串聯的方式移動,包括其按照一個接近直線或中等彎曲的弧線方式排列(Parker,et al,2000)。準線性MCS(如颮線)的分類是研究MCS的一個重要課題,尤其對短時強降水和暴雨特征的研究有重要意義。Parker等(2000)使用2 km分辨率的美國雷達組合反射率因子數據,研究了MCS的主要組織形態(tài),根據對流線和層狀云的相對位置將準線性MCS分為尾隨層云(Trailing Stratiform,TS)、前 導 層 云(Leading Stratiform,LS)和 平 行 層 云(Parallel Stratiform,PS)3類,并研究了每種類型的基本特征,形成了經典的線狀MCS分類概念模型。Wang等(2014)借鑒上述工作,利用2010年6—7月長江流域的雷達拼圖和觀測資料,分析了長江中下游地區(qū)梅雨季MCS的類型和特征。Ashley等(2019)使用圖像分類和機器學習方法對22 a的美國地區(qū)雷達拼圖數據進行分割、分類和準線性對流系統(Quasi-Linear Convective Systems,QLCS)追蹤,該研究更進一步地說明了自動風暴形態(tài)分類的實用性,減少了研究人員手動形態(tài)學分類的耗時和時空限制。Jergensen等(2020)使用機器學習并基于雷達探測數據和鄰近探空資料,將雷暴有效地分為3類:超級單體、QLCS和無組織對流。
MCS的自動識別、跟蹤和分類本身就是一個復雜的工作,涉及到很多核心技術與算法。鑒于此,文中結合機器學習算法來實現MCS的自動識別,將MCS的識別轉化為從特定MCS切片中抽取到的樣本的預測問題。并且,基于追蹤得到的運動軌跡和準線性MCS中TS、LS和PS三種類型的組織結構,提出了新的分類算法,也就是根據MCS運動方向與層狀云和強對流云區(qū)域在識別的MCS切片中的分布特征,實現對準線性MCS的分類。
文中首先通過分割雷達拼圖數據和抽取MCS切片中的特征將MCS的識別轉換為二分類問題,并使用機器學習算法訓練數據集得到最優(yōu)分類器進而實現MCS的自動識別。再對機器學習模型識別的MCS進行追蹤,得到包含MCS信息的數據集和追蹤軌跡。最后根據軌跡矢量與MCS切片擬合橢圓短軸的夾角以及擬合橢圓長軸兩側的層狀云和強對流云面積之比,建立準線性MCS的分類算法。
深度學習是機器學習的一個重要分支,它能自動地從輸入數據中抽取更加復雜的特征,使網絡模型的權重學習變得更加簡單有效。早期的深度學習受到了神經學的啟發(fā),使得深度學習可以勝任很多人工智能的任務,到如今,深度學習已經從最初的圖像識別領域擴大到了機器學習的各個領域。
文中使用深度學習中的深度神經網絡(Deep Neural Networks,DNN)進行MCS的特征識別,并將其訓練所得模型的預測結果與傳統的機器學習算法做對比。由于用到的其他3種普通機器學習分類算法(支持向量機(SVM)、隨機森林(RF)、極度梯度提升決策樹(XGBoost))都是基于開源的Scikit-Learn庫(Pedregosa,et al,2011)實現的,在此不予介紹,讀者可參考相關文獻。下文將主要介紹DNN模型的實現。
2.2.1 網絡結構
文中使用的DNN模型(Bengio,2009)是一個4層的全連接神經網絡結構,包含2個不同節(jié)點的隱藏層,第1層為輸入層,節(jié)點數為MCS樣本的特征數量(共14個,后面會詳細介紹這些特征的定義);第4層為輸出層,含有2個節(jié)點,分別對應預測結果MCS(標記為1)和non-MCS(非MCS,標記為0)。
DNN模型的主要參數見表1。表中的GradientDescent即梯度下降法,是一種常用的優(yōu)化器;Relu是激活函數,表達式見式(1),Relu函數在正區(qū)間內的斜率為常數,避免了模型訓練過程中梯度消失的情況,并且在梯度下降過程中使得模型能夠快速收斂。
表1 DNN模型主要參數Table 1 Main parameters of the DNN model
2.2.2 學習率和損失函數設置
在訓練神經網絡時,需要設置學習率來控制網絡參數更新速度,學習率決定了網絡參數每次更新的幅度。學習率太小,會導致模型收斂過于緩慢,進而增加訓練的時間成本,有時甚至導致模型出現“無學習能力”的情況;學習率太大,使得模型無法靠近或達到最優(yōu)解,最終導致模型無法收斂。為了解決此問題,使用指數衰減法來控制學習率的變化,使模型趨于最優(yōu)解。
式中,lr是學習率;lr_base是初始學習率;α是小于1的衰減率,在本試驗中取0.99;decay_step是常數,表示衰減速度;train_step是訓練輪次。
損失函數是模型優(yōu)化的對象,通過最小化損失函數使模型達到收斂狀態(tài),減少模型預測值的誤差。本試驗解決的是二分類問題,所以用交叉熵作為該模型的損失函數。交叉熵用來刻畫兩個概率分布的距離,對于兩個特定的概率分布p和q,交叉熵的計算方法為
在本試驗中,p表示樣本的標簽,q表示網絡輸出結果的概率分布。
根據本研究的需要,為了將神經網絡的輸出結果轉化為概率分布,用Softmax回歸作為網絡輸出層的額外處理層。假設原始網絡的輸出為yi(i=1,2,···,n),則經過Softmax回歸處理后的結果為
2.2.3 過擬合問題
在神經網絡的訓練過程中,模型經常會出現過擬合的情況,也就是模型在訓練集上的擬合效果很好,但在測試集上的預測值和真實值差異卻很大。為了解決訓練得到的模型出現過擬合問題,通常會在損失函數中引入正則化。正則化就是在損失函數中加入刻畫模型復雜度的指標來限制權重的大小,進而減小訓練數據中的隨機噪聲對模型擬合的影響。常用的有L1正則化和L2正則化
式中,w表示網絡的權重,模型的參數復雜度由網絡的所有權重系數(w)決定。L1正則化更趨向于產生一個稀疏模型,而L2正則化可以更好地防止模型過擬合,故本試驗使用L2正則化。假設模型的損失函數為L(θ),正則化系數為λ,則引入L2正則化后的優(yōu)化函數如下
此時,在優(yōu)化模型時會直接優(yōu)化Loss函數,而不是損失函數L(θ)。需要特別說明的是,本試驗為了增加DNN模型在測試集上的健壯性(即模型穩(wěn)定高效且性能優(yōu)越),引入了滑動平均模型。在采用梯度下降法訓練神經網絡時,使用滑動平均模型在很多應用中都可以一定程度上提高最終模型在測試數據上的性能。簡單來說,就是數據每次訓練得到的模型都受到之前模型的影響,進而影響后面模型的訓練,這個影響隨著訓練次數的增加而減小,這樣可以讓模型的訓練更加趨于穩(wěn)定。
文中所用的雷達拼圖數據的格點分辨率為1 km×1 km,覆蓋整個京津冀地區(qū),區(qū)域大小為800 km×800 km,時間間隔為6 min。該數據具有高時、空分辨率特征,并且覆蓋范圍較廣,非常適合于京津冀地區(qū)MCS的識別與追蹤。該雷達拼圖數據是北京自動臨近預報系統(BJ-ANC)的產品(陳明軒等,2010),BJ-ANC系統在形成上述雷達拼圖資料過程中對京津冀地區(qū)每部雷達基數據均進行了較為嚴格的質量控制,包括地物雜波、超折射回波、0℃層亮帶回波的自動識別和剔除(陳明軒等,2010),這里不再贅述。
京津冀地區(qū)原始雷達拼圖數據的投影坐標為非等間隔經緯度投影,為了方便后面試驗的進行,需要對每個網格的經度和緯度等間隔化。經處理后每個網格在地理上的大小近似為1 km2,數據的經緯度范圍(36.21°—43.40°N,112.03°—120.90°E)。這樣處理只是細微地改變了每個網格點的經緯度,每個網格的值依舊保持不變。因為夏季是京津冀地區(qū)MCS的高發(fā)季節(jié),并且要得到足夠多的樣本來訓練模型,故選擇2010—2019年中5—9月的數據進行試驗,其中2010和2014年缺失5月的數據。
為了用機器學習模型識別雷達拼圖中的MCS,首先需要分割雷達拼圖數據得到候選MCS切片,進而抽取樣本特征。這里的MCS切片,是指通過搜索滿足特定閾值大小和強度標準的雷達回波圖像中的相連通像素組,而組合得到的雷達探測強對流區(qū)域,用該MCS切片表示單個時刻MCS的空間強度和形態(tài)特征。在本研究中,參考Parker等(2000)的工作(簡稱PJ00標準),PJ00標準將MCS定義為一個至少持續(xù)3 h且包含連續(xù)或半連續(xù)深濕對流的降水區(qū)域,該降水區(qū)域的長軸不小于100 km。根據PJ00標準,分割雷達拼圖數據中MCS切片的閾值如表2所示,其中對流區(qū)域搜索半徑和層狀云區(qū)域搜索半徑并不是唯一的,對流區(qū)域搜索半徑的常用取值有6、12、24和96 km,而層狀云區(qū)域搜索半徑的常用取值有48、96和102 km。根據Haberlie等(2018b)關于美國中緯度地區(qū)MCS追蹤的研究,對流區(qū)域搜索半徑取24 km、層狀云區(qū)域搜索半徑取96 km時,追蹤效果最好。所以本試驗這兩個指標也分別設為24和96 km進行雷達拼圖數據的分割及MCS的追蹤。
表2 用于分割雷達拼圖中MCS的指標閾值Table 2 Various thresholds used to segment MCS in radar mosaic data
以圖1所示原始雷達拼圖數據為例,分割過程可以總結為以下3個步驟:(1)確定至少包含一個強對流回波(≥50 dBz)像素的對流回波(≥40 dBz)區(qū)域,并將面積大于40 km2的對流區(qū)域選定,如圖2a中黑色實線標記的區(qū)域;(2)如果選定的對流區(qū)域的距離在指定半徑24 km內,則將它們連接,若連接后區(qū)域的最佳擬合橢圓的主軸長度(即MCS核長度)至少為100 km,則將其視為候選MCS核,如圖2b黑色實線區(qū)域;(3)將指定半徑96 km內的層狀云回波(≥20 dBz)區(qū)域與其各自的候選MCS核相關聯,并用黑色輪廓線勾勒出最終的候選MCS切片,如圖2c所示。
圖1 原始雷達拼圖數據(2014年6月17日11時59分36秒(世界時,下同))Fig.1 Original radar mosaic data (11:59:36 UTC 17 June 2014)
圖2 使用雷達拼圖數據 (2014年6月17日 11時59分36 秒) 演示候選MCS切片的分割過程(a.包含強對流單元且面積大于40 km2的對流區(qū)域;b.連接指定半徑24 km內的對流區(qū)域,將主軸長度超過100 km的連接區(qū)域確認為MCS核;c.關聯MCS核指定半徑96 km內的層云區(qū)域得到候選MCS切片)Fig.2 Demonstration of segmentation steps for candidate MCS slices using radar mosaic data (11:59:36 UTC 17 June 2014)(a.convection areas greater than 40 km2 with intense convection;b.connected convection area within a specified radius (24 km),and the connected area is considered to be the MCS core if its major axis length is at least 100 km;c.candidate MCS slice is identified by connecting the strtatiform pixels that are within the specified radius (96 km) of MCS core)
為了實現文中的MCS分類目標,必須將MCS切片信息具體特征化從而得到訓練樣本。每個MCS特征的選擇是參考先前的相關研究而確定的(Haberlie,et al,2018a),并使用Scikit-Image(van der Walt,et al,2014)中的圖像處理函數來完成特征值計算。共選取14個MCS特征,可以簡單將其分為面積特征、比值特征、幾何特征和統計特征,具體參見表3。
表3 MCS樣本特征列表Table 3 Sample features of MCS
由于每個網格的面積是1 km2,因而面積特征大小即為滿足閾值的網格數。14個MCS特征的計算都比較簡單,含義也很明確,此處對較復雜的幾何特征做一些簡單說明。幾何特征主要涉及到MCS擬合橢圓和凸包兩大形態(tài),對應的相關特征就是擬合橢圓的長軸、短軸和離心率以及凸包區(qū)域的面積。凸包(圖3a)是將不規(guī)則圖形的最外層點連接起來而得到的凸多邊形,即該不規(guī)則圖形的最小外接凸多邊形。擬合橢圓是指與不規(guī)則圖形區(qū)域具有相同標準二階中心矩的橢圓(圖3b),即最佳擬合橢圓。離心率是該橢圓的焦距與長軸之比,用來衡量橢圓的扁平程度,取值范圍為(0,1),離心率越大橢圓越扁平。
圖3 MCS切片的凸包 (a) 和擬合橢圓 (b) 示意Fig.3 Convex hull (a) and fitting ellipse (b) of MCS slice
抽取完每個候選MCS切片的14個特征后,為每個樣本主觀分配MCS和non-MCS標簽,將其制作成含有大量樣本的數據集,并將數據集按照年份劃分為訓練集和測試集,具體見表4。數據集的劃分遵循以下2個原則:(1)訓練集和測試集的比例要適當,既要保證足夠多的樣本來訓練模型,也要有充足的測試集來評估模型的性能,通常按照7∶3的比例劃分訓練集和測試集;(2)要保證訓練集中正、負樣本的平衡性。訓練集用來訓練分類器得到最優(yōu)的機器學習模型,而測試集則用作獨立數據來評估模型的分類性能,根據最優(yōu)模型來識別候選MCS切片是否為真實的MCS。如前所述,文中用4種常見的機器學習算法作為試驗的分類器,分別是RF、SVM、XGBoost和DNN,前3種算法都是基于Scikit-Learn庫實現,屬于傳統機器學習算法,對解決二分類問題有很好效果。DNN模型是基于Tensorflow框架搭建的全連接層神經網絡,該模型的可調控參數較多,優(yōu)化器和損失函數的選擇較為靈活,并且可以調用GPU加速模型的訓練速度,都極大提高了模型的潛力和應用空間。
表4 不同類別和年份的訓練集和測試集樣本數Table 4 Training and testing counts by classification and year
根據PJ00標準,從對流系統的結構規(guī)模來看,由對流單體或者對流簇形成的MCS及其伴隨的中尺度環(huán)流必須持續(xù)足夠長的時間。鑒于此準則,對雷達拼圖中的MCS進行追蹤,必須滿足如下條件:(1)尺度和強度要求的分塊必須在時間序列上進行時、空關聯;(2)該關聯必須至少持續(xù)3 h以上。追蹤的目的是在時間和空間上關聯機器學習模型識別出的MCS切片,以生成包含強度、空間和時間信息的MCS條帶數據集,并根據追蹤軌跡實現準線性MCS中TS、LS和PS三種模型的特征分類。
本試驗使用時空重疊追蹤法(Lakshmanan,et al,2009)進行MCS追蹤,該方法對兩個相鄰時次雷達拼圖在空間上相重疊的風暴進行匹配。對于2018和2019年5—9月的所有時間間隔為6 min的測試集雷達數據,根據DNN模型識別MCS的評估結果確定分類閾值為0.5,依此閾值來選擇當前時刻和下一時刻的MCS切片。匹配過程中將建立一個二維矩陣,“矩陣行”表示在現有追蹤軌跡內的一個當前時刻MCS切片,“矩陣列”表示下一時刻未經匹配的MCS切片。分別計算前、后2個時刻重疊的MCS切片的相似度,根據最小相似度進行匹配并確定追蹤的MCS回波軌跡。此處的相似度是指經過最大值歸一化后的兩個長度為14的樣本特征之間的歐幾里德距離。對于下一個時刻未匹配的MCS切片,則將其視為新追蹤軌跡的起始,并為其分配新的MCS序號用于后續(xù)的追蹤匹配。
如圖4所示,分別計算MCS切片N與S1、S2的歐幾里德距離,當前時刻切片N與下一時刻切片S1更相似,所以追蹤軌跡指向S1(圖中虛線箭頭所指方向)。切片S2則被標記為新的MCS并用于后面的追蹤,依此類推。顯然,對于前后2個時刻只有一個重疊的切片,則該算法就類似于簡單的重疊匹配;如果存在多個重疊切片,則選擇最為相似的切片與現有的追蹤軌跡相關聯。
圖4 追蹤過程示意 (N為當前時刻的MCS切片,S1和S2為下一時刻的2個MCS切片)Fig.4 Tracking process (N is a MCS slice at the current moment,S1 andS2 are the two MCS slices at the next moment)
根據準線性MCS的定義,首先用主觀判斷法從各MCS切片的雷達回波圖中選擇滿足定義的準線性MCS;再根據追蹤得到的MCS軌跡矢量,計算MCS正方向與軌跡矢量的夾角以及層狀云和強對流云在擬合橢圓長軸兩側的占比,從而建立準線性MCS的分類算法。
(1)MCS正方向定義
定義沿x軸的正方向為基準,根據MCS切片的最佳擬合橢圓長軸的斜率k來確定橢圓短軸的正方向。若k≥0,則以右下側短軸為正方向;若k<0,則以右上側短軸為正方向,如圖5所示。
圖5 MCS正方向的定義(a.k≥0,b.k<0;紅色箭頭為短軸的正方向)Fig.5 Definition of the positive direction of MCS(a.k≥0,b.k<0;red arrow is the positive direction of the minor axis)
(2)MCS分類特征計算
根據前述TS、LS和PS三種類型MCS的氣象學特征,在此定義3個特征來實現3類MCS的分類,分別為短軸正方向與軌跡矢量的夾角(θ)、長軸兩側層狀云區(qū)域面積比值(Rs)和長軸兩側強對流區(qū)域面積比值(RI)。RS和RI是正方向一側的面積與負方向一側的面積之比。軌跡矢量是當前MCS到下一時刻MCS的運動方向,在數學上,夾角的取值范圍[0,180°],此處為了區(qū)分正負方向的角度,當θ>90°時,將其轉換為θ?180°。此時,夾角(θ)的取值范圍[?90°,90°],其中[0,90°]表示MCS沿短軸正方向運動,[?90°,0]表示MCS沿短軸負方向運動。根據定義的上述特征對TS、LS和PS型MCS進行分類,如表5所示(表格中的thre是分類閾值,根據RI的計算結果及分類正確率,本試驗thre的取值為10)。
表5 TS、LS和PS型MCS的分類規(guī)則Table 5 MCS classification rules for TS, LS and PS
文中試驗屬于有監(jiān)督機器學習中的分類問題,所以用基于“觀測”與“預測”按類別分類后列出頻率表進行統計,通常將該表稱為混淆矩陣(Zheng,2015),如表6所示。表中TP表示實際樣本為MCS、模型預測也為MCS;FP表示實際樣本為non-MCS、但模型將其預測為MCS;FN表示實際樣本為MCS、但模型將其預測為non-MCS;TN表示實際為non-MCS、模型預測也為non-MCS。也就是說,TP和TN都是分類正確的度量值,而FP和FN都是分類錯誤的度量值。
表6 預測和實際標簽的混淆矩陣Table 6 Confusion matrix for predictions and actual labels
根據混淆矩陣的統計結果,計算命中率(probability of detection,POD)、虛 警 率(false alarm ratio,FAR)、臨界成功指數(critical success index,CSI)和準確率(accutacy,ACC)對結果進行綜合評估。各評分標準的計算公式如下
使用訓練好的SVM、RF、XGBoost和DNN四個模型分別對測試集樣本進行MCS識別,得到各個模型的混淆矩陣,如表7所示??梢园l(fā)現在測試集上,XGBoost模型對應的TP值最大,SVM模型對應的TP值最小,且二者相差較大,說明XGBoost模型對MCS類的識別效果最好,達到91.22%,而SVM模型對MCS類的識別效果最差,僅為88.10%。對于這一點,在FN上也得以很好的體現,在測試集的2732個MCS類樣本中,SVM模型將其中325個樣本預測為non-MCS,而XGBoost模型對應的該值為240。對于non-MCS類樣本的預測,DNN模型取得了最高的準確率,對測試集中non-MCS類的分類正確率達到了90.16%,SVM模型僅次之。
表7 SVM、RF、XGBoost和DNN模型在測試集上的混淆矩陣Table 7 Confusion matrix of the SVM,RF,XGBoost and DNN models on testing set
混淆矩陣僅僅展示了模型預測效果的頻率,為了更全面地對比這4個模型的分類性能,根據混淆矩陣計算它們各自的CSI、POD、FAR和ACC,如表8所示。DNN模型的CSI值最高,達到0.8034,這充分說明了DNN模型整體上對MCS類識別的性能優(yōu)于其他模型,再結合ACC,更體現出DNN模型的優(yōu)良性能。POD值反映了模型對正樣本MCS類的識別率,XGBoost模型的POD值最高,達到0.9112,與前面對混淆矩陣的分析是極度吻合。而FAR值的大小反映了模型將負樣本non-MCS類別識別為MCS類所占的比重,DNN模型的FAR值最小,說明其對non-MCS有很高的識別率。
表8 SVM、RF、XGBoost和DNN模型在測試集上的評分Table 8 Scores of the SVM,RF,XGBoost and DNN models on testing set
綜合來看,DNN模型對MCS的識別性能優(yōu)于其他3種機器學習模型,但該模型也存在一定缺點:對MCS類的識別正確率次于XGBoost和RF模型??紤]到后面的MCS軌跡追蹤,若模型將non-MCS類預測為MCS類的次數較多,則會導致軌跡追蹤出現一些屬于非MCS的部分,對追蹤結果正確性的影響會比較大;若模型將個別時刻雷達拼圖中的MCS識別為non-MCS,中斷的追蹤路徑可以重新再匹配進行連接,對整體的軌跡追蹤不會有太大影響。因此,后面將選擇使用DNN模型識別的MCS切片信息進行追蹤,進而生成MCS條帶數據。
本節(jié)主要選取2個具體的MCS個例來分析追蹤結果,分別發(fā)生在2019年5月17日09時24分—15時和2019年7月13日13時42分—22時54分。追蹤結果的分析以下面原則為切入點:(1)若未匹配的追蹤結果不連續(xù),則重點分析斷點處的雷達拼圖是否為MCS;(2)若未匹配的追蹤結果是連續(xù)的,則重點分析其軌跡起始處的雷達拼圖是否為MCS。據此,對MCS生命期內的追蹤結果進行主觀分析。
(1)2019年5月17日MCS個例
圖6顯示了2019年5月17日的MCS發(fā)展演變過程,組成該MCS每個時刻的MCS切片樣本由DNN模型識別,并且將分類閾值設置為0.5。當模型對樣本的預測值不小于0.5時,將該樣本對應的候選MCS切片進行追蹤合并。該MCS始于09時24分,此時對流云團基本處于北京北部,并一路向南移動,至13時06分結束,持續(xù)近4 h,主要影響北京、廊坊和天津等地。
圖6 2019年5月17日09時18分—15時MCS追蹤軌跡Fig.6 Tracking path of MCS during 09:18—15:00 UTC 17 May 2019
該時段的MCS軌跡是不連續(xù)的(最下面有兩條斷開的軌跡)。查看實際雷達拼圖數據發(fā)現,13時06—56分的雷達拼圖數據缺失,但13時56分—14時30分的雷達數據正常,原始數據如圖7所示,分割后的MCS切片如圖8所示,并且DNN模型將其識別為MCS,生成的追蹤數據也對該時段的MCS進行了關聯。
圖7 2019年5月17日13時56分—14時30分原始雷達拼圖數據(a—f,時間間隔:6 min)Fig.7 Original radar mosaic data at 13:56—14:30 UTC 17 May 2019(a—f,interval:6 min)
圖8 2019年5月17日13時56分—14時30分的MCS切片(a—f,間隔: 6 min)Fig.8 Display of MCS slices during 13:56—14:30 UTC 17 May 2019(a—f,interval:6 min)
試驗結果表明,如果深度學習模型預測候選MCS樣本的值未達到0.5,則會造成MCS的不連續(xù),同時,某時段雷達拼圖數據的缺失也會導致MCS的軌跡追蹤中斷,在這兩種情況下時、空匹配過程將無法創(chuàng)建連續(xù)的MCS條帶。盡管使用較高概率閾值的目的是減少non-MCS事件的錯誤識別,但實際情況表明,此方法也可能會刪除或截斷合理的MCS區(qū)域。由于匹配過程僅檢查當前時刻和下一個6 min時刻的MCS切片匹配,因此,如果模型對某一個雷達拼圖中的MCS切片的預測值未超過分類閾值,則追蹤結束。
解決該問題的一種方法是重新分析追蹤數據庫來連接以前未連接的軌跡,也就是嘗試將包含至少2個切片的條帶末端(持續(xù)時間為12 min)連接到具有至少2個切片的條帶開始端。要找到合適的匹配項,規(guī)定必須滿足以下條件:(1)匹配的候選MCS條帶的開始時間距上一個MCS條帶的結束時間不超過60 min;(2)匹配的候選MCS條帶的第一個切片與前一個條帶的最后一個切片必須重疊或者相距100 km之內。圖9是一個經過匹配的追蹤軌跡,此時MCS的起止時間分別為09時24分和14時30分,很明顯該MCS條帶較未匹配前在結尾處有延伸(圖9紅色虛線標注區(qū)域),整個軌跡是連續(xù)的(與圖6對比)。
圖9 2019年5月17日09時18分—15時MCS追蹤路徑 (已匹配)Fig.9 Tracking path of MCS during 09:18—15:00 UTC 17 May 2019 (rematched)
(2)2019年7月13日MCS個例
圖10顯示了2019年7月13日的一個MCS過程,雷達觀測該MCS大約始于13時42分,并一路向東南方向移動,途徑北京、天津及河北東部,并經渤海灣進入山東省境內,至22時54分逐漸減弱消退,持續(xù)超過9 h。
圖10 2019年7月13日13時42分—22時54分MCS追蹤路徑Fig.10 Tracking path of MCS during 13:42—22:54 UTC 13 July 2019
對DNN模型識別的MCS切片進行重新分析匹配,追蹤軌跡如圖11所示。顯然,該MCS的軌跡較未匹配前有所延長(紅色虛線標注區(qū)域),延長區(qū)域主要分布在河北省北部,并靠近北京市北部。這是由于DNN模型將某時刻MCS分類為non-MCS導致的中斷,匹配后對其重新建立了連接。
圖11 2019年7月13日13時42分—22時54分MCS追蹤路徑 (已匹配)Fig.11 Tracking path of MCS during 13:42—22:54 UTC 13 July 2019 (rematched)
對上述MCS個例軌跡追蹤中18時42分—19時11分的雷達數據(圖12)和其所對應的MCS切片(圖13)進行分析發(fā)現,雷達拼圖分割時通常會得到一個候選MCS切片,但對于雷達回波結構和形態(tài)較為復雜的區(qū)域性對流天氣過程,可能會出現2個(圖13b—e,分割得到2個候選MCS切片)、有時甚至更多個候選切片。當子圖中出現多個MCS切片時,表示在該區(qū)域的同一時段出現了多個MCS,進行追蹤時會得到2條不同的軌跡路徑。本試驗的追蹤結果只有1條,是因為發(fā)生在山東省北部的MCS切片雖然滿足MCS的客觀定義,但DNN模型將其識別為non-MCS,與雷達觀測實際分析完全一致,圖13b—e右下角的MCS切片回波特征只持續(xù)了24 min左右,無法形成真正的MCS。
圖12 2019年7月13日18時41分—19時11分 (a—f,間隔:6 min) 的原始雷達拼圖數據Fig.12 Original radar mosaic data during 18:41—19:11 UTC 13 July 2019 (a—f,interval:6 min)
圖13 2019年7月13日18時41分—19時11分 (a—f,間隔:6 min) 的MCS切片展示(b—e子圖中有2個MCS切片)Fig.13 Display of MCS slices during 18:41—19:11 UTC 13 July 2019 (a—f,interval:6 min)(there are two MCS slices in the b—e panels)
根據3.5節(jié)的分類算法,對2018和2019年5—9月測試集數據的準線性MCS進行分類,可分為TS、LS和PS三類(表9)。統計結果顯示,京津冀地區(qū)TS型在這3類準線性MCS中占據主體(71%左右)。Parker等(2000)的研究也表明,美國中緯度地區(qū)的準線性MCS以TS型為主。
表9 2018和2019年MCS切片中TS、LS和PS型的個數統計Table 9 Numbers of TS,LS and PS in MCS slices in 2018 and 2019
為了分析試驗結果,此處選擇了3個時段的RS、RI和θ的計算值,分別與LS、TS和PS這3類準線性MCS對應,如表10所示。
(1)LS型:2019年5月17日12時41分—13時05分的MCS切片屬于LS型。根據表5的分類算法,LS的類別由RI和θ決定。表10顯示該MCS個例的RI值均小于0.1,且夾角θ值為正,與表5定義一致;結合MCS切片(圖14,2019年5月17日12時41、47、53分和13時05分4個時刻的MCS切片),4個MCS切片整體向南移動,根據其對流和強對流區(qū)域的分布,判定為LS型。
圖14 2019年5月17日的LS型MCS雷達回波(a.12時41分,b.12時47分,c.12時53分,d.13時05分)Fig.14 Classified LS MCS radar reflectivity on 17 May 2019(a.12:41 UTC,b.12:47 UTC,c.12:53 UTC,d.13:05 UTC)
續(xù)圖14Fig.14 Continued
(2)TS型:2019年7月13日14時17分—15時59分的MCS切片屬于TS型。表10顯示該MCS個例的RI值均大于10,且夾角θ值為正,與表5對TS型的定義一致;結合MCS切片(圖15,2019年7月13日14時17、47分、15時17和47分4個時刻MCS切片),4個MCS切片整體向南移動,根據其對流和強對流區(qū)域的分布,判定為TS型。
圖15 2019年7月13日TS型MCS雷達回波 (a.14時17分,b.14時47分,c.15時17分,d.15時47分)Fig.15 Classified TS MCS radar reflectivity on 13 July 2019 (a.14:17 UTC,b.14:47 UTC,c.15:17 UTC,d.15:47 UTC)
(3)PS型:2019年7月25日05時47分—07時05分的MCS切片屬于PS型。根據表5的分類算法,LS型由RS和RI決定。表10中該MCS個例的RS值均接近1,且RI值在[0.1,10];結合MCS切片(圖16,2019年7月25日05時47分、06時11、41分和07時05分4個時刻的MCS切片),發(fā)現與對流線相關的大部分層狀云降水區(qū)域平行于該對流線,符合PS型特征。
圖16 2019年7月25日PS型MCS雷達回波 (a.05時47分,b.06時11分,c.06時41分,d .07時05分)Fig.16 Classified PS MCS radar reflectivity on 25 July 2019 (a.05:47 UTC,b.06:11 UTC,c.06:41 UTC,d.07:05 UTC)
表10 分類出的LS、TS和PS型準線性MCS所對應的RS、RI和θ的計算值(比值的分母為0時用?9999.000表示計算值;此處只選擇了3個時間段)Table 10 Calculated values ofRS,RI andθ,which correspond to the classified LS,TS and PS of Quasi-linear MCSs(?9999.000 is used to represent their values when the denominator ofRS andRI is 0,only three time periods are selected here)
綜合以上分析發(fā)現,表5提出的TS、LS和PS分類算法取得了良好結果,證明該分類算法的合理性與可行性,為準線性MCS的自動客觀分類提供了一種新的方法,可在強對流天氣特別是強降水時、空特征的預報中得到應用。
選取2010—2019年共10 a夏季的京津冀地區(qū)雷達拼圖數據,基于機器學習開展了MCS的自動識別、追蹤及分類試驗研究。(1)對原始雷達拼圖數據進行預處理以保證試驗數據的有效性,根據PJ00標準按照特定的分割參數對原始雷達數據進行分割得到候選MCS切片,并從每個切片中抽取14個MCS特征值構建MCS特征識別數據集。(2)使用深度學習方法建立了一個二分類DNN模型,將預測結果與其他3種傳統機器學習算法(RF、SVM和XGBoost)的結果進行對比。試驗結果表明,DNN模型識別MCS的性能優(yōu)于其他3種算法,能夠有效判別MCS和non-MCS。并且,DNN模型將non-MCS識別為MCS的頻率是最低的,有利于后續(xù)的MCS追蹤。(3)將DNN模型識別的MCS切片用于MCS追蹤,使用改進的時空重疊追蹤法完成2018和2019年京津冀地區(qū)的MCS追蹤,得到包含強度、空間和時間信息的MCS條帶數據集。(4)根據追蹤得到的MCS軌跡矢量計算MCS切片的運動方向,并求得MCS切片擬合橢圓長軸兩側的層狀云和強對流云區(qū)域的面積占比,實現了TS、LS和PS三類準線性MCS的自動分類,對提升MCS致災天氣的預報、預警具有重要意義。
MCS回波結構復雜,對其進行有效識別在氣象領域是一件較為復雜的工作。文中使用深度學習算法建立了自動識別MCS的方法,對MCS的研究具有重要意義。本研究還存在一些不足,如用搜索半徑96 km來限定MCS切片的層狀云區(qū)域,在以后工作中還需要繼續(xù)改進;對MCS分塊進行人工特征抽取,沒有發(fā)揮卷積神經網絡(Convolutional Neural Networks,CNN)自動抽取圖像特征的優(yōu)勢;并且,對準線性MCS的分類也是基于人工抽取特征再進行映射而實現。因此,在未來的研究中,可以從以下兩方面做深入探索:(1)CNN可以自動從輸入數據中抽取到復雜的內在紋理特征,能夠更加精確地捕捉到MCS分塊中各個強度區(qū)域之間的空間聯系,進行更高效地識別MCS??梢钥紤]使用CNN模型實現MCS切片的自動識別,但首先得解決CNN網絡如何訓練大小不同的MCS切片數據,或者解決如何將MCS切片數據的大小進行統一處理。(2)利用深度學習實現準線性MCS或者準線性對流系統(QLCS)中的TS、LS和PS型的特征分類(Parker,et al,2000)或實現MCS中強降水特征的分類識別(Schumacher,et al,2005,2020)。
致 謝:文中使用的機器學習算法源自Scikit-Learn開源庫(代碼地址:https://github.com/scikit-learn/scikit-learn.git)以及Google公司的TensorFlow平臺(https://github.com/tensorflow/tensorflow.git),謹此致謝。