楊 璐 南剛強 陳明軒 宋林燁 劉瑞婷 程叢蘭 曹偉華
北京城市氣象研究院,北京,100089
降水是地球水循環(huán)和能量循環(huán)的關鍵環(huán)節(jié)之一(Zhang,2005),冬季降水相態(tài)主要包括雨、雪、雨夾雪、冰粒、凍雨等(蔡雪薇等,2013),不同相態(tài)的降水對陸地表面物質(zhì)和能量循環(huán)的影響巨大(Wu,et al,2009),相同的降水量不同的相態(tài)所產(chǎn)生的影響存在顯著差異(孫燕等,2014; 王春乙等,2005)。
隨著近年來北京城市化進程的不斷加快,大城市面對極端氣象災害的脆弱性也日益凸顯,冬季降雪、凍雨甚至雨夾雪天氣會給城市交通、電力通信及人民生產(chǎn)、生活帶來巨大危害。即使是很弱的降雪過程,如果降水相態(tài)預報失敗或漏報,也會給城市運行帶來嚴重的不利影響(孫繼松等,2003),另外,2022年第24屆冬季奧林匹克運動會將在北京和張家口舉辦,冬奧會對氣象條件要求嚴苛,尤其是精細化的溫度、濕度及降水相態(tài)預報服務等,將是冬奧會氣象服務保障的重點(Chen,et al,2018)。因此,做好冬季降水相態(tài)及其轉變時間的精細化預報,研究京津冀地區(qū)冬季降水相態(tài)預報方法,并開發(fā)適用于京津冀地區(qū)的降水相態(tài)高精度格點分類客觀預報算法,對提升現(xiàn)代氣象預報服務質(zhì)量、保障國家重大活動、防災減災等具有重要現(xiàn)實意義。
降水相態(tài)的形成機制包含大氣垂直熱力學和微物理過程兩個方面。一方面,到達地表的降水類型很大程度上取決于大氣的垂直溫度,而大氣的垂直溫度通常由高空的暖層和下面的再凍結層組成。大氣垂直溫度一個微小的變化都會導致地表附近降水類型的變化(Sankaré,et al,2016)。而區(qū)分降水類型轉化區(qū)的一個重要的熱力信息即融化層(Tw>0℃)相對于地面高度的位置(Stewart,et al,2015)。另一方面,造成降水相態(tài)不同的關鍵在于云中的成雪機制以及雪花下落過程中發(fā)生的變化,粒子在降落的過程中涉及到擴散生長、增生、聚集、融化、再凍結等許多復雜的物理過程(Thériault,et al,2010)。
國際上利用數(shù)值模式開展了許多針對降水相態(tài)精細化預報的后處理算法,為降水相態(tài)的分類預報提供了豐富的科學依據(jù),如一些學者(Bourgouin,2000;Shafer,2010,2015)通過提取模式輸出產(chǎn)品溫度和濕度廓線中的特征量,利用算法、決策樹或統(tǒng)計學的方法建立特征量與降水相態(tài)的關系,實現(xiàn)雨、雪、凍雨、冰粒的區(qū)分。還有一些學者(Ramer,1993; Schuur,et al,2012; Elmore,et al,2015)通過計算或推導下落水成物中的液態(tài)水含量,實現(xiàn)雨、雪、凍雨、冰粒的區(qū)分。另外,一些學者(Thompson,et al,2004,2008;Ikeda,et al,2013)通過改進模式中的微物理方案,利用混合相云微物理方案預測的水成物信息,如云水、雨水、冰晶、雪、霰和水汽含量等計算出的混合比預報物理量作為診斷量區(qū)分降水相態(tài)。
中國學者從不同方面開展了大量研究工作,主要包括降雪氣候分布及其變化趨勢的相關研究(段長春等,2011;劉玉蓮等,2012),不同地區(qū)和臺站雨雪轉換的經(jīng)驗溫度閾值的研究(李江波等,2009; 尤鳳春等,2013; 董全等,2013; 楊成芳等,2015)。如漆梁波等(2012)通過對中國東部冬季降水相態(tài)的研究,認為溫度平均廓線對雨和雪的區(qū)分較好,雪和雨夾雪在低層的大氣冷暖狀態(tài)較相似。張琳娜等(2013)在建立北京地區(qū)冬季降水相態(tài)識別指標時,除了將不同高度層上的溫度和位勢厚度作為判據(jù),還加入了地面 2 m 氣溫和相對濕度,為模式制作客觀預報產(chǎn)品提供了參考依據(jù)。崔錦等(2014)利用數(shù)值模式的云微物理量輸出產(chǎn)品,對東北地區(qū)的冬季降水相態(tài)進行了預報試驗。董全等(2013)選取降水發(fā)生時和發(fā)生前6 h的地面2 m氣溫、露點溫度作為預報因子,對相同條件下線性回歸法和人工神經(jīng)網(wǎng)絡法對降水相態(tài)的預報效果進行了對比檢驗。陳雙等(2019)基于2001—2003年地面觀測和探空資料,對地面氣溫位于0—2℃中國降雪的時、空分布及其與降雨的垂直熱力特征進行了研究,引入了決策樹判別方法對上述條件下雪和雨進行了判別分析。這些研究結果表明:溫度和濕球溫度的垂直廓線、地面2 m氣溫、露點溫度、相對濕度,數(shù)值模式的云微物理量輸出產(chǎn)品等對于地面降水相態(tài)的客觀診斷具有很好的指示意義。
對于京津冀地區(qū)降水相態(tài)的高分辨率格點客觀分類預報模型,Yang等(2021)(以下簡稱Y20)基于中國氣象局北京快速更新循環(huán)數(shù)值預報系統(tǒng)(CMA-BJ)(原華北區(qū)域快速更新循環(huán)數(shù)值預報系統(tǒng),RMAPS-ST)預報的雪、雨、冰、霰降水混合比及粒子降落末速度結合快速更新多尺度分析和預報系統(tǒng)集成子系統(tǒng)(RMAPS-IN)分析和預報的高分辨率濕球溫度廓線、雪線高度等聯(lián)合地面觀測訂正,開展了降水相態(tài)診斷變量最優(yōu)閾值的研究分析,構建了降水相態(tài)綜合診斷算法,可提供覆蓋京津冀全域、空間分辨率1 km、時間分辨率10 min的雪線高度及降水相態(tài)的高分辨率診斷分析及0—12 h預報。客觀檢驗結果表明該算法能夠較好地診斷冬季降水類型,尤其是雨和雪,準確率均超過90%,雨夾雪的準確率相對較低(41%)。
實際的預報和研究中,預測降水類型的難度主要在于雨雪過渡區(qū)。而雨雪相態(tài)轉換階段,850和925 hPa溫度對于雨、雪、雨夾雪的識別沒有明顯指示性(楊成芳等,2015),地面氣溫往往在0℃附近,有時甚至還會出現(xiàn)地面氣溫在0℃以上卻發(fā)生降雪的情況(董全等,2013)。另外,京津冀地區(qū)地形復雜,地形的特征差異對地面的輻射加熱、地形抬升等的影響會進一步造成不同海拔高度下雨雪相態(tài)轉變規(guī)律及閾值的細微差異(Rajagopal,et al,2016)。模式熱力學和微物理輸出信息的不確定以及由網(wǎng)格插值引起的診斷類型和觀測類型的空間偏移是Y20診斷算法中降水類型誤診的重要原因之一,另外,診斷算法中京津冀范圍內(nèi)選取和使用同一閾值也會給降水類型的診斷帶來一定的誤差。
為進一步提高冬季降水相態(tài)客觀預報的準確率,將在Y20基礎上,充分利用RMAPS-IN系統(tǒng)生成的高分辨率溫度、相對濕度、濕球溫度及雨、雪混合比等網(wǎng)格化快速更新精細集成產(chǎn)品(Haiden,et al,2011),結合自動氣象站觀測資料,進一步通過機器學習方法構建、測試和優(yōu)化京津冀地區(qū)降水相態(tài)客觀預報算法。
文中首先利用京津冀地區(qū)國家級氣象站觀測資料及網(wǎng)格化快速更新精細集成產(chǎn)品,統(tǒng)計分析了京津冀地區(qū)復雜地形下各類降水相態(tài)溫度和濕球溫度平均氣候概率的分布差異、不同降水相態(tài)時RMAPS-IN提供的網(wǎng)格化快速更新精細集成產(chǎn)品中7個可能影響降水相態(tài)判斷的特征信息,包括地面2 m氣溫、露點溫度、相對濕度、雪線高度、近地面大氣層中凍結部分降水混合比在可凝結成降水的水汽混合比中的比例以及氣溫和濕球溫度三維氣象要素客觀分析場等。然后將地面觀測天氣現(xiàn)象資料、復雜地形下降水相態(tài)氣候特征及高分辨率模式輸出產(chǎn)品作為特征向量,分別基于梯度提升(XGBoost)、支持向量機(SVM)、深度神經(jīng)網(wǎng)絡(DNN)3種機器學習方法建立降水相態(tài)的客觀分類模型,并對同樣條件下3種機器學習方法對雨、雨夾雪和雪3種京津冀主要降水相態(tài)的預報效果進行對比檢驗。
觀測數(shù)據(jù)包括2部分:(1)2016年1月—2019年4月冬季15個降水日京津冀地區(qū)174個國家級自動氣象站天氣現(xiàn)象資料,此數(shù)據(jù)分別用于對RMAPS-IN網(wǎng)格化快速更新精細集成產(chǎn)品降水相態(tài)分類模型樣本的篩選及客觀檢驗。這部分的天氣現(xiàn)象觀測資料采樣處理為10 min時間間隔,即原始觀測的天氣現(xiàn)象數(shù)據(jù)集是根據(jù)人工判斷的每一個降水日的雪、雨、雨夾雪具體起止時間進行記錄,如A站記錄的降雪時間為08時(北京時,下同)—09時10分,B站記錄的降雨時間是08時—09時10分,那么在進行采樣處理時,從08時到09時10分的每10 min,如08時—08時10分、08時10分—08時20分,······,09時—09時10分,A站的降水類型記錄為雪,B站記錄為雨。(2)1955年11月至2019年4月京津冀地區(qū)174個國家級觀測站的日天氣現(xiàn)象及其對應的地面氣溫、氣壓、相對濕度觀測數(shù)據(jù)(其中1955—2003年為02、08、14、20時4個時次,2004—2019年為逐時)。雖然選取的站點數(shù)據(jù)已經(jīng)經(jīng)過質(zhì)量控制,但由于天氣現(xiàn)象為人工判斷和記錄,且天氣現(xiàn)象為日數(shù)據(jù),所以文中根據(jù)以往關于降水相態(tài)的研究(許美玲等,2015),對篩選出的數(shù)據(jù)做了進一步的質(zhì)量控制。京津冀地區(qū)國家級站點分布如圖1所示。
圖1 京津冀地區(qū)174個國家級氣象站分布 (紅色雪花表示海拔高度在1000—1500 m的站點;黑色圓點表示海拔高度在400—1000 m的站點,藍色三角表示海拔高度在400 m以下的站點,色階為海撥高度)Fig.1 Locations of 174 stations in Beijing-Tianjin-Hebei region(red asterisk indicates the altitude is 1000-1500 m,black circles indicate the altitude is 400-1000 m,and blue triangles indicate the altitude is 0-400 m; color shadings show terrain height,shaded:altitude)
文中用到的模式數(shù)據(jù)為2016年1月—2019年4月冬季15個降水日RMAPS-IN提供的網(wǎng)格化快速更新精細集成產(chǎn)品,RMAPS-IN系統(tǒng)(楊璐等,2019;程叢蘭等,2019;宋林燁等,2019)利用最新的自動氣象站和雷達、下墊面地形地表信息等其他觀測資料進行精細化融合分析后,結合線性外推技術和數(shù)值預報結果提供一個更接近真實大氣的0—12 h短時天氣預報,水平方向上分辨率為1 km,垂直方向上分辨率為200 m,共21層,時間分辨率為10 min,建模中使用的分析場數(shù)據(jù)包括地面2 m氣溫(T2m)、露點溫度(Td)、濕球溫度(Tw)、相對濕度(RH)、雪線高度(Zs)、雪混合比占雨和雪混合比的比例(Snf),以及氣溫和濕球溫度三維氣象要素;預報場數(shù)據(jù)包括T2m、Td、Tw、RH、Zs及Snf。
其中,雪線高度Zs定義為雪開始融化(Tw=0℃)時對應的高度?;赗MAPS-IN系統(tǒng)不同氣壓層上的高分辨率溫度和比濕數(shù)據(jù),用二分算法(李金霞等,2012)反復迭代,自上向下計算各層的濕球溫度。當某層濕球溫度首次出現(xiàn)大于臨界值0℃時,用該層和上一層線性插值得到的高度來計算雪線高度。若計算得到的雪線高度低于最低地形高度時則設為0,計算出的雪線高度為海拔高度,所以若想得到融化層相對于地面高度的位置,需要用計算出的雪線高度Zs減去地面高度。
基于Thompson混合相云微物理方案的高分辨率數(shù)值模式對近地面大氣層中混合比的預報結果,將模式預報的雪、雨、冰、霰降水混合比通過三維插值到1 km分辨率網(wǎng)格點上,計算得到Snf,Snf的取值范圍為0—1。
以上采集到的觀測數(shù)據(jù)和模式數(shù)據(jù),都將作為特征向量,用于3種機器學習方法對京津冀地區(qū)降水相態(tài)客觀預報算法的構建和測試。
2.2.1 不同降水相態(tài)的空間分布特征
基于1955—2019年京津冀地區(qū)174個國家級氣象站逐日天氣現(xiàn)象數(shù)據(jù),統(tǒng)計了雨、雨夾雪及雪的空間分布,1955—2003年天氣現(xiàn)象觀測資料采樣處理為對應的02、08、14、20時4個時次,即對應時次有天氣現(xiàn)象時,記錄1次;2004—2019年天氣現(xiàn)象觀測資料采樣處理為逐時數(shù)據(jù),即每個時次對應有天氣現(xiàn)象時,記錄1次。從京津冀地區(qū)國家級氣象站雨、雨夾雪及雪的空間分布(圖2)可以看出,京津冀地區(qū)雪的出現(xiàn)次數(shù)遠多于雨和雨夾雪,雨夾雪的出現(xiàn)次數(shù)最少。其中,北京地區(qū)雨和雨夾雪的出現(xiàn)次數(shù)較河北地區(qū)少,最多降雨次數(shù)主要出現(xiàn)在河北的南部及東北部平原地區(qū);海拔高度大于400 m的山區(qū)站,雨夾雪和雪的出現(xiàn)次數(shù)高于海拔高度400 m以下的平原站,張北(位于河北北部,海拔1393 m)雨夾雪和雪的次數(shù)位居京津冀首位,說明不同海拔高度下各類降水相態(tài)平均氣候概率分布不同,地形對于京津冀地區(qū)降水的多少也有一定的影響。
圖2 1955—2019年京津冀地區(qū)雨 (a)、雨夾雪 (b)、雪 (c) 3種降水相態(tài)次數(shù)空間分布Fig.2 Spatial distributions of precipitation type frequencies of rain (a),sleet (b) and snow (c) in Beijing-Tianjin-Hebei region from 1955 to 2019
2.2.2 不同降水相態(tài)濕球溫度的空間分布特征
降水相態(tài)的判別緊緊依賴于相對濕度、海拔高度及氣溫(Ding,et al,2014),而濕球溫度包含了氣溫、相對濕度、氣壓信息。在Y20的基礎上,進一步利用各氣象站的本站氣壓、相對濕度、氣溫數(shù)據(jù)分別計算了各站對應時次的濕球溫度(Ding,et al,2014),重點關注地面濕球溫度為0—1℃各類型降水相態(tài)的空間分布特征,統(tǒng)計臨界濕球溫度條件下與降水相態(tài)的關系,并將復雜地形下降水相態(tài)的氣候特征作為特征向量用于3種機器學習方法對京津冀地區(qū)降水相態(tài)客觀預報算法的構建和測試。
圖3、4、5分別給出了雨、雨夾雪和雪各降水相態(tài)Tw<0℃、0≤Tw<1.0℃和Tw≥1℃三個區(qū)間的概率分布情況。從圖3可以看出,Tw<0℃的條件下,京津冀地區(qū)除河北東北部個別站外,其他站雪出現(xiàn)的概率基本都在0.9以上,雨夾雪和雨的概率都在0.1以下,可以區(qū)分出90%以上的雨和雪。0≤Tw<1.0℃的條件下,雪出現(xiàn)的概率開始降低(0.5—0.7),但還是高于雨和雨夾雪的出現(xiàn)概率(0.1—0.5),海拔400 m以下的站,雨出現(xiàn)的概率相對較高(0.2—0.4),海拔400 m以上的山區(qū)站,雨夾雪出現(xiàn)的概率高于雨出現(xiàn)的概率。Tw≥1℃條件下,除河北北部海拔高于1000 m的幾個站及河北南部個別站外,雨出現(xiàn)的概率基本都在0.9以上。
圖3 雨 (a)、雨夾雪 (b)、雪 (c) 3種降水相態(tài)在Tw<0℃時的概率空間分布Fig.3 Probability spatial distributions of rain (a),sleet (b) and snow (c) atTw<0℃
文中利用2016年1月—2019年4月冬季15個降水日京津冀地區(qū)174個國家級自動氣象站采樣處理好的逐10 min天氣現(xiàn)象資料,提取各站周圍對應的RMAPS-IN系統(tǒng)8個網(wǎng)格點上相應的分析場和1—12 h預報場資料。
溫度垂直分布是降水相態(tài)的主要決定因素,本研究從京津冀地區(qū)RMAPS-IN高分辨率氣溫和濕球溫度三維客觀分析場樣本中隨機抽取雨、雨夾雪和雪各30組樣本,分別繪制并分析了3種降水相態(tài)對應的氣溫和濕球溫度隨高度的變化。圖6給出了不同降水相態(tài)對應的濕球溫度隨高度的變化。
圖4 雨 (a)、雨夾雪 (b)、雪 (c) 3種降水相態(tài)在0≤Tw<1.0℃的概率空間分布Fig.4 Probability spatial distributions of rain (a),sleet (b) and snow (c) at 0≤Tw<1.0℃
圖5 雨 (a)、雨夾雪 (b)、雪 (c) 3種降水相態(tài)在Tw ≥1℃的概率空間分布Fig.5 Probability spatial distributions of rain (a),sleet (b) and snow (c) atTw≥1℃
從圖6可以看出,不同降水相態(tài)濕球溫度的三維廓線分布特征不同。雨的30組樣本,基于地面高度的0 m濕球溫度都在0℃以上,濕球溫度在低層高于0℃的面積明顯大于雨夾雪,開始融化的高度較雨夾雪和雪高很多,暖層厚度相比雨夾雪更深厚,基本在離地250 m以上,低層溫度的垂直遞減率較大。雨夾雪的30組樣本,0—500 m高度,大部分廓線有弱的逆溫層,0 m濕球溫度分布在?1—2℃,近地層都存在一個暖層,暖層相比雨較淺薄,分布在0—100 m。雪的30組樣本中大多樣本整層濕球溫度都在0℃以下,有極少數(shù)的廓線樣本近地層濕球溫度高于0℃,有非常淺薄的暖層。從三者濕球溫度的垂直分布來看,濕球溫度差異比較明顯的區(qū)域主要位于500 m以下,尤其是近地面層,500 m以上3種不同降水相態(tài)濕球溫度基本都是冷凍層。
圖6 京津冀地區(qū)雨 (a)、雨夾雪 (b) 和雪 (c) 對應的濕球溫度隨高度的變化Fig.6 Vertical profiles of wet bulb temperature corresponding to rain (a),sleet (b) and snow (c) in Beijing-Tianjin-Hebei region
圖7是京津冀地區(qū)3種降水相態(tài)對應的T2m、Td、RH、雪線高度和地面高度(Z)的差值(Zs?Z)以及Snf總樣本的箱線圖。方框中間的橫線為中值(樣本覆蓋率達到50%的值),方框的上邊界和下邊界分別為25%和75%分位,上須和下須分別為樣本中的最大值和最小值。
圖7 京津冀地區(qū)3種降水相態(tài)對應的T2m (a)、Td (b)、RH (c)、Zs?Z (d) 和Snf (e)箱線圖Fig.7 Boxplots ofT2m (a),Td (b), RH (c),Zs?Z (d) and Snf (e) corresponding to three precipitation types in Beijing-Tianjin-Hebei region
從圖7可以看出,雨、雨夾雪和雪2 m氣溫中位數(shù)分別為2.04℃、1.59℃、?0.09℃,25%—75%分位的范圍只有雨夾雪與雨有小范圍的交叉,雪的75%分位在0.61℃以下,雨的25%分位在1.66℃以上,雨夾雪25%—75%分位在1.2—1.86℃。2 m露點溫度雪的75%分位在?0.27℃以下,雨的25%分位在0.37℃以上,雨夾雪25%—75%分位在?0.11—0.63℃。從相對濕度來看,雪、雨夾雪和雨的中位數(shù)比較接近,3種相態(tài)的分布交叉范圍較大。Zs?Z表示從開始融化到地面的高度,不同相態(tài)Zs?Z的分布特征比較明顯,雨、雨夾雪和雪的中位數(shù)分別為279 m、146 m、?45 m,25%—75%分位的范圍只有雨夾雪和雨有小范圍交叉,雪的25%—75%分位在?461—?12 m,雨夾雪的25%—75%分位在5—276 m,雨的25%—75%分位在213—424 m。Snf雨和雪的特征比較明顯,雪和雨的中位數(shù)分別為1和0,降水相態(tài)為雪時,Snf的值主要集中在0.9—1,降水相態(tài)為雨時,Snf的值主要集中在0—0.25,雨夾雪分布在0—1。
XGBboost(Chen,et al,2016)是基于梯度提升框架的一種高度可擴展的樹結構增強模型,對稀疏數(shù)據(jù)的處理能力卓越,算法原理是將原始數(shù)據(jù)集分割成多個子數(shù)據(jù)集,將每個子數(shù)據(jù)集隨機分配給基分類器進行預測,然后將弱分類的結果按照一定的權重進行計算,它由模型、參數(shù)和目標函數(shù)組成。其中,模型是根據(jù)給定的輸入樣本因子去預測輸出的結果,參數(shù)是指最終建立的最優(yōu)模型對應的系數(shù),而目標函數(shù)的優(yōu)化情況則決定了模型的準確性,目標函數(shù)優(yōu)化的越好,預測結果就越接近真實值。目標函數(shù) Obj(θ)由兩部分組成,如式(1)所示
文中選擇CART回歸樹作為模型的基函數(shù),單個CART第m次預測的結果可以表示為式(2)
式中,T為決策樹,m代表基分類器的數(shù)量,θ代表決策樹的劃分路徑,每棵決策樹一個一個往里面加,最后預測結果為前一次的預測結果加上當下的。誤差項可以表示為
支持向量機(Support Vector Machine,SVM)由 Cortes等(1995)提出,是一種建立在統(tǒng)計學習理論和結構風險最小化原理基礎上的小樣本學習方法。它最初是為二值分類問題設計的,當處理多類問題時,就需要構造合適的多類分類器。文中采用libsvm中的一對一法,其做法是在任意兩類樣本之間設計一個SVM,因此k個類別的樣本就需要設計k(k?1)/2個SVM。當對一個未知樣本進行分類時,最后得票最多的類別即為該未知樣本的類別。
DNN(Deep Neural Networks)是深度學習中較為常見的也是最為基本的網(wǎng)絡結構,由輸入層、隱藏層、輸出層組成。輸入層是經(jīng)過預處理的輸入數(shù)據(jù),緊接著是隱藏層,隱藏層可以是一層,也可以多層級聯(lián)。網(wǎng)絡的最后一層是輸出層,輸出層則是需要針對不同的預測目標來設計其節(jié)點數(shù),例如是手寫體數(shù)字識別則屬于十分類任務,可以輸出10個結點代表十分類的概率分布。DNN的訓練可以分為兩個過程,輸入信息的前向傳播和基于誤差的反向傳播。試驗中所用深度神經(jīng)網(wǎng)絡結構是一個4層的全連接神經(jīng)網(wǎng)絡,包含兩個隱藏層,輸入層節(jié)點數(shù)為訓練樣本的特征數(shù),訓練樣本從輸入層傳入到整個神經(jīng)網(wǎng)絡,輸出層含有3個節(jié)點,對應3分類。設Wij為連接節(jié)點i與j的權值,bj則是節(jié)點j對應的偏置,aj為節(jié)點最終的激活值,σ代表激活函數(shù),通常選用Relu函數(shù)或者是sigmoid函數(shù)。正向傳播的公式如下
誤差的反向傳播通常采用經(jīng)典的BP算法(Rumelhart,et al,1986),通過計算損失函數(shù),使用梯度下降法來不斷的調(diào)整網(wǎng)絡中的權值以減少輸出結果的誤差,例如d是期望輸出,y是網(wǎng)絡輸出,損失函數(shù)的定義可以是平方差損失
整個訓練以梯度下降法(Gradient Descent Optimizer)作為優(yōu)化器、以交叉熵作為損失函數(shù)進行網(wǎng)絡的優(yōu)化,使用帶指數(shù)衰減的學習率設置、L2正則化來避免過度擬合,并使用滑動平均模型來使得最終得到的模型具有更強的魯棒性。
使用2016—2019年1月—次年3月的高分辨率模式產(chǎn)品和同期的國家級自動氣象站觀測資料,將分析場(t=0 h)按近似7∶3的比例隨機劃分為訓練集和測試集;同樣將預報場(t=1—12 h)樣本按近似7∶3的比例隨機劃分為訓練集和測試集,分別基于分析場和預報場70%的樣本建立降水相態(tài)模型,并利用剩余的30%的樣本開展獨立檢驗。分析場和預報場總樣本數(shù)如表1所示。
表1 分析場和預報場樣本總數(shù)Table 1 Total number of samples of analysis field and prediction field
通過對與預報對象有明確意義的各種特征參數(shù)的選取,最終選取41個分析場特征,11個預報場特征,各特征的物理意義如下:
(1)RMAPS-IN模式輸出產(chǎn)品:分析場樣本包括T2m、Td、Tw、RH、Zs、Snf及氣溫和濕球溫度三維氣象要素;預報場樣本包括T2m、Td、Tw、RH、Zs及Snf。
(2)地面實況觀測數(shù)據(jù):實況天氣現(xiàn)象。
(3)復雜地形下降水相態(tài)氣候特征:基于1955—2019年自動氣象站觀測數(shù)據(jù),得到京津冀地區(qū)各國家級站點T2m和Tw在[?10℃,10℃]每0.5℃間隔內(nèi)雨、雨夾雪和雪的出現(xiàn)概率。
為比較不同特征參數(shù)構建對不同機器學習方法降水相態(tài)分類預報模型的影響,文中設計了2組(test1和test2)特征參數(shù)組的構建方法(表2),其中test2中增加了復雜地形下降水相態(tài)氣候特征,即根據(jù)RMAPS-IN模式輸出的2 m氣溫和濕球溫度,匹配[?10℃,10℃]每0.5℃間隔內(nèi)雨、雨夾雪和雪的出現(xiàn)概率,并利用XGBoost、SVM和DNN三種機器學習方法,針對test1和test2對應的兩種不同特征參數(shù)組,分別進行建模和檢驗。
表2 不同模型不同特征參數(shù)組的構建方法Table 2 Construction methods for different characteristic parameter groups in different models
由于奇異樣本數(shù)據(jù)會導致訓練時間增大和模型無法收斂的情況,為消除其帶來的不良影響,使用min-max標準化將全部樣本的每個特征映射到[0,1]。
式中,Xmin是 原始特征X的最小值,Xmax是原始特征的最大值,Xnorm是標準化結果。
由于雨、雨夾雪和雪的數(shù)據(jù)集不平衡,為了客觀評測不同模型的性能差異,文中利用混淆矩陣進行評價。混淆矩陣是衡量分類模型準確度中最基本、最直觀、計算最簡單的方法,即分別統(tǒng)計分類模型歸錯類、歸對類的觀測值個數(shù),然后把結果放在一個表里?;煜仃嚨木唧w定義如表3所示,其中TP表示正類樣本中分類正確的數(shù)量,F(xiàn)N表示對正類誤分為負類的樣本數(shù),F(xiàn)P表示將負類錯分為正類的樣本數(shù),TN表示負類正確分類的樣本數(shù)。因為樣本數(shù)量大,為方便對比,數(shù)字下面加“()”里標上相對于總體的百分數(shù),表示預測準確率,如表4和表5所示。
表3 混淆矩陣Table 3 Confusion matrix
表4中test1特征參數(shù)組為RMAPS-IN分析場樣本和地面實況觀測的天氣現(xiàn)象,test2特征參數(shù)組中增加了復雜地形下降水相態(tài)氣候特征。針對2種不同特征參數(shù)組構建得到的3種不同降水相態(tài)混淆矩陣可以看出,XGBoost和DNN兩種機器學習方法對于雨、雨夾雪和雪的預測準確率相當,都明顯高于SVM方法。特征參數(shù)中增加復雜地形下降水相態(tài)氣候特征,可以明顯提升3種機器學習方法對于雨、雨夾雪和雪的預測準確率?;诖?,針對預報場樣本,只對test2特征參數(shù)組方案(RMAPSIN預報場樣本、地面實況觀測的天氣現(xiàn)象及復雜地形下降水相態(tài)氣候特征)進行了建模和檢測,混淆矩陣如表5所示。從表中可以看出,XGBoost和DNN兩種機器學習方法對于雨、雨夾雪和雪的預測準確率相當,都明顯高于SVM方法,整體預報準確率略低于基于分析場樣本建立的降水相態(tài)模型。
表4 基于分析場樣本建立的不同降水相態(tài)模型的混淆矩陣Table 4 Confusion matrix of different precipitation type models based on analysis field samples
表5 基于預報場樣本建立的不同降水相態(tài)模型的混淆矩陣Table 5 Confusion matrix of different precipitation type models based on prediction field samples
另外,根據(jù)分析場和預報場test2方案混淆矩陣計算了不同降水相態(tài)模型的命中率(probability of detection,POD)、虛 警 率(false alarm ratio,F(xiàn)AR)和臨界成功指數(shù)(critical success index,CSI)(Chen,et al,2017),如表6和表7所示。基于分析場樣本,SVM模型3種降水相態(tài)的整體命中率為88.4%,XGBoost和DNN模型整體命中率分別為96.3%和97.1%,明顯優(yōu)于SVM模型。基于預報場樣本,SVM模型3種降水相態(tài)的整體命中率為89.1%,XGBoost和DNN模型整體命中率分別為93.9%和93.4%。針對不同的降水類型,3種模型對于雨和雪的命中率都明顯優(yōu)于雨夾雪。另外,基于分析場和預報場樣本建立的模型,針對3種不同的降水類型,XGBoost和DNN模型虛警率都低于SVM模型?;陬A報場數(shù)據(jù)得到的模型命中率略低于分析場,虛警率略高于分析場。一方面是由于RMAPS-IN系統(tǒng)格點分辨率高,分析場數(shù)據(jù)本身應用5 min自動氣象站觀測資料進行了數(shù)據(jù)融合和快速訂正,大多數(shù)站點觀測值可作為“真值”處理,數(shù)據(jù)的精度和準確性要優(yōu)于預報場數(shù)據(jù);另外,基于分析場樣本建模時,共選取了41個分析場特征,其中包括了氣溫和濕球溫度的三維氣象要素,而由于RMAPS-IN系統(tǒng)沒有三維氣象要素的預報場,所以預報場樣本只選取了11個預報場特征,特征向量相對較少,對模型整體預測的正確性也有一定影響。
表6 基于分析場樣本建立的模型預測評分Table 6 Model prediction scores based on analysis field samples
表7 基于預報場樣本建立的模型預測評分Table 7 Model prediction scores based on prediction field samples
整體來看,基于XGBoost和DNN預報場模型,對于雨診斷的命中率為93%,略低于Y20方案(94%),基于SVM預報場模型,雨診斷的命中率較Y20方案偏低5%;對于雨夾雪,基于XGBoost和DNN預報場模型,命中率可以達70%左右,高于Y20方案(41%);對于雪,3種機器學習模型命中率都高于Y20方案,其中XGBoost和DNN命中率較Y20提升7%、SVM提升5%。這也進一步說明,面對不同氣候背景和海拔高度的站點,將每個診斷變量設置為同一閾值本身也會給降水相態(tài)的客觀診斷帶來誤差,而選取合適的特征參數(shù),基于機器學習方法對樣本進行訓練和學習,能夠更好地解決客觀模型在不同區(qū)域的適用性和預報能力。
利用Y20及3種機器學習方法建立的降水相態(tài)的高分辨率客觀分類模型,對2021年2月13—15日降水相態(tài)進行了預測和檢驗。表8給出了Y20、XGBoost、SVM、DNN這4種降水相態(tài)客觀分類模型對這次過程的預測準確率評分。從表8可以看出,這次過程Y20預測雪的準確率(0.89)高于3種機器學習方法,其中DNN方法預測的雪準確率(0.77)略優(yōu)于XGBoost(0.75)和SVM(0.73);Y20方案對雨預測的準確率(0.79)低于3種機器學習方法,SVM對于雨預測的準確率(0.98)最高,其次為DNN(0.93)。
表8 2021年2月13—15日Y20、XGBoost、SVM、DNN四種降水相態(tài)客觀分類模型預測準確率評分Table 8 Prediction accuracy score of four objective classification models for precipitation type based on Y20, XGBoost, SVM and DNN during 13—15 February 2021
利用京津冀地區(qū)國家級自動氣象站觀測資料及網(wǎng)格化快速更新精細集成產(chǎn)品,統(tǒng)計分析了京津冀地區(qū)復雜地形下各類降水相態(tài)溫度和濕球溫度平均氣候概率的分布差異、不同降水相態(tài)時網(wǎng)格化快速更新精細集成產(chǎn)品中可能影響降水相態(tài)判斷的特征信息。將地面觀測天氣現(xiàn)象資料、復雜地形下降水相態(tài)氣候特征及高分辨率模式輸出產(chǎn)品作為特征向量,分別基于XGBoost、SVM、DNN三種機器學習方法建立了降水相態(tài)的高分辨率客觀分類模型,并對同樣條件下3種機器學習方法對雨、雨夾雪和雪3種京津冀主要降水相態(tài)的預報效果進行了對比檢驗。
(1)從1955—2019年京津冀地區(qū)雨、雨夾雪及雪的空間分布來看,海拔高度高于400 m的山區(qū)站點,雨夾雪和雪的出現(xiàn)次數(shù)都高于海拔高度400 m以下的平原站點,張北(位于河北北部,海拔1393 m)雨夾雪和雪的次數(shù)均居京津冀之首,說明不同海拔高度下各類降水相態(tài)平均氣候概率分布不同,地形對于京津冀地區(qū)降水相態(tài)有一定的影響。
(2)通過統(tǒng)計長時間序列京津冀地區(qū)國家級站點觀測資料降水相態(tài)與濕球溫度(Tw)的關系,發(fā)現(xiàn)在Tw<0℃時,京津冀地區(qū)除河北東北部個別站點,其他站點雪出現(xiàn)的概率基本在0.9以上,雨夾雪和雨的概率在0.1以下。0≤Tw<1.0℃時,雪出現(xiàn)的概率開始降低,但還是高于雨和雨夾雪的出現(xiàn)概率,雨和雨夾雪出現(xiàn)的概率開始升高,雨出現(xiàn)的概率在大部分海拔400 m以下的站點相對較高,海拔400 m以上的山區(qū)站點,雨夾雪出現(xiàn)的概率高于雨出現(xiàn)的概率。Tw>1℃時,除河北北部海拔高于1000 m的幾個站點及河北南部個別站點,雨出現(xiàn)的概率基本在0.9以上。整體來看,濕球溫度低于0℃時,可以區(qū)分出90%以上的雨和雪。
(3)3種機器學習方法對3種降水相態(tài)都具有較好的預報能力,對降雨和降雪預報最好,其次是雨夾雪,并且XGBoost和DNN的預報能力相當,都明顯優(yōu)于SVM。SVM本身是一個二分分類器,要實現(xiàn)多分類必須構造合適的多類分類器,一般有一對一法和一對多法,本試驗中使用一對一法,其缺陷就是使得訓練時間和測試時間較長,再者SVM缺失數(shù)據(jù)敏感,對參數(shù)和核函數(shù)的選擇敏感,對于大規(guī)模訓練樣本難以實施。
(4)構建的特征參數(shù)中增加復雜地形下降水相態(tài)氣候特征,可以明顯提升3種機器學習方法對于雨、雨夾雪和雪的命中率?;诜治鰣鰳颖荆琒VM模型3種降水相態(tài)的整體命中率為88.4%,XGBoost和DNN模型整體命中率分別為96.3%和97.1%。基于預報場樣本,SVM模型3種降水相態(tài)的整體命中率為89.1%,XGBoost和DNN模型整體命中率分別為93.9%和93.4%。
(5)在本試驗中,XGBoost和DNN都很好地實現(xiàn)了降水相態(tài)的分類。XGBoost是GBDT的一種實現(xiàn),既可以解決分類問題,也可以解決回歸問題。XGBoost算法在目標函數(shù)中加入了正則化防止過擬合,使得算法的健壯性更好,在處理每個特征列時可以做到并行,并且考慮了訓練數(shù)據(jù)稀疏值的情況,可以為缺失值或指定的值指定分支的默認方向,這大幅度提升了算法的效率。而DNN是深度學習方法,網(wǎng)絡結構搭建靈活,可調(diào)控參數(shù)較多,并且有豐富的優(yōu)化器,可以深度挖掘數(shù)據(jù)特征,并且可以利用GPU加速計算,適用于大數(shù)據(jù)特征挖掘。所以在其他區(qū)域構建降水相態(tài)模型時,DNN不失為一種更便捷的方法。另外,在以后研究中還可以另辟新路,構建各物理特征的多維樣本,利用卷積神經(jīng)網(wǎng)絡(CNN)實現(xiàn)降水相態(tài)的高準確度分類。