修媛媛,韓 雷,馮海磊
(中國海洋大學(xué) 信息科學(xué)與工程學(xué)院,山東 青島 266100)
基于機(jī)器學(xué)習(xí)方法的強(qiáng)對流天氣識別研究
修媛媛,韓 雷,馮海磊
(中國海洋大學(xué) 信息科學(xué)與工程學(xué)院,山東 青島266100)
用機(jī)器學(xué)習(xí)中有監(jiān)督學(xué)習(xí)模型支持向量機(jī)SVM來進(jìn)行強(qiáng)對流天氣的識別和預(yù)報。強(qiáng)對流天氣的發(fā)生可以看作是小概率事件,因此強(qiáng)對流天氣的預(yù)警問題可以作為不平衡數(shù)據(jù)分類問題來處理。在SVM的應(yīng)用上結(jié)合判別準(zhǔn)則來對不平衡數(shù)據(jù)進(jìn)行處理,更好的對強(qiáng)對流天氣進(jìn)行預(yù)警。本文從數(shù)據(jù)的獲取、訓(xùn)練算法的選擇、算法的應(yīng)用、實驗結(jié)果的評估幾個方面進(jìn)行了詳細(xì)的描述。通過采用丹佛地區(qū)的數(shù)據(jù)進(jìn)行大量試驗,排除了不平衡數(shù)據(jù)對分類的干擾,提高了強(qiáng)對流天氣識別的準(zhǔn)確度。
強(qiáng)對流天氣預(yù)警;SVM;不平衡數(shù)據(jù)分類;機(jī)器學(xué)習(xí)
強(qiáng)對流天氣[1]是常見的一種氣象災(zāi)害,具有生命史短暫、發(fā)展移動速度快的特點(diǎn),往往會給人民的工作生活帶來不便,對農(nóng)業(yè)生產(chǎn)、國家財產(chǎn)等造成威脅。多普勒雷達(dá)資料以其較高的時空分辨率在臨近預(yù)報及天氣預(yù)警方面具有獨(dú)特的優(yōu)勢,氣象業(yè)務(wù)上強(qiáng)對流天氣預(yù)警主要依賴于雷達(dá)的實時監(jiān)測[2]。NCAR(National Center for Atmospheric Research國家大氣研究中心)研究出的多普勒雷達(dá)四維變分分析系統(tǒng)[3](The four-dimensional Variational Doppler Radar Analysis System,VDRAS)能夠給出反映低層大氣熱動力特征的實時分析場,是強(qiáng)對流行天氣臨近預(yù)報的有力工具。
目前的氣象臨近預(yù)報方法[4]主要有概念模型預(yù)報[5]、數(shù)值模式預(yù)報[6]、外推法預(yù)報[7]等。概念模型預(yù)報技術(shù)主要是通過綜合分析多種觀測資料,包括常規(guī)探測資料和遙感資料等在此基礎(chǔ)上建立雷暴發(fā)生、發(fā)展、消亡的概念模型,再結(jié)合數(shù)值模式預(yù)報和其他外推方法的結(jié)果,最終建立對流性天氣的臨近預(yù)報專家系統(tǒng),如NCAR的ANC(Auto Nowcaster)預(yù)報系統(tǒng)[8]。精細(xì)化的數(shù)值天氣預(yù)報技術(shù)是未來強(qiáng)對流天氣短時臨近預(yù)報的重要發(fā)展方向[9]。利用多普勒雷達(dá)資料和其他常規(guī)觀測資料進(jìn)行數(shù)值模式初始化進(jìn)而預(yù)報中尺度對流系統(tǒng)的發(fā)生、發(fā)展和消亡已經(jīng)取得了重要進(jìn)展。
文中使用VDRAS模式實時反演的低層大氣分析場數(shù)據(jù),結(jié)合機(jī)器學(xué)習(xí)中的基于統(tǒng)計學(xué)習(xí)理論的支持向量機(jī)方法[10],針對強(qiáng)對流天氣進(jìn)行臨近預(yù)報。首先用VDRAS系統(tǒng)反演得到對流天氣的數(shù)值模式數(shù)據(jù)和雷達(dá)組合反射率,然后用SVM對不平衡數(shù)據(jù)[11]進(jìn)行預(yù)報,最后通過評分準(zhǔn)則來解決不平衡數(shù)據(jù)造成的預(yù)測結(jié)果不均衡。
文中使用美國國家大氣研究中心(NCAR)的VDRAS模式輸出的高時空分辨率的實時分析場數(shù)據(jù),構(gòu)建基于box的特征,以美國NEXRAD[12]多普勒雷達(dá)數(shù)據(jù)作為驗證的真值,然后利用SVM算法進(jìn)行訓(xùn)練和預(yù)測。
1.1數(shù)據(jù)的選擇
VDRAS系統(tǒng)反演得到的物理量有46個,根據(jù)其物理意義和多次實驗選出能有效強(qiáng)對流預(yù)警的特征(預(yù)報因子)。文中所用的預(yù)報因子有6個,分別為:rh(relative humidity相對濕度),w(wind垂直風(fēng)速度),div(divergence輻合抬升),byc (bouyance距平溫度),sh(shear風(fēng)切變),gsh(gshear梯度風(fēng)切變)。
本論文中所用的VDRAS系統(tǒng)、數(shù)據(jù)資料均來自NCAR,研究區(qū)域為美國丹佛地區(qū)。由于風(fēng)暴是運(yùn)動的,所以沒有采用點(diǎn)對點(diǎn)的預(yù)報,而是采取劃分子塊的方式,以6km*6km大小的方塊為單位(1個box,即一個box中的所有特征為一個樣本),選取方塊中的最大值作為該子塊的值寫入數(shù)據(jù)。采取這種方式的原因有兩個,一是如果采取點(diǎn)對點(diǎn)的方式進(jìn)行數(shù)據(jù)讀取,會造成數(shù)據(jù)資料過多,會產(chǎn)生許多冗余信息,最終會導(dǎo)致計算量過大,速度過慢;二是因為考慮到實際的強(qiáng)對流天氣并不會僅僅只是發(fā)生在某一個點(diǎn)上。因此,采用劃分子塊的方式選是可行的。
1.2數(shù)據(jù)的預(yù)處理
將上述6個預(yù)報因子作為樣本的屬性特征,并利用30 min后的雷達(dá)組合反射率(radar composite)作為樣本的標(biāo)簽。設(shè)定標(biāo)簽(label)的基本思想為:將雷達(dá)組合反射率的值大于等于35 dbz的樣本記為正類(label值為+1),小于35 dbz的樣本記為負(fù)類(label值為-1)。
樣本數(shù)據(jù)的預(yù)處理(不包括radar composite)主要分為兩步:差分和歸一化[13]。
差分:在天氣的變化過程中,相鄰時刻的數(shù)據(jù)在物理意義上是有關(guān)聯(lián)的。隨著時間的推移,數(shù)據(jù)的變化反映了天氣的變化。而相鄰時刻數(shù)據(jù)的差值能反映出天氣的變化趨勢,知道變化趨勢能更好的對CI預(yù)報,因此本文用向后差分來記錄下時間增量信息。具體差分公式如下:
歸一化:由于本實驗樣本數(shù)較多,且數(shù)據(jù)分布較為發(fā)散。通過歸一化讓權(quán)重變?yōu)榻y(tǒng)一,且歸一化后可以加快梯度下降求最優(yōu)解的速度,也有可能提高精度。目前,主流的歸一化方法有兩種。通過實驗,發(fā)現(xiàn)線性函數(shù)歸一化能使預(yù)報更加準(zhǔn)確。因此本文使用的是線性函數(shù)歸一化。具體公式如下:
1.3算法的設(shè)計
1.3.1算法的設(shè)計
不平衡數(shù)據(jù)問題,即在分類問題中正負(fù)樣本的比例相差很大。在強(qiáng)對流天氣預(yù)警問題中,強(qiáng)對流天氣是屬于個別天氣,是少數(shù)類。因此,可以作為不平衡數(shù)據(jù)分類問題來處理。目前不平衡數(shù)據(jù)分類的相關(guān)解決方法主要從數(shù)據(jù)層面(改變數(shù)據(jù)的分類)、算法層面(設(shè)計新的分類方法)和判別準(zhǔn)則(設(shè)計新的分類器性能評價準(zhǔn)則)3個不同層面進(jìn)行研究。
分類問題中,基于統(tǒng)計學(xué)習(xí)理論的支持向量機(jī)(Support Vector Machine,SVM)方法逐漸成為機(jī)器學(xué)習(xí)的重要研究方向。與傳統(tǒng)的基于經(jīng)驗風(fēng)險最小化原則的學(xué)習(xí)方法不同,支持向量機(jī)基于結(jié)構(gòu)風(fēng)險最小化,能在訓(xùn)練誤差和分類器容量之間達(dá)到一個較好的平衡,它具有全局最優(yōu)、適應(yīng)性強(qiáng)、推廣能力強(qiáng)等優(yōu)點(diǎn)。文中選用機(jī)器學(xué)習(xí)中常用的SVM算法作為分類器。
強(qiáng)對流天氣的發(fā)生可以看作是小概率事件,因此強(qiáng)對流天氣預(yù)警問題可以作為不平衡分類問題來處理。而現(xiàn)在機(jī)器學(xué)習(xí)大部分的學(xué)習(xí)算法是基于一個平衡的訓(xùn)練集而設(shè)計的(包括SVM)。為了解決此類問題,文中將SVM和不平衡數(shù)據(jù)分類方法中的判別準(zhǔn)則結(jié)合,用來對強(qiáng)對流天氣預(yù)警。
1.3.2評估方法
評價一個分類器的性能的好壞的一個關(guān)鍵因素是評分標(biāo)準(zhǔn),評分標(biāo)準(zhǔn)將指導(dǎo)分類器模型的建立。在兩分類問題中,混淆矩陣(見表1)中記錄的是每一個類的正確和錯誤識別的結(jié)果。
表1 二分類問題下的混淆矩陣
由于在氣象預(yù)報領(lǐng)域和機(jī)器學(xué)習(xí)領(lǐng)域中各自存在不同的評分標(biāo)準(zhǔn),本論文通過結(jié)合兩類評分標(biāo)準(zhǔn)以及不平衡數(shù)據(jù)分類的特點(diǎn)挑選出了合理的評分標(biāo)準(zhǔn)[14],做如下定義:
1.4算法的實現(xiàn)
文中通過用SVM分類器進(jìn)行分類,然后對預(yù)測樣本輸出概率置信度,將其重新調(diào)整,從而獲得最優(yōu)的分類結(jié)果。具體步驟如下:
1)從VDRAS中獲取實驗所需的數(shù)據(jù);
2)對數(shù)據(jù)進(jìn)行預(yù)處理;
本文中的預(yù)處理包括對原始數(shù)據(jù)進(jìn)行差分和歸一化,并將所有的樣本數(shù)據(jù)分為訓(xùn)練集和測試集兩部分。
3)用SVM對訓(xùn)練集進(jìn)行訓(xùn)練,得到模型;
4)用3)所得的模型,對測試集進(jìn)行預(yù)測,獲得每個樣本的置信度;
置信度(confidence)是一個概率值,下面的步驟會根據(jù)置信度將樣本預(yù)測為正類或者預(yù)測為負(fù)類。將此樣本劃分為正類的概率值稱為正例置信度。
5)通過調(diào)整閾值解決本實驗中所用的數(shù)據(jù)不均衡的問題。
文中的閾值亦為臨界值。由于SVM主要是應(yīng)用于平衡數(shù)據(jù)集的分類,其默認(rèn)的概率閾值為0.5,即當(dāng)預(yù)測概率結(jié)果中正例置信度大于等于0.5的時候,分類為正樣本,小于0.5的時候分類為負(fù)樣本。由于本實驗的數(shù)據(jù)為非平衡數(shù)據(jù),因此進(jìn)行分類時,為獲得最優(yōu)的分類結(jié)果,對概率閾值進(jìn)行了調(diào)整,分別采用不同的閾值進(jìn)行分類,并計算相應(yīng)的評價指標(biāo),最后選取最優(yōu)的評價指標(biāo)。
文中主要應(yīng)用的評價指標(biāo)為POD、FAR、CSI。不同的閾值下評價指標(biāo)結(jié)果不同,考慮到CI預(yù)警具有的實際意義,POD達(dá)到0.6的時候才具有實際應(yīng)用價值,所以在選取評價指標(biāo)結(jié)果的時候按照以下標(biāo)準(zhǔn)進(jìn)行:因CSI指標(biāo)綜合考慮召回率(POD)和虛警率(FAR),故首先觀察該指標(biāo),即不同置信度下,若CSI的指達(dá)到最大且POD的值大于等于0.6,則選擇該置信度下的評級指標(biāo)結(jié)果;若CSI達(dá)到最大時POD的值小于0.6,則重新觀察不同置信度下POD的值,選擇POD達(dá)到0.6時,對應(yīng)的置信度下的評價指標(biāo)結(jié)果。
6)用feature selection分析預(yù)報因子的重要性
前面經(jīng)過分析選取了6個預(yù)報因子,這6個預(yù)報因子連同其差分(12個特征)又進(jìn)行了特征選擇實驗,主要用來獲取最重要的特征。具體實驗描述如下:依次去掉每個特征值和其對應(yīng)的差分,用剩下的10個特征值進(jìn)行訓(xùn)練和預(yù)測,然后觀察每次的結(jié)果表現(xiàn)。實驗結(jié)果如圖1所示。
圖1 feature-selection實驗結(jié)果
圖1表明,當(dāng)去掉byc及其差分dbyc的時候,CSI、P(這里的P為精確度,值的大小為1-FAR)和POD值都下降很多,由此可得出結(jié)論byc在整個預(yù)報過程中起重要作用。則,預(yù)報因子的貢獻(xiàn)率由高到低依次為:byc、w、gsh、div、sh、rh。
針對feature selection結(jié)果和在實際中特征值的物理意義,最終選取如下特征組合進(jìn)行實驗:1)byc+dbyc 2)w+dw+ byc+dbyc 3)所有12個特征值。
2.1實驗結(jié)果
下面是所做各種組合的實驗結(jié)果:(注:文中所用的POD 和CSI值是越大越好,而FAR越小越好 )
表2 SVM各種特征組合實驗結(jié)果表
由表2的實驗1、2、3結(jié)果可以看出在1個box試驗中byc+dbyc組合的實驗結(jié)果是最好的,它的CSI值為0.3404,而w+dw+byc+dbyc組合的CSI值為0.2916,12個特征的效果更差CSI為0.1758。
下面的結(jié)果顯示就是將實驗效果最好的組合 (實驗1:1box byc+dbyc組合和實驗2:9box w+dw+byc+dbyc組合)用CIDD[15]顯示出來,可以進(jìn)一步觀察分類器的好壞。
2.2分析
論文主要是利用30 min后雷達(dá)組合反射率來標(biāo)記標(biāo)簽,對30 min后的天氣進(jìn)行CI預(yù)報。本文實驗所用的是2012年前的5個案例做訓(xùn)練集,2012年的2個案例做測試集,具體的預(yù)測結(jié)果可通過氣象中的VDRAS系統(tǒng)中的CIDD以圖像的方式顯示出來。下面對所用的結(jié)果預(yù)報圖和結(jié)果顯示圖進(jìn)行分別說明:
1)結(jié)果預(yù)報圖:即,所用的背景雷達(dá)圖像是當(dāng)前時刻的雷達(dá)圖像,而所用的預(yù)報結(jié)果是30 min之后的。圖中的白框表示當(dāng)前時刻此處有強(qiáng)對流天氣的現(xiàn)象;黑框表示當(dāng)前時刻存在強(qiáng)對流天氣,30 min后也存在強(qiáng)對流天氣;灰框表示的是本算法所預(yù)測出30 min后會出現(xiàn)強(qiáng)對流天氣,能很好的描述出強(qiáng)對流天氣的運(yùn)動趨勢和發(fā)展方向。
2)結(jié)果顯示圖:即,所用的雷達(dá)圖像是30 min之后的,預(yù)報結(jié)果也是30 min之后的。圖像中的3種不同的框與結(jié)果預(yù)報圖中的表示有所不同:白色表示漏報,黑色表示預(yù)報正確,灰色表示的是誤報。此圖用來說明預(yù)報的是否準(zhǔn)確。
結(jié)果分析:本實驗中用1個box byc+dbyc組合的樣本來訓(xùn)練。在此實驗中,選取最優(yōu)的閾值為0.074 56,評分結(jié)果如下:
POD為0.600 7;FAR為0.560 0;CSI為0.340 4;
1)圖2為2012年6月6日20時55分的預(yù)測結(jié)果的CIDD顯示圖(當(dāng)前時刻為20時55分,預(yù)報為30分鐘之后的),圖(a)是結(jié)果預(yù)報圖,圖(b)是結(jié)果顯示圖。
由圖(a)看灰色框可以看出該天氣的運(yùn)動趨勢,向圖所示的右上方發(fā)展。而在圖(b)的整個顯示區(qū)域中,黑框很好的展現(xiàn)出了預(yù)報結(jié)果,還是挺準(zhǔn)確的。
2)圖3為2012年6月6日22時10分的預(yù)測結(jié)果的CIDD顯示圖,圖(a)是結(jié)果預(yù)報圖,圖(b)是結(jié)果顯示圖。
圖(a)中可以看出,此強(qiáng)對流天氣處于產(chǎn)生、發(fā)展、消亡中的發(fā)展階段。從整個3-2來看,研究區(qū)域中給出的預(yù)報結(jié)果基本上都覆蓋了出現(xiàn)強(qiáng)對流天氣的地方,雖然會出現(xiàn)少量誤報,但是整個區(qū)域的基本形狀還原程度還是比較高的。給出的預(yù)報結(jié)果與實際情況非常吻合。
3)圖4為2012年7月7日21時10分的預(yù)測結(jié)果的CIDD顯示圖,本圖為結(jié)果顯示圖。
這個是預(yù)測失敗的個例,由圖可以看出,本次的預(yù)測結(jié)果有些偏離強(qiáng)對流天氣發(fā)生的位置。圖的右下角區(qū)域還是可以預(yù)報出整個強(qiáng)對流天氣的大體位置,但周圍會出現(xiàn)一些的漏報和誤報;在圖的左上角區(qū)域不是漏報就是誤報,而左下角更是出現(xiàn)大片的誤報。出現(xiàn)這種預(yù)報結(jié)果,說明本文提出的預(yù)警算法還是有待于進(jìn)一步完善。
圖2 2012年6月6日20時55分結(jié)果圖
圖3 2012年6月6日22時10分結(jié)果圖
圖4 2012年7月7日結(jié)果顯示圖3
文中主要用VDRAS的數(shù)值模式數(shù)據(jù),結(jié)合機(jī)器學(xué)習(xí)中的SVM,針對強(qiáng)對流天氣進(jìn)行臨近預(yù)報。首先用VDRAS系統(tǒng)反演得到實驗所需的數(shù)據(jù)并將數(shù)據(jù)做預(yù)處理;然后用SVM對不平衡數(shù)據(jù)進(jìn)行訓(xùn)練和預(yù)報;最后通過調(diào)整閾值(即修改評分準(zhǔn)則)來解決不平衡數(shù)據(jù)造成的預(yù)測結(jié)果不均衡。為了直觀的觀察實驗結(jié)果的好壞,本文通過CIDD將預(yù)報結(jié)果直觀的展示出來。分析實驗結(jié)果,發(fā)現(xiàn)本文提供的算法在一定程度上提高了識別的精度,降低了虛假警報發(fā)生的概率。表明,該方法能很好地實現(xiàn)強(qiáng)對流天氣的臨近預(yù)報,但是本算法還有些缺陷需要改進(jìn),這也將是我們下一步的工作目標(biāo)。例如:只能人工選取預(yù)報因子,這就增加了實驗的不確定性;劃分子塊上,文中用每個子塊區(qū)域中6*6格子中的最大值作為該子塊的值,雖然有效減少了計算量,但是也丟棄了一部分信息,因此應(yīng)該由更加完善的做法在減少計算量的同時也保留信息。
[1]韓雷,俞小鼎,鄭永光,等.京津及鄰近地區(qū)暖季強(qiáng)對流風(fēng)暴的氣候分布特征[J].科學(xué)通報,2009,54(11):1585-1590.
[2]趙暢.多普勒雷達(dá)及多源資料在局地短臨預(yù)報中的應(yīng)用[D].南京:南京信息工程大學(xué),2014.
[3]Sun J,Crook N A.Dynamical and microphysical retrieval from Doppler radar observations using a cloud model and its adjoint[J].Model development and simulated data experiments. J.Atmos.Sci.,1997(54):1642-1661.
[4]程叢蘭,陳明軒,王建捷,等.基于雷達(dá)外推臨近預(yù)報和中尺度數(shù)值預(yù)報融合技術(shù)的短時定量降水預(yù)報試驗 [J].氣象學(xué)報,2013,71(3):397-415.
[5]劉國忠,黃開剛,羅建英,等.基于概念模型及配料法的持續(xù)性暴雨短期預(yù)報技術(shù)探究[J].氣象,2013,39(1):20~27.
[6]王啟光,丑紀(jì)范,封國林.數(shù)值模式延伸期可預(yù)報分量提取及預(yù)報技術(shù)研究[J].中國科學(xué),2014,44(2):343-354.
[7]陳雷,戴建華,徐強(qiáng)君.基于雷達(dá)回波外推技術(shù)的閃電臨近預(yù)報方法研究[C]//第九屆長三角氣象科技論壇論文集,2012.
[8]Wilson JW,Crook N A,Muller C K,et al.Nowcasting thunderstorms:a status report[J].Bull Amer Meteor Soc,1998,79 (10):2079-2099.
[9]鄭永光,張小玲,周慶亮,等.強(qiáng)對流天氣短時臨近預(yù)報業(yè)務(wù)技術(shù)進(jìn)展與挑戰(zhàn)[J].氣象,2010,36(7):33-42.
[10]鄧乃揚(yáng),田英杰.數(shù)據(jù)挖掘中的新方法-支持向量機(jī)[M].北京:科學(xué)出版社,2004.
[11]葉志飛,文益民,呂寶糧.不平衡分類問題研究綜述[J].智能系統(tǒng)學(xué)報,2009,4(2):148-156.
[12]Bieringer P,P S Ray.A Compari son of tornado warning lead timeswithandwithoutNEXRADDopplerRadar[J]. WeaForecasting,1996(11):47-52.
[13]XIAO Han-guang,CAI Cong-zhong.Comparison study of normalization of feature vector[J].Computer Engineering and Applications,2009,45(22):117-119.
[14]石璐.基于數(shù)值模式和雷達(dá)數(shù)據(jù)的對流初生預(yù)警技術(shù)研究[D].青島:中國海洋大學(xué),2015.
[15]陳明軒,俞小鼎,譚曉光,等.對流天氣臨近預(yù)報技術(shù)的發(fā)展與研究進(jìn)展[J].應(yīng)用氣象學(xué)報,2004,15(6):754-766.
The identification of strong convective weather based on machine learning methods
XIU Yuan-yuan,HAN Lei,F(xiàn)ENG Hai-lei
(School of Information Science and Engineering,Ocean University of China,Qingdao 266100,China)
The present study was designed to use a supervised learning method-support vector machines SVM of machine learning to recognize and forecast the strong convective weather.The occurrence of strong convective weather can be seen as a small probability event,so this problems can be handled as imbalanced data classification.To make better forecast,on the application of SVM we proposed a new criterion for processing data on imbalances.This paper described the algorithm in several aspects:the data obtained,the training algorithm,the application of the algorithm,the assessment results.This paper used Denver area data,eliminated the interference of imbalanced data classification,and improved the accuracy of recognition of severe convective weather.
strong convective weather warning;SVM;unbalanced data classification;machine learning
TN957.52
A
1674-6236(2016)09-0004-04
2015-11-19稿件編號:201511181
國家自然科學(xué)基金(41005024)
修媛媛(1991—),女,山東聊城人,碩士研究生。研究方向:人工智能。