張?軍,閆麗飛,侯謹毅
?
中氣旋與強對流風(fēng)暴相關(guān)參數(shù)的演變關(guān)系
張?軍,閆麗飛,侯謹毅
(天津大學(xué)電氣自動化與信息工程學(xué)院,天津 300072)
強對流天氣對社會公眾的危害極大,強對流風(fēng)暴內(nèi)部的中氣旋通常與災(zāi)害天氣相關(guān).為了預(yù)測強對流天氣的發(fā)生時間,研究了中氣旋參數(shù)與強對流風(fēng)暴參數(shù)的相關(guān)關(guān)系.針對強對流風(fēng)暴參數(shù)與中氣旋參數(shù)之間的變化規(guī)律,引入了時間序列關(guān)聯(lián)規(guī)則的挖掘方法.收集了天津塘沽雷達站的24個包含中氣旋的強對流風(fēng)暴案例,使用強對流風(fēng)暴參數(shù)和中氣旋參數(shù)的時間序列來描述案例集合,并使用典型變量分析算法將歸一化的時間序列數(shù)據(jù)降維,考慮到序列間的變化趨勢和局部關(guān)鍵點的影響,提取單調(diào)性特征和局部極值點特征對時間序列符號化表示,將同一時間段內(nèi)的符號組成事務(wù)集,使用Eclat算法發(fā)現(xiàn)頻繁項集;并且類比于學(xué)習(xí)器的性能度量,提出評估兩類數(shù)據(jù)變化規(guī)律的正比率與反比率概念.實驗結(jié)果顯示,強對流風(fēng)暴參數(shù)與中氣旋參數(shù)之間存在顯著的相關(guān)性,其第1對典型變量的相關(guān)系數(shù)大于0.5;在支持度為0.05~0.30下,Eclat算法的運行時間小于0.7ms,內(nèi)存占用小于121KB,均優(yōu)于Apriori算法和FP-growth算法;強對流風(fēng)暴參數(shù)與中氣旋參數(shù)之間的正比率大于0.7,直觀地反映出強對流風(fēng)暴參數(shù)與中氣旋參數(shù)之間變化趨勢的相似程度,且再次驗證了頻繁項集的正確性.該研究為利用中氣旋數(shù)據(jù)預(yù)測強對流天氣的變化趨勢與發(fā)生時間提供了理論依據(jù).
強對流風(fēng)暴;中氣旋;關(guān)聯(lián)規(guī)則挖掘;時間序列
中國氣象局將強對流天氣定義為冰雹(落地直徑大于2cm)、龍卷(除水龍卷之外)、直線型雷暴大風(fēng)(瞬時速度大于17m/s)以及對流性暴雨等天氣災(zāi)害.這些災(zāi)害不僅每年造成數(shù)億元的經(jīng)濟損失,而且對人民的生產(chǎn)生活造成嚴重影響.產(chǎn)生強對流天氣的天氣系統(tǒng)在氣象領(lǐng)域被稱為強對流風(fēng)暴,其具有時間空間尺度小、局部地區(qū)性強、持續(xù)時間較短等特征[1].中氣旋是一個與強對流風(fēng)暴的上升氣流和背面下沉氣流密切相關(guān)的小尺度渦旋,它與重要的災(zāi)害天氣有著很大的關(guān)系.研究強對流風(fēng)暴參數(shù)與中氣旋參數(shù)之間的關(guān)聯(lián)關(guān)系,可以在強對流風(fēng)暴的演化早期發(fā)現(xiàn)強對流天氣的預(yù)警,減少社會的損失.
目前,關(guān)于中氣旋和強對流天氣相關(guān)性的研究已經(jīng)有很多.比如2007年方翀等[2]發(fā)現(xiàn)中氣旋的頂高、底高和最強切變與災(zāi)害性天氣的相關(guān)關(guān)系,為大風(fēng)、雷雨的預(yù)報提供了較為精確的依據(jù).2012年吳芳芳等[3]發(fā)現(xiàn)帶有高頂高低的中氣旋對流風(fēng)暴易形成冰雹,帶有底低與直徑小的中氣旋對流風(fēng)暴易形成龍卷,中氣旋的切邊發(fā)生劇變、底高與頂高下降易產(chǎn)生雷雨大風(fēng)的對流風(fēng)暴.2017年鄭艷等[4]發(fā)現(xiàn)具有較低的底高中氣旋有助于龍卷的發(fā)生.2018年高曉梅等[5]發(fā)現(xiàn)中氣旋的厚度、最大切邊、持續(xù)時間與天氣的強烈程度有著密切的關(guān)系.文獻[6]通過分析強對流天氣的具體案例,明確了中氣旋與強對流災(zāi)害天氣的關(guān)系.然而,根據(jù)以往這些相關(guān)性的研究,不能夠準確地判斷強對流天氣何時發(fā)生.在本文中,為了能夠利用中氣旋預(yù)測強對流天氣的發(fā)生時間,研究了中氣旋演變過程與強對流風(fēng)暴結(jié)構(gòu)演化的相關(guān)關(guān)系.
本文將時間序列關(guān)聯(lián)規(guī)則的挖掘方法應(yīng)用于強對流風(fēng)暴與中氣旋參數(shù)變化規(guī)律的研究中.關(guān)聯(lián)規(guī)則挖掘是從大量數(shù)據(jù)集中挖掘出數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系.Agrawal等[7]首次提出了關(guān)聯(lián)規(guī)則挖掘的概念;之后他提出了分類規(guī)則挖掘算法,即Apriori算法.為節(jié)省生成頻繁模式的時間,Han等[8]提出了一種經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法,即FP-growth算法,但是該算法需要對數(shù)據(jù)進行兩次掃描.為減少掃描數(shù)據(jù)庫的次數(shù),Zaki[9]在2000年提出了Eclat算法,該算法使用垂直數(shù)據(jù)庫表示法,采用深度優(yōu)先搜索,只需掃描一次數(shù)據(jù)庫,可以在數(shù)據(jù)集之間高效且方便地找到頻繁項目集.Das等[10]首次提出將關(guān)聯(lián)規(guī)則應(yīng)用于時間序列中,率先提出了關(guān)于單個時間序列的關(guān)聯(lián)規(guī)則挖掘.時間序列的關(guān)聯(lián)性挖掘重點在于將時間序列轉(zhuǎn)換為事務(wù)集,Lin等[11]建議使用符號聚合近似(SAX)將相等的時間段內(nèi)的數(shù)據(jù)進行離散化,但該方法只考慮到了數(shù)據(jù)的大小特征.Xue等[12]選擇單調(diào)性與Knee Point表示數(shù)據(jù),從而降低數(shù)據(jù)的維度,使用改進的Apriori算法可以發(fā)現(xiàn)特殊模式和關(guān)聯(lián)規(guī)則,也推動了對于時間序列關(guān)聯(lián)挖掘的發(fā)展.
為了能夠使用時間序列關(guān)聯(lián)挖掘的方法研究強風(fēng)暴和中氣旋參數(shù)的關(guān)聯(lián)關(guān)系,本文收集了天津氣象臺塘沽站2005—2010年伴隨著中氣旋的強對流風(fēng)暴的數(shù)據(jù).首先,使用典型相關(guān)分析來降低強對流風(fēng)暴與中氣旋數(shù)據(jù)的維度,得到兩者的第1對典型變量,并且根據(jù)相關(guān)系數(shù)定量地分析出強對流風(fēng)暴與中氣旋的聯(lián)系.之后,為了能夠具體分析強對流風(fēng)暴與中氣旋的參數(shù)變化趨勢的相關(guān)性,通過提取第1對典型變量的單調(diào)特征和局部極值的特征,對時間序列進行符號化表示,將相同時間段內(nèi)的符號組成一組事務(wù)集,利用Eclat算法找到頻繁項集,從頻繁項集中定量地分析出強對流風(fēng)暴和中氣旋的參數(shù)變化趨勢. 另外,類比于學(xué)習(xí)器的性能度量方法,本文提出一種評估兩類數(shù)據(jù)變化規(guī)律的性能度量,用于驗證頻繁項集的正確性.
圖1所示的流程展示了如何采用時間序列關(guān)聯(lián)規(guī)則分析方法來研究中氣旋與強對流風(fēng)暴相關(guān)參數(shù)之間的關(guān)聯(lián)關(guān)系.該流程圖主要由4部分構(gòu)成:中氣旋與強對流風(fēng)暴參數(shù)的時間序列表示、時間序列預(yù)處理、事務(wù)集的生成和頻繁項集的挖掘.下面依次給出每個部分的詳細描述.
時間序列是指同一統(tǒng)計指標下的數(shù)值按照時間順序排列而成的數(shù)據(jù)集合,記為
???(1)
???(2)
圖1?系統(tǒng)流程
在使用時間序列表示中氣旋與強對流風(fēng)暴的相關(guān)參數(shù)之后,為避免不同特征參數(shù)的量綱對數(shù)據(jù)分析結(jié)果的影響,對同一特征參數(shù)進行了歸一化處理,之后進一步對數(shù)據(jù)進行了降維處理.
降維是數(shù)據(jù)預(yù)處理的一種通用手段,對分析至關(guān)重要.常用的降維算法有主成分分析(PCA)、線性判別分析(LDA)等,但是單純地對每組數(shù)據(jù)變量進行降維處理會影響兩組數(shù)據(jù)之間的相關(guān)關(guān)系[13].所以本文采用典型相關(guān)分析方法(CAA)對兩組數(shù)據(jù)進行綜合降維,以期使用少量的綜合變量來反映兩組數(shù)據(jù)之間的相關(guān)性.
Hotelling[14]在1936年提出了典型相關(guān)分析,它是一種研究兩組變量之間線性相關(guān)的統(tǒng)計分析方法.它將多維變量進行加權(quán)求和形成綜合變量,通過少數(shù)的綜合變量反映原始變量間的相關(guān)性.它的基本思想是首先在每組變量中找出變量的線性組合,使該線性組合具有最大相關(guān)性,然后再找出第2對線性組合,分別與第1對線性組合互不相關(guān),而第2對線性組合自身具有最大的相關(guān)性,如此繼續(xù)下去,提取完畢兩組變量之間的相關(guān)性為止.
???(3)
???(4)
???,(5)
???(6)
則可得協(xié)方差矩陣分別為
???,(7)
???,(8)
???,(9)
???(10)
???(11)
???(12)
顯然可得
???(14)
又因為
???(15)
???(16)
可以得出
???(17)
???(18)
???(19)
???(20)
???:,:(21)
則典型相關(guān)系數(shù)的似然比統(tǒng)計量為
???(22)
建立統(tǒng)計量為
???(23)
前文所得的中氣旋與強對流風(fēng)暴的時間序列不能直接用于關(guān)聯(lián)規(guī)則挖掘,需要將時間序列符號化表示,轉(zhuǎn)化為不同符號表示的符號序列,對于符號化的序列,需要組成事務(wù)集之后才能進行關(guān)聯(lián)規(guī)則挖??掘[15].本文提取時間序列相鄰時間段內(nèi)的單調(diào)性特征與局部極值點特征來符號化表示時間序列,這樣不僅考慮了數(shù)據(jù)的變化趨勢,還考慮了數(shù)據(jù)間的彎曲幅度信息.
1.3.1?單調(diào)特征
???(24)
相對斜率表示單位時間間隔內(nèi)的漲跌幅度,其公式為
???(25)
1.3.2?局部極值特征
圖2?局部極值點示例
表1?符號的定義
Tab.1?Definitions of symbols
注:下標“1”代表該數(shù)據(jù)為強對流風(fēng)暴序列,“2”代表該數(shù)據(jù)為中氣旋序列.
1.3.3?組成事務(wù)集
利用序列符號化描述方法,為序列中的每段時間間隔分配一個符號,每個序列都可以表示成一系列符號.為了防止引入局部極值點而導(dǎo)致兩個序列的長度不同.在尋找局部極值點時,如果一個序列此時刻為局部極值點,而另外一個序列在此時刻不是極值點,則使用符號“o”表示.符號化表示的時間序列示例如圖3所示.
圖3?符號化表示的時間序列示例
將每個過程的兩個符號序列在同一個時間段內(nèi)的符號組成一個事務(wù),使用一個唯一的標識符對應(yīng),即事務(wù)ID.全部過程的所有事務(wù)組成事務(wù)集.合并后的事務(wù)集如表2所示.
表2?時間序列數(shù)據(jù)形成的事務(wù)集
Tab.2?Setof transactions formed by time series data
1.4.1?頻繁項集的基本理論
???(26)
為得到頻繁項集,需要合理確定支持度閾值.挖掘頻繁項集的任務(wù)就是找出大于支持度閾值的所有項集[16].
1.4.2?Eclat算法挖掘頻繁項集
Eclat算法的思想是深度優(yōu)先搜索,通過倒排將事務(wù)數(shù)據(jù)中的項作為關(guān)鍵字,每一項對應(yīng)的事務(wù)ID作為值.包含項的所有事務(wù)集合稱為項的Tidset.該算法是通過集合的交集運算來計算項目集的支持[17].
數(shù)據(jù)來源于天津氣象臺塘沽雷達站,選取2005—2011年天津市由強對流風(fēng)暴而引發(fā)的冰雹、暴雨等嚴重災(zāi)害的數(shù)據(jù).其中一共含有41個完整的過程,有27個過程檢測到中氣旋的存在.從中提取出24個完整的包含中氣旋在內(nèi)的強對流風(fēng)暴過程,每個過程不少于1h,且每個過程中中氣旋數(shù)據(jù)與強對流風(fēng)暴數(shù)據(jù)無缺失.將每個過程中強對流風(fēng)暴與中氣旋的數(shù)據(jù)按照時間先后順序存放在一個文本文件中.
???(27)
強對流風(fēng)暴和中氣旋的多維時間序列可分別表示為
(28)
?????(29)
對強對流風(fēng)暴與中氣旋的參數(shù)進行典型變量分析,提取出24個過程的第1對典型變量,得到第1對典型變量的相關(guān)系數(shù)在各個范圍內(nèi)的頻率與比例,如表3所示.
表3?第1對典型變量的相關(guān)系數(shù)取值范圍
Tab.3 Correlation coefficient range of the first pair of typical variables
相關(guān)系數(shù)取值范圍頻數(shù)比例 0.5~0.620.083 0.6~0.730.120 0.7~0.830.083 0.8~0.920.125 0.9~1.0140.583
從表3可以看出,24個過程中第1對典型變量的相關(guān)系數(shù)均在0.5之上,且0.7之上的達到89%,可以認為強對流風(fēng)暴與中氣旋的典型變量之間存在顯著相關(guān)性.
表4?最小支持度為30%的頻繁模式
Tab.4?Frequent-itemsets with min_sup=30%
為了說明算法的優(yōu)越性,本文在不同支持度下比較了Apriori算法、FP-growth算法與Eclat算法的運行時間與內(nèi)存占用,結(jié)果如圖4與圖5所示.
圖4?不同支持度閾值下3種算法運行時間的比較
從圖4可以看出,Eclat算法在不同支持度下的所需的運行時間最短,可以達到近乎實時運行的效果.這是因為Eclat算法只需對數(shù)據(jù)集進行1次掃描,極大地減少了對搜索空間的搜尋時間,而且符號化的事務(wù)集有很高的重復(fù)率,數(shù)據(jù)量較小,使用Eclat算法時執(zhí)行交叉操作所需的時間非常短.
圖5?不同支持度閾值下3種算法內(nèi)存占用的比較
從圖5可以看出,在不同的支持度閾值下,F(xiàn)P-growth算法的內(nèi)存占用多,大于Apriori算法的內(nèi)存占用,但Eclat算法所占的內(nèi)存始終是最小的.
???(30)
???(31)
表5?兩組數(shù)據(jù)變化趨勢關(guān)系
Tab.5?Change trend relation of two sets of data
第2組數(shù)據(jù)的變化趨勢第1組數(shù)據(jù)的變化趨勢 加強減弱 加強 減弱
強對流風(fēng)暴和中氣旋參數(shù)單調(diào)性特征的關(guān)系如表6所示.
表6?單調(diào)性特征的關(guān)系
Tab.6?Relation of monotonicity characteristic
強對流風(fēng)暴的變化趨勢中氣旋的變化趨勢 2a,2c2b 1a,1c9744 1b32106
表7?局部極值關(guān)系
Tab.7?Relation of local extreme
N強對流風(fēng)暴的極值點中氣旋的極值點 2p,2o2t 21p,1o6525 1t1530 31p,1o289 1t54
(1)應(yīng)用典型相關(guān)分析方法發(fā)現(xiàn)強對流風(fēng)暴與中氣旋的標準化參數(shù)的第1對典型變量之間存在顯著的相關(guān)性.
(2)使用Eclat算法對符號化后序列進行頻繁項目集的挖掘,得到的頻繁項集顯示強對流風(fēng)暴與中氣旋參數(shù)的變化趨勢呈現(xiàn)很大的一致性.
(3)相比于Apriori算法和FP-growth算法,Eclat算法需要的運行時間更少,占用內(nèi)存更低.
(4)本文提出了一種性能度量的方法,根據(jù)其正比率與反比率直觀地反映出兩組時間序列數(shù)據(jù)之間變化趨勢相似程度,驗證了所得到的頻繁項集的正?確性.
[1] 程?浩. 中尺度氣旋識別與三維重建[D]. 天津:天津大學(xué)電氣與自動化學(xué)院,2007.
Cheng Hao. Mesoscale Cyclone Identification and 3D Reconstruction[D]. Tianjin:School of Electrical and Automation,Tianjin University,2007(in Chinese).
[2] 方?翀,鄭媛媛. 新一代天氣雷達中氣旋產(chǎn)品特征值統(tǒng)計和個例分析[J]. 氣象,2007,33(11):16-20.
Fang Chong,Zheng Yuanyuan. The analysis of mesocyclone product from the Doppler weather radar[J]. Meteorological Monthly,2007,33(11):16-20(in Chinese).
[3] 吳芳芳,俞小鼎,張志剛,等. 對流風(fēng)暴內(nèi)中氣旋特征與強烈天氣[J]. 氣象,2012,38(11):1330-1338.
Wu Fangfang,Yu Xiaoding,Zhang Zhigang,et al. The characteristics of the mesocyclone and severe weather associated with convective storms[J]. Meteorological Monthly,2012,38(11):1330-1338(in Chinese).
[4] 鄭?艷,俞小鼎,任福民,等. 海南一次超級單體引發(fā)的強烈龍卷過程觀測分析[J]. 氣象,2017,43(6):675-685.
Zheng Yan,Yu Xiaoding,Ren Fumin,et al. Analysis on a severe tornado process in Hainan triggered by supercell[J]. Meteorological Monthly,2017,43(6):675-685(in Chinese).
[5] 高曉梅,孫雪峰,秦瑜蓬,等. 山東一次強對流天氣的環(huán)境條件和對流風(fēng)暴特征[J]. 干旱氣象,2018,36(3):447-455.
Gao Xiaomei,Sun Xuefeng,Qin Yupeng,et al. Environmental conditions and convective storm features of a severe convective weather process in Shandong Province[J]. Journal of Arid Meteorology,2018,36(3):447-455(in Chinese).
[6] 張?艷. 基于雷達圖像的中氣旋的識別及超折射回波的濾除[D]. 天津:天津大學(xué)電氣與自動化學(xué)院,2009.
Zhang Yan. Identification of Mesocyclones Based on Radar Images and Filtering out of Super Reflection Echoes[D]. Tianjin:School of Electrical and Automation,Tianjin University,2009(in Chinese).
[7] Agrawal R,Srikant R. Fast algorithms for mining association rules in large databases[J]. Computer Engineering & Applications,2000,15(6):619-624.
[8] Han J,Pei J,Yin Y. Mining frequent patterns without candidate generation[J]. ACM SIGMOD Record,2000,29(2):1-12.
[9] Zaki M J. Scalable algorithms for association mining[J]. IEEE Trans on Knowledge and Data Engineering,2000,12(3):372-390.
[10] Das G,Lin K I,Mannila H,et al. Rule discovery from time series[C]//Proceedings of the 4th International Conference on Knowledge Discovery and Data Mining. Mcnlo Park,USA,1998:16-22.
[11] Lin J,Keogh E,Lonardi S,et al. A symbolic representation of time series,with implications for streaming algorithms[C]//ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery. New York,USA,2003:2-11.
[12] Xue R,Zhang T,Chen D,et al. Sensor time series association rule discovery based on modified discretization method[C]// IEEE International Conference on Computer Communication and the Internet. San Fran-cisco,CA,USA,2016:196-202.
[13] Guo Y,Ding X,Liu C,et al. Sufficient canonical correlation analysis[J]. IEEE Transactions on Image Processing,2016,25(6):2610-2619.
[14] Hotelling H. Relations between two sets of variates[J]. Biometrika,1936,28:321-377.
[15] 曾海泉. 時間序列挖掘與相似性查找技術(shù)研究[D]. 上海:復(fù)旦大學(xué)信息科學(xué)與工程學(xué)院,2003.
Zeng Haiquan. Research on Mining and Similarity Searching in Time Series Data Base[D]. Shanghai: School of Information Science and Technology,F(xiàn)udan University,2003(in Chinese).
[16] Aggarwal C C,Sun Z,Yu P S. Fast Algorithms for online generation of profile association rules[J]. IEEE Trans on Knowledge and Data Engineering,2015,14(5):1017-1028.
[17] 陳培恩.關(guān)聯(lián)規(guī)則Eclat算法改進研究[D].重慶:重慶大學(xué)計算機學(xué)院,2010.
Chen Pei’en. Improving Research on Association Rules Eclat Algorithm[D]. Chongqing:School of Computer Science,Chongqing University,2010(in Chinese).
[18] Zaki M J. Scalable algorithms for association mining[J]. IEEE Trans on Knowledge and Data Engineering,2000,12(3):372-390.
(責(zé)任編輯:孫立華)
Evolution Relationship Between Parameters of Mesocyclone and Severe Convective Storm
Zhang Jun,YanLifei,HouJinyi
(School of Electrical and Information Engineering,Tianjin University,Tianjin 300072,China)
Severe convective weathers are extremely harmful to the public. The mesocyclone inside a severe convective storm is usually related to disaster weathers. To predict the occurrence time of severe convective weathers,the correlations between the parameters of mesocyclones and those of severe convective storms were studied. Moreover,a method for mining time series association rules was introduced in order to evaluate the variation law between severe convective storm parameters and mesocyclone parameters. Twenty-four severe convective storm cases involving mesocyclones in the Tianjin Tanggu radar station were collected. The case set was described by a time series of severe convective storm parameters and mesocyclone parameters,and a variable analysis algorithm was used to reduce the normalized time series data. Considering the trend of the variation between sequences and the influence of local key points,the monotonic features and local extremum features were extracted to symbolize the time series. The symbols in the same period were composed into a transaction set,and the frequent itemsets were found using the Eclat algorithm. Furthermore,a performance metrics method that reflects the similarity of the trends between the two sets of time series data according to positive ratio and inverse ratio is proposed to evaluate the variation law of two sets of data. Experimental results show that there is a significant correlation between the severe convective storm parameters and the mesocyclone parameters. The correlation coefficient of the first pair of typical variables is higher than 0.5. Under the support degree of 0.05—0.30,the running time of the Eclat algorithm is less than 0.7ms,and the memory occupancy is less than 121KB,which are better than those of both Apriori algorithm and FP-growth algorithm;the positive ratio between the severe convective storm parameters and the mesocyclone parameters is greater than 0.7,which reflects the similarity degree between the severe convective storm and the mesocyclone parameters and verifies the correctness of the frequent itemsets. This study provides a theoretical basis for predicting the trend and occurrence time of severe convective weathers using mesocyclone data.
severe convective storm;mesocyclone;association rule mining;time series
10.11784/tdxbz201807023
P447
A
0493-2137(2019)03-0277-08
2018-07-14;
2018-10-11.
張?軍(1964—??),男,博士,副教授,zhangjun@tju.edu.cn.
侯謹毅,houjinyi@tju.edu.cn.
天津市青年科學(xué)基金資助項目(2016120024002432).
the Youth Science Fund Project of Tianjin,China(No. 2016120024002432).