沈妍琰, 黃興友, 黃書榮, 沈艷秋, 陳曉穎
基于貝葉斯分類器的多普勒天氣雷達海浪回波識別和效果檢驗
沈妍琰, 黃興友, 黃書榮, 沈艷秋, 陳曉穎
(南京信息工程大學 大氣物理學院, 江蘇 南京 210044)
為了提升雷達數(shù)據(jù)質量, 減少海浪回波對臨近預報和數(shù)值天氣預報模式的雷達數(shù)據(jù)同化的不利影響, 因此需要對海浪回波進行識別和去除。識別算法主要為統(tǒng)計獲得先驗概率, 分析海浪和降水回波特征分布得到似然函數(shù), 再經過貝葉斯分類器來達到識別的目的。在本次算法識別過程中65個樣本數(shù)據(jù)試驗的臨界成功指數(shù)CS達到了0.692, 結果表明利用貝葉斯分類器對海浪回波的識別, 具有較好的識別效果, 能一定程度降低海浪回波誤判為降水回波的錯誤, 提高雷達數(shù)據(jù)質量。
海浪回波; 回波識別; 貝葉斯分類器; 似然函數(shù); 先驗概率
沿海地區(qū)的雷達回波上經常會出現(xiàn)海浪回波, 這一類非氣象回波主要是由超折射現(xiàn)象引起的, 在一定程度上影響了雷達資料質量, 同時對降水回波產生干擾。海浪回波主要出現(xiàn)在海面區(qū)域, 由許多針狀的回波體組成, 呈扇形向外輻散, 回波高度比較低, 一般出現(xiàn)在雷達探測仰角為0.5°的回波中, 很少出現(xiàn)在第二個探測仰角中。海浪回波的徑向速度偏小, 主要集中在–10~5 m/s, 和降水回波相比, 在回波形態(tài), 垂直結構, 徑向速度等方面有較大的差異。
隨著高分辨率數(shù)值天氣預報(NWP)的快速發(fā)展, 在NWP中對雷達數(shù)據(jù)進行同化(DA, Data assimilation)是十分有必要的。為了向數(shù)值模式提供可靠的雷達數(shù)據(jù), 首先需要對雷達數(shù)據(jù)進行質量控制, 判別降水回波和非降水回波。沿海地區(qū)雷達探測的海浪回波是一種典型的常見非降水回波, 需要被識別和去除。國內外科研人員在這方面做了很多研究, 同時也形成了多種雜波識別方法。Kessigner等[1]采用模糊邏輯方法, 在識別地物, 晴空等非降水回波方面有明顯效果, 該識別方法已經廣泛運用于美國的天氣雷達系統(tǒng)。Lakshmanman等[2]采用神經網絡對雷達數(shù)據(jù)進行質量控。國內劉黎平等[3]提出分步式的模糊邏輯方法對超折射地物回波進行識別, 取得了一定的識別效果。譚學等[4-5]采用類似于超折射地物雜波的識別方法、對海浪回波進行了回波特征的分析, 利用回波分塊和基于模糊邏輯的分布式海浪回波識別方法對福州、溫州的SA型雷達數(shù)據(jù)進行了有效的海浪回波識別。為了能提高回波分類識別的可靠性, 統(tǒng)計分析領域的貝葉斯分類理論被運用到回波分類識別并取得了一定的進展。Nicol等[6]利用貝葉斯分類器技術提高了對地物雜波識別的效果, Peter等[7]采用貝葉斯分類器(NBC)識別超折射傳播(AP)海浪雜波和降水回波, 使用的特征量包括回波頂部高度、垂直梯度和紋理。
目前國內研究大多使用模糊邏輯算法和機器學習分類算法進行海浪與降水回波的識別。模糊邏輯依賴于通過大量實踐得到的模糊控制規(guī)則, 不需要精確的數(shù)學模型, 但缺乏整體設計的系統(tǒng)性; 傳統(tǒng)的機器學習分類算法, 大多需要大批量的數(shù)據(jù)集訓練, 會耗費大量的計算時間和存儲空間資源。本文利用海浪和降水回波的類條件概率對海面區(qū)域的回波先驗概率進行修正得到最終的海浪回波概率, 識別過程的計算較為簡單, 通過對識別結果的分析, 可以確認貝葉斯分類器識別海浪回波的效果較好。
貝葉斯分類器分為樸素貝葉斯分類器和半樸素貝葉斯分類器, 兩者的主要區(qū)別在于分類變量是否互相獨立[8-9]。本文利用的貝葉斯分類器為半樸素貝葉斯分類器中的TAN(Tree Augmented native Bayes) , 是由Friedman 等人提出的一種樹狀貝葉斯網絡, 是樸素貝葉斯分類器的一種改進模型, 使用的變量并不完全相互獨立, 依然存在一些聯(lián)系, 這類貝葉斯分類器的理論基礎為最大帶權生成樹。
貝葉斯分類器是各種分類器中分類錯誤概率最小或者在預先給定代價的情況下平均風險最小的分類器, 其分類原理是通過某對象的先驗概率, 利用貝葉斯公式計算出其后驗概率, 即該對象屬于某一類的概率, 選擇具有最大后驗概率的類作為該對象所屬的類。
在利用貝葉斯理論進行海浪回波和降水回波的二分類識別時, 貝葉斯公式可以改寫為:
其中,()是由貝葉斯分類器最終得到的該回波點出現(xiàn)海浪回波的概率;()()分別代表了回波點出現(xiàn)海浪回波和降水回波的預期概率, 也即貝葉斯理論中的先驗概率, 在二分類問題中假設出現(xiàn)海浪回波和降水回波的概率和為1, 即()()1,若()=()=0.5, 即我們認為在任何時候出現(xiàn)海浪回波和降水回波的概率都是一樣的, 則此時的貝葉斯分類器稱為樸素貝葉斯分類器, 但實際情況中, 不同季節(jié)不同天氣條件下海浪回波的出現(xiàn)概率并不是0.5, 因此需要對大量的數(shù)據(jù)進行統(tǒng)計。
而在整個貝葉斯分類過程中, 識別的準確性主要取決于海浪回波()和降水回波()這兩類類條件概率, 通過貝葉斯公式對先驗概率進行修正, 得到的()也稱為后驗概率即最終判定的海浪回波的概率(POC, Probability of Clutter)。
文中使用的數(shù)據(jù)來自于廣東省汕頭市的SA型多普勒天氣雷達, 雷達站位置為(116°4159E, 23°1750N), 由于雷達處于海岸線附近, 因此, 該雷達容易接收到海浪回波。輸出數(shù)據(jù)包括徑向分辨率為1 km的反射率因子()、250 m的徑向速度()以及250 m的譜寬()。雷達采用體掃模式VCP21(降水模式)進行探測。為了減少噪聲影響, 對徑向速度數(shù)據(jù)進行了中值濾波處理。
由于雷達強度數(shù)據(jù)以及速度和譜寬數(shù)據(jù)在不同探測仰角下的徑向庫數(shù)目以及分辨率不同, 在計算特征量之前采用劉黎平等[3]提出的方法, 將雷達數(shù)據(jù)進行徑向處理, 按照嚴格的1°間隔順次排列徑向數(shù)據(jù), 以滿足同一回波點回波強度, 徑向速度和譜寬數(shù)據(jù)的一一對應。
算法中采用貝葉斯分類器來處理海浪回波和降水回波的二分類問題, 為了盡量減少地物回波以及晴空回波對算法識別效果的影響, 僅對雷達探測范圍內的海面區(qū)域進行算法識別, 即位于雷達東北方向順時針至雷達西南方向的有效探測區(qū)域。
為了利用貝葉斯分類器進行降水回波和海浪回波的分類識別, 首先對汕頭雷達近三年的回波數(shù)據(jù)進行統(tǒng)計, 得到各個格點出現(xiàn)回波的頻率即先驗概率, 然后分析得到的海浪回波和降水回波的類條件概率()()再通過貝葉斯公式(1)與先驗概率進行修正得到海浪回波的概率, 最后通過閾值判斷每個格點是否為海浪回波。
先驗概率就是事件發(fā)生的預先估計概率。本文利用廣東汕頭SA雷達在2010—2012年探測的233 380個體掃數(shù)據(jù), 統(tǒng)計得到了汕頭SA雷達仰角為0.5°區(qū)域格點出現(xiàn)回波的概率圖(見圖1)。
圖1 2010—2012年汕頭SA雷達0.5°仰角的回波概率圖
從汕頭SA雷達3年的區(qū)域格點回波概率可以看出, 在雷達東北至西南近距離圈內高頻出現(xiàn)的有晴空回波, 超折射地物回波以及海浪回波, 而稍遠距離的海面上回波概率僅為0.3以下, 符合沿海雷達的回波分布特征??梢钥闯龊C鎱^(qū)域海浪回波的出現(xiàn)概率并不能簡單假設為50%, 通過統(tǒng)計獲得的先驗概率體現(xiàn)出了貝葉斯分類器在分類識別方面的優(yōu)勢, 進而提高回波識別的準確率。
通過分析海浪回波和降水回波差異, 選用4個物理量用于識別海浪回波, 它們是: 回波強度()垂直變化GDBZ和紋理TDBZ; 徑向速度的區(qū)域平均值MDVE; 速度譜寬的區(qū)域平均值MDSW。這4個參量的計算公式分別為:
式中,A,R分別代表了在方位和徑向距離方向上定義的計算區(qū)域大小,和分別表示距離以及方位角的索引;low和up代表了本層和上層的回波強度,low和up為本層和上層的回波仰角的度數(shù), GDBZ反映了回波強度的垂直變化。由于海浪回波很少出現(xiàn)在第二層, 因此當出現(xiàn)庫上無回波數(shù)據(jù)時, 為了計算方便, 將缺省值設置為–33(遠低于正常回波的強度); TDBZ反映了回波強度的局地變化, 回波越均勻, TDBZ越小, 反之越大。對于天氣雷達的探測參數(shù), 目前普遍認為7×7與9×9的區(qū)域都能較好地體現(xiàn)回波的紋理特征, 因此, 本文識別中選取9×9為TDBZ的計算范圍; 而MDVE和MDSW的計算區(qū)域選取最小的范圍3×3即可。
分別選用汕頭SA雷達的純降水回波數(shù)據(jù)和純海浪回波數(shù)據(jù)進行統(tǒng)計, 其中降水數(shù)據(jù)包括層狀云降水, 對流型降水, 混合型降水過程。通過對降水和海浪數(shù)據(jù)的統(tǒng)計分析, 得到海浪回波和降水回波的GDBZ, TDBZ, MDVE和MDSW的概率分布(圖2)??梢钥闯? 海浪回波的徑向速度都偏負數(shù)、速度值較小; 海浪回波的TDBZ較降水回波的大, 說明海浪回波的分布沒有降水回波的均勻; 并且海浪回波的垂直梯度GDBZ明顯大于降水回波, 因為海浪回波通常只出現(xiàn)在0.5度仰角, 高仰角中不出現(xiàn)。
圖2 海浪和降水回波的四個特征參量 TDBZ, GDBZ, MDVE以及MDSW概率分布圖
根據(jù)各個參量的概率密度分布, 采用YO-HAN CHO等人[10]通過概率分布確立似然函數(shù)的計算方法, 分析統(tǒng)計得到的海浪回波和降水回波特征參量的概率分布特征, 最終選擇梯形折線來表示此次研究算法中海浪回波特征參量的似然函數(shù), 函數(shù)值均為0~1區(qū)間(圖3)。
圖3 貝葉斯分類器中四個物理量 TDBZ, GDBZ, MDVE以及MDSW的似然函數(shù)
對于雷達基數(shù)據(jù)中的各個回波點計算其特征量, 并通過對應特征量的似然函數(shù), 計算各自的判據(jù)值, 然后對每個點進行加權求和, 具體計算公式為:
其中()為貝葉斯分類器中海浪回波的類條件概率,()為通過似然函數(shù)得到的各個特征參數(shù)的函數(shù)值,()為各個特征參量的權重系數(shù)(如表1)。由于研究的是二分類問題,()()=1, 因此()的數(shù)值越大, 則代表了()越小, 回波點為海浪回波的可能性越大, 反之, 是降水回波的可能性就越大。之后再將得到的(),()代入貝葉斯分類公式(1)中計算最后的(), 即該回波點出現(xiàn)海浪回波的最終概率, 再通過閾值判斷來進行逐點識別。
表1 特征量及其權重系數(shù)
具體算法步驟見圖4。
圖4 算法流程圖
為了檢驗識別效果, 選取了不同天氣條件下的兩個海浪回波個例, 分別為臺風降水(圖5)、層狀云降水(圖6), 檢驗貝葉斯分類器對海浪回波的識別效果。
2010年8月29日 06時(世界時, 下同)汕頭雷達觀測到的一次超折射海浪回波, 當仰角為0.5°時,在雷達東南側距離雷達站0~50 km的海面區(qū)域上存在一塊弱的回波體, 回波較弱, 很難達到1.5°仰角體掃, 徑向速度與降水回波相比較小, 可以判斷出該回波為海浪回波, 利用貝葉斯分類器可以較準確地識別海浪回波, 并對海浪回波進行了濾除, 提高雷達的降水回波數(shù)據(jù)質量。
2010年1月7日13時30分, 汕頭雷達觀測到的一次海浪回波。從圖6中可以看出, 雷達站周圍出現(xiàn)了大面積的層狀云降水回波, 在海面區(qū)域0.5°仰角的強度PPI回波圖上也出現(xiàn)了明顯的扇形海浪回波, 將仰角抬高至1.5°后, 該回波形態(tài)基本消失, 從0.5°和1.5°仰角的徑向速度上可以看出, 海浪回波的徑向速度比降水回波要小。由于降水回波的面積較大, 在一定程度上與海面的海浪回波有了重疊, 這對海浪回波的識別造成了一定的困難。
第五幅圖為利用貝葉斯分類器識別和濾除海浪回波后的0.5°仰角反射率因子, 距離雷達站50 km內的海浪回波基本被濾除, 但仍然保留了一些弱的、沒有被正確識別的海浪回波點, 這些“雜點”的回波強度為0左右, 遠低于正常降水回波強度, 不會對降水回波數(shù)據(jù)質量產生顯著影響??梢钥闯? 當雷達站附近出現(xiàn)大范圍降水回波并與海浪回波存在重疊的情況下, 利用貝葉斯分類器可以對海浪回波進行有效的識別。對海浪回波被剔除后所產生的回波“空洞”, 可以利用第二層仰角的數(shù)據(jù)進行插值填補, 使得降水回波更具連續(xù)性, 最終得到填補后的0.5°仰角的雷達反射率因子PPI圖像。
選取廣東汕頭SA雷達探測到的65個存在海浪回波的體掃數(shù)據(jù)進行算法效果檢驗, 其中貝葉斯分類器成功識別出海浪回波的樣本數(shù)為45個, 未能識別的為20個, 誤識別的為0個。針對檢驗結果, 采用臨界成功指數(shù)來進行效果評估, 具體指標為臨界成功指數(shù)CS, 命中率H, 漏報率M以及虛警率FA, 計算公式如下:
公式(7)中x為成功識別樣本數(shù), y為未能識別但實際存在的海浪回波樣本數(shù), z為無海浪回波但將降水回波誤識別為海浪回波的樣本數(shù)。本次試驗中, ICS為0.692, RH為0.692, RM為0.308, RFA為0。臨界成功指數(shù)達到0.692顯示貝葉斯分類器對于海浪回波的識別效果較好, 但為了能夠更準確的識別海浪回波, 還需進一步的研究。
利用廣東汕頭SA雷達觀測數(shù)據(jù), 分析了海浪回波和降水回波的回波特征, 主要利用了回波強度, 徑向速度和速度譜寬資料, 借助貝葉斯分類器, 對海浪回波進行了識別和去除, 研究表明:
1) 降水回波和海浪回波的垂直變化(GDBZ)、回波強度的紋理(TDBZ)、徑向速度區(qū)域平均值(MDVE)和速度譜寬區(qū)域平均值(MDSW)有明顯的區(qū)別, 可以作為識別和去除海浪回波的主要特征量。
2) 利用貝葉斯分類器, 能夠較為有效地區(qū)分海浪和降水回波, 通過調整先驗概率和似然函數(shù), 本文的研究方法同樣可用于其他沿海地區(qū)雷達的海浪回波識別。貝葉斯分類器具有穩(wěn)定的海浪回波識別效果, 體現(xiàn)了貝葉斯分類器在海浪回波識別領域的價值。
3) 雷達站周圍長期存在著很弱的晴空回波, 利用貝葉斯分類器進行海浪回波識別濾除的同時, 由于缺少準確的海面區(qū)域地理數(shù)據(jù), 可能會將部分晴空回波剔除。
4) 貝葉斯分類器的準確性和穩(wěn)定性主要依賴于統(tǒng)計得到的先驗概率以及似然函數(shù), 因此需要對大量的樣本數(shù)據(jù)進行統(tǒng)計, 以便提高貝葉斯分類器的識別效率。
[1] Kessiner C, Ellis S, Vanandel J, et al. The AP clutter mitigation scheme for the WSR-88D[C]//Amer Meteor Soc. Preprints of 31st Conference on Radar Meteorology, Seattle Washington. Washington: Amer Meteor Soc, 2003: 526-529.
[2] Lakshmanan V, Hondl K, Stumpf G, el al. Quality control of weather radar data using texture features and a neural network[C]//IEEE. Proceedings of the 5th International Conference on Advances in Pattern Recognion. Kolkata: IEEE: 2003: 15-18.
[3] 劉黎平, 吳林林, 楊引明.基于模糊邏輯的分步式超折射地物回波識別方法的建立和效果分析[J]. 氣象學報, 2007, 65(2): 252-260. Liu Liping, Wu Lingling, Yang Yinming. Development of fuzzy-logical two-step ground clutter detection algorithm[J]. Acta Meteorologica Sinica, 2007, 65(2): 252- 260.
[4] 譚學, 劉黎平, 范思睿. 新一代天氣雷達海浪回波特征分析和識別方法[J]. 氣象學報, 2013, 71(5): 962- 975. Tan Xue, Liu Liping, Fan Sirui. Statistical characteristics of sea clutter and its identification with the CINRAD. Acta Meteorologica Sinica, 2013, 71(5): 962-975.
[5] 譚學, 劉黎平, 范思睿. 福州SA雷達新觀測模式結果對比及海浪回波識別[J]. 成都信息工程學院學報, 2013, 28(5): 513-519. Tan Xue, Liu Liping, Fan Sirui. Comparison of detecting result using new volume scan strategies and identification of sea clutter with Fuzhou SA Radar[J]. Journal of Chengdu University of Information Technology, 2013, 28(5): 513-519.
[6] Hubbert J C, Dixon M, Ellis S M. 2009: Weather radar ground clutter. Part II: Real-time identification and filtering[J]. Atmos Oceanic Technol, 2009, 26: 1181-1197.
[7] Peter J R, Seed A, Steinle P. Application of a Bayesian classifier of anomalous propagation to single-polariza-tion radar reflectivity data[J]. Atmos Oceanic Technol, 2013, 30: 1985-2005.
[8] 盛驟, 謝式千, 潘承毅. 概率論與數(shù)理統(tǒng)計[M]. 第三版. 北京: 高等教育出版社, 2001: 22-26. Sheng Zhou, Xie Shiqian, Pan Chengyi. Probability theory and mathematical statistics[M]. The Third Edition. Beijing: Higher Education Press, 2001: 22-26.
[9] 周志華. 機器學習[M]. 北京: 清華大學出版社, 2016: 147-164. Zhou Zhihua. Machine Learning[M]. Beijing: Tsinghua University Press, 2016: 147-164.
[10] Cho Y H, Lee G W, Kim K E, et al. Identification and removal of ground echoes and anomalous propagation using the characteristics of radar echoes[J]. Journal of Atmospheric and Oceanic Technology, 2006, 23(9): 1206-1222.
Identification and validation of sea-wave echoes collected by a Doppler weather radar based on a Bayes classifier
SHEN Yan-yan, HUANG Xing-you, HUANG Shu-rong, SHEN Yan-qiu, CHEN Xiao-ying
(Nanjing University of Information Science and Technology, Nanjing 210044, China)
Weather radar data quality is usually degraded due to the presence of sea-wave echoes in coastal areas. To deduce problems caused by non-precipitation sea-wave echoes in nowcasting and numerical weather models while assimilating radar measurements, sea-wave echoes need to be identified and removed. The key of a Bayes classifier for the classification of precipitation and sea-wave echoes is the prior probability and likelihood function based on statistics. An experiment with 65 samples shows that the Critical Successful Indexcsis 0.692, which implies that the Bayes classifier works well in identifying sea-wave echoes. The classification of sea-wave echoes with the Bayes classifier can also mitigate the chance of being regarded as precipitation echoes.
sea-wave echo; echo identification; Bayes classifier; likelihood function; prior probability
Oct. 11, 2019
P406
A
1000-3096(2020)06-0083-08
10.11759/hykx20191011001
2019-10-11;
2019-11-15
國家重點研發(fā)計劃(2018YFC1506102)
[National Key R&D Program of China, No.2018YFC1506102]
沈妍琰(1995-), 女,江蘇南通人, 碩士, 研究方向為雷暴天氣中的災害性天氣識別, 電話: 13260816017, E-mail:425881170@qq.com; 黃興友,通信作者, 主要從事雷達氣象學, 雷達及其他遙感資料的處理和應用研究, E-mail: hxyradar@126.com
(本文編輯: 劉珊珊)