国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于增量貝葉斯的雙偏振氣象雷達(dá)降水粒子分類方法

2022-07-01 08:01孫婷逸程新宇
關(guān)鍵詞:貝葉斯分類器增量

李 海, 孫婷逸, 程新宇

(中國民航大學(xué)天津市智能信號與圖像處理重點(diǎn)實(shí)驗(yàn)室, 天津 300300)

0 引言

我國的氣候條件復(fù)雜而多變,氣象災(zāi)害種類繁多且發(fā)生頻率較高,若不能準(zhǔn)確探測天氣條件,容易造成嚴(yán)重的氣象損失。相較于傳統(tǒng)氣象雷達(dá),雙偏振氣象雷達(dá)獲取到的氣象粒子大小、形狀、空間位置等信息更加精準(zhǔn),因此在定量估計(jì)降水、獲知粒子相態(tài)、預(yù)警災(zāi)害等方面具有重要意義。

目前,實(shí)現(xiàn)雙偏振氣象雷達(dá)降水粒子分類算法的主要思路有兩種,一種是模糊邏輯算法,另一種是機(jī)器學(xué)習(xí)類方法。Straka (1996年)首次在降水粒子分類領(lǐng)域應(yīng)用了模糊邏輯算法。之后大部分專家研究了該算法在不同波段雷達(dá)中的應(yīng)用,以及輸入?yún)⒘康倪x取和隸屬度函數(shù)的選擇等問題。雖然模糊邏輯算法能夠有效對降水粒子進(jìn)行分類,但是由于隸屬度函數(shù)參數(shù)的確定、函數(shù)的形狀以及權(quán)值的選擇主要依靠專家經(jīng)驗(yàn)值,具有很強(qiáng)的主觀性,因此容易造成分類誤差。近二十年來,-近鄰算法、決策樹算法,以及聚類算法等機(jī)器學(xué)習(xí)熱度再次燃起。-近鄰算法方法簡單且適用于多分類,但值的選取往往需要依靠專家經(jīng)驗(yàn)值,數(shù)據(jù)量大時(shí)計(jì)算量也會增加;決策樹算法運(yùn)行速度快,對于缺失屬性的樣本包容性強(qiáng),但不僅容易造成過度擬合還會忽略數(shù)據(jù)屬性間的聯(lián)系;聚類的方法簡單且無需訓(xùn)練數(shù)據(jù)集,但是對非規(guī)則形狀的降水粒子分類性能較差。2008年Marzano等將貝葉斯分類算法與降水粒子分類結(jié)合在一起。由于貝葉斯分類算法能夠充分地應(yīng)用先驗(yàn)信息,并且能夠隨著屬性特征的增減調(diào)整算法的結(jié)構(gòu),在降水粒子分類算法中更具優(yōu)勢。

雖然樸素貝葉斯算法原理簡單,但是在實(shí)際應(yīng)用中需要為其提供數(shù)量大、質(zhì)量高的訓(xùn)練數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)集內(nèi)數(shù)據(jù)最可靠的獲取方法是使用帶有粒子檢測系統(tǒng)的探測器深入到云層中進(jìn)行采集,然而此方法成本較高、獲取數(shù)據(jù)量少。這致使貝葉斯算法的分類效果很大程度上受限于訓(xùn)練數(shù)據(jù)集樣本的數(shù)量。不僅如此,訓(xùn)練數(shù)據(jù)集一成不變易致使分類器泛化性不足,而重新訓(xùn)練分類器以大量時(shí)間為代價(jià)。為了解決這一問題,學(xué)者們提出了一種增量學(xué)習(xí)方法,即在接受過訓(xùn)練的系統(tǒng)或者算法的基礎(chǔ)上,追加包含有用信息的數(shù)據(jù)樣本至原有數(shù)據(jù)集,提取出的有用信息會對分類器進(jìn)行更新而無需重新訓(xùn)練分類器,以此實(shí)現(xiàn)在擴(kuò)充舊知識的同時(shí)逐步動態(tài)地掌握新信息的過程。在充分利用與發(fā)揮樸素貝葉斯理論適應(yīng)性前提下,合理應(yīng)用增量學(xué)習(xí)實(shí)現(xiàn)動態(tài)調(diào)節(jié)算法的過程,能夠在增加樣本數(shù)量的同時(shí)增強(qiáng)算法的分類效果,提高其適應(yīng)性。

因此,本文提出了一種基于增量貝葉斯的雙偏振氣象雷達(dá)降水粒子分類方法。該方法首先對偏振參量數(shù)據(jù)進(jìn)行離散化處理,然后由帶標(biāo)簽數(shù)據(jù)計(jì)算得到的偏振參量條件概率表來構(gòu)建離散屬性樸素貝葉斯分類器,接著使用樸素貝葉斯分類器分類無標(biāo)簽數(shù)據(jù),將符合條件的數(shù)據(jù)追加到訓(xùn)練數(shù)據(jù)集中,最后修正樸素貝葉斯分類器完成增量學(xué)習(xí),得到增量貝葉斯分類器實(shí)現(xiàn)降水粒子分類。

1 增量貝葉斯降水粒子分類算法

增量貝葉斯降水粒子分類算法首先對數(shù)據(jù)進(jìn)行離散化,之后利用有標(biāo)簽的訓(xùn)練數(shù)據(jù)集計(jì)算出條件概率表實(shí)現(xiàn)樸素貝葉斯分類器的構(gòu)造,結(jié)合貝葉斯公式實(shí)現(xiàn)無標(biāo)簽的增量數(shù)據(jù)集的分類,使其成為有標(biāo)簽數(shù)據(jù),并將符合閾值門限的新的有標(biāo)簽數(shù)據(jù)加入到原始訓(xùn)練數(shù)據(jù)集中,更新樸素貝葉斯分類器得到增量貝葉斯分類器,最后利用增量貝葉斯分類器進(jìn)行降水粒子分類。

1.1 數(shù)據(jù)離散化

圖1 離散化流程圖

1.2 樸素貝葉斯分類器

將離散化處理后的偏振參量數(shù)據(jù)作為屬性節(jié)點(diǎn)輸入到樸素貝葉斯分類器中。除屬性節(jié)點(diǎn)外,樸素貝葉斯分類器的結(jié)構(gòu)還包括類節(jié)點(diǎn)以及有向線段,如圖2所示。類節(jié)點(diǎn)的取值對應(yīng)分類器輸出的9類降水粒子(視地雜波為一種降水粒子類別),如表1所示。

圖2 樸素貝葉斯結(jié)構(gòu)

表1 類標(biāo)簽取值及降水粒子輸出結(jié)果

(1)

式中,為樣本總個(gè)數(shù)。根據(jù)這種計(jì)算方式,計(jì)算出每個(gè)離散化標(biāo)準(zhǔn)值關(guān)于降水粒子種類的條件概率值,即可得到屬性節(jié)點(diǎn)關(guān)于類節(jié)點(diǎn)的條件概率表,如圖3所示。同理,依次得到其余屬性節(jié)點(diǎn)與類節(jié)點(diǎn)之間的條件概率表,即可完成樸素貝葉斯分類器的構(gòu)建。

圖3 屬性節(jié)點(diǎn)ZH關(guān)于類節(jié)點(diǎn)C的條件概率表

1.3 增量貝葉斯分類器

將樸素貝葉斯分類器進(jìn)行增量學(xué)習(xí),即可得到增量貝葉斯分類器。增量學(xué)習(xí)是指將無標(biāo)簽數(shù)據(jù)經(jīng)過樸素貝葉斯分類器分類后,通過嚴(yán)格的判斷過程將滿足條件的新的有標(biāo)簽數(shù)據(jù)擴(kuò)充到訓(xùn)練數(shù)據(jù)集中,并且修正樸素貝葉斯分類器。將全部的無標(biāo)簽數(shù)據(jù)學(xué)習(xí)完畢,即完成增量貝葉斯分類器的構(gòu)建。

(a) 擴(kuò)充訓(xùn)練數(shù)據(jù)集

將離散化后的無標(biāo)簽數(shù)據(jù)輸入到樸素貝葉斯分類器中進(jìn)行分類判斷,即可得到有標(biāo)簽數(shù)據(jù)。用,,,分別表示樸素貝葉斯分類器的屬性節(jié)點(diǎn),,,,則該分類判斷過程可由下式描述:

(2)

式中,∈{1,2,…,9}表示降水粒子的標(biāo)簽類別數(shù),表示第個(gè)屬性節(jié)點(diǎn),∈{1,2,3,4},(,,,)為常數(shù)。公式(2)轉(zhuǎn)化為式(3):

(3)

然而并非所有新帶標(biāo)簽數(shù)據(jù)都適合用來擴(kuò)充訓(xùn)練數(shù)據(jù)集。本文借鑒了羅福星等人提出的類置信度的概念,即設(shè)定一個(gè)閾值,通過判斷經(jīng)過樸素貝葉斯分類器分類后的數(shù)據(jù)樣本是否達(dá)到閾值條件來決定其能否進(jìn)行下一步的增量學(xué)習(xí)。因此,數(shù)據(jù)樣本屬于某種降水粒子的類置信度定義為

(4)

(b) 修正樸素貝葉斯分類器

當(dāng)新帶標(biāo)簽數(shù)據(jù)樣本加入到訓(xùn)練數(shù)據(jù)集中時(shí),樸素貝葉斯分類器的類先驗(yàn)概率值和各個(gè)屬性節(jié)點(diǎn)的類條件概率會發(fā)生變化,需要對概率公式進(jìn)行修正。類先驗(yàn)概率值公式如式(3)所示,其修正公式如下:

(5)

式中,()′表示新加入數(shù)據(jù)樣本后的類先驗(yàn)概率值,∈{1,2,…,9},()表示未加入前的類先驗(yàn)概率值,為未加入數(shù)據(jù)樣本前的樣本總數(shù),為新加入的樣本數(shù)據(jù)的降水粒子類別。通過執(zhí)行公式(5)中不同公式,實(shí)現(xiàn)對分類器類先驗(yàn)概率值的修正。

類條件概率值公式如式(1)所示,其修正公式如下:

(6)

對于投入到訓(xùn)練數(shù)據(jù)集中的一個(gè)新帶標(biāo)簽數(shù)據(jù)樣本,完成類先驗(yàn)概率值以及屬性節(jié)點(diǎn)的類條件概率的修正即可完成一次對樸素貝葉斯分類器的增量學(xué)習(xí)過程,此時(shí)訓(xùn)練樣本集中增加一個(gè)降水粒子數(shù)據(jù)樣本,增量樣本集中減少對應(yīng)的數(shù)據(jù)樣本。之后再取增量樣本集中一個(gè)新的無標(biāo)簽降水粒子數(shù)據(jù)樣本,利用經(jīng)過更新后的樸素貝葉斯分類器給該無標(biāo)簽數(shù)據(jù)賦予標(biāo)簽,并進(jìn)行閾值計(jì)算及判斷,概率值修正等,重復(fù)上述過程,直到增量樣本集為空,結(jié)束樸素貝葉斯分類器的增量學(xué)習(xí)過程,如圖4所示。對樸素貝葉斯分類器增量學(xué)習(xí)完畢,即完成增量貝葉斯分類器的構(gòu)建。

1.4 降水粒子分類過程

完成增量學(xué)習(xí)的樸素貝葉斯分類器即為增量貝葉斯分類器,之后利用構(gòu)造好的增量貝葉斯分類器分類測試數(shù)據(jù)來驗(yàn)證算法性能。由于增量貝葉斯分類器是在樸素貝葉斯分類器的基礎(chǔ)上得到的,因此兩者判斷降水粒子類別的方式本質(zhì)相同,同樣將降水粒子分類問題轉(zhuǎn)變?yōu)楣?2)的最大后驗(yàn)概率問題,最后化簡為公式(3)。區(qū)別在于,進(jìn)行降水粒子分類使用的()為修正后的先驗(yàn)概率值,使用的(|)為修正后的類條件概率值。公式(3)輸出的結(jié)果就是最終得到的降水粒子種類。

圖4 增量學(xué)習(xí)流程圖

2 算法流程

結(jié)合前文,基于增量貝葉斯的雙偏振氣象雷達(dá)降水粒子分類方法流程圖如圖5所示。

具體實(shí)現(xiàn)步驟如下:

步驟1 利用訓(xùn)練數(shù)據(jù)集訓(xùn)練樸素貝葉斯分類器,初始化取樣次數(shù)=1;

步驟3 依據(jù)式(5)判斷是否滿足閾值條件,若滿足則進(jìn)行步驟4,否則執(zhí)行步驟5;

步驟6 結(jié)束增量貝葉斯分類器的構(gòu)造過程,并進(jìn)行降水粒子分類。

圖5 基于增量貝葉斯的雙偏振氣象雷達(dá)降水粒子分類方法流程圖

通過上述步驟即可實(shí)現(xiàn)對增量貝葉斯分類器的構(gòu)造過程,經(jīng)此得到的訓(xùn)練數(shù)據(jù)集數(shù)據(jù)得到擴(kuò)充,得到的增量貝葉斯分類器具有更高的分類準(zhǔn)確率以及更強(qiáng)的泛化性。

3 實(shí)驗(yàn)算法驗(yàn)證

實(shí)驗(yàn)數(shù)據(jù)集取自NOAA(National Oceanic and Atmospheric Administration,美國國家海洋和大氣管理局)官方網(wǎng)站,選取WSR-88D雷達(dá)網(wǎng)中坐落于俄克拉荷馬市(OKLAHOMA)的一部雙偏振氣象雷達(dá)KTLX,該雷達(dá)位于35.1958N° 97.1640W°,波長為10 m,脈沖重復(fù)頻率為250~1 200 Hz,仰角為0.5°。

實(shí)驗(yàn)一:首先采集了KTLX雷達(dá)在2019年9月13日11:46時(shí)刻的雷達(dá)回波數(shù)據(jù)作為測試數(shù)據(jù)測試算法性能,然后分別給出了樸素貝葉斯分類器,增量貝葉斯分類器,以及模糊邏輯算法(NOAA官方提供分類結(jié)果)的降水粒子分類結(jié)果,如圖6所示。3種算法分類結(jié)果的不同類別降水粒子數(shù)量統(tǒng)計(jì)如表2所示。由于本文分類結(jié)果以圖像形式呈現(xiàn),因此引入灰度共生矩陣定量的分析分類結(jié)果圖像的特征。主要使用了其中3個(gè)特征:1) 能量 指灰度共生矩陣元素值平方和,是衡量圖像灰度分布的均勻性的重要指標(biāo)。2) 同質(zhì)性 一幅圖像對角元素間的相緊密度,同質(zhì)性與圖像像素間的相同度成正比,當(dāng)圖像中所有元素全部相同時(shí)有最大同質(zhì)性。3) 熵 圖像中紋理信息的多少反映了圖像中所包含的信息量的大小。

(a) 樸素貝葉斯算法分類結(jié)果圖

(b) 增量貝葉斯算法分類結(jié)果圖

(c) 模糊邏輯算法分類結(jié)果圖圖6 不同方法所得分類結(jié)果對比圖 (2019/09/13 11:46)

表2 各類粒子數(shù)量及占比(2019/09/13 11:46)

通過圖6可以看出3種分類器都能夠很好地完成降水粒子分類過程。比較圖6(a)、(b)、(c)三組分類結(jié)果圖易知:該地區(qū)的當(dāng)日氣候主要以雨、干雪以及大雨滴為主,混合少量的濕雪,且相鄰降水粒子種類連續(xù)性較強(qiáng)。從圖6可知,暴雨與大雨滴周圍一般存在雨這種降水粒子,這是由于降雨一般由對流云或者層狀云形成,不同物理過程決定了雨的形狀大小以及粒子的濃度密度等特征,即暴雨與大雨滴是在雨的基礎(chǔ)上增加粒子的大小、濃度等形成的。冰雹、冰晶是由于水蒸氣的溫度急速下降,水蒸氣凝華形成冰團(tuán)導(dǎo)致的,當(dāng)過冷的水滴聚集在下落的雪花上時(shí),就會形成了稱為軟冰雹的霰,因此在雨雪交界的地方多存在此三者降水粒子。圖6(b)中分類結(jié)果圖相較于圖6(a)圖像展現(xiàn)出較強(qiáng)的物理聚類特征,這表明所提方法對降水粒子的分類能力更強(qiáng);且圖像更加清晰凝實(shí),這是由于每一個(gè)樣本在圖中都以不同顏色點(diǎn)的形式存在,結(jié)合表2的數(shù)據(jù)可知增量貝葉斯比樸素貝葉斯算法識別出更多的測試數(shù)據(jù),因此增量貝葉斯分類器的算法結(jié)果圖中點(diǎn)數(shù)更加密集,展現(xiàn)出的圖像更加清晰。此外,觀察易知三組分類結(jié)果圖的主要區(qū)別集中在中間以及左側(cè)居中區(qū)域,在此區(qū)域內(nèi)增量貝葉斯分類算法比樸素貝葉斯分類器識別出了更多的雨,與模糊邏輯算法分類結(jié)果相近,由此說明相較于樸素貝葉斯分類器而言,增量貝葉斯算法具有更好的分類準(zhǔn)確性。通過表2能夠發(fā)現(xiàn),相較于樸素貝葉斯算法,增量貝葉斯算法識別出了更多的地雜波,而分類結(jié)果為大雨滴的數(shù)據(jù)量較少,這是因?yàn)榈仉s波中存在未知點(diǎn),而樸素貝葉斯算法性能有限,容易誤將地雜波判斷為大雨滴。表3中的方位角表示的是圖像紋理方向,例如0°表示水平紋理特征,90°表示的是垂直紋理特征。從表3可知,增量貝葉斯算法的能量與同質(zhì)性皆高于樸素貝葉斯算法,而熵值卻小于樸素貝葉斯算法。這說明圖6(b)中圖像的連續(xù)性與集中性優(yōu)于圖6(a),更符合降水粒子在空間中連續(xù)的特征。

表3 灰度共生矩陣統(tǒng)計(jì)量特征(2019/09/13 11:46)

實(shí)驗(yàn)二:選取2020年4月22日5:06時(shí)刻的雷達(dá)回波數(shù)據(jù)繼續(xù)驗(yàn)證算法性能。

(a) 樸素貝葉斯算法分類結(jié)果圖

(b) 增量貝葉斯算法分類結(jié)果圖

(c) 模糊邏輯算法分類結(jié)果圖圖7 分類結(jié)果對比圖(2020/04/22 5:06)

雪是云層中水汽冷凝形成的固態(tài)降水粒子,根據(jù)密度可將雪分為干雪和濕雪,其中干雪的重量輕,密度小,含水量不足,而濕雪的重量重,密度高,含水量充足。從圖7能夠看出,雪雨多相連存在。通過表3中的各類粒子數(shù)量占比以及圖7中(a)、(b)樸素貝葉斯與增量貝葉斯算法的對比圖來看,增量貝葉斯能夠區(qū)分出更多的降水粒子數(shù)據(jù)樣本,對雨的識別明顯高于樸素貝葉斯分類器,而樸素貝葉斯分類器更多的將數(shù)據(jù)判定為暴雨,相同區(qū)域模糊邏輯的分類結(jié)果判定結(jié)果同為雨,由此可知增量貝葉斯分類器的分類結(jié)果更加準(zhǔn)確。從表4中降水粒子識別數(shù)量來看,相較于樸素貝葉斯分類算法、增量貝葉斯分類器與模糊邏輯算法分別識別出了44 638、62 843、87 481個(gè)地雜波數(shù)據(jù),易知增量貝葉斯算法比樸素貝葉斯算法分辨出了更多的地雜波,且從其他數(shù)據(jù)易知增量樸素貝葉斯分類算法識別出的降水粒子更接近于模糊邏輯算法,因此對氣象信息的分類具有更高的準(zhǔn)確性。表5中的方位角同樣表示圖像紋理方向,且從表中能夠看出增量貝葉斯算法的能量與同質(zhì)性皆高于樸素貝葉斯算法與模糊邏輯算法,而熵值卻小于后兩者。這說明增量樸素貝葉斯識別的降水粒子具有更好的空間連續(xù)性,與降水粒子空間連續(xù)的真實(shí)分布情況更吻合。

表4 各類粒子數(shù)量及占比(2020/04/22 5:06)

表5 灰度共生矩陣統(tǒng)計(jì)量特征(2020/04/22 5:06)

4 結(jié)束語

本文提出了一種基于增量學(xué)習(xí)的樸素貝葉斯雙偏振氣象雷達(dá)降水粒子分類算法,首先對雷達(dá)的偏振參量進(jìn)行離散化處理,利用有標(biāo)簽的訓(xùn)練數(shù)據(jù)集構(gòu)建樸素貝葉斯分類器;最后對分類器進(jìn)行增量學(xué)習(xí)。通過實(shí)驗(yàn)?zāi)軌蜃C明經(jīng)過增量學(xué)習(xí)后分類器有所增益,主要體現(xiàn)在兩個(gè)方面:1)通過增量學(xué)習(xí)過程增加了訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)樣本,且數(shù)據(jù)經(jīng)過閾值判斷可信度更高,利用可信度高的數(shù)據(jù)樣本訓(xùn)練出的分類器分類結(jié)果更加準(zhǔn)確;2)對分類器進(jìn)行增量學(xué)習(xí)時(shí)需要根據(jù)輸入的新帶標(biāo)簽樣本不斷修正分類器,由此實(shí)現(xiàn)及時(shí)調(diào)整分類器,動態(tài)地完成降水粒子分類的過程,使得分類器具有更好的適應(yīng)性以及泛化性。因此基于增量貝葉斯的雙偏振氣象雷達(dá)降水粒子分類算法在數(shù)據(jù)量不足、氣候條件復(fù)雜、地雜波干擾等情況下有重要的研究意義。

猜你喜歡
貝葉斯分類器增量
少樣本條件下基于K-最近鄰及多分類器協(xié)同的樣本擴(kuò)增分類
導(dǎo)彈增量式自適應(yīng)容錯(cuò)控制系統(tǒng)設(shè)計(jì)
研發(fā)信息的增量披露能促進(jìn)企業(yè)創(chuàng)新投入嗎
學(xué)貫中西(6):闡述ML分類器的工作流程
提質(zhì)和增量之間的“辯證”
基于樸素Bayes組合的簡易集成分類器①
特大城市快遞垃圾增量占垃圾增量93%
租賃房地產(chǎn)的多主體貝葉斯博弈研究
租賃房地產(chǎn)的多主體貝葉斯博弈研究
貝葉斯網(wǎng)絡(luò)概述
阿瓦提县| 新龙县| 修武县| 益阳市| 吴川市| 普陀区| 行唐县| 应城市| 南充市| 娄烦县| 澄城县| 阳新县| 华阴市| 太谷县| 云和县| 米易县| 崇信县| 延川县| 柏乡县| 长白| 波密县| 叶城县| 屏边| 托里县| 温泉县| 金堂县| 太和县| 香河县| 海晏县| 鹿邑县| 图们市| 南投县| 宣恩县| 鄯善县| 临武县| 化隆| 荣成市| 资讯 | 城口县| 左权县| 育儿|