張艾麗,熊建萍,楊云飛,馮 松,鄧 輝,季凱帆
(昆明理工大學(xué)云南省計算機(jī)技術(shù)應(yīng)用重點實驗室,云南 昆明 650500)
?
基于聚類的太陽光球亮點的數(shù)據(jù)清洗*
張艾麗,熊建萍,楊云飛,馮松,鄧輝,季凱帆
(昆明理工大學(xué)云南省計算機(jī)技術(shù)應(yīng)用重點實驗室,云南 昆明650500)
摘要:由于光球亮點尺度小、邊緣結(jié)構(gòu)不明顯等原因,在識別中一部分發(fā)亮的碎米粒不可避免地被誤識別為亮點。采用基于劃分的K-means算法和基于密度的DBSCAN算法分別清洗所有發(fā)亮結(jié)構(gòu)的特征數(shù)據(jù),擬將非亮點結(jié)構(gòu)從亮點結(jié)構(gòu)中剔除。首先采用LMD算法和三維聯(lián)通的思想識別和跟蹤亮點,然后提取亮點的7個相關(guān)度較低的特征值,包括等效直徑、強(qiáng)度、偏心率、亮點邊緣位于米粒暗徑的比例、速度、運動方式和擴(kuò)散系數(shù),并在數(shù)據(jù)標(biāo)準(zhǔn)化后,采用主成分分析法根據(jù)90%的貢獻(xiàn)率降至三維。最后采用K-means算法和DBSCAN算法對亮點數(shù)據(jù)進(jìn)行清洗。實驗結(jié)果表明,兩種算法均能清洗非亮點結(jié)構(gòu),K-means算法的正確率為80%,DBSCAN算法的正確率為53%。因此,K-means算法能夠更有效地區(qū)分亮點和非亮點結(jié)構(gòu)。
關(guān)鍵詞:光球亮點;非亮點結(jié)構(gòu);聚類算法;K-means算法;DBSCAN算法
太陽光球表面布滿了米粒狀結(jié)構(gòu),在米粒的暗徑中有一些發(fā)亮的結(jié)構(gòu),稱為光球亮點(Photospheric bright points, PBPs)。普遍認(rèn)為,光球亮點與磁場有密切關(guān)系,通過研究光球亮點可以促進(jìn)太陽磁場的研究,促進(jìn)更深層和更熱的等離子體和日冕加熱等太陽物理現(xiàn)象的研究[1]。但是,光球亮點很容易和發(fā)亮的碎米粒以及其他局部強(qiáng)度較高的太陽表面小尺度特征相混淆。目前在二維圖像上識別亮點主要采用閾值法、區(qū)域生長法和形態(tài)學(xué)等幾種技術(shù)。閾值法通過設(shè)置一個或幾個閾值將圖像的灰度級分為幾部分,認(rèn)為屬于同一部分的像素是同一個物體[2-3];區(qū)域生長法是從初始區(qū)域開始,將相鄰的具有同樣性質(zhì)的像素或其它區(qū)域歸并到目前的區(qū)域中,從而逐步增長區(qū)域,直至沒有可以歸并的點或其它小區(qū)域為止[4];形態(tài)學(xué)是用具有一定形態(tài)的結(jié)構(gòu)元素度量和提取圖像中的對應(yīng)形狀以達(dá)到對圖像分析和識別的目的。但這些方法在識別時一部分發(fā)亮的碎米粒會被誤識別為亮點。
數(shù)據(jù)清洗是近年來隨著數(shù)據(jù)挖掘的發(fā)展而出現(xiàn)的一門新興技術(shù),是指從數(shù)據(jù)集中發(fā)現(xiàn)并糾正 “臟數(shù)據(jù)”,即從數(shù)據(jù)文件中檢測出錯誤和不一致的數(shù)據(jù),并剔除或修正它們,以提高數(shù)據(jù)質(zhì)量[5-6]。
近年來國內(nèi)外學(xué)者提出通過聚類方法實現(xiàn)數(shù)據(jù)清洗[7]。聚類分析是將研究對象分為相對同質(zhì)的群組的統(tǒng)計分析技術(shù),目的是發(fā)現(xiàn)數(shù)據(jù)間的關(guān)系,將相似的歸為一類,相異的互為一類[8-9]。按照聚類分析算法的主要思路,聚類算法可以歸納為劃分法、層次法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法[10]。其中,基于劃分和基于密度是兩種高效的適合大型數(shù)據(jù)集的聚類方法,常用于圖像分析、圖像處理等領(lǐng)域。
本文提出采用聚類分析的K-means算法和DBSCAN算法對亮點數(shù)據(jù)進(jìn)行清洗,達(dá)到將非亮點結(jié)構(gòu)從亮點結(jié)構(gòu)中剔除的目的。論文第1節(jié)介紹了數(shù)據(jù)的來源以及數(shù)據(jù)的提??;第2節(jié)介紹了聚類數(shù)據(jù)的預(yù)處理和聚類方法;第3節(jié)介紹了光球亮點進(jìn)行清洗后的結(jié)果和分析;第4節(jié)進(jìn)行總結(jié)。
1數(shù)據(jù)
1.1數(shù)據(jù)來源
本文的實驗數(shù)據(jù)是Hinode/Solar Optical Telescope (SOT; Ichimoto et al. 2004; Suematsu et al. 2008)于2007年2月19日18時19分到20時40分在G波段觀測的日面中心附近寧靜區(qū)的高分辨序列圖像。該組數(shù)據(jù)的像元分辨率為0.054 arcsec/pixel,視場大小為20 arcsec × 20 arcsec,時間分辨率為11 s,一共由758張圖組成。圖1(a)為序列中的第1幀高分辨圖像。
1.2數(shù)據(jù)提取
1.2.1亮點數(shù)據(jù)識別與跟蹤
首先用一個基于局部相關(guān)的亞像元級對齊算法把序列圖像對齊[11],然后采用拉普拉斯形態(tài)學(xué)算法(Laplacian and Morphological Dilatation, LMD)識別光球亮點。圖1(b)顯示了識別出的亮點在原圖點亮的結(jié)果。
圖1(a)Hinode上的SOT于2007年12月19日在G-band觀測的日面中心附近的高分辨像; (b)用LMD識別的亮點在原圖中點亮的結(jié)果
在序列圖像的每一幅圖上識別出亮點后,采用三維時空立方體的思想對光球亮點以26聯(lián)通的思想跟蹤[12]。如果一個亮點在生命期中沒有發(fā)生過合并或者分裂,則稱之為孤立點,否則稱為非孤立點。在三維立方體中,孤立點的演化過程表現(xiàn)為一個圓柱形結(jié)構(gòu),其水平速度顯示為這個圓柱狀結(jié)構(gòu)在時間軸上的扭曲情況,而生命周期就是這個圓柱狀結(jié)構(gòu)在時間軸上的開始和截止。
1.2.2亮點數(shù)據(jù)特征提取
經(jīng)分析,亮點的等效直徑、強(qiáng)度、偏心率、亮點邊緣暗徑比例、速度、運動方式和擴(kuò)散系數(shù)等特征值作為分類的數(shù)據(jù)比較合理,因為這7個屬性相關(guān)度較低,并且能代表亮點的光學(xué)強(qiáng)度、形態(tài)和運動等方面的特點。其定義如下:
等效直徑:將每一個亮點對應(yīng)的所有像素點作為面積,將其等效為圓計算等效直徑。
最大強(qiáng)度比:用亮點的最大強(qiáng)度除以整幅圖的平均強(qiáng)度描述亮點的強(qiáng)度。
偏心率:用橢圓兩焦點間的距離除以長軸長度描述亮點的形狀。偏心率越大,說明越偏向于長橢圓,反之則說明越偏向于圓形。
亮點邊緣暗徑比例:亮點的一個重要特性是其位于米粒暗徑,因此提取了每一個亮點邊緣位于暗徑的比例。
速度:通過亮點的質(zhì)心位置獲取每兩幀之間的位移計算亮點的速度。
運動方式:定義一個mt,其值為位移除以運動軌跡長度和。位移公式如(1)式;1為起始幀,n為結(jié)束幀,表示亮點的首尾位移;運動軌跡長度和定義為(2)式,(3)式即為生命期內(nèi)所有位移之和。根據(jù)定義,mt可以用來定量描述亮點的運動軌跡,其值范圍為0到1。如果mt=1,則意味著亮點的運動軌跡為直線;如果mt=0,則表示亮點從起始點出發(fā)又回到原點。因此mt越接近1則亮點沿著接近直線的軌跡運動,越接近0,則亮點的軌跡近似于圓形。
擴(kuò)散系數(shù):擴(kuò)散系數(shù)是描述亮點的擴(kuò)散面積與時間的關(guān)系,定義為(4)式,其中〈(Δt)2〉代表亮點在生命期中任意時刻的位置與初始位置的平方位移;γ是擴(kuò)散系數(shù);Т是亮點的生命期。擴(kuò)散系數(shù)越大,在單位時間內(nèi)擴(kuò)散的面積越大,反之亦然。
(1)
(2)
(3)
(4)
這7個屬性中,由于每個亮點在生命期內(nèi)等效直徑、強(qiáng)度、偏心率、亮點邊緣暗徑比例和速度這5項有多個屬性值,因此先分別計算每個亮點在生命期內(nèi)這5個屬性的平均值分別代表其一生的一個平均狀態(tài),比如平均直徑、平均強(qiáng)度、平均偏心率、平均邊緣暗徑比例和平均速度。
2聚類
2.1數(shù)據(jù)預(yù)處理
2.1.1數(shù)據(jù)標(biāo)準(zhǔn)化
由于這7個屬性的量綱不同,因此需要先對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。標(biāo)準(zhǔn)化指去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無量綱的純數(shù)值,以便于不同單位或量級的指標(biāo)能夠進(jìn)行比較和加權(quán)。采用z-score標(biāo)準(zhǔn)化方法。基本思想是基于原始數(shù)據(jù)的均值(mean)和標(biāo)準(zhǔn)差(standard deviation)進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化,定義為:
(5)
其中,μ為所有樣本數(shù)據(jù)的均值;σ為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。標(biāo)準(zhǔn)化后的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布,即均值為0,標(biāo)準(zhǔn)差為1。
2.1.2數(shù)據(jù)降維
高維數(shù)據(jù)包含了大量冗余的信息,因此采用特征降維的方法對這7列數(shù)據(jù)進(jìn)行降維處理。特征降維是指在所有的特征數(shù)據(jù)中選擇幾個基本能代表所有特征數(shù)據(jù)包含的信息的主要特征數(shù)據(jù),一般有兩類方法:特征選擇和特征抽取。特征選擇即從高緯度的特征中選擇其中的一個子集作為新的特征;而特征抽取是指將高緯度的特征經(jīng)過某個函數(shù)映射至低緯度作為新的特征。
主成分分析(Principal Components Analysis, PCA)是一種無監(jiān)督特征抽取降維方法,利用特征數(shù)據(jù)的內(nèi)在關(guān)聯(lián)結(jié)構(gòu),通過線性變換將多維的特征數(shù)據(jù)變換為維度較少包含原有特征大部分信息且相互獨立的特征數(shù)據(jù)。由于各項特征數(shù)據(jù)不存在人為關(guān)聯(lián),可使得最后清洗亮點的結(jié)果更為合理,因此采用主成分分析對亮點的七維特征數(shù)據(jù)進(jìn)行降維。主成分分析的降維過程描述如下:
首先用每個樣本的多個特征數(shù)據(jù)構(gòu)造一個特征數(shù)據(jù)矩陣,如(6)式。其中,n代表第幾維特征數(shù)據(jù);p代表某維的第幾個特征數(shù)據(jù)。
(6)
然后計算原始數(shù)據(jù)的協(xié)方差矩陣,得到每維數(shù)據(jù)間的關(guān)系;通過協(xié)方差矩陣算出特征向量和特征值,將特征值由大到小排列,給出成分的重要性級別選擇降維目標(biāo)數(shù)k,最后用協(xié)方差矩陣的前k列乘以原始數(shù)據(jù)矩陣,即得到降維后的數(shù)據(jù)矩陣。其中,k的選擇通過分析貢獻(xiàn)率確定,貢獻(xiàn)率表示所定義的主成分在整個數(shù)據(jù)分析中承擔(dān)的主要意義占多大的比重,當(dāng)取前k個主成分代替原來全部變量時,累計貢獻(xiàn)率的大小反應(yīng)了這種取代的可靠性,累計貢獻(xiàn)率越大,可靠性越大;反之,則可靠性越小。亮點的7列標(biāo)準(zhǔn)化后的數(shù)據(jù)通過主成分分析降維后,主成份的貢獻(xiàn)率如圖2,降至一維的貢獻(xiàn)率僅為46%,二維的為71%,到第三維時貢獻(xiàn)率已達(dá)到90%,這意味著三維數(shù)據(jù)已能代表原始數(shù)據(jù)90%的意義,因此將七維數(shù)據(jù)選擇降至三維。
圖2 貢獻(xiàn)率與主成分的關(guān)系
2.2聚類處理
2.2.1K-means算法聚類
K-means也稱為K-均值,是劃分聚類方法中最具代表性的一種算法[13]。該算法通過最近距離的原則把n個對象劃分為k個簇,以使簇內(nèi)具有較高的相似度。算法首先隨機(jī)選擇k個對象,每個對象初始代表了一個簇的平均值或中心。然后對剩余的每個對象根據(jù)其與各個簇中心的距離,將它賦給最近的簇,再重新計算每個簇的平均值[14-15]。該過程不斷迭代,直到準(zhǔn)則函數(shù)收斂。準(zhǔn)則函數(shù)定義為
(7)
其中,x是空間中的點,表示給定的數(shù)據(jù)對象,是簇的平均值,該準(zhǔn)則的主要目標(biāo)是使生成的簇盡可能地緊湊和獨立。
2.2.2DBSCAN算法聚類
DBSCAN是一種基于密度的聚類算法。該算法把具有足夠高密度的區(qū)域劃分為簇,并可以發(fā)現(xiàn)任意形狀的聚類,它定義簇為基于密度的點的最大集合。描述該算法之前需做以下定義:
定義1(ε-鄰域): 給定對象半徑ε內(nèi)的區(qū)域稱為該對象的ε-領(lǐng)域。
定義2(核心對象): 如果一個對象的ε-領(lǐng)域至少包含最小數(shù)目MinPts個對象,則稱該對象為核心對象。
定義3(直接密度可達(dá)): 給定一個對象集合D,如果p在q的ε-鄰域內(nèi),而q是一個核心對象,則對象p從對象q出發(fā)是直接密度可達(dá)的。
定義4(密度可達(dá)): 如果有一個數(shù)據(jù)對象序列p1,p2,…,pn∈D,其中p1=q,pn=p,并且pi+1是從pi直接密度可達(dá)的,則稱p是從q關(guān)于ε和MinPts密度可達(dá)的。
定義5(密度相連): 如果存在一個數(shù)據(jù)對象O使得p和q都是從O關(guān)于ε和MinPts密度可達(dá)的,則稱p和q是關(guān)于ε和MinPts密度相連的。
DBSCAN 算法的流程可描述如下[16]:首先通過檢查數(shù)據(jù)庫中每個點的ε-鄰域?qū)ふ揖垲?。如果一個點p的ε-鄰域內(nèi)含多于MinPts個點,則建一個以p作為核心對象的新簇。然后,DBSCAN反復(fù)地尋找從這些核心對象直接密度可達(dá)的對象,這個過程可能涉及一些密度可達(dá)簇的合并。當(dāng)沒有新的點可以被添加到任何簇時,該過程結(jié)束。
3結(jié)果
3.1K-means算法聚類結(jié)果
K-means算法在設(shè)置清洗目標(biāo)數(shù)為2時的結(jié)果如圖3,圖中,實心圓型(藍(lán)色)代表亮點,十字型(玫紅色)和米字型(大紅色)代表噪聲點。但對照原始圖像發(fā)現(xiàn)噪聲點的數(shù)目過多,把很多亮點也包含在內(nèi),因此對第1次清洗出的噪聲點再用K-means進(jìn)行第2次清洗,結(jié)果如圖3中的十字型(玫紅色)和米字型(大紅色)點,米字型(大紅色)即為第2次清洗出的噪聲點。
為檢驗清洗的結(jié)果是否有效,首先將第2次清洗后的結(jié)果通過不同顏色顯示在二維圖中。圖4顯示的是其中一幀二維圖像,(a)是原圖,(b)中藍(lán)色代表亮點,紅色代表噪聲點。
圖3K-means算法清洗數(shù)據(jù)的結(jié)果
Fig.3The cleaning result of the K-means algorithm
圖4(a)原圖;(b)K-means算法清洗的亮點在二維圖上的顯示;(c)K-means算法清洗結(jié)果在三維時空立方體中的顯示
Fig.4(a) One G-band image; (b) The cleaning result of the K-means algorithm of (a);(c) The cleaning result of the K-means algorithm in the three-dimension space-time cube
由于采用特征數(shù)據(jù)表示亮點的演化特征,因此在三維時空立方體中通過不同的顏色標(biāo)注噪聲點和亮點的三維演化結(jié)構(gòu),如圖4(c),紅色代表噪聲點,藍(lán)色代表亮點。從亮點的三維演化結(jié)構(gòu)可以看到,噪聲點的三維演化結(jié)構(gòu)有長有短,有大有小,運動的軌跡也是各式各樣,因此進(jìn)一步在時間序列圖中分析K-means算法清洗的結(jié)果。
圖5顯示了亮點和噪聲點在其生命期中的演化情況。用不同的顏色標(biāo)記用K-means算法清洗后的亮點以及噪聲點的演化過程,紅色代表噪聲點,藍(lán)色代表亮點。對照圖(a)和(b),圈1、2和3對應(yīng)的位置上分別示意了3種不同的演化情況:圈1對應(yīng)的位置是一個自始至終在米粒暗徑中的亮點;圈2對應(yīng)的位置是一個自始至終在米粒上的噪聲點;而圈3則反應(yīng)了另一種情況,K-means算法分類是一個亮點,但在對應(yīng)位置上看到其在19∶02∶50 UT時在米粒上,所以清洗存在誤差。K-means算法一共清洗出29個噪聲點,通過分析所有的演化發(fā)現(xiàn)滿足非亮點結(jié)構(gòu)的有23個,即K-means算法清洗的正確率為80%。
圖5(a)一段序列圖;(b)K-means算法清洗的亮點演化
Fig.5(a) A time-series; (b) Evolution of corresponding PBPs cleaned by the K-means algorithm
3.2DBSCAN算法聚類結(jié)果
DBSCAN算法清洗結(jié)果如圖6,圖中,實心圓型(藍(lán)色)代表亮點,米字型(紅色)代表噪聲點。
為檢驗清洗的結(jié)果是否有效,將清洗后的結(jié)果通過不同顏色顯示在二維圖中。圖7顯示了其中一幀二維圖像,(a)是原圖,(b)中藍(lán)色代表亮點,紅色代表噪聲點。
在三維時空立方體中通過不同的顏色標(biāo)注噪聲點和亮點的三維演化結(jié)構(gòu)如圖7(c),紅色代表噪聲點,藍(lán)色代表亮點。
進(jìn)一步在時間序列圖中分析DBSCAN算法清洗的結(jié)果。圖8顯示了亮點和噪聲點在其生命期中的演化情況。用不同的顏色標(biāo)記了用DBSCAN算法清洗后的亮點以及噪聲點的演化過程,紅色代表噪聲點,藍(lán)色代表亮點。圈1、2和3對應(yīng)的位置上分別示意了3種不同的演化情況:圈1對應(yīng)的位置是一個自始至終在米粒暗徑中的亮點;圈2對應(yīng)的位置是一個自始至終在米粒上的噪聲點;而圈3則反應(yīng)了另一種情況,DBSCAN算法認(rèn)為它是一個亮點,但在對應(yīng)位置上看到其在19∶02∶50 UT時在米粒上,因此清洗存在誤差。DBSCAN算法清洗出的噪聲點數(shù)為38,通過分析亮點的演化得出:滿足非亮點結(jié)構(gòu)的有20個,即DBSACN算法清洗的正確率為53%。
圖6DBSCAN算法清洗結(jié)果
Fig.6The cleaning result of the DBSCAN algorithm
圖7(a)原圖;(b)DBSCAN算法清洗的亮點在二維圖上的顯示;(c)DBSCAN算法清洗結(jié)果在三維時空立方體中的顯示
Fig.7(a) One G-band image; (b) The cleaning result of the DBSCAN algorithm corresponding (a);(c) The cleaning result of DBSCAN algorithm in the three-dimension space-time cube
圖8(a)一段序列圖;(b)DBSCAN算法清洗的亮點的演化
Fig.8(a) A time-series; (b) Evolution of corresponding PBPs cleaned by the DBSCAN algorithm
4總結(jié)和展望
本文采用聚類方法清理亮點數(shù)據(jù),以達(dá)到將非亮點結(jié)構(gòu)從亮點結(jié)構(gòu)中剔除的目的。首先采用LMD算法識別每一幀圖像中的亮點,采用三維時空立方體思想進(jìn)行跟蹤。然后提取能代表亮點的光學(xué)強(qiáng)度、形狀和運動特性的7個相關(guān)度較低的特征值,包括等效直徑、強(qiáng)度、偏心率、亮點邊緣在暗徑中的比例、速度、運動方式和擴(kuò)散系數(shù)。由于這些數(shù)據(jù)量綱不一致,首先采用zscore法進(jìn)行標(biāo)準(zhǔn)化;又考慮到高維數(shù)據(jù)包含冗余和相關(guān)的信息,因此采用主成份分析法進(jìn)行降維分析,選擇90%的貢獻(xiàn)率將數(shù)據(jù)降到三維。最后分別采用K-means算法和DBSCAN算法對光球亮點數(shù)據(jù)進(jìn)行清洗。經(jīng)過檢驗發(fā)現(xiàn)兩種聚類算法均能達(dá)到將非亮點結(jié)構(gòu)清洗出來的目的,但還存在一定的誤差。K-means算法的正確率為80%,DBSCAN算法的正確率為53%。因此,K-means算法比DBSCAN算法更適合清洗非亮點結(jié)構(gòu)。
本文提供了一個較好的方法剔除識別中不可避免的噪聲,為小尺度的磁場研究清洗出更為準(zhǔn)確的亮點數(shù)據(jù),這對進(jìn)一步研究日冕加熱等問題提供了更為準(zhǔn)確的數(shù)據(jù)。但是,從目前的結(jié)果可以看出,仍舊存在一些需要改進(jìn)的地方。如算法的結(jié)果誤差較大、對閾值和參數(shù)的選取有較大的依賴性;兩個算法的不同,清洗的正確率有可能是因為其物理模型調(diào)整、清洗所需的參數(shù)及其權(quán)重導(dǎo)致的;亮點的等效直徑、強(qiáng)度、偏心率等參數(shù)與空間分辨率有關(guān)系,因此對于不同分辨率的觀測結(jié)果可能有不同的清洗結(jié)果。在今后的工作中,將進(jìn)一步對算法進(jìn)行改進(jìn),并考慮物理參數(shù)等因素,得到更為精確、合理的清洗結(jié)果。
致謝:感謝Hinode團(tuán)隊提供數(shù)據(jù)。
參考文獻(xiàn):
[1]劉艷霄, 楊云飛, 林雋. 太陽光球磁亮點的識別算法[J]. 天文研究與技術(shù)——國家天文臺臺刊, 2014, 11(2): 145-150.
Liu Yanxiao, Yang Yunfei, Lin Jun. A region-growth algorithm to recognize magnetic bright spots in the solar photosphere[J]. Astronomical Research & Technology——Publications of National Astronomical Observatories of China, 2014, 11(2): 145-150.
[2]Almeida J S, Bonet J A, Viticchié B, et al. Magnetic bright points in the quiet Sun[J]. The Astrophysical Journal Letters, 2010, 715(1): L26-L29.
[3]Bovelet B, Wiehr E. Multiple-scale pattern recognition applied to faint intergranular G-band structures[J]. Solar Physics, 2007, 243(2): 121-129.
[4]Crockett P J, Jess D B, Mathioudakis M, et al. Automated detection and tracking of solar magnetic bright points[J]. Monthly Notices of the Royal Astronomical Society, 2009, 397(4): 1852-1861.
[5]王詠梅, 陳家琪, 耿玉良. 一種可交互的數(shù)據(jù)清洗系統(tǒng)[J]. 計算機(jī)工程與設(shè)計, 2005, 26(4): 955-957.
Wang Yongmei, Chen Jiaqi, Geng Yuliang. Interactive data cleaning system[J]. Computer Engineering and Design, 2005, 26(4): 955-957.
[6]郭志懋, 周傲英. 數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述[J]. 軟件學(xué)報, 2002, 13(11): 2076-2082.
Guo Zhimao, Zhou Aoying. Research on data quality and data cleaning: a survey[J]. Journal of Software, 2002, 13(11): 2076-2082.
[7]張燕. 基于聚類算法的數(shù)據(jù)清洗的研究與實現(xiàn)[D]. 保定: 華北電力大學(xué), 2008.
[8]孫吉貴, 劉杰, 趙連宇. 聚類算法研究[J]. 軟件學(xué)報, 2008, 19(1): 48-61.
Sun Jigui, Liu Jie, Zhao Lianyu. Study on clustering algorithms[J]. Journal of Software, 2008, 19(1): 48-61.
[9]Xu R, Wunsch D. Survey of clustering algorithms[J]. IEEE Transactions on Neural Networks, 2005, 16(3): 645-678.
[10]Feng Song, Deng Linhua, Yang Yunfei, et al. Statistical study of photospheric bright points in an active region and quiet Sun[J]. Astrophysics and Space Science, 2013, 348(1): 17-24.
[11]陳潔, 馮松, 鄧輝,等. 太陽磁場觀測中相關(guān)位移疊加算法的比較[J]. 天文研究與技術(shù)——國家天文臺臺刊, 2013, 10(2): 201-206.
Chen Jie, Feng Song, Deng Hui, et al. Comparison of correlation-based techniques for correcting and stacking solar magnetic-field images[J]. Astronomical Research & Technology——Publications of National Astronomical Observatories of China, 2013, 10(2): 201-206.
[12]Yang Yunfei, Qu Huixue, Ji Kaifan, et al. Characterizing motion types of G-band bright points in the quiet Sun[J]. Research in Astronomy & Astrophysics, 2015, 15(4): 569-582.
[13]Yu S, Tranchevent L C, Moor B D, et al. Optimized data fusion for kernel k-means clustering[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 345: 89-107.
[14]Ghosh S, Dubey S K. Comparative analysis of k-means and fuzzy c-means algorithms[J]. International Journal of Advanced Computer Science and Applications (IJACSA), 2013, 4(4): 35-39.
[15]Patel B C, Sinha D G R. An adaptive k-means clustering algorithm for breast image segmentation[J]. International Journal of Computer Applications, 2010, 10(4): 35-38.
[16]Zhou Aoying, Zhou Shuigeng, Cao Jing, et al. Approaches for scaling DBSCAN algorithm to large spatial databases[J]. Journal of Computer Science and Technology, 2000, 15(6): 509-526.
Data Cleaning for Photospheric Bright Points Based on Clustering Analysis
Zhang Aili, Xiong Jianping, Yang Yunfei, Feng Song, Deng Hui, Ji Kaifan
(Computer Technology Application Key Laboratory of Yunnan Province, Kunming University of Science and Technology, Kunming 650500, China, Email: jikaifan@cnlab.net)
Abstract:Photospheric Bright Points (PBPs) are usually confused with the bright granules near the inter-granular dark lanes, because of their small-scale and fuzzy boundary. This paper uses the K-means and DBSCAN algorithm to differentiate the non-PBPs from PBPs candidates. First, Laplacian and morphological dilatation algorithm is employed to extract PBPs candidates from images, and a three-dimensional algorithm is used for tracking the evolutions of PBPs candidates. Second, seven properties of each candidate are calculated. They are diameter, intensity, eccentricity, the proportion of their boundary in the dark lanes, horizontal velocity, motion type and diffusion index, respectively. After standardizing data, principal component analysis is used for reducing the seven-dimensional data to three-dimensional. At last, non-PBPs are cleaned by K-means algorithm and DBSACN algorithm, respectively. The result shows that both K-means and DBSCAN algorithm can be used to clean the non-PBPs from PBPs candidates. The processing accuracy of K-means algorithm is around 80%, and that of the DBSCAN algorithm is 53%. The result indicates that the K-means algorithm is more suitable for cleaning the non-PBPs than DBSCAN algorithm.
Key words:Photospheric bright points; Non-bright points; Clustering algorithm; K-means algorithm; DBSCAN algorithm
基金項目:國家自然科學(xué)基金 (11303011, 11263004, 11463003, 11163004, 11573012, U1231205) 資助.
收稿日期:2015-07-28;
修訂日期:2015-09-08
作者簡介:張艾麗,女,碩士. 研究方向:數(shù)據(jù)挖掘與天文圖像處理. Email: kmustcnlabzal@163.com 通訊作者:季凱帆,男,研究員. 研究方向:天文技術(shù). Email: jikaifan@cnlab.net
中圖分類號:P182.2+1
文獻(xiàn)標(biāo)識碼:A
文章編號:1672-7673(2016)02-0233-09
CN 53-1189/PISSN 1672-7673