国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

DBSCAN聚類算法在Gaia-DR2中檢測疏散星團的研究?

2018-10-12 07:28:38徐守坤莊麗華高新華
天文學(xué)報 2018年5期
關(guān)鍵詞:星團視差恒星

徐守坤 王 超 莊麗華 高新華

(常州大學(xué)信息科學(xué)與工程學(xué)院常州213164)

1 引言

鄰近疏散星團(距離比較近的疏散星團)給我們提供了研究天體物理學(xué)中一些問題的機會,譬如恒星演化、銀河距離尺度、銀河結(jié)構(gòu),因為它們的距離可以基于精確的三角視差數(shù)據(jù)直接確定[1?4].

那么我們的首要工作是檢測出這些鄰近疏散星團成員.要進行鄰近疏散星團成員檢測就需要恒星大數(shù)據(jù)(覆蓋范圍廣、數(shù)據(jù)量大、多維度的恒星樣本)和高效的成員檢測方法.之前由于恒星大數(shù)據(jù)比較匱乏,很多學(xué)者只是針對特定區(qū)域(包含疏散星團的一個小區(qū)域)進行成員判定的研究,提出了一些成員判定方法,而這些成員判定方法能否用于在大數(shù)據(jù)中進行鄰近疏散星團的成員檢測有待驗證.早期用于確定疏散星團成員的方法是Vasilevskis-Sanders方法(簡稱VS方法), 由Vasilevskis等[5]提出, 再由Sanders[6]在其基礎(chǔ)上加以改進,Zhao等[7]又進一步提出了改進方案,使VS方法能處理不等精度的自行數(shù)據(jù).VS方法的基本原理是假設(shè)成員星和場星的自行或者視向速度都符合高斯分布,然后用極大似然法估計高斯分布中的參數(shù),再計算每一顆恒星的成員概率,通常認(rèn)為成員概率大的恒星是成員星的可能性比較大[7].但是,有學(xué)者表示VS方法有一定的局限性[8],當(dāng)成員星數(shù)量遠小于場星時,效果可能不好,當(dāng)成員星和場星在速度空間重合時,結(jié)果也可能不理想.另外,VS方法不適合處理高維數(shù)據(jù)(三維及以上),因為當(dāng)數(shù)據(jù)維數(shù)增大時,需要確定的高斯模型參數(shù)的數(shù)量也會隨之增加,計算將會變得繁瑣[9].還有一點,我們發(fā)現(xiàn)VS方法只能用于僅存在一個疏散星團和場星的情況,因為它是基于混合高斯模型的聚類方法[10],當(dāng)有多個疏散星團存在時,需要引入更多的高斯模型.因此,VS方法不適用于數(shù)據(jù)分布相對復(fù)雜的大數(shù)據(jù).

后來,針對VS方法的局限性,Sampedro等[11]提出了一種改進方法.與VS方法不同的是該方法假設(shè)每顆恒星與高密度中心點之間的距離符合高斯分布,能夠充分利用恒星的多個數(shù)據(jù)(自行、視向速度、位置、視差等),并且高斯模型參數(shù)的數(shù)量不會隨著數(shù)據(jù)維數(shù)的增高而變多,因為它只需要計算距離的概率密度函數(shù)(高斯模型),因此,該方法在處理高維數(shù)據(jù)(三維及以上)時比較便利.但是,不足之處是該方法需要對數(shù)據(jù)進行模型假設(shè)(參數(shù)方法),另外,該方法還需要不斷地迭代尋找恰當(dāng)?shù)母呙芏戎行狞c,過程繁瑣.

近期,Gao等[9,12]提出用一種在數(shù)據(jù)挖掘中比較經(jīng)典的算法——DBSCAN聚類算法(Density-Based Spatial Clustering of Applications with Noise)[13]來確定疏散星團成員.Gao等[9,12]使用NGC 188所在天區(qū)內(nèi)的1046顆恒星的三維運動學(xué)數(shù)據(jù)(兩維自行和視向速度)確定了疏散星團NGC 188的成員星,通過對成員星的二維空間位置分布圖(赤經(jīng)和赤緯)以及顏色-星等圖的分析,證實他們得到的成員星是可靠的.DBSCAN算法有兩個很重要的輸入?yún)?shù)(Eps和MinPts),Eps為鄰域半徑,MinPts為稠密區(qū)域的密度閾值.DBSCAN算法的原理可以總結(jié)為:隨機訪問數(shù)據(jù)集中的任意一個點,判斷其Eps鄰域內(nèi)的點個數(shù)是否大于等于MinPts,如果符合條件的話,則該點為核心點,該點與其Eps鄰域內(nèi)的點形成一個小簇,再判斷該核心點Eps鄰域內(nèi)的點是否為核心點,如果存在核心點的話,則將以這些核心點為中心的小簇合并成一個大簇,如此迭代,直到所有點都被訪問過.與前面的成員判定方法相比,DBSCAN算法不做任何模型假設(shè)(非參數(shù)方法),因而可以發(fā)現(xiàn)任意形狀的簇,同時可以比較便利地處理三維及以上的高維數(shù)據(jù).

目前,新一代的恒星大數(shù)據(jù)已經(jīng)發(fā)布——Gaia Data Release 2(Gaia-DR2)[14].基于Gaia-DR2星表[14],我們獲取了距離太陽小于100 pc的594284顆恒星樣本,用恒星的五維數(shù)據(jù)(三維空間位置和兩維自行)構(gòu)建了一個五維相空間,以Gao等[9,12]針對特定區(qū)域進行成員判定的工作為基礎(chǔ),我們嘗試采用DBSCAN算法進行距離太陽100 pc區(qū)域內(nèi)的鄰近疏散星團成員檢測.

2 數(shù)據(jù)與方法

2.1 數(shù)據(jù)

我們的疏散星團成員檢測工作需要高精度的天體測量數(shù)據(jù),Gaia-DR2的發(fā)布給我們提供了機會.Gaia-DR2是歐洲航空局公布的Gaia衛(wèi)星的第2期數(shù)據(jù),Gaia衛(wèi)星的科學(xué)目標(biāo)是闡述銀河系的組成與演化[15].Gaia-DR2中包含了13億顆恒星的位置、視差和自行數(shù)據(jù)以及17億顆恒星的測光數(shù)據(jù),視差和位置數(shù)據(jù)的誤差大概是0.3 mas,自行的誤差大概是0.7 mas·yr?1[14,16].我們從Gaia-DR2星表[14]中選取了距離太陽100 pc以內(nèi)的594284顆恒星樣本,通過計算,我們發(fā)現(xiàn):在100 pc處0.3 mas的視差誤差僅會導(dǎo)致3 pc的距離誤差,可用以下誤差傳遞公式[17]計算:

其中,σd是距離誤差,表示太陽與恒星之間的距離d對視差π求導(dǎo),距離與視差的關(guān)系由(2)式給出,σπ表示視差π的誤差.因此,我們選取的594284顆恒星樣本的數(shù)據(jù)精度較高,滿足DBSCAN算法對于數(shù)據(jù)精度的要求.利用位置和視差數(shù)據(jù),計算了每顆恒星在三維位置空間中的坐標(biāo),坐標(biāo)中心為太陽,用(α,δ,π)分別表示恒星的赤經(jīng)、赤緯、視差,那么恒星在以pc為單位的三維位置空間中的坐標(biāo)(X,Y,Z)可以用以下公式[18]計算:

圖1為樣本中594284顆恒星在三維位置空間中的分布圖.

圖1 594284顆恒星樣本的三維位置空間分布圖.太陽(藍點)位于三維位置空間的中心Fig.1 The distribution of 594284 sample stars in a 3D position space.The Sun(blue point)is located in the center of the 3D position space

最終,我們可以使用594284顆恒星的三維空間位置以及兩維自行數(shù)據(jù)來進行疏散星團成員檢測.由于我們的實驗需要計算恒星之間的歐氏距離,而三維位置數(shù)據(jù)和兩維自行數(shù)據(jù)的單位是不一致的,為了避免某一維數(shù)據(jù)在計算距離時占據(jù)主導(dǎo)地位(不同單位的數(shù)據(jù)的值域是不一樣的),我們將每一維數(shù)據(jù)標(biāo)準(zhǔn)化到[0,1]區(qū)間內(nèi),采用以下公式[19]進行處理:

其中,x表示初始數(shù)據(jù),min(x)和max(x)分別代表初始數(shù)據(jù)的最小值和最大值,x′表示標(biāo)準(zhǔn)化后的無量綱值.

2.2 參數(shù)確定

(Eps,MinPts)是DBSCAN算法的2個非常重要的輸入?yún)?shù),它們的選取會直接影響到我們的聚類效果[20?21].Ester等[13]提出用k-dist圖確定DBSCAN算法的輸入?yún)?shù),并且他們已經(jīng)證實k-dist圖在二維數(shù)據(jù)中的可行性,我們嘗試將它應(yīng)用到五維數(shù)據(jù)集中.k-dist圖就是用按k-dist值(每個點與它的第k個最近鄰之間的距離)排序后的點編號和排序后的k-dist值繪制的曲線圖.繪制曲線之前,我們需要計算每個點與其他點的歐氏距離.對于我們所使用的594284顆恒星樣本,我們用以下公式計算每顆恒星與其他恒星之間的距離:

其中,d(i,j)表示第i顆恒星與第j顆恒星之間的距離,n表示數(shù)據(jù)維數(shù),xin與xjn分別表示第i顆恒星與第j顆恒星的第n維數(shù)據(jù).假設(shè)恒星總數(shù)為N,就會得到N個包含N?1個距離值的序列,然后將序列按升序排序,得到每顆恒星的距離序列[22],最后繪制k-dist圖.圖1就是我們繪制的恒星樣本的k-dist圖,為了便于觀察,對于每個k,我們都取排序后的前800個k-dist值.

通過觀察圖2,我們發(fā)現(xiàn)當(dāng)k取到9之后,曲線開始趨于穩(wěn)定,其中的原因是隨著k的增大,成員星的k-dist值變化很緩慢,而場星的k-dist值變化則比較快[9],當(dāng)k取到9之后,成員星的k-dist值基本都小于場星.考慮到恒星本身以及它的9個近鄰,因而我們?nèi)inPts=10.再觀察圖3(恒星樣本的9-dist值圖),我們發(fā)現(xiàn)藍色虛線正好將曲線分成兩部分,虛線兩側(cè)數(shù)據(jù)變化趨勢明顯不同,并且左側(cè)數(shù)據(jù)明顯少于右側(cè)數(shù)據(jù),符合成員星與場星的數(shù)量差異,因此,我們暫且將虛線左側(cè)全部取為成員星,虛線右側(cè)取為場星.此時,藍色虛線是成員星與場星的9-dist值的分界處,所以我們?nèi)ps為虛線處的9-dist值,即Eps=0.0023.

2.3 成員檢測

根據(jù)k-dist圖我們得到了DBSCAN算法的兩個輸入?yún)?shù),Eps=0.0023,MinPts=10.從圖3中我們發(fā)現(xiàn)虛線左側(cè)大概包含150個k-dist值,依據(jù)k-dist圖的原理[13],虛線左側(cè)的150個k-dist值包含核心點與邊界點,按照核心點和邊界點的定義[13],我們知道核心點是高密度的點(Eps鄰域內(nèi)包含的點個數(shù)大于等于MinPts),可以選為成員星,而邊界點是比較特殊的一類點,它們位于核心點的Eps鄰域內(nèi),但自身Eps鄰域內(nèi)的點個數(shù)少于MinPts,為此,我們畫出了核心點與邊界點的自行矢點圖(圖4).通過觀察,我們發(fā)現(xiàn)兩組核心點的自行各自是相近的,部分邊界點的自行與核心點相差較大,并且分布比較分散,不符合成員星自行相近的特點,因此,我們將這部分不符合成員星特征的邊界點(圖4中黃色矩形框內(nèi)的點)排除掉,保留核心點和剩下的邊界點,最終得到135顆候選成員星.如圖5和圖6所示,我們使用DBSCAN算法一共檢測到兩個疏散星團,根據(jù)成員星的赤道坐標(biāo)(赤經(jīng)與赤緯)和三角視差對應(yīng)的距離,我們確定這兩個疏散星團為Hyades和Coma.圖5為候選成員星的三維空間分布圖,圖中顯示兩個疏散星團的成員均位于高密度區(qū)域,需要說明的是,從恒星樣本的三維位置空間分布圖(圖1)可以看出,樣本中恒星數(shù)量過大,而成員星數(shù)量遠小于場星,在三維位置空間中,大量的場星會遮擋住成員星,因此,我們只畫出候選成員星的三維空間分布圖.圖6為候選成員星與場星的自行矢點圖,圖中兩個疏散星團成員的自行是各自相近的,只有個別孤立的點可能是混入的場星.依據(jù)候選成員星與場星的自行矢點圖(圖6),我們剔除掉兩顆很有可能是場星的候選成員星(圖中紅色矩形框內(nèi)的點)之后,共得到133顆成員星,其中95顆屬于Hyades,另外38顆屬于Coma.圖7為我們畫出的成員星與場星的二維空間分布圖,圖中兩個疏散星團成員都是各自成團的,說明我們得到的成員星是可靠的.另外,圖8和圖9分別為Coma和Hyades成員星的顏色-星等圖,兩幅圖均清晰地顯示了星團主序,進一步證實了我們獲取的成員星的可靠性.

圖2 594284顆恒星樣本的k-dist圖(k=1,2,3,4,5,6,7,8,9,10)Fig.2 The k-dist graphs of 594284 sample stars(k=1,2,3,4,5,6,7,8,9,10)

圖3 恒星樣本的9-dist圖.藍色虛線是成員星與場星的分界處Fig.3 The 9-dist graph of sample stars.The blue dashed line is the border of the members and field stars

圖4 核心點(紅點)與邊界點(藍點)的自行矢點圖.黃色矩形框內(nèi)的點為排除掉的點.pmRA與pmDEC分別為赤經(jīng)和赤緯方向上的自行Fig.4 The proper-motion vector point diagram of the core points(red dots)and border points(blue dots).The points in the yellow rectangles are the points which are excluded.pmRA and pmDEC are proper motions in the right ascension and declination directions,respectively

圖5 135顆候選成員星在三維位置空間中的分布情況Fig.5 The distribution of 135 candidate members in the 3D position space

圖6 135顆候選成員星(紅點)與場星(黑點)的自行矢點圖.藍色和黃色橢圓區(qū)域分別代表Hyades和Coma的成員星.紅色矩形框內(nèi)的點為混入的場星.pmRA與pmDEC分別為赤經(jīng)和赤緯方向上的自行Fig.6 The proper-motion vector point diagram of the 135 candidate members(red dots)and field stars(black dots).The blue and yellow ellipse represent the members of the Hyades and Coma clusters,respectively.The red rectangle represents the field stars mixing into the members.pmRA and pmDEC are proper motions in the right ascension and declination directions,respectively

圖7 成員星(紅點)與場星(黑點)的二維空間分布圖.藍色和黃色橢圓區(qū)域分別代表Hyades和Coma的成員星Fig.7 The 2D projected spatial distribution of members(red dots)and field stars(black dots).The blue and yellow ellipse represent members of the Hyades and Coma clusters,respectively

圖8 38顆Coma成員星的顏色-星等圖.黑點和圓圈分別為核心點與邊界點.BP與RP是恒星的兩種照相星等,BP-RP為恒星的顏色Fig.8 The color-magnitude diagram of the 38 members of Coma cluster.The black dots and circles are the core and border points,respectively.BP and RP are two types of photo magnitude of stars.BP-RP is color of stars

圖9 95顆Hyades成員星的顏色-星等圖.黑點和圓圈分別為核心點與邊界點.BP與RP是恒星的兩種照相星等,BP-RP為恒星的顏色Fig.9 The color-magnitude diagram of 95 members of Hyades cluster.The black dots and circles are the core and border points,respectively.BP and RP are two types of photo magnitude of stars.BP-RP is color of stars

2.4 星團距離

獲取了可靠成員星之后,我們利用Gaia-DR2中的視差數(shù)據(jù)重新確定了兩個疏散星團的距離.我們選取的594284顆恒星樣本中絕大多數(shù)恒星(大約93%)的視差數(shù)據(jù)的相對誤差(σπ/π)<0.2,圖10為594284顆恒星視差的相對誤差分布情況.

圖10 距離太陽100 pc以內(nèi)的594284顆恒星視差的相對誤差分布Fig.10 The relative parallax errors of 594284 sample stars within a distance of 100 pc to the Sun

我們先根據(jù)成員星的視差和視差的誤差分別計算了兩個星團的加權(quán)平均視差,通過以下公式[18]計算:

其中,wi表示第i顆成員星的權(quán)值,πi和σπi分別表示第i顆成員星的視差以及視差對應(yīng)的誤差,和分別表示星團的加權(quán)平均視差和對應(yīng)的誤差,S表示星團的成員星數(shù)量.根據(jù)星團的加權(quán)平均視差和對應(yīng)的誤差,我們可以算出星團的距離和對應(yīng)誤差可以用以下公式[18]計算:

最終,Hyades的視差確定為(21.51±0.10)mas,對應(yīng)的距離為(46.5±0.3)pc,Coma的視差確定為(11.77±0.06)mas,對應(yīng)的距離為(84.9±0.4)pc,我們確定的星團距離與之前Gao[18]計算的結(jié)果基本一致.

3 結(jié)論與討論

在本文中,我們借鑒Gao等[9,12]針對特定區(qū)域的疏散星團成員判定工作,將DBSCAN算法拓展到恒星大數(shù)據(jù)中進行成員檢測.基于Gaia-DR2星表,為了獲得更加可靠的成員星,我們使用恒星的五維數(shù)據(jù)(三維空間位置以及兩維自行)進行檢測.考慮到位置數(shù)據(jù)和自行的單位不一致,為了得到更好的聚類效果,我們就將每一維數(shù)據(jù)標(biāo)準(zhǔn)化到[0,1]區(qū)間內(nèi).借助k-dist圖,我們確定了DBSCAN算法的輸入?yún)?shù)(Eps,MinPts),證實了k-dist圖在高維數(shù)據(jù)(三維及以上)中的可行性.最終,我們在距離100 pc范圍以內(nèi)的594284顆恒星中檢測到133顆可靠成員星,它們被分成兩組(Hyades和Coma),證實了DBSCAN算法在鄰近疏散星團成員檢測上的可行性.

DBSCAN算法是一種基于密度的聚類算法,它通過統(tǒng)計每個點鄰域內(nèi)的點個數(shù)來確定該點的密度,不像VS方法這樣的參數(shù)方法需要對數(shù)據(jù)進行模型假設(shè),因而它可以發(fā)現(xiàn)任意形狀的簇,另外,它也不需要復(fù)雜的數(shù)學(xué)計算,適用于高維數(shù)據(jù)的聚類,所以,我們可以將它用于大數(shù)據(jù)中的五維相空間成員檢測.近期,天文學(xué)家逐漸意識到DBSCAN算法的潛力,繼Gao等[9,12]首次將它用于疏散星團成員判定之后,Castro-Ginard等[23]提出用一種將DBSCAN算法與神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法進行疏散星團成員檢測,他們將該方法應(yīng)用到Tycho-Gaia Astrometric Solution(TGAS)[24]數(shù)據(jù)中,并用Gaia-DR2中的測光數(shù)據(jù)驗證該方法的可靠性,在他們的實驗中,他們也是使用的五維數(shù)據(jù)(二維位置、視差以及兩維自行)進行檢測,但他們沒有對五維數(shù)據(jù)進行標(biāo)準(zhǔn)化處理(五維數(shù)據(jù)的單位是不一樣的).而本文的工作與Castro-Ginard等[23]做的并不一樣,我們是直接從Gaia-DR2星表中選取了距離100 pc以內(nèi)的恒星樣本,利用樣本中的位置和視差數(shù)據(jù)計算得到每顆恒星的三維空間位置,再結(jié)合樣本中的兩維自行數(shù)據(jù),總共五維數(shù)據(jù)用于成員檢測,在用DBSCAN算法聚類之前,對五維數(shù)據(jù)進行了標(biāo)準(zhǔn)化處理,最后用二維空間位置(赤經(jīng)和赤緯)和顏色-星等圖對所得的成員星進行了驗證.此外,值得一提的是,DBSCAN算法不僅可以用于疏散星團成員的確定,還具備在較大的數(shù)據(jù)空間中發(fā)現(xiàn)未知高密度結(jié)構(gòu)的能力,近期Bhattacharya等[25]通過DBSCAN算法分析了疏散星團Czernik 20和NGC 1857的空間形態(tài)特征,發(fā)現(xiàn)一個先前未知的超密結(jié)構(gòu).需要指出的是,DBSCAN算法也有它的缺陷,在確定疏散星團成員時,它無法計算出每一顆恒星的成員概率,而且對數(shù)據(jù)精度的要求較高,另外,由于DBSCAN算法的兩個輸入?yún)?shù)(Eps和MinPts)是針對全局?jǐn)?shù)據(jù)的,當(dāng)數(shù)據(jù)集中數(shù)據(jù)分布不均勻時(存在多個密度相差較大的簇),有些相對松散的簇可能會被遺漏掉,因此,在距離太陽100 pc以內(nèi)區(qū)域中,除了我們檢測到的兩個疏散星團,可能還存在著其他星團.

致謝 感謝審稿人提出的寶貴意見以及編輯的辛苦工作.

猜你喜歡
星團視差恒星
基于自適應(yīng)窗的立體相機視差圖優(yōu)化方法研究
(18)刺殺恒星
恒星的演化
恒星不恒
奧秘(2018年10期)2018-10-25 05:38:56
基于梯度域引導(dǎo)濾波的視差精煉迭代算法
昴星團
宇宙中的拓荒者——球狀星團
基于分割樹的視差圖修復(fù)算法研究
立體視差對瞳孔直徑影響的研究
英仙座雙星團
新安县| 马龙县| 蒲城县| 云龙县| 大丰市| 名山县| 永安市| 宜州市| 绥中县| 广水市| 凤凰县| 绵阳市| 康定县| 云浮市| 新余市| 镇平县| 宜宾市| 京山县| 桑植县| 涟水县| 崇文区| 宁远县| 阳城县| 靖远县| 志丹县| 乐陵市| 开江县| 喀喇沁旗| 个旧市| 达拉特旗| 龙州县| 吉木萨尔县| 云浮市| 红河县| 南和县| 庆云县| 青岛市| 阳朔县| 舟曲县| 嘉兴市| 镇赉县|