周光榮,曾祥云*,曾曙光,黃 瑤,鄭 勝,羅驍域,陳志維,江治波
(1. 三峽大學天文與空間科學研究中心,湖北 宜昌 443002;2. 三峽大學理學院,湖北 宜昌 443002;3. 中國科學院紫金山天文臺,江蘇 南京 210023)
在紫外線波段探測到星際氫分子[1]和在2.6 mm波長處探測到CO[2]開創(chuàng)了研究分子星際介質(zhì)的新時代,而有機分子介質(zhì)的發(fā)現(xiàn)促進了分子天體物理學科的誕生。分子云是構(gòu)成星際介質(zhì)的基本成分之一,主要由混合著少量原子、離子、塵埃和其他成分的分子氣體組成[3]。星系中的分子云存在一個廣泛尺度的結(jié)構(gòu),其結(jié)構(gòu)致密的部分稱為分子云核[4-5]?,F(xiàn)代天文學認為,恒星形成于分子云核的內(nèi)部[6-7]。因此,分子云核是建立星系中恒星形成觀測特征理論模型的關鍵[8],有助于進一步研究恒星的形成與演化[9]。
銀河畫卷巡天項目第1階段計劃對經(jīng)度-10°~+250°和緯度-5°~+5°銀道面采用12CO(J=1-0),13CO(J=1-0)和18CO(J=1-0)譜線進行大規(guī)模的觀測,目前獲得了10 941個單元格數(shù)據(jù),每個單元格大小為30′ × 30′,速度方向包含16 384個通道[10]。項目第2階段任務已經(jīng)開始,該階段任務中緯度的觀測范圍擴展到-10.25°~+10.25°,觀測數(shù)據(jù)更加豐富,涵蓋分子云廣泛的空間尺度、不同的進化階段和不同的環(huán)境[11]。探索這些數(shù)據(jù)的價值,檢測數(shù)據(jù)中的分子云核并分析其物理性質(zhì),為恒星形成早期階段的研究提供科學的數(shù)據(jù)支撐。
隨著銀河畫卷巡天項目推進,分子云數(shù)據(jù)正在快速積累,人工檢測和驗證是一項費時費力的工作。為了更加快捷方便地對分子云數(shù)據(jù)做科學分析,本文設計開發(fā)了針對銀河畫卷巡天項目實測數(shù)據(jù)的分子云核仿真與檢測系統(tǒng)。本系統(tǒng)將分子云核的仿真、檢測、核表匹配、參數(shù)還原、三維可視化和存儲串聯(lián)形成一個整體,提供友好的交互界面,便于科研人員使用。系統(tǒng)采用三維高斯數(shù)學模型生成仿真數(shù)據(jù)[12],用于驗證檢測算法的有效性。分子云核檢測算法采用文[13]提出的密度局部聚類(Local Density Clustering, LDC)算法。參數(shù)還原算法采用多高斯擬合模型(Modified Gaussian Model, MGM)[13],進一步校正分子云核的相關參數(shù)。三維可視化可以直觀展示分子云核的位置、形狀和尺寸。最后使用MySQL數(shù)據(jù)庫對分子云核數(shù)據(jù)以及結(jié)果進行歸檔存儲,為相關科學研究提供數(shù)據(jù)支撐,加速科研產(chǎn)出。
目前,系統(tǒng)所有模塊的基本功能都已實現(xiàn),從生成仿真數(shù)據(jù)到最后數(shù)據(jù)存儲,中間包括分子云核檢測、核表匹配、參數(shù)還原和三維可視化等功能使分子云核的研究變得更加直觀。系統(tǒng)主要包含5個模塊,每個模塊包含若干子模塊。系統(tǒng)功能結(jié)構(gòu)框架如圖1。
圖1 系統(tǒng)功能結(jié)構(gòu)圖Fig.1 System function chart
該系統(tǒng)采用Python編程語言實現(xiàn),系統(tǒng)界面設計采用PyQt5框架,并采用面向?qū)ο蟮木幊趟枷雽崿F(xiàn)系統(tǒng)的所有功能。PyQt5繼承了Qt的優(yōu)點,能夠降低各模塊之間的耦合度,方便系統(tǒng)的拓展和維護,同時與Python結(jié)合可以大大提高研發(fā)效率。
數(shù)據(jù)生成包含兩個不同的模式:仿真數(shù)據(jù)生成和合成數(shù)據(jù)生成。銀河畫卷數(shù)據(jù)是三維數(shù)據(jù),其中包括銀經(jīng)、銀緯和速度,根據(jù)文[14]對M17 SW的研究結(jié)果,分子云核在空間坐標和速度坐標上都是高斯形狀的分布,其柱密度也滿足高斯分布。三維高斯數(shù)學模型方便還原分子云核的相關參數(shù),因此仿真數(shù)據(jù)采用三維高斯模型,針對給定的分子云核參數(shù),采用數(shù)學計算和插值等方式,生成仿真的分子云核,合成數(shù)據(jù)通過向真實數(shù)據(jù)中隨機加入仿真云核生成。
2.1.1 仿真數(shù)據(jù)生成
針對給定的分子云核參數(shù),采用三維高斯數(shù)學模型,生成一些特定的分子云核數(shù)據(jù),在特定的實驗需求中,可以實現(xiàn)相關檢測算法的驗證和優(yōu)化。同時大量的仿真數(shù)據(jù)也可以減小實驗對真實數(shù)據(jù)的依賴,仿真數(shù)據(jù)與真實數(shù)據(jù)相互補充,可以實現(xiàn)檢測算法及數(shù)據(jù)交叉驗證與認證,更加全面地評價和檢測算法的性能。通過對真實數(shù)據(jù)的分析,對分子云核相關物理參數(shù)進行一定約束,建立分子云核三維高斯模型。生成仿真數(shù)據(jù)時,若兩個分子云核滿足
|vi-vj|≥σvi+σvj,
(1)
(2)
中的任意一個,則認為兩個分子云核沒有相互重疊。其中,(xi,yi,vi)和(xj,yj,vj)分別表示第i個和第j個云核的質(zhì)心坐標;(σxi,σyi,σvi)和(σxj,σyj,σvj)分別表示第i個和第j個云核在主軸、次軸和速度軸的軸長。為了仿真數(shù)據(jù)更加符合真實數(shù)據(jù),基于真實數(shù)據(jù)的背景噪聲,系統(tǒng)可以給仿真數(shù)據(jù)添加同等水平的高斯噪聲。
仿真核表反映分子云核的一些基本信息。圖2是云核峰值流量范圍為0.46~3,主軸、次軸的軸長范圍均為2~4,速度軸的范圍為1~7,旋轉(zhuǎn)角范圍為0~180°,信噪比為0.23的仿真分子云在3個軸向的積分圖。表1是仿真分子云核的核表(本文只顯示前5行),其中Size1,Size2和Size3表示相應軸向的半高全寬;Peak1~Peak3和Cen1~Cen3分別為云核中心坐標和質(zhì)心坐標;θ表示分子云核在銀經(jīng)面和銀緯面的旋轉(zhuǎn)角;Peak,Sum和Volume分別表示云核的峰值流量、總流量和體積。云核的中心坐標通過檢測算法計算得出,所以在仿真核表中云核中心坐標值與其質(zhì)心坐標值相同。
圖2 仿真數(shù)據(jù)在3個方向的積分圖,從左至右依次是主軸、次軸和速度軸
表1 仿真數(shù)據(jù)的核表(前5行)Table 1 The clump table of simulated data (The first five lines)
2.1.2 合成數(shù)據(jù)生成
檢驗云核檢測算法在某天區(qū)的云核探測率需要使用合成數(shù)據(jù)進行實驗測試。合成數(shù)據(jù)是通過向真實數(shù)據(jù)中隨機添加若干個仿真云核生成的,達到擴充實驗數(shù)據(jù)集的目的。在產(chǎn)生合成數(shù)據(jù)的過程中,為了不改變真實云核數(shù)據(jù)的整體分布,添加的仿真云核在峰值流量和總流量上盡可能接近真實數(shù)據(jù)。因此,首先對真實數(shù)據(jù)中云核的峰值流量和總流量進行統(tǒng)計分析,得出它們的分布區(qū)間以及分布規(guī)律。根據(jù)峰值流量和總流量的統(tǒng)計分析結(jié)果,向真實數(shù)據(jù)中添加仿真數(shù)據(jù)時,所添加的分子云核數(shù)據(jù)的峰值流量和總流量在整體上應該滿足同樣的分布。按照2.1.1描述的方式生成的仿真數(shù)據(jù),統(tǒng)計仿真數(shù)據(jù)中云核的峰值流量和總流量分布,加入真實數(shù)據(jù)構(gòu)成合成數(shù)據(jù),如圖3,對應的核表如表2。
圖3 合成數(shù)據(jù)在3個方向的積分圖Fig.3 The integral diagrams of synthetic data in three directions
表2 合成數(shù)據(jù)中加入的仿真云核核表(前5行)Table 2 The simulated clump table added to the synthetic data (The first five lines)
檢測分子云數(shù)據(jù)中的云核是為了生成分子云核核表,進而開展分子云核相關科學研究。采用局部密度聚類算法檢測分子云數(shù)據(jù)中的云核,檢測結(jié)果通過系統(tǒng)界面展示。為檢驗分子云核檢測算法的穩(wěn)定性,針對仿真數(shù)據(jù)或合成數(shù)據(jù)的檢測結(jié)果,本文采用核表匹配的方法計算分子云核檢測的召回率和正確率,從而評判檢測算法的穩(wěn)定性和可靠性。
2.2.1 分子云核檢測
分子云核檢測的主要功能是檢測仿真數(shù)據(jù)、合成數(shù)據(jù)和真實數(shù)據(jù)中的云核,采用基于局部密度聚類的分子云核檢測算法。使用系統(tǒng)檢測分子云核數(shù)據(jù)的結(jié)果顯示在系統(tǒng)界面的 “The number of clump” 和 “Detection time” 兩個文本框中,它們分別表示檢出的分子云核個數(shù)和檢測花費的總時間,如圖4,對2.1.1節(jié)中生成的仿真數(shù)據(jù)進行檢測,檢出的云核個數(shù)為45個,花費時間為15.87 s。系統(tǒng)同時顯示原始數(shù)據(jù)、檢測得到的掩膜,以及通過掩膜在原始數(shù)據(jù)中取出的云核積分圖,通過右下角的Aix0,Aix1和Aix2按鈕可以切換數(shù)據(jù)的積分方向。每個數(shù)據(jù)在檢測完畢之后生成一個檢測核表文件,表中每列參數(shù)的含義與仿真核表一一對應,如表3。檢測結(jié)果的核表中主軸、次軸、速度軸和體積檢出的結(jié)果偏小的原因在于為降低噪聲的影響,背景截斷導致部分形狀參數(shù)值偏小,而總流量偏大則是因為加性噪聲的影響。缺少的旋轉(zhuǎn)角屬性值和主軸、次軸、速度軸在參數(shù)還原模塊做相應的修正。
圖4 仿真數(shù)據(jù)的檢測結(jié)果Fig.4 The detection results of simulated data
表3 檢測結(jié)果的核表(前5行)Table 3 The clump table of detected results (The first five lines)
2.2.2 核表匹配
核表匹配是用于評判分子云核檢測算法的好壞,其中評價指標為歸一化的F1、召回率(Recall)和準確率(Precision)[15],算法性能正比于3個指標,各指標的計算公式為
(3)
(4)
(5)
以上各式中,NC為檢測出正確云核的個數(shù);ND為檢測出云核的個數(shù);NE為仿真云核的個數(shù);P為準確率;R為召回率。
該模塊可以接受單個文件或者文件夾作為輸入?yún)?shù)。單個文件是指一個仿真核表和一個檢測核表,單個文件夾是指仿真核表文件夾和檢測核表文件夾,核表匹配結(jié)果分為匹配正確、匹配錯誤以及檢測算法漏檢3部分。圖5為核表匹配的結(jié)果,經(jīng)計算,2.1.1中仿真數(shù)據(jù)的核表和檢測核表匹配結(jié)果中準確率為1,召回率為0.9,F(xiàn)1為0.947。
圖5 仿真數(shù)據(jù)的核表匹配Fig.5 The clump table matching of simulated data
為降低噪聲對分子云核檢測結(jié)果的影響,分子云核檢測算法在對云核檢測時,采用背景截斷處理,這導致檢測分子云核的主軸、次主軸、速度軸、峰值流量與真實值存在一定偏差,同時在檢測時并不計算每個云核對應的旋轉(zhuǎn)角,而是通過多高斯擬合,對檢測的分子云核進行擬合,反演分子云核主軸、次主軸、速度軸和峰值流量等參數(shù),并計算其對應的旋轉(zhuǎn)角,計算的旋轉(zhuǎn)角與仿真核表中的旋轉(zhuǎn)角滿足相等關系或者互補關系。表4展示了2.2.1節(jié)中檢測核表通過參數(shù)還原修正后的結(jié)果。
表4 參數(shù)還原(前5行)Table 4 Parameter reproduction (The first five lines)
分子云核數(shù)據(jù)作為三維數(shù)據(jù),僅通過觀察云核在各個方向的積分圖像來理解云核并不能獲得最好的效果,三維可視化可以彌補二維無法顯示空間信息的不足,有助于研究人員對分子云核的理解。系統(tǒng)平臺對檢測得到的分子云核進行多元展示,其中三維立體圖像展示方便研究人員在空間上鑒別不同形態(tài)的分子云核,而不同方向的積分圖、切片圖則有利于研究人員查看不同分子云核的細節(jié)信息,從而發(fā)現(xiàn)不同分子云核迥異的外在表現(xiàn),引導研究人員挖掘分子云核內(nèi)稟的物理特性差異。圖6顯示了單個分子云核的三維立體圖、積分圖和切片圖。
圖6 分子云核的三維顯示Fig.6 The 3D display of molecular clump
仿真和合成分子云核數(shù)據(jù)在分子云核相關技術算法的研究中具有重要意義,而真實分子云數(shù)據(jù)中分子云核的檢測為研究人員提供可靠的分析資料。銀河畫卷巡天項目分子云實測數(shù)據(jù)中存在海量分子云核數(shù)據(jù),數(shù)字化歸檔存儲為珍貴的分子云核數(shù)據(jù)提供可靠保障,為相關科學研究提供可靠支撐。實測分子云核數(shù)據(jù)可以看作是一個三維矩陣,而三維矩陣直接存儲到數(shù)據(jù)庫中會丟失數(shù)據(jù)內(nèi)部的關系。為了將分子云核三維數(shù)據(jù)、分子云核核表等數(shù)據(jù)安全存儲于數(shù)據(jù)庫中,我們首先對分子云核數(shù)據(jù)做二進制轉(zhuǎn)換,進而將核表及數(shù)據(jù)對應存儲于數(shù)據(jù)庫中。如圖7為分子云核數(shù)據(jù)表和分子云核信息表之間的關系圖。
圖7 數(shù)據(jù)庫關系表圖Fig.7 The relational table of database
M16天區(qū)是銀河畫卷巡天項目的一小部分區(qū)域,其銀經(jīng)范圍為15°15′~18°15′,銀緯范圍為0°~1°30′。本系統(tǒng)對M16天區(qū)進行分子云核檢測的結(jié)果及分析如圖8,圖中紅點代表檢出的分子云核位置,共658個核,對應的核表如表5。對M16的檢測核表做統(tǒng)計分析可以得出在M16天區(qū)中分子云核峰值流量和總流量的分布如圖9,其中縱軸表示分子云核個數(shù)百分比,橫軸分別表示分子云核的峰值流量和總流量。由圖9可見,分子云核峰值流量在4左右的比例最高,總流量在300左右最大。
圖8 M16天區(qū)的檢測圖Fig.8 The detection result of M16 area
表5 M16天區(qū)檢測結(jié)果的核表Table 5 The clump table of detected results in M16 area
圖9 (a)M16真實數(shù)據(jù)的分子云核峰值流量分布;(b)M16真實數(shù)據(jù)的分子云核總流量分布Fig.9 (a) Peak value distribution curve of M16 real data; (b) total flux distribution curve of M16 real data
目前,系統(tǒng)已經(jīng)完成所有模塊的建設,面對以后日益增多的分子云實測數(shù)據(jù),本系統(tǒng)可以充分減少分子云核數(shù)據(jù)的處理時間。采用仿真分子云與合成分子云等多源數(shù)據(jù)的交叉校驗,系統(tǒng)分子云核檢測準確率達0.947,可以為相關科學研究提供可靠、科學的數(shù)據(jù)支撐,加速相關科研成果產(chǎn)出,夯實我國分子云核實測基礎。M16天區(qū)實測分子云數(shù)據(jù)共檢出658個分子云核,為該天區(qū)相關科學研究提供可靠的數(shù)據(jù)支撐。后期我們將著力研究分子云核檢測算法以及生成仿真數(shù)據(jù)模型,完善已有模塊的功能,為我國分子云核及相關科學研究提供有力的技術支撐。
致謝:本文采用銀河畫卷巡天項目的數(shù)據(jù),該項目利用PMO-13.7 m望遠鏡沿北星系面在12CO/13CO/18CO的多線巡天。感謝銀河畫卷巡天項目組的所有成員,特別是PMO-13.7 m望遠鏡工作人員的長期支持。