陸揚(yáng) 安濤 郭紹光 勞保強(qiáng)
(1 中國科學(xué)院上海天文臺上海200030)
(2 中國科學(xué)院射電天文重點(diǎn)實(shí)驗(yàn)室南京210033)
國際大科學(xué)工程平方公里陣列射電望遠(yuǎn)鏡(Square Kilometre Array, SKA)是21世紀(jì)最具有遠(yuǎn)見與雄心的科學(xué)工程之一, 無論從規(guī)模還是數(shù)據(jù)量來看都是目前人類興建的最大(射電)天文觀測設(shè)備, 建成后它將是世界上最大的綜合孔徑射電望遠(yuǎn)鏡.SKA由分布在3000 km基線內(nèi)數(shù)量龐大的天線組成, 有效接收面積達(dá)1平方公里[1].SKA將產(chǎn)生相當(dāng)龐大的數(shù)據(jù), 按照目前的估計(jì), 平方公里陣列射電望遠(yuǎn)鏡第1階段(Square Kilometre Array Phase 1, SKA1)每秒將產(chǎn)生TB量級的數(shù)據(jù)[2–3].這對現(xiàn)代科學(xué)技術(shù)提出了一個跨越式挑戰(zhàn), 面對如此量級的數(shù)據(jù), 使用傳統(tǒng)算法、軟件已無法滿足SKA的海量數(shù)據(jù)處理的要求, 自動化的分析處理將是解決這類問題的必然選擇.
在SKA正式啟動前, 在全球范圍已逐步建成、更新了4個SKA先導(dǎo)項(xiàng)目和多個探路者項(xiàng)目1https://www.skatelescope.org/precursors-pathfinders-design-studies, 其中先導(dǎo)項(xiàng)目包括位于澳大利亞的SKA先導(dǎo)項(xiàng)目(Australian Square Kilometre Array Pathfinder,ASKAP)、默奇森寬視場陣列(Murchison Widefield Array,MWA)、南非臺地高原陣列望遠(yuǎn)鏡(MeerKAT射電望遠(yuǎn)鏡陣列)和氫原子再電離時代陣列(Hydrogen Epoch of Reionization Array, HERA), 探路者項(xiàng)目包括中國的宇宙第一縷曙光探測計(jì)劃?21 cm射電望遠(yuǎn)鏡陣(The 21 Centimeter Array, 21CMA)、歐洲的低頻射電陣列(The Low Frequency Radio Array, LOFAR)以及美國的長波長陣列(The Long Wavelength Array, LWA)等, 它們將為SKA望遠(yuǎn)鏡的啟用與科學(xué)產(chǎn)出提供重要的先驗(yàn)指導(dǎo).這些項(xiàng)目以及即將開建的SKA1和全規(guī)模的SKA產(chǎn)生的海量規(guī)模的數(shù)據(jù), 對于數(shù)據(jù)處理、數(shù)據(jù)分析、天體搜索等各方面都提出了迫切和更高的要求.
天體搜索通過對天文圖像中的星體進(jìn)行搜索查找, 基于相關(guān)算法進(jìn)行擬合, 然后形成星表[4], 該工作是大型巡天項(xiàng)目的基礎(chǔ).天體搜索技術(shù)在SKA先導(dǎo)望遠(yuǎn)鏡的多個關(guān)鍵科學(xué)項(xiàng)目和數(shù)據(jù)處理工作中均得到應(yīng)用.天體搜索對于未來SKA的射電天文數(shù)據(jù)處理也起著十分重要的作用, 不僅將為多個數(shù)據(jù)處理流程提供更精確的天空模型, 也將為大規(guī)模數(shù)據(jù)庫的建立、數(shù)據(jù)處理及可視化分析提供相應(yīng)星表基礎(chǔ)2https://www.ska-sdp.org.它的精確度與效率也將在很大程度上影響到數(shù)據(jù)處理過程以及最終成圖等產(chǎn)品.作為多個SKA科學(xué)數(shù)據(jù)處理管線的起始環(huán)節(jié), 也是連續(xù)譜成像管線系統(tǒng)、譜線管線系統(tǒng)、科學(xué)分析管線系統(tǒng)以及快速成像管線系統(tǒng)的重要組成部分, 天體搜索為建立天空模型提供了關(guān)鍵輸入?yún)?shù).此外,天體搜索也為數(shù)據(jù)庫提供了壓縮數(shù)據(jù)產(chǎn)品[5], 搜尋及識別的天體數(shù)據(jù)也將用于后續(xù)的多波段交叉證認(rèn)、天體分類、光度函數(shù)等統(tǒng)計(jì)分析.
大多數(shù)傳統(tǒng)的天體搜索算法、軟件在完備度與可靠度方面已達(dá)到較高水平[1], 一系列天體自動搜索算法、軟件也應(yīng)運(yùn)而生, 但在數(shù)據(jù)處理前后仍需要人工介入進(jìn)行修正,在某些程度上需要對天體數(shù)據(jù)進(jìn)行后續(xù)的人工修正和添加.SKA的數(shù)據(jù)量比先導(dǎo)望遠(yuǎn)鏡高出幾個量級, 這就需要有更適應(yīng)于未來望遠(yuǎn)鏡設(shè)備的數(shù)據(jù)處理方法, 能有效快速地處理海量的數(shù)據(jù), 具備更少的人工干預(yù)、更自動化的數(shù)據(jù)處理、更精確的處理結(jié)果等特性[6].因此具有高度自動化、可擴(kuò)展、高準(zhǔn)確度、可靠度與完備度的天體搜索算法、軟件對于更大數(shù)量天體搜索和擬合是不可或缺的.
天體搜索技術(shù)發(fā)展至今, 已形成了一系列更適應(yīng)于天文大科學(xué)工程的算法、軟件,近年來所開發(fā)的一些算法、軟件也已被用于SKA先導(dǎo)項(xiàng)目的運(yùn)行中, 并得到持續(xù)的改進(jìn).但迄今, 大多數(shù)算法、軟件仍然是高度工程化的.它們能夠很好地被系統(tǒng)工程師所用, 作為軟件模塊和中間算法被嵌套在數(shù)據(jù)處理系統(tǒng)流程中, 但作為獨(dú)立軟件被科學(xué)工作者所用, 并應(yīng)用于科學(xué)目標(biāo)研究方面仍有著很大的改進(jìn)空間.首先, 當(dāng)今的天文大數(shù)據(jù)時代, 天體搜索算法無論是作為中間環(huán)節(jié)還是獨(dú)立軟件, 在面對海量文件和數(shù)據(jù)時, 迫切需要具備批量處理、自動文件歸檔等功能及文件管理系統(tǒng).而對于大多數(shù)軟件, 尚需要通過手動操作實(shí)現(xiàn)多文件的處理及歸檔, 即使對于一些具有用戶界面的天體搜索軟件, 也主要提供單個圖像文件的處理.此外, 現(xiàn)今大多數(shù)軟件的操作, 包括軟件的運(yùn)行、參數(shù)的選擇、輸入及輸出文件的選擇等均需通過命令行實(shí)現(xiàn), 這便要求用戶首先對于操作環(huán)境以及每一個所使用的軟件較熟悉, 而不同軟件的操作又不盡相同.這給用戶使用增添了難度.因此, 一套適用性強(qiáng)的整合軟件系統(tǒng)可以有效解決這個問題.出于以上各方面的考慮, 基于目前已有的天體自動搜索算法, 通過對算法的改進(jìn)、批量文件處理和查看等功能的整合, 形成了一套具有交互式用戶界面的集成軟件, 從而滿足更廣泛的需求.本文第2節(jié)將簡要概述現(xiàn)有的天體自動搜索算法、軟件, 第3節(jié)將對天體自動搜索集成軟件設(shè)計(jì)及實(shí)現(xiàn)進(jìn)行探討, 第4節(jié)將進(jìn)行實(shí)驗(yàn)測試分析, 第5節(jié)將對海量數(shù)據(jù)處理的挑戰(zhàn)進(jìn)行探討, 最后對本文進(jìn)行總結(jié).
天體自動搜索自上世紀(jì)70年代起發(fā)展至今[7], 已產(chǎn)生一系列相關(guān)算法以及基于算法形成的軟件, 技術(shù)也愈加成熟, 不同算法和軟件各有其自身的開發(fā)背景、側(cè)重領(lǐng)域及優(yōu)劣.
早期的軟件有面向光學(xué)圖像開發(fā)的SExtractor (SE)[8], 適用于大規(guī)模巡天數(shù)據(jù).該軟件在射電天文領(lǐng)域也得到了相關(guān)應(yīng)用[9], 主要應(yīng)用在對天體進(jìn)行搜索、測算及分類上, 搜索方法基于閾值轉(zhuǎn)換Lutz算法[10].面向射電波段天體搜索的有Blobcat[11]、Selavy[12]和Duchamp[13]軟件及Sfind[14]、Aegean3https://github.com/PaulHancock/Aegean[9,15]算法等.其中, Duchamp最初面向HI觀測數(shù)據(jù)而開發(fā), 其應(yīng)用也已擴(kuò)展到其他波段的天文圖像中, 主要用于搜索并繪制譜線數(shù)據(jù)立方體圖像.Selavy是Duchamp的另一個版本, 用在SKA先導(dǎo)項(xiàng)目ASKAP的管線系統(tǒng)的ASKAPsoft架構(gòu)中, 可處理譜線數(shù)據(jù)立方體與連續(xù)譜圖像.Blobcat主要用于處理Stokes I和線偏振射電圖像.Blobcat與Aegean均采用了泛洪填充算法(Flood-Fill)[16]進(jìn)行天體搜索形成像素島, 但使用不同方法在像素島中進(jìn)行天體擬合.
從數(shù)據(jù)處理的方法及過程的角度來看, 射電天體搜索過程大致包含背景估計(jì)與消除、亮源識別、亮源擬合和生成星表等[9].
背景估計(jì)是通過對背景與噪聲的特性分析, 設(shè)立閾值, 將天體與背景進(jìn)行區(qū)分的過程[17], 針對有、無結(jié)構(gòu)背景情況, 分別采用圖像濾波器、閾值處理等方法[9].在設(shè)定閾值的方法中, 經(jīng)分析比較, 應(yīng)用錯誤發(fā)現(xiàn)率(False detection rate, FDR)[14]方法能夠使算法更完備、可靠[4].
亮源識別過程則采用例如Lutz及Flood-Fill等算法將區(qū)分為天體的像素形成像素島[9].這些算法被應(yīng)用于Duchamp、Aegean和Blobcat等算法和軟件中[18].
亮源擬合過程便基于像素島, 對每一個天體屬性進(jìn)行測算, 根據(jù)天體的性質(zhì)及觀測條件,采用單高斯或多高斯天體進(jìn)行擬合.天體區(qū)分與擬合的過程,在一些已開發(fā)的天體搜索算法和軟件如SExtractor、Selavy、Sfind和Image Search and Destroy (IMSAD)中存在很大差異, 進(jìn)而會影響處理變星、暫現(xiàn)源等天體的效果[4].Aegean和Blobcat等算法、軟件對此做了改進(jìn).Aegean在這一過程中, 采用拉普拉斯核, 更準(zhǔn)確地判斷天體數(shù)量, 設(shè)定初始參數(shù), 進(jìn)行天體擬合.完成搜索擬合的天體信息將進(jìn)一步形成星表.
下面將針對在天體搜索過程中涉及的兩種上文提到的算法進(jìn)行更詳細(xì)的闡述.
2.1.1 FDR算法
在射電圖像的處理中, 背景估計(jì)一直是比較重要的一步.在各種處理算法中, 閾值的設(shè)定是最重要的一步.閾值估計(jì)得過高會導(dǎo)致射電點(diǎn)源的丟失, 閾值估計(jì)得過低就會導(dǎo)致噪聲被識別為射電源.在射電源的閾值選擇中, 既可以通過設(shè)置為像素的5σ或者像素島的3σ, 也可以使用FDR算法來自由設(shè)定.
FDR算法是一種統(tǒng)計(jì)方法, 最早由Benjamini和Hochberg提出[19], 主要用于完善多重檢驗(yàn)問題的假設(shè)測試, 通過控制FDR來決定P值的閾值.FDR可以靈活調(diào)整期望值,作為閾值的指標(biāo), 不同于總體錯誤率(Family-wise Error Rate, FWER), FWER一般固定設(shè)置為0.05.與FWER相比, FDR采用了更為寬松的標(biāo)準(zhǔn), 在初始假定都滿足的情況下正確率與FWER相當(dāng), 其他情況下優(yōu)于FWER算法[20].
2.1.2 Flood-Fill算法
Flood-Fill算法用在點(diǎn)源搜索的第2個階段, 即亮源識別, 用于區(qū)分前景源與背景噪聲, 并將識別的像素點(diǎn)合成為一個射電源.Flood-Fill算法是從一個區(qū)域中提取若干個連通的點(diǎn)與其他相鄰區(qū)域區(qū)分開的經(jīng)典算法.因?yàn)槠渌悸奉愃坪樗畯囊粋€區(qū)域擴(kuò)散到所有能到達(dá)的區(qū)域而得名.
Flood-Fill算法選取兩個閾值,σs和σf, 其中大于σs的認(rèn)為是亮源的一部分, 大于σf的認(rèn)為是亮源關(guān)聯(lián)的判斷值, 用于將多個像素點(diǎn)組合為一個亮源.
這里我們使用4路算法(不考慮對角線方向的節(jié)點(diǎn))進(jìn)行模擬, 使用深度優(yōu)先的遞歸方法對9×9個像素點(diǎn)進(jìn)行處理.我們的模擬結(jié)果如圖1所示, 圖中黑色區(qū)域的值被認(rèn)為其亮度值大于灰色, 可以看到該模擬算法將從起始點(diǎn)開始的黑色連接塊組合為一個像素島(白色區(qū)域).
現(xiàn)今各天體自動搜索算法、軟件都發(fā)展到了一定高度, 并因不同的開發(fā)背景及特點(diǎn), 在不同的應(yīng)用場景中發(fā)揮其各自的優(yōu)勢作用.
Aegean是針對ASKAP開發(fā)的天體自動搜索算法, 適用于射電天文領(lǐng)域的數(shù)據(jù)處理,并對于SKA的連續(xù)譜巡天圖像數(shù)據(jù)處理所面臨的問題有著針對性的改進(jìn).
Flood-Fill算法作為其亮源識別過程的核心算法, 形成像素島, 對于采用最小二乘法橢圓高斯擬合的算法和軟件, 例如Multichannel Image Reconstruction, Image Analysis and Display (MIRIAD)軟件包, Flood-Fill算法幫助解決了這些算法在參數(shù)無約束情況下所需的大量人工介入修正問題[11], 提供更高的準(zhǔn)確性與自動化程度, 減少了人工介入,從而更適應(yīng)于大規(guī)模巡天的數(shù)據(jù)處理.
一些現(xiàn)有天體自動搜索算法或軟件對于像素島中多天體的擬合存在一定的誤差, 而在對一個像素島的天體進(jìn)行擬合前, 率先預(yù)測出天體數(shù)目, 對提高擬合的準(zhǔn)確度有很大的幫助[9].在Aegean算法中, 使用了拉普拉斯轉(zhuǎn)換算法從輸入圖像中獲得曲率圖, 結(jié)合經(jīng)過閾值處理的圖像, 能更準(zhǔn)確地估計(jì)每個像素島中的天體個數(shù), 并確定初始擬合參數(shù),從而在多天體擬合的準(zhǔn)確性方面有了很大的提高.
經(jīng)過與IMSAD、Selavy、SExtractor和Sfind的比較, Aegean在完備度與可靠度方面均達(dá)到很好的測試效果, 并最接近于理想標(biāo)準(zhǔn)[9], 而根據(jù)Hopkins等[6]對天體自動搜索的需求所進(jìn)行的測試比較中, Aegean對于致密亮源與暗弱源的搜索擬合方面都保持較高的可靠度與完備度.因此本文選取Aegean作為研究基礎(chǔ)以對天體自動搜索算法、軟件進(jìn)行更進(jìn)一步的研究、提升與開發(fā).
圖1 Flood-Fill算法模擬, 其中黑色區(qū)域的值被認(rèn)為其亮度值大于灰色, 左上圖為原始圖像, 從坐標(biāo)(1,1)開始迭代處理,stepN為迭代的每一步, 每一步可以識別出一個滿足條件的像素點(diǎn), 可以看到該模擬算法將從起始點(diǎn)開始的黑色連接塊組合為一個像素島(白色區(qū)域).Fig.1 Demonstration of the Flood-Fill Algorithm.The flux density values of black areas are considered to be greater than grey areas.The upper left image is the original image.The iterations start from (1,1)coordinates.Each step of iteration is stepN.At each iteration, a pixel satisfying the requirements is identified.As shown in the graph, the Flood-Fill algorithm groups the connected block starting from(1,1) into a pixel island (white areas).
平方公里陣列的數(shù)據(jù)規(guī)模對天空自動搜尋技術(shù)提出了較高的要求, 所開發(fā)的算法、軟件需要滿足如下的條件: 適應(yīng)于SKA科學(xué)數(shù)據(jù)處理管線系統(tǒng)并與各模塊順利銜接; 為不同的數(shù)據(jù)處理流程提供精確的天空模型; 能夠提供多種類型的輸出數(shù)據(jù)以助于進(jìn)一步的科學(xué)研究; 具有高度的延展性以適應(yīng)例如超級計(jì)算機(jī)等大規(guī)模數(shù)據(jù)處理環(huán)境; 滿足上述性能的同時在運(yùn)行與算法、軟件方面需具備高效率以適應(yīng)SKA的管線系統(tǒng), 尤其針對快速成像、前期校準(zhǔn)等重要工作的需求.
根據(jù)上述需求, 通過對SKA天體搜索的算法設(shè)計(jì)進(jìn)行分析, 可知目前需要改進(jìn)的為輸入輸出文件格式支持、算法完備度、自動化程度、執(zhí)行效率、可延展性等.根據(jù)現(xiàn)有算法、軟件普遍具有的特點(diǎn)與優(yōu)勢, 在擴(kuò)充相關(guān)功能的前提下, 著重考慮自動化搜索在海量數(shù)據(jù)自動處理和計(jì)算的應(yīng)用.在后續(xù)軟件設(shè)計(jì)中, 我們著重對以下幾方面進(jìn)行了功能改進(jìn).
3.1.1 軟件結(jié)構(gòu)兼容性需求改進(jìn)
在輸入文件的讀取支持方面, 首先改進(jìn)了默認(rèn)支持讀取缺省波束信息的Flexible Image Transport System (FITS)圖像文件的功能.在天體搜索起始階段, 波束信息為必要的輸入?yún)?shù), 經(jīng)初始測試, 例如Very Large Array (VLA)數(shù)據(jù), 該信息在部分FITS圖像文件中無法自動讀取, 手動設(shè)置則影響數(shù)據(jù)處理效率, 該功能的改進(jìn)有助于拓展自動算法應(yīng)用面, 使更多FITS圖像文件可被直接讀取, 從而達(dá)到流程一體化;
其次, 考慮到SKA及其先導(dǎo)望遠(yuǎn)鏡和管線系統(tǒng)輸出數(shù)據(jù)的多樣性, 增加了天體搜索擬合結(jié)果圖的輸出功能, 支持Portable Network Graphic Format (PNG)等圖片格式以及Comma Separated Value (CSV)等文件格式的輸出.天體自動搜索的結(jié)果既銜接于工程系統(tǒng), 也具有科學(xué)用途, 對于巡天觀測也尤為重要.因此, 設(shè)計(jì)搜索擬合可視化效果幫助工程的判斷與科學(xué)需求, 同時也增加了輸出圖像格式類型以便于后續(xù)的進(jìn)一步檢查處理.
3.1.2 軟件自動化與普適性
為加強(qiáng)軟件自動化性能及其對工程和科研的普適性, 改進(jìn)了軟件的功能, 形成天體自動搜索軟件系統(tǒng), 并設(shè)計(jì)了交互式的用戶界面.軟件系統(tǒng)及界面的設(shè)計(jì)主要從可操作性、延展性與功能完備度等方面進(jìn)行了考慮.軟件系統(tǒng)擁有友好的用戶界面, 易于操作并便于功能的實(shí)現(xiàn), 能夠直觀且快速展示所需的圖像結(jié)果, 并可以多種格式保存輸出數(shù)據(jù).基于SKA對天體搜索技術(shù)的要求, 軟件系統(tǒng)及用戶界面的設(shè)計(jì)也提升了處理大數(shù)據(jù)量的能力, 軟件可一次性讀取多個文件進(jìn)行批量處理, 并按文件類型自動對輸出文件進(jìn)行歸檔.基于SKA數(shù)據(jù)處理的復(fù)雜度, 也考慮使用戶界面在功能擴(kuò)展方面具有一定的靈活性, 軟件系統(tǒng)設(shè)計(jì)具備數(shù)據(jù)庫接口, 從而可與SKA成像管線系統(tǒng)與數(shù)據(jù)管理系統(tǒng)形成銜接.
根據(jù)天體搜索算法、軟件的特性以及界面友好等用戶界面指標(biāo), 開發(fā)了一款天體自動搜索集成化軟件, 該用戶界面原始界面如圖2所示.界面共包含4個區(qū)域: 輸入?yún)^(qū)域、輸出區(qū)域、系統(tǒng)提示區(qū)域以及圖形區(qū)域.如圖3所示.
圖2 天體自動搜索用戶原始界面Fig.2 The initial Automated Source Detection User Interface
圖3 天體自動搜索用戶界面區(qū)域Fig.3 Regions of the Automated Source Detection User Interface
輸入?yún)^(qū)域?yàn)檩斎雲(yún)?shù)讀取部分: 用戶可選擇所需讀取擬合的輸入圖像數(shù)據(jù), 可對波束參數(shù)進(jìn)行調(diào)整, 默認(rèn)值為FITS表頭信息, 可對閾值σ參數(shù)進(jìn)行調(diào)整, 并可在原圖擬合的基礎(chǔ)上對圖像做特定區(qū)域的擬合;
輸出區(qū)域?yàn)檩敵鰯?shù)據(jù)參數(shù)的設(shè)置部分: 用戶可選擇所需輸出的文件及其格式, 可選擇背景(BK)、噪聲(RMS)、曲率(CRV)、殘差(BLANK)及擬合(DET MAP)圖像文件,并以FITS、PNG、PS等格式輸出歸檔, 并可通過多種文檔格式輸出保存星表(包含所有搜索天體的CATALOG星表和基于像素島的ISLAND星表)文件;
系統(tǒng)提示區(qū)域顯示軟件運(yùn)行過程中的所有系統(tǒng)信息, 并實(shí)時顯示運(yùn)行進(jìn)度;
圖形區(qū)域可顯示指定文件對應(yīng)的圖像, 并可對圖像進(jìn)行灰度調(diào)節(jié).
軟件基于Linux操作系統(tǒng)研發(fā), 兼容并支持目前大多數(shù)天文軟件及集群的處理環(huán)境.軟件使用Python 2.7開發(fā), 部分代碼參考目前國際SKA先導(dǎo)陣列的成熟軟件, Graphical User Interface (GUI)開發(fā)使用PyQt4.
Python語言是一個互動性及面向?qū)ο蟮哪_本語言, 因其具有豐富的標(biāo)準(zhǔn)庫, 而被稱為膠水語言4https://www.python.org/doc/essays/omg-darpa-mcc-position.該用戶界面使用了如下模塊:
(1)用戶界面由PyQt模塊編譯;
(2)系統(tǒng)提示使用pprocess模塊編譯;
(3) MS格式使用CASA模塊編譯;
(4)圖形顯示使用PyFITS編譯;
(5)數(shù)據(jù)庫接口使用PySqlite編譯.
運(yùn)行環(huán)境: Linux.需安裝Python開發(fā)環(huán)境以及Qt4、Matplotlib、Pyfits、Numpy、Astropy等相關(guān)Python庫.自動化搜索的用戶操作流程圖如圖4所示.
為了驗(yàn)證天體自動搜索軟件系統(tǒng)進(jìn)行多項(xiàng)改進(jìn)后的性能, 本節(jié)將展示該系統(tǒng)的測試結(jié)果.所有測試均采用默認(rèn)參數(shù)設(shè)置以保持測試的一致性, 并選擇所有輸出文件類型的文件輸出以驗(yàn)證其完備度和時效性.在數(shù)據(jù)的選取上, 考慮采用不同觀測數(shù)據(jù)來源、望遠(yuǎn)鏡天區(qū)、不同圖像文件大小以及不同數(shù)量的兩個批次數(shù)據(jù)進(jìn)行測試.測試基于2個E5-4610v4、12核CPU、256 GB內(nèi)存的運(yùn)行環(huán)境.
對于SKA量級望遠(yuǎn)鏡, 自動處理龐大數(shù)據(jù)是一項(xiàng)重要需求.因此, 選取第1組大天區(qū)圖像對系統(tǒng)的運(yùn)行效率及延展性能進(jìn)行驗(yàn)證與展示.數(shù)據(jù)來源于銀河系與河外星系全天默奇森寬場陣列巡天項(xiàng)目(The Galactic and Extra-Galactic All-Sky MWA Survey,GLEAM)已公開數(shù)據(jù)[21].所測試及展示的數(shù)據(jù)是其中覆蓋南天5 deg2的天區(qū)圖像.使用天體自動搜索系統(tǒng), 可對該尺度天區(qū)FITS圖像的所有圖像(包括背景、噪聲、曲率、殘差及擬合圖像文件)與星表進(jìn)行自動連貫輸出.圖5展示了輸出的結(jié)果擬合圖.
同樣, 快速自動處理批量射電圖像文件也是下一代望遠(yuǎn)鏡對軟件系統(tǒng)提出的需求.第2組數(shù)據(jù)選取VLA Faint Images of the Radio Sky at Twenty-cm (FIRST)和APEX(Atacama Pathfinder EXperiment) Telescope Large Area Survey of the Galaxy (ATLASGAL)多張圖像對該系統(tǒng)的自動化性能及時效性進(jìn)行測試與演示.FIRST基于NRAO (National Radio Astronomy Observatory) VLA望遠(yuǎn)鏡陣列而形成的南北1×104deg2的射電巡天, 其角分辨率為5′′5http://first.astro.columbia.edu, 從中隨機(jī)選用了不同天區(qū)不同尺度60個FITS圖像進(jìn)行驗(yàn)證, 見表1.ATLASGAL是基于南天亞毫米波望遠(yuǎn)鏡的巡天, 從中隨機(jī)選取了不同大小的20個FITS圖像進(jìn)行驗(yàn)證6https://atlasgal.mpifr-bonn.mpg.de.
天體自動搜索系統(tǒng)可一次性讀取這80個FITS文件作為輸入文件, 自動對這一組數(shù)據(jù)進(jìn)行了天體識別與擬合, 并自動歸檔于相對應(yīng)的文件目錄, 每個FITS文件的擬合圖像均可在系統(tǒng)界面上進(jìn)行查看, 大大地方便了用戶的操作.圖6展示了其中一個圖像的擬合圖.圖7為自動歸檔示意圖.系統(tǒng)在讀取每一個FITS輸入文件時將創(chuàng)建對應(yīng)的文件目錄, 歸檔輸出圖像文件, 并創(chuàng)建子目錄用以歸檔所有的輸出星表文件, 方便輸出結(jié)果用作數(shù)據(jù)庫管理.
圖4 天體自動搜索用戶界面操作流程圖Fig.4 Operation flow of the Automated Source Detection User Interface
圖5 GLEAM圖像的搜索擬合輸出圖Fig.5 The output image of Detection Map from the fitting of a GLEAM input image
表1 VLA和ATLASGAL測試圖像信息Table 1 VLA and ATLASGAL images and Source Detection Results
天文學(xué)已逐漸進(jìn)入一個大數(shù)據(jù)的時代, 伴隨著更先進(jìn)觀測設(shè)備與技術(shù)的出現(xiàn), 天文數(shù)據(jù)量已從PB量級向著EB量級跨越[3,22].其數(shù)據(jù)量的龐大與多樣性對于傳統(tǒng)數(shù)據(jù)處理方法都是一個挑戰(zhàn), 天文界持續(xù)探尋著能夠處理更大量級數(shù)據(jù)處理的技術(shù)方法, 并隨著如今人工智能算法和計(jì)算力的演進(jìn), 進(jìn)一步將新技術(shù)與天文數(shù)據(jù)處理方法進(jìn)行融合, 使更多新的應(yīng)用和算法軟件得到探索和嘗試.
SKA以其更高靈敏度、時間、頻率與空間分辨率、巡天速度、大視場, 足以產(chǎn)生每秒TB量級數(shù)據(jù)[3,22].SKA所需要的是高效、準(zhǔn)確、高度自動化的數(shù)據(jù)處理流程.一方面, 天體搜索作為多個數(shù)據(jù)管線的開端, 關(guān)系后續(xù)多個環(huán)節(jié)的數(shù)據(jù)處理; 另一方面, 實(shí)時產(chǎn)生的龐大數(shù)據(jù)規(guī)模以及有選擇性的數(shù)據(jù)存儲, 讓后續(xù)的錯誤數(shù)據(jù)修正以及遺漏數(shù)據(jù)的重新添加變得不現(xiàn)實(shí)[6,9], 因此, 少量甚至無需人工干預(yù)的自動化流程以及強(qiáng)大的計(jì)算能力, 是應(yīng)對SKA量級數(shù)據(jù)的天體搜索的關(guān)鍵.
圖6 FITS圖像的搜索擬合輸出圖示例Fig.6 An example of the output image of Detection Map from the fitting of a FITS input image
圖7 多圖文件自動歸檔Fig.7 Automatic archiving of multiple output files
減少人工干預(yù)、修正, 讓算法和軟件實(shí)現(xiàn)最大可能的自動化對海量數(shù)據(jù)天體搜索工作十分重要.因此, 天體搜索算法、軟件的準(zhǔn)確度尤為重要, 算法、軟件需要具備高可靠度和高完備度, 大幅減少錯勘、遺漏等.為實(shí)現(xiàn)并不斷提高天體搜索的準(zhǔn)確度, 天文領(lǐng)域產(chǎn)生了一系列針對不同望遠(yuǎn)鏡和科學(xué)目標(biāo)的天體搜索算法, 這些算法也持續(xù)被探索、開發(fā)、歸納和改進(jìn), 如第2節(jié)所提到的基于光學(xué)開發(fā)的SExtractor, 基于射電天文、SKA先導(dǎo)項(xiàng)目MWA和ASKAP所開發(fā)的Aegean、Duchamp、Selavy等,都在一代又一代的軟件基礎(chǔ)上進(jìn)行有針對性的算法改進(jìn)和迭代更新.為了進(jìn)一步幫助天體搜索算法更好地適應(yīng)大型望遠(yuǎn)鏡的需求, 天體搜索軟件也越來越多地在大型望遠(yuǎn)鏡巡天項(xiàng)目中得到應(yīng)用、比較和性能評估.例如Popping等[23]對可用于ASKAP HI巡天項(xiàng)目的Deep Investigation of Neutral Gas Origins(DINGO)和Widefield ASKAP L-band Legacy Allsky Blind surveY (WALLABY)的5種天體搜索算法、軟件, 著重于點(diǎn)源和展源搜索的可靠度和完備度方面進(jìn)行了測試比較.Hopkins等[6]也基于SKA探路者項(xiàng)目ASKAP的宇宙演化巡天(The Evolutionary Map of the Universe, EMU)項(xiàng)目開展了數(shù)據(jù)競賽, 選用了11個算法、軟件對包含亮源、暗弱源、展源的3組類型天體的模擬圖像進(jìn)行了測試, 由此得到對算法準(zhǔn)確度等性能更充分的了解, 并使算法、軟件、ASKAP管線得到優(yōu)化.基于SKA射電譜線巡天, Norris等[4]對天體搜索的總體情況和技術(shù)挑戰(zhàn)進(jìn)行了探討, 總結(jié)了致密源搜索算法的類型、優(yōu)劣和改進(jìn)需求, 也分析了展源和彌散源搜索面臨的挑戰(zhàn), 為展源算法的進(jìn)一步開發(fā)提供了意見.而對于海量數(shù)據(jù)的計(jì)算性能方面,Dehghan等[18]則以Aegean和Duchamp作為研究對象, 尤其針對SKA管線和環(huán)境的適應(yīng)性, 著重就運(yùn)行環(huán)境部署, 包括計(jì)算成本、計(jì)算效率方面探討了當(dāng)前天體搜索算法的性能.SKA的數(shù)據(jù)競賽也于2018年開始發(fā)布, 旨在幫助完善數(shù)據(jù)處理及科學(xué)數(shù)據(jù)分析, 其首個數(shù)據(jù)競賽(Square Kilometre Array Science Data Challenge 1, SDC1)[24]即著重于考察數(shù)據(jù)處理算法、軟件對于圖像中的天體搜索與擬合的可靠度、完備度與準(zhǔn)確度.此外, 為了幫助天體搜索算法的可靠度和完備度指標(biāo)更為精確化, 也產(chǎn)生了相應(yīng)的評估算法和軟件.ComEst[25]是為SExtractor所開發(fā)的主要用于光學(xué)和近紅外圖像完備度的評估軟件, Serra等[26]提出了一種基于噪聲的對稱性, 使用負(fù)流量探測來判斷天體搜索結(jié)果的可靠度的方法, Westerlund等[27]設(shè)計(jì)了基于譜線數(shù)據(jù)天體搜索準(zhǔn)確度的評估軟件Source Finder Accuracy Evaluator (SFAE).
這些評估和測試比較都為天體搜索算法、軟件的升級和更先進(jìn)算法、軟件的開發(fā)提供了實(shí)驗(yàn)基礎(chǔ)和改進(jìn)方向.總體而言, 對于算法、軟件本身, 致密源天體搜索算法、軟件的發(fā)展已使之具備較好的準(zhǔn)確度(包括可信度、完備度、參數(shù)的準(zhǔn)確度等)[27], 并得到不斷的完善, 將在未來更多、更大數(shù)據(jù)量的測試評估中循序漸進(jìn)加以優(yōu)化; 對于彌散源、展源的搜索擬合, 無論是準(zhǔn)確度方面還是技術(shù)的計(jì)算成本仍存在較大改進(jìn)空間, 同時處理大型望遠(yuǎn)鏡產(chǎn)生的海量數(shù)據(jù)也是比較大的挑戰(zhàn), 因此仍處在算法、軟件發(fā)散式探索和基于現(xiàn)有算法、軟件的改進(jìn)中.未來將需要更多場景的測試、比較, 并逐漸形成比較完善且系統(tǒng)的兼顧點(diǎn)源和展源等多種天體類型的算法、軟件; 對于算法、軟件在運(yùn)行環(huán)境上的部署, 面對數(shù)據(jù)規(guī)模如SKA的需求, 已有算法、軟件在延展性能方面仍有差距,需要天文與軟件計(jì)算領(lǐng)域更多的協(xié)作[18].
在天體搜索中, 復(fù)雜結(jié)構(gòu)天體(展源、彌散源、暗弱源等)的搜索擬合是現(xiàn)階段海量數(shù)據(jù)背景下天體搜索算法的挑戰(zhàn)之一.
下一代巡天望遠(yuǎn)鏡, 包括SKA先導(dǎo)項(xiàng)目The Westerbork Synthesis Radio Telescope (WSRT)望遠(yuǎn)鏡的The Westerbork Observations of the Deep APERTIF (The new Phased Array Feed receiver system for the Westerbork Synthesis Radio Telescope)Northen-Sky (WODAN)[28], ASKAP陣列的EMU巡天[29]和MeerKAT的The MeerKAT International GHz Tiered Extragalactic Exploration (MIGHTEE)巡天[30]等, 將在靈敏度、分辨率和視場等多個方面較先前的設(shè)備有重大突破[31].例如,EMU將實(shí)現(xiàn)對整個南天的深度巡天,其靈敏度與角分辨率將分別高于The NRAO VLA Sky Survey(NVSS)巡天45倍和4.5倍.而EMU與WODAN將共同提供頻率在1.3 GHz、角分辨率達(dá)10′′–15′′、靈敏度達(dá)10 μJy·beam?1的全天空成像[29].
這些巡天望遠(yuǎn)鏡的使用, 將有助于天文學(xué)家們對暗弱源及延展結(jié)構(gòu)的天體進(jìn)行觀測, 獲取更精確的圖像, 并展開進(jìn)一步的研究和分析.而這需要天體搜索算法和軟件能夠?qū)Ω髷?shù)據(jù)量的天文圖像中的弱源、展源天體進(jìn)行快速自動識別并擬合.
即使是目前點(diǎn)源搜索相對表現(xiàn)較好, 可靠度和完備度較高的天體搜索算法和軟件,在對大型望遠(yuǎn)鏡巡天的數(shù)據(jù)進(jìn)行天體搜索時仍存在較大的不足[6].針對最考驗(yàn)天體搜索軟件和算法的特殊天體—展源、彌散源、暗弱源、暫現(xiàn)源等, 天文界從不同角度, 甚至借助了機(jī)器學(xué)習(xí)等人工智能算法進(jìn)行了探索, 針對展源搜索的算法和軟件也相繼提出.多層次貝葉斯算法[32]、(小波分解的)傳統(tǒng)閾值方法、壓縮感知算法、基于霍夫變換的圓檢測算法等[33–35]是針對展源、彌散源所開發(fā)的軟件和算法, 但現(xiàn)有的技術(shù)也可能面臨較高的計(jì)算成本, 需要算法與技術(shù)的融合加以實(shí)現(xiàn)[4]; 針對暗弱源的一些算法、軟件正在進(jìn)一步研究、開發(fā)中, 基于Giant Metrewave Radio Telescope (GMRT)和The Australia Telescope Compact Array (ATCA)數(shù)據(jù)的測試分析也在進(jìn)行中[36]; 針對SKA及下一代大型望遠(yuǎn)鏡科學(xué)數(shù)據(jù)處理這一重要領(lǐng)域的暫現(xiàn)源成像系統(tǒng), 所需的天體搜索算法、軟件也進(jìn)行了探討和分析[37–38].而近年來, 隨著機(jī)器學(xué)習(xí)等人工智能算法得到更多的應(yīng)用, 天文界也逐步嘗試了這些算法, Gheller等[39]將深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)應(yīng)用于彌散射電源的搜索并開發(fā)了名為Cosmodeep的軟件, 同樣結(jié)合深度學(xué)習(xí), Sadr等[40]開發(fā)了針對低信噪比天體搜索的DeepSource算法.這些方法也需要結(jié)合現(xiàn)有的算法、軟件加以融合形成更完備的軟件系統(tǒng), 以完善整體性能, 一方面應(yīng)用于巡天項(xiàng)目、數(shù)據(jù)處理管線, 另一方面, 通過測試評估, 分析各算法、軟件的優(yōu)劣, 從而能對算法、軟件進(jìn)行更好的改進(jìn).
面對海量數(shù)據(jù), 天體搜索算法的性能表現(xiàn)也高度依賴于科學(xué)數(shù)據(jù)處理管線的兼容、銜接以及運(yùn)行環(huán)境的部署.
以SKA為代表的數(shù)據(jù)密集型計(jì)算需實(shí)現(xiàn)實(shí)時數(shù)據(jù)流的處理, 對于每一個環(huán)節(jié)數(shù)據(jù)處理的時效性有很高的要求, 在算法、軟件的設(shè)計(jì)和運(yùn)行環(huán)境的選擇上, 需考慮追求準(zhǔn)確度所帶來的軟件復(fù)雜度與運(yùn)行效率之間的權(quán)衡, 對于數(shù)據(jù)的讀寫速率(I/O吞吐量)、內(nèi)存的消耗都需要很好的考量.未來SKA量級的數(shù)據(jù)處理均需要部署于高性能計(jì)算機(jī), 當(dāng)前科學(xué)數(shù)據(jù)處理(Science Data Processor, SDP)研發(fā)任務(wù)正在開展中, 歐洲和站址國正在為SKA及先導(dǎo)項(xiàng)目建設(shè)數(shù)據(jù)中心, 中國科學(xué)院上海天文臺也正展開對SKA區(qū)域中心原理樣機(jī)的研發(fā)[41], 因此, 這也需要算法、軟件的設(shè)計(jì)適用于不同高性能運(yùn)算環(huán)境, 可進(jìn)行并行化等加速處理.本文所述天體搜索軟件系統(tǒng)也將根據(jù)此需求進(jìn)行改進(jìn)優(yōu)化, 并基于原理樣機(jī)進(jìn)行測試.此外, 與其他軟件和管線系統(tǒng)的無縫銜接能力, 擁有高效的文件管理系統(tǒng)也是處理海量數(shù)據(jù)的重要需求, 這也是本文所述軟件系統(tǒng)設(shè)計(jì)的重要考量.
SKA建成后將產(chǎn)生海量數(shù)據(jù), 預(yù)估SKA第1階段(建成10%)的數(shù)據(jù)規(guī)模所需的運(yùn)算能力已遠(yuǎn)超于當(dāng)前世界最快的超級計(jì)算機(jī)[22].面對如此龐大的數(shù)據(jù)量, 順利進(jìn)行科學(xué)數(shù)據(jù)處理對于目前高性能計(jì)算機(jī)的計(jì)算能力都是極大的挑戰(zhàn), 尤其是對系統(tǒng)I/O、傳輸帶寬、共享資源調(diào)度分配、數(shù)據(jù)管理等緊密關(guān)系到計(jì)算效率的環(huán)節(jié)提出很高的要求.
例如中國科學(xué)院上海天文臺的科研團(tuán)隊(duì)針對SKA海量數(shù)據(jù)處理要求, 正在研發(fā)SKA數(shù)據(jù)中心原理樣機(jī)[3,22], 在計(jì)算架構(gòu)方面, 不同于傳統(tǒng)高性能計(jì)算架構(gòu)將數(shù)據(jù)移至緩存進(jìn)行并行處理, 而采用適應(yīng)于SKA數(shù)據(jù)密集型計(jì)算的數(shù)據(jù)島計(jì)算架構(gòu), 提高時效并保障數(shù)據(jù)處理的流暢和穩(wěn)定.應(yīng)對海量數(shù)據(jù)的數(shù)據(jù)管理, 采用了由西澳大學(xué)牽頭合作研發(fā)的數(shù)據(jù)流管理系統(tǒng)[42](Data Activated Flow (Liu) Graph Engine, DALiuGE), 實(shí)現(xiàn)數(shù)據(jù)密集型計(jì)算的高效性、實(shí)時性、連續(xù)性和低能耗.
本文探討了天體自動搜索算法、軟件的發(fā)展現(xiàn)狀, 并基于現(xiàn)有的算法, 改進(jìn)、開發(fā)了一套更具適用性和自動化程度更高的集成軟件, 為SKA科學(xué)數(shù)據(jù)處理提供了軟件驗(yàn)證支持.測試表明, 該軟件對于不同類型圖像具有良好的自動化處理效果, 能夠?qū)崿F(xiàn)自動批量處理不同大小圖像并處理大天區(qū)圖像, 具有更好的交互能力, 為將來軟件的進(jìn)一步開發(fā)與發(fā)展提供了參考.
SKA由于具有極高的靈敏度、時間、頻率與空間分辨率、巡天速度、大視場, 而產(chǎn)生了海量的數(shù)據(jù), 高效、準(zhǔn)確、高度自動化的數(shù)據(jù)處理流程是目前應(yīng)對大數(shù)據(jù)處理所必須的, 本文討論的解決方案已經(jīng)可以部分應(yīng)對自動化的處理流程, 但是在海量數(shù)據(jù)的高速處理上還有改進(jìn)空間.
另外, 相對于點(diǎn)源而言, 復(fù)雜結(jié)構(gòu)的天體流量密度更低, 因此復(fù)雜結(jié)構(gòu)搜索的工作更具有挑戰(zhàn)性, 并且由于具有其自身的發(fā)射特性, 后續(xù)將進(jìn)一步考慮優(yōu)化算法, 完善軟件對延展源的支持.
致謝感謝中國SKA區(qū)域數(shù)據(jù)中心原型樣機(jī)給本項(xiàng)目提供的硬件平臺支持.感謝Paul Hancock等提供的相關(guān)軟件.感謝Paul Hancock對本項(xiàng)目的建議.