安 濤 武向平 洪曉瑜 葉叔華 毛羽豐 郭紹光 勞保強
1 中國科學院上海天文臺 上海 200030 2 中國科學院國家天文臺 北京 100101 3 中國科學院 前沿科學與教育局 北京 100864
天文學是一門最古老的學科,伴隨著人類文明產(chǎn)生,而中國則是世界上天文學起步最早的國家之一?,F(xiàn)代觀測天文學從伽利略發(fā)明天文望遠鏡算起,至今已經(jīng)有 400 多年的歷史,天文學的每一次重大進展都離不開天文望遠鏡能力的飛躍式進步。
中國正處在新時代科技創(chuàng)新的戰(zhàn)略機遇期,國家對科研的投入達到前所未有的高度。仰望星空離不開精密望遠鏡,近幾年一批大型天文望遠鏡在我國相繼建成,如興隆大天區(qū)面積多目標光纖光譜天文望遠鏡(LAMOST)、貴州 500 米口徑球面射電望遠鏡(FAST)、暗物質(zhì)探測空間望遠鏡“悟空”、硬 X 射線調(diào)制望遠鏡“慧眼”,這些設備接近或達到國際一流水平。中國參加了世界上最大的天文大科學工程——平方公里陣列(Square Kilometre Array,SKA)射電望遠鏡的國際合作,其建成后將成為射電望遠鏡中的旗艦,樹立自然科學探索歷程中新的里程碑?,F(xiàn)有的望遠鏡設備也都在升級更新,形成了從地基設備到空間衛(wèi)星(以及空間站)的觀測條件和從 X 射線、紫外線、光學、紅外到射電的全波段觀測能力,把天文學的研究推上了指數(shù)增長的大數(shù)據(jù)時代。目前的天文數(shù)據(jù)已經(jīng)達到了 PB 量級,隨著觀測技術(shù)的進步和觀測設備的更新,很快將會進入到 EB 量級時代,天文大數(shù)據(jù)將深刻改變?nèi)祟愄剿骱驼J識自然的方式。
從 20 世紀 60 年代以來,天文學不斷產(chǎn)生令人贊嘆的成果,天文學正書寫著人類自然科學發(fā)展的輝煌篇章。最精彩、最具突破性的天文發(fā)現(xiàn)越來越依賴于大型科研裝置的協(xié)同運行,越來越依賴于海量數(shù)據(jù)的分析和挖掘;同時,科學成果的透明度、多樣性、多學科之間的融會貫通使得人類的科技生活越來越豐富多彩。天文學真正進入了多波段、多信使時代,人們不僅能夠使用多個觀測設備同時探測同一天體,獲得幾乎整個電磁波譜的完整信息,而且還能夠使用電磁輻射之外的其他信源,比如中微子和引力波來研究宇宙天體。一個最具代表性的例子是 2017 年 8 月天文學家首次發(fā)現(xiàn)兩顆中子星的并合事例。地基激光引力波天文臺(LIGO)和 VIRGO 引力波探測器首先發(fā)現(xiàn)了中子星并合過程產(chǎn)生的時空漣漪,隨后最強大的太空望遠鏡和地面望遠鏡協(xié)同觀測并合后的后隨輻射,使得人們不僅增進了對引力波的認識,而且從觀測上證實了短伽馬暴、巨超新星等奇異天體,這讓我們對天文學協(xié)同研究的強大威力有了新的理解。
以觀測為基礎的天文學曾長期受到數(shù)據(jù)匱乏的困擾,進入 21 世紀信息時代,天文學已經(jīng)發(fā)生了重大的革命性變化。天文觀測已經(jīng)逐步進入大數(shù)據(jù)時代,當前科學研究方式和傳播方式也發(fā)生著深刻演變。舉個例子:超新星是宇宙中絢爛的煙花,我國有世界公認的關于超新星的最早天文記錄。超新星在天體物理研究中有重要的地位,2011 年的諾貝爾物理學獎授予 3 位天文學家,他們的貢獻是通過對超新星的觀測發(fā)現(xiàn)宇宙正在加速膨脹。超新星是非常稀有的事件,在 10 年前捕獲一顆超新星是相當困難的,因此每次觀測到一個超新星也必然引起全球望遠鏡的追逐競賽,大量研究不得不依賴于數(shù)值模擬和理論計算。而如今,光學巡天每年都能發(fā)現(xiàn) 1 000 多顆,超新星變得不再稀奇,深度有效地挖掘這些大型巡天積累的數(shù)據(jù)則有可能會產(chǎn)生更多新發(fā)現(xiàn)。隨著 SKA 等下一代超級望遠鏡帶來的天文觀測能力的極大提升,在當前仍屬于鳳毛麟角的奇異天體在 5—10 年后都將成為常客。統(tǒng)計學、信息科學與天文學密切結(jié)合,為天文學家提供數(shù)據(jù)分析工具,基于對宇宙大數(shù)據(jù)的收集、整理、分析探索宏觀宇宙的真理和天體的運行規(guī)律。
天文學關注有關宇宙、天體和生命起源的最具有前瞻性的問題,這些問題的突破和解決將極大地推動自然科學基礎理論,促進人類科技水平的整體進步。
由宏偉科學目標驅(qū)動的 SKA 射電望遠鏡是我國參加的最大的天文領域國際合作大科學工程。SKA 建成后將成為世界上最大的天文實驗裝置,為人類探索宇宙起源奧秘創(chuàng)造新的機會。SKA 由包括中國在內(nèi)的 11 個正式成員國以及 10 多個觀察員國參與,建設和運行天文大望遠鏡已經(jīng)成為一個國家綜合實力的真實體現(xiàn)和重要標志。SKA 總部位于英國,SKA 低頻陣列(SKA-low)包括 130 萬個對數(shù)周期天線,擬建于澳大利亞西部沙漠;SKA 中頻陣列(SKA-mid)包括 2 500 個碟形天線,擬建于南非以及南部非洲的無線電寧靜區(qū)域,這兩處是經(jīng)過天文學家十幾年評估和測評后優(yōu)選出來的最佳臺址。望遠鏡的總接收面積高達 1 平方公里,頻率幾乎連續(xù)覆蓋 50 MHz—20 GHz 的范圍,比目前厘米波段最大的射電望遠鏡陣的靈敏度提高約 50 倍、巡天速度提高約 10 000 倍[2]。
作為下一代擔當引領作用的射電天文觀測設施,SKA 將對射電天文學的發(fā)展產(chǎn)生深遠影響。SKA 的強大觀測能力體現(xiàn)在其超高靈敏度(mK)、超大視場(數(shù)十度)、超快巡天速度、超高頻率分辨率(kHz)、超高時間分辨率(納秒)、超高空間分辨率(亞角秒),這些技術(shù)特點使得SKA產(chǎn)生前所未有的超大數(shù)據(jù)量[2]。
SKA 的建設主要分為兩個階段:第一階段(SKA1)將按照全規(guī)模的 10% 來建造,預計 2020 年開建;第二階段(SKA2)將完成其余 90% 建設工程,不過目前尚未確定具體計劃。SKA1-low 每個臺站的數(shù)據(jù)產(chǎn)生率為 2 Tbps,總的數(shù)據(jù)流是 1 Pb/s。據(jù)此規(guī)模遞推,SKA2 至少產(chǎn)生 10 倍以上的實時數(shù)據(jù)流。從上述數(shù)據(jù)可知,SKA 產(chǎn)生的數(shù)據(jù)量是空前巨大的,即使經(jīng)過相關處理后數(shù)據(jù)量極大降低了,但輸入到科學數(shù)據(jù)處理器(SDP)①即建于兩個臺址國專門對這些原始科學數(shù)據(jù)進行預處理的超級計算機。的數(shù)據(jù)也達到了 4 GB/s,是當之無愧的科學大數(shù)據(jù)。SKA 超大規(guī)模的數(shù)據(jù)流需要及時地以實時模式處理掉,否則會造成整個數(shù)據(jù)處理管線(pipeline)的堵塞甚至崩潰。采用實時模式、多并發(fā)任務、數(shù)據(jù)流管線系統(tǒng)的處理方式是 SKA 數(shù)據(jù)處理的幾個典型特點,也是新型科學大數(shù)據(jù)處理的典型應用[3]。
作為史上最大的射電望遠鏡,SKA 不僅承載孕育世界級科研成果的使命,而且將產(chǎn)生世界上最大規(guī)模的數(shù)據(jù),因此我們需要充分認識到 SKA 數(shù)據(jù)處理的巨大挑戰(zhàn)。由于 SKA 工程極其龐大及復雜,為了攻克關鍵技術(shù)、降低技術(shù)風險,包括中國在內(nèi)的多個國家先后建設了一些探路者和先導項目,每個項目相當于 SKA 總體規(guī)模的 1% 左右,并基于這些先導望遠鏡開展了相關的科學預研究和技術(shù)攻關。這些先導設備在理解 SKA 科學目標、建立和逐步完善天空模型、開發(fā)和測試數(shù)據(jù)處理軟件、培養(yǎng)急需的人才隊伍等方面發(fā)揮了積極作用,在 SKA 發(fā)展歷程中處于不可忽視的地位。需要指出的是,盡管如此,這些先導項目的數(shù)據(jù)量遠遠不能達到 SKA1 規(guī)模,因此與建立真實的驗證參考還有一定的距離②武向平,等。中國SKA科學白皮書(2017年)。。
與傳統(tǒng)望遠鏡相比,SKA 更像是一個“軟件”望遠鏡,它不僅集成了當代信息計算技術(shù)的最新成就,而且提出了新的問題。以 SKA-low 為例,其旨在探測微弱宇宙信號,這些低頻陣列以 10 Pb/s 速度產(chǎn)生出世界上最大規(guī)模的數(shù)據(jù)流,遠遠超出了全世界互聯(lián)網(wǎng)的流量。按照 SKA 的數(shù)據(jù)流規(guī)模,估計在建設的第一階段每年需要輸送到區(qū)域數(shù)據(jù)中心進行深度分析的科學數(shù)據(jù)就達到了每年 300 PB,隨著望遠鏡的全面運行,這個數(shù)據(jù)量必然會逐步增加。到了 SKA2 階段,從 SKA 天文臺產(chǎn)生的預處理數(shù)據(jù)的規(guī)模將擴展到 SKA 先導項目的 100 倍以上,達到 EB 量級。SKA 兩個最重要的科學方向——宇宙再電離和黑暗時期探測、用脈沖星計時陣精確測量引力,需要積累未校準的原始數(shù)據(jù);如果考慮到保存一定時間的原始數(shù)據(jù),那么 SKA 天文臺的數(shù)據(jù)存儲需求將提高至少一個量級。
以 SKA 先導項目 MWA 為例,經(jīng)過 4 年的運行,MWA 積累了 24 PB 的科學存檔數(shù)據(jù)。其中一個科學目標是 GLEAM 巡天任務,第一期巡天已經(jīng)包含了 30 多萬顆星系,存檔數(shù)據(jù)量達到 1 PB 以上。第二期巡天已經(jīng)開始,靈敏度提高了 4 倍以上,數(shù)據(jù)量預期高達 6.5 PB。而 MWA 只占到 SKA-low 規(guī)模的 1%,SKA 數(shù)據(jù)量由此可見一斑。據(jù)初步估計,SKA1 階段的科學數(shù)據(jù)處理器所需要的計算能力為 260 PFlops(即每秒 260 千萬億次浮點運算),相當于我國超級計算機“天河二號”的 8 倍,“神威 · 太湖之光”的 3 倍。SKA 巨大的計算需求必然對現(xiàn)有科學計算的架構(gòu)和方式形成巨大沖擊,對 SKA 數(shù)據(jù)處理問題的解決有助于帶動和提升相關產(chǎn)業(yè)的發(fā)展,甚至引發(fā)革命性變化。
SKA將對除天文學以外的其他眾多學科諸如計算機科學、信息學、電子學等領域帶來極大的促進作用③武向平,等。中國參加SKA(第一階段)綜合論證報告(初稿),2018年。。TB 量級的高速數(shù)字化采樣、高速實時數(shù)字信號處理對電子行業(yè)帶來新的挑戰(zhàn)。長期工作在野外惡劣環(huán)境下射頻信號長距離光纖傳輸?shù)念l率同步是孔徑陣列急需解決的技術(shù)挑戰(zhàn)之一。大數(shù)據(jù)長距離的高速寬帶洲際傳輸對目前的科研網(wǎng)絡基礎設施、拓撲結(jié)構(gòu)、通信協(xié)議、傳輸端軟件等提出了嚴苛的要求——滿足超高速流式數(shù)據(jù)處理設計的互聯(lián)網(wǎng)絡不是簡單通過增加節(jié)點的互聯(lián)網(wǎng)口數(shù)量和增加節(jié)點間的互聯(lián)總帶寬能實現(xiàn)的,對這個問題的有效解決也必將促進國內(nèi)百 GB 甚至 TB 級基礎網(wǎng)絡的布局和建設。
以數(shù)據(jù)密集型科學計算為特點的 SKA 數(shù)據(jù)處理對我國的電子、計算機、信號處理行業(yè)提出了更高的要求。
SKA 科學數(shù)據(jù)處理應用面臨著“存儲墻”問題,即 I/O 問題,傳輸帶寬是主要的系統(tǒng)瓶頸之一。即使“天河二號”這樣的超算對于 SKA 這類大數(shù)據(jù)的處理資源也會有不足,同時不便進行突發(fā)事件的觀測分析,因此亟待研究適應數(shù)據(jù)密集型科學計算的新型架構(gòu)體系[4]。前面講到,SKA 高速海量的輸入數(shù)據(jù)必須通過實時處理降低后續(xù)流程的壓力,海量數(shù)據(jù)實時處理對軟硬件體系都有特殊設計要求,整個系統(tǒng)的架構(gòu)設計和集成安裝、超算中心的執(zhí)行框架和配套軟件算法、數(shù)據(jù)中心的健康監(jiān)控、機柜冷卻、總控管理等都會面臨諸多挑戰(zhàn);而且在建設經(jīng)費封頂?shù)那闆r下,既要達到預定的運算能力和實時性要求,還要從運行成本上考慮滿足低功耗的要求。此外海量數(shù)據(jù)的存儲、歸檔、檢索、運算對超級計算機的完整生態(tài)鏈提出了極高的要求。盡管國產(chǎn) CPU 芯片已經(jīng)部署在國內(nèi)大型超算中心,國內(nèi)科研單位也研發(fā)了用于人工智能領域的深度學習處理器芯片;但不容樂觀的是,目前主流的操作系統(tǒng)、存儲系統(tǒng)等軟件生態(tài)基本全部來自于國外,最關鍵的軟件生態(tài)環(huán)境依然遠遠落后國際水平,尚不具備競爭力,“卡脖子”問題依然嚴重,自給自足的能力還不夠。SKA 項目為相關產(chǎn)業(yè)的發(fā)展提出了強烈的需求驅(qū)動。
除了硬件方面的問題,天文應用軟件的目前研發(fā)水平也遠遠無法達到SKA的要求。SKA科學數(shù)據(jù)處理的關鍵算法存在大量對共享資源包括共享文件系統(tǒng)的操作,傳統(tǒng)固定多核的計算機系統(tǒng)在多任務、多并發(fā)、多線程并行執(zhí)行時經(jīng)常出現(xiàn)資源競爭;如果數(shù)據(jù)流執(zhí)行框架不能有效地妥善解決資源調(diào)度和分配,嚴重的情況下將導致數(shù)據(jù)處理流水線停頓[3,4]。實際上,這一問題在 SKA 先導望遠鏡數(shù)據(jù)處理中心并不罕見。為此,澳大利亞 ICRAR 研究所和中國科學院上海天文臺針對 SKA 項目聯(lián)合研發(fā)了名為 Data Activated 流 (Liu)Graph Engine (DALiuGE)的數(shù)據(jù)流執(zhí)行框架[3],其采用了“數(shù)據(jù)驅(qū)動”的先進設計理念,比傳統(tǒng)的 HPC“計算驅(qū)動”的設計更適合 SKA 科學計算。此外,SKA 科學計算的實際運算效率小于原計劃的 10%,因此其原定理論峰值性能 260 PFlops 無法完成科學數(shù)據(jù)處理的實際需求。增加超算資源的簡單做法并不切實可行,更加可行的途徑是提高軟件執(zhí)行效率——效率從 10% 提高到 20%,可以節(jié)約 50% 的計算資源以及大幅度降低運行成本。天文學家與計算機專家合作優(yōu)化代碼,可以數(shù)倍地提高算法和程序的運行速度。當務之急是培養(yǎng)既懂天文又懂計算的復合型人才。另一個現(xiàn)實的問題,天文數(shù)據(jù)處理的軟件也亟待更新?lián)Q代以滿足未來的需求。目前主要使用的天文軟件大部分在 20 世紀 70—80 年代研發(fā),考慮到天文應用對高速、實時、并行的大數(shù)據(jù)處理需求,天文學家已經(jīng)開始使用更先進、更模塊化、支持并行的開發(fā)語言,如 C++ 或者 Python。使用 C++ 開發(fā)的 AIPS 軟件的替代版本 CASA 軟件將成為下一代主流射電天文軟件;涉及機器學習、人工智能的程序?qū)⒁?Python 為優(yōu)先選型。天文數(shù)據(jù)處理軟件的研發(fā)與天文研究一樣,已經(jīng)從單打獨斗模式升級為全球化合作集體作戰(zhàn),比如發(fā)現(xiàn)引力波的 LIGO 團隊由 1 000 多位科學家組成,廣泛應用于射電天文處理軟件的 CASA 核心庫也有來自全球近百位人員貢獻代碼及算法;航空母艦式的聯(lián)合研究團隊,大兵團作戰(zhàn)模式將成為解決重大科學問題的標準資質(zhì)。
科學傳播比任何時候都得到重視,“科技創(chuàng)新、科學普及是實現(xiàn)創(chuàng)新發(fā)展的兩翼”[5]。未來 SKA 的天文大數(shù)據(jù)將不僅僅服務于天文學家,也將提供面向公眾的接口。以 SKA 為依托,宣傳科研成果、交流學術(shù)思想、普及科技知識、弘揚科學精神,大力推廣基礎科學在公眾間的認知度,提高科研在公眾的普及度。SKA 區(qū)域中心將通過虛擬天文臺和“云”的方式讓老百姓以更加便捷的方式接觸科學,在公眾中普及天文學。
我國正面臨著推進科技創(chuàng)新的重要歷史機遇。科技創(chuàng)新已經(jīng)被提升到實現(xiàn)“兩個一百年”奮斗目標、實現(xiàn)中華民族偉大復興的中國夢的戰(zhàn)略高度。SKA 是我國參加的最大的天文領域國際合作項目,為我國射電天文學實現(xiàn)從“跟跑”到“并跑、領跑”創(chuàng)造了難得的機遇。SKA 將主導和影響未來 50 年射電天文學的發(fā)展命運,使低頻射電天文學再次進入蓬勃發(fā)展的新時代,將孕育諸多重大科學突破,創(chuàng)造觀測宇宙學研究的又一個輝煌④葉叔華,武向平。我國低頻射電天文學學科發(fā)展戰(zhàn)略咨詢研究報告。中國科學院學部咨詢報告,2018年。。
SKA 數(shù)據(jù)的深度分析和加工是在分布于幾大洲的區(qū)域數(shù)據(jù)中心完成。包括中國在內(nèi)的幾個主要成員國對于建設 SKA 區(qū)域數(shù)據(jù)中心均予以積極態(tài)度并寄予很高的期待,已經(jīng)開始了關鍵技術(shù)研究工作。由于 SKA 數(shù)據(jù)處理的特殊性、復雜性、巨大數(shù)據(jù)量,大規(guī)模的數(shù)據(jù)搬運是不現(xiàn)實的,因此中心化的數(shù)據(jù)處理方式成為必然選擇。建設中國 SKA 區(qū)域中心不僅是國際 SKA 總體規(guī)劃不可或缺的一個部分,也是支撐中國科學家有效利用 SKA 數(shù)據(jù)獲得相應科學回報的重要保障。SKA 科學家在全球廣泛分布,分布式計算和存儲、云化成為數(shù)據(jù)存檔和發(fā)布的考慮,多個科學和數(shù)據(jù)分中心組成的區(qū)域中心網(wǎng)格可以滿足 SKA 的多樣化需求。中國科學院上海天文臺與澳大利亞的 SKA 數(shù)據(jù)中心之間已經(jīng)建立了端對端的直連,最高數(shù)據(jù)傳輸速率達到 3.2 Gbps,是目前已知最高的天文數(shù)據(jù)流速率,這為 SKA 區(qū)域中心提供了有益經(jīng)驗和實際模版。SKA 多科學目標多種數(shù)據(jù)屬性的特征使得多數(shù)據(jù)流并行成為必然趨勢,也是未來 SKA 區(qū)域中心國際網(wǎng)絡建設方面需要關注的問題。
為了與國際同步乃至趕超,依托 SKA 這樣的大科學工程要頂層設計,定向規(guī)劃人才培養(yǎng),不僅要堅持獨立自主,還要多與國際頂級研究單位、一流團隊進行合作開展前沿研究,提升自身能力。中國目前嚴重缺乏數(shù)據(jù)處理人才,要充分認識到人才培養(yǎng)的長期性。中國 SKA 科學團隊要抓住 SKA1 第一批數(shù)據(jù)發(fā)布(2022 年)之前這段寶貴的時間窗口,圍繞相關的科學研究,利用 SKA 先導望遠鏡產(chǎn)出科學成果、掌握數(shù)據(jù)處理技術(shù),爭取在 SKA1 運行后能夠盡快投入相關科學研究。除了天文研究和數(shù)據(jù)處理人才,在大型國際合作科技項目中,管理型科技專家要走上國際舞臺,不斷鞏固和加強學術(shù)地位??茖W家要勇于承擔使命,爭取在國際組織中擔任重要職務,在國際大科學工程中掌握話語權(quán),維護國家利益,配合民族復興的國家戰(zhàn)略。
應對 SKA 大數(shù)據(jù)的挑戰(zhàn),應一方面立足國際合作,另一方面加快關鍵核心技術(shù)國產(chǎn)化??梢钥紤]以中國 SKA 區(qū)域科學和數(shù)據(jù)中心為依托,爭取突破 TB 量級高速科研骨干網(wǎng)、信號與數(shù)據(jù)傳輸以及 EB 量級高性能計算機等關鍵技術(shù),開發(fā)出配套的天文軟件來支持相應天文課題的數(shù)據(jù)處理,從而在 SKA 時代到來之際能夠使用 SKA 科學數(shù)據(jù)快速取得重大科學成果,引領先進科學方向。
總之,人類共享一個天空,通過參與 SKA 全球創(chuàng)新合作,共同促進天文學的跨越式發(fā)展,為解決人類共同關注的科學目標做出貢獻,是“構(gòu)建人類命運共同體”理念的重要實踐。