前 言
科學數(shù)據(jù)是科研活動的輸入、輸出和資產,是科研人員對其所研究的客觀對象相關現(xiàn)象的描述.以大規(guī)模巡天望遠鏡、大型粒子加速器、高通量基因測序儀等為代表的新一代觀測與實驗裝置源源不斷產生巨量科學數(shù)據(jù),將科學研究推入一個前所未有的大數(shù)據(jù)時代.這將改變人類幾個世紀以來主要研究和理解相對簡單、未耦合或弱耦合系統(tǒng)這一局面,大大增強我們詳細表征和描述復雜性的能力,以及分析高度耦合復雜系統(tǒng)動態(tài)行為的能力.可見,科學大數(shù)據(jù)管理與分析的能力及水平,成為了未來在分秒必爭的重大科學發(fā)現(xiàn)中能否勝出的關鍵.來自于天文學、生命科學、高能物理等應用領域的迫切需求,也正在挑戰(zhàn)著當今所有數(shù)據(jù)管理系統(tǒng)的極限,成為當下科學界和數(shù)據(jù)管理領域需攜手攻堅的難題.
2017年《計算機研究與發(fā)展》以科學大數(shù)據(jù)為專題,結合科學大數(shù)據(jù)的特點和典型應用需求,重點關注科學大數(shù)據(jù)管理理論與方法、關鍵技術與系統(tǒng),以及各應用領域的最新進展等.本期專題經過公開征稿,總計收到40篇論文投稿,最終收錄了5篇論文,內容涉及科學大數(shù)據(jù)管理基本理論與關鍵技術,天文大數(shù)據(jù)、高能物理大數(shù)據(jù)、遙感大數(shù)據(jù)等領域大數(shù)據(jù)管理需求與實踐,科學數(shù)據(jù)眾包服務等主題.這些文章為相關領域的研究者探討科學大數(shù)據(jù)理論基礎及應用、討論最新的突破性進展、交流新的學術思想和新方法,以及展望未來的發(fā)展趨勢,提供了很好的交流機會.
大數(shù)據(jù)時代科學研究是一個大科學、大需求、大數(shù)據(jù)、大計算、大發(fā)現(xiàn)的過程,發(fā)展與科學發(fā)現(xiàn)過程有機融合,實現(xiàn)全生命周期、全流程管理的科學大數(shù)據(jù)管理系統(tǒng)具有重要意義.“科學大數(shù)據(jù)管理:概念、技術與系統(tǒng)”(黎建輝等,中國科學院計算機網絡信息中心)闡述了科學大數(shù)據(jù)的概念和特征,剖析了科學大數(shù)據(jù)管理面臨的挑戰(zhàn)與需求,分析了科學數(shù)據(jù)管理系統(tǒng)當前的研究進展,提出了一種全域科學大數(shù)據(jù)管理系統(tǒng)架構,并從數(shù)據(jù)融合、數(shù)據(jù)實時分析、長期存儲、云服務體系以及數(shù)據(jù)開放共享幾個方面分析了科學大數(shù)據(jù)管理中涉及的關鍵技術問題.
超大型天文觀測技術的出現(xiàn)可以幫助研究人員觀測新的天文現(xiàn)象,而這項技術的成功應用建立在海量天文數(shù)據(jù)的近乎實時產生、管理和分析的基礎上,當前的數(shù)據(jù)管理系統(tǒng)無一能滿足這種需求.“天文大數(shù)據(jù)挑戰(zhàn)與實時處理技術”(楊晨、孟小峰等,中國人民大學)針對地基廣角相機陣(GWAC)在數(shù)據(jù)存儲、檢索、持久化等方面遇到的挑戰(zhàn),設計了分布式GWAC數(shù)據(jù)模擬生成器,用于模擬真實GWAC數(shù)據(jù)產生場景.在此基礎上,提出一種兩級緩存架構,使用本地內存解決多鏡頭并行輸出、實時瞬變源發(fā)現(xiàn),使用分布式共享內存實現(xiàn)秒級查詢.通過實驗驗證,能有效解決GWAC在數(shù)據(jù)實時處理和管理上的難題.
規(guī)模巨大的高能物理實驗數(shù)據(jù)對數(shù)據(jù)采集、存儲、傳輸與共享、分析與處理等數(shù)據(jù)管理技術提出了挑戰(zhàn).高能物理數(shù)據(jù)管理存在數(shù)據(jù)傳輸量大、IO瓶頸以及數(shù)據(jù)處理效率低等問題.為此,“高能物理大數(shù)據(jù)挑戰(zhàn)與海量事例特征索引技術研究”(程耀東等,中國科學院高能物理研究所)提出了一種面向事例的高能物理數(shù)據(jù)管理方法,該方法可從以文件存儲的海量原始數(shù)據(jù)中,按需抽取物理事例特征并建立專門的索引.同時,提出和實現(xiàn)了海量事例特征高效索引技術,通過系統(tǒng)驗證和分析,驗證了基于事例特征索引進行事例篩選的可行性,可以大幅提升高能物理數(shù)據(jù)處理的效率,降低資源的消耗.
遙感數(shù)據(jù)存在數(shù)據(jù)量大、數(shù)據(jù)種類多、數(shù)據(jù)分布分散等問題,并且遙感應用的復雜程度和個性化程度也不斷提高.然而,目前遙感數(shù)據(jù)管理和服務系統(tǒng)在容量、可擴展性、易用性和性能等方面都難以滿足遙感應用的需求.針對該問題,“遙感大數(shù)據(jù)的基礎設施:集成、管理與按需服務”(李國慶等,中國科學院遙感與數(shù)字地球研究所)從遙感數(shù)據(jù)的特點出發(fā),剖析了遙感數(shù)據(jù)基礎設施應當具備的分布、異構、時空連續(xù)和按需數(shù)據(jù)處理等特性,設計了此類基礎設施的體系結構,探討了實現(xiàn)的技術難點與解決思路.該項工作可以實現(xiàn)數(shù)據(jù)與處理“存算一體”的目標,支持基于大數(shù)據(jù)的遙感科學合作研究與協(xié)同工作.
獲取科學數(shù)據(jù)的最終目的是根據(jù)需求從數(shù)據(jù)中提取有用的知識.由于科學數(shù)據(jù)具有結構復雜、應用多樣等特點,難以通過計算機實現(xiàn)全部自動化提取知識,眾包是一種可能的解決方案.“科學數(shù)據(jù)眾包處理研究”(趙江華、周園春等,中國科學院計算機網絡信息中心)針對科學大數(shù)據(jù)眾包處理的特點,圍繞人才篩選機制、任務處理模式和結果評估策略3個方面對科學數(shù)據(jù)眾包體系進行研究,并通過地理空間數(shù)據(jù)云平臺開展遙感影像信息提取的眾包實踐.實踐發(fā)現(xiàn),科學數(shù)據(jù)不僅能夠通過眾包模式進行處理,而且通過合理的設計眾包流程能夠獲得高質量的數(shù)據(jù)結果.
承蒙各位作者、審稿專家和編輯部等方面的全力支持,本專題得以順利出版.由于科學大數(shù)據(jù)管理問題涉及的領域極其廣泛,包括了各個不同的科學研究領域.來稿數(shù)量大、時間緊、容量有限,所以部分優(yōu)秀稿件無法刊列,而且本專題也無法全面體現(xiàn)科學大數(shù)據(jù)方面的最新成果.在審稿過程中亦難免出現(xiàn)不盡人意之處,希望各位作者和讀者包容和諒解,希望同行不吝批評指正.
最后要特別感謝《計算機研究與發(fā)展》編委會和編輯部,從專題的立項到征稿啟示的發(fā)布,從審稿專家的邀請到評審意見的匯總,以及最后的定稿修改出版,他們都付出了辛勤的汗水.最后衷心感謝各位作者、審稿專家和編輯部的辛勤工作!
孟小峰 中國人民大學
黎建輝 中科院計算機網絡信息中心
郭毅可 英國帝國理工學院
2017年1月