黎建輝 沈志宏 孟小峰
1(中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心 北京 100190)2 (中國(guó)人民大學(xué)信息學(xué)院 北京 100872) (lijh@cnic.cn)
科學(xué)大數(shù)據(jù)管理:概念、技術(shù)與系統(tǒng)
黎建輝1沈志宏1孟小峰2
1(中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心 北京 100190)2(中國(guó)人民大學(xué)信息學(xué)院 北京 100872) (lijh@cnic.cn)
近年來(lái),隨著越來(lái)越多的大科學(xué)裝置的建設(shè)和重大科學(xué)實(shí)驗(yàn)的開(kāi)展,科學(xué)研究進(jìn)入到一個(gè)前所未有的大數(shù)據(jù)時(shí)代.大數(shù)據(jù)時(shí)代科學(xué)研究是一個(gè)大科學(xué)、大需求、大數(shù)據(jù)、大計(jì)算、大發(fā)現(xiàn)的過(guò)程,研發(fā)一個(gè)支持科學(xué)大數(shù)據(jù)全生命周期的數(shù)據(jù)管理系統(tǒng)具有重要的意義.分析了研發(fā)科學(xué)大數(shù)據(jù)管理系統(tǒng)的背景,闡述了科學(xué)大數(shù)據(jù)的概念和三大特征,通過(guò)對(duì)科學(xué)數(shù)據(jù)資源發(fā)展和科學(xué)數(shù)據(jù)管理系統(tǒng)的研究進(jìn)展進(jìn)行綜述分析,提出了滿(mǎn)足科學(xué)數(shù)據(jù)管理全生命周期的科學(xué)大數(shù)據(jù)管理框架,并從數(shù)據(jù)融合、數(shù)據(jù)實(shí)時(shí)分析、長(zhǎng)期存儲(chǔ)、云服務(wù)體系以及數(shù)據(jù)開(kāi)放共享機(jī)制5個(gè)方面分析了科學(xué)大數(shù)據(jù)管理系統(tǒng)中的關(guān)鍵技術(shù).最后,結(jié)合科學(xué)研究領(lǐng)域展望了科學(xué)大數(shù)據(jù)管理系統(tǒng)的應(yīng)用前景.
科學(xué)數(shù)據(jù);大數(shù)據(jù);數(shù)據(jù)流水線;數(shù)據(jù)全生命周期
大規(guī)模巡天望遠(yuǎn)鏡、大型粒子加速器、高通量基因測(cè)序儀等源源不斷產(chǎn)生巨量科學(xué)數(shù)據(jù),使得全球科技創(chuàng)新進(jìn)入一個(gè)前所未有的科學(xué)大數(shù)據(jù)時(shí)代.科學(xué)大數(shù)據(jù)已成為科學(xué)發(fā)現(xiàn)的新型戰(zhàn)略資源,一個(gè)國(guó)家的科學(xué)研究水平將直接取決于其在科學(xué)大數(shù)據(jù)的優(yōu)勢(shì)以及將數(shù)據(jù)轉(zhuǎn)換為知識(shí)的能力.
面向大規(guī)模的科學(xué)數(shù)據(jù)管理,以及科學(xué)大數(shù)據(jù)應(yīng)用,往往需要突破當(dāng)今所有數(shù)據(jù)管理系統(tǒng)的極限,才能實(shí)現(xiàn)高效的科學(xué)知識(shí)發(fā)現(xiàn),這也成為當(dāng)下科學(xué)界和數(shù)據(jù)管理領(lǐng)域攜手攻堅(jiān)的“難題”.概括起來(lái),科學(xué)大數(shù)據(jù)管理面臨的主要問(wèn)題和挑戰(zhàn)包括:1)超大規(guī)模關(guān)系數(shù)據(jù)管理.如天文領(lǐng)域多個(gè)數(shù)據(jù)中心千億乃至萬(wàn)億行天文星表數(shù)據(jù)的管理.2)多源數(shù)據(jù)關(guān)聯(lián)和知識(shí)發(fā)現(xiàn).如全球開(kāi)放生物資源、文獻(xiàn)、序列和疾病等萬(wàn)種數(shù)據(jù)源100億級(jí)關(guān)聯(lián)數(shù)據(jù)的知識(shí)發(fā)現(xiàn),需6步以上關(guān)聯(lián)挖掘.3)實(shí)時(shí)的高效數(shù)據(jù)處理.如引力波科學(xué)發(fā)現(xiàn)中,16 MHz 采樣頻率10 000信道數(shù)據(jù)需要近似零延遲數(shù)據(jù)處理.
1.1 科學(xué)大數(shù)據(jù)概念
科學(xué)數(shù)據(jù)是科研活動(dòng)的輸入、輸出和資產(chǎn).但究竟“什么是科學(xué)數(shù)據(jù)?”,如何給“科學(xué)數(shù)據(jù)”一個(gè)確切的定義?迄今為止,還在困擾著學(xué)術(shù)界.Greenberg在其最近出版的著作《大數(shù)據(jù),小數(shù)據(jù),沒(méi)數(shù)據(jù)》[1]中,列舉了學(xué)術(shù)界對(duì)數(shù)據(jù)各種不同的認(rèn)識(shí)和理解,“在自然科學(xué)、社會(huì)科學(xué)和人文科學(xué)領(lǐng)域,學(xué)者們創(chuàng)造、使用、分析和解釋數(shù)據(jù),但往往不知道這些數(shù)據(jù)的真正含義.”
科學(xué)數(shù)據(jù)是對(duì)所研究的客觀對(duì)象的某些現(xiàn)象的描述.這種描述,一般是指在領(lǐng)域或?qū)W科知識(shí)指導(dǎo)下,對(duì)客觀對(duì)象進(jìn)行科學(xué)抽象和概念化后,就其中的某些現(xiàn)象進(jìn)行系統(tǒng)地、有目的地觀測(cè)、調(diào)查、實(shí)驗(yàn)所形成的實(shí)體.因此,數(shù)據(jù)不是客觀事物,數(shù)據(jù)不是帶有自身特征的自然對(duì)象,數(shù)據(jù)只是對(duì)學(xué)術(shù)研究的客觀對(duì)象中某些可觀測(cè)到的現(xiàn)象的描述.這些描述會(huì)因人而異、因地而異和因時(shí)而異.把一些事物概念化為數(shù)據(jù),本身就是一種學(xué)術(shù)研究活動(dòng).
科學(xué)數(shù)據(jù)是以科學(xué)證據(jù)形式存在的事實(shí),它至少應(yīng)該包括科學(xué)觀測(cè)與監(jiān)測(cè)的數(shù)據(jù)、實(shí)驗(yàn)數(shù)據(jù)、計(jì)算與模型模擬輸出的數(shù)據(jù)、對(duì)情景或現(xiàn)象的描述數(shù)據(jù)、對(duì)行為的觀測(cè)或定性描述數(shù)據(jù)、用于管理或者商業(yè)目的統(tǒng)計(jì)數(shù)據(jù)等,以及描述數(shù)據(jù)的元數(shù)據(jù).它們通常是科研活動(dòng)的輸入,是證實(shí)、證偽科學(xué)發(fā)現(xiàn)、科學(xué)觀點(diǎn)的事實(shí)與證據(jù),或者是論證推理的基礎(chǔ).
科學(xué)數(shù)據(jù)從歷史上非自動(dòng)化的“手工采集”的方式,逐漸地過(guò)度到自動(dòng)化的“機(jī)器采集”.非自動(dòng)“手工采集”的數(shù)據(jù),其產(chǎn)生的速度較慢,數(shù)據(jù)量與復(fù)雜度不高,但數(shù)據(jù)的價(jià)值密度高.而通過(guò)大型儀器設(shè)備、大科學(xué)裝置、大規(guī)模傳感器網(wǎng)絡(luò)等自動(dòng)化采集的數(shù)字化數(shù)據(jù),其產(chǎn)生的速度快,數(shù)據(jù)量和復(fù)雜性高,存在著不確定性和噪聲.對(duì)這些數(shù)據(jù)進(jìn)行存儲(chǔ)、分析和應(yīng)用需要新技術(shù)與更強(qiáng)的基礎(chǔ)設(shè)施環(huán)境支持.科學(xué)大數(shù)據(jù)主要是指這種通過(guò)“機(jī)器”自動(dòng)化快速采集、規(guī)?;鎯?chǔ)與分析處理、具有較高維度和復(fù)雜關(guān)聯(lián)的數(shù)據(jù)及其衍生產(chǎn)品.
隨著越來(lái)越多的諸如500 m口徑球面射電望遠(yuǎn)鏡(five-hundred-meter aperture spherical radio telescope, FAST)、中國(guó)散裂中子源(China spallation neutron source, CSNS)等大科學(xué)裝置的建設(shè)和重大科學(xué)實(shí)驗(yàn)的開(kāi)展,以及無(wú)所不在的科學(xué)傳感器和傳感器網(wǎng)絡(luò)廣泛應(yīng)用于天空、陸地和海洋,對(duì)自然環(huán)境進(jìn)行全方位的探測(cè)、監(jiān)測(cè),源源不斷產(chǎn)生的科學(xué)數(shù)據(jù)將科學(xué)研究快速推進(jìn)到一個(gè)前所未有的大數(shù)據(jù)時(shí)代.科學(xué)大數(shù)據(jù)將改變?nèi)祟?lèi)幾個(gè)世紀(jì)以來(lái)科學(xué)研究主要在于理解相對(duì)簡(jiǎn)單、未耦合或弱耦合系統(tǒng)這一局面,增強(qiáng)我們?cè)敿?xì)表征和描述復(fù)雜性的能力,以及分析高度耦合復(fù)雜系統(tǒng)的動(dòng)態(tài)行為的能力,催生如希格斯粒子和引力波等重大科學(xué)發(fā)現(xiàn).可以這樣比喻,科學(xué)大數(shù)據(jù)為科學(xué)發(fā)現(xiàn)提供了一種新型的“望遠(yuǎn)鏡”和“顯微鏡”,在宏觀上大大擴(kuò)展了我們對(duì)復(fù)雜系統(tǒng)整體性進(jìn)行研究的能力,在微觀上,讓我們的視線可以深入到復(fù)雜系統(tǒng)內(nèi)部細(xì)微的行為和動(dòng)態(tài)變化.
1.2 科學(xué)大數(shù)據(jù)的特征
相較于其他類(lèi)型的大數(shù)據(jù),科學(xué)大數(shù)據(jù)除了具有明顯的“4V”特征[2-4]之外,還具有多層次逐級(jí)演化、全生命周期以及流水線處理和應(yīng)用等特征.
1.2.1 多層次演化特征
科學(xué)大數(shù)據(jù)具有多層次逐級(jí)演化的顯著特征.如圖1所示,由大型儀器設(shè)備、大科學(xué)裝置和計(jì)算模擬等產(chǎn)生的海量原始數(shù)據(jù),經(jīng)過(guò)校對(duì)、刻度、特征提取等處理形成具有科學(xué)意義的實(shí)例對(duì)象數(shù)據(jù),并與相關(guān)的數(shù)據(jù)關(guān)聯(lián)融合,形成知識(shí)網(wǎng)絡(luò).典型例子如美國(guó)航空航天局(NASA)地球觀測(cè)系統(tǒng)(earth observing system, EOS)[5]衛(wèi)星獲取的數(shù)據(jù)按照其不斷加工和演化過(guò)程,區(qū)分為0級(jí)、1A級(jí)、1B級(jí)、2級(jí)、3級(jí)、4級(jí)6個(gè)不同的級(jí)別.根據(jù)科學(xué)應(yīng)用和目標(biāo)的不同,科學(xué)家可以直接使用精加工的4級(jí)數(shù)據(jù),也可以使用1A級(jí),甚至0級(jí)數(shù)據(jù).
Fig. 1 Characteristics of multi-level progressive evolution of scientific big data圖1 科學(xué)大數(shù)據(jù)具有多層次逐級(jí)演化的顯著特性
1.2.2 全生命周期特征
科學(xué)大數(shù)據(jù)具有明顯的涉及“采集與實(shí)時(shí)分析—存儲(chǔ)與處理—發(fā)布與共享—再分析與重用—?dú)w檔與長(zhǎng)期保存”全過(guò)程的全生命周期特征.其中,采集與實(shí)時(shí)分析階段主要完成科學(xué)實(shí)驗(yàn)裝置、儀器設(shè)備、觀測(cè)臺(tái)站等數(shù)據(jù)的采集,并實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)篩選、處理和分析;存儲(chǔ)與處理階段主要完成對(duì)采集篩選的數(shù)據(jù)的持久化存儲(chǔ),同時(shí)通過(guò)批量分析任務(wù),完成初步的科學(xué)分析和科學(xué)發(fā)現(xiàn);發(fā)布與共享階段主要按照特定的主題,對(duì)科學(xué)數(shù)據(jù)進(jìn)行組織管理,形成系列的數(shù)據(jù)集產(chǎn)品,通過(guò)Web等方式對(duì)科研界發(fā)布,提供數(shù)據(jù)共享與交換服務(wù);再分析與重用階段主要支持用戶(hù)對(duì)發(fā)布的數(shù)據(jù)集進(jìn)行二次整合分析,實(shí)現(xiàn)進(jìn)一步的科學(xué)發(fā)現(xiàn);歸檔與長(zhǎng)期保存階段主要完成歷史數(shù)據(jù)的歸檔,通過(guò)采用持久的存儲(chǔ)設(shè)備,實(shí)現(xiàn)海量歷史數(shù)據(jù)的長(zhǎng)期保存.整個(gè)流程如圖2所示.
在如上不同階段中,對(duì)科學(xué)數(shù)據(jù)的操作方式具有不同的特征,如表1所示.
Fig. 2 Full life cycle of scientific big data圖2 科學(xué)大數(shù)據(jù)全生命周期
StagesDataOperationDataAnalysisDetailsCollection&RealTimeAnalysisFastInsert&OnlineAnalysisRTAPCollection,StreamProcessing,RealTimeExtractingandTransformingStoring&ProcessingOfflineAnalysis(SCAN)ofLargeScaleDataOLAPDatabase,Index,Collection,BatchAnalysis,ETLPublish&SharingFastQueryOLTPLinking,Integration,OnlineQuery,WebServiceReanalysis&ReuseOnlineVisualAnalysisOLTPOLAPOnlineAnalysisModel,VisualizationArchiving&LongTermStorageReliableStorageAnalysisisnotinvolvedArchivingstrategy,media,datacopyandmigration
1.2.3 流水線處理特征
科學(xué)大數(shù)據(jù)具有“流水線處理和應(yīng)用”的特征.以GWAC(The ground-based wide-angle camera array)為例,GWAC是中法合作伽瑪暴探測(cè)天文衛(wèi)星SVOM的關(guān)鍵地面設(shè)備,一個(gè)GWAC相機(jī)每15 s產(chǎn)生一個(gè)大小為32 MB的天區(qū)圖,圖像的點(diǎn)源提取和接下來(lái)的光變曲線處理流程應(yīng)該在一幀的15 s內(nèi)快速處理完.這個(gè)實(shí)時(shí)處理約束是由于很多短時(shí)標(biāo)的光變,例如微引力透鏡事件,需要通過(guò)對(duì)光變曲線數(shù)據(jù)實(shí)時(shí)分析才能得以發(fā)現(xiàn).這個(gè)過(guò)程就是一個(gè)典型的數(shù)據(jù)流水線,包括天區(qū)圖采集、圖像處理、點(diǎn)源提取、交叉證認(rèn)、光變曲線處理等步驟[6],如圖3所示.為了滿(mǎn)足特定的科學(xué)目標(biāo),科學(xué)數(shù)據(jù)流水線一般對(duì)數(shù)據(jù)處理的精度或者對(duì)數(shù)據(jù)處理的速度等方面會(huì)有明確而苛刻的要求,從而為預(yù)期的科學(xué)目標(biāo)或者科學(xué)發(fā)現(xiàn)提供保證.
Fig. 3 Collecting and analyzing pipeline of astronomic data圖3 天文數(shù)據(jù)采集分析流水線
科學(xué)數(shù)據(jù)流水線具有如下特點(diǎn):
1) 一條流水線通常會(huì)涉及到科學(xué)數(shù)據(jù)采集、存儲(chǔ)、分析等不同環(huán)節(jié).如:從GWAC望遠(yuǎn)鏡獲取到天區(qū)圖,就是一個(gè)海量數(shù)據(jù)采集步驟,圖像處理則是一個(gè)數(shù)據(jù)分析的過(guò)程.因此,除了需要提供數(shù)據(jù)分析的支持,還需要考慮到數(shù)據(jù)的采集等管理功能的支持.
2) 一條流水線會(huì)涉及到多元的大數(shù)據(jù)管理與處理系統(tǒng).為了達(dá)到高效的科學(xué)發(fā)現(xiàn)目標(biāo),往往需要組合不同的數(shù)據(jù)管理系統(tǒng),如高吞吐的消息隊(duì)列系統(tǒng)、高效交互式查詢(xún)的SQL數(shù)據(jù)庫(kù)系統(tǒng)、高可靠的HDFS管理系統(tǒng)等.同時(shí),根據(jù)任務(wù)的不同特征,也會(huì)組合用到不同時(shí)效性要求的計(jì)算框架,如流計(jì)算框架、實(shí)時(shí)計(jì)算框架、離線計(jì)算框架等.
3) 完整的科學(xué)發(fā)現(xiàn)過(guò)程往往需要多個(gè)流水線并行執(zhí)行,因此需要考慮CPUGPU、內(nèi)存、存儲(chǔ)等資源的共享和分配問(wèn)題.
科學(xué)大數(shù)據(jù)已成為科學(xué)發(fā)現(xiàn)的新型戰(zhàn)略資源,為了搶占科技競(jìng)爭(zhēng)的至高點(diǎn),世界各國(guó)已紛紛把科學(xué)大數(shù)據(jù)納入國(guó)家戰(zhàn)略,并開(kāi)始重點(diǎn)部署.美國(guó)國(guó)立衛(wèi)生研究院2013年啟動(dòng)了“從大數(shù)據(jù)到知識(shí)” (BD2K)計(jì)劃[7],總投資達(dá)到6.56億美元.歐盟“地平線2020”計(jì)劃[8]將科學(xué)大數(shù)據(jù)關(guān)鍵技術(shù)和基礎(chǔ)設(shè)施列為了重點(diǎn)支持領(lǐng)域.歐盟宣布,將投資65億歐元用于建設(shè)“歐洲開(kāi)放科學(xué)云”(Europe Open Science Cloud)[9],重點(diǎn)支持大數(shù)據(jù)驅(qū)動(dòng)的科學(xué)發(fā)現(xiàn).在我國(guó)發(fā)布的《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》中,首次將科學(xué)大數(shù)據(jù)上升到國(guó)家戰(zhàn)略層面,明確提出“發(fā)展科學(xué)大數(shù)據(jù)”的戰(zhàn)略目標(biāo).中國(guó)科學(xué)院在“十三五”信息化發(fā)展規(guī)劃中,也明確提出將實(shí)施科學(xué)大數(shù)據(jù)工程,全面提升大數(shù)據(jù)驅(qū)動(dòng)的科技創(chuàng)新能力.
2.1 國(guó)際科學(xué)大數(shù)據(jù)資源發(fā)展趨勢(shì)
大規(guī)模巡天望遠(yuǎn)鏡、大型粒子加速器、高通量基因測(cè)序儀等大科學(xué)裝置,使得科學(xué)大數(shù)據(jù)呈幾何級(jí)數(shù)增長(zhǎng)態(tài)勢(shì).在天文學(xué)領(lǐng)域,人類(lèi)正在設(shè)計(jì)和制造各種大型巡天望遠(yuǎn)鏡,試圖實(shí)現(xiàn)對(duì)宇宙多波段、多時(shí)域等數(shù)字化全覆蓋,實(shí)現(xiàn)其“虛擬天文臺(tái)”的偉大構(gòu)想.如斯隆數(shù)字巡天(SDSS)、“泛星計(jì)劃”(Pan-STARRS)、大型巡天望遠(yuǎn)鏡LSST(Large Synoptic Survey Telescope)等[10].LSST[11]將每3天完成對(duì)南半球的天空巡天1次,每15 s記錄3幅10億像素圖像(每幅圖像包含百萬(wàn)個(gè)天體),每晚需對(duì)30 TB原始數(shù)據(jù)準(zhǔn)實(shí)時(shí)的分析,同時(shí)對(duì)轉(zhuǎn)瞬即逝的千萬(wàn)級(jí)突發(fā)天體事件,需在60 s之內(nèi)完成數(shù)據(jù)分析、插入和分發(fā),并向全世界發(fā)出預(yù)警[12-13].
在生命科學(xué)領(lǐng)域,第二代測(cè)序技術(shù)使得基因組數(shù)據(jù)發(fā)生了爆炸式的增長(zhǎng).相比于2000年,2010年的基因組數(shù)據(jù)產(chǎn)量增大了8個(gè)數(shù)量級(jí).僅華大基因這一個(gè)基因組研究機(jī)構(gòu)每天就產(chǎn)生約15 TB數(shù)據(jù)[14].世界著名的三大基因序列數(shù)據(jù)庫(kù)GenBank,EMBL,DDBJ收錄了70 000多種生物的核苷酸序列[15-16],其數(shù)據(jù)量以指數(shù)形式增長(zhǎng),核酸堿基數(shù)目大概每14個(gè)月就翻一倍.再以腦科學(xué)為例,用電子顯微鏡重建大腦中的突觸網(wǎng)絡(luò),1 mm3大腦的圖像數(shù)據(jù)就超過(guò)了1 PB[17].
在高能物理領(lǐng)域,位于歐洲核子研究組織CERN的大型強(qiáng)子對(duì)撞器LHC每年將產(chǎn)生有15 PB左右的原始數(shù)據(jù),利用原始數(shù)據(jù)進(jìn)行事例重建以及物理分析所產(chǎn)生的數(shù)據(jù)規(guī)模更大.以其中的ATLAS實(shí)驗(yàn)[18]為例,僅2011年產(chǎn)生的總數(shù)據(jù)就達(dá)40 PB.
在對(duì)地觀測(cè)領(lǐng)域,剛剛退役的Landsat 5[19]衛(wèi)星保持在每天67 GB的觀測(cè)數(shù)據(jù)獲取量,而2012年發(fā)射的ZY3衛(wèi)星,每天的觀測(cè)數(shù)據(jù)獲取量可以達(dá)到10 TB以上,類(lèi)似能力的傳感器現(xiàn)已大量部署在衛(wèi)星、飛機(jī)等飛行平臺(tái)上,未來(lái)10年全球部署的對(duì)地觀測(cè)平臺(tái)的數(shù)據(jù)獲取能力將超過(guò)10 PB/d.
各個(gè)不同的領(lǐng)域都在講述著一個(gè)類(lèi)似的故事,那就是爆炸式增長(zhǎng)的數(shù)據(jù).這種增長(zhǎng)超出了我們創(chuàng)造機(jī)器和軟件工具的速度,甚至超出了我們的想象.
2.2 我國(guó)科學(xué)大數(shù)據(jù)資源現(xiàn)狀
我國(guó)從20世紀(jì)80年代就持續(xù)進(jìn)行數(shù)據(jù)資源的積累.1982年,中國(guó)科學(xué)院正式提出科學(xué)數(shù)據(jù)庫(kù)及其應(yīng)用系統(tǒng)建設(shè)項(xiàng)目.經(jīng)過(guò)30余年的持續(xù)發(fā)展,截止十二五“科技數(shù)據(jù)資源整合與共享工程”項(xiàng)目驗(yàn)收[20],該項(xiàng)目系統(tǒng)地整合了58家單位的1 340個(gè)科學(xué)數(shù)據(jù)庫(kù),數(shù)據(jù)下載量累計(jì)達(dá)175 TB.國(guó)家科技基礎(chǔ)條件平臺(tái)持續(xù)資助了林業(yè)科學(xué)數(shù)據(jù)平臺(tái)、地球系統(tǒng)科學(xué)數(shù)據(jù)共享平臺(tái)、人口與健康科學(xué)數(shù)據(jù)共享平臺(tái)、農(nóng)業(yè)科學(xué)數(shù)據(jù)共享中心、地震科學(xué)數(shù)據(jù)共享中心、氣象科學(xué)數(shù)據(jù)共享中心等.
以中國(guó)科學(xué)院為例,中國(guó)科學(xué)院在生命與健康領(lǐng)域、地球與空間領(lǐng)域、基礎(chǔ)與前沿領(lǐng)域積累了豐富的數(shù)據(jù)資源.其中生物多樣性與生物資源數(shù)據(jù)比較完善,已建成3類(lèi)資源體系:生物多樣性與生物資源、組學(xué)、醫(yī)藥與健康.在地球與空間領(lǐng)域已建成的數(shù)據(jù)資源體系包括:固體地球、陸地表層和空間天文等.其中陸地表層又分為地形地貌、氣象、水文、生態(tài)、自然資源、海洋等內(nèi)容.此外,在基礎(chǔ)與前沿領(lǐng)域已建成的數(shù)據(jù)資源體系包括物理、化學(xué)、能源、材料、腦科學(xué)、信息科學(xué)等.各領(lǐng)域積累的數(shù)據(jù)資源如表2所示:
Table 2 Typical Scientific Data Resources
2.3 科學(xué)大數(shù)據(jù)管理系統(tǒng)
針對(duì)科學(xué)數(shù)據(jù),不同科研機(jī)構(gòu)相繼研發(fā)了科學(xué)數(shù)據(jù)管理系統(tǒng),包括SRB[21-22],iRODS[23-25],SciDB[26-35],Hama[36-39],SkyServer[40-41]等.美國(guó)圣地亞哥超算中心(San Diego Supercomputer Center, SDSC)為了解決復(fù)雜海量科學(xué)數(shù)據(jù)的方便、高效、透明、統(tǒng)一的數(shù)據(jù)管理和訪問(wèn),研發(fā)了融合資源保存代理(storage resource broker, SRB)系統(tǒng),在數(shù)據(jù)網(wǎng)格、數(shù)字圖書(shū)館、永久保存和實(shí)時(shí)數(shù)據(jù)系統(tǒng)中得到了較好的應(yīng)用,并繼而推出了開(kāi)源分布式數(shù)據(jù)管理系統(tǒng)iRODS(Integrated Rule-Oriented Data System).結(jié)合科學(xué)研究所產(chǎn)生的數(shù)據(jù)特征,Stonebraker等人在列存儲(chǔ)的基礎(chǔ)上,研發(fā)了一套開(kāi)源的數(shù)據(jù)管理系統(tǒng)SciDB.SciDB不同于傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng),它是一個(gè)數(shù)據(jù)管理和分析軟件系統(tǒng),側(cè)重于科學(xué)數(shù)據(jù)的分析操作,設(shè)計(jì)目標(biāo)是與R,MATLAB以及IDL等科學(xué)分析軟件結(jié)合來(lái)分析管理科學(xué)數(shù)據(jù).Hama作為Hadoop項(xiàng)目的大規(guī)模計(jì)算子項(xiàng)目,利用Hadoop強(qiáng)大的分布式存儲(chǔ)與處理性能,針對(duì)部分科學(xué)問(wèn)題的計(jì)算提供基于整體同步并行計(jì)算(bulk synchronous parallel, BSP)模型及graph模型的計(jì)算框架.針對(duì)SDSS的數(shù)據(jù),Gray主導(dǎo)研發(fā)了SkyServer天文數(shù)據(jù)管理系統(tǒng),實(shí)現(xiàn)TB量級(jí)天文數(shù)據(jù)的管理與探索.由于現(xiàn)有數(shù)據(jù)庫(kù)管理在處理像LSST 這樣100~200 PB量級(jí)的數(shù)據(jù)時(shí)依然顯得力不從心,因此LSST啟動(dòng)研發(fā)了可管理百億級(jí)天文對(duì)象的數(shù)據(jù)庫(kù)Qserv[42],借助多數(shù)據(jù)中心、大規(guī)模分布式并行數(shù)據(jù)庫(kù)等技術(shù),實(shí)現(xiàn)更加強(qiáng)大的數(shù)據(jù)管理、訪問(wèn)和共享的能力.
這些科學(xué)數(shù)據(jù)管理系統(tǒng)在功能、原理以及特色上的差異如表3所示,可以看出,目前的科學(xué)數(shù)據(jù)管理系統(tǒng)僅關(guān)注科學(xué)數(shù)據(jù)全生命周期的某個(gè)環(huán)節(jié),還缺乏面向大數(shù)據(jù)的、涉及全生命周期的、與分析系統(tǒng)緊密集成的科學(xué)數(shù)據(jù)管理系統(tǒng).
表3 現(xiàn)有科學(xué)數(shù)據(jù)管理系統(tǒng)對(duì)比分析
我國(guó)在科學(xué)數(shù)據(jù)管理技術(shù)與平臺(tái)軟件方面也有一些工作在展開(kāi),典型的如中國(guó)科學(xué)院通過(guò)信息化專(zhuān)項(xiàng)項(xiàng)目在“十二五”期間率先建成了“科學(xué)數(shù)據(jù)云”,形成了52 PB云存儲(chǔ)和上萬(wàn)個(gè)虛擬機(jī)的云計(jì)算環(huán)境,研發(fā)部署了科學(xué)數(shù)據(jù)管理軟件TeamDR、數(shù)據(jù)發(fā)布與集成軟件VisualDB/VDBCloud[43-44]、數(shù)據(jù)服務(wù)注冊(cè)系統(tǒng)RSR、可視化服務(wù)平臺(tái)DVIZ[45]等20余項(xiàng)軟件工具.
面對(duì)源源不斷快速產(chǎn)生的大量數(shù)據(jù)文件以及從中分析生成的千億級(jí)科學(xué)對(duì)象的管理,我們還面臨著一系列的挑戰(zhàn),包括EB級(jí)文件和萬(wàn)億行關(guān)系數(shù)據(jù)的高效率、低成本、一體化存儲(chǔ)和管理,科學(xué)大數(shù)據(jù)快速索引,以支持大規(guī)模、交互式的查詢(xún)和處理;海量多源、多學(xué)科數(shù)據(jù)的自動(dòng)關(guān)聯(lián)與融合;瞬時(shí)產(chǎn)生的海量數(shù)據(jù)實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的高效分析;以流水線的方式實(shí)現(xiàn)海量數(shù)據(jù)資源與科學(xué)模型的快速融合與并行處理等.
科學(xué)大數(shù)據(jù)數(shù)據(jù)管理的目的是最大限度提高科學(xué)發(fā)現(xiàn)的速度和能力,因此管理必須與科學(xué)發(fā)現(xiàn)的過(guò)程有機(jī)融合,要實(shí)現(xiàn)科學(xué)數(shù)據(jù)的采集、存儲(chǔ)、分析處理、發(fā)布與關(guān)聯(lián)融合、歸檔等全域管理,支持?jǐn)?shù)據(jù)按需快速流動(dòng),支持各種類(lèi)型的科學(xué)數(shù)據(jù)流水線的動(dòng)態(tài)集成與調(diào)度.此外,要充分考慮到科學(xué)數(shù)據(jù)類(lèi)型多樣性,應(yīng)用需求多樣性和計(jì)算框架的多樣性,能以開(kāi)放架構(gòu)實(shí)現(xiàn)系統(tǒng)的按需擴(kuò)展和動(dòng)態(tài)演進(jìn).
為此,本文提出全域科學(xué)大數(shù)據(jù)管理框架,具體如圖4所示:
Fig. 4 Scientific big data management system圖4 科學(xué)大數(shù)據(jù)管理系統(tǒng)
主要組成部件包括科學(xué)大數(shù)據(jù)基礎(chǔ)平臺(tái)、科學(xué)大數(shù)據(jù)統(tǒng)一采集與匯聚框架、科學(xué)大數(shù)據(jù)管理與分析引擎、科學(xué)大數(shù)據(jù)流水線管理與調(diào)度系統(tǒng),以及科學(xué)大數(shù)據(jù)應(yīng)用環(huán)境.
科學(xué)大數(shù)據(jù)基礎(chǔ)平臺(tái)旨在構(gòu)建大數(shù)據(jù)存儲(chǔ)與計(jì)算的云服務(wù)平臺(tái),對(duì)存儲(chǔ)和計(jì)算資源進(jìn)行管理及優(yōu)化,提供基礎(chǔ)的大數(shù)據(jù)存儲(chǔ)和并行計(jì)算能力.同時(shí)配置大數(shù)據(jù)軟件部署與管理工具,實(shí)現(xiàn)Impala[46],HBase[47],Solr[48],TITAN[49],Cassandra[50]等大數(shù)據(jù)集群的按需部署與配置化管理,實(shí)現(xiàn)集群的橫向擴(kuò)展,并通過(guò)提供運(yùn)行監(jiān)控界面,實(shí)現(xiàn)資源狀態(tài)可視化和及時(shí)告警.
科學(xué)大數(shù)據(jù)統(tǒng)一采集與匯聚框架是一個(gè)可擴(kuò)展的、高容錯(cuò)的、高吞吐量的科學(xué)大數(shù)據(jù)采集框架,實(shí)現(xiàn)科學(xué)大裝置、實(shí)驗(yàn)觀測(cè)、臺(tái)站網(wǎng)絡(luò)等各類(lèi)科學(xué)數(shù)據(jù)的統(tǒng)一接入,同時(shí)提供包括morphine轉(zhuǎn)換、正則轉(zhuǎn)換、模板轉(zhuǎn)換等靈活的數(shù)據(jù)轉(zhuǎn)換能力.針對(duì)各領(lǐng)域科學(xué)數(shù)據(jù)的采集的不同需求,提供個(gè)性化的學(xué)科領(lǐng)域大數(shù)據(jù)采集軟件,如天文巡天圖像數(shù)據(jù)采集、實(shí)驗(yàn)觀測(cè)數(shù)據(jù)采集、臺(tái)站網(wǎng)絡(luò)觀測(cè)數(shù)據(jù)采集等.
科學(xué)大數(shù)據(jù)管理與分析引擎旨在支持海量分布式科學(xué)數(shù)據(jù)文件的索引和管理、萬(wàn)億級(jí)事例數(shù)據(jù)的在線查詢(xún)與提取、高吞吐的觀測(cè)實(shí)驗(yàn)流數(shù)據(jù)的在線分析與管理,以及大規(guī)模關(guān)聯(lián)圖的管理與分析計(jì)算.該引擎通過(guò)統(tǒng)一的查詢(xún)語(yǔ)言,實(shí)現(xiàn)對(duì)多元數(shù)據(jù)管理模型的統(tǒng)一訪問(wèn)和查詢(xún),包括對(duì)關(guān)系型數(shù)據(jù)、圖數(shù)據(jù)、KeyValue數(shù)據(jù)、列數(shù)據(jù),以及文件系統(tǒng)的查詢(xún).同時(shí)通過(guò)統(tǒng)一的編程式查詢(xún)分析一體化操作語(yǔ)言,實(shí)現(xiàn)對(duì)科學(xué)數(shù)據(jù)的大批量寫(xiě)入與分析,通過(guò)函數(shù)式編程語(yǔ)言的特性,支持用戶(hù)在操作語(yǔ)句中自定義數(shù)據(jù)的轉(zhuǎn)換和分析算法.
科學(xué)大數(shù)據(jù)流水線管理與調(diào)度系統(tǒng)通過(guò)對(duì)數(shù)據(jù)的采集、存儲(chǔ)、查詢(xún)和分析過(guò)程的封裝,形成科學(xué)大數(shù)據(jù)流水線的軟件表達(dá)模型.通過(guò)流水線管理模塊,實(shí)現(xiàn)各領(lǐng)域數(shù)據(jù)流水線的統(tǒng)一集成管理.同時(shí),基于大數(shù)據(jù)計(jì)算環(huán)境,實(shí)現(xiàn)數(shù)據(jù)流水線任務(wù)的轉(zhuǎn)換和運(yùn)行調(diào)度,支持?jǐn)?shù)據(jù)流水線任務(wù)的啟停、再放與回溯.針對(duì)各領(lǐng)域科學(xué)數(shù)據(jù)的分析處理的不同特征,集成個(gè)性化的學(xué)科領(lǐng)域大數(shù)據(jù)流水線處理軟件,如天體交叉證認(rèn)流水線、生物信息關(guān)聯(lián)發(fā)現(xiàn)流水線、高能物理事件抽取流水線等.
針對(duì)科學(xué)大數(shù)據(jù)的管理需求與特點(diǎn),我們可將其涉及到的關(guān)鍵技術(shù)歸納為:科學(xué)大數(shù)據(jù)的融合、實(shí)時(shí)分析、長(zhǎng)期存儲(chǔ)、云服務(wù)技術(shù)、開(kāi)放共享機(jī)制等.
4.1 科學(xué)大數(shù)據(jù)融合
大數(shù)據(jù)時(shí)代人們面臨的最根本挑戰(zhàn)是從數(shù)據(jù)中凝練可領(lǐng)悟的知識(shí)[51-52].大數(shù)據(jù)融合的概念[53]是指聚合數(shù)據(jù)間、信息間、知識(shí)片斷間多維度、多粒度的關(guān)聯(lián)關(guān)系實(shí)現(xiàn)更多層面的知識(shí)交互,已廣泛應(yīng)用于各個(gè)領(lǐng)域.比如商業(yè)領(lǐng)域中IBM Watson[54]利用大數(shù)據(jù)融合的關(guān)鍵技術(shù)輔助認(rèn)知商業(yè)發(fā)展;生命科學(xué)利用Bio2RDF[55],Neurocommons[56]等知識(shí)圖譜做問(wèn)答和決策等.
大數(shù)據(jù)融合不同于傳統(tǒng)數(shù)據(jù)庫(kù)領(lǐng)域的數(shù)據(jù)集成技術(shù)[57-59],也不同于傳統(tǒng)人工智能與認(rèn)知科學(xué)中的知識(shí)融合技術(shù)[60-61].數(shù)據(jù)融合需要用動(dòng)態(tài)的方式統(tǒng)一不同的數(shù)據(jù)源,將離散的數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的知識(shí)資源.知識(shí)融合是將數(shù)據(jù)融合階段獲得的籠統(tǒng)的知識(shí)轉(zhuǎn)化為可領(lǐng)悟知識(shí),面向需求提供知識(shí)服務(wù).它需要挖掘隱含知識(shí),尋找潛在知識(shí)關(guān)聯(lián),進(jìn)而實(shí)現(xiàn)知識(shí)的深層次理解,以便更好地解釋數(shù)據(jù).
以微生物領(lǐng)域?yàn)槔?,比如后基因組時(shí)代的系統(tǒng)生物學(xué)把生物系統(tǒng)內(nèi)不同性質(zhì)的構(gòu)成要素以及系統(tǒng)內(nèi)各個(gè)不同層次整合在一起進(jìn)行研究[62].那么首先勢(shì)必要將基因、mRNA、蛋白質(zhì)、生物小分子,以及從基因到細(xì)胞、到組織、再到每個(gè)水平的有機(jī)體等不同來(lái)源的數(shù)據(jù)進(jìn)行融合.這個(gè)過(guò)程分4步完成:
1) 需要從不同數(shù)據(jù)源(如Taxonomy,Genbank,Gene,UniProt,PDB,KEGG,Pfam,GO等)抽取相關(guān)的實(shí)體和關(guān)系,或者從現(xiàn)存知識(shí)庫(kù)(如Neuroco-mmons,Bio2RDF)中直接轉(zhuǎn)化數(shù)據(jù),這一過(guò)程中,隨著數(shù)據(jù)體量、種類(lèi)、來(lái)源等動(dòng)態(tài)變化,需要對(duì)構(gòu)建的知識(shí)庫(kù)進(jìn)行動(dòng)態(tài)更新;
2) 識(shí)別出相同實(shí)體,并進(jìn)行實(shí)體鏈接,比如識(shí)別出Bt蛋白與蘇云金桿菌蛋白是同一個(gè)蛋白,并且它們與知識(shí)庫(kù)中的實(shí)體Bt蛋白進(jìn)行鏈接;
3) 在進(jìn)行實(shí)體關(guān)聯(lián)時(shí)可能會(huì)存在歧義、沖突的情況,比如BT既可以表示蘇云金桿菌,也可以表示螞蟻磁力鏈接搜索引擎,這就需要沖突解決技術(shù)消除歧義;
4) Bt蛋白屬于晶體蛋白,如果我們?yōu)锽t蛋白構(gòu)建了本體——晶體蛋白,那么也可以加速融合的效率,比如中國(guó)科學(xué)院微生物研究所構(gòu)建Speices taxonomy,Protein(uniprot),Gene,Pathway(Kegg),Genome,Enzyme Reaction Data(Kegg)六個(gè)本體用于促進(jìn)生物大數(shù)據(jù)的融合.
經(jīng)過(guò)上述數(shù)據(jù)融合,我們僅僅使碎片化的數(shù)據(jù)相聯(lián)系、將分散的數(shù)據(jù)相集中,形成表層知識(shí),即微生物知識(shí)資源;但是為了更好地探究生物數(shù)據(jù)之間繁雜的邏輯關(guān)系和特征,就要使隱性知識(shí)顯性化,使表層知識(shí)上升為普適機(jī)理.這個(gè)過(guò)程分4步完成:
1) 根據(jù)數(shù)據(jù)的分布規(guī)律歸納出數(shù)據(jù)的結(jié)構(gòu)規(guī)則進(jìn)而抽象出數(shù)據(jù)之間的關(guān)聯(lián)模式來(lái)表示知識(shí),即要對(duì)微生物知識(shí)進(jìn)行抽象與建模,比如把“蘇云金桿菌是產(chǎn)生Bt蛋白質(zhì)的土壤細(xì)菌”這一知識(shí)用RDF三元組〈蘇云金桿菌,產(chǎn)生,Bt蛋白質(zhì)〉和〈蘇云金桿菌,屬于,土壤細(xì)菌〉表示或者用低維向量的形式表示.
2) 通過(guò)關(guān)系推演技術(shù)顯性化隱性知識(shí),比如中科院微生物研究所融合了36個(gè)不同的數(shù)據(jù)源約830萬(wàn)個(gè)數(shù)據(jù),從約4 000萬(wàn)個(gè)顯示關(guān)聯(lián)關(guān)系中推演得到約1.4億個(gè)隱式關(guān)聯(lián)關(guān)系.
3) 除了隱性知識(shí),還有更重要的深度知識(shí),包括高階多元關(guān)系和隱含語(yǔ)義關(guān)系,比如魚(yú)類(lèi)中的掠食者在食物富集時(shí)運(yùn)動(dòng)軌跡呈布朗運(yùn)動(dòng),微生物菌群共生體系中可能存在基因共振現(xiàn)象,而單個(gè)培養(yǎng)的微生物中沒(méi)有共振現(xiàn)象[63].這種知識(shí)一般需要通過(guò)領(lǐng)域理論,運(yùn)用數(shù)學(xué)、物理等工具,進(jìn)行理論建模、解析、邏輯演繹、公式推演和證明獲得,如采用統(tǒng)計(jì)分析和深度學(xué)習(xí)的方法.
4) 人的智力能透過(guò)現(xiàn)象看到本質(zhì),只有發(fā)現(xiàn)大數(shù)據(jù)所呈現(xiàn)出的普遍現(xiàn)象背后的普適原理才能對(duì)客觀世界產(chǎn)生更大的影響.比如,社會(huì)網(wǎng)絡(luò)中社群的消失現(xiàn)象,他們背后的普適原理是生物進(jìn)化論[64];增長(zhǎng)和擇優(yōu)機(jī)制在復(fù)雜網(wǎng)絡(luò)自組織演化中具有普遍性,它們使網(wǎng)絡(luò)在宏觀上具有冪律度分布的普適現(xiàn)象[65].這就搭建起了龐大復(fù)雜的人類(lèi)社會(huì)與渺小精細(xì)的微生物群落之間的關(guān)聯(lián).
從上述案例我們也可以看出,微生物大數(shù)據(jù)融合的數(shù)據(jù)融合用于“喂飽”人類(lèi)對(duì)微生物知識(shí)的需求,而知識(shí)融合“反哺”生態(tài)系統(tǒng)的和諧發(fā)展.二者相互協(xié)調(diào)啟發(fā)才能最大限度地提升微生物大數(shù)據(jù)的價(jià)值.
4.2 科學(xué)大數(shù)據(jù)實(shí)時(shí)分析
科學(xué)領(lǐng)域已進(jìn)入一個(gè)信息豐富的大數(shù)據(jù)時(shí)代,數(shù)據(jù)量正以TB級(jí)甚至PB級(jí)的速度增長(zhǎng).科學(xué)大數(shù)據(jù)的分析正在從傳統(tǒng)的批量處理向?qū)崟r(shí)分析快速發(fā)展.
以天文領(lǐng)域GWAC全天短時(shí)標(biāo)觀測(cè)系統(tǒng)為例,整個(gè)天區(qū)由40個(gè)GWAC相機(jī)陣同時(shí)監(jiān)控,一個(gè)GWAC相機(jī)每15 s產(chǎn)生一個(gè)大約32 MB的天區(qū)圖,通過(guò)點(diǎn)源提取該天區(qū)圖將生成1.7×106條星表記錄.每副圖片的點(diǎn)源提取和星表記錄與模板表的交叉證認(rèn)時(shí)間之和需小于15 s的延遲,這是一個(gè)典型的實(shí)時(shí)分析的應(yīng)用場(chǎng)景.
天文大數(shù)據(jù)具有產(chǎn)生速度快、數(shù)據(jù)量大、周期時(shí)間長(zhǎng)等特點(diǎn),需要設(shè)計(jì)可快速入庫(kù)的緩存機(jī)制或消息隊(duì)列,提高數(shù)據(jù)的存儲(chǔ)能力和消息隊(duì)列的吞吐率.并采用分布式多級(jí)緩存機(jī)制或可擴(kuò)展的消息隊(duì)列實(shí)現(xiàn)科學(xué)數(shù)據(jù)的快速存儲(chǔ)和傳輸.
為滿(mǎn)足高速數(shù)據(jù)采集下的實(shí)時(shí)分析,一般分為針對(duì)批量外存數(shù)據(jù)的大規(guī)模并行處理(massively parallel processing, MPP)技術(shù)和基于流式內(nèi)存數(shù)據(jù)的數(shù)據(jù)流查詢(xún)處理技術(shù).為便于快速查詢(xún)和實(shí)時(shí)分析內(nèi)外存數(shù)據(jù),可設(shè)計(jì)同時(shí)進(jìn)行批量處理和流式處理的查詢(xún)適配器,通過(guò)統(tǒng)一的查詢(xún)接口實(shí)現(xiàn)不同數(shù)據(jù)類(lèi)型的全量查詢(xún)結(jié)果.
此外,隨著數(shù)據(jù)量的累積和維度的增加,以及查詢(xún)和分析復(fù)雜度的不斷增長(zhǎng),實(shí)時(shí)返回用戶(hù)查詢(xún)結(jié)果越來(lái)越成為科學(xué)大數(shù)據(jù)系統(tǒng)的一個(gè)重要挑戰(zhàn).目前,學(xué)術(shù)界和工業(yè)界的一個(gè)研究重點(diǎn)就是如何在科學(xué)大數(shù)據(jù)系統(tǒng)中支持交互式的數(shù)據(jù)查詢(xún).這里的交互性體現(xiàn)在處理用戶(hù)查詢(xún)過(guò)程中系統(tǒng)及時(shí)不斷地提供反饋,這樣使得用戶(hù)能夠快速地做出反應(yīng)和根據(jù)反饋結(jié)果更改或優(yōu)化下一步的查詢(xún)條件,以找到最相關(guān)和最有意義的查詢(xún)結(jié)果.因此,交互性查詢(xún)分析也是實(shí)時(shí)分析的一個(gè)重要研究方向.
4.3 科學(xué)大數(shù)據(jù)長(zhǎng)期存儲(chǔ)
現(xiàn)代科學(xué)大數(shù)據(jù)需要花費(fèi)成百上千萬(wàn)美元產(chǎn)生數(shù)據(jù),通常會(huì)積累幾年到十幾年的數(shù)據(jù),這些數(shù)據(jù)該如何有效地保存和利用一致是科學(xué)數(shù)據(jù)面臨的重大問(wèn)題.大數(shù)據(jù)時(shí)代數(shù)據(jù)產(chǎn)生的速度更快,產(chǎn)生的量更大,如何長(zhǎng)期存儲(chǔ)這些數(shù)據(jù)并提供高效的處理,或者說(shuō)如何決定保存哪些數(shù)據(jù)淘汰哪些數(shù)據(jù)成為了當(dāng)務(wù)之急.
以GWAC為例,根據(jù)天文數(shù)據(jù)的獨(dú)特要求,為了滿(mǎn)足對(duì)短期數(shù)據(jù)的快速實(shí)時(shí)查詢(xún)以及對(duì)數(shù)據(jù)的長(zhǎng)期存儲(chǔ),設(shè)計(jì)使用了正三角和倒三角模型對(duì)數(shù)據(jù)進(jìn)行處理分析(如圖5所示).在數(shù)據(jù)的底層存儲(chǔ)中,通過(guò)使用HDFS對(duì)數(shù)據(jù)按照文件的方式進(jìn)行存儲(chǔ).將每一個(gè)星的數(shù)據(jù)保存成一個(gè)文件.單個(gè)星的文件隨著時(shí)間的積累不斷增加,而文件總數(shù)卻始終保持在百萬(wàn)級(jí).而HDFS面對(duì)海量小文件時(shí)的處理應(yīng)對(duì)能力較弱,因此我們使用三角模型對(duì)數(shù)據(jù)進(jìn)行處理.隨著時(shí)間的增加,將海量小文件逐步合并,越久遠(yuǎn)的數(shù)據(jù)合并率越高,而近期的數(shù)據(jù)則保持不變,不進(jìn)行合并.同時(shí),隨著文件的合并,文件大小也會(huì)有所變化,當(dāng)久遠(yuǎn)的數(shù)據(jù)合并后,單一文件大小會(huì)不斷增大.通過(guò)這樣的方法,在文件個(gè)數(shù)和文件大小之間尋找平衡以滿(mǎn)足對(duì)數(shù)據(jù)的有效管理.
Fig. 5 Counts and sizes of long term stored scientific data圖5 科學(xué)大數(shù)據(jù)長(zhǎng)期存儲(chǔ)文件數(shù)目與大小
總之,長(zhǎng)期存儲(chǔ)系統(tǒng)的目標(biāo)可以歸為3個(gè):1)設(shè)計(jì)一個(gè)簡(jiǎn)單一致的解決方案,計(jì)算與存儲(chǔ)資源混合在同一節(jié)點(diǎn)上,使其具備獨(dú)立運(yùn)行能力;2)完成可擴(kuò)張的和輕便的設(shè)計(jì),以便能夠?qū)⑺性O(shè)計(jì)布置到位于全球任何地方的合作單位;3)集安全性和適應(yīng)性于一體,對(duì)于磁盤(pán)或結(jié)點(diǎn)丟失應(yīng)具有健壯性,所有后備成員具備完全獨(dú)立性.
4.4 科學(xué)大數(shù)據(jù)云服務(wù)技術(shù)
隨著云服務(wù)提供給大數(shù)據(jù)管理和分析的質(zhì)量得到不斷提高,云服務(wù)的多樣性也在穩(wěn)步增長(zhǎng).科學(xué)大數(shù)據(jù)的管理與分析正好可以借助云服務(wù)的進(jìn)步來(lái)更好地為科學(xué)研究提供助力,將計(jì)算資源和數(shù)據(jù)資源合理高效地整合到云端,更好地為科技工作者提供服務(wù)和幫助.
科學(xué)大數(shù)據(jù)云存儲(chǔ)服務(wù)不同于普通云存儲(chǔ),其主要是面向大數(shù)據(jù)分析的超大規(guī)模存儲(chǔ)庫(kù),一般要求能存儲(chǔ)非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)且能提高分析性能的大吞吐量.由于受到傳統(tǒng)分析體系結(jié)構(gòu)(例如架構(gòu)的預(yù)定義)的限制,需要事先定義數(shù)據(jù)模式.為應(yīng)對(duì)這一挑戰(zhàn),引入數(shù)據(jù)湖概念,將它作為存儲(chǔ)在單一位置收集的各種類(lèi)型數(shù)據(jù)的企業(yè)級(jí)存儲(chǔ)庫(kù).出于科學(xué)探索分析目的,可在定義架構(gòu)之前,所有類(lèi)型的數(shù)據(jù)都可以存儲(chǔ)在數(shù)據(jù)湖中.因此當(dāng)面對(duì)某種分析時(shí),動(dòng)態(tài)的創(chuàng)建數(shù)據(jù)模式是未來(lái)的主要挑戰(zhàn).
科學(xué)領(lǐng)域的數(shù)據(jù)分析往往需要深度定制自身分析流程.科研人員需要調(diào)用基本API編程,但不同系統(tǒng)的API差異很大(如Spark和Hadoop的編程接口差異),導(dǎo)致程序移植性差.因此云分析服務(wù)面臨的基本挑戰(zhàn)是解耦底層數(shù)據(jù)分析系統(tǒng)和分析API直接的聯(lián)系,從而實(shí)現(xiàn)同樣的分析程序可在不同的大數(shù)據(jù)系統(tǒng)之間輕松移植,從而減輕科研人員的工作壓力.
4.5 科學(xué)大數(shù)據(jù)開(kāi)放共享
數(shù)據(jù)只有在不斷的使用中才能產(chǎn)生價(jià)值,而且,數(shù)據(jù)資源天然具有可重復(fù)使用的特征.開(kāi)放科學(xué)數(shù)據(jù)可確??茖W(xué)研究結(jié)論的真實(shí)性和可重現(xiàn)性,可確保公共財(cái)政投入獲取的公共資源,能最大限度地產(chǎn)生價(jià)值,可支持?jǐn)?shù)據(jù)跨領(lǐng)域、跨學(xué)科的融合和重復(fù)使用,從而加快科學(xué)發(fā)現(xiàn)的進(jìn)程.世界經(jīng)濟(jì)合作與發(fā)展組織OECD提出了科學(xué)數(shù)據(jù)開(kāi)放的基本原則[66],F(xiàn)orce11明確了有效開(kāi)放的“FAIR”(findable,accessible,interoperable,reusable)標(biāo)準(zhǔn)[67-68],國(guó)際科學(xué)聯(lián)合會(huì)ICSU發(fā)布了“大數(shù)據(jù)時(shí)代開(kāi)放數(shù)據(jù)公約”,明確了在數(shù)據(jù)開(kāi)放過(guò)程中各利益相關(guān)方的責(zé)任.
科學(xué)大數(shù)據(jù)開(kāi)放共享一個(gè)基本的共識(shí)是,研究項(xiàng)目及其相關(guān)數(shù)據(jù)收集完成時(shí),公共財(cái)政支持產(chǎn)生的數(shù)據(jù)應(yīng)可公開(kāi)訪問(wèn)及最大限度地再利用.如生命科學(xué)領(lǐng)域的基因序列數(shù)據(jù)庫(kù)GenBank,通過(guò)和國(guó)際著名學(xué)術(shù)期刊合作,強(qiáng)制要求學(xué)術(shù)論文作者在提交論文時(shí),必須先將數(shù)據(jù)提交到GenBank數(shù)據(jù)庫(kù)中,為全人類(lèi)積累了一個(gè)龐大的基因序列數(shù)據(jù)庫(kù).再如,Sloan數(shù)字巡天項(xiàng)目SDSS,已經(jīng)先后向全世界發(fā)布了13版的巡天數(shù)據(jù).
概括起來(lái),科學(xué)大數(shù)據(jù)開(kāi)放共享方式主要包括:
1) 通過(guò)國(guó)際合作項(xiàng)目或合作網(wǎng)絡(luò)驅(qū)動(dòng)的開(kāi)放共享,典型的如GEOSS[69],GBIF[70], WDCM[71]等.這種方式要求所有參與者按照大家共同認(rèn)可的規(guī)則開(kāi)放數(shù)據(jù)和使用數(shù)據(jù).
2) 通過(guò)學(xué)術(shù)期刊驅(qū)動(dòng)的開(kāi)放共享,典型的如基因序列數(shù)據(jù)庫(kù)EMBL/GenbankDDBJ.
3) 通過(guò)公共存儲(chǔ)庫(kù)和公共服務(wù)驅(qū)動(dòng)的開(kāi)放共享,典型的如SDSS,Dryad[72],F(xiàn)ig share[73]等.這種方式通過(guò)建立一個(gè)領(lǐng)域內(nèi)或者跨領(lǐng)域的公共數(shù)據(jù)庫(kù)或公共數(shù)據(jù)存儲(chǔ)平臺(tái),以服務(wù)的方式來(lái)匯聚和開(kāi)放數(shù)據(jù)資源.
4) 數(shù)據(jù)出版和引用機(jī)制,典型的如Nature旗下的Scientific Data[74]、ESSD[75]、《中國(guó)科學(xué)數(shù)據(jù)》[76]等,通過(guò)數(shù)據(jù)論文的發(fā)表和引用來(lái)激勵(lì)科研人員開(kāi)放數(shù)據(jù),并提高數(shù)據(jù)的可理解性和可重用性.此外,以數(shù)據(jù)交易的形式提供服務(wù)的數(shù)據(jù)集市機(jī)制,也開(kāi)始有一些嘗試,但是其是否適合于科學(xué)數(shù)據(jù),還有待進(jìn)一步觀察.
在科學(xué)數(shù)據(jù)的開(kāi)放共享中,不同的學(xué)科、不同的數(shù)據(jù)、不同的組織乃至國(guó)家,其采用的機(jī)制、模式等可能均不同,不能一概而論,也不存在“One size fits all”的解決方案.但在任何一種機(jī)制的設(shè)計(jì)中,必須首先明確參與數(shù)據(jù)開(kāi)放共享的各相關(guān)方的利益和訴求,要通過(guò)建立有效的激勵(lì)機(jī)制、利益分配機(jī)制和評(píng)估評(píng)價(jià)機(jī)制等來(lái)有序推進(jìn),而且其中數(shù)據(jù)權(quán)屬的問(wèn)題、隱私問(wèn)題、安全問(wèn)題,也不可忽視.
大數(shù)據(jù)時(shí)代科學(xué)研究是一個(gè)大科學(xué)、大需求、大數(shù)據(jù)、大計(jì)算、大發(fā)現(xiàn)的過(guò)程.數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)已經(jīng)成為繼實(shí)驗(yàn)科學(xué)、理論推演、計(jì)算機(jī)仿真這3種科研范式相輔相成的科學(xué)研究第四范式.先進(jìn)的科學(xué)大數(shù)據(jù)管理和處理可以為各學(xué)科領(lǐng)域的新發(fā)現(xiàn)提供堅(jiān)實(shí)的技術(shù)基礎(chǔ),能夠加速具有國(guó)際影響力的科技成果的產(chǎn)出過(guò)程,具有重要的科學(xué)價(jià)值.
然而,為了更好地促進(jìn)科學(xué)研究,科學(xué)大數(shù)據(jù)的管理還存在著較大的技術(shù)挑戰(zhàn),包括EB級(jí)文件和千億行關(guān)系數(shù)據(jù)的高效率、低成本、一體化存儲(chǔ)和管理,科學(xué)大數(shù)據(jù)快速索引,以支持大規(guī)模、交互式的查詢(xún)和處理;海量多源、多學(xué)科數(shù)據(jù)的自動(dòng)關(guān)聯(lián)與融合;瞬時(shí)產(chǎn)生的海量數(shù)據(jù)實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的高效分析;以流水線的方式實(shí)現(xiàn)海量數(shù)據(jù)資源與科學(xué)模型的快速融合與并行處理等.
為此,我們需突破科學(xué)大數(shù)據(jù)管理與分析的關(guān)鍵問(wèn)題,研發(fā)一體化全流程科學(xué)大數(shù)據(jù)管理系統(tǒng),成為大數(shù)據(jù)時(shí)代重大科技創(chuàng)新活動(dòng)必要的“使能利器”,也成為廣大科研人員“軍械庫(kù)”中的“殺手锏”,幫助他們從大數(shù)據(jù)中高效、快速地發(fā)現(xiàn)新知識(shí),取得新的突破.
[1]Greenberg J. Big data, little data, no data: Scholarship in the networked world[J]. Leonardo, 2016, 49(1): 91-92
[2]Barwick H. The “four Vs” of Big Data, Implementing Information Infrastructure Symposium[EB/OL]. North Sydney NSW: IDG Communications Pty Ltd. (2012-10-02) [2016-10-10]. http://www.computerworld.com.au/article/396198/iiis_four_vs_big_data/
[3]IBM. What is big data? [EB/OL].Armonk, NY: IBM Corporation. (2012-10-02) [2016-10-12]. http://www-01.ibm.com/software/data/bigdata/
[4]Wikimedia. Big data[EB/OL]. 2016 [2016-10-02]. http://en.wikipedia.org/wiki/Big_data
[5]Kaufman Y J, Justice C, Flynn L, et al. Monitoring global fires from EOS-MODIS[J]. Journal of Geo-Physical Research, 1998, 103(D24): 32215-32238
[6]Wan Meng, Wu Chao, Wang Jing, et al. Column store for GWAC: A high-cadence, high-density, large-scale astronomical light curve pipeline and distributed shared-nothing database[J]. Publications of the Astronomical Society of the Pacific, 2016, 128(969): 114501-114516
[7]Bourne P E, Bonazzi V, Dunn M, et al. The NIH big data to knowledge (BD2K) initiative[J]. Journal of the American Medical Informatics Association, 2015, 22(6): 1114-1114
[8]Chen Guangren, Zhu Yu, Su Qing. Science programs lead to the future[J]. Science Technology Review, 2014, 32(31): 15-28 (in Chinese)(陳廣仁, 朱宇, 蘇青. 引領(lǐng)未來(lái)的科學(xué)計(jì)劃[J]. 科技導(dǎo)報(bào), 2014, 32(31): 15-28)
[9]Jones B. Towards the open European science cloud[C] // Digital Era Forum. Zenodo, 2015: 1-21
[11]LSST. LSST Public Website Sitemap[OL]. Tucson, AZ. LSST Corporation. [2016-10-02]. http://www.lsst.org/lsst/science/scientist_transient
[12]Ivezic Z, Tyson J A, Abel B, et al. LSST: From science drivers to reference design and anticipated data products[J]. American Astronomical Society, 2008, 41: 366
[13]Becla J, Szalay A, Gray J. Designing a multi-petabyte database for LSST[C] //Proc of SPIE Astronomical Telescopes+ Instrumentatio. Bellingham: WASPIE Publica-tions, 2006: 62700R-62700R
[14]Mao Daowei, Su Xia. The initial progress of the model reforming, the characteristics of the cultivating talents-Students fromthe Beijing Genomics Institute (BGI) frequently publish works in Science and Nature[J]. Guangdong Science & Technology, 2010, 19(11): 15-18 (in Chinese)(毛道偉, 孫俠. 模式改革初顯成效人才培養(yǎng)漸成特色——華工-華大基因組科學(xué)創(chuàng)新班學(xué)生《Science》、《Nature》頻亮相引關(guān)注[J]. 廣東科技, 2010, 19(11): 15-18)
[15]Brooksbank C, Cameron G, Thornton J. The European Bioinformatics Institute’s data resources: Towards systems biology[J]. Nucleic Acids Research, 2005, 33(Suppl 1): 46-53
[16]Rao Dongmei. NCBI data base and its resource access[J]. Science & Technology Vision, 2013 (7): 53-54 (in Chinese)(饒冬梅. NCBI數(shù)據(jù)庫(kù)及其資源的獲取[J]. 科技視界, 2013 (7): 53-54)
[17] Li Guojie. The recognition of big data[J]. Big Data, 2015, 1(1): 1-9 (in Chinese)(李國(guó)杰. 對(duì)大數(shù)據(jù)的再認(rèn)識(shí)[J]. 大數(shù)據(jù), 2015, 1(1): 1-9)
[18]Andreeva J, Campana S, Fanzago F, et al. High-energy physics on the grid: The ATLAS and CMS experience[J]. Journal of Grid Computing, 2008, 6(1): 3-13
[19]Chen J, Wang W, Li Z Y, et al. Landsat 5 satellite overview[J]. Remote Sensing Information, 2007, 43(3): 85-89
[20]The results summary of the information special project “integration and share of data resources” in Chinese Academy of Science. Science and Technology Daily[N]. Beijing: Science and Technology Daily Press, 2016-04-05 (in Chinese)(中科院“十二五”信息化專(zhuān)項(xiàng)科技數(shù)據(jù)資源整合與共享工程成果概述. 科技日?qǐng)?bào)[N]. 北京: 科技日?qǐng)?bào)社, 2016-04-05)
[21]Moore R, Chen S Y, Schroeder W, et al. Production storage resource broker data grids[C] //Proc of IEEE Int Conf on E-Science & Grid Computing. Los Alamitos, CA: IEEE Computer Society, 2006: 147
[22]Manandhar A, Dam K K V, Berrisford P, et al. Deploying a distributed data storage system for grid applications on the National Grid Service using federated SRB[C] //Proc of the UK e-Science All Hands Meeting. Edinburgh. UK: National e-Science Centre, 2004
[23]Hedges M, Hasan A, Blanke T. Management and preser-vation of research data with iRODS.[C] //Proc of the 16th ACM Conf on Information and Knowledge Management, Workshop on Cyberinfrastructure: Information Management in Escience (CIMS 2007, CIKM 2007). New York: ACM, 2007: 17-22
[24]Conway M, Moore R, Rajasekar A, et al. Demonstration of policy-guided data preservation using iRODS[C] //Proc of IEEE Int Symp on Policies for Distributed Systems and Networks. Los Alamitos, CA: IEEE Computer Society, 2011: 173-174
[25]Antunes G, Barateiro J. Securing the iRODS metadata catalog for digital preservation[M] //Research and Advanced Technology for Digital Libraries. Berlin: Springer, 2009: 412-415
[26]Cudre-Mauroux P, Kimura H, Lim K T, et al. A demons-tration of SciDB: A science-oriented DBMS[J]. VLDB, 2009, 2(2): 1534-1537
[27]Stonebraker M. SciDB: An open-source DBMS for scientific data[J]. ERCIM News, 2012, 89: 13
[28]Stonebraker M, Becla J, Dewitt D J, et al. Requirements for science data bases and SciDB[C] //Proc of the Conf of CIDR. New York: ACM, 2009: 173-184
[29]Hammami R, Zouhir A, Naghmouchi K, et al. SciDBMaker: New software for computer-aided design of specialized biological databases[J]. BMC Bioinformatics, 2008, 9(1): 1-6
[30]Stonebraker M, Brown P, Becla J, et al. SciDB: A database management system for applications with complex analytics[J]. Computing in Science & Engineering, 2013, 15(3): 54-62
[31]Cudré-Mauroux P, Kimura H, Lim K T, et al. A demonstration of SciDB: A science-oriented DBMS[J]. VLDB Endowment, 2009, 2(2): 1534-1537
[32]Stonebraker M, Duggan J, Battle L, et al. SciDB DBMS research at MIT[J]. IEEE Data Engineering Bulletin, 2013, 36(4): 21-30
[33]Paul G Brown. Overview of SciDB: Large scale array storage, processing and analysis[C] //Proc of Conf of SIGMOD. New York: ACM, 2010: 963-968
[34]Stonebraker M, Brown P, Poliakov A, et al. The architecture of SciDB[C] // Proc of Scientific and Statistical Data Management Conf. Berlin: Springer, 2011: 1-16
[35]Becla J, Lim K T. Report from the SciDB workshop[J]. Data Science Journal, 2008, 7: 88-95
[36]Seo S, Yoon E J, Kim J, et al. HAMA: An efficient matrix computation with the MapReduce framework[C] //Proc of Cloud Computing Technology and Science (CloudCom). Piscataway, NJ: IEEE, 2010: 721-726
[37]Luo S, Liu L, Wang H, et al. Implementation of a parallel graph partition algorithm to speed up BSP computing[C] //Proc of Fuzzy Systems and Knowledge Discovery (FSKD). Piscataway, NJ: IEEE, 2014: 740-744
[38]Suchanek F M, Weikum G. Knowledge bases in the age of big data analytics[J]. VLDB Endowment, 2014, 7(13): 1713-1714
[39]Suchanek F, Weikum G. Knowledge harvesting in the big-data era[C] //Proc of ACM SIGMOD Int Conf on Management of Data. New York: ACM, 2013: 933-938
[40]Szalay A S, Gray J, Thakar A R, et al. The SDSS SkyServer, public access to the sloan digital sky server data[C] //Proc of SIGMOD. New York: ACM, 2002: 570-581
[41]Raddick M J, Szalay A S, Gray J N, et al. Two years of SkyServer: Education and outreach with sloan digital sky survey data[J]. Bulletin of the American Astronomical Society, 2003, 35(3): 718
[42]Wang D L, Monkewitz S M, Lim K T, et al. Qserv: A distributed shared-nothing database for the LSST catalog[C] //Proc of High Performance Computing, Networking, Storage and Analysis. New York: ACM, 2011: 1-11
[43]Shen Z, Li J, Li C, et al. VisualDB: Managing and publishing scientific data on the Web[C] //Proc of Int Conf on Cyber-Enabled Distributed Computing and Knowledge Discovery, Cyberc. Piscataway, NJ: IEEE, 2011: 399-404
[44]Huo D M, Li S, Xu C. Service system of the South China Sea science data products based on VisualDB[J]. Journal of Tropical Oceanography, 2012, 31(2): 118-122
[45]Du Yi, Guo Danhuai, Chen Xi, et al. Model-driven visualization generation system[J].Journal of Software, 2016, 27(5): 1199-1211 (in Chinese)(杜一, 郭旦懷, 陳昕, 等. 一種模型驅(qū)動(dòng)的可視化生成系統(tǒng)[J]. 軟件學(xué)報(bào), 2016, 27(5): 1199-1211)
[46]Taft D K. Cloudera Impala 1.0 Brings SQL to Hadoop for Real-Time Queries[EB/OL]. Foster City, CA: Eweek, (2013-05-12) [2016-10-10]. http://www.eweek.com/database/cloudera-impala-1.0-brings-sql-to-hadoop-for-real-time-queries
[47]Vora M N. Hadoop-HBase for large-scale data[C] //Proc of Int Conf on Computer Science and Network Technology. Piscataway, NJ: IEEE, 2011: 601-605
[48]Abdelouarit K A, Sbihi B, Aknin N. Solr, lucene and Hadoop: Towards a complete solution to improve research in big data environment (Case of the UAE)[C] //Proc of the Mediterranean Congress of Telecommunications. Los Alamitos, CA: IEEE Computer Society, 2016: 363-367
[49]Jouili S, Vansteenberghe V. An empirical comparison of graph databases[C] //Proc of Int Conf on Social Computing. Piscataway, NJ: IEEE, 2013: 708-715
[50]Lakshman A, Malik P. Cassandra: A decentralized structured storage system[J]. AcmSigops Operating Systems Review, 2010, 44(2): 35-40
[51]Suchanek F M, Weikum G. Knowledge bases in the age of big data analytics[J]. Proceedings of the VLDB Endowment, 2014, 7(13): 1713-1714
[52]Suchanek F, Weikum G. Knowledge harvesting in the big-data era[C] //Proc of the 2013 ACM SIGMOD Int Conf on Management of Data. New York: ACM, 2013: 933-938
[53]Meng Xiaofeng, Du Zhijuan. Research on the big data fusion: Issues and challenges[J]. Journal of Computer Research and Development, 2016, 53(2): 231-246 (in Chinese)(孟小峰, 杜治娟. 大數(shù)據(jù)融合研究: 問(wèn)題與挑戰(zhàn)[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(2): 231-246)
[54]IBM. Shop hardware, software and services from IBM and our partners[OL]. IBM Watson. 2016[2016-10-13]. http://www-31.ibm.com/ibm/cn/cognitive/outthink/
[55]Belleau F, Nolin M A, Tourigny N, et al. Bio2RDF: Towards a mashup to build bioinformatics knowledge systems[J]. Journal of Biomedical Informatics, 2008, 41(5): 706-716
[56]Lenzerini M. Data integration: A theoretical perspective[C] //Proc of the 21st ACM SIGMOD-SIGACT-SIGART Symp on Principles of Database Systems. New York: ACM, 2002: 233-246
[57] Meng Xiaofeng, Liu Wei, Jiang Fangjiao, et al. Web Data Management Principle and Technology[M]. Beijing: Tsinghua University Press, 2014 (in Chinese)(孟小峰, 劉偉, 姜芳艽, 等. Web數(shù)據(jù)管理:概念與技術(shù)[M].北京: 清華大學(xué)出版社, 2014)
[58]Dong X L, Srivastava D. Big data integration[C] //Proc of Int Conf on Data Engineering (ICDE). Piscataway, NJ: IEEE, 2013: 1245-1248
[59]Dong X, Gabrilovich E, Heitz G, et al. Knowledge vault: A Web-scale approach to probabilistic knowledge fusion[C] //Proc of SIGKDD. New York: ACM, 2014: 601-610
[60]Jan M. Linked data integration[D]. Progue: Charles University in Prague, 2013
[61]Samarati P, Sweeney L. Generalizing data to provide anonymity when disclosing information (abstract)[C] //Proc of PODS. New York: ACM, 1998: 188
[62]Zieglg?nsberger W, Toile T R. The pharmacology of pain signalling[J]. Current Opinion in Neurobiology, 1993, 3(4): 611-618
[63]Chen Y, Kim J K, Hirning A J, et al. Emergent genetic oscillations in a synthetic microbial consortium[J]. Science, 2015, 349(6251): 986-989
[64] Givan M, Newman M E J. Community structure in social and biological networks[C] //Proc of the National Academy of Sciences of the United States of America. Los Gatos, CA: HighWire Press, 2001: 7821-7826
[65]Barabási A L, Albert R. Emergence of scaling in random networks[J]. Science, 1999, 286(5439): 509-512
[66]Pilat D, Fukasaku Y. OECD principles and guidelines for access to research data from public funding[J]. Data Science Journal, 2007, 6: OD4-OD11
[67]Wilkinson M D, Dumontier M, Aalbersberg I J J, et al. The FAIR guiding principles for scientific data management and stewardship[J]. Scientific Data, 2016, 3: 1-9
[68]Force11. Guiding principles for findable, accessible, interoperable and re-usable data publishing version b1.0 [EB/OL]. [2016-09-10]. https://www.force11.org/fairprinciples
[69]Wikimedia. GEO.GEOSS: The Global Earth Observation System of Systems. [EB/OL]. [2016-09-10]. http://www.earthobser vations.org/geoss.shtml
[70] GBIF(Global biodiversity information facility). Free and Open Access to Biodiversity Data|GBIF.org[EB/OL]. [2016-09-10]. http://www.gbif.org/
[71]Sun Q, Li L, Wu L, et al. Web resources for microbial data[J]. Genomics Proteomics Bioinformatics, 2015, 42(1): 69-72
[72]Dryad. Submission integration[EB/OL]. [2016-09-10]. http://datadryad.org/
[73] Hahnel M. Exclusive: Figshare a new open data project that wants to change the future of scholarly publishing[EB/OL]. 2012 [2016-09-10]. https://core.ac.uk/download/pdf/16380431.pdf
[74]Nature. Scientific Data[EB/OL]. [2016-09-10]. http://www.nature.com/sdata/
[75]ESSD. Earth System Science Data[EB/OL]. [2016-09-10]. http://www.earth-system-science-data.net/
[76] CSData. Chinese Science Data[EB/OL]. [2016-09-10]. http://www.csdata.org/ (in Chinese)(CSData.中國(guó)科學(xué)數(shù)據(jù)(中英文網(wǎng)絡(luò)版)[EB/OL]. [2016-09-10]. http://www.csdata.org/)
Li Jianhui, born in 1973. PhD, professor. His main research interests include open data policy and practice, large scale distributed data integration and data cloud service, big data management, big data computing and analysis for science discovery.
Shen Zhihong, born in 1977. PhD, professor. His main research interests include scientific data management and integration, linked data and big data management.
Meng Xiaofeng, born in 1964. PhD, professor at Renmin University of China. CCF fellow. His main research interests include data fusion and knowledge fusion, big data management for new hardware, big data real time and interactive analysis, and big data privacy management.
Scientific Big Data Management: Concepts, Technologies and System
Li Jianhui1, Shen Zhihong1, and Meng Xiaofeng2
1(ComputerNetworkInformationCenter,ChineseAcademyofSciences,Beijing100190)2(SchoolofInformation,ReminUniversityofChina,Beijing100872)
In recent years, as more and more large-scale scientific facilities have been built and significant scientific experiments have been carried out, scientific research has entered an unprecedented big data era. Scientific research in big data era is a process of big science, big demand, big data, big computing, and big discovery. It is of important significance to develop a full life cycle data management system for scientific big data. In this paper, we first introduce the background of the development of scientific big data management system. Then we specify the concepts and three key characteristics of scientific big data. After an review of scientific data resource development projects and scientific data management systems, a framework is proposed aiming at the full life cycle management of scientific big data. Further, we introduce the key technologies of the management framework including data fusion, real-time analysis, long termstorage, cloud service, and data opening and sharing. Finally, we summarize the research progress in this field, and look into the application prospects of scientific big data management system.
scientific data; big data; data pipeline; full life cycle of data
2016-11-15;
2017-01-14
國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2016YFB1000600) This work was supported by the National Key Research Program of China (2016YFB1000600).
TP391