国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

科學(xué)大數(shù)據(jù)的發(fā)展態(tài)勢(shì)及建議

2017-01-03 21:55陳明奇黎建輝鄭曉歡房俊民楊子輝
關(guān)鍵詞:大數(shù)據(jù)應(yīng)用數(shù)據(jù)共享

陳明奇 黎建輝 鄭曉歡 房俊民 楊子輝

摘 要:科學(xué)大數(shù)據(jù)已成為科學(xué)發(fā)展的新型戰(zhàn)略資源,“數(shù)據(jù)密集型科學(xué)”科研范式正在快速興起。本文就科學(xué)大數(shù)據(jù)的發(fā)展態(tài)勢(shì)進(jìn)行了深入的分析與探討,科學(xué)大數(shù)據(jù)驅(qū)動(dòng)科技創(chuàng)新的時(shí)代已經(jīng)到來(lái),結(jié)合我國(guó)科學(xué)大數(shù)據(jù)發(fā)展現(xiàn)狀,針對(duì)數(shù)據(jù)共享和分析挖掘存在的突出問(wèn)題與挑戰(zhàn),從國(guó)家層面的發(fā)展戰(zhàn)略與政策、科技基礎(chǔ)設(shè)施建設(shè)、核心技術(shù)研發(fā)、人才培養(yǎng)等方面建言獻(xiàn)策,力求把握大數(shù)據(jù)所帶來(lái)的機(jī)遇,推動(dòng)盡早建立良性的科研數(shù)據(jù)生態(tài)系統(tǒng),促進(jìn)科研大數(shù)據(jù)共享和開(kāi)發(fā)利用。

關(guān)鍵詞:科學(xué)大數(shù)據(jù);數(shù)據(jù)出版;數(shù)據(jù)共享;大數(shù)據(jù)應(yīng)用

中圖分類號(hào):TP393 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-8454(2016)21-0005-05

一、前言

2013年7月,習(xí)近平總書(shū)記視察中國(guó)科學(xué)院時(shí)提到大數(shù)據(jù)猶如工業(yè)社會(huì)的“石油”資源,誰(shuí)掌握了數(shù)據(jù),誰(shuí)就掌握了主動(dòng)權(quán)。

科研數(shù)據(jù)是人類社會(huì)在科技活動(dòng)中產(chǎn)生的各類數(shù)據(jù)資料,是信息資源的重要內(nèi)涵;長(zhǎng)期采集和積累的科研數(shù)據(jù)已經(jīng)成為支撐國(guó)家創(chuàng)新發(fā)展的珍貴資產(chǎn)和戰(zhàn)略資源,也是經(jīng)濟(jì)社會(huì)發(fā)展決策的重要科學(xué)依據(jù);人類的知識(shí),無(wú)不是來(lái)源于所掌握的數(shù)據(jù)和信息的分析。進(jìn)入21世紀(jì)以來(lái),源于人類觀察、記錄、分析和認(rèn)識(shí)世界的渴望,信息技術(shù)持續(xù)飛速發(fā)展并被廣泛應(yīng)用,導(dǎo)致從宏觀到微觀、從自然到社會(huì)的觀察、計(jì)算、傳播等儀器設(shè)備和活動(dòng)正在越來(lái)越快速地產(chǎn)生出海量且多樣的數(shù)據(jù),形成被稱為“大數(shù)據(jù)”的數(shù)據(jù)爆炸現(xiàn)象??蒲袛?shù)據(jù)的急劇增長(zhǎng)及其集成和共享將不僅對(duì)科學(xué)研究能力的提高、新的科學(xué)方法的產(chǎn)生、研究成果向產(chǎn)品和服務(wù)的轉(zhuǎn)化發(fā)揮重要的作用,而且已開(kāi)始引導(dǎo)科學(xué)研究的深度發(fā)展,促進(jìn)更多的原始性創(chuàng)新成果。科學(xué)研究、政府決策、產(chǎn)業(yè)發(fā)展越來(lái)越依賴于科學(xué)數(shù)據(jù)及對(duì)其分析的能力。

不斷增加的科學(xué)數(shù)據(jù)引發(fā)了人們思維和行為模式的變革,也使得科研大數(shù)據(jù)驅(qū)動(dòng)創(chuàng)新發(fā)展的模式正在發(fā)生極大的改變。因?yàn)楫?dāng)所能利用的數(shù)據(jù)規(guī)模增大時(shí),人們將可以做很多在小規(guī)模數(shù)據(jù)基礎(chǔ)上無(wú)法完成的事情,基于對(duì)大數(shù)據(jù)的分析能更好地理解世界,解決從前難以解決的或甚至不可能解決的很多大科學(xué)問(wèn)題,產(chǎn)生意料之外的科學(xué)發(fā)現(xiàn)。這種創(chuàng)新發(fā)展的新模式具有以下特征:(1)基于全樣本的研究模式,從局部性向整體性的轉(zhuǎn)變;(2)基于相關(guān)性的研究模式,注重映射關(guān)系;(3)基于全局性的研究模式,從階段性、個(gè)體性向全流程、群體性、公眾性的轉(zhuǎn)變;(4)基于價(jià)值持續(xù)性的研究模式,從靜態(tài)性向動(dòng)態(tài)性、持續(xù)性、累積性發(fā)展。

二、科學(xué)大數(shù)據(jù)的發(fā)展態(tài)勢(shì)

大數(shù)據(jù)是國(guó)家新型戰(zhàn)略資源,科學(xué)大數(shù)據(jù)已成為科學(xué)發(fā)展的新型戰(zhàn)略資源,是驅(qū)動(dòng)創(chuàng)新的重要因素。

1.科學(xué)大數(shù)據(jù)納入國(guó)家戰(zhàn)略并部署實(shí)施

為了占據(jù)科學(xué)大數(shù)據(jù)制高點(diǎn),世界主要大國(guó)已把科學(xué)大數(shù)據(jù)納入到國(guó)家戰(zhàn)略并開(kāi)始重點(diǎn)部署實(shí)施。2012年美國(guó)總統(tǒng)奧巴馬宣布啟動(dòng)“大數(shù)據(jù)研究與開(kāi)發(fā)計(jì)劃”,旨在改進(jìn)現(xiàn)有人們從海量和復(fù)雜的數(shù)據(jù)中獲取知識(shí)的能力,加速美國(guó)在科學(xué)與工程領(lǐng)域發(fā)明的步伐,推進(jìn)相關(guān)研究機(jī)構(gòu)進(jìn)一步進(jìn)行科學(xué)發(fā)現(xiàn)和創(chuàng)新研究,增強(qiáng)國(guó)家安全,轉(zhuǎn)變現(xiàn)有的教學(xué)和學(xué)習(xí)方式。2015年美國(guó)商務(wù)部宣布啟動(dòng)國(guó)家海洋與大氣管理局(NOAA)的大數(shù)據(jù)項(xiàng)目。NOAA每天收集的數(shù)據(jù)量超過(guò)20Tb,是美國(guó)國(guó)會(huì)圖書(shū)館所有印刷藏本數(shù)據(jù)量的兩倍有余。這些環(huán)境數(shù)據(jù)來(lái)自包括多普勒雷達(dá)系統(tǒng)、氣候衛(wèi)星、浮標(biāo)網(wǎng)絡(luò)和浮標(biāo)站、驗(yàn)潮儀、實(shí)時(shí)氣候站、船只和飛機(jī)等多種數(shù)據(jù)源。隨著數(shù)據(jù)需求度的提升,迫切需要新方法以使決策者和行業(yè)人員快速、有效地獲取到相關(guān)數(shù)據(jù)。NOAA大數(shù)據(jù)項(xiàng)目的合作機(jī)構(gòu)將創(chuàng)建開(kāi)放平臺(tái),以使私有行業(yè)、學(xué)術(shù)界和個(gè)體創(chuàng)新者通過(guò)云訪問(wèn)到前所未有的大規(guī)模數(shù)據(jù)。亞馬遜、谷歌、IBM、微軟以及開(kāi)放云聯(lián)盟將共同探索方法以挖掘NOAA環(huán)境數(shù)據(jù)的巨大價(jià)值,支撐數(shù)據(jù)驅(qū)動(dòng)的經(jīng)濟(jì)發(fā)展[1]。

歐盟繼第七框架計(jì)劃資助的GRDI 2020項(xiàng)目、“地平線2020”(Horizon2020)科研和創(chuàng)新計(jì)劃之后,正在研究制定《數(shù)據(jù)價(jià)值鏈戰(zhàn)略計(jì)劃》,包括開(kāi)放數(shù)據(jù)、云計(jì)算、高性能計(jì)算和科學(xué)知識(shí)開(kāi)放獲取四大戰(zhàn)略,研究數(shù)據(jù)價(jià)值鏈戰(zhàn)略因素,開(kāi)發(fā)新型信息化基礎(chǔ)設(shè)施(科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施),即管理數(shù)字化的、聯(lián)網(wǎng)的科學(xué)數(shù)據(jù)環(huán)境,促進(jìn)公共資助科研實(shí)驗(yàn)成果和數(shù)據(jù)的使用及再利用等內(nèi)容,以實(shí)現(xiàn)科研數(shù)據(jù)的最大價(jià)值。英國(guó)發(fā)布《英國(guó)數(shù)據(jù)能力發(fā)展戰(zhàn)略規(guī)劃》[2],成立了信息經(jīng)濟(jì)委員會(huì),作為一個(gè)跨學(xué)術(shù)界、企業(yè)界和政府的合作部門,保障規(guī)劃的實(shí)施和促進(jìn)數(shù)據(jù)能力戰(zhàn)略方針制定,充分利用數(shù)據(jù),緊抓數(shù)據(jù)機(jī)遇,使英國(guó)成為大數(shù)據(jù)分析的世界領(lǐng)跑者。日本強(qiáng)調(diào)“提升日本競(jìng)爭(zhēng)力,大數(shù)據(jù)應(yīng)用不可或缺”,正式公布了新IT戰(zhàn)略《創(chuàng)建最尖端IT國(guó)家宣言》,全面闡述了2013~2020年期間以發(fā)展開(kāi)放公共數(shù)據(jù)和大數(shù)據(jù)為核心的日本新IT國(guó)家戰(zhàn)略,提出要把日本建設(shè)成為一個(gè)具有“世界最高水準(zhǔn)的廣泛運(yùn)用信息產(chǎn)業(yè)技術(shù)的社會(huì)”。

我國(guó)“十三五”規(guī)劃(2016-2020年)中提出:“實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略,推進(jìn)數(shù)據(jù)資源開(kāi)放共享”。大數(shù)據(jù)戰(zhàn)略作為國(guó)家“十三五”十四大戰(zhàn)略之一。2015年8月國(guó)務(wù)院發(fā)布的《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》中,強(qiáng)調(diào)了發(fā)展科學(xué)大數(shù)據(jù),積極推動(dòng)由國(guó)家公共財(cái)政支持的公益性科研活動(dòng)獲取和產(chǎn)生的科學(xué)數(shù)據(jù)逐步開(kāi)放共享,構(gòu)建科學(xué)大數(shù)據(jù)國(guó)家重大基礎(chǔ)設(shè)施,實(shí)現(xiàn)對(duì)國(guó)家重要科技數(shù)據(jù)的權(quán)威匯集、長(zhǎng)期 保存、集成管理和全面共享。面向經(jīng)濟(jì)社會(huì)發(fā)展需求,發(fā)展科學(xué)大數(shù)據(jù)應(yīng)用服務(wù)中心,支持解決經(jīng)濟(jì)社會(huì)發(fā)展和國(guó)家安全重大問(wèn)題。

2.著力推動(dòng)科學(xué)數(shù)據(jù)共享及數(shù)據(jù)開(kāi)放

一些國(guó)際性組織和國(guó)家制定和發(fā)布了與數(shù)據(jù)共享或數(shù)據(jù)開(kāi)放有關(guān)的政策。1959年,包括美國(guó)、英國(guó)、蘇聯(lián)、法國(guó)、日本、阿根廷、南非等在內(nèi)的12個(gè)國(guó)家簽署了《南極條約》,其中明確規(guī)定了各國(guó)的南極科學(xué)考察和成果數(shù)據(jù)對(duì)條約成員國(guó)共享的政策?!边€有《生物多樣性公約》、《奧爾胡斯公約》等不同學(xué)科領(lǐng)域一些類似條款的國(guó)際條約。1996 年,國(guó)際人類基因組計(jì)劃的科學(xué)家和他們的資助機(jī)構(gòu)共同提出了“百慕大原則”(也稱為“百慕大協(xié)議”)。根據(jù)此原則,所有參與此計(jì)劃的實(shí)驗(yàn)室或中心都應(yīng)把長(zhǎng)度在1KB以上的堿基對(duì)片段在產(chǎn)生后的24 小時(shí)內(nèi)發(fā)布出來(lái),完成注釋后的基因測(cè)序數(shù)據(jù)也必須立即公布,這些數(shù)據(jù)都要提交到公共的基因數(shù)據(jù)庫(kù),確保公眾出于研發(fā)目的能夠免費(fèi)地獲取這些數(shù)據(jù),從而保證社會(huì)最大限度地受益。作為地球觀測(cè)領(lǐng)域最大和最權(quán)威的政府間國(guó)際組織,GEO(Group on Earth Observations)制定并通過(guò)了一個(gè)建立全球地球綜合觀測(cè)系統(tǒng)(Global Earth Observation System of Systems,GEOSS)的十年執(zhí)行計(jì)劃。2003年,在德國(guó)馬普學(xué)會(huì)發(fā)起并召開(kāi)的柏林會(huì)議上制定并發(fā)布了《關(guān)于自然科學(xué)與人文科學(xué)知識(shí)的開(kāi)放存取柏林宣言》,此宣言中規(guī)定開(kāi)放獲取的對(duì)象包括科研論文、支持科研成果的原始數(shù)據(jù)及其元數(shù)據(jù)等。世界經(jīng)濟(jì)合作與發(fā)展組織(Organization for Economic Cooperation and Development, OECD)認(rèn)為政府和研究機(jī)構(gòu)應(yīng)該對(duì)數(shù)據(jù)、信息和知識(shí)的獲取條件予以更多的關(guān)注;2004 年OECD的成員國(guó)簽署和發(fā)布了一個(gè)宣言,提出要建立公共資金資助的研究數(shù)據(jù)的獲取機(jī)制;為了指導(dǎo)成員國(guó)制定、完善科學(xué)數(shù)據(jù)共享政策,OECD于2006 年頒布了《關(guān)于公共資金資助的研究數(shù)據(jù)獲取的原則與指南》。

1996年,美國(guó)行政管理和預(yù)算局發(fā)布的A-130 通告(名稱為Management of Federal Information Resources)確立了數(shù)據(jù)共享政策的總體框架。據(jù)此,聯(lián)邦政府各科研資助機(jī)構(gòu)(例如NASA、NIH、NSF等)分別制定了要求資助項(xiàng)目開(kāi)放數(shù)據(jù)的具體政策。2013 年5 月9 日,為了進(jìn)一步推動(dòng)數(shù)據(jù)開(kāi)放并提升其水平,白宮又頒布了《開(kāi)放數(shù)據(jù)政策——將信息作為資產(chǎn)管理》,在上述相關(guān)政策與法規(guī)的指導(dǎo)下,美國(guó)建立了由多個(gè)數(shù)據(jù)中心(例如:NASA為其資助產(chǎn)生的科學(xué)數(shù)據(jù)支持建立的“分布式、活動(dòng)的數(shù)據(jù)中心群”、NIH支持建設(shè)的蛋白質(zhì)數(shù)據(jù)庫(kù)、NSF資助建設(shè)的DataNet Partners等)聯(lián)合形成的國(guó)家級(jí)數(shù)據(jù)基礎(chǔ)設(shè)施。

歐洲國(guó)家也認(rèn)識(shí)到了數(shù)據(jù)共享的重要性。2012年 3月,歐盟發(fā)布《全球科研數(shù)據(jù)基礎(chǔ)設(shè)施:大數(shù)據(jù)的挑戰(zhàn)》報(bào)告,在全球科研數(shù)據(jù)基礎(chǔ)設(shè)施(GRDI2020)提出“科學(xué)是一項(xiàng)全球性事業(yè),而科研數(shù)據(jù)是全球的資產(chǎn)。因此,需要全球科研數(shù)據(jù)基礎(chǔ)設(shè)施來(lái)克服語(yǔ)言、政策和社會(huì)的障礙,并減少地理時(shí)空和國(guó)家間的壁壘,從而使發(fā)現(xiàn)、訪問(wèn)和利用數(shù)據(jù)更加方便”。英國(guó)研究理事會(huì)(Research Councils UK,RCUK)作為為學(xué)術(shù)研究和研究生培養(yǎng)提供資金的公共機(jī)構(gòu),于2011 年4 月發(fā)布了其數(shù)據(jù)政策的一般原則,目前RCUK下的七個(gè)理事會(huì)均已更新或發(fā)布了遵循這些一般原則的數(shù)據(jù)管理與共享政策;2011 年12 月,英國(guó)商業(yè)、創(chuàng)新與技能部(Business, Innovation & Skills, BIS)還發(fā)布了《促進(jìn)增長(zhǎng)的創(chuàng)新和科研戰(zhàn)略》,該戰(zhàn)略中強(qiáng)調(diào)了開(kāi)放數(shù)據(jù)的重要性,指出英國(guó)將通過(guò)開(kāi)放公共部門所擁有的數(shù)據(jù)、信息和研究成果來(lái)激勵(lì)創(chuàng)新,使這些數(shù)據(jù)的價(jià)值最大化;同時(shí)實(shí)施“開(kāi)放數(shù)據(jù)”項(xiàng)目,建立“數(shù)據(jù)英國(guó)”網(wǎng)站用于數(shù)據(jù)公開(kāi);利用和挖掘公開(kāi)數(shù)據(jù)的商業(yè)潛力,為英國(guó)公共部門、學(xué)術(shù)機(jī)構(gòu)等方面的創(chuàng)新發(fā)展提供“孵化環(huán)境”。

我國(guó)政府和科研人員也意識(shí)到數(shù)據(jù)共享的重要性??萍疾俊⒇?cái)政部設(shè)立平臺(tái)建設(shè)專項(xiàng),將科學(xué)數(shù)據(jù)共享納入國(guó)家科技基礎(chǔ)條件平臺(tái)。中國(guó)科學(xué)院1982年率先啟動(dòng)科學(xué)數(shù)據(jù)庫(kù)的項(xiàng)目并持續(xù)建設(shè)和共享服務(wù)至今,到“十二五”信息化專項(xiàng)明確提出“科技數(shù)據(jù)資源整合與共享工程”。為了應(yīng)對(duì)大數(shù)據(jù)時(shí)代下相關(guān)挑戰(zhàn),國(guó)家發(fā)展改革委員會(huì)和中國(guó)科學(xué)院聯(lián)合啟動(dòng)“基礎(chǔ)研究大數(shù)據(jù)服務(wù)平臺(tái)應(yīng)用示范”項(xiàng)目,探索科研數(shù)據(jù)的共享模式、突破數(shù)據(jù)分析與處理的關(guān)鍵技術(shù)、形成支持創(chuàng)新大數(shù)據(jù)服務(wù)平臺(tái),并以天文和材料基因組進(jìn)行示范。

3.科學(xué)數(shù)據(jù)出版成為共識(shí)和趨勢(shì)

隨著數(shù)據(jù)引用技術(shù)的發(fā)展,期刊出版政策的一個(gè)發(fā)展趨勢(shì)是除了要求有關(guān)數(shù)據(jù)的開(kāi)放共享外,還強(qiáng)調(diào)在論文和支持論文中研究結(jié)果的數(shù)據(jù)之間建立起類似于文獻(xiàn)引用關(guān)系的連接。例如,英國(guó)皇家學(xué)會(huì)目前的出版政策要求支持論文中結(jié)果的數(shù)據(jù)應(yīng)存到恰當(dāng)?shù)?、可訪問(wèn)的數(shù)據(jù)庫(kù)中(在沒(méi)有特定的機(jī)構(gòu)或?qū)W科數(shù)據(jù)庫(kù)的情況下,作者應(yīng)將他們的數(shù)據(jù)集存在一個(gè)通用的公共數(shù)據(jù)庫(kù)中。2008年《自然》雜志,率先出版了大數(shù)據(jù)???,2014年5月推出在線出版的開(kāi)放獲取雜志“科學(xué)數(shù)據(jù)”(Scientific Data),結(jié)合傳統(tǒng)期刊論文內(nèi)容和結(jié)構(gòu)化描述模式,采用同行評(píng)審、開(kāi)放獲取的新模式,發(fā)表具有科學(xué)價(jià)值的數(shù)據(jù)集描述,解決使研究數(shù)據(jù)可獲得、可引用、可發(fā)現(xiàn)、可解釋、可再利用和可重現(xiàn)的日益增長(zhǎng)需求,實(shí)現(xiàn)開(kāi)放數(shù)據(jù)共享和可重復(fù)研究結(jié)果的目標(biāo)。 Ecological archives、Earth System Science Data、Biodiversity Data Journal等期刊的數(shù)據(jù)出版成功實(shí)踐,數(shù)據(jù)論文的廣泛引用,充分說(shuō)明了國(guó)內(nèi)外學(xué)術(shù)界同仁對(duì)數(shù)據(jù)論文的高度認(rèn)可,科學(xué)數(shù)據(jù)出版成為科學(xué)大數(shù)據(jù)發(fā)展趨勢(shì)[2]。

結(jié)合我國(guó)科學(xué)數(shù)據(jù)開(kāi)放共享的進(jìn)展及制約因素,我國(guó)以數(shù)據(jù)論文(Data paper)的方式出版科學(xué)數(shù)據(jù)的實(shí)踐,明確出版流程、建立標(biāo)準(zhǔn)體系、構(gòu)建出版系統(tǒng)、創(chuàng)立數(shù)據(jù)存儲(chǔ)庫(kù),成功主辦了國(guó)家網(wǎng)絡(luò)連續(xù)型出版物的首批試點(diǎn)刊物《中國(guó)科學(xué)數(shù)據(jù)》(China Scientific Data,國(guó)內(nèi)統(tǒng)一連續(xù)出版物號(hào)CN116035/N),建設(shè)數(shù)據(jù)出版平臺(tái)和科學(xué)數(shù)據(jù)存儲(chǔ)庫(kù),面向未來(lái)數(shù)據(jù)出版全面發(fā)展深度思考了數(shù)據(jù)出版生態(tài)系統(tǒng)的建設(shè),推動(dòng)我國(guó)科學(xué)數(shù)據(jù)出版的健康發(fā)展。

三、科學(xué)大數(shù)據(jù)應(yīng)用

科學(xué)大數(shù)據(jù)時(shí)代已經(jīng)興起,科學(xué)大數(shù)據(jù)驅(qū)動(dòng)各學(xué)科新發(fā)現(xiàn)的研究模式和引導(dǎo)案例正在探索之中。

國(guó)際重大科技基礎(chǔ)設(shè)施在科研活動(dòng)信息化方面投入巨大,也產(chǎn)生了良好的效果。2016年美國(guó)激光干涉引力波觀測(cè)臺(tái)(Laser Interferometer Gravitational-Wave Observatory,簡(jiǎn)稱LIGO)宣布直接觀測(cè)到引力波,驗(yàn)證愛(ài)因斯坦百年預(yù)言,其中數(shù)據(jù)和計(jì)算系統(tǒng)(Data and Computing Systems,DSC)作為L(zhǎng)IGO探測(cè)器由10個(gè)子系統(tǒng)之一,負(fù)責(zé)LIGO探測(cè)數(shù)據(jù)的采集、分配和計(jì)算,LIGO設(shè)計(jì)的網(wǎng)絡(luò)與采集控制通道超過(guò)30萬(wàn)個(gè),其中大約3000個(gè)快速通道。獲取的數(shù)據(jù)不但包括激光干涉儀引力波探測(cè)器輸出的數(shù)據(jù),還包括了各種獨(dú)立的對(duì)引力波探測(cè)器的環(huán)境和設(shè)備狀態(tài)進(jìn)行監(jiān)控的探測(cè)器、記錄儀等,對(duì)諸如溫度﹑氣壓﹑風(fēng)力﹑大雨﹑冰雹﹑地表震動(dòng)﹑聲響﹑電場(chǎng)﹑磁場(chǎng)等環(huán)境條件進(jìn)行監(jiān)測(cè)的數(shù)據(jù), LIGO公布的GW150914事件,在線觸發(fā)延遲是大約3 min,用了5個(gè)離線分析流水線,消耗的CPU時(shí)間大約是5千萬(wàn)小時(shí)。為有效處理如此巨大的數(shù)據(jù)量,LIGO采用了專用計(jì)算、機(jī)動(dòng)計(jì)算、分配式計(jì)算、自愿者計(jì)算四種模式來(lái)構(gòu)建計(jì)算資源體系,以滿足科學(xué)家對(duì)高通量計(jì)算資源的不同需求。

美國(guó)宇航局Armstrong飛行研究中心在開(kāi)展太空探索、太空作戰(zhàn)、科學(xué)發(fā)現(xiàn)和航空研究與發(fā)展中發(fā)揮著至關(guān)重要的作用。Armstrong飛行研究中心地球科學(xué)數(shù)據(jù)和信息服務(wù)部分布式存檔中心(GES DISC DAAC,Goddard Earth Sciences Data and Information Services Center Distributed Active Achieved Data Center)通過(guò)提供數(shù)據(jù)以及相關(guān)服務(wù)來(lái)使用戶能夠全面了解全球氣候資料的科學(xué)性、教育性及應(yīng)用潛力,負(fù)責(zé)高層大氣、大氣動(dòng)力學(xué)、全球降水、全球生物圈、海洋生物圈、海洋動(dòng)力、太陽(yáng)輻射等方面的數(shù)據(jù)接收、處理、存檔、共享和服務(wù)。

在高能物理領(lǐng)域,大數(shù)據(jù)幫助科研人員在高能物理試驗(yàn)中發(fā)現(xiàn)新的粒子或驗(yàn)證新的模型,大亞灣中微子實(shí)驗(yàn)項(xiàng)目研究人員對(duì)實(shí)驗(yàn)第一階段產(chǎn)生的15TB海量數(shù)據(jù)進(jìn)行刻度、修正和數(shù)據(jù)分析,發(fā)現(xiàn)了一種新的中微子振蕩模式,并精確測(cè)量到其振蕩幾率,被《科學(xué)》雜志評(píng)選為2012年度十大科學(xué)突破。

在核能及核技術(shù)應(yīng)用領(lǐng)域,科學(xué)大數(shù)據(jù)在先進(jìn)核能系統(tǒng)設(shè)計(jì)和現(xiàn)有核電站運(yùn)維中提供全生命周期的數(shù)據(jù)支持。如中科院核能安全技術(shù)研究所圍繞先進(jìn)核能系統(tǒng)設(shè)計(jì)建成了世界首個(gè)綜合性核能領(lǐng)域數(shù)據(jù)庫(kù)[3],提供核設(shè)計(jì)、材料性能預(yù)測(cè)、可靠性分析等數(shù)據(jù)資源及二十余種在線分析與定制服務(wù),結(jié)合其自主研發(fā)的超級(jí)蒙特卡羅核計(jì)算仿真軟件系統(tǒng)SuperMC[4]和可靠性/概率安全評(píng)價(jià)系統(tǒng)RiskA,在國(guó)際熱核聚變實(shí)驗(yàn)堆ITER和中國(guó)鉛基反應(yīng)堆CLEAR物理和工程設(shè)計(jì)中發(fā)揮重要作用。美國(guó)能源部支持的CASL計(jì)劃中,為對(duì)現(xiàn)有二代壓水堆核電站進(jìn)行延壽和提升功率,基于全堆芯模擬數(shù)據(jù)和30多年的電站運(yùn)維數(shù)據(jù),利用超級(jí)計(jì)算機(jī)Titan對(duì)反應(yīng)堆性能進(jìn)行預(yù)測(cè)分析,近70%的機(jī)組現(xiàn)已通過(guò)美國(guó)核管會(huì)的審批。中核集團(tuán)利用核電站海量運(yùn)維數(shù)據(jù),建立了核電站運(yùn)維部件可靠性預(yù)測(cè)大數(shù)據(jù)平臺(tái);中廣核集團(tuán)與清華大學(xué)簽訂了《核電大數(shù)據(jù)治理體系框架》,旨在推動(dòng)核電全生命周期數(shù)據(jù)的模型化、標(biāo)準(zhǔn)化和智能化。

在全球變化領(lǐng)域,其數(shù)據(jù)類型多種多樣,時(shí)間序列超長(zhǎng),并且是地球科學(xué)、環(huán)境科學(xué)、生命科學(xué)、社會(huì)科學(xué)和計(jì)算科學(xué)等多學(xué)科交叉的研究,預(yù)計(jì)到2020年,基于地球系統(tǒng)數(shù)值模式的全球變化預(yù)測(cè)資料的數(shù)據(jù)量將達(dá)到50PB,遙感衛(wèi)星數(shù)據(jù)也將達(dá)到50PB,其他類型數(shù)據(jù)將達(dá)到2PB,到2030年將分別上升為185PB、150PB和5PB;這些海量跨領(lǐng)域的數(shù)據(jù)為理解氣候系統(tǒng)行為和發(fā)展、評(píng)價(jià)地球系統(tǒng)模式、探尋極端天氣事件成因以及理解氣候長(zhǎng)期變化趨勢(shì)原因提供了基礎(chǔ),也會(huì)激發(fā)全球氣候變化中許多新發(fā)現(xiàn)和對(duì)機(jī)理的新認(rèn)識(shí)。

在地球科學(xué)領(lǐng)域,數(shù)字地球作為利用海量、多分辨率、多時(shí)相、多類型對(duì)地觀測(cè)數(shù)據(jù)和社會(huì)經(jīng)濟(jì)數(shù)據(jù)及其分析算法和模型構(gòu)建的虛擬地球,正在其詮釋、理解、預(yù)測(cè)全球變化的趨勢(shì)、驅(qū)動(dòng)力、過(guò)程及其相互作用,為全球可持續(xù)發(fā)展提供知識(shí)支撐,在此過(guò)程中涉及的數(shù)據(jù)規(guī)模已達(dá)EB級(jí),類型包含圖像、視頻、文檔、地理位置信息以及對(duì)地觀測(cè)、科學(xué)模型、社會(huì)、經(jīng)濟(jì)等。

在生命科學(xué)領(lǐng)域,隨著千人基因組計(jì)劃、癌癥基因組圖譜研究等項(xiàng)目的不斷實(shí)施以及新一代測(cè)序技術(shù)的成熟發(fā)展,產(chǎn)生了海量的“高維災(zāi)難性數(shù)據(jù)”,科研人員等可利用海量的生物數(shù)據(jù)發(fā)現(xiàn)生命運(yùn)行的機(jī)制,比如說(shuō)癌癥基因組圖譜對(duì)所有100種癌癥的基因組測(cè)序,并匯出腫瘤基因圖譜,以逐一解開(kāi)所有癌癥的基因密碼,提供個(gè)性化治療方案,因此可說(shuō)生命科學(xué)研究逐步轉(zhuǎn)向數(shù)據(jù)驅(qū)動(dòng)的科學(xué)發(fā)現(xiàn)模式。

2015年11月,由美國(guó)約翰·霍普金斯大學(xué)領(lǐng)導(dǎo)的多學(xué)科研究團(tuán)隊(duì)利用大數(shù)據(jù)進(jìn)行慢性病的個(gè)性化管理研究,并且取得突破性成果。研究人員通過(guò)設(shè)計(jì)統(tǒng)計(jì)規(guī)則系統(tǒng)來(lái)實(shí)現(xiàn)計(jì)算機(jī)分析大量病案以及識(shí)別有相似病情的患者群體。此外,通過(guò)學(xué)習(xí)能夠預(yù)測(cè)疾病好轉(zhuǎn)或惡化特定模式的病癥和治療方案,該研究成果能夠幫助醫(yī)生選取正確的個(gè)性化診療方案、更迅速準(zhǔn)確地診斷、治療如紅斑性狼瘡、類風(fēng)濕性關(guān)節(jié)炎等慢性疾病。

研究人員通過(guò)設(shè)計(jì)統(tǒng)計(jì)規(guī)則系統(tǒng)來(lái)實(shí)現(xiàn)計(jì)算機(jī)分析大量病案以及識(shí)別有相似病情的患者群體。此外,通過(guò)學(xué)習(xí)能夠預(yù)測(cè)疾病好轉(zhuǎn)或惡化特定模式的病癥和治療方案,該系統(tǒng)能夠幫助醫(yī)生選取正確的個(gè)性化診療方案。然后,醫(yī)生根據(jù)計(jì)算機(jī)提供的具有相似癥狀的其他患者的信息,可以將類似治療過(guò)程應(yīng)用于新患者。

德國(guó)卡爾斯魯厄理工學(xué)院(KIT)的研究人員通過(guò)對(duì)大量的鳥(niǎo)類基因數(shù)據(jù)分析,設(shè)計(jì)出了鳥(niǎo)類進(jìn)化綜合分析的算法,繪制出迄今為止最可靠、全面的鳥(niǎo)類“生命之樹(shù)”。研究發(fā)現(xiàn),在恐龍滅絕后的1500萬(wàn)年出現(xiàn)了鳥(niǎo)類進(jìn)化大爆炸式發(fā)展,形成了今天的物種多樣性。

在天文學(xué)領(lǐng)域,英國(guó)研究機(jī)構(gòu)啟動(dòng)星系動(dòng)物園Galaxy Zoo研究平臺(tái),使得天文分類學(xué)科學(xué)研究正從小型、獨(dú)立的學(xué)術(shù)行會(huì)形態(tài)轉(zhuǎn)移到大規(guī)模、更加開(kāi)明和互聯(lián)的科學(xué)家與天文愛(ài)好者群體中,該計(jì)劃吸引了來(lái)自世界各地超過(guò)10萬(wàn)的天文愛(ài)好者,為上百萬(wàn)個(gè)星系在線上進(jìn)行分類,使星系分類工作達(dá)到了前所未有的速度。

四、科學(xué)大數(shù)據(jù)發(fā)展的挑戰(zhàn)及思考

盡管我國(guó)已經(jīng)擁有豐富的科學(xué)數(shù)據(jù)資源,但是在這種創(chuàng)新驅(qū)動(dòng)的新模式下,數(shù)據(jù)共享和分析挖掘的問(wèn)題與挑戰(zhàn)仍然十分突出。首先,在從數(shù)據(jù)中創(chuàng)造價(jià)值工作的各階段都造成阻礙,關(guān)鍵的技術(shù)挑戰(zhàn)包括如何更好、更高效地傳輸、存儲(chǔ)、長(zhǎng)期保存、組織、發(fā)現(xiàn)和訪問(wèn)、集成、融合、分析、挖掘和可視化這些數(shù)據(jù)。其次,為了探索利用海量異構(gòu)數(shù)據(jù)資源,數(shù)據(jù)基礎(chǔ)設(shè)施必須是易使用、開(kāi)放及可擴(kuò)展的,必須支持科學(xué)數(shù)據(jù)的整個(gè)生命周期,支持?jǐn)?shù)據(jù)的整合和跨學(xué)科轉(zhuǎn)移,支持?jǐn)?shù)據(jù)驅(qū)動(dòng)的創(chuàng)新發(fā)展新模式。第三,在保障隱私及國(guó)家安全的前提下最大限度地促進(jìn)數(shù)據(jù)的流動(dòng)性和可獲取性的數(shù)據(jù)開(kāi)放政策至關(guān)重要。最后,需要解決掌握科研大數(shù)據(jù)開(kāi)發(fā)利用技術(shù)和數(shù)據(jù)驅(qū)動(dòng)的創(chuàng)新發(fā)展模式和方法人才不足的挑戰(zhàn)。

一個(gè)國(guó)家的科學(xué)研究和創(chuàng)新發(fā)展在國(guó)際上的地位將取決于其在科研數(shù)據(jù)的優(yōu)勢(shì)上及將數(shù)據(jù)轉(zhuǎn)換為信息和知識(shí)的能力。為了加快我國(guó)科技創(chuàng)新的步伐,建議我國(guó)政府也從國(guó)家戰(zhàn)略的高度對(duì)此加以重視,推動(dòng)建立起良性的科研數(shù)據(jù)生態(tài)系統(tǒng),促進(jìn)科研數(shù)據(jù)共享和開(kāi)發(fā)利用:

(1)制定國(guó)家科學(xué)大數(shù)據(jù)發(fā)展戰(zhàn)略。統(tǒng)籌規(guī)劃,從國(guó)家層面推進(jìn)科學(xué)大數(shù)據(jù)中長(zhǎng)期規(guī)劃和政策的實(shí)施,進(jìn)行學(xué)科布局的頂層設(shè)計(jì)。成立科學(xué)大數(shù)據(jù)國(guó)家專家委員會(huì)和科學(xué)大數(shù)據(jù)工作組。

(2)研究和制定配套的科技立法和政策。制定科技資源分類、分級(jí)的立法體系、政策和條例,政策通過(guò)推動(dòng)科研資助模式、科研成果發(fā)表和評(píng)審機(jī)制、科研人員和科研機(jī)構(gòu)激勵(lì)機(jī)制等的變革,促進(jìn)科學(xué)數(shù)據(jù)的共享和重用,促使開(kāi)放科學(xué)和開(kāi)放數(shù)據(jù)的原則被廣泛接受。

(3)建設(shè)和發(fā)展新型國(guó)家級(jí)科學(xué)大數(shù)據(jù)設(shè)施。新型國(guó)家級(jí)科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施由若干可互操作的國(guó)家級(jí)科學(xué)數(shù)據(jù)中心、數(shù)據(jù)檔案館、數(shù)字圖書(shū)館等組成,應(yīng)能支持科研數(shù)據(jù)的整個(gè)生命周期,支持大數(shù)據(jù)科學(xué)研究和多學(xué)科研究,支持?jǐn)?shù)據(jù)的跨學(xué)科轉(zhuǎn)移和開(kāi)放鏈接的數(shù)據(jù)空間,以及支持科學(xué)數(shù)據(jù)與文獻(xiàn)的互操作;促進(jìn)科研創(chuàng)新成果不斷向企業(yè)轉(zhuǎn)移轉(zhuǎn)化,帶動(dòng)國(guó)家和地方產(chǎn)業(yè)發(fā)展,形成科學(xué)大數(shù)據(jù)設(shè)施的運(yùn)行和可持續(xù)發(fā)展機(jī)制。

(4)發(fā)展大數(shù)據(jù)存儲(chǔ)、傳輸、管理、分析和共享所需要的核心技術(shù)。需要重點(diǎn)投資的技術(shù)方向包括大數(shù)據(jù)存儲(chǔ)技術(shù)、大規(guī)模數(shù)據(jù)傳輸技術(shù)、數(shù)據(jù)集成技術(shù)、工作流技術(shù)、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)處理技術(shù)、大數(shù)據(jù)挖掘技術(shù)、大規(guī)模數(shù)據(jù)可視化技術(shù)、數(shù)據(jù)長(zhǎng)期保存技術(shù)等等。

(5)積極培養(yǎng)新的專業(yè)人才及支持?jǐn)?shù)據(jù)科學(xué)的發(fā)展。培養(yǎng)包括數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師與數(shù)據(jù)工程師、數(shù)據(jù)管理員、數(shù)據(jù)檔案員等在內(nèi)的專業(yè)人才,他們對(duì)于科學(xué)數(shù)據(jù)的成功管理和利用起著關(guān)鍵作用。支持建立數(shù)據(jù)科學(xué)研究機(jī)構(gòu)、開(kāi)設(shè)數(shù)據(jù)科學(xué)相關(guān)專業(yè)和課程,以促進(jìn)數(shù)據(jù)科學(xué)基礎(chǔ)理論的發(fā)展及數(shù)據(jù)技術(shù)的研發(fā)。

(6)引導(dǎo)相關(guān)學(xué)科對(duì)新的科研方法進(jìn)行探索與利用。通過(guò)應(yīng)用示范的方式,引導(dǎo)相關(guān)學(xué)科科研人員對(duì)大數(shù)據(jù)科學(xué)研究新方法和新模式進(jìn)行探索和利用,加快相關(guān)學(xué)科領(lǐng)域科研模式轉(zhuǎn)變。同時(shí)應(yīng)加強(qiáng)對(duì)新類型研究團(tuán)體如何組建和運(yùn)轉(zhuǎn)的探索。

參考文獻(xiàn):

[1]譚鐵牛,曹凝,陳明奇等.中國(guó)科研信息化藍(lán)皮書(shū)2015[M].北京:科學(xué)出版社,2016.

[2]中國(guó)科學(xué)院條件保障與財(cái)務(wù)局,中國(guó)科學(xué)院成都文獻(xiàn)中心.信息化研究與應(yīng)用動(dòng)態(tài)[DB/OL]. http://www.cnic.cn/qkbg/xxhgzdt/.

[3]吳宜燦,胡麗琴,龍鵬程等.中國(guó)科研信息化藍(lán)皮書(shū)2015(核能信息化與虛擬核電站應(yīng)用實(shí)踐)[M].北京:科學(xué)出版社,2016:169-178.

[4]Y. Wu,Song J, Zheng H, et al. CAD-based Monte Carlo program for integrated simulation of nuclear system SuperMC [J]. Annals of Nuclear Energy, 2015(82):161-168.

(編輯:王曉明)

猜你喜歡
大數(shù)據(jù)應(yīng)用數(shù)據(jù)共享
大數(shù)據(jù)在科技新聞傳播領(lǐng)域的應(yīng)用研究
淺析電信行業(yè)大數(shù)據(jù)應(yīng)用的路徑
大數(shù)據(jù)與圖書(shū)館管理創(chuàng)新
網(wǎng)絡(luò)時(shí)代電子文件和檔案管理的探索
企業(yè)管理會(huì)計(jì)應(yīng)用大數(shù)據(jù)分析實(shí)例研究
绵阳市| 永登县| 葵青区| 宁陵县| 二手房| 东莞市| 桃园县| 恩平市| 卢湾区| 茂名市| 石林| 汨罗市| 敦化市| 太仓市| 博爱县| 赤水市| 同心县| 辽宁省| 饶河县| 邵武市| 化州市| 新邵县| 政和县| 阿鲁科尔沁旗| 德昌县| 尉犁县| 洛川县| 丘北县| 商丘市| 大港区| 茶陵县| 龙海市| 大兴区| 城口县| 大城县| 凤山县| 闸北区| 浙江省| 仙桃市| 汶川县| 永靖县|