文/本刊記者 傅宇凡
本期特邀編輯 王偉 王勝開
大數(shù)據(jù)的研究與利用是數(shù)據(jù)科學(xué)的一個(gè)重要領(lǐng)域,當(dāng)務(wù)之急,不是一哄而上的大肆炒作,而是腳踏實(shí)地地大規(guī)模開展數(shù)據(jù)科學(xué)的研究,用以提高中國信息資源開發(fā)利用的水平。
伴隨著信息技術(shù)在科學(xué)活動(dòng)中的應(yīng)用,特別是與科學(xué)行為的無間結(jié)合,科學(xué)已經(jīng)置身于大數(shù)據(jù)時(shí)代?;仡欀Z貝爾獎(jiǎng)的歷程,我們能夠看到,1981年、1998年、2013年三次諾貝爾化學(xué)獎(jiǎng),均與計(jì)算化學(xué)大數(shù)據(jù)有關(guān)。大數(shù)據(jù)為科學(xué)帶來了重大的機(jī)遇,當(dāng)所能利用的數(shù)據(jù)規(guī)模、復(fù)雜性、關(guān)聯(lián)度與價(jià)值增大時(shí),人們才能做出很多之前無法完成的事情。因此,數(shù)據(jù)規(guī)模與數(shù)據(jù)質(zhì)量是現(xiàn)代科研活動(dòng)的前提。
調(diào)研中,關(guān)于共享障礙與困難,我們收集到的最多的意見是“數(shù)據(jù)共享缺乏標(biāo)準(zhǔn)規(guī)范”。具體呈現(xiàn)有:
首先,數(shù)據(jù)重復(fù)建設(shè),各自為政:基礎(chǔ)建設(shè)是支撐國家發(fā)展的保證,國家對(duì)收集、整理基礎(chǔ)數(shù)據(jù)缺少統(tǒng)一規(guī)劃,各單位、領(lǐng)域、各學(xué)科存在各自為政的現(xiàn)象,有關(guān)資金和數(shù)據(jù)項(xiàng)目化、課題化,重復(fù)投資、短期效應(yīng)。我國沒有專門的機(jī)構(gòu)和隊(duì)伍、從國家層面來做“慢工出細(xì)活”的數(shù)據(jù)收集和整理工作,從而不斷地提高數(shù)據(jù)的質(zhì)量。
其次,缺乏數(shù)據(jù)共享政策:在數(shù)據(jù)公開與共享方面,沒有國家政策、制度與規(guī)定,缺少標(biāo)準(zhǔn)規(guī)范;實(shí)驗(yàn)室內(nèi)部、不同課題組之間也很難做到數(shù)據(jù)的充分共享。應(yīng)制定一定的政策、建立一定的機(jī)制,使國家項(xiàng)目支持、國家資金資助而產(chǎn)生的數(shù)據(jù)能成為一種“國有的”公共財(cái)產(chǎn)數(shù)據(jù)財(cái)產(chǎn),實(shí)現(xiàn)共享。
第三,共享缺少正向激勵(lì):大家都把數(shù)據(jù)握在手里不拿出來共享,主要是缺少正向激勵(lì)機(jī)制,同質(zhì)化競(jìng)爭太嚴(yán)重,使得拿著數(shù)據(jù)的一方不愿意公開數(shù)據(jù)。
第四,數(shù)據(jù)內(nèi)容挖掘不夠、數(shù)據(jù)服務(wù)不夠到位:以專利數(shù)據(jù)庫為例,只能通過專利名稱等簡單信息進(jìn)行檢索,基于內(nèi)容的挖掘不夠,不能查看基于具體內(nèi)容的專利信息。
目前,我國有兩千多所高校,其中985/211高校等研究型大學(xué)百余所,每個(gè)高校教師數(shù)以千計(jì),不同的學(xué)科申請(qǐng)不同的課題,而課題項(xiàng)目存在重復(fù)雷同情況比比皆是,但從事相關(guān)研究的課題組之間相互不了解,尤其在交叉學(xué)科。并且,各高校相關(guān)學(xué)科之間也缺乏系統(tǒng)性的交流平臺(tái)。
“這也涉及到提供數(shù)據(jù)方的評(píng)價(jià)和激勵(lì)機(jī)制。美國海洋數(shù)據(jù)質(zhì)量評(píng)價(jià)是由NODC聘用專家。NODC的數(shù)據(jù)分為五個(gè)等級(jí),等級(jí)越高,權(quán)威性越高。有一套完整規(guī)范的數(shù)據(jù)使用和共享規(guī)范?!敝袊Q蟠髮W(xué)的錢教授說。
比如,美國環(huán)保局的觀測(cè)數(shù)據(jù),經(jīng)過質(zhì)量控制后也是及時(shí)發(fā)布到網(wǎng)上供研究用。這些數(shù)據(jù)主要是政府機(jī)構(gòu)出資但是由各類研究機(jī)構(gòu)和人員具體制造的,有很多研究性的數(shù)據(jù)成果,最后是私人出資制造的數(shù)據(jù)。
當(dāng)然,國內(nèi)科研數(shù)據(jù)共享不理想的背后原因,也還有研究成果如何認(rèn)定與成果被抄襲的顧慮。喬治亞理工學(xué)院的胡泳濤介紹說,“在美國,比較難處理的,是政府資助的課題完成后的數(shù)據(jù),一般在項(xiàng)目合同里也會(huì)要求數(shù)據(jù)上交和分享,有時(shí)因?yàn)樨?cái)力不足,共享不夠,但是,如果寫信索取,沒有人會(huì)不給,原因是研究人員需要得到認(rèn)可?!辈⑶?,私人出資制造的公益性的研究成果數(shù)據(jù),出資者更愿意公開和分享數(shù)據(jù),因?yàn)槟且彩撬鲑Y的目的。
建立數(shù)據(jù)共享平臺(tái),向社會(huì)公眾開放科技信息資源,促進(jìn)科研創(chuàng)新成果不斷向企業(yè)轉(zhuǎn)移轉(zhuǎn)化,帶動(dòng)國家和地方產(chǎn)業(yè)發(fā)展。
針對(duì)現(xiàn)狀,專業(yè)人士分析認(rèn)為,當(dāng)前科研數(shù)據(jù)共享首先需要從頂層設(shè)計(jì)著手,統(tǒng)一標(biāo)準(zhǔn)規(guī)范,建立開放共享的機(jī)制,尤其是基礎(chǔ)科學(xué)數(shù)據(jù)的開放;其次,需建立第三方評(píng)價(jià)機(jī)構(gòu),對(duì)數(shù)據(jù)進(jìn)行質(zhì)量控制;第三,大數(shù)據(jù)開放共享,也應(yīng)建立一套分級(jí)規(guī)范,對(duì)數(shù)據(jù)進(jìn)行分級(jí)處理,對(duì)使用數(shù)據(jù)的科研人員進(jìn)行界定與區(qū)分;第四,數(shù)據(jù)格式交由市場(chǎng)決定,不同專業(yè)的人員發(fā)明了不同的數(shù)據(jù)格式,便于數(shù)據(jù)共享,是自然產(chǎn)生的一個(gè)過程,最得到認(rèn)可的數(shù)據(jù)格式留存了下來。第五,未來大數(shù)據(jù)挖掘應(yīng)引入市場(chǎng)機(jī)制,以服務(wù)業(yè)的形態(tài)進(jìn)入科研活動(dòng)。
無處不在的IT,進(jìn)入以云計(jì)算和大數(shù)據(jù)為特征的科研信息化
2011 年,澳大利亞發(fā)布了題為《云計(jì)算戰(zhàn)略方向》的咨詢報(bào)告,旨在為相關(guān)機(jī)構(gòu)合理化使用信息通信技術(shù)(Information CommunicationTechnology,ICT)資源和因地制宜地采用云計(jì)算開辟一條途徑。各機(jī)構(gòu)需要認(rèn)識(shí)到云計(jì)算只是眾多的資源利用模式之一,無需完全替代現(xiàn)有的資源利用模式。澳大利亞首個(gè)國家科研云(NeCTAR)已于2012 年2 月正式上線,并在兩個(gè)月內(nèi)為500 多位用戶提供了云服務(wù)。
2011 年8 月,歐盟提出《歐洲科學(xué)云計(jì)算基礎(chǔ)設(shè)施戰(zhàn)略規(guī)劃》,該規(guī)劃提出了2020 年歐洲科學(xué)云計(jì)算基礎(chǔ)設(shè)施的發(fā)展愿景,屆時(shí)歐洲所有學(xué)科的科學(xué)家將優(yōu)先選擇這一基礎(chǔ)設(shè)施進(jìn)行數(shù)據(jù)存儲(chǔ)、訪問、處理和分析,它將擁有海量的數(shù)據(jù)和開源工具,擁有可以從任何計(jì)算機(jī)、智能電話或平板終端訪問和使用的無限計(jì)算能力?!暗仄骄€2020”戰(zhàn)略規(guī)劃計(jì)劃投入巨資支持建設(shè)具備無限計(jì)算和數(shù)據(jù)處理能力的網(wǎng)格和云計(jì)算基礎(chǔ)設(shè)施。
美國也通過“麥哲倫計(jì)劃”(Magellan)全方位評(píng)估了云計(jì)算在科研創(chuàng)新中的作用,并指出通過在云應(yīng)用軟件庫、編程工具、客戶端工具、云安全和用戶培訓(xùn)等方面的努力,可以建設(shè)更加適用于科研任務(wù)的科技云。
高性能計(jì)算能力競(jìng)爭成為常態(tài)高性能計(jì)算能力快速增長,運(yùn)算速度日新月異。目前,開發(fā)具備百億億次計(jì)算能力的高性能計(jì)算機(jī)正成為各國及其科研機(jī)構(gòu)新的追求目標(biāo)。
2013年11月18日,國際TOP500組織公布了最新全球超級(jí)計(jì)算機(jī)500強(qiáng)排行榜,中國國防科技大學(xué)研制的“天河二號(hào)”以每秒33.86千萬億次、超過第二名近一倍的浮點(diǎn)運(yùn)算速度輕松登頂。排在第二的是美國的“泰坦”號(hào),運(yùn)算速度為每秒17.59萬億次。如果每人每秒鐘進(jìn)行一次計(jì)算,那么13億人同時(shí)用計(jì)算機(jī)算上1000年,才相當(dāng)于“天河二號(hào)”運(yùn)算一小時(shí)。這臺(tái)每秒運(yùn)算次數(shù)以千萬億次計(jì)的“超級(jí)計(jì)算機(jī)”,日前蟬聯(lián)“全球最快計(jì)算機(jī)”桂冠。
我國預(yù)計(jì)2015年底前將研制成功10億億次級(jí)的天河高效能計(jì)算機(jī)。
歐洲先進(jìn)計(jì)算合作伙伴(Partnership for Advanced Computing inEurope,PRACE)計(jì)劃部署一個(gè)泛歐Peta-Scale生態(tài)系統(tǒng),并計(jì)劃在2020 年之前達(dá)到Exa-Scale 的運(yùn)算性能?!皻W洲百億億次級(jí)軟件計(jì)劃(European Exascale Software Initiative,EESI)”將聯(lián)合產(chǎn)業(yè)界和政府機(jī)構(gòu),幫助用戶在未來十年內(nèi)從千萬億次超級(jí)計(jì)算提升至百億億次超級(jí)計(jì)算。
美國能源部的“先進(jìn)科學(xué)計(jì)算研究(Advanced ScientificComputing Research,ASCR)”計(jì)劃也致力于解決數(shù)據(jù)密集型科學(xué)和百億億次計(jì)算面臨的問題。
1982年起,中國科學(xué)院在國內(nèi)率先提出了建設(shè)科學(xué)數(shù)據(jù)庫的設(shè)想,旨在將專業(yè)數(shù)據(jù)庫利用不斷發(fā)展的計(jì)算機(jī)技術(shù)、數(shù)據(jù)庫技術(shù)和網(wǎng)絡(luò)建設(shè)實(shí)現(xiàn)集成和共建共享,開國內(nèi)科研數(shù)據(jù)共享的先河。三十多年來,各類科學(xué)數(shù)據(jù)庫及平臺(tái)紛紛建立,在資源建設(shè)、標(biāo)準(zhǔn)規(guī)范及應(yīng)用和共享服務(wù)環(huán)境等各方面都取得了顯著的成績。但總體上看,國內(nèi)科研數(shù)據(jù)的質(zhì)量及數(shù)據(jù)利用水平上,與國外相比,仍有差距。
“大數(shù)據(jù)的研究與利用是數(shù)據(jù)科學(xué)的一個(gè)重要領(lǐng)域,建立在多年來許多科學(xué)家和技術(shù)專家所獲得的一系列數(shù)據(jù)科學(xué)成果之上,不是一個(gè)可以隨意炒作的概念。當(dāng)務(wù)之急,不是一哄而上的大肆炒作,而是腳踏實(shí)地地大規(guī)模開展數(shù)據(jù)科學(xué)的研究,用以提高中國信息資源開發(fā)利用的水平?!眹鴦?wù)院信息辦專委會(huì)副主任周宏仁說。
北京科技大學(xué)新金屬材料國家重點(diǎn)實(shí)驗(yàn)室建設(shè)了國家材料環(huán)境腐蝕平臺(tái)(http://www.ecorr.org/),在全國選擇60個(gè)點(diǎn),收集我國境內(nèi)材料腐蝕方面的數(shù)據(jù)。該平臺(tái)上共享大量的基礎(chǔ)數(shù)據(jù),在國內(nèi)應(yīng)用相當(dāng)廣泛。但即便如此,也仍然需要與國外的研究機(jī)構(gòu)建立共享數(shù)據(jù),大量材料研究數(shù)據(jù)來自國外。
北京科技大學(xué)新金屬材料材料重點(diǎn)實(shí)驗(yàn)室負(fù)責(zé)人認(rèn)為:“計(jì)算模擬準(zhǔn)不準(zhǔn)取決于數(shù)據(jù)準(zhǔn)不準(zhǔn),目前實(shí)驗(yàn)室之所以要買國外的數(shù)據(jù),是由于我們國家尚無此方面的戰(zhàn)略聯(lián)盟,沒有一個(gè)機(jī)構(gòu)能夠收集完整的數(shù)據(jù),基本各自為戰(zhàn),大的數(shù)據(jù)聚集不起來,形成不了規(guī)模效應(yīng)。”更為被動(dòng)的是,許多數(shù)據(jù)來自美國的數(shù)據(jù)庫和相關(guān)網(wǎng)站,2013年底美國政府“停擺”,導(dǎo)致學(xué)校的部分科學(xué)研究也出現(xiàn)“停擺”。
該重點(diǎn)實(shí)驗(yàn)室的相關(guān)負(fù)責(zé)人認(rèn)為:“國家級(jí)學(xué)科基礎(chǔ)數(shù)據(jù)的建設(shè)依靠一、兩個(gè)單位的力量是不夠的,需要國家的整體投入。”他建議可以通過三個(gè)途徑來整理數(shù)據(jù):集中收集常用的傳統(tǒng)數(shù)據(jù)、基礎(chǔ)數(shù)據(jù);不斷補(bǔ)充、完善新的數(shù)據(jù);前期投入研究產(chǎn)生的數(shù)據(jù)。
的確,在大數(shù)據(jù)成為熱炒概念時(shí),最容易出現(xiàn)的問題是低水平重復(fù)建設(shè),各自為戰(zhàn),因此,頂層設(shè)計(jì)在這時(shí)顯得尤其重要。
提高信息資源開發(fā)利用的水平,是科研工作者一致的需求。在面向高??蒲行畔⒒恼{(diào)研過程中,我們發(fā)現(xiàn)幾個(gè)突出的問題受到高校的關(guān)注:第一,希望從國家層面統(tǒng)籌協(xié)調(diào);第二,統(tǒng)一標(biāo)準(zhǔn)規(guī)范;第三,統(tǒng)一評(píng)價(jià)機(jī)制;第四,建立信息技術(shù)人才隊(duì)伍激勵(lì)機(jī)制。這些內(nèi)容與頂層設(shè)計(jì)不無關(guān)系。
那么如何進(jìn)行頂層設(shè)計(jì)?眾多專家提出了自己的思路。來自信息科學(xué)、地理學(xué)、氣候?qū)W、高能物理學(xué)、天文學(xué)、生物信息學(xué)、農(nóng)學(xué)、醫(yī)學(xué)、中醫(yī)學(xué)、情報(bào)與文獻(xiàn)學(xué)、科技政策與管理學(xué)等學(xué)科領(lǐng)域的46位專家在關(guān)于“數(shù)據(jù)密集時(shí)代的科研信息化”的會(huì)議上,就如何推動(dòng)我國數(shù)據(jù)密集時(shí)代開展科研信息化研究,如何建立我國的科研信息化政策法規(guī)、人才隊(duì)伍等提出如下建設(shè)性意見:
1. 在國家有關(guān)部門設(shè)立國家層面的科研信息化咨詢專家組,組織制定國家科研信息化戰(zhàn)略規(guī)劃;
2. 針對(duì)當(dāng)前數(shù)據(jù)密集時(shí)代的科技研究的新需求、新特點(diǎn)和新技術(shù)、新政策等問題,建議科技部、基金委、中國科學(xué)院等部門部署國家層面的科研信息化研究計(jì)劃,加大對(duì)科研信息化基礎(chǔ)設(shè)施和應(yīng)用的投入;
4. 建議將數(shù)據(jù)科學(xué)的人才培養(yǎng)納入研究生培養(yǎng)體系,同時(shí)將數(shù)據(jù)人才的崗位納入國家相關(guān)崗位體系,為提升國家科研信息化水平培養(yǎng)儲(chǔ)備人才;
5. 制定《科學(xué)數(shù)據(jù)資源共享?xiàng)l例》及相關(guān)配套政策,建立數(shù)據(jù)共享平臺(tái),向社會(huì)公眾開放科技信息資源,促進(jìn)科研創(chuàng)新成果不斷向企業(yè)轉(zhuǎn)移轉(zhuǎn)化,帶動(dòng)國家和地方產(chǎn)業(yè)發(fā)展。
業(yè)界廣泛認(rèn)同,2014年的中國互聯(lián)網(wǎng),大數(shù)據(jù)已經(jīng)從幕后走到臺(tái)前,中國互聯(lián)網(wǎng)協(xié)會(huì)副理事長、國務(wù)院信息化領(lǐng)導(dǎo)小組咨詢專家委員會(huì)委員高新民認(rèn)為:“當(dāng)前已具備從海量信息中提取有價(jià)值數(shù)據(jù)的能力,將數(shù)據(jù)信息流動(dòng)起來,交換起來,服務(wù)于實(shí)體?!贝髷?shù)據(jù)已經(jīng)成為2014年中國互聯(lián)網(wǎng)的一大期待,相信在國家戰(zhàn)略層面的重視及各界的共同努力下,科研大數(shù)據(jù)將會(huì)真正地流動(dòng)起來,交換起來,培養(yǎng)出新一代跨學(xué)科新型教學(xué)人才、數(shù)據(jù)科學(xué)家,推動(dòng)數(shù)據(jù)科學(xué)的發(fā)展,提升我國科技創(chuàng)新能力。