滿(mǎn) 芮 王 健
(中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081)
?
·理論探索·
大數(shù)據(jù)時(shí)代科學(xué)數(shù)據(jù)元數(shù)據(jù)的開(kāi)放與共享
滿(mǎn) 芮 王 健
(中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081)
在當(dāng)今大數(shù)據(jù)的時(shí)代背景下,數(shù)據(jù)已經(jīng)成為各個(gè)科研領(lǐng)域不可缺少的元素之一,而科學(xué)數(shù)據(jù)元數(shù)據(jù)是信息資源的核心??茖W(xué)數(shù)據(jù)元數(shù)據(jù)的開(kāi)放與共享是各個(gè)領(lǐng)域都急需面對(duì)的問(wèn)題,關(guān)乎國(guó)家的發(fā)展,社會(huì)經(jīng)濟(jì)的進(jìn)步,關(guān)乎科技領(lǐng)域的深度。本文就大數(shù)據(jù)時(shí)代科學(xué)數(shù)據(jù)元數(shù)據(jù)的開(kāi)放共享問(wèn)題進(jìn)行探究,為我國(guó)科學(xué)數(shù)據(jù)元數(shù)據(jù)相關(guān)的工作提供進(jìn)一步的參考。
大數(shù)據(jù);科學(xué)數(shù)據(jù);元數(shù)據(jù);開(kāi)放與共享
隨著計(jì)算機(jī)信息技術(shù)的空前發(fā)展以及科學(xué)研究對(duì)象的復(fù)雜化,產(chǎn)生了數(shù)以兆計(jì)的數(shù)據(jù),可以說(shuō)任何一個(gè)學(xué)科領(lǐng)域的數(shù)據(jù)量都可以達(dá)到上千兆。在當(dāng)今大數(shù)據(jù)環(huán)境下,如何整理、儲(chǔ)存、傳遞通訊以及長(zhǎng)時(shí)間的保存這些科學(xué)數(shù)據(jù),實(shí)現(xiàn)其開(kāi)放共享應(yīng)用,僅僅以幾套先進(jìn)的計(jì)算機(jī)設(shè)備是遠(yuǎn)遠(yuǎn)不夠的,真正需要的,是有利于開(kāi)放共享的標(biāo)準(zhǔn)規(guī)范描述科學(xué)數(shù)據(jù)元數(shù)據(jù),合理的組織體系用以數(shù)據(jù)的使用,存儲(chǔ)靈活方便,通信機(jī)制穩(wěn)定可靠,共享機(jī)制恰當(dāng)合理[1]。在此過(guò)程中,元數(shù)據(jù)的產(chǎn)生發(fā)揮了極其重要的作用,為越來(lái)越多的用戶(hù)發(fā)掘以及再利用數(shù)據(jù)提供了可靠的依據(jù)。本文就大數(shù)據(jù)時(shí)代科學(xué)數(shù)據(jù)元數(shù)據(jù)的開(kāi)放共享問(wèn)題進(jìn)行探究,為我國(guó)科學(xué)數(shù)據(jù)元數(shù)據(jù)的相關(guān)工作提供進(jìn)一步的參考。
1.1 當(dāng)前信息資源概述
如今已然全面進(jìn)入信息時(shí)代,核心即數(shù)據(jù)。電子商務(wù)的普及,社交網(wǎng)絡(luò)的全面興起,信息資源從各式各樣的終端不停地涌現(xiàn),一個(gè)大規(guī)模的應(yīng)用數(shù)據(jù)時(shí)代已經(jīng)產(chǎn)生于我們生活中?!按髷?shù)據(jù)”3個(gè)字已經(jīng)漸漸植入,大數(shù)據(jù)在各領(lǐng)域的重要性已得到認(rèn)可,但是關(guān)于其定義卻是各有見(jiàn)解?!按髷?shù)據(jù)”實(shí)則是一個(gè)抽象的概念,眾所周知的特性是數(shù)據(jù)海量。通常狀態(tài)下,大數(shù)據(jù)是指那些無(wú)法在固定時(shí)間內(nèi)用計(jì)算機(jī)技術(shù)進(jìn)行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)。由于不同領(lǐng)域的專(zhuān)家對(duì)其關(guān)注點(diǎn)不同,所以對(duì)于大數(shù)據(jù)有著不同的定義方向。但恰恰是各個(gè)方向的定義幫助我們更好地理解大數(shù)據(jù)的深刻含義。
2010年Apache Hadoop組織將大數(shù)據(jù)定義為,普通的計(jì)算機(jī)軟件無(wú)法在可接受的時(shí)間范圍內(nèi)捕捉、管理、處理的規(guī)模龐大的數(shù)據(jù)集合。在此基礎(chǔ)上的2011年5月,世界級(jí)著名咨詢(xún)機(jī)構(gòu)麥肯錫公司發(fā)布了“大數(shù)據(jù):下一個(gè)創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的前沿”,報(bào)告中對(duì)大數(shù)據(jù)的定義進(jìn)行了擴(kuò)充:大數(shù)據(jù)是指其大小超出了典型數(shù)據(jù)庫(kù)軟件的采集、存儲(chǔ)、管理和分析等能力的數(shù)據(jù)集[2]。
2013年,IBM公司在中國(guó)北京召開(kāi)的技術(shù)峰會(huì),Viktor Mayer-Sch?nberger博士[3]提出了他所理解的大數(shù)據(jù)特征:“全體”、“混雜”、“相關(guān)”。全體的意義是需要去研究與特定對(duì)象的所有數(shù)據(jù);混雜的意義是滿(mǎn)足于某一明確的主干方向,而不去深究精確性;相關(guān)的意義是對(duì)數(shù)據(jù)的認(rèn)識(shí)從因果轉(zhuǎn)為相關(guān)的關(guān)系再去研究。
1.2 概念解析
1.2.1 科學(xué)數(shù)據(jù)
科學(xué)數(shù)據(jù)并不一定是完全正確或精準(zhǔn)。舉例來(lái)說(shuō),關(guān)于相關(guān)數(shù)據(jù)的質(zhì)量,其中具有誤差的數(shù)據(jù)作為對(duì)相關(guān)測(cè)試工具偏差的校準(zhǔn)試驗(yàn)同樣具有重要意義,所以說(shuō)在某些方面,具有誤差的數(shù)據(jù)同樣是科學(xué)數(shù)據(jù)的一部分。另外,科學(xué)數(shù)據(jù)范圍很廣,一切具有科學(xué)性的數(shù)據(jù)都可以歸屬于??呻S時(shí)更新,數(shù)據(jù)根據(jù)變化而變化,當(dāng)其科學(xué)性消失,隨之也不屬于科學(xué)數(shù)據(jù)。傳統(tǒng)的文獻(xiàn)信息更新頻次相對(duì)慢很多,目前數(shù)據(jù)量的增長(zhǎng),內(nèi)容的變化也跟信息時(shí)代的生產(chǎn)和傳達(dá)方式的提高達(dá)到了前所未有的水準(zhǔn)。因?yàn)榭茖W(xué)數(shù)據(jù)的屬性具有動(dòng)態(tài)性、周期性、廣博性以及嚴(yán)密性。那究竟什么是科學(xué)數(shù)據(jù)[4]?數(shù)據(jù)是用于載荷情報(bào)的物理符號(hào),是對(duì)客觀事物的數(shù)學(xué)表示,而“科學(xué)數(shù)據(jù)”目前尚無(wú)嚴(yán)格定義。從科研體制來(lái)看,科學(xué)數(shù)據(jù)主要產(chǎn)生于假設(shè)科學(xué)中生成并與其他部分整合而成的數(shù)據(jù)。數(shù)據(jù)與科學(xué)數(shù)據(jù)的區(qū)別在于對(duì)“科學(xué)”二字的強(qiáng)調(diào),也就是可以稱(chēng)之為科學(xué)數(shù)據(jù)的一定是有相關(guān)價(jià)值的??茖W(xué)數(shù)據(jù)是人類(lèi)在科技活動(dòng)之中所需要的原始觀測(cè)數(shù)據(jù)、實(shí)驗(yàn)數(shù)據(jù)、調(diào)查數(shù)據(jù)、統(tǒng)計(jì)研究數(shù)據(jù)以及相關(guān)聯(lián)的元數(shù)據(jù)和按照需求加工的數(shù)據(jù),具有使用價(jià)值以及科學(xué)價(jià)值。它在當(dāng)今高速發(fā)展的信息時(shí)代有難以估量的潛在價(jià)值以及可開(kāi)發(fā)價(jià)值。而科學(xué)數(shù)據(jù)正是大數(shù)據(jù)的內(nèi)容之一,反之大數(shù)據(jù)這一寬泛的概念也必然包括科學(xué)數(shù)據(jù)以及元數(shù)據(jù)。
1.2.2 元數(shù)據(jù)
元數(shù)據(jù)還不是一個(gè)成熟且并不含有表意功能的數(shù)據(jù)。依據(jù)英文METADATA的前綴META-可知,意義在于“與…一起”。因此可以理解元數(shù)據(jù)的意義是一種信息的資源,或者是得到某種信息的一類(lèi)途徑。它是對(duì)數(shù)據(jù)的說(shuō)明,提供的是準(zhǔn)確理解和精確解釋數(shù)據(jù)所需的信息。學(xué)者們認(rèn)為“元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù)”或者說(shuō)“描述數(shù)據(jù)的數(shù)據(jù)”。這個(gè)概念廣泛地存在于各個(gè)領(lǐng)域中對(duì)數(shù)據(jù)的描述現(xiàn)象。
1.2.3 科學(xué)數(shù)據(jù)元數(shù)據(jù)
根據(jù)科學(xué)數(shù)據(jù)為研究對(duì)象的元數(shù)據(jù),實(shí)際上對(duì)科學(xué)數(shù)據(jù)來(lái)說(shuō)是一個(gè)工具,負(fù)責(zé)去形容、描述、組織、整理??茖W(xué)數(shù)據(jù)目前已成為繼文獻(xiàn)資源之后一項(xiàng)十分重要的資源。科學(xué)數(shù)據(jù)元數(shù)據(jù)對(duì)于數(shù)據(jù)的存儲(chǔ)起著前所未有至關(guān)重要的意義。2012年下半年,美國(guó)國(guó)家信息標(biāo)準(zhǔn)組織(National Information Standard Organization,NISO)聯(lián)合都柏林核心元數(shù)據(jù)組織(Dublin Core Metadata Initiative,DCMI)一起召開(kāi)研討會(huì)議[6]??茖W(xué)數(shù)據(jù)元數(shù)據(jù)如何日常維護(hù)、長(zhǎng)久存儲(chǔ)以及備受矚目的開(kāi)放與共享問(wèn)題已成為當(dāng)今數(shù)據(jù)研究核心問(wèn)題之一。
2.1 戰(zhàn)略領(lǐng)域
隨著大數(shù)據(jù)環(huán)境的全方位降臨,數(shù)據(jù)已經(jīng)成為一種資產(chǎn),與物質(zhì)資源、人力資源同等重要,而科學(xué)數(shù)據(jù)與元數(shù)據(jù)更具有戰(zhàn)略性和前所未有的意義。國(guó)家、社會(huì)的發(fā)展進(jìn)步很大程度決定于科技創(chuàng)新技術(shù)水平,而深入發(fā)展科學(xué)數(shù)據(jù)元數(shù)據(jù)是實(shí)現(xiàn)科技創(chuàng)新與進(jìn)步的重要途徑之一。從信息資源的開(kāi)發(fā)到目前各類(lèi)高新技術(shù)的高速發(fā)展,都是以科學(xué)數(shù)據(jù)的累積發(fā)展為根本,從實(shí)驗(yàn)室到實(shí)地?cái)?shù)據(jù),無(wú)一不與科學(xué)數(shù)據(jù)元數(shù)據(jù)息息相關(guān)。當(dāng)今在以信息為基礎(chǔ)的社會(huì)中,愈來(lái)愈多的信息產(chǎn)品推動(dòng)著社會(huì)的發(fā)展,尤其是以數(shù)據(jù)管理、再加工為主的產(chǎn)業(yè)正慢慢引領(lǐng)著“大數(shù)據(jù)經(jīng)濟(jì)”。我國(guó)雖然科學(xué)數(shù)據(jù)資源豐富,但大多數(shù)仍未經(jīng)歷系統(tǒng)的整合建庫(kù),數(shù)字化的程度還處于初級(jí)水平。而大量的數(shù)據(jù)使用者局限于個(gè)人、本處室、本單位,使得科技資源浪費(fèi)嚴(yán)重,開(kāi)放與共享機(jī)制幾乎沒(méi)有建立。所以要想突破科學(xué)數(shù)據(jù)元數(shù)據(jù)的壁壘,實(shí)施開(kāi)放共享,是國(guó)家發(fā)展的戰(zhàn)略需求。2012年3月29日,美國(guó)政府奧巴馬宣布啟動(dòng)《大數(shù)據(jù)研究和發(fā)展計(jì)劃》,同時(shí)組建“大數(shù)據(jù)高級(jí)指導(dǎo)小組”,涉及美國(guó)國(guó)家科學(xué)基金、國(guó)家衛(wèi)生研究院、能源部、國(guó)防部等6個(gè)聯(lián)邦政府部門(mén),宣布將啟動(dòng)2億美元的投資計(jì)劃,提高從大量數(shù)據(jù)中訪問(wèn)、組織、收集發(fā)現(xiàn)信息的工具和技術(shù)水平。這使得美國(guó)成為首個(gè)將大數(shù)據(jù)從商業(yè)行為上升到國(guó)家意志和國(guó)家戰(zhàn)略的國(guó)家。
2.2 科研領(lǐng)域
現(xiàn)如今在全國(guó)乃至全世界的科研領(lǐng)域很少有單一學(xué)科,多數(shù)為交叉領(lǐng)域的科研。事實(shí)上,科學(xué)研究的根本所在實(shí)則是科學(xué)數(shù)據(jù)的產(chǎn)生與應(yīng)用的過(guò)程。在研究成果方面,科學(xué)數(shù)據(jù)以及元數(shù)據(jù)本身就是成果,它既是科研成果,也是進(jìn)一步創(chuàng)新的原始資源。大數(shù)據(jù)時(shí)代的科學(xué)數(shù)據(jù)猛烈增長(zhǎng),所以對(duì)穩(wěn)定的基礎(chǔ)科學(xué)數(shù)據(jù)分析系統(tǒng)的需求愈發(fā)強(qiáng)烈。2010年以來(lái),全球有關(guān)科學(xué)數(shù)據(jù)以及元數(shù)據(jù)的科研活動(dòng)不斷增加,重大科研工程的興起,交叉而又復(fù)雜的跨學(xué)科研究層出不窮,因此使得大范圍合作的局面逐漸形成,全世界范圍內(nèi)對(duì)信息資源、科學(xué)數(shù)據(jù)互通需要達(dá)到了從未有過(guò)的高度。綜上,搭建平臺(tái),實(shí)現(xiàn)數(shù)據(jù)的開(kāi)放共享,任何對(duì)數(shù)據(jù)的需求都無(wú)須再受限于其來(lái)源。
2.3 公眾領(lǐng)域
在大數(shù)據(jù)的蓬勃發(fā)展中,從政府到高等學(xué)府、科研院所、企事業(yè)單位到社會(huì)大眾對(duì)科學(xué)數(shù)據(jù)元數(shù)據(jù)的需求日益增加,已不是專(zhuān)業(yè)數(shù)據(jù)人員要面對(duì)的知識(shí)領(lǐng)域了。平板電腦、智能手機(jī)大眾化的普及,在互聯(lián)網(wǎng)深入到千家萬(wàn)戶(hù)之后,使得各類(lèi)人群對(duì)科學(xué)數(shù)據(jù)的需求尤為明顯。例如,在圖書(shū)銷(xiāo)售網(wǎng)站,依據(jù)以往讀者的購(gòu)買(mǎi)記錄,網(wǎng)站可以給讀者推薦相關(guān)學(xué)科新出版圖書(shū);購(gòu)物網(wǎng)站的使用者,可以根據(jù)購(gòu)買(mǎi)習(xí)慣以及收貨地點(diǎn)被推薦喜歡的并且發(fā)貨地在同省市的店鋪;司機(jī)可以使用智能手機(jī)裝載的GPS隨時(shí)查看交通狀況,也可利用大數(shù)據(jù)的特點(diǎn)提前預(yù)知某些路段每日何時(shí)容易車(chē)流量大以便提前繞路,可以提前查看附近停車(chē)場(chǎng)的空余車(chē)位情況??梢?jiàn)在大數(shù)據(jù)時(shí)代,科研人員深入研究科學(xué)數(shù)據(jù)的應(yīng)用、架構(gòu)等,而普羅大眾對(duì)科學(xué)數(shù)據(jù)的發(fā)布渠道、終端形式等也有越來(lái)越高的需求。
3.1 關(guān)于國(guó)家政策介入模式
學(xué)習(xí)發(fā)達(dá)國(guó)家的成功經(jīng)驗(yàn),以美國(guó)為例?;赝?0世紀(jì)90年代初,美國(guó)便頒布了“全球變化研究數(shù)據(jù)管理政策”,核心內(nèi)容為要完全打開(kāi)科學(xué)數(shù)據(jù)的開(kāi)放與共享。他們依據(jù)數(shù)據(jù)投資資源來(lái)源不同,嚴(yán)格的將數(shù)據(jù)開(kāi)放共享加以區(qū)分。國(guó)有數(shù)據(jù)但凡涉及侵害國(guó)家安全以及國(guó)家、個(gè)人隱私的數(shù)據(jù)不予公開(kāi),其他都進(jìn)行開(kāi)放處理。私有數(shù)據(jù)歸入市場(chǎng)競(jìng)爭(zhēng)。這兩種不同的機(jī)制中,美國(guó)政府起到了主導(dǎo)、推動(dòng)的作用,其中的方式方法完全不同,但兩種機(jī)制完全互補(bǔ),有效提升了科學(xué)數(shù)據(jù)元數(shù)據(jù)的全面應(yīng)用,打開(kāi)了開(kāi)放共享數(shù)據(jù)的新局面。國(guó)家統(tǒng)一規(guī)劃的制度與體系為科學(xué)數(shù)據(jù)的發(fā)展提供了堅(jiān)固的保障,同時(shí)與之配套的法律法規(guī)也隨之完善??茖W(xué)數(shù)據(jù)有序而又規(guī)范的開(kāi)放共享體制,使得信息資源從開(kāi)發(fā)到應(yīng)用迅速發(fā)展起來(lái),涉及領(lǐng)域氣象科學(xué)、生物科學(xué)、作物科學(xué)等各個(gè)學(xué)科,同時(shí)也促進(jìn)了美國(guó)經(jīng)濟(jì)的快速發(fā)展。大數(shù)據(jù)發(fā)展的社會(huì)環(huán)境下,數(shù)據(jù)的開(kāi)放共享問(wèn)題已經(jīng)是必然趨勢(shì)。2009年,DATA.GOV網(wǎng)絡(luò)平臺(tái)在美國(guó)上線,3年時(shí)間,直至2012年開(kāi)放數(shù)據(jù)388 529項(xiàng),匯集了1 264個(gè)應(yīng)用軟件,103個(gè)手機(jī)應(yīng)用插件。歐盟開(kāi)放數(shù)據(jù)戰(zhàn)略(OPEN DATA STRATEGY)于2010年11月由歐盟委員會(huì)第一次提出,與2011年11月底被歐盟數(shù)字議程采納,其中科學(xué)數(shù)據(jù)的全面開(kāi)放是其政策的重要組成部分[7]。
3.2 相關(guān)單位之間交換模式
科學(xué)數(shù)據(jù)的開(kāi)放共享,第一步可以從生產(chǎn)科學(xué)數(shù)據(jù)的相關(guān)單位之間開(kāi)始。高等院校、科研院所之間在保證知識(shí)產(chǎn)權(quán)的前提下,應(yīng)積極地做到開(kāi)放共享數(shù)據(jù)的第一環(huán)節(jié)。當(dāng)今可以說(shuō)沒(méi)有一項(xiàng)研究,一個(gè)獨(dú)立的單位、部門(mén)可以完全利用自己的數(shù)據(jù)資源開(kāi)展乃至完結(jié)。涉及內(nèi)容必定廣泛,跨學(xué)科領(lǐng)域、跨時(shí)期,對(duì)于數(shù)據(jù)的開(kāi)放、共享有著巨大的需求,而相對(duì)容易便捷的實(shí)現(xiàn),就是相關(guān)單位內(nèi)對(duì)科學(xué)數(shù)據(jù)的互相開(kāi)放與共享。例如氣象信息部門(mén)已擁有了全國(guó)各地氣象的長(zhǎng)時(shí)間內(nèi)的科學(xué)數(shù)據(jù),而環(huán)境規(guī)劃的相關(guān)單位為了各地環(huán)境的治理、改善開(kāi)展工作,勢(shì)必需要?dú)庀蟛块T(mén)的數(shù)據(jù),這都屬于開(kāi)放與共享范疇。
3.3 跨界合作模式
當(dāng)今任何企業(yè)的發(fā)展難以脫離信息資源和各類(lèi)數(shù)據(jù)的支撐,同時(shí)也具有相互促進(jìn)的功能,一些企業(yè)的發(fā)展一定是需要以科學(xué)數(shù)據(jù)為基礎(chǔ)的產(chǎn)品來(lái)進(jìn)一步研發(fā)。大數(shù)據(jù)環(huán)境下,科學(xué)數(shù)據(jù)元數(shù)據(jù)的累積、分析必然決定相關(guān)企業(yè)發(fā)展的命脈。如此情形,企業(yè)為了獲取對(duì)自身發(fā)展有用的信息,可以出資科學(xué)合作開(kāi)發(fā)項(xiàng)目,參與信息資源開(kāi)放共享平臺(tái)的搭建,以及建立商業(yè)性質(zhì)的數(shù)據(jù)庫(kù),學(xué)術(shù)與商業(yè)產(chǎn)業(yè)價(jià)值相結(jié)合,也是多元發(fā)展科學(xué)數(shù)據(jù)的應(yīng)用價(jià)值的一條線索。學(xué)術(shù)領(lǐng)域與經(jīng)濟(jì)產(chǎn)業(yè)領(lǐng)域的出發(fā)點(diǎn)不同,但找到其共性是可行的??缃绾献鞑⒎切滦湍J?,科研領(lǐng)域可以繼續(xù)致力于研究,盈利的相關(guān)分析操作由企業(yè)去實(shí)現(xiàn)。同時(shí)科研、學(xué)術(shù)領(lǐng)域在其交集形成良性競(jìng)爭(zhēng)模式,而有能力的企業(yè)也可對(duì)行業(yè)領(lǐng)先的前沿技術(shù)和數(shù)據(jù)分析進(jìn)行追蹤,得到最新的科研成果,實(shí)際上科研領(lǐng)域也在推進(jìn)經(jīng)濟(jì)產(chǎn)業(yè)的發(fā)展。
3.4 國(guó)際合作模式
隨著科學(xué)數(shù)據(jù)開(kāi)放、共享的需求日益增加,越來(lái)越多國(guó)際化合作模式已開(kāi)展起來(lái),國(guó)際的交流也頻繁起來(lái)。由國(guó)際科學(xué)理事會(huì)(International Council for Science,ICSU)發(fā)起,1957年早已成立了世界數(shù)據(jù)中心(World Data Centre,WDC),當(dāng)時(shí)主要面對(duì)地球與環(huán)境領(lǐng)域的科學(xué)數(shù)據(jù)的采納收集、分析整理,之后也負(fù)責(zé)組織交流國(guó)際性的研討會(huì),為國(guó)際性科學(xué)數(shù)據(jù)事業(yè)的發(fā)展起到了至關(guān)重要的作用。1988年,中國(guó)加入了世界數(shù)據(jù)中心,并建立世界數(shù)據(jù)中心——中國(guó)中心(World Data Center D,WDC-D)。WDC-D組織機(jī)構(gòu)包括:中國(guó)國(guó)家協(xié)調(diào)委員會(huì)、科學(xué)委員會(huì)、中國(guó)中心協(xié)調(diào)辦公室、科學(xué)委員會(huì)秘書(shū)處及九個(gè)學(xué)科數(shù)據(jù)中心:海洋學(xué)科數(shù)據(jù)中心、國(guó)家海洋信息中心、地震學(xué)科數(shù)據(jù)中心、中國(guó)地震局分析預(yù)報(bào)中心、地質(zhì)學(xué)科數(shù)據(jù)中心、中國(guó)地質(zhì)科學(xué)院信息中心、空間學(xué)科數(shù)據(jù)中心、中科院空間中心、天文學(xué)科數(shù)據(jù)中心。1966年成立了國(guó)際科技數(shù)據(jù)委員會(huì)(Committee on Data for Science and Technology,CODATA),屬I(mǎi)CSU下一級(jí)學(xué)術(shù)機(jī)構(gòu),是全球最大的科技數(shù)據(jù)國(guó)際學(xué)術(shù)組織,專(zhuān)門(mén)服務(wù)于科學(xué)數(shù)據(jù)的各項(xiàng)國(guó)際性研究與活動(dòng),在全球互聯(lián)網(wǎng)與大數(shù)據(jù)的并行快速發(fā)展下,搭建標(biāo)準(zhǔn)格式用以數(shù)據(jù)的共享與開(kāi)放,有計(jì)劃有目的的按期舉辦國(guó)際性科學(xué)數(shù)據(jù)學(xué)術(shù)型研究會(huì)議,對(duì)科學(xué)數(shù)據(jù)深入多元化的發(fā)展提供平臺(tái)。我國(guó)于1984年成為CODATA正式會(huì)員國(guó),并建立了CODATA中國(guó)委員會(huì),其秘書(shū)處安設(shè)在中科院計(jì)算機(jī)網(wǎng)絡(luò)信息中心。1992年和2006年,我國(guó)曾先后申請(qǐng)成功并主辦第13屆和第20屆CODATA大會(huì)。2010年在南非開(kāi)普敦舉行的第27屆國(guó)際科技數(shù)據(jù)委員會(huì)(CODATA)大會(huì)暨第22屆CODATA全會(huì)上,中國(guó)科學(xué)院對(duì)地觀測(cè)與數(shù)字地球科學(xué)中心研究員郭華東當(dāng)選該國(guó)際組織主席,這也是CODATA成立44年來(lái)我國(guó)科學(xué)家首次任職主席。
伴隨著大數(shù)據(jù)的發(fā)展,我國(guó)的科學(xué)數(shù)據(jù)元數(shù)據(jù)的資源越來(lái)越豐富,國(guó)家先后成立了信息中心,國(guó)家互聯(lián)網(wǎng)信息中心、國(guó)家旅游信息中心、國(guó)家金融信息中心,以及國(guó)家基礎(chǔ)地理信息中心等等,目前信息中心已經(jīng)成為我國(guó)政府向社會(huì)提供具有服務(wù)性、公益性的窗口。為了保證我國(guó)科學(xué)數(shù)據(jù)元數(shù)據(jù)開(kāi)放共享工作的開(kāi)展,需從有序的管理、規(guī)范的技術(shù)以及法律法規(guī)幾個(gè)方面著手。
(1)科學(xué)數(shù)據(jù)元數(shù)據(jù)的開(kāi)放與共享離不開(kāi)國(guó)家法律法規(guī)的政策性保障。相比于發(fā)展較早的歐美國(guó)家,我國(guó)出臺(tái)的政策一方面是較慢,另一方面是程度淺顯。面對(duì)大數(shù)據(jù)的壓力與挑戰(zhàn),國(guó)家應(yīng)盡早出臺(tái)與科學(xué)數(shù)據(jù)元數(shù)據(jù)開(kāi)放、共享的相關(guān)法律,科學(xué)數(shù)據(jù)元數(shù)據(jù)應(yīng)歸屬?lài)?guó)家戰(zhàn)略性問(wèn)題,否則將成為進(jìn)一步發(fā)展的最大障礙。這些年,國(guó)家各類(lèi)科研項(xiàng)目都沒(méi)有實(shí)現(xiàn)數(shù)據(jù)開(kāi)放與共享,一些非常有科學(xué)價(jià)值的數(shù)據(jù)大多分散在高等院校、科研院所內(nèi)部,這對(duì)于國(guó)家數(shù)據(jù)信息的發(fā)展來(lái)說(shuō)是一項(xiàng)嚴(yán)重的浪費(fèi)。因此,只有國(guó)家領(lǐng)導(dǎo)層面有這個(gè)能力盡快將相關(guān)法律法規(guī)納入科學(xué)數(shù)據(jù)元數(shù)據(jù)共享機(jī)制中。我國(guó)已經(jīng)編制了:《科學(xué)數(shù)據(jù)共享工程建設(shè)規(guī)劃》,制定了《科學(xué)數(shù)據(jù)共享?xiàng)l例》、《國(guó)家科技計(jì)劃項(xiàng)目科學(xué)數(shù)據(jù)匯交辦法》、《科學(xué)數(shù)據(jù)共享工程管理辦法》、《科學(xué)數(shù)據(jù)共享工程試點(diǎn)遴選和檢查評(píng)估辦法》和《科學(xué)數(shù)據(jù)分類(lèi)分級(jí)共享及其發(fā)布策略》等一系列數(shù)據(jù)共享的政策法規(guī)[8]。
(2)知識(shí)產(chǎn)權(quán)的保護(hù)問(wèn)題在我國(guó)科學(xué)數(shù)據(jù)元數(shù)據(jù)的開(kāi)放共享工作是一道障礙。在我國(guó)科學(xué)數(shù)據(jù)元數(shù)據(jù)的多年科研工作中,產(chǎn)權(quán)的歸屬以及開(kāi)放、共享問(wèn)題始終存在,責(zé)任的歸屬、權(quán)益的分配羈絆著其發(fā)展。無(wú)形中科學(xué)數(shù)據(jù)以及元數(shù)據(jù)的資源成了私有財(cái)產(chǎn),既阻礙了自己的發(fā)展又耽誤了其他人的進(jìn)度,這種現(xiàn)象的普遍存在并不是一個(gè)人、一個(gè)部門(mén)甚至一個(gè)單位的問(wèn)題,從中央到地方都有,嚴(yán)重地阻礙了我國(guó)科學(xué)數(shù)據(jù)元數(shù)據(jù)的發(fā)展。因此,只有國(guó)家的介入針對(duì)不同歸屬的科學(xué)數(shù)據(jù)以及元數(shù)據(jù)明確產(chǎn)權(quán)問(wèn)題,既維護(hù)了投資者又保護(hù)了創(chuàng)造者的利益,嚴(yán)肅規(guī)整產(chǎn)權(quán)交易,全面推進(jìn)科學(xué)數(shù)據(jù)元數(shù)據(jù)的應(yīng)用、傳播以及各項(xiàng)功能。
(3)相比于科學(xué)數(shù)據(jù)元數(shù)據(jù)發(fā)展較早的歐美國(guó)家,我們起步晚,發(fā)展相對(duì)緩慢,而實(shí)踐能力相差甚遠(yuǎn),其開(kāi)放共享技術(shù)、設(shè)施均落后于發(fā)達(dá)國(guó)家,目前無(wú)論是共享水平還是范圍都亟需加強(qiáng)。所以,高等院校、科研院所等各類(lèi)科研機(jī)構(gòu)應(yīng)積極參加國(guó)際合作項(xiàng)目,全面學(xué)習(xí)數(shù)據(jù)信息發(fā)達(dá)國(guó)家的成功經(jīng)驗(yàn),揚(yáng)長(zhǎng)避短,取其精華,找到最適合我國(guó)國(guó)情的方法來(lái)提升我國(guó)科學(xué)數(shù)據(jù)元數(shù)據(jù)的開(kāi)放共享水平。為此,我們豐富的科學(xué)數(shù)據(jù)元數(shù)據(jù)才能打開(kāi)塵封已久的實(shí)驗(yàn)室大門(mén),面向全社會(huì)各階層領(lǐng)域,從高端科研機(jī)構(gòu)到社會(huì)大眾,才能進(jìn)一步與世界接軌。
如今看來(lái),大數(shù)據(jù)已不是一個(gè)概念了,漸漸深入到科研以及生活領(lǐng)域,在此環(huán)境中,科學(xué)數(shù)據(jù)元數(shù)據(jù)的發(fā)展勢(shì)必成為趨勢(shì),而對(duì)于科學(xué)數(shù)據(jù)元數(shù)據(jù)的開(kāi)放共享問(wèn)題也自然賦予了時(shí)代的意義。任何領(lǐng)域數(shù)據(jù)的開(kāi)放與共享都是急需面對(duì)的,這關(guān)乎國(guó)家的發(fā)展,社會(huì)經(jīng)濟(jì)的進(jìn)步,關(guān)乎科技領(lǐng)域的深度。國(guó)際上對(duì)于科學(xué)數(shù)據(jù)元數(shù)據(jù)開(kāi)放共享的研究已有數(shù)年,我國(guó)雖然起步晚,但是已經(jīng)意識(shí)到了科學(xué)數(shù)據(jù)元數(shù)據(jù)的意義所在,相關(guān)科研已全面展開(kāi),恰好可以很好地借鑒學(xué)習(xí)發(fā)達(dá)國(guó)家的方法,少走彎路,結(jié)合自身特點(diǎn)深入開(kāi)展科學(xué)數(shù)據(jù)元數(shù)據(jù)的研究??蒲写蟓h(huán)境的改變使得對(duì)科學(xué)數(shù)據(jù)元數(shù)據(jù)的認(rèn)知程度和實(shí)踐程度逐漸提高,為國(guó)際合作、國(guó)內(nèi)各科研機(jī)構(gòu)的合作以及科研人員都提供了很好的契機(jī),同時(shí)對(duì)科學(xué)數(shù)據(jù)元數(shù)據(jù)開(kāi)放共享的研究也起到了推動(dòng)的作用。
[1]周波.我國(guó)科學(xué)數(shù)據(jù)元數(shù)據(jù)研究綜述[J].圖書(shū)館學(xué)研究,2013,(2):7-10.
[2]張引.大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J].計(jì)算機(jī)研究與發(fā)展,2013,(S2):216-233.
[3]Viktor Mayer-Sch?nberger[EB/OL].https:∥en.wikipedia.org/wiki/ViktorMayer-Sch%C3%B6nberger.
[4]黃如花.國(guó)外科學(xué)數(shù)據(jù)共享研究綜述[J].情報(bào)資料工作,2013,(4):24-30.
[5]Metadata for Managing Scientific Research Data[EB/OL].http:∥www.niso.org/news/events/2012/dcmi/scientificdata/,2013-12-20.
[6]左建安.基于大數(shù)據(jù)環(huán)境的科學(xué)數(shù)據(jù)共享模式研究[J].情報(bào)雜志,2015,32(12):151-154.
[7]鄔賀銓.大數(shù)據(jù)時(shí)代的機(jī)遇與挑戰(zhàn)[J].求是,2013,(4):47-49.
[8]左建安.基于大數(shù)據(jù)環(huán)境的科學(xué)數(shù)據(jù)共享模式研究[J].情報(bào)雜志,2015,32(12):151-154.
(本文責(zé)任編輯:孫國(guó)雷)
Research Openness and Sharing of Scientific Metadata under the Big Data Environment
Man Rui Wang Jian
(Institute of Agricultural Information,Chinese Academy of Agricultural Sciences,Beijing 100081,China)
Under the background of big data,data has become one of the various research fields indispensable element,and scientific metadata is the core of information resources.Openness and sharing of scientific data metadata is all areas urgent issue,relating to the country’s development,socio-economic progress,and the depth of science and technology.This paper conducted a research on openness and sharing of scientific metadata under the big data,and provided further reference for further research.
big data;scientific data;metadata;openness and sharing
2015-12-22
滿(mǎn) 芮(1985-),女,助理研究員,研究方向:科學(xué)數(shù)據(jù)管理與共享。
10.3969/j.issn.1008-0821.2016.03.006
G322
A
1008-0821(2016)03-0038-04