姜穎
(對外經(jīng)濟貿(mào)易大學(xué)圖書館,北京 100029)
美國國家科學(xué)基金會(National Science Foundation,United States,NSF)在《面向21世紀(jì)探索的網(wǎng)絡(luò)基礎(chǔ)設(shè)施》報告中指出“科技研究和教育越來越朝向數(shù)據(jù)密集型轉(zhuǎn)變,即以數(shù)字技術(shù)、儀器儀表和各種網(wǎng)絡(luò)來收集、生成、共享和分析數(shù)據(jù),并進(jìn)行擴散。每天通過實驗、觀察和模擬進(jìn)行生產(chǎn)、獲取、分析、整合和存儲的數(shù)據(jù)高達(dá)吉字節(jié)(G-bytes)”[1]。在數(shù)據(jù)密集型科研環(huán)境下,數(shù)據(jù)或事實是科研工作的根本,在缺乏數(shù)據(jù)佐證或事實依據(jù)的情況下,人們無法進(jìn)行科研成果的驗證,科學(xué)結(jié)果與論點無法成立[2]。
科學(xué)數(shù)據(jù)是科研人員在科學(xué)研究過程中通過科學(xué)實驗、實際調(diào)查等方式產(chǎn)生和獲得的數(shù)據(jù)資料[3],伴隨科研活動的整個生命周期,真實記錄科學(xué)研究的全過程,對科學(xué)研究成果具有直接的支撐和佐證作用[4]。自然科學(xué)是研究自然界的物質(zhì)形態(tài)、結(jié)構(gòu)、性質(zhì)和運動規(guī)律的科學(xué),包括數(shù)學(xué)、物理學(xué)、化學(xué)、生物學(xué)、天文學(xué)等基礎(chǔ)科學(xué)和醫(yī)學(xué)、農(nóng)學(xué)、氣象學(xué)、材料學(xué)等應(yīng)用科學(xué)[5],自然科學(xué)數(shù)據(jù)大多經(jīng)過儀器觀測、實驗、探測、仿真等方式產(chǎn)生,其創(chuàng)建與獲取大多需特定的研究對象、實驗試劑、儀器設(shè)備、實驗環(huán)境和專人引導(dǎo)等因素支持。一些自然科學(xué)領(lǐng)域的環(huán)境科學(xué)數(shù)據(jù),如外太空的觀察數(shù)據(jù)、深海的地質(zhì)數(shù)據(jù)和大規(guī)模核輻射對環(huán)境危害的數(shù)據(jù)等,不僅獲取成本巨大,且再獲取性較低[6]。除國家保密因素外,環(huán)境科學(xué)數(shù)據(jù)的共享對于環(huán)境領(lǐng)域科研結(jié)論的重復(fù)驗證、數(shù)據(jù)的再利用和投入成本的節(jié)約意義明顯;而環(huán)境科學(xué)數(shù)據(jù)的發(fā)布平臺是實現(xiàn)和推動自然環(huán)境科學(xué)數(shù)據(jù)共享的基礎(chǔ)與前提[7]。
英國自然科學(xué)研究水平居于世界前列,自然科學(xué)數(shù)據(jù)管理和服務(wù)工作亦起步較早,已有多項自然科學(xué)數(shù)據(jù)發(fā)布平臺和管理項目問世,內(nèi)容涉及地球與環(huán)境科學(xué)、天文學(xué)、生物學(xué)、醫(yī)學(xué)等多個領(lǐng)域[8]。自2004年1月OECD成員國簽署《開放獲取公共資助研究數(shù)據(jù)的宣言》,英國自然科學(xué)領(lǐng)域數(shù)據(jù)發(fā)布平臺的建設(shè)隨即提上日程。作為主要研究資助機構(gòu)的英國七大研究理事會:自然環(huán)境研究理事會(Natural Environment Research Council,NERC)、藝術(shù)與人文研究研究理事會、生物技術(shù)與生物科學(xué)研究理事會、工程與自然科學(xué)研究理事會、經(jīng)濟與社會研究理事會、醫(yī)學(xué)研究理事會、科學(xué)與技術(shù)設(shè)施研究理事會,成為科學(xué)數(shù)據(jù)發(fā)布平臺建設(shè)的主要機構(gòu)。NERC作為首輪加入OECD國家科學(xué)數(shù)據(jù)共享計劃的公共機構(gòu)[9],目前在數(shù)據(jù)政策制定和數(shù)據(jù)共享平臺建設(shè)方面,均較成熟和先進(jìn)。由其建設(shè)的5個環(huán)境科學(xué)數(shù)據(jù)共享平臺:國家地球科學(xué)數(shù)據(jù)中心(National Geophysical Data Center,NGDC)、環(huán)境信息中心(Environmental Information Data Centre,EIDC)、海洋數(shù)據(jù)中心(British Oceanographic Data Center,BODC)、環(huán)境信息分析中心(Centre for Environmental Data Analysis,CEDA)和英國極地數(shù)據(jù)中心(UK Polar Data Centre,PDC),發(fā)布的數(shù)據(jù)涉及陸地、淡水、海洋、冰川、氣候、極地等多個自然環(huán)境領(lǐng)域,內(nèi)容涵蓋性強,其建設(shè)較成熟且極具代表性,是環(huán)境科學(xué)領(lǐng)域甚至自然科學(xué)領(lǐng)域科學(xué)數(shù)據(jù)發(fā)布平臺建設(shè)的典范。
本文選取上述5個平臺作為調(diào)研對象,調(diào)研時間為2017年10月26日~11月25日。采用網(wǎng)絡(luò)調(diào)研法和文獻(xiàn)內(nèi)容分析法在調(diào)研各平臺建設(shè)現(xiàn)狀的基礎(chǔ)上分析其發(fā)布內(nèi)容,并對其建設(shè)特點進(jìn)行總結(jié),以期為我國環(huán)境科學(xué)領(lǐng)域甚至整個自然科學(xué)領(lǐng)域科學(xué)數(shù)據(jù)平臺建設(shè)提供參考。
如表1所示,5個平臺管理和發(fā)布的科學(xué)數(shù)據(jù)數(shù)量眾多,且分屬不同的環(huán)境科學(xué)領(lǐng)域。其中,NGDC主要發(fā)布地球科學(xué)領(lǐng)域的數(shù)據(jù)和信息,EIDC側(cè)重于陸地和淡水科學(xué)領(lǐng)域,BODC發(fā)布生物學(xué)、化學(xué)、物理學(xué)和地球物理領(lǐng)域的海洋環(huán)境數(shù)據(jù),CEDA主要提供氣候、太陽能和地球觀測的衛(wèi)星數(shù)據(jù),PDC負(fù)責(zé)發(fā)布極地數(shù)據(jù)。5個平臺均受到NERC的資助,并得到各自領(lǐng)域國家重點數(shù)據(jù)監(jiān)管和調(diào)查機構(gòu)的數(shù)據(jù)支持。如NGDC得到英國地質(zhì)調(diào)查局(British Geological Survey,BGS)的數(shù)據(jù)支持,EIDC得到英國生態(tài)水文中心(Center for Ecology & Hydrology,CEH)的數(shù)據(jù)支持。
表1 5個平臺基本情況統(tǒng)計
5個平臺的建設(shè)目標(biāo)既具有一致性,又具有特殊性。一致性體現(xiàn)在都是為收集、保存和管理各領(lǐng)域有價值的數(shù)據(jù),方便公眾對科學(xué)數(shù)據(jù)的發(fā)現(xiàn)、獲取和使用,促進(jìn)自然科學(xué)數(shù)據(jù)共享管理的進(jìn)一步發(fā)展,提高科學(xué)研究的效率和社會價值;特殊性體現(xiàn)在不同類型的環(huán)境數(shù)據(jù)平臺現(xiàn)階段目標(biāo)側(cè)重點有所區(qū)別。表1中NGDC負(fù)責(zé)國家地球科學(xué)領(lǐng)域科學(xué)數(shù)據(jù)的收集、保存和管理,主要目標(biāo)是將收集的地球科學(xué)數(shù)據(jù)廣泛提供給全球用戶,PDC則長期致力于確保在極地地區(qū)采集的環(huán)境數(shù)據(jù)的公共獲取和廣泛提供,這兩個平臺的建設(shè)目標(biāo)在于保證數(shù)據(jù)的全球共享;而EIDC廣泛收集、長期保存和管理環(huán)境科學(xué)信息數(shù)據(jù),為研究人員和研究組織提供長期的數(shù)據(jù)管理計劃、保證數(shù)據(jù)的長期保存,其主要目標(biāo)為數(shù)據(jù)的長期管理與保存。
平臺的數(shù)據(jù)來源主要有兩種,一是自行研究產(chǎn)生的數(shù)據(jù),二是收集其他機構(gòu)或個人的科學(xué)數(shù)據(jù)[10]。自行研究產(chǎn)生的數(shù)據(jù)指研究機構(gòu)將日常工作中得到的數(shù)據(jù)建成結(jié)構(gòu)化的數(shù)據(jù)集合,如PDC發(fā)布的數(shù)據(jù)全部都是數(shù)據(jù)中心的自有數(shù)據(jù),即極地數(shù)據(jù)中心在極地地區(qū)利用儀器、衛(wèi)星等工具實地采集的環(huán)境數(shù)據(jù)。而其他4個平臺的數(shù)據(jù)來源既包含自行研究數(shù)據(jù)也包含收集的其他項目或人員的數(shù)據(jù)。如EIDC既要管理和發(fā)布CEH以及NERC環(huán)境科學(xué)領(lǐng)域研究產(chǎn)生的數(shù)據(jù),也要承擔(dān)其他研究項目和人員的數(shù)據(jù)管理委托。
5個平臺的數(shù)據(jù)量和類型均各具規(guī)模。根據(jù)平臺的統(tǒng)計數(shù)據(jù),CEDA包含5 000多個數(shù)據(jù)集;NGDC擁有地球科學(xué)領(lǐng)域400多種形式的數(shù)據(jù)集,包括環(huán)境監(jiān)測數(shù)據(jù),在線電子數(shù)據(jù)庫(如巖石收藏數(shù)據(jù)庫),鉆孔巖芯、巖石、礦物和化石數(shù)據(jù)的紙質(zhì)數(shù)字資料收藏,照片掃描本和地圖數(shù)據(jù)等形式;BODC擁有海洋科學(xué)領(lǐng)域超過2.2萬個測量變量的數(shù)據(jù)集,數(shù)據(jù)類別包含聲學(xué)、測深和地形、海平面、聲像學(xué)、鹽度、水柱化學(xué)等。
自然科學(xué)數(shù)據(jù)發(fā)布平臺是負(fù)責(zé)收集、處理、加工信息的機構(gòu),也是對科學(xué)數(shù)據(jù)實施管理的機構(gòu)[11]。環(huán)境科學(xué)數(shù)據(jù)發(fā)布平臺的服務(wù)內(nèi)容包含科學(xué)數(shù)據(jù)的收集、處理、加工和管理,服務(wù)方式包括開放數(shù)據(jù)服務(wù)、數(shù)據(jù)管理服務(wù)、數(shù)據(jù)檢索服務(wù)、數(shù)據(jù)存儲服務(wù)、數(shù)據(jù)咨詢服務(wù)和數(shù)據(jù)分析服務(wù)(見表2)。
表2 5個平臺的數(shù)據(jù)服務(wù)方式
其中,開放數(shù)據(jù)、數(shù)據(jù)管理、數(shù)據(jù)檢索和數(shù)據(jù)咨詢是5個平臺均可提供的服務(wù)方式。
(1)開放數(shù)據(jù)服務(wù)。開放數(shù)據(jù)即面向公眾的免費數(shù)據(jù)服務(wù),以開放數(shù)據(jù)目錄的形式向公眾提供科學(xué)數(shù)據(jù)列表及內(nèi)容。5個平臺均采取部分?jǐn)?shù)據(jù)開放的模式。如NGDC將開放數(shù)據(jù)服務(wù)命名為“Open Geoscience”,遵循開放政府許可[12]針對公眾提供的免費數(shù)據(jù)服務(wù);CEDA將平臺數(shù)據(jù)分為公共數(shù)據(jù)(即開放數(shù)據(jù)服務(wù))、注冊用戶可訪問數(shù)據(jù)、有限制數(shù)據(jù)和永久限制數(shù)據(jù)。
(2)數(shù)據(jù)管理服務(wù)。數(shù)據(jù)管理包括數(shù)據(jù)選擇、組織、描述、保存、訪問、使用和評估等工作過程和實踐操作,涵蓋指定標(biāo)準(zhǔn)、元數(shù)據(jù)創(chuàng)建和文獻(xiàn)鏈接等活動[13]。EIDC和CEDA均向用戶提供科學(xué)數(shù)據(jù)管理計劃,EIDC指出數(shù)據(jù)管理計劃是確保項目成果價值實現(xiàn)的重要步驟,EIDC配備專門的數(shù)據(jù)管理專員,在項目之初予以指導(dǎo),并在之后的工作中將管理不斷調(diào)整和細(xì)化。
(3)數(shù)據(jù)檢索服務(wù)。作為常規(guī)服務(wù)項目,5個平臺均根據(jù)自身數(shù)據(jù)特點向用戶提供多種檢索途徑和方法(如主題組合檢索、專業(yè)檢索式檢索以及地圖檢索等),幫助用戶定位目標(biāo)數(shù)據(jù)。
(4)數(shù)據(jù)存儲服務(wù)。平臺除對自行研究產(chǎn)生的數(shù)據(jù)進(jìn)行存儲外,還可提供將其他機構(gòu)或個人所提交數(shù)據(jù)的長期保存服務(wù)。除PDC外,其他4個數(shù)據(jù)平臺均對外提供數(shù)據(jù)存儲服務(wù)。
(5)數(shù)據(jù)咨詢服務(wù)。以疑問解答為目的的數(shù)據(jù)咨詢服務(wù)是發(fā)布平臺的必備服務(wù),NGDC和BODC甚至專設(shè)咨詢服務(wù)崗位。
(6)數(shù)據(jù)分析服務(wù)是面向用戶的高級數(shù)據(jù)服務(wù)形式,CEDA和PDC均提供專門的數(shù)據(jù)深層分析服務(wù),可根據(jù)用戶個人需求定制數(shù)據(jù)。
5個平臺的數(shù)據(jù)管理政策大致可分為數(shù)據(jù)質(zhì)量監(jiān)管政策、數(shù)據(jù)存儲政策和數(shù)據(jù)傳播政策。如表3所示,數(shù)據(jù)質(zhì)量監(jiān)管政策包括制定數(shù)據(jù)管理計劃、對數(shù)據(jù)管理執(zhí)行情況的監(jiān)督和數(shù)據(jù)管理指導(dǎo)與服務(wù),數(shù)據(jù)存儲政策包括數(shù)據(jù)標(biāo)準(zhǔn)、元數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)保存和數(shù)據(jù)范圍,數(shù)據(jù)傳播政策包括數(shù)據(jù)共享、數(shù)據(jù)引用、數(shù)據(jù)版權(quán)、數(shù)據(jù)安全和數(shù)據(jù)訪問。
(1)數(shù)據(jù)質(zhì)量監(jiān)管政策。主要針對其他研究機構(gòu)和個人提交的數(shù)據(jù),因此除PDC外(PDC只存儲自行研究產(chǎn)生的數(shù)據(jù)),其他4個平臺均制定了相關(guān)數(shù)據(jù)質(zhì)量監(jiān)管政策,對數(shù)據(jù)管理提供指導(dǎo)與服務(wù)。EIDC和CEDA均要求數(shù)據(jù)提交者提供數(shù)據(jù)管理計劃,計劃通常包括數(shù)據(jù)采集、整理、分析、存儲等,是保障數(shù)據(jù)質(zhì)量的重要途徑[14]。此外,EIDC還對數(shù)據(jù)管理執(zhí)行情況提供監(jiān)督。
表3 5個平臺的管理政策
(2)數(shù)據(jù)存儲政策。數(shù)據(jù)存儲可分為兩大類,一類是平臺自有數(shù)據(jù)的存儲,另一類是其他機構(gòu)或個人的數(shù)據(jù)存儲。PDC僅支持本單位實地勘測和研究整理的數(shù)據(jù)存儲,其他4個平臺既支持本單位也支持其他機構(gòu)或個人的相關(guān)領(lǐng)域數(shù)據(jù)存儲。5個平臺均對其平臺數(shù)據(jù)標(biāo)準(zhǔn)、元數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)范圍作出明確說明。如EIDC數(shù)據(jù)標(biāo)準(zhǔn)包括數(shù)據(jù)格式,數(shù)據(jù)是否被用在同行評審出版物,數(shù)據(jù)是否符合收錄主題,數(shù)據(jù)是否可重復(fù)利用,數(shù)據(jù)范圍不受地理位置和時間的限制,數(shù)據(jù)類型包含表格、圖像、數(shù)據(jù)庫、軟件、模型等多種形式。同時,EIDC提供專門的元數(shù)據(jù)標(biāo)準(zhǔn)指導(dǎo),指明其元數(shù)據(jù)標(biāo)準(zhǔn)高于英國位置計劃“the UK Location Programme”[15]的界定標(biāo)準(zhǔn);BODC數(shù)據(jù)存儲總則對數(shù)據(jù)提交機制、數(shù)據(jù)文件格式和文件命名、參數(shù)說明、附帶元數(shù)據(jù)等均作出明確界定,并針對其包含的11種元數(shù)據(jù)(如電流表數(shù)據(jù)、海平面數(shù)據(jù)、水樣數(shù)據(jù)、浮標(biāo)數(shù)據(jù)等)存儲給予專門說明。
(3)數(shù)據(jù)傳播政策。包括數(shù)據(jù)共享、數(shù)據(jù)引用、數(shù)據(jù)版權(quán)、數(shù)據(jù)安全和數(shù)據(jù)訪問政策,5個平臺均對數(shù)據(jù)傳播政策進(jìn)行說明,其中BODC、EIDC和PDC對數(shù)據(jù)安全作了規(guī)定。BODC規(guī)定數(shù)據(jù)所有權(quán)不受存儲管理的影響,即數(shù)據(jù)所有權(quán)歸屬于數(shù)據(jù)發(fā)起人或與研究機構(gòu)保持一致;EIDC要求項目數(shù)據(jù)由管理專員負(fù)責(zé)數(shù)據(jù)的定期備份,以防止軟硬件故障、病毒感染或數(shù)據(jù)丟失。備份程序取決于當(dāng)?shù)厍闆r、數(shù)據(jù)的感知價值和風(fēng)險水平。如果數(shù)據(jù)包含個人信息,應(yīng)注意創(chuàng)建副本的最小數(shù)量;PDC在其隱私保護(hù)政策中明確說明PDC會第一時間保護(hù)用戶安全和隱私,絕對不會出售、出租或與第三方共享用戶個人信息,并從安全的角度指導(dǎo)用戶進(jìn)行瀏覽器、IP、服務(wù)器等的設(shè)置。
5個環(huán)境科學(xué)數(shù)據(jù)發(fā)布平臺已建設(shè)得較為成熟,網(wǎng)站模塊齊備,內(nèi)容豐富。下面從基本模塊、檢索服務(wù)、瀏覽與導(dǎo)航服務(wù)、咨詢/幫助服務(wù)四個角度對平臺內(nèi)容進(jìn)行分析,如表4所示。
5個平臺在基本模塊的設(shè)置上特點鮮明,可歸納為共有模塊和個性模塊兩類。其中數(shù)據(jù)檢索和數(shù)據(jù)引用為5個平臺網(wǎng)站共有的模塊設(shè)置。通過檢索服務(wù),用戶可直接利用數(shù)據(jù)關(guān)鍵詞的簡單檢索或高級檢索功能直接定位所需數(shù)字資源。科學(xué)數(shù)據(jù)引用具有體現(xiàn)已有工作價值、顯示已有數(shù)據(jù)價值、保證數(shù)據(jù)的可用性等重要意義[16]。5個平臺引用模塊包含被引數(shù)據(jù)目錄(標(biāo)題、作者和DOI)、引用數(shù)據(jù)集、數(shù)據(jù)引用的過程描述等內(nèi)容。除PDC以外的其他4個平臺均提供數(shù)據(jù)存儲服務(wù)。在存儲模塊中,各平臺均發(fā)布數(shù)據(jù)存儲指南,如《NGDC數(shù)據(jù)存儲指南》[17]對存儲數(shù)據(jù)的范圍、格式、原則等問題進(jìn)行詳細(xì)說明,按照存儲步驟為用戶提供網(wǎng)站存儲導(dǎo)引,或通過提供存儲數(shù)據(jù)模板指導(dǎo)用戶完成數(shù)據(jù)存儲。
此外,不同平臺也按照自身特色設(shè)置了個性化模塊。如NGDC包含數(shù)據(jù)管理和開放數(shù)據(jù)模塊,數(shù)據(jù)管理模塊對平臺數(shù)據(jù)管理給予指導(dǎo),開放數(shù)據(jù)模塊是平臺面向公眾免費開放數(shù)據(jù)的集合;EIDC專門設(shè)立數(shù)據(jù)支持模塊對平臺的科學(xué)數(shù)據(jù)管理計劃及其監(jiān)督機制給予詳細(xì)指導(dǎo)和說明。
表4 5個平臺網(wǎng)站內(nèi)容分析
檢索服務(wù)是用戶定位目標(biāo)數(shù)據(jù)的直接手段。數(shù)據(jù)目錄檢索是5個自然數(shù)據(jù)平臺均可提供的檢索服務(wù)。在數(shù)據(jù)目錄中,利用數(shù)據(jù)關(guān)鍵詞進(jìn)行搜索,以確定目標(biāo)數(shù)據(jù)。除目錄檢索外,由于平臺數(shù)據(jù)類型、數(shù)據(jù)開放形式等因素不同,各平臺可提供的其他檢索方式相差較大,有些平臺僅提供簡單檢索,有些平臺則提供多種復(fù)雜檢索方式(多主題檢索、檢索式檢索等)。
NGDC的目錄檢索只有一個簡單檢索的檢索框,檢索精準(zhǔn)度不高;而EIDC提供不同選項(主題、機構(gòu)、作者、日期等)和邏輯算符(與、或、非)及其他位置算符等高級檢索方式;BODC的檢索界面包含時間范圍、數(shù)據(jù)類型、參數(shù)選擇、項目、平臺、儀器、水深、儀器深度、國家、文件格式等多個選項,供讀者組合檢索;PDC將數(shù)據(jù)搭建為不同的數(shù)據(jù)系統(tǒng),如發(fā)現(xiàn)元數(shù)據(jù)系統(tǒng)、南極數(shù)據(jù)系統(tǒng)、大氣數(shù)據(jù)系統(tǒng)、極光邊界圖像數(shù)據(jù)庫和極地航空地球物理數(shù)據(jù)門戶等,分別提供檢索服務(wù)。
除數(shù)據(jù)檢索外,NGDC、CEDA、PDC還提供發(fā)現(xiàn)元數(shù)據(jù)的簡單或高級檢索服務(wù)。對于檢索結(jié)果,5個平臺均要求訪問者注冊為系統(tǒng)用戶方可下載數(shù)據(jù),并且存在一部分受限和須付費購買的數(shù)據(jù),用戶可通過有效身份認(rèn)證對限制數(shù)據(jù)提出申請,申請通過后才可訪問數(shù)據(jù)。
數(shù)據(jù)瀏覽和資源導(dǎo)航功能是用戶快速了解平臺資源和服務(wù)的有效途徑。5個平臺結(jié)合自身數(shù)據(jù)類型、數(shù)據(jù)開放形式等因素,提供不同程度的資源瀏覽和導(dǎo)航服務(wù)。如NGDC提供數(shù)據(jù)關(guān)鍵詞字母字順瀏覽、數(shù)據(jù)集字母字順瀏覽、元數(shù)據(jù)關(guān)鍵詞歸屬類別瀏覽、數(shù)據(jù)集地理位置瀏覽、主題(如3D建模、土地利用規(guī)劃、地震、能源等)瀏覽以及目的(施工、挖掘、引流、農(nóng)業(yè)、棲息地分析等)瀏覽;PDC將南極數(shù)據(jù)系統(tǒng)的數(shù)據(jù)按照冰雪、臭氧、氣候、地圖和地名等主題排列,用戶可按主題瀏覽數(shù)據(jù)。
咨詢/幫助服務(wù)是5個數(shù)據(jù)服務(wù)平臺共有的服務(wù)項目,能夠及時解答用戶在獲取數(shù)據(jù)、存儲數(shù)據(jù)和使用數(shù)據(jù)過程中遇到的問題。目前5個平臺提供的咨詢服務(wù)多樣,包含郵箱咨詢、電話咨詢、人工現(xiàn)場答疑、網(wǎng)頁FAQs、各類入門和使用視頻教程、用戶手冊等。如NGDC在數(shù)據(jù)部門下設(shè)專職人工咨詢服務(wù)崗位,專門解答用戶在圖形與數(shù)據(jù)顯示與數(shù)據(jù)請求傳遞等方面的問題,并在每一個具體服務(wù)頁面下方提供不同咨詢郵箱;EIDC在提供郵箱咨詢的同時,配以專門的網(wǎng)站幫助頁面,頁面中包含不同問題的回答集錦、存儲數(shù)據(jù)的使用視頻、數(shù)據(jù)教程下載、擴展功能介紹和用戶注冊流程等。
5個英國自然科學(xué)數(shù)據(jù)發(fā)布平臺是國際上相對成熟的建設(shè)范例,無論是服務(wù)方式、管理政策還是網(wǎng)站內(nèi)容配置方面均具有借鑒價值,可以為我國科學(xué)數(shù)據(jù)平臺建設(shè)提供經(jīng)驗參考。
平臺的數(shù)據(jù)來源渠道主要有政府部門或基金會的資助、高?;蜓芯繖C構(gòu)的資助以及私營部門的捐贈[18]。相比而言,前兩種資助渠道的穩(wěn)定性和可持續(xù)性較高。本文調(diào)研的數(shù)據(jù)平臺均受NERC資助。很多受到政府部門、基金會、科研機構(gòu)等資助的數(shù)據(jù)平臺都是基于該基金會或科研機構(gòu)所資助的研究項目數(shù)據(jù)搭建起來的[19]。如作為科研資助機構(gòu),NERC于2011年發(fā)布科學(xué)數(shù)據(jù)政策[20],要求受NERC資助的科研項目,其科學(xué)數(shù)據(jù)必須得到長期保存,在數(shù)據(jù)中心的說明頁面明確規(guī)定NERC資助的自然科學(xué)類項目的數(shù)據(jù)必須存儲到由其資助搭建的相關(guān)類別的自然數(shù)據(jù)發(fā)布平臺中[21];同時,數(shù)據(jù)發(fā)布平臺的數(shù)據(jù)支持單位也是數(shù)據(jù)來源的重要保障,如BGS和CEH均是平臺的數(shù)據(jù)支持機構(gòu),數(shù)據(jù)來源可靠且穩(wěn)定。
平臺數(shù)據(jù)服務(wù)的內(nèi)容不僅代表平臺當(dāng)前服務(wù)現(xiàn)狀,也代表平臺今后的服務(wù)發(fā)展方向。經(jīng)過不斷的動態(tài)調(diào)整和完善,5個平臺可提供的數(shù)據(jù)服務(wù)內(nèi)容已涵蓋數(shù)據(jù)生命周期的多個環(huán)節(jié),不僅包括數(shù)據(jù)存儲咨詢、數(shù)據(jù)發(fā)現(xiàn)支持、數(shù)據(jù)標(biāo)準(zhǔn)指南等咨詢型服務(wù),還包含開放數(shù)據(jù)、數(shù)據(jù)處理、數(shù)據(jù)搜索(數(shù)據(jù)定制)、數(shù)據(jù)分析和數(shù)據(jù)管理等技術(shù)型服務(wù)。同時,5個平臺還根據(jù)自身特點,提供特色服務(wù)。如CEDA考慮到用戶對不同層次數(shù)據(jù)需求,為注冊用戶提供深層次數(shù)據(jù)檢索、分析和定制服務(wù);EIDC在提供幫助用戶制定科學(xué)數(shù)據(jù)管理計劃服務(wù)的同時,還對計劃的實施提供監(jiān)督和指導(dǎo)。
科學(xué)數(shù)據(jù)的管理政策涉及數(shù)據(jù)存儲、數(shù)據(jù)質(zhì)量監(jiān)管和數(shù)據(jù)傳播等多個方面,5個平臺科學(xué)數(shù)據(jù)管理政策制定得較為齊備,從數(shù)據(jù)存儲標(biāo)準(zhǔn)、元數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)類型范圍到數(shù)據(jù)管理計劃和監(jiān)督,以及數(shù)據(jù)共享、發(fā)布和出版,均作了詳細(xì)的政策文件導(dǎo)引。如EIDC的《EIDC數(shù)據(jù)管理計劃指導(dǎo)手冊》[22]和《EIDC元數(shù)據(jù)指導(dǎo)手冊》[23],BODC的《BODC數(shù)據(jù)存儲總則》[24],以及CEDA的《CEDA數(shù)據(jù)存儲步驟》[25]等,有效地保證了發(fā)布平臺各環(huán)節(jié)工作的開展。
數(shù)據(jù)發(fā)布平臺涉及數(shù)據(jù)的收集、保存、管理、發(fā)布等一系列環(huán)節(jié),明確的權(quán)利責(zé)任機制將有助于各環(huán)節(jié)的實施和完善。明確權(quán)利責(zé)任機制不僅包括對用戶和機構(gòu)的權(quán)利責(zé)任限制和說明,也包括數(shù)據(jù)服務(wù)機構(gòu)對其內(nèi)部職位權(quán)利責(zé)任的部署。
對用戶和機構(gòu)的權(quán)利責(zé)任限制和說明如BODC要求用戶存儲數(shù)據(jù)前,同意其權(quán)利義務(wù)條款,具體包括:①確認(rèn)本人是數(shù)據(jù)發(fā)起人或獲得數(shù)據(jù)發(fā)起人的許可,同意BODC數(shù)據(jù)存儲條款;②數(shù)據(jù)所有權(quán)歸屬與數(shù)據(jù)發(fā)起人或研究機構(gòu)保持一致;③通過授予BODC許可以存儲數(shù)據(jù),保證數(shù)據(jù)永久存儲于BODC,并滿足BODC數(shù)據(jù)政策規(guī)定的數(shù)據(jù)使用和重復(fù)使用條款;④授予BODC將數(shù)據(jù)格式轉(zhuǎn)換為其他便于保存和訪問的格式。對其內(nèi)部職位權(quán)利責(zé)任的部署如NGDC設(shè)置專門的數(shù)據(jù)服務(wù)部門,提供數(shù)據(jù)服務(wù)經(jīng)理崗位,并詳細(xì)制定其工作內(nèi)容,包括管理BGS提供和傳遞的數(shù)據(jù)項目、提供對BGS數(shù)據(jù)合作伙伴的技術(shù)解決方案、策劃有助于BGS數(shù)據(jù)合作伙伴的商業(yè)類型和開放獲取類型的系列活動、探索提高數(shù)據(jù)訪問能力的方法、研究提供數(shù)據(jù)的多種創(chuàng)新方法(如Web服務(wù)和智能手機服務(wù)等);同時,設(shè)置知識產(chǎn)權(quán)與授權(quán)經(jīng)理、數(shù)據(jù)顯示與圖形設(shè)計工程師、數(shù)據(jù)處理和傳遞咨詢專員,并對相關(guān)崗位權(quán)利與義務(wù)作出明確界定。
作為自然科學(xué)數(shù)據(jù)發(fā)布平臺,數(shù)據(jù)的瀏覽和導(dǎo)航、數(shù)據(jù)檢索和存儲模塊是核心部分。經(jīng)過不斷試驗調(diào)整,5個平臺網(wǎng)站均采用簡明實用的內(nèi)容布局方式,即在主頁中將關(guān)鍵功能作為單獨模塊,便于用戶第一時間定位需求和服務(wù)。同時根據(jù)不同數(shù)據(jù)領(lǐng)域特點,配置新聞、熱點項目和咨詢服務(wù)模塊。數(shù)據(jù)瀏覽和導(dǎo)航模塊是向用戶展現(xiàn)平臺資源的直接方式,平臺提供多種瀏覽和導(dǎo)航方式供用戶選擇,如按照字母字順、元數(shù)據(jù)類別、數(shù)據(jù)類別、地理位置、數(shù)據(jù)采集時間等;檢索模塊由于受到簡單關(guān)鍵詞檢索的限制,提供專業(yè)檢索和組合檢索等高級檢索方式;存儲模塊提供步驟導(dǎo)引指導(dǎo)用戶依照流程完成存儲。整體而言,5個平臺網(wǎng)站界面用戶友好程度較高。
英國環(huán)境領(lǐng)域自然科學(xué)數(shù)據(jù)發(fā)布平臺的建設(shè)經(jīng)驗表明,完善的數(shù)據(jù)管理和服務(wù)不僅可以使歷史數(shù)據(jù)得以歸檔、長期保存和共享利用,也可以推動新增數(shù)據(jù)的業(yè)務(wù)化管理和在線發(fā)布,極大地推動科學(xué)數(shù)據(jù)的有效管理和利用。由于我國還處于科學(xué)數(shù)據(jù)管理服務(wù)的起步階段,在未來的發(fā)展中會遇到很多的困難與挑戰(zhàn),如缺少相應(yīng)的政策與經(jīng)費支持、數(shù)據(jù)保存與共享格式難以統(tǒng)一、缺乏科學(xué)數(shù)據(jù)長期保存技術(shù)與機制等。英國環(huán)境領(lǐng)域科學(xué)數(shù)據(jù)服務(wù)在這些方面已經(jīng)作出大膽嘗試,為我國相關(guān)機構(gòu)在開展服務(wù)方面提供參考和借鑒。因此,我國在開展科學(xué)數(shù)據(jù)共享服務(wù)時,可根據(jù)我國國情充分了解不同領(lǐng)域存儲和共享的需求和特點,并合理借鑒國外的成熟經(jīng)驗,以便更好地開展此項服務(wù)。
[1] NSF. Cyberinfrastruc ture Vision for 21st Century Discovery[EB/OL].[2017-10-13]. https://www.nsf.gov/pubs/2007/nsf0728/.
[2] Goportis Conference 2013 on Non-Textual Information Strategy and Innovation Beyond Text[EB/OL].[2017-07-28]. http:// www.nontextualinformation2013.de/index.php/programme.
[3] HYOUNGJOO P,DIETMAR W. An examination of research data sharing and reuse:implications for data citation practice[J]. Scientometrics,2017,111:443-461.
[4] ROBERT B,SURESH K S. Implementation of data citations and persistent identifies at the OPNL DAAC[J]. Ecological Informatics,2016(33):10-16.
[5] Wikipedia. Natural science[EB/OL].[2017-10-28]. https:// en.wikipedia.org/wiki/Natural_science.
[6] GORLIZ O,STAAB S. Federated data management and query optimization for linked open data[J]. New Directions in Web Data Management,2011,331:109-137.
[7] SILVIO P,ALEXANDER D,TANYA G. Setting our bibliographic references free:towards open citation data[J]. Journal of Documentation,2015,71(2):253-277.
[8] Symposum On International Scientific Data Sharing[EB/OL].[2017-10-29]. https://www.cni.org/news/symposium-oninternational-scientific-data-sharing-april-18-19-washington-dc.
[9] 顧立平. 科學(xué)數(shù)據(jù)開放獲取的政策研究[M]. 北京:科學(xué)技術(shù)文獻(xiàn)出版社,2016:108.
[10] 司莉,邢文明. 科學(xué)數(shù)據(jù)管理與共享的理論與實踐[M]. 武漢:武漢出版社,2017:21.
[11] 邱春艷. 歐盟科學(xué)數(shù)據(jù)開放獲取實踐及啟示[J]. 情報理論與實踐,2016,39(11):138-144.
[12] Open Government Licence for public sector information[EB/OL].[2018-01-01]. http://www.centralbedfordshire.gov.uk/Images/ open-government-licence_tcm3-11743.pdf.
[13] Guidelines for Responsible Data Management in Scientific Research[EB/OL]. [2018-01-01]. https://ori.hhs.gov/images/ ddblock/data.pdf.
[14] Scientific Data Management in the Coming Decade[EB/OL].[2018-01-01]. http://www.productmanualguide.com/newpdf/ scientific-data-management-in-the-coming-decade.pdf.f.
[15] Metadata Guidelines2[EB/OL].[2017-11-13]. http://www.agi. org.uk/storage/standards/uk-gemini/MetadataGuidelines2.pdf.
[16] MIKE T,PAUL W. Regression for citation data:an evaluation of different methods[J]. Journal of Informetrics,2014(8):963-971.
[17] British Geoloical Survey. Good data deposit guidelines[EB/OL].[2017-11-11]. http://www.bgs.ac.uk/services/ngdc/goodData. html.
[18] 國家科技基礎(chǔ)條件平臺中心. 國家科學(xué)數(shù)據(jù)資源發(fā)展報告2016[M]. 北京:科學(xué)技術(shù)文獻(xiàn)出版社,2016:45.
[19] 黃國彬,屈亞杰. 英國科研資助機構(gòu)的科學(xué)數(shù)據(jù)共享政策調(diào)研[J].圖書館論壇,2017(5):124-132.
[20] NERC. Data centres[EB/OL].[2017-11-13]. http://www.nerc. ac.uk/research/sites/data/policy2011.asp.
[21] NERC Data Policy[EB/OL].[2017-10-30]. http://www.nerc. ac.uk/research/sites/data/policy/data-policy/.
[22] EIDC Data Management Guidance & Template[EB/OL].[2017-11-11]. http://eidc.ceh.ac.uk/support/dataManagementGuidance.
[23] EIDC. Metadata Guidance[EB/OL].[2017-11-11]. http://eidc. ceh.ac.uk/deposit/metadata-guidance.
[24] British Oceanographic Data Centre. Submitting data to BODC[EB/OL].[2017-11-11]. https://www.bodc.ac.uk/submit_data/ submission_guidelines/.
[25] Centre for Environmental Data Analysis. Steps to archiving data with CEDA[EB/OL].[2017-11-12]. http://help.ceda. ac.uk/article/138-steps-to-archiving-data-with-ceda.