■屈寶強 宋立榮 王 健
1)中國科學(xué)技術(shù)信息研究所,北京市海淀區(qū)復(fù)興路15號 1000382)北京聯(lián)合大學(xué)應(yīng)用文理學(xué)院,北京市海淀區(qū)北土城西路197號 1001913)中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京市海淀區(qū)中關(guān)村南大街12號 100081
科學(xué)出版物是溝通和分享研究成果的基本形式,1665年第一本現(xiàn)代科學(xué)雜志出現(xiàn)[1],之后,隨著信息技術(shù)的發(fā)展,相繼出現(xiàn)了許多新的出版模式,其中之一是科學(xué)數(shù)據(jù)出版,試圖將原始的、記錄研究的數(shù)據(jù)以現(xiàn)有傳統(tǒng)出版物的標準進行出版。廣義的數(shù)據(jù)出版就是將科學(xué)數(shù)據(jù)相關(guān)內(nèi)容公開發(fā)布,它伴隨著科學(xué)數(shù)據(jù)的產(chǎn)生而存在。學(xué)術(shù)界對科學(xué)數(shù)據(jù)出版的關(guān)注隨著科學(xué)數(shù)據(jù)開放、共享的發(fā)展而不斷深入。特別是21世紀以來,各類數(shù)據(jù)倉儲和數(shù)據(jù)共享平臺不斷發(fā)展,不僅可以直接發(fā)布數(shù)據(jù),作為傳統(tǒng)期刊附件材料的存儲依托,還陸續(xù)出現(xiàn)了新型數(shù)據(jù)期刊。2010年國際科技數(shù)據(jù)委員會(Committee on Data for Science and Technology,CODATA)年會上開始討論數(shù)據(jù)出版的概念。2011年,Parsons應(yīng)邀在國際科學(xué)理事會世界數(shù)據(jù)系統(tǒng)(World Data System,WDS)就職會上舉辦題為“數(shù)據(jù)出版”的討論。2011年12月,在一個開放博客上展開了數(shù)據(jù)出版的大討論[2-3],從而引發(fā)對數(shù)據(jù)出版模式、方法、工具、標準的深入研究。Lawrence等[4]指出數(shù)據(jù)出版是指數(shù)據(jù)達到可引用和追溯的狀態(tài),討論了Data Publication和Data publication的區(qū)別,他們認為Data Publication是使數(shù)據(jù)“在互聯(lián)網(wǎng)上盡可能可用”,以及將數(shù)據(jù)處理(如創(chuàng)建元數(shù)據(jù)和同行評議)增值后提供給用戶,而Data publication致力于網(wǎng)站上的信息發(fā)布,沒有明確的長期數(shù)字歸檔行為。Data Publication提升了數(shù)據(jù)集資源的質(zhì)量、穩(wěn)定性、完整性、永久性,以及被學(xué)術(shù)資源引用的概率[5]。特別重要的是,在此期間,涌現(xiàn)了一批出版數(shù)據(jù)論文的期刊,例如EarthSystemScienceData、BiodiversityDataJournal、ScientificData等。2012年,科睿唯安(原湯森路透)發(fā)布了數(shù)據(jù)引文索引(Data Citation Index,DCI),極大地促進了對新型數(shù)據(jù)出版發(fā)展的思考。
在此情形下,科學(xué)數(shù)據(jù)出版日漸由期刊出版商驅(qū)動的傳統(tǒng)學(xué)術(shù)出版拓展到由多元主體合作發(fā)展驅(qū)動的數(shù)據(jù)出版,并成為促進科學(xué)數(shù)據(jù)開放共享的新型有效方式,受到科學(xué)數(shù)據(jù)共享領(lǐng)域和出版界的高度重視。為此,本研究從科學(xué)數(shù)據(jù)出版對數(shù)據(jù)共享與利用的重要作用出發(fā),通過對當(dāng)前國內(nèi)外科學(xué)數(shù)據(jù)出版研究、數(shù)據(jù)出版實踐的梳理、總結(jié),分析科學(xué)數(shù)據(jù)出版的主要特點和新時代科學(xué)數(shù)據(jù)出版的要求,并提出我國未來科學(xué)數(shù)據(jù)出版的建議。
隨著科學(xué)數(shù)據(jù)出版理論和實踐的不斷完善,當(dāng)前科學(xué)數(shù)據(jù)出版呈現(xiàn)出一些新的特點。
1.1.1 出版過程規(guī)范化
數(shù)據(jù)出版的實質(zhì)是提供在線可用(Available)、可發(fā)現(xiàn)(Discoverable)、可重用(Re-Usable)的數(shù)據(jù),使科學(xué)數(shù)據(jù)集可實時訪問(Accessible)、可被引用(Citable)、與研究活動和相關(guān)產(chǎn)品相互關(guān)聯(lián)(Interlinked)等[6]。當(dāng)前,科學(xué)數(shù)據(jù)出版的基本流程逐漸規(guī)范化,通過分析Pensoft、科學(xué)數(shù)據(jù)共享平臺等國內(nèi)外主要數(shù)據(jù)出版平臺以及EarthSystemScienceData、Nature、ScientificData等數(shù)據(jù)期刊的出版實踐,梳理出目前較為通用的數(shù)據(jù)出版流程,主要包括以下幾個步驟。
(1) 數(shù)據(jù)存儲。將數(shù)據(jù)從來源移動到合適的存儲庫(根據(jù)出版方式的不同,可能是通用數(shù)據(jù)倉儲、機構(gòu)知識庫,也可能是期刊、出版商指定或建設(shè)的數(shù)據(jù)倉儲),同時,做好數(shù)據(jù)的同行評議。在條件允許的情況下,做好數(shù)據(jù)的備份工作。
(2) 數(shù)據(jù)描述。依據(jù)領(lǐng)域分類和科學(xué)數(shù)據(jù)描述的相關(guān)元數(shù)據(jù)標準,自動或手動提取元數(shù)據(jù)內(nèi)容,并且將這些元數(shù)據(jù)統(tǒng)一到相應(yīng)的數(shù)據(jù)目錄體系當(dāng)中,為后續(xù)的科學(xué)數(shù)據(jù)資源的統(tǒng)一發(fā)現(xiàn)和計量分析打好基礎(chǔ)。
(3) 數(shù)據(jù)管理。由數(shù)據(jù)作者或數(shù)據(jù)管理員利用自動化的方法,對數(shù)據(jù)進行日常的管理工作,包括數(shù)據(jù)的質(zhì)量控制、數(shù)據(jù)更新、數(shù)據(jù)剔舊、數(shù)據(jù)歸檔、數(shù)據(jù)利用等,在此過程中做好數(shù)據(jù)的版本管理。
(4) 數(shù)據(jù)標識化。為科學(xué)數(shù)據(jù)分配某種形式的唯一標識符,保證科學(xué)數(shù)據(jù)能夠被解析。
(5) 數(shù)據(jù)出版。將原始科學(xué)數(shù)據(jù)以及科學(xué)數(shù)據(jù)元數(shù)據(jù)、數(shù)據(jù)描述文檔、數(shù)據(jù)論文等揭示和發(fā)現(xiàn)原始科學(xué)數(shù)據(jù)的內(nèi)容通過相應(yīng)的方式發(fā)布并告知數(shù)據(jù)用戶。
1.1.2 出版內(nèi)容和形式多樣化
科學(xué)數(shù)據(jù)可以各種形式存在,包括文本、數(shù)字、圖像、視頻或電影、音頻、軟件、算法、方程、動畫、模型、模擬等。在自然科學(xué)領(lǐng)域,大多數(shù)數(shù)據(jù)是由研究者收集或產(chǎn)生的,如觀測數(shù)據(jù)、實驗數(shù)據(jù)、模擬數(shù)據(jù)等。在社會科學(xué)領(lǐng)域,研究者可以自己收集和產(chǎn)生數(shù)據(jù),也可以通過其他來源如經(jīng)濟社會活動的公開記錄來獲取數(shù)據(jù)?;跀?shù)據(jù)類型和存在方式的多樣化,科學(xué)數(shù)據(jù)出版的內(nèi)容也逐漸豐富,不僅包括文本型數(shù)據(jù)的出版,還包括其他相關(guān)的音頻、視頻、文檔等內(nèi)容的出版。
科學(xué)數(shù)據(jù)出版的形式也逐漸多樣化,主要包括以下幾種形式。(1)獨立出版。科學(xué)數(shù)據(jù)不依賴于任何文件,但是為了使數(shù)據(jù)有用或可重復(fù),必須伴隨著描述性信息,例如一些數(shù)據(jù)倉儲與數(shù)據(jù)一起發(fā)布豐富、結(jié)構(gòu)化和/或自由描述文檔。如通過Dyrad(http:∥www.datadryad.org/)、Figshare(http:∥figshare.com/)、Zenodo(http:∥zenodo.org/),研究人員可以自存儲任何研究數(shù)據(jù),同時提供要求的文檔和驗證。(2)補充出版。數(shù)據(jù)集作為傳統(tǒng)出版物特別是學(xué)術(shù)論文的補充和關(guān)聯(lián)內(nèi)容。在這種情況下,數(shù)據(jù)集可以由期刊進行存儲,也可以由專門的第三方數(shù)據(jù)倉儲進行存儲。在未來,論文和相關(guān)附件數(shù)據(jù)的存儲可能會分離,主要原因是數(shù)據(jù)倉儲在數(shù)據(jù)管理方面的專業(yè)化更強,更適合數(shù)據(jù)集的長期保存,并為他人再次利用。(3)關(guān)聯(lián)出版。數(shù)據(jù)集是數(shù)據(jù)論文討論的對象,而數(shù)據(jù)論文是一種新興的論文形式,深入詳細地描述數(shù)據(jù)收集理由和方法,由ScientificData、GeoscienceDataJournal等數(shù)據(jù)期刊出版。從形式上看,這種出版方式既包括了數(shù)據(jù)的獨立出版,又類似于傳統(tǒng)學(xué)術(shù)論文出版的方式,并通過相應(yīng)的語義關(guān)系等關(guān)聯(lián)方式將數(shù)據(jù)和論文聯(lián)系在一起,例如數(shù)據(jù)文獻互連服務(wù)“The Data Literature Interlinking Service”構(gòu)建從各種主要數(shù)據(jù)源、出版商和研究組織中收集的基于數(shù)據(jù)集文獻鏈接的集合[7],在此基礎(chǔ)上利用這些鏈接形成其他數(shù)據(jù)服務(wù)。
1.1.3 出版組件工具化和標準化
科學(xué)數(shù)據(jù)出版不僅要解決數(shù)據(jù)的管理、發(fā)布和利用問題,還必須融入科學(xué)研究工作流程。當(dāng)前科學(xué)研究要求數(shù)據(jù)快速、準確獲取。因此,為縮短出版時間,出現(xiàn)了一些輔助實現(xiàn)快速、自動化出版的模塊化、開源和可共享的組件體系。例如在實現(xiàn)科學(xué)研究可重現(xiàn)性方面,González-Beltrán等[8]利用一系列nanopublication技術(shù)(主要是通過使用數(shù)據(jù)建??蚣芎涂蓤?zhí)行的工作流來提高再現(xiàn)性)復(fù)制了給定生命科學(xué)論文的結(jié)果。又如Galaxy 平臺與數(shù)據(jù)期刊Gigascience、開放數(shù)據(jù)管理平臺進行集成,包括將標準化的自動化組件融入到可執(zhí)行工作流中,并給出如何使用數(shù)據(jù)和相關(guān)材料的說明[9]。在數(shù)據(jù)互操作性和許可擴展的標準方面,通過使用數(shù)據(jù)發(fā)現(xiàn)和引用的元數(shù)據(jù)標準(例如DataCite、Dublin Core)和信息內(nèi)容交換標準(如METS、SWORD、Linking Open Data),支持標準化元數(shù)據(jù)的生成,提高重用性。在科學(xué)數(shù)據(jù)唯一標識方面,將DOIs標識符用于關(guān)聯(lián)不同的數(shù)據(jù)對象,使用ORCID幫助更好地進行數(shù)據(jù)分析與評價。
1.1.4 出版內(nèi)容可用化
科學(xué)數(shù)據(jù)出版不僅僅滿足于數(shù)據(jù)揭示,正逐步朝著數(shù)據(jù)易查、易讀、易懂、易用的方向發(fā)展,保證科學(xué)共同體內(nèi)的所有人員可以更加便捷地獲取原始數(shù)據(jù)以及數(shù)據(jù)的相關(guān)描述。
在保證信息內(nèi)容易讀方面,Springer出版社的SpringerHandbookofRobotics將多媒體內(nèi)容融入書中,通過運用諸如視頻等多媒體擴展方式,使讀者能夠進一步與書中內(nèi)容展開互動;并且為了保障視頻質(zhì)量,采用了一種同行評議系統(tǒng)來確保視頻內(nèi)容對書中內(nèi)容的支撐作用;同時建有網(wǎng)絡(luò)門戶,方便內(nèi)容貢獻者們上傳內(nèi)容描述、元數(shù)據(jù)及視頻文件,再將這些視頻與特定章節(jié)相互關(guān)聯(lián)[10]。
在滿足不同學(xué)科的數(shù)據(jù)利用需求方面,除類似Sloan Digital Sky Survey這種為科學(xué)家使用的大規(guī)模數(shù)據(jù)集外,還出現(xiàn)了大量服務(wù)于科學(xué)研究中“小數(shù)據(jù)”的出版平臺。例如Scidrive平臺是在科學(xué)家和開源云存儲之間提供網(wǎng)絡(luò)服務(wù)和客戶端的開源應(yīng)用程序,依靠云服務(wù)和云存儲方式出版各個研究機構(gòu)收集的天文圖像、表單等,其運行中的兩個協(xié)議是VOSpace[11]和Dropbox[12],可以自動識別上傳文件的內(nèi)容類型,并從已知的文件格式中提取元數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)[13]。
科學(xué)數(shù)據(jù)出版是保證數(shù)據(jù)有效共享的重要形式之一,因此數(shù)據(jù)出版需要更加簡單(make it easy)、數(shù)據(jù)可被引用(make it citable)、數(shù)據(jù)可方便使用(make it useful)[14]。在出版簡單化方面,需要強大的出版基礎(chǔ)設(shè)施、通用的數(shù)據(jù)格式標準和應(yīng)用程序、快速簡單易用的出版工具。在促進數(shù)據(jù)被引方面,要求將出版的數(shù)據(jù)納入學(xué)術(shù)評價的范疇,保證數(shù)據(jù)使用過程中的權(quán)益實現(xiàn)。在促進數(shù)據(jù)可利用方面,要求出版后便于后續(xù)的數(shù)據(jù)改進、編輯、注釋、分析、集成,從而方便用戶有效利用數(shù)據(jù)。這些目標對新時代科學(xué)數(shù)據(jù)出版提出了新的要求,主要包括以下幾點。
1.2.1 科學(xué)數(shù)據(jù)標準化引用
數(shù)據(jù)引用是一個復(fù)雜的問題,當(dāng)前主要從學(xué)術(shù)出版視角以及計算方法視角進行了研究。前者一直在研究數(shù)據(jù)引用的核心原則,例如數(shù)據(jù)引用的核心原則[15-16]和標準[17],這些原則可以幫助形成數(shù)據(jù)引用條件下的解決方案[16],解決如何連接科學(xué)出版物和基礎(chǔ)數(shù)據(jù)[18]、數(shù)據(jù)期刊評價[19]、基于數(shù)據(jù)引用的數(shù)據(jù)倉儲評價[20]、數(shù)據(jù)集影響的測度[21]等。后者一直專注于處理各類動態(tài)數(shù)據(jù)引用所需的基礎(chǔ)設(shè)施和系統(tǒng),例如針對XML[22]、RDF[23]和數(shù)據(jù)庫[24]等不同格式數(shù)據(jù)引用的基礎(chǔ)設(shè)施,以及如何提供對數(shù)據(jù)的訪問[7]。
在引用標準方面,基本要求是明確數(shù)據(jù)歸屬、提供數(shù)據(jù)來源、保證所引用的數(shù)據(jù)真實準確和權(quán)威、便于數(shù)據(jù)發(fā)現(xiàn)。當(dāng)前許多國際組織、數(shù)據(jù)中心和研究人員提出了不同的引用標準[25-28],引用涉及的主要元素包括作者、標題、出版日期、版本、出版商、標識符、位置等。我國也于2018年1月發(fā)布《科學(xué)數(shù)據(jù)引用》標準。但是這些標準的推廣實施等遠遠沒有達到預(yù)期。
根據(jù)數(shù)據(jù)出版的形式,實現(xiàn)數(shù)據(jù)引用有兩種方式。(1)面向獨立出版數(shù)據(jù)的直接引用。該方式由GenBank形成的核苷酸序列數(shù)據(jù)集首次使用[29],通常采用DataCite分配的標識符DOI,有時也可以使用其他標識符來實現(xiàn)引用,目前商業(yè)科技信息提供商開始將這種模式集成到產(chǎn)品如DCI當(dāng)中。又如Elsevier、DataCite和大量的數(shù)據(jù)庫合作,試圖通過DOI或其他唯一標識符,將ScienceDirect數(shù)據(jù)庫中的論文和使用的數(shù)據(jù)集鏈接起來。(2)引用關(guān)聯(lián)出版中描述數(shù)據(jù)集的“數(shù)據(jù)論文”或“數(shù)據(jù)出版物”。在這個方式中,將數(shù)據(jù)集鏈接到發(fā)表在傳統(tǒng)期刊或數(shù)據(jù)期刊數(shù)據(jù)論文的時候,元數(shù)據(jù)都是必要的,核心思想是通過引用數(shù)據(jù)論文進而引用數(shù)據(jù)集。該方法已在神經(jīng)科學(xué)[30]、遺傳科學(xué)[31]和生物信息學(xué)[32]等領(lǐng)域?qū)嵤?/p>
1.2.2 科學(xué)數(shù)據(jù)唯一化識別
在科學(xué)數(shù)據(jù)出版中使用唯一標識符,主要目的是為對數(shù)據(jù)感興趣的人員提供唯一、明確的識別方法。不管數(shù)據(jù)目前在何處,或管理數(shù)據(jù)的責(zé)任方如何變化,擁有唯一標識符都可以幫助用戶查找和訪問數(shù)據(jù),同時具有唯一標識方便在出版物中進行數(shù)據(jù)引用。全球影響力較大的數(shù)字資源唯一標識符系統(tǒng)包括在出版界廣泛應(yīng)用的Handle System、DOI以及面向圖書館應(yīng)用的ARK、PURLs、Persid等。在數(shù)據(jù)出版過程中,這些標識符的基本要求是機器可讀(計算機可自動識別)、唯一性(指向數(shù)據(jù)實體唯一)、永久性(規(guī)則長期固定)和可解析。
通過科學(xué)數(shù)據(jù)的唯一標識體系,還可以實現(xiàn)數(shù)據(jù)的版本管理和數(shù)據(jù)溯源。數(shù)據(jù)溯源可以用于科學(xué)數(shù)據(jù)質(zhì)量控制、數(shù)據(jù)管理、數(shù)據(jù)調(diào)試、數(shù)據(jù)發(fā)現(xiàn),以及科學(xué)結(jié)果的驗證、歸因和重現(xiàn)。典型的溯源元數(shù)據(jù)模板包含3個主要部分:過程、數(shù)據(jù)和參數(shù),例如PROV提供了溯源信息的表示、交換的標準化模型[33]。
1.2.3 科學(xué)數(shù)據(jù)便捷化利用
科學(xué)數(shù)據(jù)出版的最終目的是數(shù)據(jù)用戶能夠便捷使用相關(guān)數(shù)據(jù)。為更好地實現(xiàn)數(shù)據(jù)利用的便捷性,未來科學(xué)數(shù)據(jù)出版要重點解決以下問題。
(1) 提供不同粒度科學(xué)數(shù)據(jù)出版的方法。從用戶角度來看,要求出版的數(shù)據(jù)集的粒度是最小粒度,且可以任意組合;從數(shù)據(jù)存儲庫角度來看,更小粒度的數(shù)據(jù)出版意味著各方面成本的提升。未來出版的過程中要保證各個粒度科學(xué)數(shù)據(jù)都可方便使用,可以細化到數(shù)據(jù)庫、數(shù)據(jù)集或者數(shù)據(jù)記錄的信息單元,還可包括文本、數(shù)據(jù)集、圖像、視頻、錄音、數(shù)學(xué)模型、工作流、音像材料、有意義的鏈接和軟件包等,同時要給科學(xué)家提供工具,允許他們指定出版數(shù)據(jù)的粒度。
(2) 解決科學(xué)數(shù)據(jù)發(fā)現(xiàn)和獲取的問題。編制科學(xué)數(shù)據(jù)目錄體系,通過標識體系建立數(shù)據(jù)導(dǎo)航與發(fā)現(xiàn)機制,通過數(shù)據(jù)使用計量體系發(fā)現(xiàn)高質(zhì)量數(shù)據(jù)資源。對于科學(xué)數(shù)據(jù)目錄體系的建設(shè),主要包括以下幾種類型:基于數(shù)據(jù)存儲位置的目錄體系,如世界知名數(shù)據(jù)倉儲注冊系統(tǒng) re3data.org旨在基于注冊機制對所有領(lǐng)域的科學(xué)數(shù)據(jù)倉儲進行索引化和結(jié)構(gòu)化描述,目前它共索引全球2000多個數(shù)據(jù)中心/平臺;基于數(shù)據(jù)集/資源的目錄體系,類似圖書目錄;基于數(shù)據(jù)產(chǎn)品的目錄體系,如國家氣象衛(wèi)星中心的產(chǎn)品體系。科學(xué)數(shù)據(jù)目錄體系具有不同層級,包括機構(gòu)、地區(qū)、國家、全球、學(xué)科領(lǐng)域?qū)蛹壍哪夸涹w系。
在發(fā)現(xiàn)數(shù)據(jù)方面,已經(jīng)有科睿唯安建立的DCI索引體系幫助科學(xué)家發(fā)現(xiàn)使用頻率較高的科學(xué)數(shù)據(jù)。許多數(shù)據(jù)倉儲,包括FigShare、Digital Commons、DSpace、Fedora都有對數(shù)據(jù)使用情況進行了統(tǒng)計分析。另外,也有對科學(xué)數(shù)據(jù)在學(xué)術(shù)論文中的重用進行文獻計量學(xué)分析,提供數(shù)據(jù)使用度量和跟蹤,幫助科研人員發(fā)現(xiàn)科學(xué)數(shù)據(jù)。
(3) 解決科學(xué)數(shù)據(jù)長期保存和永久獲取的問題。數(shù)據(jù)倉儲會承擔(dān)越來越多這方面的任務(wù),例如Dryad已經(jīng)與多個出版商合作,存儲支撐期刊論文主要結(jié)論的數(shù)據(jù),重點負責(zé)實施數(shù)據(jù)監(jiān)管責(zé)任。其他利益相關(guān)者無須關(guān)心數(shù)據(jù)的日常管理和長期保存,這些數(shù)據(jù)倉儲充分利用其在這方面的專業(yè)性,建設(shè)相應(yīng)的基礎(chǔ)設(shè)施,保證數(shù)據(jù)出版的長期可持續(xù)發(fā)展。
(4) 解決科學(xué)數(shù)據(jù)標準化和數(shù)據(jù)質(zhì)量問題。一方面提升科學(xué)數(shù)據(jù)的質(zhì)量,例如Kahn等[34]定義了數(shù)據(jù)質(zhì)量的4個層面:數(shù)據(jù)采集描述(data capture descriptions)、數(shù)據(jù)處理描述(data processing descriptions)、數(shù)據(jù)元素特性(data elements characterization)和分析特定數(shù)據(jù)元素特性(analysis-specific data elements characterization),并基于此框架提出了包含20個度量指標的數(shù)據(jù)質(zhì)量評估框架來幫助提升數(shù)據(jù)質(zhì)量;另一方面,通過同行評議等機制來實現(xiàn)科學(xué)數(shù)據(jù)出版過程中的數(shù)據(jù)質(zhì)量控制,例如,屈寶強[35]分析了不同數(shù)據(jù)出版模式中數(shù)據(jù)同行評議的內(nèi)容及特點,指出在數(shù)據(jù)同行評議中的內(nèi)容確定、時機選擇、工具、流程等提升數(shù)據(jù)質(zhì)量的要求。
(1) 科學(xué)數(shù)據(jù)出版的政策眾多,但缺乏宏觀層面的統(tǒng)籌規(guī)劃。目前,科學(xué)數(shù)據(jù)出版政策主要是各個數(shù)據(jù)出版主體機構(gòu)出于自身發(fā)展而制定的內(nèi)部數(shù)據(jù)出版政策,涉及數(shù)據(jù)存儲方式、提交流程、質(zhì)量評審方法、數(shù)據(jù)引用等方面。還有一些分散在機構(gòu)的各種數(shù)據(jù)管理辦法、標準規(guī)范中。尚需行業(yè)、領(lǐng)域乃至國家層面統(tǒng)一的科學(xué)數(shù)據(jù)出版政策來指導(dǎo)、規(guī)范各個期刊、數(shù)據(jù)倉儲中心的科學(xué)數(shù)據(jù)出版系統(tǒng)建設(shè),以便科學(xué)數(shù)據(jù)資源能夠相互利用,發(fā)揮其巨大的數(shù)據(jù)聚合價值。
(2) 科學(xué)數(shù)據(jù)出版缺乏長期穩(wěn)定的資金支持,難以形成規(guī)模化的科學(xué)數(shù)據(jù)出版中心。由于科學(xué)數(shù)據(jù)出版涉及數(shù)據(jù)存儲維護、數(shù)據(jù)安全防護和數(shù)據(jù)利用等,投入非常大,而且數(shù)據(jù)資源的運行維護成本會隨著數(shù)據(jù)量的激增、對外服務(wù)的拓展而驟增,僅靠單一主體所投入的經(jīng)費將不足以維持數(shù)據(jù)出版系統(tǒng)的正常運行。目前,生物信息、生命醫(yī)學(xué)、地球物理、地理遙感等領(lǐng)域的科學(xué)數(shù)據(jù)出版發(fā)展較快,其他領(lǐng)域尚未形成規(guī)?;臄?shù)據(jù)出版中心,尤其是跨領(lǐng)域數(shù)據(jù)中心,使得各領(lǐng)域數(shù)據(jù)之間難以相互融合利用。
(3) 數(shù)據(jù)資源質(zhì)量有待提高。從整體看,科學(xué)數(shù)據(jù)出版發(fā)展尚未形成穩(wěn)定的運行模式,還在隨著新技術(shù)的應(yīng)用、新需求的產(chǎn)生不斷推陳出新。說明科學(xué)數(shù)據(jù)出版尚處于探索階段,尚未形成成熟的數(shù)據(jù)出版質(zhì)量管控體系,尤其是數(shù)據(jù)資源質(zhì)量的同行評議尚無統(tǒng)一的參考標準,使得各個科學(xué)數(shù)據(jù)出版主體的質(zhì)量控制差異較大,質(zhì)量把控的粗細度不一致。
(4) 服務(wù)導(dǎo)向性不強,與作者、讀者乃至科研活動結(jié)合的緊密程度有待加強。目前科學(xué)數(shù)據(jù)出版更多的是解決期刊學(xué)術(shù)論文的數(shù)據(jù)可再現(xiàn)性、可復(fù)制性等問題,數(shù)據(jù)論文數(shù)量相對而言還很少,尤其在應(yīng)對科研人員不斷趨向智能化、簡捷化、個性化、專業(yè)化和知識化需求方面面臨著較大的挑戰(zhàn),導(dǎo)致科學(xué)數(shù)據(jù)出版呈現(xiàn)“兩頭冷,中間熱”的現(xiàn)象(盡管期刊、數(shù)據(jù)中心很熱心,但作者、讀者積極性不高)。因此,如何全方位、主動式、多層面的圍繞科研人員需求開展深層次、全方位、主動的數(shù)據(jù)資源出版服務(wù)將是今后科學(xué)數(shù)據(jù)出版服務(wù)的關(guān)鍵。
(5) 尚未形成完整的科學(xué)數(shù)據(jù)出版體系。完整的科學(xué)數(shù)據(jù)出版體系中應(yīng)包括數(shù)據(jù)提交、同行審議、數(shù)據(jù)發(fā)布、數(shù)據(jù)永久存儲、數(shù)據(jù)引用和數(shù)據(jù)影響評價等基本環(huán)節(jié),以期能夠解決以往傳統(tǒng)科學(xué)數(shù)據(jù)開放共享中所遇到的一些深層次瓶頸問題。但目前在數(shù)據(jù)版權(quán)確認、數(shù)據(jù)標識應(yīng)用、數(shù)據(jù)引用規(guī)范、數(shù)據(jù)成果推廣的“激勵”與“獎罰”等方面還缺乏明確的規(guī)范和標準,有待進一步探索。
我國在科學(xué)數(shù)據(jù)出版研究和實踐方面取得重要進展,主要表現(xiàn)在:(1)作為國家科技基礎(chǔ)條件平臺的一部分,科學(xué)數(shù)據(jù)共享平臺從2002年開始建設(shè),人口健康、地球科學(xué)、農(nóng)業(yè)、氣象等領(lǐng)域國家科學(xué)數(shù)據(jù)平臺在科學(xué)數(shù)據(jù)元數(shù)據(jù)出版和發(fā)布方面作出重要貢獻;(2)有一些期刊已經(jīng)開始出版數(shù)據(jù)論文,并與相關(guān)數(shù)據(jù)中心的原始數(shù)據(jù)關(guān)聯(lián)出版,例如《中國科學(xué)數(shù)據(jù)》《地理學(xué)報增刊》《圖書館雜志》;(3)出現(xiàn)了一批針對科學(xué)數(shù)據(jù)出版模式、標準、技術(shù)的研究成果[36-39],以及對領(lǐng)域科學(xué)數(shù)據(jù)出版問題的探討[40-41]。但是,從當(dāng)前科學(xué)數(shù)據(jù)出版的新特點和發(fā)展趨勢來看,我國科學(xué)數(shù)據(jù)出版正在從以期刊出版機構(gòu)為核心的、相對傳統(tǒng)封閉的狹義科學(xué)數(shù)據(jù)出版擴展到科學(xué)領(lǐng)域多元主體的、開放的科學(xué)數(shù)據(jù)出版方式,必將在出版主體責(zé)任劃分、出版流程、出版機制、獎罰機制、評價體系等方面面臨新的問題。為促進我國科學(xué)數(shù)據(jù)的高效利用,今后應(yīng)加強以下幾方面的工作。
(1) 探索新型出版模式。圍繞《科學(xué)數(shù)據(jù)管理辦法》制定詳細的實施細則,探索新型科學(xué)數(shù)據(jù)出版方式,創(chuàng)造有利于科學(xué)數(shù)據(jù)出版的外部環(huán)境。2018年4月國務(wù)院頒布的《科學(xué)數(shù)據(jù)管理辦法》第二十二條指出:“主管部門和法人單位應(yīng)積極推動科學(xué)數(shù)據(jù)出版和傳播工作,支持科研人員整理發(fā)表產(chǎn)權(quán)清晰、準確完整、共享價值高的科學(xué)數(shù)據(jù)。”這從政策上保證了國內(nèi)科學(xué)數(shù)據(jù)出版的科學(xué)性和合理性。因此,各個科學(xué)數(shù)據(jù)出版機構(gòu)應(yīng)積極應(yīng)對,不僅從硬件基礎(chǔ)設(shè)施上加強投入建設(shè),滿足海量科學(xué)數(shù)據(jù)資源的上傳、存儲、使用、服務(wù)等,還要從軟件環(huán)境上積極準備,制定科學(xué)數(shù)據(jù)資源的技術(shù)標準、操作規(guī)范、設(shè)計分析工具、創(chuàng)新服務(wù)流程等。
(2) 促進數(shù)據(jù)出版中的權(quán)益保護機制形成。探索、完善科學(xué)數(shù)據(jù)出版中知識產(chǎn)權(quán)確認機制,保障科學(xué)數(shù)據(jù)生產(chǎn)者權(quán)益。著力解決公益性原始科學(xué)數(shù)據(jù)資源的開放共享,以及科學(xué)數(shù)據(jù)出版對數(shù)據(jù)產(chǎn)品加工的新增投入(包括新的經(jīng)費投入和開發(fā)人員的智力投入)產(chǎn)權(quán)權(quán)屬及使用規(guī)范,需要相應(yīng)的政策給予明確界定,比如共享范圍、方式、與作者之間的許可協(xié)議等。同時,建設(shè)和完善科學(xué)數(shù)據(jù)出版的科學(xué)道德倫理規(guī)范。
(3) 加強出版中標準規(guī)范和工具體系建設(shè)。建立數(shù)據(jù)出版各個環(huán)節(jié)的標準、流程、指南、規(guī)范以及基礎(chǔ)設(shè)施和工具體系,包括組織管理工作的標準規(guī)范、數(shù)據(jù)資源的標準規(guī)范、出版系統(tǒng)環(huán)境的標準規(guī)范、數(shù)據(jù)唯一標識和著錄的工具體系等。另外,科學(xué)數(shù)據(jù)倉儲、數(shù)據(jù)中心、機構(gòu)知識庫等在新型數(shù)據(jù)出版模式當(dāng)中發(fā)揮重要作用,須以落實《科學(xué)數(shù)據(jù)管理辦法》為契機,認定和建設(shè)一批領(lǐng)域數(shù)據(jù)中心作為數(shù)據(jù)出版的重要基礎(chǔ)設(shè)施。
(4) 變革科學(xué)數(shù)據(jù)管理機制。調(diào)整現(xiàn)有數(shù)據(jù)中心的定位和數(shù)據(jù)管理機制,發(fā)展基于元數(shù)據(jù)的科學(xué)數(shù)據(jù)出版方式,充分利用DOI、DCI等注冊機制,明確數(shù)據(jù)產(chǎn)權(quán),形成以國家主要科學(xué)數(shù)據(jù)共享中心為主體的、開放的新型科學(xué)數(shù)據(jù)出版體系,滿足全社會科研人員發(fā)現(xiàn)和獲取科學(xué)數(shù)據(jù)的需求,發(fā)揮其網(wǎng)絡(luò)科技傳播的引導(dǎo)作用。
科學(xué)數(shù)據(jù)出版是促進科學(xué)數(shù)據(jù)共享和使用的重要方式之一,不管是獨立數(shù)據(jù)出版還是關(guān)聯(lián)數(shù)據(jù)出版都還處于不斷發(fā)展探索階段。本研究對當(dāng)前科學(xué)數(shù)據(jù)出版實踐進展和研究成果進行梳理和歸類,在此基礎(chǔ)上總結(jié)了當(dāng)前科學(xué)數(shù)據(jù)出版面臨的新要求以及我國的應(yīng)對措施。更為重要的是,相對于傳統(tǒng)出版領(lǐng)域而言,目前科學(xué)數(shù)據(jù)出版領(lǐng)域遠未形成完整、系統(tǒng)的生態(tài)體系,比如控制科學(xué)數(shù)據(jù)出版質(zhì)量的標準體系還不成熟,數(shù)據(jù)使用的權(quán)益分配機制還不完善,體現(xiàn)科學(xué)數(shù)據(jù)影響力的學(xué)術(shù)評價體系還未建立,需要科學(xué)數(shù)據(jù)出版各個利益相關(guān)者共同推進,以形成完整的有助于學(xué)術(shù)傳播的科學(xué)數(shù)據(jù)出版生態(tài)環(huán)境。