黃國彬 王舒 屈亞杰
摘要 根據(jù)科學(xué)數(shù)據(jù)產(chǎn)生情形,將出版模式歸納為科學(xué)數(shù)據(jù)集成出版與獨立出版兩種模式,并從數(shù)據(jù)集描述方式、質(zhì)量審核方式與出版費(fèi)用三個方面對歸納的出版模式進(jìn)行了比較分析。通過對不同出版模式下的典型案例的分析,總結(jié)出如下結(jié)論:數(shù)據(jù)集描述方式和對象與出版模式中涉及的出版主體有關(guān);獨立出版模式的質(zhì)量審核更為完善;不同出版模式,其付費(fèi)標(biāo)準(zhǔn)和費(fèi)用承擔(dān)主體不同。對當(dāng)前科學(xué)數(shù)據(jù)出版模式的比較研究,可為國內(nèi)科學(xué)數(shù)據(jù)出版實踐發(fā)展提供借鑒。
關(guān)鍵詞 科學(xué)數(shù)據(jù) 出版模式 集成出版 獨立出版
分類號 G255.51
DOI 10.16603/j. issn- 1002-1027. 2018. 01. 005
1 引言
德國蒂姆(Thieme)出版集團(tuán)的化學(xué)雜志負(fù)責(zé)人蘇珊娜·哈克(Susanne Haak)博士認(rèn)為:“在自然科學(xué)領(lǐng)域,獲取原始研究數(shù)據(jù)是研究工作的一個基本條件?!边@一觀點同樣適用于人文社會科學(xué)領(lǐng)域。例如人文社會科學(xué)領(lǐng)域的定量研究大多基于調(diào)查數(shù)據(jù)、統(tǒng)計數(shù)據(jù),其研究開展的關(guān)鍵在于原始數(shù)據(jù)的獲取。而不論是自然科學(xué)還是人文社會科學(xué)領(lǐng)域,數(shù)據(jù)的獲取一般有以下兩種途徑:一是通過研究者本人觀測、實驗、調(diào)查或訪談獲取數(shù)據(jù);二是通過共享其他研究者已產(chǎn)生的數(shù)據(jù)。在實際開展研究過程中,由于資金、設(shè)備、場地、時間等因素限制,部分研究人員難以通過自身努力產(chǎn)生科學(xué)數(shù)據(jù)?;诖?,研究者通過數(shù)據(jù)共享渠道,利用已有的科學(xué)數(shù)據(jù)來開展研究工作顯得尤為重要。目前,雖然美國的國家自然科學(xué)基金委員會、英國的皇家理事會及其七個研究委員會等科研資助機(jī)構(gòu),出臺了關(guān)于科學(xué)數(shù)據(jù)共享的政策,但由于缺乏有效的科學(xué)數(shù)據(jù)引用機(jī)制和學(xué)術(shù)貢獻(xiàn)認(rèn)可機(jī)制,大量分散在不同國家、不同地區(qū)、不同研究項目及各個科學(xué)家手中的科學(xué)數(shù)據(jù)難以主動、有效地共享。如何解決上述問題成為期刊出版界、數(shù)據(jù)知識庫和科研基金機(jī)構(gòu)探討和研究的主要問題。而在數(shù)字環(huán)境和開放獲取潮流中,科學(xué)數(shù)據(jù)出版被認(rèn)為是推動科學(xué)數(shù)據(jù)共享的重要手段。但到目前為止,學(xué)術(shù)界對科學(xué)數(shù)據(jù)出版并沒有統(tǒng)一明確的定義。而明確含義是總結(jié)和分析科學(xué)數(shù)據(jù)出版模式的前提。因此,筆者結(jié)合國內(nèi)外學(xué)者的觀點,總結(jié)出科學(xué)數(shù)據(jù)出版是正式的科學(xué)數(shù)據(jù)發(fā)布,即在數(shù)據(jù)發(fā)布過程中遵循規(guī)范的質(zhì)量管理和控制流程,為數(shù)據(jù)用戶增加數(shù)據(jù)的價值,如創(chuàng)建元數(shù)據(jù)和同行評審等,使得科學(xué)數(shù)據(jù)集達(dá)到可發(fā)現(xiàn)、可獲取、可理解和可追溯的狀態(tài)。
2 國內(nèi)外研究現(xiàn)狀
目前國內(nèi)外學(xué)者對科學(xué)數(shù)據(jù)出版模式的研究,可以歸納為如下三個方面:(1)對某一種出版模式的深入研究。例如,馬建玲、蘇珊·萊利(Susan Reil-ly)等人對學(xué)術(shù)論文與科學(xué)數(shù)據(jù)集成出版進(jìn)行了研究。布瑞澤(Brase)等人以世界數(shù)據(jù)中心(World Data Centers,WDC)和德國科學(xué)技術(shù)圖書館為例,對數(shù)據(jù)知識庫獨立出版科學(xué)數(shù)據(jù)的模式展開研究。(2)以典型案例為研究對象,探討該案例的出版模式。例如,李紅星等人結(jié)合寒區(qū)旱區(qū)科學(xué)數(shù)據(jù)中心的實踐經(jīng)驗,提出數(shù)據(jù)中心和多期刊聯(lián)合出版數(shù)據(jù)的模式,并對該模式深入探討。高雅探討了ENCODE項目科學(xué)數(shù)據(jù)出版模式,并總結(jié)了該出版模式在科學(xué)數(shù)據(jù)挖掘和利用方面的創(chuàng)新之處。(3)對某個學(xué)科領(lǐng)域的出版模式展開研究。例如埃里克(Eric C.Kansa)等人研究了考古學(xué)領(lǐng)域的科學(xué)數(shù)據(jù)出版現(xiàn)狀與存在的問題,在此基礎(chǔ)上提出“數(shù)據(jù)共享即出版”的科學(xué)數(shù)據(jù)出版模式。
上述關(guān)于科學(xué)數(shù)據(jù)出版模式的研究,多集中于對某一種出版模式或典型科學(xué)數(shù)據(jù)出版案例進(jìn)行詳細(xì)介紹和分析,而對于多種模式的比較研究開展得較少。雖然梁子裕和張靜蓓對多種科學(xué)數(shù)據(jù)出版模式進(jìn)行歸納總結(jié)和比較分析,但僅籠統(tǒng)地從優(yōu)缺點的角度進(jìn)行分析,忽略了科學(xué)數(shù)據(jù)出版過程中的數(shù)據(jù)集描述、質(zhì)量審核等關(guān)鍵環(huán)節(jié)的比較分析。此外,現(xiàn)有研究中科學(xué)數(shù)據(jù)出版模式的劃分標(biāo)準(zhǔn)模糊不清。因此,文章根據(jù)科學(xué)數(shù)據(jù)的產(chǎn)生情形,結(jié)合科學(xué)數(shù)據(jù)出版的定義,歸納與總結(jié)當(dāng)前科學(xué)數(shù)據(jù)的出版模式。在此基礎(chǔ)上,運(yùn)用比較分析法,從數(shù)據(jù)集描述、質(zhì)量審核和出版費(fèi)用三個角度對不同模式展開比較分析。
3 科學(xué)數(shù)據(jù)的出版模式及案例分析
首先,根據(jù)科學(xué)數(shù)據(jù)的產(chǎn)生情形對科學(xué)數(shù)據(jù)的出版模式進(jìn)行一次劃分??茖W(xué)數(shù)據(jù)的產(chǎn)生情形有兩種,一是伴隨著期刊論文的產(chǎn)生而產(chǎn)生的,通常是科研人員為了研究某個問題,使用實驗、調(diào)查或模擬的研究方法,并在此過程中產(chǎn)生了原始數(shù)據(jù)。此類數(shù)據(jù)通常與某篇學(xué)術(shù)論文相關(guān),因此通常與學(xué)術(shù)論文集成出版。第二種情形是通過儀器設(shè)備觀測自然現(xiàn)象,并以數(shù)據(jù)的形式將其觀測的現(xiàn)象記錄下來,例如水文數(shù)據(jù)、氣象數(shù)據(jù)等;或者是對社會現(xiàn)象的調(diào)查、統(tǒng)計,并以數(shù)據(jù)的形式呈現(xiàn)出來,例如調(diào)查數(shù)據(jù)、統(tǒng)計數(shù)據(jù)等。此類數(shù)據(jù)是在特定的時間、地點產(chǎn)生的,因其產(chǎn)生的時空條件具有不可復(fù)制的特點,需要被很好地保存。該類科學(xué)數(shù)據(jù)的產(chǎn)生與學(xué)術(shù)文獻(xiàn)沒有直接關(guān)系,通常以獨立學(xué)術(shù)成果的形式出版。因此,筆者將此出版模式稱為科學(xué)數(shù)據(jù)獨立出版模式。其次,對集成出版而言,依據(jù)科學(xué)數(shù)據(jù)的存儲位置,可細(xì)分為學(xué)術(shù)期刊自建設(shè)施自行出版和學(xué)術(shù)期刊與公共數(shù)據(jù)倉儲合作出版兩種。對獨立出版模式而言,依據(jù)出版主體,可細(xì)分為數(shù)據(jù)知識庫出版和數(shù)據(jù)期刊出版兩種(如圖1所示)。
3.1 科學(xué)數(shù)據(jù)集成出版
一篇學(xué)術(shù)文獻(xiàn)往往離不開原始數(shù)據(jù)的支撐。在傳統(tǒng)的學(xué)術(shù)出版體系中,出版商更多地關(guān)注學(xué)術(shù)期刊、科技報告等文本文獻(xiàn)的出版。但隨著數(shù)據(jù)驅(qū)動研究范式的形成和數(shù)字科研環(huán)境的影響,支撐學(xué)術(shù)論文的原始數(shù)據(jù)在科學(xué)研究活動中的地位越來越重要。周波認(rèn)為科學(xué)數(shù)據(jù)已經(jīng)由科學(xué)研究的起點和基礎(chǔ)發(fā)展成為科研活動的牽引力之一。越來越多的學(xué)術(shù)期刊出版商認(rèn)識到在出版學(xué)術(shù)論文的同時出版支撐論文的原始數(shù)據(jù)的重要性。因此,學(xué)術(shù)論文與科學(xué)數(shù)據(jù)集成出版的模式應(yīng)運(yùn)而生。將二者集成出版,一方面為學(xué)術(shù)論文的評價與評審提供數(shù)據(jù)支持;另一方面,數(shù)據(jù)用戶通過文獻(xiàn)可以更好地理解科學(xué)數(shù)據(jù),從而推動后續(xù)科研人員以出版的科學(xué)數(shù)據(jù)為基礎(chǔ)開展更深層次或更廣范圍的研究,實現(xiàn)科學(xué)創(chuàng)新。
通過該模式出版科學(xué)數(shù)據(jù),流程通常是,在學(xué)術(shù)期刊的要求下,作者在向期刊提交學(xué)術(shù)論文的同時提交支撐其論文的科學(xué)數(shù)據(jù),有的期刊選擇白行管理科學(xué)數(shù)據(jù),而有的期刊選擇將科學(xué)數(shù)據(jù)提交至公共數(shù)據(jù)倉儲并委托其管理。根據(jù)科學(xué)數(shù)據(jù)管理機(jī)構(gòu)和存儲位置的不同,可將集成出版模式分為以下兩種。
3.1.1 提交至學(xué)術(shù)期刊,由學(xué)術(shù)期刊自行出版
該模式以學(xué)術(shù)期刊為科學(xué)數(shù)據(jù)的出版主體,學(xué)術(shù)期刊在出版學(xué)術(shù)論文的同時將支撐學(xué)術(shù)論文核心論點的原始數(shù)據(jù)進(jìn)行出版。該模式下,科學(xué)數(shù)據(jù)是由學(xué)術(shù)期刊自建設(shè)施白行管理,典型案例為德國蒂姆(Thieme)集團(tuán)出版的化學(xué)期刊,如Synthesis。2010年,Thieme意識到,由于化學(xué)領(lǐng)域沒有科學(xué)數(shù)據(jù)中央存儲庫,大量的數(shù)據(jù)分散在科學(xué)家自己的電腦上,導(dǎo)致數(shù)據(jù)不能有效地發(fā)布和共享。因此,它與德國科學(xué)技術(shù)圖書館合作建立科學(xué)數(shù)據(jù)存儲平臺,成為第一家將原始數(shù)據(jù)與學(xué)術(shù)論文同時出版并在世界范圍內(nèi)共享的出版社。其出版的科學(xué)數(shù)據(jù)主要是實驗中收集的原始數(shù)據(jù),該數(shù)據(jù)幫助化學(xué)領(lǐng)域的學(xué)者了解在化學(xué)反應(yīng)的過程中發(fā)生了什么,以便更好地理解論文。原始數(shù)據(jù)以壓縮文件的形式出版,用戶可無限制地下載至本地。數(shù)據(jù)集與論文集成在同一界面,其出版信息包括數(shù)據(jù)集出版時間、摘要和DOI號(如圖2所示)。
Thieme科學(xué)數(shù)據(jù)的出版流程為:(1)在提交論文的同時,將支持論文的原始數(shù)據(jù)提交至Thieme;(2)Thieme將科學(xué)數(shù)據(jù)貯存在白建的數(shù)據(jù)中心;(3)在德國科學(xué)技術(shù)圖書館注冊并由其向原始數(shù)據(jù)分配DOI號;(4)原始數(shù)據(jù)通過添加在Thieme e-Journal系統(tǒng)中實現(xiàn)出版。
3.1.2 提交至公共的科學(xué)數(shù)據(jù)知識庫,并委托其管理
在該模式下,科學(xué)數(shù)據(jù)的出版主體為學(xué)術(shù)期刊和科學(xué)數(shù)據(jù)知識庫。當(dāng)作者向期刊提交論文時,被要求將支撐論文核心論點的科學(xué)數(shù)據(jù)提交至科學(xué)數(shù)據(jù)知識庫,由科學(xué)數(shù)據(jù)知識庫向數(shù)據(jù)集分配DOI號,之后,作者需在待發(fā)表的論文中引用數(shù)據(jù)集,同時科學(xué)數(shù)據(jù)知識庫在數(shù)據(jù)出版頁面上插入論文基本信息。該模式的典型案例為Dryad數(shù)字倉儲(DryadDigital Repository,Dryad)提供的集成出版服務(wù)。Dryad的創(chuàng)建與發(fā)展起源于聯(lián)合數(shù)據(jù)存儲政策提議(Joint Archiving Policy,JDAP)。JDAP是由生物進(jìn)化領(lǐng)域的許多期刊于2011年聯(lián)合發(fā)表的一個政策模式倡議。其核心內(nèi)容是:出版學(xué)術(shù)論文的前提是將支撐論文結(jié)論的數(shù)據(jù)存儲至合適的數(shù)據(jù)知識庫中公開出版,并委托其管理。目前該倡議提出的模板得到了其他領(lǐng)域?qū)W術(shù)期刊的認(rèn)同。Dryad作為一個公共數(shù)據(jù)知識庫,是所有接受JDAP模板的學(xué)術(shù)期刊所推薦的數(shù)據(jù)倉儲之一。目前有107家期刊實現(xiàn)了與Dryad的集成出版。因此,筆者選取Dryad集成出版服務(wù)為該模式的典型案例并重點分析。Dryad將數(shù)據(jù)集信息與來源文獻(xiàn)信息集成在一個文件包中,可在該包中訪問來源文獻(xiàn)和下載科學(xué)數(shù)據(jù)。此外,Dryad要求,在來源文獻(xiàn)中必須插入存儲在Dryad中的支撐數(shù)據(jù)的DOI號。
在Dryad集成出版中涉及三個主體,分別是作者、期刊、數(shù)據(jù)倉儲。論文由作者提交至期刊,由期刊進(jìn)行出版;而數(shù)據(jù)集由作者提交至Dryad.由Dry-ad進(jìn)行出版,但二者需要集成,因此出版流程較為復(fù)雜,如下:(1)作者向期刊提交論文手稿;(2)當(dāng)論文審核通過后,期刊利用自動通知系統(tǒng)告知Dry-ad,之后,Dryad為預(yù)期數(shù)據(jù)創(chuàng)建臨時記錄,并將臨時記錄的鏈接發(fā)送給期刊(3)同時期刊通知作者向Dryad提交數(shù)據(jù)并向作者提供臨時記錄的鏈接;(4)作者將數(shù)據(jù)及其描述文件上傳至臨時記錄中;(5)Dryad為記錄分配一個DOI號,并將其同時發(fā)送給作者和期刊;(6)Dryad 工作人員審查數(shù)據(jù),對每個文件執(zhí)行基本檢查,并發(fā)布數(shù)據(jù)包;(7)期刊保證其所有版本的論文都在文中和文后參考引文中附有數(shù)據(jù)集的DOI號。此外,當(dāng)論文在審核中時,Dryad會將數(shù)據(jù)集的臨時記錄鏈接發(fā)送至期刊,以供同行評審人員對數(shù)據(jù)集進(jìn)行審查。
3.2 科學(xué)數(shù)據(jù)獨立出版
并不是所有的科學(xué)數(shù)據(jù)都有來源文獻(xiàn),例如水文數(shù)據(jù)、氣象數(shù)據(jù)等,是通過某個長期觀測項目持續(xù)產(chǎn)生的,從來源層面并沒有直接相關(guān)的文獻(xiàn)。對于此類科學(xué)數(shù)據(jù),通常是以獨立學(xué)術(shù)成果的形式出版。該出版模式下,數(shù)據(jù)歸檔是出版的必要環(huán)節(jié)。根據(jù)出版流程,可將獨立出版模式劃分兩種。一是直接通過數(shù)據(jù)歸檔機(jī)構(gòu)出版;二是將數(shù)據(jù)歸檔后,由數(shù)據(jù)期刊出版。
3.2.1 數(shù)據(jù)知識庫出版
在該出版模式中,數(shù)據(jù)知識庫是科學(xué)數(shù)據(jù)出版的核心機(jī)構(gòu)。數(shù)據(jù)生產(chǎn)者根據(jù)其科學(xué)數(shù)據(jù)的特點和資助機(jī)構(gòu)的要求,選擇合適的數(shù)據(jù)知識庫存儲其科學(xué)數(shù)據(jù),數(shù)據(jù)知識庫按其政策收取或免去費(fèi)用,對科學(xué)數(shù)據(jù)實施長期監(jiān)護(hù),并向每個數(shù)據(jù)集提供DOI號,以保證科學(xué)數(shù)據(jù)的可訪問性、可理解性和可共享性。目前,數(shù)據(jù)知識庫的學(xué)科范圍較廣,從自然科學(xué)到社會科學(xué);涉及的數(shù)據(jù)多為特定時空范圍內(nèi)通過大型儀器設(shè)備或大型調(diào)查而產(chǎn)生的,其類型主要包括觀測數(shù)據(jù)、統(tǒng)計數(shù)據(jù)和調(diào)查數(shù)據(jù)等。其中較為典型的數(shù)據(jù)知識庫出版案例為英國的信息環(huán)境數(shù)據(jù)中心(The Envlronmental Information Data Centre,EIDC)。EIDC由世界級的研究中心生態(tài)與水文中心(Centre for Ecology &.Hydrology,CEH)主力、,出版由CEH長期監(jiān)測全英水文環(huán)境而獲得的觀測數(shù)據(jù)。與集成出版下的兩種出版模式不同,EIDC出版信息較為單一,僅有數(shù)據(jù)集本身的相關(guān)信息,主要包含基本出版信息、數(shù)據(jù)集內(nèi)容信息和數(shù)據(jù)集獲取信息三個方面。
由于該模式涉及的數(shù)據(jù)出版主體僅為數(shù)據(jù)知識庫,因此出版流程較為簡單。EIDC的出版流程為:(1)數(shù)據(jù)生產(chǎn)者提交數(shù)據(jù),同時須提交數(shù)據(jù)集的描述文檔;(2)數(shù)據(jù)知識庫審查數(shù)據(jù)質(zhì)量和元數(shù)據(jù)質(zhì)量(3)數(shù)據(jù)知識庫存儲數(shù)據(jù),將數(shù)據(jù)存儲在安全的位置并定期備份和審查;(4)數(shù)據(jù)知識庫為數(shù)據(jù)分配DOI號;(5)公開發(fā)布數(shù)據(jù)集,數(shù)據(jù)用戶可通過CEH數(shù)據(jù)目錄檢索數(shù)據(jù)集,出版完成。
3.2.2 數(shù)據(jù)期刊出版
數(shù)據(jù)期刊出版是指將科學(xué)數(shù)據(jù)作為獨立的學(xué)術(shù)成果,以數(shù)據(jù)論文的形式通過數(shù)據(jù)期刊出版。該出版模式下,出版的內(nèi)容包含數(shù)據(jù)論文與科學(xué)數(shù)據(jù)兩個實體。數(shù)據(jù)論文是正式發(fā)表的一種論文類型,但與傳統(tǒng)學(xué)術(shù)論文不同,其內(nèi)容并不包含基于科學(xué)假設(shè)和科學(xué)問題的研究結(jié)果,而是對數(shù)據(jù)采集、獲取、處理等過程和方法的描述,其目的是讓科研群體更好地發(fā)現(xiàn)、獲取、理解與復(fù)用數(shù)據(jù),從而促進(jìn)科研創(chuàng)新。數(shù)據(jù)論文發(fā)表在數(shù)據(jù)期刊上,而科學(xué)數(shù)據(jù)存儲在數(shù)據(jù)知識庫中,但數(shù)據(jù)論文須與其描述的公開發(fā)布的科學(xué)數(shù)據(jù)鏈接,這個鏈接通常可以是URL或數(shù)據(jù)知識庫分配給數(shù)據(jù)集的DOI。
該模式較為典型的案例是《地理數(shù)據(jù)期刊》(Geoscience Data JournaI,GDJ).GDJ是Wiley旗下的在線開放獲取數(shù)據(jù)期刊,通過數(shù)據(jù)論文的形式出版地理領(lǐng)域的科學(xué)數(shù)據(jù)。GDJ的出版流程包括以下幾步:(1)將科學(xué)數(shù)據(jù)存儲至推薦的數(shù)據(jù)機(jī)構(gòu)庫,并獲得DOI號;(2)按照期刊的格式要求,撰寫數(shù)據(jù)論文并在線提交;(3)數(shù)據(jù)論文和數(shù)據(jù)集接受同行評議;(4)發(fā)表數(shù)據(jù)論文,并在論文中附上數(shù)據(jù)集的DOI號。用戶可通過數(shù)據(jù)論文獲取數(shù)據(jù)集的描述信息及數(shù)據(jù)集本身。
4 科學(xué)數(shù)據(jù)的不同出版模式比較分析
總體來說,當(dāng)前科學(xué)數(shù)據(jù)出版處于多種模式并存的階段。雖然每種出版模式各不相同,但其m版過程都會涉及以下三個環(huán)節(jié),即對數(shù)據(jù)集進(jìn)行描述、質(zhì)量審核、收取出版費(fèi)用。下面以這三個環(huán)節(jié)為切入點,對當(dāng)前科學(xué)數(shù)據(jù)的不同出版模式進(jìn)行比較分析。
4.1 數(shù)據(jù)集描述
對科學(xué)數(shù)據(jù)進(jìn)行描述是數(shù)據(jù)出版的第一步。這是由于科學(xué)數(shù)據(jù)與學(xué)術(shù)論文、科技報告、科技圖書等傳統(tǒng)的科學(xué)文獻(xiàn)不同,從形式來看可能是一組觀測數(shù)值、實驗數(shù)據(jù)記錄、問卷數(shù)據(jù)或者一段計算機(jī)代碼。如果不對其變量含義、產(chǎn)生背景、獲取方法等進(jìn)行描述,則無法掌握科學(xué)數(shù)據(jù)的具體含義。所以不論是通過何種模式出版科學(xué)數(shù)據(jù),都需要對科學(xué)數(shù)據(jù)進(jìn)行描述。但不同的出版模式對科學(xué)數(shù)據(jù)進(jìn)行描述的方式和描述的具體內(nèi)容有所不同。文章根據(jù)每種出版模式的典型案例,對不同出版模式下的描述方式和描述內(nèi)容進(jìn)行了總結(jié)(表1)。
就描述方式而言,主要包括結(jié)構(gòu)化描述、半結(jié)構(gòu)化描述和非結(jié)構(gòu)化描述。結(jié)構(gòu)化描述是指以元數(shù)據(jù)為描述工具對科學(xué)數(shù)據(jù)進(jìn)行具體說明,通常遵循某個元數(shù)據(jù)標(biāo)準(zhǔn),其描述結(jié)果可被計算機(jī)自動識別。例如,Dryad和EIDC都以元數(shù)據(jù)為描述工具對科學(xué)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化描述。前者遵循Dryad元數(shù)據(jù)應(yīng)用方案(Dryad Metadata Application Profile),該方案是在都柏林核心的基礎(chǔ)上結(jié)合本倉儲集成出版的特點進(jìn)行擴(kuò)展的。后者采用UK GEMINI標(biāo)準(zhǔn)和INSPIRE標(biāo)準(zhǔn),這兩個元數(shù)據(jù)標(biāo)準(zhǔn)分別是英國和歐盟在地理學(xué)領(lǐng)域的認(rèn)可元數(shù)據(jù)標(biāo)準(zhǔn)。非結(jié)構(gòu)化描述方式是指以文本的形式對數(shù)據(jù)集進(jìn)行描述,并沒有標(biāo)準(zhǔn)或固定的格式可供遵循,且描述結(jié)果僅人工可讀。例如Thieme對出版的科學(xué)數(shù)據(jù)以非結(jié)構(gòu)化的方式進(jìn)行描述.在數(shù)據(jù)集文件包中有一個以“Re-adme”命名的PDF文件,其內(nèi)容是對數(shù)據(jù)集的簡要描述。半結(jié)構(gòu)化的描述方式介于上述兩種描述之間,是指按照固定的結(jié)構(gòu)對科學(xué)數(shù)據(jù)進(jìn)行描述。數(shù)據(jù)期刊通常采用半結(jié)構(gòu)化方式描述科學(xué)數(shù)據(jù),這是由于數(shù)據(jù)期刊發(fā)表的數(shù)據(jù)論文即為對科學(xué)數(shù)據(jù)的描述,而數(shù)據(jù)論文一般具有固定的結(jié)構(gòu)。例如《地理數(shù)據(jù)期刊》規(guī)定了詳細(xì)的數(shù)據(jù)論文結(jié)構(gòu),包括標(biāo)題頁、數(shù)據(jù)集信息頁、正文、致謝、參考文獻(xiàn)等。其中正文包含數(shù)據(jù)摘要、數(shù)據(jù)產(chǎn)生方法、數(shù)據(jù)格式與存儲位置、數(shù)據(jù)集使用與再利用信息。
就描述的內(nèi)容而言,包括數(shù)據(jù)集基本信息、數(shù)據(jù)集來源文獻(xiàn)信息、數(shù)據(jù)集使用信息、數(shù)據(jù)集內(nèi)容信息。數(shù)據(jù)集基本信息包括數(shù)據(jù)集的題名、作者、出版時間和摘要;來源文獻(xiàn)信息是指數(shù)據(jù)集所支撐的文獻(xiàn)的基本信息;數(shù)據(jù)集使用信息是指數(shù)據(jù)集使用所遵循的協(xié)議或規(guī)定;數(shù)據(jù)集內(nèi)容信息是指數(shù)據(jù)集產(chǎn)生方法、數(shù)據(jù)集質(zhì)量、數(shù)據(jù)集的時空覆蓋范圍等。屬于集成出版模式的Thieme和Dryad描述的具體內(nèi)容為數(shù)據(jù)集基本信息和來源文獻(xiàn)信息;而屬于獨立出版模式的EIDC和GDJ描述的具體內(nèi)容包括數(shù)據(jù)集基本信息、數(shù)據(jù)集使用信息和數(shù)據(jù)集內(nèi)容信息。
使用何種描述方式描述科學(xué)數(shù)據(jù)取決于出版過程中涉及的出版主體。出版主體包含數(shù)據(jù)知識庫的出版模式,通常采用結(jié)構(gòu)化的描述方式如集成出版模式下委托數(shù)據(jù)知識庫管理模式和獨立出版模式下數(shù)據(jù)知識庫直接出版模式;出版主體涉及學(xué)術(shù)期刊的出版模式,采用非結(jié)構(gòu)化的描述方式;出版主體為數(shù)據(jù)期刊的出版模式采用半結(jié)構(gòu)化的描述方式。此外,四種模式在描述的具體內(nèi)容方面既有共性也有差異。數(shù)據(jù)集基本信息為描述的最小信息集合,四種出版模式在描述數(shù)據(jù)集時均包含了數(shù)據(jù)集的基本信息。來源文獻(xiàn)信息為集成出版模式的必備描述項目,這是由集成出版的數(shù)據(jù)與文獻(xiàn)集成特性決定的。而獨立出版的兩種模式的描述內(nèi)容除了數(shù)據(jù)集基本信息外,還包含了數(shù)據(jù)集使用信息和數(shù)據(jù)集內(nèi)容信息。因此,與集成出版模式相比,獨立出版模式對數(shù)據(jù)集的描述更為詳細(xì)和全面。
4.2 質(zhì)量審核
質(zhì)量審核是學(xué)術(shù)出版的核心環(huán)節(jié)。而科學(xué)數(shù)據(jù)作為學(xué)術(shù)成果的一種類型,在出版過程中必然要經(jīng)過質(zhì)量審核這一關(guān)鍵環(huán)節(jié)。傳統(tǒng)學(xué)術(shù)文獻(xiàn)已有成熟的質(zhì)量審核機(jī)制,如學(xué)術(shù)論文通過同行評議的方式進(jìn)行質(zhì)量審核。而科學(xué)數(shù)據(jù)作為一種新型的學(xué)術(shù)資源,其質(zhì)量審核機(jī)制尚未成熟和統(tǒng)一,具體表現(xiàn)為不同出版模式的質(zhì)量審核主體和對象不盡相同(表2)。在科學(xué)數(shù)據(jù)出版中,質(zhì)量審核主體主要包括期刊編輯、數(shù)據(jù)知識庫工作人員、同行評議人員和數(shù)據(jù)集生產(chǎn)者;審核對象包括數(shù)據(jù)集本身、元數(shù)據(jù)、數(shù)據(jù)論文等。其中對數(shù)據(jù)集本身質(zhì)量而言,包括技術(shù)質(zhì)量與科學(xué)質(zhì)量??茖W(xué)數(shù)據(jù)的技術(shù)質(zhì)量是指數(shù)據(jù)集本身的完整性和描述的充分性,而科學(xué)質(zhì)量是指數(shù)據(jù)集收集方法的評價、科學(xué)數(shù)據(jù)的合理性和再使用的價值。元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),是對數(shù)據(jù)集的結(jié)構(gòu)化描述信息,其質(zhì)量主要體現(xiàn)在是否完整、準(zhǔn)確地以可理解和可獲取的方式描述數(shù)據(jù)集。數(shù)據(jù)論文是解釋數(shù)據(jù)的學(xué)術(shù)性文章,一般有其固定的結(jié)構(gòu),因此在數(shù)據(jù)論文的質(zhì)量審核中需要考慮文章的科學(xué)性、結(jié)構(gòu)的完整性等。以所舉的四個典型案例對此進(jìn)行具體說明。與學(xué)術(shù)論文一同提交至Thieme的原始數(shù)據(jù),是通過期刊編輯和同行評議人員對原始數(shù)據(jù)的質(zhì)量進(jìn)行審核。期刊編輯主要審核的是數(shù)據(jù)集是否完整,是否論文內(nèi)容一致。同行評議人員審核的對象主要是學(xué)術(shù)論文,但在審核過程中為了查驗論文的科學(xué)性,可向編輯提出申請以審查與論文相關(guān)的原始數(shù)據(jù),客觀上實現(xiàn)了原始數(shù)據(jù)的科學(xué)質(zhì)量的審核。Dryad通過與學(xué)術(shù)期刊合作實現(xiàn)科學(xué)數(shù)據(jù)與其來源文獻(xiàn)集成出版。在出版過程中,Dryad工作人員與同行評議人員共同完成對科學(xué)數(shù)據(jù)的質(zhì)量審核。其中Dryad 工作人員在數(shù)據(jù)提交至倉儲時對數(shù)據(jù)的技術(shù)質(zhì)量進(jìn)行審核,例如檢查上傳的數(shù)據(jù)集是否能夠打開、數(shù)據(jù)在傳輸過程中是否有損壞等,而同行評議人員主要是來源文獻(xiàn)所在期刊的評審專家,在評審論文的過程中對數(shù)據(jù)集進(jìn)行訪問以審查數(shù)據(jù)集的科學(xué)質(zhì)量。EIDC對其出版的科學(xué)數(shù)據(jù),由其工作人員對數(shù)據(jù)集進(jìn)行質(zhì)量審核,主要審核的對象是數(shù)據(jù)集的技術(shù)質(zhì)量和元數(shù)據(jù)。該數(shù)據(jù)中心提出了元數(shù)據(jù)質(zhì)量審核的標(biāo)準(zhǔn):準(zhǔn)確性、可用性、可讀性和可檢索性。而GDJ的質(zhì)量審核主體為同行評議人員,對數(shù)據(jù)集的技術(shù)質(zhì)量和科學(xué)質(zhì)量、元數(shù)據(jù)、數(shù)據(jù)論文三方面進(jìn)行了全面的審核。
總體來說,除了獨立出版模式下的數(shù)據(jù)知識庫出版模式外,其他三種模式的科學(xué)數(shù)據(jù)質(zhì)量審核主體中都有同行評議人員。對于集成出版模式下的兩種出版模式而言,同行評議人員審核的重點是學(xué)術(shù)論文.而對科學(xué)數(shù)據(jù)的科學(xué)質(zhì)量審核處于輔助地位。而數(shù)據(jù)期刊出版模式下,同行評議人員的審核重點包含數(shù)據(jù)集及圍繞數(shù)據(jù)展開的數(shù)據(jù)論文和元數(shù)據(jù)。此外,數(shù)據(jù)知識庫模式的審核主體為數(shù)據(jù)知識庫工作人員,其為數(shù)據(jù)管理專家并非某一領(lǐng)域的學(xué)科專家,因此對數(shù)據(jù)集的質(zhì)量審核側(cè)重于數(shù)據(jù)集的技術(shù)質(zhì)量和元數(shù)據(jù)全面性、準(zhǔn)確性等,并不能深入審核科學(xué)數(shù)據(jù)的科學(xué)質(zhì)量。因此,相比而言,獨立出版模式的質(zhì)量審核更為全面和深入。
4.3 出版費(fèi)用
在數(shù)據(jù)出版過程中,通過對數(shù)據(jù)集描述和質(zhì)量審核,為數(shù)據(jù)用戶增加了數(shù)據(jù)集的價值。因此數(shù)據(jù)出版與傳統(tǒng)學(xué)術(shù)出版相同,需要一定的出版費(fèi)用。但不同出版模式的收費(fèi)標(biāo)準(zhǔn)和費(fèi)用的具體承擔(dān)者有所不同(表3)。具體而言,收費(fèi)標(biāo)準(zhǔn)包括數(shù)據(jù)集大小、是否為資助項目、文章數(shù)量等。作為集成出版的一種,Dryad按數(shù)據(jù)集大小進(jìn)行收費(fèi)。當(dāng)數(shù)據(jù)集小于20GB時,每個數(shù)據(jù)包的費(fèi)用為120美元;當(dāng)數(shù)據(jù)集大于20GB時,每超過10GB多收取50美元。EIDC受英國自然環(huán)境理事會資助,因此該數(shù)據(jù)中心按數(shù)據(jù)的產(chǎn)生過程是否受到該理事會的資助為標(biāo)準(zhǔn)進(jìn)行收費(fèi)。一般而言,對于受資助項目產(chǎn)生的科學(xué)數(shù)據(jù),該數(shù)據(jù)中心不收取出版費(fèi)用。而非資助項目產(chǎn)生的科學(xué)數(shù)據(jù)出版時繳納的費(fèi)用取決于出版數(shù)據(jù)所花費(fèi)的時間、精力和財力。以數(shù)據(jù)論文的形式通過數(shù)據(jù)期刊出版科學(xué)數(shù)據(jù),數(shù)據(jù)出版費(fèi)用即數(shù)據(jù)論文的出版費(fèi)用。GDJ規(guī)定,每篇數(shù)據(jù)論文的出版費(fèi)用為1500美元。Thieme出版的化學(xué)期刊S ynthesis在作者指南中規(guī)定,不收取作者任何費(fèi)用,包括論文及其原始數(shù)據(jù)的出版費(fèi)用。
對于數(shù)據(jù)出版費(fèi)用的承擔(dān)者而言,主要包括學(xué)術(shù)期刊、數(shù)據(jù)生產(chǎn)者與資助機(jī)構(gòu)。集成出版模式下,數(shù)據(jù)出版的費(fèi)用由學(xué)術(shù)期刊獨自承擔(dān)或者學(xué)術(shù)期刊與數(shù)據(jù)生產(chǎn)者(在集成模式下同時為論文作者)共同承擔(dān)。例如,Thieme不收取數(shù)據(jù)生產(chǎn)者任何費(fèi)用,這意味著數(shù)據(jù)出版的費(fèi)用完全由期刊承擔(dān)。而Dryad建議數(shù)據(jù)出版費(fèi)用由期刊通過贊助的形式幫助作者負(fù)擔(dān)數(shù)據(jù)出版費(fèi)用,因此出版費(fèi)用由學(xué)術(shù)期刊與數(shù)據(jù)生產(chǎn)者共同承擔(dān)。獨立出版模式下,數(shù)據(jù)出版的費(fèi)用通常由數(shù)據(jù)生產(chǎn)者承擔(dān)。但由資助項目所產(chǎn)生的科學(xué)數(shù)據(jù)通過該資助機(jī)構(gòu)建立的數(shù)據(jù)倉儲出版時,數(shù)據(jù)生產(chǎn)者無需承擔(dān)出版費(fèi)用。例如英國信息環(huán)境數(shù)據(jù)中心規(guī)定不收取英國自然環(huán)境理事會所資助的研究項目產(chǎn)生的科學(xué)數(shù)據(jù)的出版費(fèi)用。
總體來說,四種科學(xué)數(shù)據(jù)出版模式在收費(fèi)標(biāo)準(zhǔn)方面存在較大差異,集成出版模式下的將數(shù)據(jù)提交至公共的科學(xué)數(shù)據(jù)倉儲并委托其管理模式的收費(fèi)標(biāo)準(zhǔn)是數(shù)據(jù)集大小,而期刊自行出版模式不收取數(shù)據(jù)生產(chǎn)者任何費(fèi)用。獨立出版模式下的數(shù)據(jù)倉儲直接出版模式采取的收費(fèi)標(biāo)準(zhǔn)是科學(xué)數(shù)據(jù)是否由資助項目所產(chǎn)出,這是因為該模式下的數(shù)據(jù)倉儲一般是國家數(shù)據(jù)中心或大型的公共數(shù)據(jù)倉儲,由政府或科研資助機(jī)構(gòu)的基金資助而建立的,所以,由資助項目產(chǎn)出的科學(xué)數(shù)據(jù)通過這些數(shù)據(jù)倉儲出版時,無須繳納出版費(fèi)用。而數(shù)據(jù)論文出版模式采取的收費(fèi)標(biāo)準(zhǔn)和學(xué)術(shù)期刊類似,按篇收費(fèi)的標(biāo)準(zhǔn)簡單明了,易于實施。在科學(xué)數(shù)據(jù)出版費(fèi)用的具體承擔(dān)者方面,四種出版模式存在一些共性,即有三種出版模式的費(fèi)用承擔(dān)者都涉及數(shù)據(jù)生產(chǎn)者,集成出版模式的費(fèi)用承擔(dān)者都包括學(xué)術(shù)期刊。
5 結(jié)語
大數(shù)據(jù)時代,科學(xué)數(shù)據(jù)在學(xué)術(shù)研究中的價值日益受到研究人員的重視,期刊出版商、數(shù)據(jù)知識庫以及科研資助機(jī)構(gòu)等主體越來越多的參與到科學(xué)數(shù)據(jù)出版實踐之中,不同程度上推動了科學(xué)數(shù)據(jù)出版的發(fā)展。然而,與傳統(tǒng)的學(xué)術(shù)文獻(xiàn)出版相比,科學(xué)數(shù)據(jù)作為一種新型的學(xué)術(shù)成果,其出版體系還在發(fā)展之中。
文章從科學(xué)數(shù)據(jù)產(chǎn)生情形出發(fā),結(jié)合現(xiàn)有的出版實踐和前人理論研究成果,歸納出四種科學(xué)數(shù)據(jù)出版模式,并從數(shù)據(jù)集描述方式、質(zhì)量審核方式、引用要求與出版費(fèi)用等方面對不同出版模式進(jìn)行了比較分析??偨Y(jié)出以下結(jié)論:(1)不同出版模式中涉及的出版主體不同,因此描述數(shù)據(jù)集的方式不同;科學(xué)數(shù)據(jù)獨立出版模式比集成出版模式對科學(xué)數(shù)據(jù)的描述更為詳盡。(2)與集成出版模式相比,獨立出版模式對科學(xué)數(shù)據(jù)的質(zhì)量審核機(jī)制更為完善。(3)由于科學(xué)數(shù)據(jù)多為開放獲取出版物,因此數(shù)據(jù)生產(chǎn)者需要承擔(dān)出版費(fèi)用;但兩種模式不同是,集成出版模式中,傳統(tǒng)期刊對作者提供資助。