王舒 黃國彬
探索與交流
國外科學(xué)數(shù)據(jù)倉儲的數(shù)據(jù)出版流程研究
王舒1黃國彬2
(1. 山西財(cái)經(jīng)大學(xué)圖書館,太原 030006;2. 北京師范大學(xué)政府管理學(xué)院,北京 100875)
科學(xué)數(shù)據(jù)倉儲是未來科學(xué)數(shù)據(jù)出版的主導(dǎo)性媒介之一。本文以數(shù)據(jù)出版流程為切入點(diǎn),從數(shù)據(jù)提交、數(shù)據(jù)存儲、數(shù)據(jù)審核和數(shù)據(jù)發(fā)布4個方面對科學(xué)數(shù)據(jù)倉儲的出版功能進(jìn)行分析,試圖為規(guī)范科學(xué)數(shù)據(jù)倉儲的出版功能提供建議:建立以自助提交為主的提交模式,制定本倉儲科學(xué)數(shù)據(jù)質(zhì)量審核標(biāo)準(zhǔn),施行自動審核與人工審核并行的質(zhì)量審核方式,采用多渠道發(fā)布數(shù)據(jù)集,為數(shù)據(jù)集提供數(shù)字對象唯一標(biāo)識符。
科學(xué)數(shù)據(jù)倉儲;出版流程;科學(xué)數(shù)據(jù);數(shù)據(jù)出版
隨著計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)技術(shù)在科技活動中的廣泛應(yīng)用,使得科學(xué)數(shù)據(jù)以驚人的速度增長,已成為當(dāng)下增速最快的資源。與此同時,隨著數(shù)據(jù)密集型科研范式的興起,科學(xué)數(shù)據(jù)已經(jīng)由科學(xué)研究的起點(diǎn)和基礎(chǔ)發(fā)展成為科研活動的牽引力之一。面對上述情況,如何對科學(xué)數(shù)據(jù)進(jìn)行有效的組織、共享和利用,成為科學(xué)界共同關(guān)注的熱點(diǎn)問題。而科學(xué)數(shù)據(jù)出版被認(rèn)為是有效解決這一問題的重要手段。2018年國務(wù)院辦公廳出臺的《科學(xué)數(shù)據(jù)管理辦法》指出“主管部門和法人單位應(yīng)積極推動科學(xué)數(shù)據(jù)出版和傳播工作,支持科研人員整理發(fā)表產(chǎn)權(quán)清晰、準(zhǔn)確完整、共享價值高的科學(xué)數(shù)據(jù)”。但截至目前,學(xué)術(shù)界對科學(xué)數(shù)據(jù)出版的定義還沒有統(tǒng)一。筆者認(rèn)為,科學(xué)數(shù)據(jù)出版是學(xué)術(shù)出版的一種,在將科學(xué)數(shù)據(jù)公之于眾之前,需要對其質(zhì)量進(jìn)行審核,使發(fā)布的科學(xué)數(shù)據(jù)達(dá)到可發(fā)現(xiàn)、可獲取、可理解和可追溯的狀態(tài)。但與學(xué)術(shù)出版不同的是,科學(xué)數(shù)據(jù)只能通過網(wǎng)絡(luò)出版,因此,科學(xué)數(shù)據(jù)倉儲作為依托數(shù)字技術(shù)和網(wǎng)絡(luò)技術(shù)建立的采集、保存、管理與發(fā)布科學(xué)數(shù)據(jù)的平臺,在科學(xué)數(shù)據(jù)出版中顯得尤為重要?;诖?,本文以科學(xué)數(shù)據(jù)倉儲為研究對象,對其出版流程進(jìn)行剖析,總結(jié)科學(xué)數(shù)據(jù)倉儲在出版科學(xué)數(shù)據(jù)中的經(jīng)驗(yàn),為科學(xué)數(shù)據(jù)倉儲的功能設(shè)計(jì)者提供參考。
近年來,國內(nèi)外學(xué)者對科學(xué)數(shù)據(jù)出版的研究,可以歸納為3個方面。①對科學(xué)數(shù)據(jù)出版模式的研究。黃國彬等[1]從科學(xué)數(shù)據(jù)的產(chǎn)生情形,將科學(xué)數(shù)據(jù)出版模式歸納為科學(xué)數(shù)據(jù)集成出版與獨(dú)立出版兩種模式;張靜蓓等[2]基于科學(xué)數(shù)據(jù)出版的國內(nèi)外實(shí)踐與研究現(xiàn)狀,提出4種出版模式,包括數(shù)據(jù)獨(dú)立出版、數(shù)據(jù)論文出版、期刊與指定數(shù)據(jù)倉儲合作出版及期刊自行出版;涂志芳[3]認(rèn)為雖然劃分維度不同、模式名稱表述存在差異,但仍然在一定程度上達(dá)成了共識,即作為論文附件的數(shù)據(jù)出版、獨(dú)立的數(shù)據(jù)出版和數(shù)據(jù)論文3種模式。②對科學(xué)數(shù)據(jù)倉儲的研究。科學(xué)數(shù)據(jù)倉儲即科學(xué)數(shù)據(jù)的發(fā)布平臺,大多數(shù)學(xué)者選取國內(nèi)外典型的科學(xué)數(shù)據(jù)出版平臺對其功能進(jìn)行研究,國外學(xué)者多以某一個具體的科學(xué)數(shù)據(jù)倉儲為例開展研究,如Roman等[4]介紹了科學(xué)數(shù)據(jù)倉儲Data Graft數(shù)據(jù)轉(zhuǎn)換、發(fā)布和托管功能等功能;Brase等[5]研討了以世界數(shù)據(jù)中心(World Data Centers)的數(shù)據(jù)出版實(shí)踐。而國內(nèi)學(xué)者多選擇國內(nèi)外多個典型的數(shù)據(jù)倉儲為樣本進(jìn)行分析。如秦順等[6]選取歐美地區(qū)14個科學(xué)數(shù)據(jù)出版平臺,從科學(xué)數(shù)據(jù)出版政策或愿景,科學(xué)數(shù)據(jù)整合、標(biāo)識與交互,科學(xué)數(shù)據(jù)出版與分發(fā),科學(xué)數(shù)據(jù)引用,數(shù)據(jù)生命周期管理與出版質(zhì)量控制5個方面進(jìn)行分析;張玲玲等[7]選取中美具有代表性的8個地理科學(xué)數(shù)據(jù)倉儲,從數(shù)據(jù)提交、同行評審、數(shù)據(jù)發(fā)布和永久存儲、數(shù)據(jù)引用以及影響評價5個基本環(huán)節(jié)進(jìn)行調(diào)研分析。屈寶強(qiáng)等[8]探討了當(dāng)前科學(xué)數(shù)據(jù)發(fā)布平臺中存在的用戶黏合度不高等問題。③對科學(xué)數(shù)據(jù)出版流程中的具體環(huán)節(jié)進(jìn)行研究。如王丹丹等[9]對不同出版模式下的科學(xué)數(shù)據(jù)質(zhì)量審核的實(shí)踐、標(biāo)準(zhǔn)進(jìn)行對比分析;李曉蕾等[10]對地質(zhì)領(lǐng)域的科學(xué)數(shù)據(jù)的質(zhì)量控制措施和公開化審查進(jìn)行了分析。涂志芳等[11-12]認(rèn)為科學(xué)數(shù)據(jù)倉儲在數(shù)據(jù)出版過程中的質(zhì)量控制實(shí)踐還未成熟,我國數(shù)據(jù)知識庫仍存在高度依賴計(jì)算機(jī)的輔助,可持續(xù)發(fā)展機(jī)制尚不成熟等問題。此外,有學(xué)者認(rèn)為為科學(xué)數(shù)據(jù)分配數(shù)字對象唯一標(biāo)識符(DOI)是科學(xué)數(shù)據(jù)出版的重要環(huán)節(jié)。吳立宗等[13]總結(jié)了DOI在數(shù)據(jù)出版領(lǐng)域的意義,并討論它在數(shù)據(jù)出版與引用方面的不足。
綜上所述,現(xiàn)有研究已取得了一定的進(jìn)展,學(xué)者從不同角度對科學(xué)數(shù)據(jù)出版模式進(jìn)行劃分與研究,充分承認(rèn)科學(xué)數(shù)據(jù)倉儲在數(shù)據(jù)出版過程中的重要性,同時剖析科學(xué)數(shù)據(jù)倉儲的功能、服務(wù)與存在的問題,對科學(xué)數(shù)據(jù)出版流程中的質(zhì)量審核環(huán)節(jié)進(jìn)行深入研究,但目前還沒有學(xué)者對科學(xué)數(shù)據(jù)倉儲的出版流程進(jìn)行深入分析,尤其是沒有涉及存儲過程、發(fā)布時間、發(fā)布渠道等細(xì)節(jié)。因此,本文從數(shù)據(jù)出版流程的角度,對科學(xué)數(shù)據(jù)倉儲的出版功能進(jìn)行調(diào)研與分析。
科學(xué)數(shù)據(jù)倉儲的數(shù)據(jù)出版功能是其面對數(shù)據(jù)生產(chǎn)者而設(shè)計(jì)的,實(shí)現(xiàn)該功能的內(nèi)在邏輯是科學(xué)數(shù)據(jù)出版的流程,包括數(shù)據(jù)提交、數(shù)據(jù)存儲、數(shù)據(jù)審核和數(shù)據(jù)發(fā)布。
科學(xué)數(shù)據(jù)的提交方式主要有兩種。一種是數(shù)據(jù)生產(chǎn)者自助提交。在開放獲取潮流和數(shù)據(jù)共享理念的影響下,該模式成為科學(xué)數(shù)據(jù)出版中數(shù)據(jù)來源的主流渠道。另一種是工作人員協(xié)助提交。如美國高校社會科學(xué)聯(lián)合會數(shù)據(jù)倉儲(Inter-university Consortium for Political and Social Research,ICPSR)通過定期審查聯(lián)邦資助機(jī)構(gòu)數(shù)據(jù)庫、學(xué)術(shù)期刊,關(guān)注專業(yè)的科學(xué)會議、參考會員機(jī)構(gòu)和本機(jī)構(gòu)工作人員建議等渠道收集數(shù)據(jù)。
2.1.1 數(shù)據(jù)生產(chǎn)者自助提交
數(shù)據(jù)生產(chǎn)者自助提交是由數(shù)據(jù)生產(chǎn)者本人將數(shù)據(jù)集存入科學(xué)數(shù)據(jù)倉儲。數(shù)據(jù)提交的具體操作由數(shù)據(jù)生產(chǎn)者獨(dú)立完成,但需要科學(xué)數(shù)據(jù)倉儲提供完成數(shù)據(jù)提交所須的基礎(chǔ)設(shè)施——在線提交平臺和提交指南。
目前科學(xué)數(shù)據(jù)倉儲提供的在線存儲平臺主要有兩種。一是基于開源軟件開發(fā)的存儲平臺,一部分是依托現(xiàn)有開源軟件開發(fā)而成,如Dryad數(shù)據(jù)倉儲、愛丁堡大學(xué)的DataShare等是基于開源軟件DSpace開發(fā)而成;哈佛大學(xué)的Harvard Dataverse是基于開源軟件Dataverse開發(fā)而成;另一部分是自建形成的開源軟件平臺,如Figshare均允許科研機(jī)構(gòu)和出版機(jī)構(gòu)在其基礎(chǔ)上進(jìn)行二次開發(fā)。二是由科學(xué)數(shù)據(jù)倉儲自主開發(fā)的存儲平臺,他人無法在此基礎(chǔ)上進(jìn)行二次開發(fā),如社會科學(xué)領(lǐng)域的英國數(shù)據(jù)存檔(UK Data Archive,UKDA)、ICPSR、英國考古數(shù)據(jù)服務(wù)(Archaeology Data Service,ADS),地理環(huán)境科學(xué)領(lǐng)域的地球與環(huán)境數(shù)據(jù)出版平臺(PANGAEA Data Publisher for Earth & Environmental Science,PANGAEA)、澳大利亞海洋數(shù)據(jù)網(wǎng)(Australian Ocean Data NetworkPortal,AODN Portal)、美國冰雪數(shù)據(jù)中心(National Snow & Ice Data Center,NSIDC),生物醫(yī)學(xué)領(lǐng)域的ArrayExpress,化學(xué)物理領(lǐng)域的PubChem、劍橋晶體數(shù)據(jù)中心(Cambridge Crystallographic Data Centre,CCDC)等都根據(jù)本倉儲的實(shí)際需求自主開發(fā)而成。然而,無論是自主開發(fā)的存儲平臺,還是基于開源軟件二次開發(fā)的存儲平臺,都需要在提交指南的指導(dǎo)下使用。
編制提交指南,是科學(xué)數(shù)據(jù)倉儲為數(shù)據(jù)生產(chǎn)者提供的另一個基礎(chǔ)設(shè)施,通常與在線提交平臺配合使用;是為了使數(shù)據(jù)生產(chǎn)者在自助提交數(shù)據(jù)時更好地使用在線提交平臺。指南通常包括4個部分,即提交原因、提交準(zhǔn)備、提交流程以及提交后對數(shù)據(jù)集的處理。其中,“提交原因”是幫助用戶理解為什么使用該倉儲,以及將數(shù)據(jù)集存儲入該倉儲的益處;“提交準(zhǔn)備”旨在幫助用戶在提交前準(zhǔn)備數(shù)據(jù)集,包括描述數(shù)據(jù)集、規(guī)范數(shù)據(jù)集格式、剔除數(shù)據(jù)集中隱私數(shù)據(jù)等;“提交流程”是存儲指南的核心內(nèi)容,旨在幫助用戶使用在線提交平臺;而“提交后對數(shù)據(jù)集的處理”是存儲服務(wù)的后續(xù)工作,通常是指人工質(zhì)量審核等。此外,存儲指南的格式包括HTML、PDF、Video等。
2.1.2 工作人員協(xié)助提交
協(xié)助提交也是科學(xué)數(shù)據(jù)倉儲常用的方式之一,即由科學(xué)數(shù)據(jù)倉儲的工作人員協(xié)助數(shù)據(jù)生產(chǎn)者將科學(xué)數(shù)據(jù)存入倉儲中。工作人員通常需要對科學(xué)數(shù)據(jù)進(jìn)行評估以判斷是否適合本倉儲,對科學(xué)數(shù)據(jù)進(jìn)行格式化調(diào)整以利于提交或保存,幫助數(shù)據(jù)生產(chǎn)者將數(shù)據(jù)上傳至倉儲??蓪f(xié)助的環(huán)節(jié)分為評估環(huán)節(jié)、準(zhǔn)備環(huán)節(jié)和提交環(huán)節(jié)。
評估環(huán)節(jié)是指工作人員依據(jù)一定的標(biāo)準(zhǔn)評估數(shù)據(jù)集是否適合或值得納入該倉儲。如英國環(huán)境數(shù)據(jù)分析中心數(shù)據(jù)倉儲(Centre for Environmental Data Analysis-archive,CEDA)的評估環(huán)節(jié)由倉儲工作人員依據(jù)“NERC數(shù)據(jù)價值清單”對科學(xué)數(shù)據(jù)的存儲價值進(jìn)行評估,包括科學(xué)數(shù)據(jù)的質(zhì)量、完整性、原創(chuàng)性等,以評估數(shù)據(jù)集是否適合存儲入該倉儲中;若不適合,還會給出其他推薦的存儲位置,如英國國家環(huán)境理事會(the Natural Environment Research Council,NERC)資助的其他科學(xué)數(shù)據(jù)倉儲等[14]。又如癌癥圖片數(shù)據(jù)倉儲(the Cancer Imaging Archive,TCIA),要求數(shù)據(jù)貢獻(xiàn)者向TCIA提交數(shù)據(jù)存儲申請,由其顧問小組(TCIA Advisory Group)進(jìn)行審查,該小組由癌癥成像和相關(guān)技術(shù)專家組成,每月審查一次數(shù)據(jù)提交申請,TCIA顧問小組依據(jù)審查標(biāo)準(zhǔn)和資源的可用性審查每個候選集合,并決定是否接受/拒絕或要求重新提交申請[15]。
準(zhǔn)備環(huán)節(jié)是指數(shù)據(jù)集提交前所做的準(zhǔn)備,包括制訂數(shù)據(jù)提交計(jì)劃、對數(shù)據(jù)集進(jìn)行描述、規(guī)范數(shù)據(jù)集格式、確定數(shù)據(jù)集獲取級別和使用條件、確定傳遞方式等。提供數(shù)據(jù)準(zhǔn)備方面協(xié)助的科學(xué)數(shù)據(jù)倉儲較多,如UKDA工作人員協(xié)助制訂數(shù)據(jù)提交計(jì)劃、確定數(shù)據(jù)獲取級別和使用條件[16]。澳大利亞數(shù)據(jù)存檔(the Australian Data Archive,ADA)由工作人員根據(jù)用戶填寫的數(shù)據(jù)集存儲表和提供的相關(guān)文檔(問卷、技術(shù)報(bào)告、相關(guān)出版物,以及其他有助于研究人員分析和理解數(shù)據(jù)的材料),對數(shù)據(jù)集進(jìn)行描述[17]。ADS要求用戶在提交數(shù)據(jù)前通過郵件或電話聯(lián)系A(chǔ)DS數(shù)字存儲管理員以確定數(shù)據(jù)傳遞方式等[18]。TCIA的審核人員協(xié)助用戶對數(shù)據(jù)集進(jìn)行去標(biāo)識化處理與描述,確保數(shù)據(jù)使用者無法通過數(shù)據(jù)中包含的信息識別出被試人員,并與數(shù)據(jù)提交者一起創(chuàng)建數(shù)據(jù)集摘要。
①直接由工作人員完成科學(xué)數(shù)據(jù)提交,即要求科學(xué)數(shù)據(jù)貢獻(xiàn)者通過一定的方式將數(shù)據(jù)集傳遞給倉儲工作人員,再由工作人員將科學(xué)數(shù)據(jù)集存入科學(xué)數(shù)據(jù)倉儲。如UKDA由數(shù)據(jù)貢獻(xiàn)者通過埃塞克斯大學(xué)ZendTo服務(wù)(郵件)、郵遞或者親自遞送的方式傳送數(shù)據(jù),由工作人員存入倉儲;ADA要求數(shù)據(jù)貢獻(xiàn)者通過郵寄、郵件等方式將數(shù)據(jù)集傳遞給工作人員后,再由工作人員將其存入倉儲;ADS要求通過CD-ROM、便攜式硬盤、電子郵件和云服務(wù)等方式傳遞數(shù)據(jù),最終由工作人員存儲數(shù)據(jù)集;CEDA根據(jù)數(shù)據(jù)集大小和復(fù)雜程度向用戶提供不同的傳遞數(shù)據(jù)集的方式,最終由工作人員將數(shù)據(jù)集存儲到倉儲中;BioGRID[19]要求數(shù)據(jù)貢獻(xiàn)者通過郵件向倉儲工作人員發(fā)送一個包含科學(xué)數(shù)據(jù)的表格或純文本文件,之后由工作人員將數(shù)據(jù)納入BioGRIO;GenBank要求數(shù)據(jù)貢獻(xiàn)者使用提交工具(Sequin、tbl2asn)對數(shù)據(jù)集進(jìn)行格式化后,再由數(shù)據(jù)存儲者通過郵件(或SequinMacroSend)將數(shù)據(jù)集發(fā)送給工作人員,由工作人員將數(shù)據(jù)集存儲至倉儲[20]。由上述案例可知,雖然每個倉儲要求的傳遞數(shù)據(jù)集的方式不同,但最終數(shù)據(jù)集的提交均由科學(xué)數(shù)據(jù)倉儲的工作人員完成。②工作人員幫助數(shù)據(jù)貢獻(xiàn)者提交數(shù)據(jù)集。如ICPSR通過可移動介質(zhì)(CD-ROM或DVD)將數(shù)據(jù)攜帶至物理提交場所,在工作人員幫助下將數(shù)據(jù)集復(fù)制到安全位置[21]。dbGaP要求數(shù)據(jù)提交者通過郵件與倉儲工作人員聯(lián)系,工作人員將提交鏈接發(fā)送給數(shù)據(jù)存儲者,由數(shù)據(jù)提交者上傳數(shù)據(jù)集[22]。③根據(jù)數(shù)據(jù)集大小、類型等因素提供不同的存儲服務(wù)。如UKDA根據(jù)數(shù)據(jù)集大小來確定存儲方式??蒲腥藛T的科學(xué)數(shù)據(jù)集,通常數(shù)據(jù)集較小,需采用自助存儲方式,通過在線提交平臺為ReShare存儲數(shù)據(jù);而大型調(diào)查項(xiàng)目或系列調(diào)查項(xiàng)目產(chǎn)生的數(shù)據(jù)集,通常數(shù)據(jù)集較大,因此需要倉儲工作人員協(xié)助存儲,倉儲工作人員會依據(jù)相關(guān)政策對數(shù)據(jù)集進(jìn)行評估,通過后,將其存入倉儲[23]。
2.2.1 數(shù)據(jù)存儲格式
安全、可靠、高效的科學(xué)數(shù)據(jù)存儲環(huán)境是科學(xué)數(shù)據(jù)倉儲穩(wěn)定運(yùn)行和持續(xù)服務(wù)的前提。經(jīng)數(shù)據(jù)生產(chǎn)者自助提交或由科學(xué)數(shù)據(jù)倉儲工作人員協(xié)助提交后,科學(xué)數(shù)據(jù)倉儲需要對各類科學(xué)數(shù)據(jù),通過相關(guān)的科學(xué)數(shù)據(jù)元數(shù)據(jù)框架,對科學(xué)數(shù)據(jù)進(jìn)行描述、標(biāo)引、分類和存儲,以便為后續(xù)的科學(xué)數(shù)據(jù)檢索與發(fā)現(xiàn)、科學(xué)數(shù)據(jù)的發(fā)布與引用、科學(xué)數(shù)據(jù)的分析與挖掘提供支撐。
科學(xué)數(shù)據(jù)倉儲會以主題進(jìn)行聚類,而主題聚類的維度,主要包括基于學(xué)科專業(yè)領(lǐng)域(物理、天文、地理等)、基于實(shí)驗(yàn)環(huán)境與科學(xué)數(shù)據(jù)創(chuàng)建方式(如實(shí)驗(yàn)獲得、觀測獲得等)、基于科學(xué)數(shù)據(jù)的表現(xiàn)形式(如文本型、數(shù)據(jù)型等)等;同時,在存儲格式上進(jìn)行統(tǒng)一部署,包括:①針對以文本/電子表格格式呈現(xiàn)的科學(xué)數(shù)據(jù),其可選用的存儲格式有doc、docx、dot、rtf、txt、pdf、xls、xlsx;②針對以圖形格式呈現(xiàn)的科學(xué)數(shù)據(jù),其可選用的存儲格式有bmp、jpg、jpeg、png、gif;③針對以結(jié)構(gòu)繪圖數(shù)據(jù)格式呈現(xiàn)的科學(xué)數(shù)據(jù),其可選用的存儲格式有cdx、c3d、cwg、csml、skc、xyz;④針對以音頻格式呈現(xiàn)的科學(xué)數(shù)據(jù),其可選用的存儲格式有wav、pcm、tta、flac、au、ape、tak、wv、mp3、wma、ogg、aac;⑤針對以動畫格式呈現(xiàn)的科學(xué)數(shù)據(jù),其可選用的存儲格式有avi、rmvb、rm、asf、divx、mpg、mpeg、mpe、wmv、mp4、mkv、vob、mov、flv、swf。
而在科學(xué)數(shù)據(jù)的存儲方面,目前的科學(xué)數(shù)據(jù)倉儲主要采用兩種存儲模式,即基于云端的科學(xué)數(shù)據(jù)存儲以及基于本地的科學(xué)數(shù)據(jù)存儲。從安全性來看,這兩種存儲模式各有利弊,需要科學(xué)數(shù)據(jù)倉儲運(yùn)行者根據(jù)自身的技術(shù)條件、服務(wù)對象、資金支持等進(jìn)行綜合權(quán)衡。對于科學(xué)數(shù)據(jù)生產(chǎn)者而言,如何選擇一家可靠的科學(xué)數(shù)據(jù)倉儲提供機(jī)構(gòu),對其后續(xù)在科學(xué)數(shù)據(jù)的管理與維護(hù)、傳播與利用等方面,也是較為關(guān)鍵的一個問題。
2.2.2 數(shù)據(jù)唯一標(biāo)識符
科學(xué)數(shù)據(jù)的科學(xué)合理組織與存儲是實(shí)現(xiàn)科學(xué)數(shù)據(jù)被高效檢索發(fā)現(xiàn)、進(jìn)而被廣泛引用與重用的基礎(chǔ)。通過可靠的規(guī)則,賦予科學(xué)數(shù)據(jù)DOI,是實(shí)現(xiàn)科學(xué)數(shù)據(jù)后續(xù)開發(fā)與利用的關(guān)鍵一環(huán)。
數(shù)據(jù)唯一標(biāo)識符是科學(xué)數(shù)據(jù)倉儲賦予即將發(fā)布的科學(xué)數(shù)據(jù)的數(shù)字資源唯一標(biāo)識,用于科學(xué)數(shù)據(jù)引用和重用,主要包括但不限于:DataCite為所有數(shù)字資源提供的DOI、個別科學(xué)數(shù)據(jù)倉儲提供的入庫編號、統(tǒng)一資源定位符(URL)等。其中DOI是最重要和常見用于科學(xué)數(shù)據(jù)引用的唯一標(biāo)識,不僅能夠唯一標(biāo)識數(shù)字資源,還能形成鏈接形式,直接鏈接到數(shù)據(jù)集內(nèi)容頁面。而個別科學(xué)數(shù)據(jù)倉儲提供的入庫編號,雖然能唯一標(biāo)識科學(xué)數(shù)據(jù),但使用范圍局限于本倉儲內(nèi)部,且不能形成鏈接的形式。這種唯一標(biāo)識符常出現(xiàn)于學(xué)科科學(xué)數(shù)據(jù)倉儲中,如dbGaP、ArrayExpress、CCDC。以CCDC為例對倉儲編號進(jìn)行說明:在數(shù)據(jù)提交3個工作日內(nèi),一個7位數(shù)的編號(CCDC4367857)會通過郵件發(fā)送給提交者,并確保通過這一編號,實(shí)現(xiàn)該科學(xué)數(shù)據(jù)與對其加以引用的期刊論文建立關(guān)聯(lián);該編號也可用于倉儲中數(shù)據(jù)查詢。URL是對可以從互聯(lián)網(wǎng)上得到的資源位置和訪問方法的一種簡潔的表示,是互聯(lián)網(wǎng)上標(biāo)準(zhǔn)資源的地址[24]。對于科學(xué)數(shù)據(jù)引用,該URL通常指向科學(xué)數(shù)據(jù)的內(nèi)容頁面。雖然點(diǎn)擊URL,頁面能直接跳轉(zhuǎn)至數(shù)據(jù)集內(nèi)容頁面,但其長期穩(wěn)定性遠(yuǎn)不如DOI。
數(shù)據(jù)審核是科學(xué)數(shù)據(jù)出版的核心環(huán)節(jié),不同科學(xué)數(shù)據(jù)的審核方式、內(nèi)容、時間各不相同。
2.3.1 審核方式
目前科學(xué)數(shù)據(jù)倉儲在開展數(shù)據(jù)出版服務(wù)過程中,對出版的數(shù)據(jù)集審核方式主要有人工審核與自動審核兩種。人工審核是指科學(xué)數(shù)據(jù)倉儲成立專門的質(zhì)量審核工作組或安排專門的質(zhì)量審核工作人員,在數(shù)據(jù)集提交前后對數(shù)據(jù)質(zhì)量進(jìn)行審核,如ADS成立數(shù)據(jù)評估工作組(Collections Evaluation Working Group)對數(shù)據(jù)質(zhì)量進(jìn)行審核;而PANGAEA會安排數(shù)據(jù)編輯(Data Editorial)來開展審核工作。自動審核是指在數(shù)據(jù)提交過程中,數(shù)據(jù)存儲系統(tǒng)或集成到系統(tǒng)中的校驗(yàn)工具對上傳的數(shù)據(jù)集質(zhì)量進(jìn)行審核。如Harvard Dataverse在數(shù)據(jù)提交過程中,由提交系統(tǒng)自動對數(shù)據(jù)集的格式、元數(shù)據(jù)進(jìn)行審核,以確認(rèn)數(shù)據(jù)集的運(yùn)行狀況和元數(shù)據(jù)的完整性。
2.3.2 審核內(nèi)容
質(zhì)量審核的內(nèi)容包括數(shù)據(jù)集本身及其元數(shù)據(jù)。數(shù)據(jù)集質(zhì)量包括技術(shù)質(zhì)量與科學(xué)質(zhì)量。
技術(shù)質(zhì)量是指數(shù)據(jù)集本身的完整性、描述的充分性,對于含有個人隱私數(shù)據(jù)的科學(xué)數(shù)據(jù),技術(shù)質(zhì)量還包括數(shù)據(jù)集是否去標(biāo)識化;而科學(xué)質(zhì)量是指數(shù)據(jù)集收集方法的評價、科學(xué)數(shù)據(jù)的合理性和再使用的價值。目前科學(xué)數(shù)據(jù)倉儲對數(shù)據(jù)集本身的質(zhì)量審核側(cè)重技術(shù)質(zhì)量。如PANGAEA直接明確數(shù)據(jù)集的科學(xué)質(zhì)量由數(shù)據(jù)提交者負(fù)責(zé),而倉儲只負(fù)責(zé)審核科學(xué)數(shù)據(jù)的技術(shù)質(zhì)量,主要包括數(shù)據(jù)集格式的正確性、數(shù)據(jù)集內(nèi)容的完整性等[25]。Figshare系統(tǒng)自動對上傳數(shù)據(jù)集的完整性進(jìn)行審核,數(shù)據(jù)集的科學(xué)質(zhì)量由數(shù)據(jù)貢獻(xiàn)者負(fù)責(zé),但若數(shù)據(jù)集涉及侵權(quán)(隱私權(quán)、知識產(chǎn)權(quán))行為,該倉儲有權(quán)刪除[26]。dbGaP[22]和CCDC[27]都由系統(tǒng)對上傳的數(shù)據(jù)集進(jìn)行審核以保證數(shù)據(jù)集正確、完整地上傳至存儲空間,同時檢查報(bào)告可供用戶下載。
科學(xué)質(zhì)量的審核主要有兩種情況。一種是由科學(xué)數(shù)據(jù)倉儲進(jìn)行審核。如UKDA、ICPSR對數(shù)據(jù)集的內(nèi)部質(zhì)量進(jìn)行審核,如對變量名稱與變量值進(jìn)行審查,對隨機(jī)樣本、均值方差、異常值進(jìn)行檢測等。NSIDC對于不同資助機(jī)構(gòu)資助的科研項(xiàng)目產(chǎn)生的數(shù)據(jù)集的審核內(nèi)容不同,其中,對由NASA資助產(chǎn)生的科學(xué)數(shù)據(jù),審查內(nèi)容包括科學(xué)價值、唯一性、歸檔和分發(fā)的成本等[28]。另一種是邀請外部人員對科學(xué)數(shù)據(jù)集的質(zhì)量進(jìn)行評審,外部人員是相對于倉儲的工作人員而言,具體包括期刊論文的評審專家、數(shù)據(jù)使用者。例如Dryad,其合作期刊的同行評議人員在論文質(zhì)量審核過程中對數(shù)據(jù)集的科學(xué)數(shù)據(jù)質(zhì)量審核;BioGRID允許數(shù)據(jù)使用者指出數(shù)據(jù)集的錯誤,包括科學(xué)性方面的錯誤,并為用戶提供專門的渠道來上報(bào)錯誤信息[29]。
此外,由于科學(xué)數(shù)據(jù)與學(xué)術(shù)論文、科技報(bào)告、科技圖書等傳統(tǒng)的科學(xué)文獻(xiàn)不同,從形式來看可能是一組觀測數(shù)值、實(shí)驗(yàn)數(shù)據(jù)記錄、問卷數(shù)據(jù)或者一段計(jì)算機(jī)代碼。如果不對其變量含義、產(chǎn)生背景、獲取方法等進(jìn)行描述,則無法掌握科學(xué)數(shù)據(jù)的具體含義。因此,除了對數(shù)據(jù)集本身進(jìn)行審核外,還需對元數(shù)據(jù)進(jìn)行審核。審核內(nèi)容包括以下3點(diǎn):①是否符合元數(shù)據(jù)標(biāo)準(zhǔn),如ICPSR審核其數(shù)據(jù)集的元數(shù)據(jù)是否符合DDI元數(shù)據(jù)標(biāo)準(zhǔn)[30];②是否與數(shù)據(jù)集信息相一致,如PANGAEA對元數(shù)據(jù)內(nèi)容與數(shù)據(jù)集的一致性進(jìn)行審查;③元數(shù)據(jù)字段是否完整,如ArrayExpress審核元數(shù)據(jù)是否缺少公開發(fā)布日期、用于測序?qū)嶒?yàn)的協(xié)議等[31]。
2.3.3 審核時間
質(zhì)量審核的時間包括數(shù)據(jù)集提交前、數(shù)據(jù)集提交中與數(shù)據(jù)集提交后。具體選擇在何時進(jìn)行質(zhì)量審核,與審核的方式密切相關(guān)。通常,自動審核發(fā)生在數(shù)據(jù)集提交過程中,這是由于在線提交系統(tǒng)往往自帶審核功能或集成審核工具,如Harvard Dataverse的在線提交系統(tǒng)具有對數(shù)據(jù)集校驗(yàn)的功能,CCDC數(shù)據(jù)提交系統(tǒng)中集成了checkCIF/PLATON等工具供數(shù)據(jù)提交者對數(shù)據(jù)集進(jìn)行校驗(yàn)。人工審核通常發(fā)生在數(shù)據(jù)提交前或數(shù)據(jù)提交后,通常數(shù)據(jù)提交前,工作人員對數(shù)據(jù)集內(nèi)容是否適合該倉儲、是否具有再利用價值等進(jìn)行審核。例如,ADS在數(shù)據(jù)提交前,對數(shù)據(jù)集的再利用價值進(jìn)行評估;而數(shù)據(jù)提交后,工作人員對數(shù)據(jù)集的格式、數(shù)據(jù)集及其元數(shù)據(jù)的一致性、完整性進(jìn)行審核,如PANGAEA在數(shù)據(jù)提交后,對元數(shù)據(jù)和數(shù)據(jù)的完整性、一致性進(jìn)行審核。
2.4.1 發(fā)布渠道
數(shù)據(jù)出版的最終實(shí)現(xiàn),是通過一定的渠道將其發(fā)布出來。不同科學(xué)數(shù)據(jù)倉儲,數(shù)據(jù)集發(fā)布渠道不同。目前科學(xué)數(shù)據(jù)倉儲的數(shù)據(jù)發(fā)布渠道包括本倉儲的數(shù)據(jù)目錄、相關(guān)期刊論文和集成數(shù)據(jù)目錄。其中,本倉儲的數(shù)據(jù)目錄是主要的發(fā)布渠道,發(fā)布的信息一般包括數(shù)據(jù)集本身、元數(shù)據(jù)信息和使用許可協(xié)議。值得注意的是,不同的數(shù)據(jù)倉儲其元數(shù)據(jù)的詳略程度不同。通常情況下,專業(yè)型科學(xué)數(shù)據(jù)倉儲的元數(shù)據(jù)信息較通用型科學(xué)數(shù)據(jù)倉儲的元數(shù)據(jù)信息更加詳細(xì)。
對有來源文獻(xiàn)的科學(xué)數(shù)據(jù),科學(xué)數(shù)據(jù)倉儲通常將期刊論文作為發(fā)布數(shù)據(jù)的補(bǔ)充渠道。來源文獻(xiàn)中需要注明數(shù)據(jù)集的存儲地址和訪問方式,以此來發(fā)布科學(xué)數(shù)據(jù)。如PANGAEA,其Web服務(wù)允許在論文頁面上動態(tài)地嵌入數(shù)據(jù)信息。在這種方式下,來源文獻(xiàn)可以幫助用戶更好地理解數(shù)據(jù)集。
此外,集成目錄也是科學(xué)數(shù)據(jù)倉儲發(fā)布數(shù)據(jù)集的渠道之一,如CEDA允許科學(xué)數(shù)據(jù)的元數(shù)據(jù)被NERC的數(shù)據(jù)目錄(NERC Data Catalogue)收割;EIDC允許科學(xué)數(shù)據(jù)的元數(shù)據(jù)被英國政府?dāng)?shù)據(jù)門戶(data.gov.uk)和歐洲INSPIRE門戶(EU INSPIRE portal)收割。通過集成目錄發(fā)布數(shù)據(jù)集的元數(shù)據(jù),是科學(xué)數(shù)據(jù)倉儲的擴(kuò)展發(fā)布渠道,增加了數(shù)據(jù)集被發(fā)現(xiàn)的可能性。
2.4.2 發(fā)布時間
不同科學(xué)數(shù)據(jù)倉儲對科學(xué)數(shù)據(jù)的發(fā)布時間規(guī)定不同。原則上,科學(xué)數(shù)據(jù)倉儲鼓勵和允許數(shù)據(jù)集在提交、審核后盡快發(fā)布。但允許在下列情況下,由科學(xué)數(shù)據(jù)提交者決定是否延遲發(fā)布,并且大多數(shù)科學(xué)數(shù)據(jù)倉儲規(guī)定了延遲期限。
(1)將科學(xué)數(shù)據(jù)集的發(fā)布時間延遲至期刊論文見刊時間。通常在該情況下,數(shù)據(jù)集與其支撐的論文相伴而生,科研人員將論文提交至期刊,同時將支撐論文結(jié)論的數(shù)據(jù)提交至科學(xué)數(shù)據(jù)倉儲,為保護(hù)論文作者的知識產(chǎn)權(quán)和期刊出版商的利益,科學(xué)數(shù)據(jù)倉儲允許在論文見刊之時,再公開發(fā)布數(shù)據(jù)集。如在數(shù)據(jù)集提交至倉儲中到來源文獻(xiàn)見刊這段時間內(nèi),PANGAEA允許數(shù)據(jù)集預(yù)發(fā)布,意味著僅有作者和期刊論文的審核者通過密碼訪問該數(shù)據(jù)集,一旦期刊論文見刊,則數(shù)據(jù)集的狀態(tài)由預(yù)發(fā)布改為正式發(fā)布。而Dryad允許數(shù)據(jù)集在期刊論文發(fā)表1年以后再發(fā)布,但前提是需要期刊編輯或出版商向本倉儲提供書面協(xié)議。
(2)因包含敏感信息而延遲發(fā)布。對于以人體為研究對象的學(xué)科,其科學(xué)數(shù)據(jù)集通常會涉及被試個人信息。對于被試個人信息等敏感信息的處理,有些倉儲實(shí)行匿名化處理后,即可進(jìn)行發(fā)布;但有些倉儲會因包含敏感信息而延遲發(fā)布,如對于因包含敏感信息而延遲發(fā)布的數(shù)據(jù)集,ADS會延遲發(fā)布時間長達(dá)70年。
(3)因資助機(jī)構(gòu)要求而延遲發(fā)布。資助機(jī)構(gòu)為保證研究者的利益,通常允許科學(xué)數(shù)據(jù)在產(chǎn)生2年后再發(fā)布。有些科學(xué)數(shù)據(jù)倉儲為響應(yīng)資助機(jī)構(gòu)的要求,允許數(shù)據(jù)集提交至本倉儲2年后再公開發(fā)布,如CEDA和EIDC,對于NERC資助項(xiàng)目產(chǎn)生的數(shù)據(jù)集,可以允許2年后公布。
(4)由數(shù)據(jù)提交者決定科學(xué)數(shù)據(jù)發(fā)布時間。如Harvard Dataverse為每個數(shù)據(jù)提交者提供用戶個人空間(My Data),數(shù)據(jù)提交者可以將數(shù)據(jù)提交至此空間,具體何時發(fā)布數(shù)據(jù)集,由其自主決定。而ArrayExpress會在數(shù)據(jù)集發(fā)布的前60天、30天和7天通過郵件提醒數(shù)據(jù)提交者,數(shù)據(jù)提交者可對數(shù)據(jù)發(fā)布時間進(jìn)行更改。
科學(xué)數(shù)據(jù)倉儲是科學(xué)數(shù)據(jù)出版的主導(dǎo)性媒介之一,調(diào)研國外各領(lǐng)域科學(xué)數(shù)據(jù)倉儲的出版功能,并從出版流程的角度進(jìn)行分析,總結(jié)出最佳實(shí)踐,為科學(xué)數(shù)據(jù)倉儲的建設(shè)者和功能設(shè)計(jì)者提供參考。①建立以自助提交為主,協(xié)助提交為輔的提交機(jī)制。在網(wǎng)絡(luò)環(huán)境下,受開放獲取潮流的影響,科研人員更習(xí)慣以自助方式將科學(xué)數(shù)據(jù)提交至倉儲以備出版。僅當(dāng)數(shù)據(jù)集文件過大或遇特殊情況時,需要由專門的工作人員協(xié)助提交。該提交機(jī)制可實(shí)現(xiàn)全天候24小時不間斷服務(wù),減輕工作人員的重復(fù)性勞動,為科學(xué)數(shù)據(jù)倉儲節(jié)約人力成本和提高服務(wù)效率。②制定科學(xué)數(shù)據(jù)及元數(shù)據(jù)質(zhì)量審核標(biāo)準(zhǔn),保證其出版科學(xué)數(shù)據(jù)的內(nèi)容完整、描述充分、格式適用性強(qiáng)。③設(shè)置專門的質(zhì)量審核崗位,搭建質(zhì)量審核系統(tǒng),形成人工審核與系統(tǒng)自動審核相結(jié)合的方式,針對科學(xué)數(shù)據(jù)及元數(shù)據(jù)不同的審核內(nèi)容,靈活采用適當(dāng)?shù)膶徍朔绞健"懿捎枚嗲腊l(fā)布數(shù)據(jù)??茖W(xué)數(shù)據(jù)倉儲應(yīng)盡可能多地?cái)U(kuò)展發(fā)布渠道,以增加科學(xué)數(shù)據(jù)被發(fā)現(xiàn)的可能性??茖W(xué)數(shù)據(jù)倉儲應(yīng)開放元數(shù)據(jù),允許被各大數(shù)據(jù)庫搜索進(jìn)而收割元數(shù)據(jù),或主動提供元數(shù)據(jù)。此外,數(shù)據(jù)倉儲還應(yīng)明確要求數(shù)據(jù)使用者,在使用本倉儲的數(shù)據(jù)所產(chǎn)生的學(xué)術(shù)出版物中引用該數(shù)據(jù),并注明數(shù)據(jù)集的存儲地址和訪問方式。⑤分配數(shù)字對象唯一標(biāo)識符。科學(xué)數(shù)據(jù)倉儲應(yīng)為每個數(shù)據(jù)集提供DOI,使數(shù)據(jù)集實(shí)現(xiàn)永久追溯,同時有助于學(xué)者引用該數(shù)據(jù)集。
[1] 黃國彬,王舒. 科學(xué)數(shù)據(jù)出版模式比較研究[J]. 大學(xué)圖書館學(xué)報(bào),2018(1):33-40.
[2] 張靜蓓,任樹懷. 科研數(shù)據(jù)出版模式、流程及引用策略研究[J]. 圖書情報(bào)工作,2015,59(9):21-27.
[3] 涂志芳. 科學(xué)數(shù)據(jù)出版生態(tài)系統(tǒng)與質(zhì)量控制體系構(gòu)建[J]. 圖書與情報(bào),2019(1):125-134.
[4] ROMAN D,DIMITROV M,NIKOLOV N,et al. Datagraft:simplifying open data publishing[C]//European Semantic Web Conference:The Semantic Web. Berlin:Springer,2016:101-106.
[5] BRASE J,SCHINDLER U. The publication of scientific data by World Data Centers and the National Library of Science and Technology in Germany[J]. Data Science Journal,2006(5):205-208.
[6] 秦順,汪全莉,邢文明. 歐美科學(xué)數(shù)據(jù)開放存取出版平臺服務(wù)調(diào)研及啟示[J]. 圖書情報(bào)工作,2019,63(13):129-136.
[7] 張玲玲,陳媛媛. 中美地理科學(xué)數(shù)據(jù)出版平臺研究[J]. 數(shù)字圖書館論壇,2020(10):67-72.
[8] 屈寶強(qiáng),宋立榮,王健. 開放共享視角下科學(xué)數(shù)據(jù)出版的發(fā)展趨勢[J]. 中國科技期刊研究,2019,30(4):329-335.
[9] 王丹丹. 科學(xué)數(shù)據(jù)出版過程中的數(shù)據(jù)質(zhì)量控制[J]. 圖書情報(bào)工作,2015,59(23):124-129.
[10] 李曉蕾,齊釩宇,孟潔,等. 地質(zhì)科學(xué)數(shù)據(jù)出版的質(zhì)量控制及公開化審查研究[J]. 中國礦業(yè),2019,28(6):65-68.
[11] 涂志芳,劉茲恒. 我國多學(xué)科領(lǐng)域數(shù)據(jù)出版質(zhì)量控制最佳實(shí)踐研究[J]. 圖書館雜志,2020,39(9):70-77.
[12] 涂志芳,劉茲恒. 國外數(shù)據(jù)知識庫模式的數(shù)據(jù)出版質(zhì)量控制實(shí)踐研究[J]. 圖書館建設(shè),2018(3):5-13.
[13] 吳立宗,王亮緒,南卓銅,等. 科學(xué)數(shù)據(jù)出版現(xiàn)狀及其體系框架[J]. 遙感技術(shù)與應(yīng)用,2013,28(3):383-390.
[14] CEDA. Steps to archiving data with CEDA[EB/OL].[2021-01-04]. https://help.ceda.ac.uk/article/138-steps-to-archiving-data-with-ceda.
[15] TCIA. Starting the submission process[EB/OL].[2020-12-04]. http://www.cancerimagingarchive.net/primary-data/.
[16] UKDA. What you need to know to deliver a dataset[EB/OL].[2021-01-04]. https://www.ukdataservice.ac.uk/deposit-data/how-to/regular-depositors/deposit.
[17] ADA. How To Deposit Data[EB/OL].[2021-01-04]. https://www.ada.edu.au/ada/how-to-deposit-data.
[18] ADS. Guideline for Depositors[EB/OL].[2021-01-04]. http://archaeologydataservice.ac.uk/advice/DepositingData.xhtml#How%20to%20Deposit.
[19] BioGRID. Contact Us/Send Us Your Data[EB/OL].[2021-01-04]. https://wiki.thebiogrid.org/doku.php/contribute.
[20] Submitting Sequences using Specific NCBI Submission Tools[EB/OL].[2021-01-04]. https://www.ncbi.nlm.nih.gov/books/NBK53709/.
[21] ICPSR. ICPSR:A Case Study in Repository Management[EB/OL].[2021-01-04]. https://www.icpsr.umich.edu/icpsrweb/content/datamanagement/lifecycle/ingest/index.html#receipt.
[22] dbGaP submission process[EB/OL].[2021-01-04]. https://www.ncbi.nlm.nih.gov/projects/gap/cgi-bin/GetPdf.cgi?document_name=HowToSubmit.pdf.
[23] UKDA. How to deposit[EB/OL].[2021-01-04]. https://www.ukdataservice.ac.uk/deposit-data/how-to.
[24] 百度百科. URL[EB/OL].[2021-01-08]. https://baike.baidu.com/item/url/110640?fr=aladdin.
[25] PANGAEA. Benefits and Details[EB/OL].[2021-01-04]. https://www.pangaea.de/submit/.
[26] Figshare. Data Integrity and Authenticity Policy[EB/OL].[2021-01-04]. https://knowledge.figshare.com/articles/item/data-integrity-and-authenticity-policy.
[27] CCDC. Step 4:Validation[EB/OL].[2021-01-06]. https://www.ccdc.cam.ac.uk/Community/depositastructure/structuredepositioninformation/.
[28] WEAVER R,DUERR R. Data Acceptance Plan[EB/OL].[2021-01-06]. https://nsidc.org/sites/nsidc.org/files/files/data/daac/daac_data_policy_v09-1.pdf.
[29] BioGRID. Point out any Errors/Corrections to our Existing Data[EB/OL].[2021-01-06]. https://wiki.thebiogrid.org/doku.php/contribute#point_out_any_errors_corrections_to_our_existing_data.
[30] ICPSR. Details on Appraisal Critera[EB/OL].[2021-01-06]. https://www.icpsr.umich.edu/icpsrweb/content/datamanagement/lifecycle/details.html.
[31] ArrayExpress. Review by ArrayExpress curators[EB/OL].[2021-01-06]. https://www.ebi.ac.uk/fg/annotare/help/submit_exp.html.
Foreign Research on Data Publishing Process of Scientific Data Repository
WANG Shu1HUANG GuoBin2
( 1. Shanxi University of Finance and Economics Library, Taiyuan 030006, China;2. The School of Government, Beijing Normal University, Beijing 100875, China )
Scientific data repository is one of the leading media of scientific data publishing in the future. Based on the data publishing process, this paper analyzes the publishing of scientific data repository from three aspects: data submission, data storage, quality review, data release, and attempts to provide suggestions for standardizing the publishing function of scientific data repository: establishing the submission mode based on self-service delivery, formulating the quality review standard of scientific data repository, and implementing automatic audit in parallel with manual review, releasing data sets through multiple channels, and providing digital resource unique identifier for data sets.
Scientific Data Repository; Publishing Process; Scientific Data; Data Publishing
G250
10.3772/j.issn.1673-2286.2021.01.009
王舒,黃國彬. 國外科學(xué)數(shù)據(jù)倉儲的數(shù)據(jù)出版流程研究[J]. 數(shù)字圖書館論壇,2021(1):60-66.
王舒,女,1992年生,碩士,助理館員,研究方向:數(shù)字資源建設(shè),E-mail:bnuwangshu2018@163.com。
黃國彬,男,1979年生,博士,副教授,研究方向:信息法學(xué)、信息分析。
(收稿日期:2021-01-08)