摘 要:科學(xué)數(shù)據(jù)出版是學(xué)術(shù)交流體系未來發(fā)展的重要趨勢。文章通過分析中國知網(wǎng)、WOS等中外文數(shù)據(jù)庫中科學(xué)數(shù)據(jù)出版領(lǐng)域的研究文獻,闡述了科學(xué)數(shù)據(jù)出版的發(fā)展歷程和研究進展。最后從科學(xué)數(shù)據(jù)出版的生命周期視角,對科學(xué)數(shù)據(jù)的出版形式、體系與模式、引用、元數(shù)據(jù)、與學(xué)術(shù)文獻的關(guān)系、隱私保護、質(zhì)量控制等關(guān)鍵問題進行了述評。
關(guān)鍵詞:數(shù)據(jù)出版;科學(xué)數(shù)據(jù);關(guān)鍵問題
中圖分類號:G237.9 文獻標(biāo)識碼:A DOI:10.11968/tsyqb.1003-6938.2017073
Abstract Research data publishing is an important trend of the future development of academic exchange system. The paper analyzes articles about research data publishing in databases such as CNKI and WOS to describe its development history and research progress. From the lifecycle perspective of data publishing, the author reviews studies about several key problems of data publishing, including modes, system and patterns, citation, metadata, relationship with research document, privacy protection, and quality control, aiming at providing reference and enlightenment for major participants of China to publish research data.
Key words data publishing; research data; key problems
近年來,科學(xué)數(shù)據(jù)開放共享和管理受到廣泛關(guān)注,而科學(xué)數(shù)據(jù)出版逐漸成為科研成果發(fā)布和再利用的重要環(huán)節(jié)。作為科學(xué)研究重要主體的高校紛紛設(shè)立專門進行科學(xué)數(shù)據(jù)出版工作的機構(gòu);數(shù)據(jù)倉儲如Dryad、GBIF等積極探索以數(shù)據(jù)存儲和共享平臺的方式承擔(dān)科學(xué)數(shù)據(jù)出版的責(zé)任;Elsevier、Springer等學(xué)術(shù)出版商將學(xué)術(shù)出版的觸角伸向科學(xué)數(shù)據(jù)領(lǐng)域。2013年,英國聯(lián)合信息系統(tǒng)委員會、BioSharing等數(shù)據(jù)倉儲、國際科學(xué)技術(shù)與媒體出版者聯(lián)盟以及Wiley等出版機構(gòu)針對數(shù)據(jù)出版當(dāng)下狀態(tài)及未來發(fā)展專門召開專題研討會。科學(xué)界、傳統(tǒng)出版界、圖書館領(lǐng)域、科學(xué)研究管理機構(gòu)、數(shù)據(jù)庫商等從不同角度推動科學(xué)數(shù)據(jù)出版的進程,不斷呈現(xiàn)合作趨勢。
本文以“data publishing”“data publication”“數(shù)據(jù)出版”等作為題名和關(guān)鍵詞,分別在Web of Science、Elsevier、中國知網(wǎng)、萬方等中外文數(shù)據(jù)庫進行檢索,結(jié)果表明國內(nèi)外研究對科學(xué)數(shù)據(jù)出版的相關(guān)內(nèi)容已有所涉及,如何琳和常穎聰[1]對科學(xué)數(shù)據(jù)出版的主要模式以及科學(xué)數(shù)據(jù)出版涉及的元數(shù)據(jù)、隱私保護、組織技術(shù)、出版機制和知識產(chǎn)權(quán)問題進行了闡述。但總體而言,國內(nèi)外科學(xué)數(shù)據(jù)出版領(lǐng)域的研究成果數(shù)量較少,且其研究內(nèi)容主要是實踐探索的經(jīng)驗總結(jié)以及從宏觀視角對科學(xué)數(shù)據(jù)出版進行歸納?;诖?,本文在分析科學(xué)數(shù)據(jù)出版發(fā)展現(xiàn)狀基礎(chǔ)之上,試從科學(xué)數(shù)據(jù)出版的生命周期視角,從宏觀體系和微觀實踐環(huán)節(jié)兩個層面對已有的研究成果進行述評,以期歸納科學(xué)數(shù)據(jù)出版生命周期所涉及的關(guān)鍵問題及其解決方案,為我國未來開展科學(xué)數(shù)據(jù)出版實踐提供借鑒。
1 科學(xué)數(shù)據(jù)出版的主體角色
科學(xué)數(shù)據(jù)出版牽涉多方參與者,其角色和功能正在被討論。Leonardo Candela等認為科學(xué)數(shù)據(jù)出版意圖在于科學(xué)數(shù)據(jù)的發(fā)布,其主要參與者有科研人員、出版者和數(shù)據(jù)倉儲。其中數(shù)據(jù)倉儲在數(shù)據(jù)集格式化、記錄和編目、授權(quán)、出版費用管理、保證有效性、可獲取性、可發(fā)現(xiàn)性以及可引用等科學(xué)數(shù)據(jù)出版的8個關(guān)鍵方面發(fā)揮著重要角色[2];Lawrence等[3]從科學(xué)數(shù)據(jù)出版物的操作層視角出發(fā),將主體角色劃分為作者、解析器、識別符管理者、同行評審管理者、“守門人”、元數(shù)據(jù)編輯、元數(shù)據(jù)生成者、同行評審者、存檔者和數(shù)據(jù)管理者等10種;師榮華和劉細文[4]將科學(xué)數(shù)據(jù)出版的整個流程歸納為前期流程和后期流程,認為圖書館在前期階段可以擔(dān)任數(shù)據(jù)許可、元數(shù)據(jù)、保存、評審、協(xié)助數(shù)據(jù)發(fā)現(xiàn)、發(fā)展出版標(biāo)準(zhǔn)、知識產(chǎn)權(quán)保護、數(shù)據(jù)倉儲等方面的角色,在后期階段可承擔(dān)與科學(xué)研究人員合作的角色。
對科學(xué)數(shù)據(jù)出版主體的研究基本與當(dāng)前實踐一致,是對科學(xué)數(shù)據(jù)出版實踐的歸納總結(jié)。由上述研究可知,當(dāng)前通常將科學(xué)數(shù)據(jù)出版的主體歸結(jié)為傳統(tǒng)出版商、具有獨立數(shù)據(jù)出版實踐的傳統(tǒng)學(xué)術(shù)期刊、數(shù)據(jù)期刊、數(shù)據(jù)中心或數(shù)據(jù)倉儲、科研人員、數(shù)據(jù)公司、圖書館等幾類,不同主體在科學(xué)數(shù)據(jù)出版活動中分飾不同角色,各司其職,相互配合,共同完成科學(xué)數(shù)據(jù)的出版工作。
2 科學(xué)數(shù)據(jù)出版體系的發(fā)展
2.1 科學(xué)數(shù)據(jù)出版形式的歸納
加利福尼亞大學(xué)學(xué)術(shù)交流辦公室將科學(xué)數(shù)據(jù)出版的形式劃分為4類:商業(yè)性數(shù)據(jù)倉儲、數(shù)據(jù)期刊、期刊文獻的支撐數(shù)據(jù)、個人或?qū)嶒炇揖W(wǎng)站。荷蘭阿姆斯特丹大學(xué)認定科學(xué)數(shù)據(jù)出版形式包括科學(xué)數(shù)據(jù)倉儲、科研人員的服務(wù)器或網(wǎng)站、增強出版物等3種。Chavan和Penev[5]把《生物多樣性數(shù)據(jù)文章》作為生物學(xué)領(lǐng)域科學(xué)數(shù)據(jù)出版的主要形式,認為其是激勵生物學(xué)研究者開展科學(xué)數(shù)據(jù)出版的重要方式。國內(nèi)學(xué)者對科學(xué)數(shù)據(jù)出版的形式進行了較為深入的討論。張靜蓓和任樹懷[6]從科學(xué)數(shù)據(jù)出版的實施者的視角,將科學(xué)數(shù)據(jù)出版的形式總結(jié)為數(shù)據(jù)獨立出版、數(shù)據(jù)論文出版、合作出版和期刊自行出版;雷秋雨和馬建玲[7]總結(jié)了以出版數(shù)據(jù)文章為特征的數(shù)據(jù)期刊、以整合出版為特征的數(shù)據(jù)期刊、數(shù)據(jù)作為補充資料出版的數(shù)據(jù)期刊;馬建玲等[8]將學(xué)術(shù)期刊科學(xué)數(shù)據(jù)的存繳和出版政策劃分為4類,即論文出版時將相關(guān)數(shù)據(jù)提交到數(shù)據(jù)倉儲,數(shù)據(jù)作為論文支持文件一并提交,非開放數(shù)據(jù)的出版,以及數(shù)據(jù)質(zhì)量控制;張小強和李欣[9]根據(jù)數(shù)據(jù)與論文的關(guān)系,將數(shù)據(jù)出版初步劃分為數(shù)據(jù)附屬于出版物、獨立的數(shù)據(jù)出版和出版物附屬于數(shù)據(jù)等3種形式。endprint
對科學(xué)數(shù)據(jù)出版形式的總結(jié)和歸納,因其視角不同得到的結(jié)果也各不相同。有些出自對數(shù)據(jù)存繳和出版政策的劃分,部分是對論文與期刊集成出版形式的總結(jié)。當(dāng)前對科學(xué)數(shù)據(jù)出版形式的歸納總結(jié)基本還處于對出版形式的劃分層面,對于不同形式的特征、適用性等方面有待深入研究。
2.2 科學(xué)數(shù)據(jù)出版體系與模式的構(gòu)建
部分研究將科學(xué)數(shù)據(jù)出版作為科學(xué)數(shù)據(jù)共享體系的組成部分,如黎建輝認為科學(xué)數(shù)據(jù)出版從數(shù)據(jù)工作者的角度創(chuàng)新了科學(xué)數(shù)據(jù)開放共享模式,推動科學(xué)數(shù)據(jù)知識產(chǎn)權(quán)的清晰,保證數(shù)據(jù)的可追溯、高質(zhì)量、可引用,也可通過數(shù)據(jù)引用來實現(xiàn)對科學(xué)發(fā)現(xiàn)價值和影響的客觀評價[10];吳立宗等[11]認為科學(xué)數(shù)據(jù)出版是一種全新的數(shù)據(jù)共享模式,指出數(shù)據(jù)出版與數(shù)據(jù)共享之間存在互補關(guān)系,提出和完善由數(shù)據(jù)提交、同行審議、數(shù)據(jù)發(fā)布和永久存儲、數(shù)據(jù)引用和影響評價等5個基本環(huán)節(jié)構(gòu)成的體系架構(gòu);諸云強等[12]把數(shù)據(jù)出版與數(shù)據(jù)匯交、數(shù)據(jù)聯(lián)盟、服務(wù)激勵等作為科學(xué)數(shù)據(jù)共享的機制之一,指出自下而上的科學(xué)數(shù)據(jù)出版是調(diào)動科研人員主動共享數(shù)據(jù)積極性的重要機制。基于吉姆格雷提出的數(shù)據(jù)金字塔基礎(chǔ)上,徐麗芳和叢挺[13]提出了數(shù)字出版金字塔,從原始數(shù)據(jù)和數(shù)據(jù)集到數(shù)據(jù)收集和結(jié)構(gòu)化數(shù)據(jù)庫,再到經(jīng)過處理的數(shù)據(jù)和數(shù)據(jù)顯示,最后到數(shù)據(jù)出版物,分別對應(yīng)科學(xué)數(shù)據(jù)出版的不同階段或形式。在由單一主體主導(dǎo)科學(xué)數(shù)據(jù)出版的模式之外,李紅星等[14]提出科學(xué)數(shù)據(jù)聯(lián)合出版模式,即數(shù)據(jù)中心聯(lián)合傳統(tǒng)學(xué)術(shù)期刊的科學(xué)數(shù)據(jù)出版,以提高數(shù)據(jù)質(zhì)量,同時幫助數(shù)據(jù)成果融入現(xiàn)有科研成果評價體系,實現(xiàn)數(shù)據(jù)質(zhì)量和數(shù)據(jù)作者權(quán)益保護的權(quán)衡。
對科學(xué)數(shù)據(jù)出版形式和模式以及對科學(xué)數(shù)據(jù)出版體系的勾勒初步成形,為開展科學(xué)數(shù)據(jù)出版實踐提供了參考,但基本限于對實踐探索經(jīng)驗的總結(jié),而從理論研究到實踐的反饋或從理論到實踐的驗證性研究還較少。
3 科學(xué)數(shù)據(jù)的引用規(guī)范和標(biāo)準(zhǔn)化
科學(xué)數(shù)據(jù)是重要的學(xué)術(shù)成果,應(yīng)當(dāng)充分尊重科學(xué)數(shù)據(jù)生產(chǎn)者的科研勞動,同時還應(yīng)保證科學(xué)數(shù)據(jù)的可追溯性,而通過科學(xué)數(shù)據(jù)的引用能夠為科研人員帶來與同行評審類似的信譽,從而進一步激勵科研人員開展科學(xué)數(shù)據(jù)的共享和再利用。
3.1 科學(xué)數(shù)據(jù)引用對科研工作者的激勵作用
科學(xué)數(shù)據(jù)引用的規(guī)范化和標(biāo)準(zhǔn)化成為科學(xué)數(shù)據(jù)出版中的必要環(huán)節(jié)。根據(jù)Altman和Crosas的觀點,科學(xué)數(shù)據(jù)的引用已有40余年歷史。他們對科學(xué)數(shù)據(jù)引用的發(fā)展歷程進行了梳理,根據(jù)科學(xué)數(shù)據(jù)引用的功能,將其歸納為3個階段:突出數(shù)據(jù)引用在描述和檢索領(lǐng)域的角色;將引用的功能拓展到數(shù)據(jù)獲取和長期保存領(lǐng)域;將引用運用于驗證、再現(xiàn)和重復(fù)利用[15];Heather A.Piwowar等[16-17]對科學(xué)數(shù)據(jù)的共享與文獻引用率之間的關(guān)系進行分析,發(fā)現(xiàn)科學(xué)數(shù)據(jù)的出版與文獻引用率之間存在明顯的正相關(guān)關(guān)系;Tessa E. Pronk等[18]在博弈論框架下分析影響科研工作者共享和出版數(shù)據(jù)的因素,結(jié)果表明與政策規(guī)定相比,降低成本和增加引用等更具有激勵效果。這些研究表明,科學(xué)數(shù)據(jù)的出版和引用,對科學(xué)文獻的引用有推動作用,進而可激勵科研工作者進一步開展數(shù)據(jù)共享和出版工作。
3.2 科學(xué)數(shù)據(jù)引用的標(biāo)準(zhǔn)化研究
2013年11月,F(xiàn)ORCE11的數(shù)據(jù)引用綜合工作組發(fā)布數(shù)據(jù)引用原則聯(lián)合聲明對科學(xué)數(shù)據(jù)引用的目的、功能和歸屬進行了規(guī)范。早在2007年Altman對定量數(shù)據(jù)的學(xué)術(shù)引用標(biāo)準(zhǔn)進行了研究,提出了由基礎(chǔ)引用元素和可選元素組成的數(shù)據(jù)引用標(biāo)準(zhǔn),并對深度引用即數(shù)據(jù)集的子集引用以及不同版本數(shù)據(jù)的引用等問題進行了闡述[19]??茖W(xué)數(shù)據(jù)引用實質(zhì)上是引用目標(biāo)對象的元數(shù)據(jù)子集,豐富的元數(shù)據(jù)能夠保證科學(xué)數(shù)據(jù)的再利用,可見元數(shù)據(jù)對于科學(xué)數(shù)據(jù)的引用來說至關(guān)重要,數(shù)據(jù)出版、數(shù)據(jù)存儲機構(gòu)對此已經(jīng)達成共識。王丹丹[20]指出數(shù)據(jù)引用需要制定面向科學(xué)數(shù)據(jù)的元數(shù)據(jù)規(guī)范、建立能夠承認作者貢獻的評價體系并提供支持科學(xué)數(shù)據(jù)引用的參考文獻管理工具;彭潔等[21]對科技期刊和科研人員對科學(xué)數(shù)據(jù)引用的態(tài)度、動機、標(biāo)注等進行問卷調(diào)查,提出了科學(xué)數(shù)據(jù)引用框架,并提出分別以期刊、數(shù)據(jù)中心和科研人員為中心的3種促進科學(xué)數(shù)據(jù)引用的路徑;屈寶強等[22]對科學(xué)數(shù)據(jù)引用的現(xiàn)狀等進行總結(jié),認為科學(xué)數(shù)據(jù)引用是保證數(shù)據(jù)創(chuàng)建者知識產(chǎn)權(quán)的重要途徑之一,并對科學(xué)數(shù)據(jù)引用的功能、實踐以及現(xiàn)有的引用格式進行了總結(jié);黃如花等[23]對國外科學(xué)數(shù)據(jù)引用的規(guī)范進行了調(diào)查,詳細闡述了引用原則、引用元素、引用格式、引用對象、相關(guān)主體等 5個方面的問題。
目前在科學(xué)數(shù)據(jù)引用領(lǐng)域,需對科學(xué)數(shù)據(jù)來源和歷史沿革的記錄,需對科學(xué)數(shù)據(jù)本身的界定特別是數(shù)據(jù)的結(jié)構(gòu)、關(guān)系和粒度等方面的確定,如確定科學(xué)數(shù)據(jù)的歸屬以及利益分配特別是科學(xué)數(shù)據(jù)歸屬模型的構(gòu)建,科學(xué)數(shù)據(jù)引用的標(biāo)準(zhǔn)建設(shè),科學(xué)數(shù)據(jù)出版中引用的實現(xiàn)方式,如何合理地將科學(xué)數(shù)據(jù)引用納入科研評價體系等問題仍需進一步研究和實踐。與此同時,大數(shù)據(jù)、復(fù)雜結(jié)構(gòu)數(shù)據(jù)、動態(tài)數(shù)據(jù)和數(shù)據(jù)格式變化等為科學(xué)數(shù)據(jù)的引用帶來了挑戰(zhàn)。
4 科學(xué)數(shù)據(jù)出版的元數(shù)據(jù)保障
4.1 元數(shù)據(jù)對科學(xué)數(shù)據(jù)出版全生命周期的支持
Ball等對科學(xué)數(shù)據(jù)出版、引用和管理中的元數(shù)據(jù)標(biāo)準(zhǔn)進行調(diào)查和分析,指出當(dāng)前單一學(xué)科領(lǐng)域的科學(xué)數(shù)據(jù)元數(shù)據(jù)存在多樣和復(fù)雜的現(xiàn)狀,無法實現(xiàn)互操作[24];Hoekstra對Linkitup在數(shù)據(jù)出版中的作用進行探討,指出Linkitup通過元數(shù)據(jù)實現(xiàn)了數(shù)據(jù)倉儲中科研成果的出版功能,并通過對元數(shù)據(jù)進行豐富的方式,實現(xiàn)了科學(xué)數(shù)據(jù)與倉儲中的原始文獻之間的關(guān)聯(lián),而通過元數(shù)據(jù)的方式比關(guān)聯(lián)數(shù)據(jù)的方式更為方便[25];Roberts[26]指出,當(dāng)前數(shù)據(jù)期刊不斷涌現(xiàn),其中包括元數(shù)據(jù)的出版,但缺乏綜合性數(shù)據(jù)出版框架;袁曦臨[27]認為元數(shù)據(jù)是推進科學(xué)數(shù)據(jù)共享,聯(lián)結(jié)科學(xué)數(shù)據(jù)生產(chǎn)者、使用者和管理者的紐帶。由此可見,元數(shù)據(jù)在科學(xué)數(shù)據(jù)出版生命周期的各個環(huán)節(jié)承擔(dān)著關(guān)鍵作用這一觀點在研究領(lǐng)域已經(jīng)達成共識,元數(shù)據(jù)是科學(xué)數(shù)據(jù)出版的重要基礎(chǔ)。endprint
4.2 科學(xué)數(shù)據(jù)出版實踐中的元數(shù)據(jù)保障實施
Kansa等以O(shè)pen Context為例,指出元數(shù)據(jù)的收集和記錄是科學(xué)數(shù)據(jù)出版的第一步。為了實現(xiàn)科學(xué)數(shù)據(jù)的引用、檢索、瀏覽等功能,Open Context項目要求保存特定的元數(shù)據(jù)記錄以保證科學(xué)數(shù)據(jù)集的再利用[28];Sayogo以DataONE項目為例,探討科學(xué)數(shù)據(jù)出版的動力,指出元數(shù)據(jù)標(biāo)準(zhǔn)與數(shù)據(jù)質(zhì)量、數(shù)據(jù)保護、數(shù)據(jù)共享的倫理和責(zé)任等共同構(gòu)成了科學(xué)數(shù)據(jù)共享和出版的影響因素[29];Moritz[30]等指出,當(dāng)前致力于數(shù)據(jù)出版的新的期刊形式已經(jīng)出現(xiàn),其中元數(shù)據(jù)發(fā)布可支持數(shù)據(jù)穩(wěn)定、持續(xù)和安全的檢索;Mercè Crosas[31]指出,科學(xué)數(shù)據(jù)的出版需要正式的數(shù)據(jù)引用格式、元數(shù)據(jù)和可信賴的數(shù)據(jù)倉儲做支撐,元數(shù)據(jù)在支撐科學(xué)數(shù)據(jù)發(fā)現(xiàn)方面具有至關(guān)重要的作用;Kolker[32]認為科學(xué)數(shù)據(jù)的共享、分析和集成,需要元數(shù)據(jù)的可持續(xù)生成、獲取和傳播,提出通用組學(xué)元數(shù)據(jù)列表并作為生物學(xué)領(lǐng)域獨立數(shù)據(jù)出版的標(biāo)準(zhǔn);Kratz等[33]指出,數(shù)據(jù)出版在記錄信息的種類、與數(shù)據(jù)相關(guān)的記錄文檔的存儲位置、數(shù)據(jù)以何種方式實現(xiàn)有效性等方面差異性較大,歸結(jié)起來,數(shù)據(jù)的記錄信息和記錄文檔等是元數(shù)據(jù)描述的結(jié)果;歐美大部分高校圖書館將科學(xué)數(shù)據(jù)出版作為科學(xué)數(shù)據(jù)共享的重要手段和途徑,由于元數(shù)據(jù)是高校圖書館傳統(tǒng)工作和服務(wù)積累的優(yōu)勢工作領(lǐng)域,所以在開展科學(xué)數(shù)據(jù)的共享與出版中特別重視元數(shù)據(jù)的運用和協(xié)調(diào)。
科學(xué)數(shù)據(jù)出版的標(biāo)準(zhǔn)化建設(shè),是科學(xué)數(shù)據(jù)出版未來發(fā)展的必然趨勢,而元數(shù)據(jù)標(biāo)準(zhǔn)是科學(xué)數(shù)據(jù)出版標(biāo)準(zhǔn)化建設(shè)的重要環(huán)節(jié),也是當(dāng)前科學(xué)數(shù)據(jù)出版實踐探索的重要領(lǐng)域。對科學(xué)數(shù)據(jù)質(zhì)量的保證,一般通過元數(shù)據(jù)管理和數(shù)據(jù)管理技能的提升來實現(xiàn),構(gòu)建并完善用戶友好、可互操作的元數(shù)據(jù)標(biāo)準(zhǔn)是實現(xiàn)科學(xué)數(shù)據(jù)出版的必要因素之一。
5 科學(xué)數(shù)據(jù)出版與學(xué)術(shù)文獻的關(guān)聯(lián)
科學(xué)數(shù)據(jù)的開放共享和出版,能夠為科學(xué)研究特別是學(xué)術(shù)文獻的驗證、科研成果的評價等提供條件。科學(xué)數(shù)據(jù)出版主體既有傳統(tǒng)出版參與者,又有新型的參與者。傳統(tǒng)出版者從學(xué)術(shù)文獻的增值利用視角出發(fā),已開展科學(xué)數(shù)據(jù)的出版以及與學(xué)術(shù)文獻的關(guān)聯(lián)工作,如Elsevier與數(shù)據(jù)倉儲合作開展科學(xué)數(shù)據(jù)出版,并在其數(shù)據(jù)庫平臺通過多種形式實現(xiàn)科學(xué)數(shù)據(jù)與學(xué)術(shù)文獻的關(guān)聯(lián)。Bizer論證了利用關(guān)聯(lián)開放數(shù)據(jù)開展科學(xué)數(shù)據(jù)的網(wǎng)絡(luò)出版與傳統(tǒng)出版物進行關(guān)聯(lián)的可能性,認為利用關(guān)聯(lián)數(shù)據(jù)實現(xiàn)科學(xué)數(shù)據(jù)共享和與學(xué)術(shù)文獻的關(guān)聯(lián)仍面臨數(shù)據(jù)互操作、數(shù)據(jù)質(zhì)量和科學(xué)工作環(huán)境等方面的問題[34];Hoogerwerf等[35]論述了跨學(xué)科研究環(huán)境對學(xué)術(shù)信息包括學(xué)術(shù)文獻與科學(xué)數(shù)據(jù)關(guān)聯(lián)帶來的挑戰(zhàn),并就OpenAIRplus項目所開展的學(xué)術(shù)信息關(guān)聯(lián)實踐進行了詳細闡述,利用“引用模型”實現(xiàn)出版物、科學(xué)數(shù)據(jù)和科研項目的關(guān)聯(lián)。Wynholds [36]認為科學(xué)數(shù)據(jù)的身份識別是科學(xué)數(shù)據(jù)引用、元數(shù)據(jù)和識別符等得以建立的基礎(chǔ)。
科學(xué)數(shù)據(jù)既是科學(xué)研究的基礎(chǔ),也是科學(xué)研究的重要產(chǎn)出,與傳統(tǒng)學(xué)術(shù)文獻緊密相關(guān)??茖W(xué)數(shù)據(jù)出版與學(xué)術(shù)文獻的出版、共享、利用之間的關(guān)系逐漸凸顯,如何通過科學(xué)數(shù)據(jù)出版實現(xiàn)科學(xué)數(shù)據(jù)與學(xué)術(shù)文獻的有效關(guān)聯(lián)和互操作,仍有待進一步研究。
6 科學(xué)數(shù)據(jù)出版中的隱私保護與利用權(quán)衡
6.1 科學(xué)數(shù)據(jù)出版的隱私保護規(guī)范
在科學(xué)數(shù)據(jù)出版中,如何實現(xiàn)隱私保護以及隱私保護與利用之間的均衡等問題一直備受關(guān)注,同時科學(xué)數(shù)據(jù)隱私保護的標(biāo)準(zhǔn)也不斷推出。如針對數(shù)據(jù)挖掘中的隱私保護問題,2008年推出廣義矩陣理論框架即保護隱私性挖掘準(zhǔn)確性框架(FRamework for Accuracy in Privacy-Preserving mining,F(xiàn)RAPP),為保護隱私性數(shù)據(jù)挖掘中隨機擾動機制的系統(tǒng)化設(shè)計提供了指導(dǎo)[37]。Rastogi等對數(shù)據(jù)出版中的隱私問題進行了研究,提出了匿名算法,并提升了先前已知的隱私與利用權(quán)衡算法,如FRAPP等對隱私保護和利用的效果[38]。在醫(yī)學(xué)領(lǐng)域,HIPAA法案(Health Insurance Portability and Accountability Act/1996,Public Law 104-19,)較早公布了個人健康信息的隱私保護標(biāo)準(zhǔn)和實施指南,并于2013年對HIPAA隱私保護的相關(guān)規(guī)則進行了修改,醫(yī)學(xué)數(shù)據(jù)的開放、共享、出版和再利用多遵循該規(guī)則進行隱私保護[39]。英國于1998年頒布實施《數(shù)據(jù)保護法案》,對科學(xué)研究所涉及的與個人隱私相關(guān)數(shù)據(jù)的處理進行了規(guī)范。由此可見,隱私保護已成為科學(xué)數(shù)據(jù)出版和利用的重要問題。
6.2 權(quán)衡隱私保護與利用
Brickell和Shmatikov提出匿名數(shù)據(jù)隱私保護所得與使用所得的評估方法,指出“即使是最適度的隱私保護,對于數(shù)據(jù)挖掘利用而言也幾乎是完全的破壞”[40]。在此結(jié)論基礎(chǔ)上,Li T等對科學(xué)數(shù)據(jù)出版中隱私保護與利用之間的利弊問題進行了進一步探討,指出科學(xué)數(shù)據(jù)的隱私保護和利用之間的直接對比并不合理。在數(shù)據(jù)出版中隱私保護和利用之間的均衡與金融投資中的風(fēng)險回報權(quán)衡相似,借鑒現(xiàn)代帕累托理論的概念,提出了隱私保護和利用權(quán)衡評估的集成框架,為科學(xué)數(shù)據(jù)出版者進行隱私保護的正確決策提供指導(dǎo)[41]。澳大利亞國家數(shù)據(jù)服務(wù)網(wǎng)支持其國內(nèi)研究中的敏感數(shù)據(jù)進行出版,這意味著描述敏感數(shù)據(jù)的元數(shù)據(jù)記錄被發(fā)布,對敏感數(shù)據(jù)的發(fā)現(xiàn)和檢索不再受到限制。澳大利亞國家數(shù)據(jù)服務(wù)項目指出敏感數(shù)據(jù)為可以用來識別個人、物種、對象和位置等信息的信息,存在歧視、傷害或不希望得到關(guān)注反而被關(guān)注等方面的危險。
科學(xué)數(shù)據(jù)出版牽涉數(shù)據(jù)利用與隱私保護之間的博弈,在牽涉調(diào)查對象、實驗對象的科學(xué)領(lǐng)域,其刊出的科學(xué)數(shù)據(jù)往往涉及隱私保護問題,而科學(xué)數(shù)據(jù)的共享、出版、利用和再利用是科學(xué)研究發(fā)展的大勢所趨,以何種方式、何種尺度維系兩者之間的均衡是科學(xué)數(shù)據(jù)出版未來面臨的一大挑戰(zhàn)。
7 科學(xué)數(shù)據(jù)出版中的同行評審與質(zhì)量控制endprint
7.1 科學(xué)數(shù)據(jù)出版的同行評審
傳統(tǒng)學(xué)術(shù)出版物的同行評審是科學(xué)研究的核心,是確??茖W(xué)研究質(zhì)量的工具,傳統(tǒng)學(xué)術(shù)出版對同行評審有特定要求和專門的規(guī)則,也已成為學(xué)術(shù)界和出版界的共識。同行評審也是評估數(shù)據(jù)適合再利用程度的方式,但同行評審本身并沒有確切的界定,不同的出版物處理編輯審查、獨立分析、評論等有不同的方式和方法。Lawrence等[42]指出同行評審是保證科學(xué)數(shù)據(jù)出版質(zhì)量的必要環(huán)節(jié),但當(dāng)前對科學(xué)數(shù)據(jù)進行同行評審的必要性仍有爭議,認為對科學(xué)數(shù)據(jù)進行同行評議,通常從數(shù)據(jù)質(zhì)量、元數(shù)據(jù)質(zhì)量以及其他通用評審因素等3個角度來開展,其中數(shù)據(jù)質(zhì)量和元數(shù)據(jù)質(zhì)量對科學(xué)數(shù)據(jù)的同行評議而言是基礎(chǔ);Costello等[43]指出現(xiàn)有的科學(xué)數(shù)據(jù)倉儲在開展科學(xué)數(shù)據(jù)出版過程中,缺乏對科學(xué)數(shù)據(jù)質(zhì)量的監(jiān)控和檢查,也缺少特定標(biāo)準(zhǔn)的約束;Grootveld等[44]對開放科學(xué)數(shù)據(jù)電子存檔項目的同行評議工作進行了總結(jié),其采用“下載者進行評議”的方式,通過科研人員存儲數(shù)據(jù)并為其添加元數(shù)據(jù),并通過同行評議對元數(shù)據(jù)進行豐富。
科學(xué)數(shù)據(jù)的有效性和可信性對科學(xué)研究工作以及以科學(xué)數(shù)據(jù)為依據(jù)做出決策都至關(guān)重要,對科學(xué)數(shù)據(jù)質(zhì)量評估和質(zhì)量控制的需求不斷增長,因此對科學(xué)數(shù)據(jù)以及數(shù)據(jù)出版物的同行評審開始得到重視,但科學(xué)數(shù)據(jù)同行評審的主體、方式和粒度等還未達成共識。
7.2 科學(xué)數(shù)據(jù)出版的質(zhì)量控制
劉鳳紅等[45]認為數(shù)據(jù)論文出版的關(guān)鍵問題是質(zhì)量控制,而同行評審的標(biāo)準(zhǔn)化和規(guī)范性操作,是有效控制數(shù)據(jù)論文質(zhì)量的方法之一,同時指出Pensoft出版社對數(shù)據(jù)論文的同行評審標(biāo)準(zhǔn)進行了嚴格規(guī)定,要求審稿人審核稿件質(zhì)量、數(shù)據(jù)質(zhì)量以及內(nèi)容和元數(shù)據(jù)一致性等;黃曉磊等[46]認為經(jīng)過同行評審的科學(xué)數(shù)據(jù)出版可以激勵科研人員開展數(shù)據(jù)的生產(chǎn)和共享,也可以促進科學(xué)數(shù)據(jù)再利用。在科學(xué)數(shù)據(jù)的同行評審領(lǐng)域,不同類型的數(shù)據(jù)由哪一方進行評審,不同學(xué)科領(lǐng)域的科學(xué)數(shù)據(jù)采取何種標(biāo)準(zhǔn)進行評審,評審與共享之間的平衡等問題還未有定論,仍在進一步的討論和研究中。
8 結(jié)語
通過對近些年國內(nèi)外科學(xué)數(shù)據(jù)出版相關(guān)實踐和研究的回顧,可知科學(xué)數(shù)據(jù)出版在科學(xué)數(shù)據(jù)開放共享和管理實踐基礎(chǔ)之上發(fā)展而來,是對傳統(tǒng)科學(xué)研究成果出版的重要擴展和補充。國外對科學(xué)數(shù)據(jù)出版問題的研究視角較為寬泛,牽涉科學(xué)數(shù)據(jù)出版生命周期的多個方面和環(huán)節(jié),重視科學(xué)數(shù)據(jù)出版新途徑和新模式的探索,著重開展科學(xué)數(shù)據(jù)出版相關(guān)技術(shù)和標(biāo)準(zhǔn)化研究,對科學(xué)數(shù)據(jù)出版的隱私保護以及質(zhì)量控制等問題有所涉及。
我國科學(xué)數(shù)據(jù)共享和管理實踐已經(jīng)有所進展,特別是國務(wù)院印發(fā)的《促進大數(shù)據(jù)發(fā)展行動綱要》明確提出發(fā)展科學(xué)大數(shù)據(jù),為科學(xué)數(shù)據(jù)出版提供了良好的環(huán)境和政策保障。在研究領(lǐng)域,國內(nèi)學(xué)者已開始關(guān)注科學(xué)數(shù)據(jù)的出版問題,研究成果多是對國外研究成果的借鑒,少數(shù)涉及科學(xué)數(shù)據(jù)出版的關(guān)鍵技術(shù)和標(biāo)準(zhǔn)問題。然而目前國內(nèi)相關(guān)實踐和研究重心仍在科學(xué)數(shù)據(jù)共享和管理領(lǐng)域。隨著國際科學(xué)研究和出版領(lǐng)域?qū)茖W(xué)數(shù)據(jù)出版的重視,可預(yù)見我國將逐漸開啟科學(xué)數(shù)據(jù)出版的探索。對于我國的科學(xué)研究機構(gòu)、科學(xué)數(shù)據(jù)管理機構(gòu)、圖書館、商業(yè)性數(shù)據(jù)平臺、傳統(tǒng)出版機構(gòu)等,將面臨科學(xué)數(shù)據(jù)出版這一新的領(lǐng)域,特別是我國科學(xué)數(shù)據(jù)出版實踐將面臨的關(guān)鍵問題仍值得我們作進一步深入研究。
參考文獻:
[1] 何琳,常穎聰.國內(nèi)外科學(xué)數(shù)據(jù)出版研究進展[J].圖書情報工作,2014,58(5):104-110.
[2] Lawrence B,Jones C,Matthews B,et al.Citation and peer review of data: Moving towards formal data publication[J].International Journal of Digital Curation,2011,6(2):4-37.
[3] 師榮華,劉細文.基于數(shù)據(jù)生命周期的圖書館科學(xué)數(shù)據(jù)服務(wù)研究[J].圖書情報工作,2011,55(1):39-42.
[4] Chavan V,Penev L.The data paper: a mechanism to incentivize data publishing in biodiversity science[J].Bmc Bioinformatics,2011,12(6):2399-2405.
[5] 張靜蓓,任樹懷.科研數(shù)據(jù)出版模式、流程及引用策略研究[J].圖書情報工作,2015,59(9):21-27.
[6] 雷秋雨,馬建玲.數(shù)據(jù)期刊的出版模式與發(fā)展研究[J].圖書與情報,2015(1):112-116.
[7] 馬建玲,曹月珍,王思麗,等.學(xué)術(shù)論文與科學(xué)數(shù)據(jù)集成出版研究[J].情報資料工作,2014(2):82-86.
[8] 張小強,李欣.數(shù)據(jù)出版理論與實踐關(guān)鍵問題[J].中國科技期刊研究,2015,26(8):813-821.
[9] 黎建輝.科學(xué)數(shù)據(jù)出版的探索與實踐[EB/OL].[2016-09-05].http://ir.csdl.ac.cn/.
[10] 吳立宗,王亮緒,南卓銅,等.科學(xué)數(shù)據(jù)出版現(xiàn)狀及其體系框架[J].遙感技術(shù)與應(yīng)用,2013,28(3):383-390.
[11] 諸云強,朱琦,馮卓,等.科學(xué)大數(shù)據(jù)開放共享機制研究及其對環(huán)境信息共享的啟示[J].中國環(huán)境管理,2015(6):38-45.
[12] 徐麗芳,叢挺.數(shù)據(jù)密集、語義、可視化與互動出版:全球科技出版發(fā)展趨勢研究[J].出版科學(xué),2012(4):73-80.
[13] 李紅星,吳立宗,南卓銅,等.科學(xué)數(shù)據(jù)聯(lián)合出版模式與內(nèi)容研究[J].遙感技術(shù)與應(yīng)用,2016,31(4):801-808.endprint
[14] Altman M,Crosas M.The Evolution of Data Citation:From Principles to Implementation[J/OL].[2017-01-02].https://projects.iq.harvard.edu/files/thedata_new2/files/altmancrosasiassistqforthcoming.pdf.
[15] Piwowar H A,Day R S,F(xiàn)ridsma D B.Sharing Detailed Research Data Is Associated with Increased Citation Rate[J].Bioentrepreneur,2007,2(3):e308.
[16] Piwowar H A,Vision T J.Data reuse and the open data citation advantage[J].PeerJ,2013(1):e175.
[17] Pronk T E,Wiersma P H,Van Weerden A,et al.A game theoretic analysis of research data sharing[J].PeerJ,2015(3):e1242.
[18] Altman M,King G.A proposed standard for the scholarly citation of quantitative data[J/OL].[2016-12-10].http://dlib.org/dlib/march07/altman/03altman.html.
[19] 王丹丹.科學(xué)數(shù)據(jù)規(guī)范引用關(guān)鍵問題探析[J].圖書情報工作,2015,59(8):42-47.
[20] 彭潔,賀德方,張英杰.數(shù)字出版環(huán)境中科學(xué)數(shù)據(jù)引用的實現(xiàn)路徑及策略調(diào)查分析[J].出版發(fā)行研究,2014(4):57-61.
[21] 屈寶強,王凱.科學(xué)數(shù)據(jù)引用現(xiàn)狀和研究進展[J].情報理論與實踐,2016(5):134-138,114.
[22] 黃如花,李楠.國外科學(xué)數(shù)據(jù)引用規(guī)范調(diào)查分析與啟示[J].圖書館學(xué)研究,2016(10):2-9.
[23] Ball A.Overview of scientific metadata for data publishing,citation,and curation[C].Eleventh International Conference on Dublin Core and Metadata Applications (DC-2011).University of Bath,2011.
[24] Hoekstra R,Groth P,Charlaganov M.Linkitup:Semantic Publishing of Research Data[M].Semantic Web Evaluation Challenge.Springer International Publishing,2014:95-100.
[25] Roberts D,Moritz T.A framework for publishing primary biodiversity data[J].Bmc Bioinformatics,2011,12(15):1.
[26] 袁曦臨.E-science 環(huán)境下學(xué)術(shù)規(guī)范的新領(lǐng)域:科學(xué)數(shù)據(jù)[J].甘肅社會科學(xué),2014 (3):85-88.
[27] Kansa E C,Kansa S W,Watrall E.Archaeology 2.0:new approaches to communication and collaboration[EB/OL].[2016-09-05].http://escholarship.org/uc/item/1r6137tb.pdf.
[28] Sayogo D S,Pardo T A.Understanding the capabilities and critical success factors in collaborative data sharing network: The case of DataONE[C].Proceedings of the 12th Annual International Digital Government Research Conference:Digital Government Innovation in Challenging Times.ACM,2011:74-83.
[29] Moritz T,Krishnan S,Roberts D,et al.Towards mainstreaming of biodiversity data publishing: recommendations of the GBIF Data Publishing Framework Task Group[J].BMC bioinformatics,2011,12(Sl):15.
[30] Crosas M.The dataverse networkR:an open-source application for sharing,discovering and preserving data[J].D-lib Magazine,2011,17(1):2.
[31] Kolker E,?魻zdemir V,Martens L,et al.Toward more transparent and reproducible omics studies through a common metadata checklist and data publications[J].Omics: a journal of integrative biology,2014,18(1):10-14.endprint
[32] Kratz J E,Strasser C.Researcher perspectives on publication and peer review of data[J].PloS one,2015,10(2):e0117619.
[33] Bizer C.Expert Report on Linking Data & Publications[R/OL].[2016-08-03].http://151.1.219.218/b43d3f37-bd5d-4144-9779-b27a0ca3d1d5.pdf.
[34] Hoogerwerf M,L?觟sch M,Schirrwagen J,et al.Linking data and publications:towards a cross-disciplinary approach[J].International Journal of Digital Curation,2013,8(1):244-254.
[35] Wynholds L.Linking to scientific data:Identity problems of unruly and poorly bounded digital objects[J].International Journal of Digital Curation,2011,6(1):214-225.
[36] Agrawal S,Haritsa J R,Prakash B A.FRAPP:a framework for high-accuracy privacy-preserving mining[J].Data Mining and Knowledge Discovery,2009,18(1):101-139.
[37] Rastogi V,Suciu D,Hong S.The boundary between privacy and utility in data publishing[C].Proceedings of the 33rd international conference on Very large data bases.VLDB Endowment,2007:531-542.
[38] Kline J A,Johnson C L,Webb W B,et al.Prospective study of clinician-entered research data in the Emergency Department using an Internet-based system after the HIPAA Privacy Rule[J].BMC medical informatics and decision making,2004,4(1):1.
[39] Brickell J,Shmatikov V.The cost of privacy:destruction of data-mining utility in anonymized data publishing[C].ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2008:70-78.
[40] Li T,Li N.On the tradeoff between privacy and utility in data publishing[C].Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2009:517-526.
[41] Lawrence B,Jones C,Matthews B,et al.Citation and peer review of data: Moving towards formal data publication[J].International Journal of Digital Curation,2011,6(2):4-37.
[42] Costello M J,Michener W K,Gahegan M,et al.Biodiversity data should be published,cited,and peer reviewed[J].Trends in Ecology & Evolution,2013,28(8):454-461.
[43] Grootveld M,Egmond J V.Peer-Reviewed Open Research Data: Results of a Pilot[J].International Journal of Digital Curation,2012,7(2):81-91.
[44] 劉鳳紅,崔金鐘,韓芳橋,等.數(shù)據(jù)論文:大數(shù)據(jù)時代新興學(xué)術(shù)論文出版類型探討[J].中國科技期刊研究,2014,25(12):1451-1456.
[45] 黃曉磊,喬格俠.生物多樣性數(shù)據(jù)共享和發(fā)表:進展和建議[J].生物多樣性,2014,22(3):293-301.
作者簡介:邱春艷,女,曲阜師范大學(xué)傳媒學(xué)院講師,研究方向:科學(xué)數(shù)據(jù)管理與共享。endprint