国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

國(guó)外數(shù)據(jù)知識(shí)庫(kù)模式的數(shù)據(jù)出版質(zhì)量控制實(shí)踐研究*

2018-01-26 19:46:59涂志芳中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心北京100190
圖書館建設(shè) 2018年3期
關(guān)鍵詞:知識(shí)庫(kù)質(zhì)量

涂志芳 (中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心 北京 100190)

劉茲恒 (北京大學(xué)信息管理系 北京 100871)

1 引 言

科學(xué)數(shù)據(jù)或研究數(shù)據(jù)是產(chǎn)生或收集后有待進(jìn)一步檢查并作為推理、討論或計(jì)算基礎(chǔ)的信息,尤其是事實(shí)或數(shù)字信息,如統(tǒng)計(jì)數(shù)據(jù)、實(shí)驗(yàn)結(jié)果、測(cè)量結(jié)果、實(shí)地觀察記錄、調(diào)查結(jié)果、訪談?dòng)涗浐蛨D像等[1],也是學(xué)術(shù)資源開放存取的重要組成部分和大數(shù)據(jù)時(shí)代數(shù)據(jù)開放共享的重要內(nèi)容范疇??茖W(xué)數(shù)據(jù)出版(data publishing)是學(xué)術(shù)共同體中的學(xué)術(shù)期刊、學(xué)術(shù)機(jī)構(gòu)或?qū)W術(shù)社群等主體從科學(xué)研究的角度對(duì)研究人員產(chǎn)生的科學(xué)數(shù)據(jù)及相關(guān)信息進(jìn)行同行評(píng)審、編輯加工等,使之符合一定規(guī)范和標(biāo)準(zhǔn)并能為學(xué)術(shù)界方便地獲取和利用的過程[2]。較之于一般的數(shù)據(jù)開放和數(shù)據(jù)管理活動(dòng),數(shù)據(jù)出版在促進(jìn)數(shù)據(jù)開放、共享的基礎(chǔ)上明確數(shù)據(jù)知識(shí)產(chǎn)權(quán)、保障數(shù)據(jù)質(zhì)量并建立數(shù)據(jù)與出版物的關(guān)聯(lián)[2]。

研究者們通常將數(shù)據(jù)出版劃分為3種模式,即獨(dú)立的數(shù)據(jù)出版、作為論文輔助資料的數(shù)據(jù)出版、數(shù)據(jù)論文出版[3]?!蔼?dú)立的數(shù)據(jù)出版”是將數(shù)據(jù)作為獨(dú)立的信息對(duì)象提交到數(shù)據(jù)存儲(chǔ)系統(tǒng)進(jìn)行處理、發(fā)布、傳播和利用,即本文所指的數(shù)據(jù)知識(shí)庫(kù)模式下的數(shù)據(jù)出版。數(shù)據(jù)知識(shí)庫(kù)(data repository)是為具有研究?jī)r(jià)值的數(shù)字對(duì)象提供長(zhǎng)期監(jiān)護(hù)的存檔服務(wù),一般遵循開放檔案信息系統(tǒng)(Open Archival Information System,簡(jiǎn)稱OAIS)參考模型的標(biāo)準(zhǔn)(ISO 14721:2003)[4]。數(shù)據(jù)質(zhì)量控制是使得數(shù)據(jù)知識(shí)庫(kù)模式下的數(shù)據(jù)出版達(dá)到“出版”標(biāo)準(zhǔn)的最有效方式之一,質(zhì)量控制貫穿于數(shù)據(jù)出版的全過程。

本研究擬對(duì)數(shù)據(jù)質(zhì)量及數(shù)據(jù)質(zhì)量控制相關(guān)的概念、內(nèi)容、方法以及數(shù)據(jù)知識(shí)庫(kù)的質(zhì)量控制實(shí)踐進(jìn)行研究回顧,然后以數(shù)據(jù)質(zhì)量控制的技術(shù)性、科學(xué)性、管理性3個(gè)層面為框架,分析數(shù)據(jù)知識(shí)庫(kù)內(nèi)容接收標(biāo)準(zhǔn)與用戶服務(wù)條款,從技術(shù)、科學(xué)層面以及管理和其他層面研究數(shù)據(jù)知識(shí)庫(kù)模式的數(shù)據(jù)出版質(zhì)量控制實(shí)踐,以期對(duì)國(guó)外數(shù)據(jù)知識(shí)庫(kù)模式的數(shù)據(jù)出版質(zhì)量控制實(shí)踐動(dòng)態(tài)進(jìn)行較為系統(tǒng)的梳理和揭示,為我國(guó)科學(xué)數(shù)據(jù)開放、數(shù)據(jù)知識(shí)庫(kù)發(fā)展及數(shù)據(jù)出版質(zhì)量控制等的研究與實(shí)踐提供參考。

2 文獻(xiàn)回顧

2.1 數(shù)據(jù)質(zhì)量含義、維度與標(biāo)準(zhǔn)

數(shù)據(jù)質(zhì)量是一個(gè)多維度概念,可被描述為一組質(zhì)量特征的集合,也通常取決于對(duì)最終用戶目標(biāo)實(shí)現(xiàn)產(chǎn)生的價(jià)值大小[5]。從質(zhì)量特征視角理解,數(shù)據(jù)質(zhì)量是數(shù)據(jù)所擁有的一系列與質(zhì)量相關(guān)的內(nèi)在與外在特征,如Gordon認(rèn)為數(shù)據(jù)質(zhì)量是使數(shù)據(jù)適合特定用途的完整性、有效性、一致性、及時(shí)性和準(zhǔn)確性的狀態(tài)[6]。從數(shù)據(jù)利用視角理解,數(shù)據(jù)質(zhì)量是滿足目標(biāo)用戶的數(shù)據(jù)利用需求所具備的特點(diǎn)和由此所產(chǎn)生的價(jià)值,如Peer等將數(shù)據(jù)質(zhì)量定義為“對(duì)已知的數(shù)據(jù)重用而言數(shù)據(jù)的可獨(dú)立理解性”[7]。

數(shù)據(jù)質(zhì)量包含多個(gè)維度的內(nèi)容,對(duì)應(yīng)不同的數(shù)據(jù)標(biāo)準(zhǔn),可采用不同的研究思路與方法。一方面,可從全局角度構(gòu)建數(shù)據(jù)質(zhì)量框架再確定框架內(nèi)每一維度的質(zhì)量特征,如Wang和Strong構(gòu)建的數(shù)據(jù)質(zhì)量框架的4個(gè)維度及其質(zhì)量因素為:①內(nèi)在數(shù)據(jù)質(zhì)量,包括可信度、準(zhǔn)確性、客觀性、聲譽(yù);②語境數(shù)據(jù)質(zhì)量,包括增值性、相關(guān)性、時(shí)效性、完整性、適量性;③可表現(xiàn)性數(shù)據(jù)質(zhì)量,包括可解釋、易于理解、一致性、表達(dá)簡(jiǎn)潔;④可訪問性數(shù)據(jù)質(zhì)量,包括可訪問性、訪問安全[8]。另一方面,也可從某一特定角度識(shí)別數(shù)據(jù)質(zhì)量的必備因素,如Hense等從數(shù)據(jù)管理角度總結(jié)數(shù)據(jù)質(zhì)量的3個(gè)關(guān)鍵因素為聲譽(yù)、可靠性和程序規(guī)范[9];英國(guó)皇家學(xué)會(huì)從開放科學(xué)事業(yè)的全局視角認(rèn)為可獲取、可理解、可評(píng)估和可利用是開放數(shù)據(jù)必須具備的數(shù)據(jù)質(zhì)量[10]。另外,還有學(xué)者認(rèn)為數(shù)據(jù)質(zhì)量受所使用數(shù)據(jù)標(biāo)準(zhǔn)的質(zhì)量(quality of data standards)影響,即提高某些數(shù)據(jù)標(biāo)準(zhǔn)的質(zhì)量便可能提高根據(jù)標(biāo)準(zhǔn)創(chuàng)建的數(shù)據(jù)質(zhì)量,并提出將完整性和相關(guān)性作為數(shù)據(jù)標(biāo)準(zhǔn)質(zhì)量的兩個(gè)重要元素[11]。

2.2 數(shù)據(jù)質(zhì)量控制概念、內(nèi)容與方法

數(shù)據(jù)質(zhì)量控制是使得數(shù)據(jù)達(dá)到特定標(biāo)準(zhǔn)、需求、期望的系列過程。例如,加拿大研究數(shù)據(jù)組織(Research Data Canada)認(rèn)為“質(zhì)量保證”(Quality Assurance,簡(jiǎn)稱QA)是用于測(cè)量和確保產(chǎn)品質(zhì)量的過程,而“質(zhì)量控制”(Quality Control,簡(jiǎn)稱QC)是滿足消費(fèi)者期望的產(chǎn)品和服務(wù)過程[4]。兩者的主要區(qū)別在于QA是過程導(dǎo)向,側(cè)重質(zhì)量建設(shè)以防止錯(cuò)誤,是用正確的方式做正確的事;而QC是產(chǎn)品導(dǎo)向,側(cè)重質(zhì)量測(cè)試(如檢測(cè)錯(cuò)誤),是確保所做的結(jié)果符合預(yù)期[12]。然而,在數(shù)據(jù)出版實(shí)踐過程中,人們往往并不對(duì)QA和QC進(jìn)行嚴(yán)格區(qū)分[13],本研究所指“數(shù)據(jù)質(zhì)量控制”是在數(shù)據(jù)出版過程中采用一系列的方法建設(shè)、增強(qiáng)數(shù)據(jù)質(zhì)量或?qū)?shù)據(jù)質(zhì)量進(jìn)行測(cè)試、改善以達(dá)到數(shù)據(jù)可以有效地被驗(yàn)證和利用的狀態(tài)。

數(shù)據(jù)質(zhì)量控制圍繞數(shù)據(jù)出版各項(xiàng)可能的內(nèi)容而展開,并且可以通過多種方法來實(shí)現(xiàn)。針對(duì)數(shù)據(jù)質(zhì)量控制的內(nèi)容,從數(shù)據(jù)出版流程看,涵蓋對(duì)數(shù)據(jù)計(jì)劃、收集、處理、分析、保存、出版/發(fā)表等生命周期環(huán)節(jié)的質(zhì)量控制,如Pampel等認(rèn)為可從數(shù)據(jù)創(chuàng)建、數(shù)據(jù)管理及其計(jì)劃、數(shù)據(jù)質(zhì)量評(píng)估3個(gè)環(huán)節(jié)進(jìn)行質(zhì)量控制[14];從數(shù)據(jù)質(zhì)量對(duì)象看,包含數(shù)據(jù)計(jì)劃、元數(shù)據(jù)、數(shù)據(jù)及其他數(shù)據(jù)相關(guān)文檔的質(zhì)量控制,如Austin等認(rèn)為包含對(duì)元數(shù)據(jù)的準(zhǔn)確性、數(shù)據(jù)文件與文檔的充分性、計(jì)算與分析結(jié)果的準(zhǔn)確性等進(jìn)行的評(píng)估[15];從數(shù)據(jù)質(zhì)量維度看,包含技術(shù)性質(zhì)量(technical quality)、科學(xué)性質(zhì)量(scientific quality)以及管理性質(zhì)量(curatorial quality)等主要維度[15],技術(shù)性質(zhì)量表現(xiàn)為數(shù)據(jù)格式的標(biāo)準(zhǔn)化、兼容性及元數(shù)據(jù)的完整性、準(zhǔn)確性、真實(shí)性等特征,科學(xué)性質(zhì)量強(qiáng)調(diào)數(shù)據(jù)收集方法的評(píng)價(jià)、數(shù)據(jù)的合理性和再使用的價(jià)值,管理性質(zhì)量關(guān)注管理活動(dòng)、水平、效果對(duì)數(shù)據(jù)知識(shí)庫(kù)質(zhì)量的影響,這3個(gè)維度的數(shù)據(jù)質(zhì)量控制也成為本文行文的參考框架。數(shù)據(jù)質(zhì)量控制方法包括數(shù)據(jù)評(píng)審、數(shù)據(jù)審查、數(shù)據(jù)確認(rèn)、數(shù)據(jù)驗(yàn)證等,可借助計(jì)算機(jī)技術(shù)、統(tǒng)計(jì)軟件、圖表工具或參照一般原理、科學(xué)邏輯、數(shù)據(jù)標(biāo)準(zhǔn)等實(shí)現(xiàn)。

2.3 數(shù)據(jù)知識(shí)庫(kù)質(zhì)量控制實(shí)踐研究

目前,學(xué)者們已經(jīng)對(duì)數(shù)據(jù)知識(shí)庫(kù)質(zhì)量控制的內(nèi)容、方法、問題等進(jìn)行了研究。有的研究者通過案例分析歸納數(shù)據(jù)知識(shí)庫(kù)的質(zhì)量控制內(nèi)容及其存在的問題,如張靜蓓、任樹懷選取通用型知識(shí)庫(kù)Dryad、Dataverse、figshare和學(xué)科型知識(shí)庫(kù)ICPSR、SSDA、ISPS Data Archive進(jìn)行分析,發(fā)現(xiàn)質(zhì)量控制的內(nèi)容包括文件整體質(zhì)量控制、文檔說明質(zhì)量控制、科學(xué)數(shù)據(jù)本身質(zhì)量控制、源代碼質(zhì)量控制等4個(gè)方面[16];而Gordon對(duì)Dryad的創(chuàng)建者、日期、類型這3個(gè)元數(shù)據(jù)元素進(jìn)行統(tǒng)計(jì)分析,發(fā)現(xiàn)存在同一創(chuàng)建者姓名表述不統(tǒng)一、日期表達(dá)方式不統(tǒng)一、資源類型與事實(shí)不相符等問題,并建議加強(qiáng)對(duì)數(shù)據(jù)知識(shí)庫(kù)的元數(shù)據(jù)質(zhì)量控制[6]。

有的研究者對(duì)3種數(shù)據(jù)出版模式的質(zhì)量控制分別進(jìn)行研究,其中數(shù)據(jù)知識(shí)庫(kù)的質(zhì)量控制主要集中在技術(shù)層面,管理層面次之,科學(xué)層面的質(zhì)量控制較少。例如,王丹丹研究發(fā)現(xiàn)數(shù)據(jù)知識(shí)庫(kù)主要從技術(shù)標(biāo)準(zhǔn)層面對(duì)數(shù)據(jù)及數(shù)據(jù)文檔進(jìn)行完整性的控制[17];孔麗華認(rèn)為數(shù)據(jù)知識(shí)庫(kù)模式的數(shù)據(jù)出版主要從元數(shù)據(jù)、數(shù)據(jù)格式方面進(jìn)行質(zhì)量控制,但目前相當(dāng)一部分?jǐn)?shù)據(jù)知識(shí)庫(kù)不進(jìn)行同行評(píng)審或只進(jìn)行內(nèi)部評(píng)審[18];屈寶強(qiáng)、王凱認(rèn)為對(duì)數(shù)據(jù)知識(shí)庫(kù)進(jìn)行技術(shù)審查能起到認(rèn)證作用,對(duì)數(shù)據(jù)知識(shí)庫(kù)進(jìn)行同行評(píng)審可以確認(rèn)數(shù)字資產(chǎn)的完整性、評(píng)價(jià)數(shù)據(jù)集的完整性并評(píng)估數(shù)據(jù)文檔的完整性[19]。

數(shù)據(jù)知識(shí)庫(kù)的數(shù)據(jù)質(zhì)量控制已經(jīng)引起了相當(dāng)?shù)年P(guān)注與研究,但因數(shù)據(jù)本身的格式、學(xué)科差異等而導(dǎo)致的復(fù)雜性,現(xiàn)有標(biāo)準(zhǔn)、技術(shù)的欠缺或不完善,數(shù)據(jù)審查需要大量時(shí)間、精力投入等原因,數(shù)據(jù)知識(shí)庫(kù)模式的數(shù)據(jù)出版質(zhì)量控制仍存在一定的問題與困難,需要繼續(xù)思考研究和探索實(shí)踐。

3 數(shù)據(jù)知識(shí)庫(kù)內(nèi)容標(biāo)準(zhǔn)與服務(wù)條款

數(shù)據(jù)知識(shí)庫(kù)通常被劃分為通用型和學(xué)科型兩種類型,前者如figshare、Dryad、Zenodo等,后者如GenBank、ICPSR、IQSS Dataverse Network等。在接收數(shù)據(jù)、提供服務(wù)之前,數(shù)據(jù)知識(shí)庫(kù)往往面向用戶定義相關(guān)術(shù)語、公開數(shù)據(jù)選擇標(biāo)準(zhǔn)、發(fā)布內(nèi)容管理規(guī)則、說明利益相關(guān)方的權(quán)利與義務(wù)、公開收費(fèi)標(biāo)準(zhǔn)、聲明隱私政策、說明遵循的版權(quán)許可、說明可能的質(zhì)量管理與控制辦法、提出可能面臨的問題與解決方案。

3.1 通用型數(shù)據(jù)知識(shí)庫(kù)Dryad的案例概況

Dryad源于進(jìn)化生物學(xué)、生態(tài)學(xué)領(lǐng)域部分重要期刊和科學(xué)團(tuán)體的倡議,現(xiàn)面向各個(gè)學(xué)科領(lǐng)域接收數(shù)據(jù)并提供服務(wù),實(shí)現(xiàn)提供基礎(chǔ)設(shè)施、促進(jìn)數(shù)據(jù)重用的使命[20]。

Dryad在闡明其理念、定位、功能的基礎(chǔ)上,制定了面向所有用戶的服務(wù)條款[21],其中與數(shù)據(jù)內(nèi)容接收相關(guān)的說明包括:①內(nèi)容必須與已發(fā)表的學(xué)術(shù)研究文檔相關(guān)聯(lián);②數(shù)據(jù)提交者必須是創(chuàng)建者、擁有者或擁有足夠的權(quán)利將數(shù)據(jù)在CC0 許可協(xié)議下被公開;③數(shù)據(jù)提交者聲明并保證所提交的數(shù)據(jù)符合對(duì)應(yīng)的格式和發(fā)布準(zhǔn)則;④盡管Dryad也接收來自非同行評(píng)審出版物相關(guān)的數(shù)據(jù),但接收的大部分還是與同行評(píng)審出版物相關(guān)的數(shù)據(jù) ;⑤數(shù)據(jù)內(nèi)容的主要語言必須是英語,以便Dryad管理員進(jìn)行有效評(píng)審和管理[22]。

Dryad向提交者承諾在數(shù)據(jù)發(fā)布前后對(duì)數(shù)據(jù)進(jìn)行審查和管理,主要包括[23-24]:①確認(rèn)數(shù)據(jù)文件安全;②保障數(shù)據(jù)文件的學(xué)術(shù)性;③確認(rèn)數(shù)據(jù)文檔元數(shù)據(jù)技術(shù)正確性;④確認(rèn)管理元數(shù)據(jù);⑤確認(rèn)所評(píng)審的數(shù)據(jù)文件是正確版本并檢查數(shù)據(jù)文件及元數(shù)據(jù)的更新情況;⑥確認(rèn)提交的數(shù)據(jù)內(nèi)容適用于相應(yīng)的豁免規(guī)定或付款計(jì)劃;⑦注冊(cè)數(shù)據(jù)DOIs;⑧在內(nèi)容發(fā)布后解決引起管理者注意的問題。另外,Dryad還說明了其沒有義務(wù)但可以進(jìn)行的審查,如個(gè)人信息、敏感信息、與CC0許可協(xié)議相沖突的內(nèi)容等,同時(shí)還明確表示不會(huì)進(jìn)行的審查,如除必要的格式轉(zhuǎn)換外的其他內(nèi)容修改[23-24]。

3.2 學(xué)科型數(shù)據(jù)知識(shí)庫(kù)ICPSR的案例概況

政治與社會(huì)學(xué)研究校際聯(lián)盟(Inter-university Consortium for Political and Social Research,簡(jiǎn)稱ICPSR)[25]始建于20世紀(jì)60年代,是世界知名的社會(huì)科學(xué)文獻(xiàn)網(wǎng)站和社會(huì)科學(xué)數(shù)據(jù)知識(shí)庫(kù)。

ICPSR同樣遵循OAIS參考模型,對(duì)數(shù)據(jù)本身的價(jià)值判斷、數(shù)據(jù)選擇與評(píng)估有明確的標(biāo)準(zhǔn)[26]:(1)ICPSR要求提交的數(shù)據(jù)對(duì)社會(huì)科學(xué)研究有重要意義,包括對(duì)教學(xué)和研究的實(shí)質(zhì)價(jià)值、持久的檔案價(jià)值或數(shù)據(jù)本身具有獨(dú)特性,具體表現(xiàn)為:①數(shù)據(jù)應(yīng)有其使命;②數(shù)據(jù)屬于社會(huì)科學(xué)核心領(lǐng)域;③數(shù)據(jù)對(duì)當(dāng)前和新興研究以及統(tǒng)計(jì)技術(shù)有用;④數(shù)據(jù)支持定量或定性的社會(huì)科學(xué)研究技術(shù)。(2)基于以上標(biāo)準(zhǔn),ICPSR重點(diǎn)關(guān)注的數(shù)據(jù)及其特點(diǎn)為:①多樣性數(shù)據(jù),有助于加強(qiáng)對(duì)美國(guó)種族、少數(shù)族裔及其他邊緣化群體了解的數(shù)據(jù);②復(fù)雜數(shù)據(jù),來自縱向研究、調(diào)查研究和非標(biāo)準(zhǔn)類型的數(shù)據(jù),如生物數(shù)據(jù)、管理記錄、視頻數(shù)據(jù)、空間數(shù)據(jù)、遙感數(shù)據(jù)及關(guān)系數(shù)據(jù)等;③混合方法數(shù)據(jù),如可同時(shí)支持定性分析和定量分析的數(shù)據(jù),混合研究方法設(shè)計(jì)產(chǎn)生的數(shù)據(jù);④跨學(xué)科數(shù)據(jù),即來自跨學(xué)科研究的數(shù)據(jù)以及使用多學(xué)科研究方法進(jìn)行研究所得的數(shù)據(jù);⑤國(guó)際數(shù)據(jù),即來自美國(guó)以外的研究數(shù)據(jù)和支持跨國(guó)比較的數(shù)據(jù),尤其是來自歸檔、傳播和保存功能不完善的國(guó)家或地區(qū)的研究數(shù)據(jù)。(3)符合以上標(biāo)準(zhǔn)和特點(diǎn)的數(shù)據(jù)將由ICPSR的工作人員進(jìn)一步審查,并將具有以下便于公共獲取利用特點(diǎn)的數(shù)據(jù)優(yōu)先存檔:①數(shù)據(jù)在其他地方不可獲得或難以獲得;②數(shù)據(jù)屬于公共領(lǐng)域;③數(shù)據(jù)版權(quán)明確;④數(shù)據(jù)版權(quán)所有者同意ICPSR的傳播政策;⑤數(shù)據(jù)遵守隱私政策的保密標(biāo)準(zhǔn);⑥數(shù)據(jù)技術(shù)文檔完整;⑦數(shù)據(jù)格式便于使用。

4 數(shù)據(jù)知識(shí)庫(kù)模式的數(shù)據(jù)出版質(zhì)量控制:技術(shù)與科學(xué)層面

數(shù)據(jù)知識(shí)庫(kù)本身并不產(chǎn)生數(shù)據(jù),而是與期刊出版商、學(xué)術(shù)社群、研究機(jī)構(gòu)、圖書館、資助機(jī)構(gòu)、研究團(tuán)隊(duì)、個(gè)人等合作,接收來自這些合作方的數(shù)據(jù)并對(duì)元數(shù)據(jù)、數(shù)據(jù)格式、數(shù)據(jù)文檔等進(jìn)行篩選與審查,以便后續(xù)的數(shù)據(jù)管理、存儲(chǔ)和發(fā)布。

4.1 元數(shù)據(jù)

科學(xué)數(shù)據(jù)元數(shù)據(jù)是關(guān)于科學(xué)數(shù)據(jù)內(nèi)容、質(zhì)量、條件狀態(tài)及其他特征的描述,具有數(shù)據(jù)管理(如元數(shù)據(jù)自動(dòng)或半自動(dòng)生成、互操作、安全)、數(shù)據(jù)質(zhì)量控制(如保障可驗(yàn)證、可復(fù)制、可再生的質(zhì)量特征)、數(shù)據(jù)發(fā)現(xiàn)(如保障數(shù)據(jù)可發(fā)現(xiàn)、可識(shí)別、可選擇、可獲?。?、數(shù)據(jù)利用(如可互通、可分析、可視化)等的功能[27]。數(shù)據(jù)知識(shí)庫(kù)接收到數(shù)據(jù)后,對(duì)照所采用的元數(shù)據(jù)標(biāo)準(zhǔn)方案對(duì)元數(shù)據(jù)進(jìn)行檢查、修正和完善。

4.1.1 元數(shù)據(jù)標(biāo)準(zhǔn)方案選擇與應(yīng)用

數(shù)據(jù)出版所采用的元數(shù)據(jù)包括通用元數(shù)據(jù)標(biāo)準(zhǔn)和特定學(xué)科/行業(yè)的元數(shù)據(jù)標(biāo)準(zhǔn),都柏林核心元數(shù)據(jù)(ISO 15836)[28]是國(guó)際上廣泛應(yīng)用的通用元數(shù)據(jù)標(biāo)準(zhǔn),具有很強(qiáng)的擴(kuò)展性和移植性,現(xiàn)有各類元數(shù)據(jù)方案大多參考其元素而設(shè)計(jì);國(guó)外特定學(xué)科領(lǐng)域的元數(shù)據(jù)標(biāo)準(zhǔn)較為豐富,如社會(huì)科學(xué)領(lǐng)域的“數(shù)據(jù)文檔計(jì)劃”(Data Documentation Initiative,簡(jiǎn)稱DDI)國(guó)際標(biāo)準(zhǔn)[29],地球?qū)W科領(lǐng)域的“地球空間數(shù)據(jù)資產(chǎn)元數(shù)據(jù)”美國(guó)國(guó)家標(biāo)準(zhǔn)[30],地理信息領(lǐng)域的“地理信息元數(shù)據(jù)”國(guó)際標(biāo)準(zhǔn)(ISO 19115)[31],農(nóng)業(yè)科學(xué)領(lǐng)域的“農(nóng)業(yè)元數(shù)據(jù)元素集”國(guó)際標(biāo)準(zhǔn)[32]等,廣泛應(yīng)用于各對(duì)應(yīng)領(lǐng)域的數(shù)據(jù)出版。例如,ICPSR及其成員采用DDI作為元數(shù)據(jù)規(guī)范,澳大利亞海洋數(shù)據(jù)網(wǎng)絡(luò)門戶、英國(guó)地質(zhì)調(diào)查局國(guó)家地球科學(xué)數(shù)據(jù)中心采用以ISO 19115為基礎(chǔ)的元數(shù)據(jù)方案[33]。

4.1.2 元數(shù)據(jù)檢查與驗(yàn)證

數(shù)據(jù)知識(shí)庫(kù)在接收數(shù)據(jù)時(shí),往往對(duì)元數(shù)據(jù)進(jìn)行檢查、評(píng)審、驗(yàn)證、完善等工作,以保障元數(shù)據(jù)完整、準(zhǔn)確、科學(xué)并與所描述的數(shù)據(jù)事實(shí)相匹配。ICPSR依照其采用的DDI元數(shù)據(jù)標(biāo)準(zhǔn)為接收到的沒有元數(shù)據(jù)的數(shù)據(jù)集創(chuàng)建元數(shù)據(jù)記錄;而美國(guó)地質(zhì)調(diào)查局(United States Geological Survey,簡(jiǎn)稱USGS)[34]則對(duì)元數(shù)據(jù)進(jìn)行評(píng)審與驗(yàn)證。其中,USGS一方面為數(shù)據(jù)作者提供部分具有自動(dòng)驗(yàn)證元數(shù)據(jù)功能的元數(shù)據(jù)編輯工具(如USGS Online Metadata Editor),另一方面提供元數(shù)據(jù)二次驗(yàn)證和元數(shù)據(jù)評(píng)審服務(wù),元數(shù)據(jù)二次驗(yàn)證需借助元數(shù)據(jù)解析器(USGS Metadata Parser)[35]來驗(yàn)證與美國(guó)國(guó)家地理空間數(shù)據(jù)標(biāo)準(zhǔn)(FGDC)兼容的元數(shù)據(jù)記錄且可生成錯(cuò)誤報(bào)告。另外,USGS依據(jù)“評(píng)審指南”對(duì)數(shù)據(jù)及其元數(shù)據(jù)的匹配性、元數(shù)據(jù)與數(shù)據(jù)/出版物的鏈接、元數(shù)據(jù)標(biāo)準(zhǔn)術(shù)語、數(shù)據(jù)處理步驟/方法及相關(guān)資源元數(shù)據(jù)、元數(shù)據(jù)與數(shù)據(jù)使用、元數(shù)據(jù)與訪問權(quán)限、元數(shù)據(jù)與數(shù)據(jù)格式等內(nèi)容進(jìn)行說明或規(guī)定[36]。

4.2 數(shù)據(jù)格式

數(shù)據(jù)格式兼容性最大化才能最大程度地方便用戶獲取和利用,因此數(shù)據(jù)知識(shí)庫(kù)也十分重視對(duì)數(shù)據(jù)格式的要求、檢查和轉(zhuǎn)換工作。

4.2.1 數(shù)據(jù)格式推薦

數(shù)據(jù)所采用的格式及軟件取決于研究人員如何收集、分析數(shù)據(jù),通常依照特定標(biāo)準(zhǔn)和慣例而選擇最適合的一種或幾種;在完成數(shù)據(jù)分析與處理后進(jìn)行數(shù)據(jù)存儲(chǔ)時(shí)則需要將其轉(zhuǎn)換為標(biāo)準(zhǔn)的、常用的、可轉(zhuǎn)換的、持久的且用戶友好的格式以保障長(zhǎng)期利用。數(shù)據(jù)知識(shí)庫(kù)(如UK Data Archive)還根據(jù)學(xué)科范圍、數(shù)據(jù)類型特點(diǎn),為定量數(shù)據(jù)、定性數(shù)據(jù)、地理空間數(shù)據(jù)、圖像、視音頻、文檔和腳本等數(shù)據(jù)類型分別推薦常用的和非常用但可接受的數(shù)據(jù)格式[37],如定量數(shù)據(jù)推薦sav、dta等格式,文本性定性數(shù)據(jù)推薦xml、rtf、txt、html、doc等格式,音頻數(shù)據(jù)推薦mp3、aif、wav格式。

4.2.2 數(shù)據(jù)格式轉(zhuǎn)換

對(duì)于未達(dá)到數(shù)據(jù)利用便利程度最大化的數(shù)據(jù)格式,數(shù)據(jù)知識(shí)庫(kù)往往在不改變數(shù)據(jù)內(nèi)容的前提下對(duì)數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換。例如,ICPSR將印本形式的數(shù)據(jù)轉(zhuǎn)換為電子形式,將軟件依賴型數(shù)據(jù)文檔格式轉(zhuǎn)換為常用的PDF格式,針對(duì)某些特定數(shù)據(jù)生成多種格式以便進(jìn)行傳播和保存[38]。Zenodo表示接收所有格式的數(shù)據(jù)(甚至不友好的格式),但會(huì)盡可能將其轉(zhuǎn)換為友好的格式以便長(zhǎng)期保存和利用[39]。

4.3 數(shù)字標(biāo)識(shí)符

長(zhǎng)久以來,數(shù)據(jù)存儲(chǔ)基礎(chǔ)設(shè)施的缺乏使得獨(dú)立出版和引用數(shù)據(jù)非常困難,因此科學(xué)數(shù)據(jù)也一直未曾得到和科學(xué)論文同等的學(xué)術(shù)認(rèn)可[40],數(shù)據(jù)標(biāo)識(shí)符在這樣的需求下應(yīng)運(yùn)而生。數(shù)字對(duì)象標(biāo)識(shí)符(Digital Object Identifier,簡(jiǎn)稱DOI)、統(tǒng)一資源名稱(URN)、開放鏈接(OpenURL)、句柄系統(tǒng)(Handles)等是目前應(yīng)用較多的數(shù)字標(biāo)識(shí)符,其中尤以DOI的應(yīng)用和研究最為廣泛。

DOI是用于識(shí)別數(shù)字環(huán)境下對(duì)象的知識(shí)產(chǎn)權(quán)的字符串[41],自1998年成立且于2012年成為“信息與文獻(xiàn)”領(lǐng)域的一項(xiàng)標(biāo)準(zhǔn)(ISO 26324)以來,廣泛應(yīng)用于數(shù)字化圖書、期刊、數(shù)據(jù)等類型內(nèi)容的學(xué)術(shù)出版。DOI自分配后便貫穿數(shù)據(jù)存儲(chǔ)、出版、傳播及長(zhǎng)期保存的全過程,DOI用于數(shù)據(jù)出版便于數(shù)字版權(quán)管理、元數(shù)據(jù)動(dòng)態(tài)更新、數(shù)據(jù)規(guī)范引用[42],可提高數(shù)據(jù)的可發(fā)現(xiàn)性、可獲得性和可利用性。

在實(shí)際的數(shù)據(jù)出版中,DOI由注冊(cè)代理機(jī)構(gòu)及其成員機(jī)構(gòu)負(fù)責(zé)分配,如中國(guó)知網(wǎng)、Crossref、DataCite[43]等。例如,DataCite是會(huì)員式、非營(yíng)利的研究數(shù)據(jù)DOI服務(wù)機(jī)構(gòu),由英國(guó)國(guó)家圖書館、丹麥信息技術(shù)中心、德國(guó)國(guó)家科學(xué)圖書館等7個(gè)創(chuàng)始單位聯(lián)合創(chuàng)建于2009年,其成員現(xiàn)已覆蓋歐洲、亞洲、澳大利亞、北美和非洲等地區(qū)的大學(xué)和研究機(jī)構(gòu)[44],哈佛大學(xué)圖書館、英國(guó)數(shù)字監(jiān)護(hù)中心(Digital Curation Center,簡(jiǎn)稱DCC)、figShare、ICPSR、北京大學(xué)開放研究數(shù)據(jù)平臺(tái)等均通過與DataCite合作為數(shù)據(jù)分配DOI。

4.4 技術(shù)性與科學(xué)性綜合審查

一方面,如前所述,與作為論文輔助資料的數(shù)據(jù)出版以及數(shù)據(jù)論文出版的質(zhì)量控制不同,目前數(shù)據(jù)知識(shí)庫(kù)的數(shù)據(jù)質(zhì)量控制主要集中在技術(shù)審查,對(duì)數(shù)據(jù)本身的科學(xué)性評(píng)審開展得相對(duì)較少且以基礎(chǔ)性的科學(xué)評(píng)審為主,如審查數(shù)據(jù)是否符合一般邏輯、一般原理等。另一方面,數(shù)據(jù)出版實(shí)踐中數(shù)據(jù)知識(shí)庫(kù)通常融合不同的內(nèi)容與方法[15]、協(xié)同不同審查主體的角色[45],對(duì)數(shù)據(jù)進(jìn)行綜合的審查和全面的質(zhì)量控制,如英國(guó)數(shù)據(jù)檔案(UK Data Archive)、地球數(shù)據(jù)觀測(cè)網(wǎng)絡(luò)(Data Observation Network for Earth,簡(jiǎn)稱DataONE)、DCC、ICPSR等。

4.4.1 UK Data Archive綜合實(shí)踐

(1)數(shù)據(jù)檢驗(yàn)

數(shù)據(jù)檢驗(yàn)是對(duì)數(shù)據(jù)進(jìn)行編輯、清洗、交叉檢查和驗(yàn)證等的過程。UK Data Archive是英國(guó)人文與社會(huì)科學(xué)領(lǐng)域數(shù)據(jù)量最大的數(shù)據(jù)知識(shí)庫(kù)之一,采用多種方法對(duì)數(shù)據(jù)進(jìn)行綜合檢驗(yàn)[46],包括:①仔細(xì)檢查或觀察響應(yīng)的編碼及超出范圍的值;②檢查數(shù)據(jù)的完整性;③在適當(dāng)?shù)奈恢锰砑幼兞亢椭禈?biāo)簽;④根據(jù)原始數(shù)據(jù)驗(yàn)證數(shù)字化數(shù)據(jù)的隨機(jī)樣本;⑤雙重輸入數(shù)據(jù);⑥對(duì)頻率、均值、范圍或聚類等數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析以監(jiān)測(cè)錯(cuò)誤和異常值;⑦糾正數(shù)據(jù)轉(zhuǎn)錄過程可能產(chǎn)生的錯(cuò)誤;⑧同行評(píng)審。

(2)保障數(shù)據(jù)真實(shí)性

數(shù)字化數(shù)據(jù)能夠被輕易復(fù)制和更改,因此保障數(shù)據(jù)的真實(shí)性、防止未經(jīng)授權(quán)的訪問導(dǎo)致未經(jīng)授權(quán)的數(shù)據(jù)更改變得非常重要。UK Data Archive保障數(shù)據(jù)真實(shí)性的最佳實(shí)踐包括[47]:①保留數(shù)據(jù)的單個(gè)主文件;②將數(shù)據(jù)主文件的監(jiān)護(hù)責(zé)任分配給單個(gè)項(xiàng)目的團(tuán)隊(duì)成員;③規(guī)范對(duì)數(shù)據(jù)文件主版本的寫入訪問;④維護(hù)舊的主文件以防新的主文件發(fā)生錯(cuò)誤;⑤定期對(duì)主文件進(jìn)行備份并保存;⑥開發(fā)銷毀主文件的正式程序。

4.4.2 DataONE綜合實(shí)踐

DataONE從多個(gè)方面對(duì)數(shù)據(jù)出版進(jìn)行質(zhì)量審查,筆者以“quality”和“data quality”為標(biāo)簽搜索DataONE最佳實(shí)踐庫(kù),發(fā)現(xiàn)與數(shù)據(jù)質(zhì)量控制高度相關(guān)的實(shí)踐做法有[48]:①重視數(shù)據(jù)質(zhì)量(說明數(shù)據(jù)質(zhì)量控制信息元數(shù)據(jù)、描述質(zhì)量控制方法、設(shè)置可疑數(shù)據(jù)標(biāo)簽) ;②確認(rèn)數(shù)據(jù)及描述數(shù)據(jù)的元數(shù)據(jù)相互匹配;③在數(shù)據(jù)整合之前確認(rèn)數(shù)據(jù)的兼容性;④制定質(zhì)量控制計(jì)劃;⑤復(fù)查所輸入的數(shù)據(jù);⑥確保數(shù)據(jù)符合邏輯和一般原理(如濃度不小于0) ;⑦在數(shù)據(jù)備份時(shí)確保數(shù)據(jù)的完整性和可用性;⑧借助數(shù)據(jù)工具識(shí)別異常值;⑨對(duì)根據(jù)實(shí)際值產(chǎn)生的估計(jì)值進(jìn)行標(biāo)記 ;⑩進(jìn)行數(shù)據(jù)版本管理和控制;?用數(shù)據(jù)標(biāo)簽標(biāo)記數(shù)據(jù)質(zhì)量(如“0”標(biāo)記未檢查數(shù)據(jù)、“-1”標(biāo)記有潛在問題的數(shù)據(jù)、“1”標(biāo)記高質(zhì)量數(shù)據(jù))。

5 數(shù)據(jù)知識(shí)庫(kù)模式的數(shù)據(jù)出版質(zhì)量控制:管理與傳播層面

5.1 數(shù)據(jù)知識(shí)庫(kù)注冊(cè)、審計(jì)與認(rèn)證

根據(jù)永久訪問科學(xué)網(wǎng)絡(luò)記錄聯(lián)盟(Alliance for Permanent Access to the Records of Science Network,簡(jiǎn)稱APARSEN)發(fā)布的科學(xué)數(shù)據(jù)同行評(píng)審報(bào)告,數(shù)據(jù)知識(shí)庫(kù)認(rèn)證與審計(jì)對(duì)數(shù)據(jù)質(zhì)量控制影響突出,不同數(shù)據(jù)知識(shí)庫(kù)的質(zhì)量控制方法因數(shù)據(jù)形式、范圍、學(xué)科而異[14];歐盟“地平線2020”項(xiàng)目資助的“人文科學(xué)研究數(shù)據(jù)開放存取出版”調(diào)查報(bào)告指出,信任是影響數(shù)據(jù)知識(shí)庫(kù)與其相關(guān)主體之間關(guān)系的關(guān)鍵因素,而注冊(cè)、審計(jì)與認(rèn)證是對(duì)數(shù)據(jù)知識(shí)庫(kù)進(jìn)行質(zhì)量控制從而提高可信度的有效方法[49]。

5.1.1 數(shù)據(jù)知識(shí)庫(kù)注冊(cè)

數(shù)據(jù)知識(shí)庫(kù)注冊(cè)系統(tǒng)便于用戶通過目錄對(duì)數(shù)據(jù)知識(shí)庫(kù)的建設(shè)、注冊(cè)與發(fā)展情況進(jìn)行統(tǒng)計(jì)分析,從而對(duì)數(shù)據(jù)知識(shí)庫(kù)的可信賴性、可用性作出判斷,數(shù)據(jù)知識(shí)庫(kù)注冊(cè)事實(shí)上也成為了用戶選擇與評(píng)價(jià)數(shù)據(jù)質(zhì)量的一個(gè)重要參考。目前,常用數(shù)據(jù)知識(shí)庫(kù)注冊(cè)系統(tǒng)有re3data.org、FAIRsharing、Registry of Open Access Repository(ROAR)[50]和OpenDOAR[51]等。

其中,re3data.org是由德國(guó)研究基金資助并由德國(guó)、美國(guó)多家機(jī)構(gòu)聯(lián)合運(yùn)行的數(shù)據(jù)知識(shí)庫(kù)注冊(cè)與目錄系統(tǒng),目前已有1 981個(gè)注冊(cè)登記的數(shù)據(jù)知識(shí)庫(kù)(截至2017年11月28日),如Dryad、figShare、GenBank以及北京大學(xué)開放研究數(shù)據(jù)平臺(tái)、中國(guó)地震數(shù)據(jù)中心等[52]。FAIRsharing是跨學(xué)科領(lǐng)域數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)知識(shí)庫(kù)和數(shù)據(jù)政策注冊(cè)與關(guān)聯(lián)查詢的門戶(其前身BioSharing聚焦生命科學(xué)領(lǐng)域),致力于推動(dòng)科學(xué)數(shù)據(jù)的可發(fā)現(xiàn)(Findable)、可訪問(Accessible)、互操作(Interoperable)和可重用(Reusable)[53]。目前已注冊(cè)數(shù)據(jù)標(biāo)準(zhǔn)共708條,數(shù)據(jù)知識(shí)庫(kù)1 000個(gè)、數(shù)據(jù)政策98項(xiàng)(截至2017年11月28日),用戶查詢其中任意一項(xiàng)內(nèi)容均能顯示相關(guān)的其他兩項(xiàng),GenBank、Death Domain Database、Gene Wiki等生命科學(xué)領(lǐng)域的數(shù)據(jù)知識(shí)庫(kù)也都登記在該系統(tǒng)[53]。

5.1.2 數(shù)據(jù)知識(shí)庫(kù)審計(jì)與認(rèn)證

一方面,從基礎(chǔ)設(shè)施建設(shè)、數(shù)字對(duì)象管理、安全風(fēng)險(xiǎn)管理等方面對(duì)數(shù)據(jù)知識(shí)庫(kù)進(jìn)行審計(jì)與評(píng)估,有利于及時(shí)監(jiān)測(cè)、報(bào)告數(shù)據(jù)知識(shí)庫(kù)的風(fēng)險(xiǎn)并提供有效的解決辦法;另一方面,對(duì)達(dá)到審計(jì)與評(píng)估標(biāo)準(zhǔn)的數(shù)據(jù)知識(shí)庫(kù)進(jìn)行認(rèn)證并授予認(rèn)證標(biāo)識(shí),有利于增強(qiáng)數(shù)據(jù)知識(shí)庫(kù)的辨識(shí)度和可信度。目前,常用的數(shù)據(jù)知識(shí)庫(kù)審計(jì)與認(rèn)證工具有“DRAMBORA”“DSA”“TRAC”與“Nestor”(DIN31644/ISO16363標(biāo)準(zhǔn)的基礎(chǔ))等。

“DRAMBORA”即“基于風(fēng)險(xiǎn)評(píng)估的數(shù)據(jù)知識(shí)庫(kù)審計(jì)方法(2007)”(Digital Repository Audit Method Based On Risk Assessment,簡(jiǎn)稱DRAMBORA)[54],主要對(duì)知識(shí)庫(kù)所面臨的風(fēng)險(xiǎn)及其嚴(yán)重性進(jìn)行可量化的監(jiān)測(cè)并提供報(bào)告風(fēng)險(xiǎn)的有效手段;“DSA”即數(shù)據(jù)認(rèn)可印章(Data Seal of Approval,簡(jiǎn)稱DSA)[55],制定了數(shù)據(jù)知識(shí)庫(kù)可信賴性認(rèn)證的16條核心要求[56]并對(duì)達(dá)到要求的數(shù)據(jù)知識(shí)庫(kù)授予認(rèn)證標(biāo)識(shí)?!癟RAC”與“Nestor”即“可信賴知識(shí)庫(kù)審計(jì)與認(rèn)證(2007)”(Trusted Repositories Audit & Certification,簡(jiǎn)稱TRAC)[57]與“可信任數(shù)據(jù)知識(shí)庫(kù)標(biāo)準(zhǔn)Nestor目錄(2006)”(Nestor Catalogue of Criteria for Trusted Digital Repositories)[58],兩者均從組織基礎(chǔ)設(shè)施、數(shù)字對(duì)象管理、技術(shù)設(shè)施與安全3個(gè)方面進(jìn)行審計(jì)與認(rèn)證。在此類方法、工具及其廣泛應(yīng)用的基礎(chǔ)上,數(shù)據(jù)知識(shí)庫(kù)審計(jì)與認(rèn)證形成了較為成熟的方法體系,并進(jìn)一步發(fā)展成為國(guó)內(nèi)外普遍認(rèn)可的標(biāo)準(zhǔn)(如DIN31644/ISO 16363),形成了從基礎(chǔ)認(rèn)證、擴(kuò)展認(rèn)證到正式認(rèn)證的遞進(jìn)式認(rèn)證框架(如歐盟可信賴數(shù)字倉(cāng)儲(chǔ)審計(jì)與認(rèn)證框架[49])。

根據(jù)re3data.org的統(tǒng)計(jì)(截至2017年11月28日),目前已有56個(gè)數(shù)據(jù)知識(shí)庫(kù)獲得了DSA的認(rèn)證,包括ICPSR、UK Data Archive、Norwegian Centre for Research Data、World Data Center for Climate等;已有1個(gè)數(shù)據(jù)知識(shí)庫(kù)明確表示遵循DIN31644標(biāo)準(zhǔn),即荷蘭數(shù)據(jù)存檔與網(wǎng)絡(luò)服務(wù)(Data Archiving and Networked Services,簡(jiǎn)稱DANS)的在線存儲(chǔ)系統(tǒng)EASY[59];1個(gè)數(shù)據(jù)知識(shí)庫(kù)遵循TRAC方法,即美國(guó)加利福尼亞大學(xué)系統(tǒng)的數(shù)字化研究數(shù)據(jù)知識(shí)庫(kù)Merritt[60]。

5.2 數(shù)據(jù)引用

數(shù)據(jù)引用是數(shù)據(jù)作為一種學(xué)術(shù)成果進(jìn)行傳播從而發(fā)揮其價(jià)值的重要階段,也是承認(rèn)數(shù)據(jù)作者的貢獻(xiàn)、保障數(shù)據(jù)管理者與出版者權(quán)益的一種有效方式。

5.2.1 數(shù)據(jù)引用原則

2014年,數(shù)據(jù)引用綜合組(Data Citation Synthesis Grroup)聯(lián)合其他多個(gè)數(shù)據(jù)引用工作組發(fā)布了“數(shù)據(jù)引用原則聯(lián)合聲明”,并在www.force11.org發(fā)布了8條數(shù)據(jù)引用共同原則[61]:①重要性:數(shù)據(jù)應(yīng)是合法的、可引用的研究性產(chǎn)品,數(shù)據(jù)引用與其他學(xué)術(shù)成果的引用具有同等重要性;②信譽(yù)和歸屬:數(shù)據(jù)引用應(yīng)有助于為數(shù)據(jù)貢獻(xiàn)者帶來信用、聲譽(yù)和產(chǎn)權(quán)歸屬;③論據(jù):學(xué)術(shù)文獻(xiàn)中任何依賴數(shù)據(jù)之處都應(yīng)進(jìn)行數(shù)據(jù)引用;④唯一標(biāo)識(shí):數(shù)據(jù)引用應(yīng)包含持久的、機(jī)器可操作的、全球唯一的、廣泛使用的標(biāo)識(shí)符;⑤便于訪問:數(shù)據(jù)引用應(yīng)便于訪問數(shù)據(jù)本身及其相關(guān)的元數(shù)據(jù)、文檔、代碼和其他材料;⑥長(zhǎng)久性:唯一標(biāo)識(shí)符和描述數(shù)據(jù)的元數(shù)據(jù)以及其位置應(yīng)長(zhǎng)久存在,甚至可以超出數(shù)據(jù)本身的壽命;⑦明確性和可驗(yàn)證性:數(shù)據(jù)引用應(yīng)有助于識(shí)別、訪問和驗(yàn)證支持特定觀點(diǎn)的具體數(shù)據(jù),數(shù)據(jù)引用應(yīng)包含充分的出處信息以便驗(yàn)證其他版本、粒度的特定數(shù)據(jù);⑧互操作性和靈活性:數(shù)據(jù)引用方法應(yīng)足夠靈活以適應(yīng)不同學(xué)術(shù)社群的具體實(shí)踐,不同數(shù)據(jù)引用不應(yīng)存在本質(zhì)差異以便保障不同數(shù)據(jù)引用實(shí)踐的互操作。FORCE11社區(qū)現(xiàn)有來自出版社、研究機(jī)構(gòu)、研究資助機(jī)構(gòu)、數(shù)據(jù)管理與出版機(jī)構(gòu)、圖書館及圖書館協(xié)會(huì)、信息與技術(shù)中心、特定研究項(xiàng)目等的活躍成員2 300多名[62],為FORCE11社區(qū)貢獻(xiàn)內(nèi)容并推動(dòng)科學(xué)數(shù)據(jù)的規(guī)范引用;多個(gè)學(xué)術(shù)社群在遵循該基本原則的基礎(chǔ)上和在技術(shù)更新發(fā)展的條件下推動(dòng)數(shù)據(jù)引用的最佳實(shí)踐,如美國(guó)地球物理聯(lián)盟(A G U)、Dataverse等均明確表示支持并遵循該原則。

5.2.2 數(shù)據(jù)引用格式推薦

目前,國(guó)內(nèi)外學(xué)術(shù)論文(包括數(shù)據(jù)論文)的引用格式相對(duì)統(tǒng)一,而數(shù)據(jù)(集)的推薦引用格式因數(shù)據(jù)知識(shí)庫(kù)不同而呈現(xiàn)差異,沒有相對(duì)統(tǒng)一的標(biāo)準(zhǔn),但都包含作者、年份、數(shù)據(jù)集題名、(包含DOI的)數(shù)據(jù)集獲取地址等關(guān)鍵要素,并且還盡可能反映數(shù)據(jù)集版本和數(shù)據(jù)檢索時(shí)間。例如:

(1)Dryad的推薦引用格式為:“作者(年份).Data from:數(shù)據(jù)集題名.數(shù)據(jù)知識(shí)庫(kù)名.DOI URL”,舉例“Tsunoda T,Krosse S,van Dam N (2017) Data from: Root and shoot glucosinolate allocation patterns follow optimal defence allocation theory.Dryad Digital Repository.http://dx.doi.org/10.5061/dryad.hd3s3”。

(2)figShare的推薦引用格式為:“作者(年份):數(shù)據(jù)集題名.數(shù)據(jù)知識(shí)庫(kù)名.DOI URL (自動(dòng)生成的)檢索時(shí)間”,舉例“Halfaker,Aaron; Kim,Meen Chul; Forte,Andrea;Taraborelli,Dario (2017): Citations with contexts in Wikipedia.figshare.https://doi.org/10.6084/m9.figshare.5588842.v1 Retrieved: 06:41,Dec 02,2017 (GMT)”。

(3)北京大學(xué)開放研究數(shù)據(jù)平臺(tái)的推薦數(shù)據(jù)引用格式為:“作者,年份,“數(shù)據(jù)集題名”,DOI URL,數(shù)據(jù)知識(shí)庫(kù)名,數(shù)據(jù)集版本”,舉例:“黃悅勤,2016,‘中國(guó)居民健康與疾病負(fù)擔(dān)調(diào)查2013’,http://dx.doi.org/10.18170/DVN/O5PS2H,北京大學(xué)開放研究數(shù)據(jù)平臺(tái),V1”。

6 總結(jié)與展望

從研究與實(shí)踐情況來看,數(shù)據(jù)出版質(zhì)量控制有實(shí)質(zhì)性的發(fā)展,但仍存在一定的問題和困難:①數(shù)據(jù)龐大、復(fù)雜且增長(zhǎng)迅速,數(shù)據(jù)出版及其質(zhì)量控制高度依賴計(jì)算機(jī)的輔助,對(duì)相關(guān)人員的技能有較高要求;②數(shù)據(jù)質(zhì)量控制需要良好的科學(xué)研究與數(shù)據(jù)共享環(huán)境,需要來自研究資助機(jī)構(gòu)、研究機(jī)構(gòu)、學(xué)術(shù)社區(qū)等的協(xié)同支持和作者、管理者、用戶的協(xié)同努力;③數(shù)據(jù)質(zhì)量控制的投資回報(bào)率較難保證,可持續(xù)發(fā)展機(jī)制尚不成熟;④最佳實(shí)踐的做法還不普及,數(shù)據(jù)質(zhì)量控制水平參差不齊。

目前,無論是基于數(shù)據(jù)知識(shí)庫(kù)的數(shù)據(jù)出版,還是作為論文輔助資料的數(shù)據(jù)出版以及數(shù)據(jù)論文出版,我國(guó)的數(shù)據(jù)出版及其質(zhì)量控制雖處于探索階段但已初具成效。例如,圖書情報(bào)領(lǐng)域期刊《數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)》從2016年起要求所有投稿論文提交支撐論文結(jié)論的科學(xué)數(shù)據(jù)并通過適當(dāng)方式供研究共同體或社會(huì)公眾共享[63];2015年12月,北京大學(xué)開放研究數(shù)據(jù)平臺(tái)正式上線,匯集了來自國(guó)內(nèi)極具影響力的精品調(diào)查數(shù)據(jù),現(xiàn)有28個(gè)數(shù)據(jù)空間和153個(gè)數(shù)據(jù)集并提供開放共享[64](截至2018年1月);2016年6月,中國(guó)科學(xué)院主辦的《中國(guó)科學(xué)數(shù)據(jù)》開始了國(guó)內(nèi)首份數(shù)據(jù)期刊出版的探索實(shí)踐,該刊實(shí)行嚴(yán)格的評(píng)審制度(責(zé)編初審、數(shù)據(jù)初審、同行評(píng)議/大眾評(píng)議、責(zé)編委復(fù)審、編委會(huì)投票等),已成為中國(guó)科學(xué)引文數(shù)據(jù)(CSCD)核心庫(kù)的來源期刊(2017-2018)[65]。2017年底,《信息技術(shù)科學(xué)數(shù)據(jù)引用》國(guó)家標(biāo)準(zhǔn)(GB/T35294-2017)[66]正式發(fā)布,為規(guī)范引用、傳播科學(xué)數(shù)據(jù)提供國(guó)家層面的保障。

展望未來,科學(xué)數(shù)據(jù)出版質(zhì)量控制可能聚焦于:首先,對(duì)數(shù)據(jù)出版質(zhì)量控制的理論、方法、工具、實(shí)踐等進(jìn)行系統(tǒng)而綜合的研究,重點(diǎn)探討數(shù)據(jù)質(zhì)量控制的困難和挑戰(zhàn);其次,不斷優(yōu)化現(xiàn)有數(shù)據(jù)標(biāo)準(zhǔn)與工具并推動(dòng)其在更大范圍內(nèi)的普及和應(yīng)用;另外,進(jìn)一步探索針對(duì)不同學(xué)科、不同類型數(shù)據(jù)的科學(xué)性評(píng)審及其可持續(xù)發(fā)展機(jī)制。誠(chéng)然,我國(guó)數(shù)據(jù)出版質(zhì)量控制在理論探索、政策制定、標(biāo)準(zhǔn)研制、系統(tǒng)開發(fā)、工具應(yīng)用等方面都還有進(jìn)一步提升的空間。可以預(yù)見,未來我國(guó)還將繼續(xù)重視對(duì)科學(xué)數(shù)據(jù)管理與出版的頂層設(shè)計(jì)與政策統(tǒng)籌,在機(jī)構(gòu)層面加快推進(jìn)數(shù)據(jù)政策、標(biāo)準(zhǔn)的研討和制定,在機(jī)構(gòu)與個(gè)體層面促進(jìn)數(shù)據(jù)工具的推廣和使用,而圖書館也能夠參與其中適時(shí)適當(dāng)?shù)匕l(fā)揮作用。

[1]European Commission.Horizon 2020[EB/OL].[2017-10-01].http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa-pilot-guide_en.pdf.

[2]吳立宗,王亮緒,南卓銅,等.科學(xué)數(shù)據(jù)出版現(xiàn)狀及其體系框架[J].遙感技術(shù)與應(yīng)用,2013,28(3):383-390.

[3]Lawrence B,Jones C,Matthews B,et al.Citation and Peer Review of Data: Moving Towards Formal Data Publication [J].International Journal of Digital Curation,2011,6(2):4-37.

[4]Research Data Canada.Original RDC Glossary[EB/OL].[2017-09-16].https://www.rdc-drc.ca/glossary/original-rdc-glossary/.

[5]Wuest T,Tinscher R,Porzel R,et al.Experimental Research Data Quality in Materials Science[J].Computer Science,2014,4(6):1-18.

[6]Gordon K.Principles of Data Management[EB/OL].[2017-09-15].http://bcs.org/upload/pdf/data-management-chapter1.pdf.

[7]Peer L,Green A,Stephenson E.Committing to Data Quality Review[J].International Journal of Digital Curation,2014,9(1):1-27.

[8]Wang R Y,Strong D M.Beyond Accuracy: What Data Quality Means to Data Consumers[J].Journal of Management Information Systems,1996,12(4):5-33.

[9]Hense A,Quadt F.Acquiring High Quality Research Data[J].DLib Magazine,2011,17(1-2):1-7.

[10]The Royal Society.Science as an Open Enterprise[R/OL].[2017-10-11].https://royalsociety.org/~/media/policy/projects/sape/2012-06-20-saoe.pdf.

[11]Zhu H,Fu L.Towards Quality of Data Standards: Empirical Findings from XBRL[C].International Conference on Information Systems,Arizona:Association for Information Systems Electronic Library,2009:1-8.

[12]U.S.Geological Survey.Data Management: Manage Quality--What is QA/QC?[EB/OL].[2017-10-15].https://www2.usgs.gov/datamanagement/qaqc.php.

[13]Bloom T,Dallmeier-Tiessen S,Murphy F,et al.Workflows for Research Data Publishing: Models and Key Components[J/OL].[2017-10-15].International Journal of Digital Libraries,https://zenodo.org/record/20308#.WeLU0fkdgZQ.

[14]Pampel H,Pfeiffenberger H,Sch.fer A,et al.Report on Peer Review of Research Data in Scholarly Communication[R/OL].[2017-10-05].https://www.researchgate.net/publication/224922538_Report_on_Peer_Review_of_Research_Data_in_Scholarly_Communication.

[15]Austin C C,Bloom T,Dallmeier-Tiessen S,et al.Key Components of Data Publishing: Using Current Best Practices to Develop a Reference Model for Data Publishing[J].International Journal on Digital Libraries,2016:1-16.

[16]張靜蓓,任樹懷.國(guó)外科研數(shù)據(jù)知識(shí)庫(kù)數(shù)據(jù)質(zhì)量控制研究[J].圖書館雜志,2016(11):38-44.

[17]王丹丹.科學(xué)數(shù)據(jù)出版過程中的數(shù)據(jù)質(zhì)量控制[J].圖書情報(bào)工作,2015(23):124-129.

[18]孔麗華.科學(xué)數(shù)據(jù)質(zhì)量同行評(píng)議現(xiàn)狀[R/OL].[2017-10-05].http://ir.las.ac.cn/handle/12502/7968.

[19]屈寶強(qiáng),王 凱.數(shù)據(jù)出版視角下的科學(xué)數(shù)據(jù)同行評(píng)議[J].圖書館雜志,2017,36(10):71-77.

[20]Dryad Digital Repository[EB/OL].[2017-09-03].http://datadryad.org/pages/organization.

[21]Dryad Digital Repository.Policies[EB/OL].[2017-09-02].http://datadryad.org/pages/policies.

[22]Dryad Digital Repository.Policies-Content Criteria[EB/OL].[2017-09-21].http://datadryad.org/pages/policies#content.

[23]Dryad.Policies-Curation[EB/OL].[2017-04-24].http://datadryad.org/pages/policies#curation.

[24]顧立平,茹麗潔,戚義姣,等.通用型數(shù)據(jù)知識(shí)庫(kù)案例匯編——Dryad、Figshare[EB/OL].[2017-04-24] http://ir.las.ac.cn/handle/12502/7826.

[25]ICPSR.History[EB/OL].[2017-09-22].http://www.icpsr.umich.edu/icpsrweb/content/about/history/.

[26]ICPSR.Data Management & Curation-Selection and Appraisal[EB/OL].[2017-09-29].http://www.icpsr.umich.edu/icpsrweb/content/datamanagement/lifecycle/selection.html.

[27]Qin J,Ball A,Greenberg J.Functional and Architectural Requirements for Metadata: Supporting Discovery and Management of Scientific Data[C]// Twelfth International Conference on Dublin Core and Metadata Applications.Kuching:Dublin Core Metadata Initiative,2012:62-71.

[28]ISO 15836:2009.Information and Documentation—The Dublin Core Metadata Element Set [EB/OL].[2017-10-09].https://www.iso.org/standard/52142.html.

[29]Data Documentation Initiative[EB/OL].[2017-09-03].http://www.ddialliance.org/.

[30]Federal Geographic Data Committee.National Geospatial Data Assets (NGDA) Metadata Guidelines[EB/OL].[2017-10-16].https://cms.geoplatform.gov/sites/default/files/document_library/NGDA_Metadata_Guidelines.pdf.

[31]ISO 19115-1:2014.Geographic Information—Metadata[EB/OL].[2017-10-16].https://www.iso.org/standard/53798.html.

[32]Agricultural Information Management Standards.AgMES -Agricultural Metadata Element Set[EB/OL].[2017-10-16].http://aims.fao.org/standards/agmes.

[33]Digital Curation Centre.List of Metadata Use Cases[EB/OL].[2017-10-21].http://www.dcc.ac.uk/resources/metadatastandards/use-cases.

[34]United States Geological Survey[EB/OL].[2017-09-27].https://www.usgs.gov/.

[35]United States Geological Survey.Data Management[EB/OL].[2017-09-27].https://www2.usgs.gov/datamanagement/describe/metadata.php#validating-metadata-records.

[36]USGS.Guidelines for Metadata Review of Data[EB/OL].[2017-04-20].https://www2.usgs.gov/datamanagement/documents/MetadataReviewChecklist_2014.pdf.

[37]UK Data Archive.Create & Manage Data-File Formats Table[EB/OL].[2017-04-23].http://www.data-archive.ac.uk/createmanage/format/formats-table.

[38]ICPSR.Data Management & Curation[EB/OL].[2017-09-03].http://www.icpsr.umich.edu/icpsrweb/content/datamanagement/lifecycle/ingest/enhance.html.

[39]Zenodo.General Policies[EB/OL].[2017-09-03].http://about.zenodo.org/policies/.

[40]Neumann J,Brase J.DataCite and DOI Names for Research Data[J].Journal of Computer-Aided Molecular Design,2014,28(10):1035-1041.

[41]DOI[EB/OL].[2017-09-03].http://www.doi.org/.

[42]涂 勇,彭 潔.數(shù)字對(duì)象唯一標(biāo)識(shí)在中國(guó)科學(xué)數(shù)據(jù)領(lǐng)域中的應(yīng)用研究[J].數(shù)字圖書館論壇,2013(8):31-36.

[43]DOI Registration Agencies[EB/OL].[2017-10-05].http://www.doi.org/registration_agencies.html.

[44]Loesch F M.DataCite[J].Technical Services Quarterly,2016(33):91-92.

[45]Economic and Social Research Council.Transparency of the Peer Review Process[EB/OL].[2017-04-14].http://www.esrc.ac.uk/funding/guidance-for-peer-reviewers/transparency-of-thepeer-review-process/.

[46]UK Data Archive.Create & Manage Data-Quality Assurance[EB/OL].[2017-04-23].http://www.data-archive.ac.uk/createmanage/format/quality.

[47]UK Data Archive.Create & Manage Data-Version Control &Authenticity [EB/OL].[2017-04-23].http://www.data-archive.ac.uk/create-manage/format/versions.

[48]DataONE.Best Practices[EB/OL].[2017-09-09].https://www.dataone.org/all-best-practices.

[49]Buddenbohm S,Cretin N,Dijk E,et al.State of the Art Report on Open Access Publishing of Research Data in the Humanities[R/OL].[2017-10-15].https://halshs.archives-ouvertes.fr/halshs-01357208/document.

[50]Registry of Open Access Repository[EB/OL].[2017-02-26].http://roar.eprints.org/.

[51]OpenDOAR[EB/OL].[2017-02-21].http://www.opendoar.org/.

[52]re3data.org[EB/OL].[2017-10-18].http://www.re3data.org/.

[53]FAIRSharing[EB/OL].[2017-10-18].https://fairsharing.org/.

[54]Welcome to DRAMBORA Interactive:Log in or Register to Use the Toolkit[EB/OL].[2017-02-21].http://www.repositoryaudit.eu/.

[55]About Data Seal of Approval[EB/OL].[2017-02-25].http://www.datasealofapproval.org/en/information/about/.

[56]Data Seal of Approval.The Core Trustworthy Data Repository Requirements [EB/OL].[2017-02-25] http://www.datasealofapproval.org/en/information/requirements/.

[57]DCC.Trustworthy Repositories[EB/OL].[2017-02-21].http://www.dcc.ac.uk/resources/repository-audit-and-assessment/trustworthy-repositories.

[58]DCC.Repository Audit and Assessment [EB/OL].[2017-02-21].http://www.dcc.ac.uk/resources/repository-audit-andassessment/nestor.

[59]re3data.org.EASY[EB/OL].[2017-09-28].https://www.re3data.org/repository/r3d100010214.

[60]re3data.org.Merritt[EB/OL].[2017-09-28].https://www.re3data.org/repository/r3d100010747.

[61]Data Citation Synthesis Group.Joint Declaration of Data Citation Principles[EB/OL].[2017-10-18].https://www.force11.org/group/joint-declaration-data-citation-principles-final.

[62]FORCE11.Active Menbers[EB/OL].[2017-10-20].https://www.force11.org/community/members-directory.

[63]《數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)》編輯部.支撐數(shù)據(jù)提交要求[EB/OL].[2017-09-03].http://manu44.magtech.com.cn/Jwk_infotech_wk3/fileup/2096-3467/NEWS/20161213090914.pdf.

[64]北京大學(xué)開放研究數(shù)據(jù)平臺(tái)簡(jiǎn)介[EB/OL].[2017-10-21].http://opendata.pku.edu.cn/about.xhtml.

[65]中國(guó)科學(xué)數(shù)據(jù)[EB/OL].[2017-10-21].http://www.csdata.org/.

[66]中國(guó)國(guó)家標(biāo)準(zhǔn)化管理委員會(huì).2017年第32號(hào)中國(guó)國(guó)家標(biāo)準(zhǔn)公告[EB/OL].[2018-01-20].http://www.sac.gov.cn/gzfw/ggcx/gjbzgg/201732/.

猜你喜歡
知識(shí)庫(kù)質(zhì)量
漢語近義詞辨析知識(shí)庫(kù)構(gòu)建研究
“質(zhì)量”知識(shí)鞏固
質(zhì)量守恒定律考什么
做夢(mèng)導(dǎo)致睡眠質(zhì)量差嗎
基于TRIZ與知識(shí)庫(kù)的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
美國(guó)高校機(jī)構(gòu)知識(shí)庫(kù)開放獲取政策調(diào)查
關(guān)于質(zhì)量的快速Q(mào)&A
高速公路信息系統(tǒng)維護(hù)知識(shí)庫(kù)的建立和應(yīng)用
質(zhì)量投訴超六成
汽車觀察(2016年3期)2016-02-28 13:16:26
基于Drupal發(fā)布學(xué)者知識(shí)庫(kù)關(guān)聯(lián)數(shù)據(jù)的研究
圖書館研究(2015年5期)2015-12-07 04:05:48
买车| 阿勒泰市| 彭泽县| 东方市| 肥东县| 牡丹江市| 敖汉旗| 六盘水市| 万全县| 双牌县| 阿拉善右旗| 南汇区| 隆安县| 平乡县| 开封市| 吴川市| 平昌县| 同德县| 合作市| 噶尔县| 班戈县| 武威市| 汽车| 滦平县| 三都| 孟村| 安多县| 巫山县| 勃利县| 达尔| 安陆市| 天长市| 观塘区| 济宁市| 和林格尔县| 巴马| 奉化市| 博爱县| 繁昌县| 余江县| 诏安县|