丁培
[摘要]科學(xué)數(shù)據(jù)使用統(tǒng)計(jì)是科學(xué)數(shù)據(jù)使用計(jì)量的重要構(gòu)成,是科研學(xué)術(shù)評價(jià)的重要參考依據(jù)。對比三類數(shù)據(jù)使用計(jì)量的效果及應(yīng)用難度,文章認(rèn)為使用統(tǒng)計(jì)計(jì)量有良好的可信度和可操作性。在梳理研究現(xiàn)狀基礎(chǔ)上,文章分析數(shù)據(jù)使用統(tǒng)計(jì)的利益相關(guān)方,結(jié)合數(shù)據(jù)自身特點(diǎn),總結(jié)流程,并重點(diǎn)闡述數(shù)據(jù)收集、規(guī)范、清洗、報(bào)告等關(guān)鍵流程問題,最后提出思考與建議。
[關(guān)鍵詞]科學(xué)數(shù)據(jù);數(shù)據(jù)計(jì)量;使用統(tǒng)計(jì);評價(jià);在線電子資源使用統(tǒng)計(jì)
科學(xué)數(shù)據(jù)是現(xiàn)代科學(xué)研究的基礎(chǔ)支撐之一。它既是科研產(chǎn)出的重要內(nèi)容,也是后續(xù)科學(xué)研究、科研創(chuàng)新的基石。近年來,學(xué)術(shù)界日漸重視科學(xué)數(shù)據(jù)的公開、共享以及重用??蒲袡C(jī)構(gòu)在數(shù)據(jù)長期保存、數(shù)據(jù)監(jiān)護(hù)、科學(xué)數(shù)據(jù)開放及數(shù)據(jù)出版等方面取得諸多實(shí)質(zhì)性的進(jìn)展??蒲腥藛T也逐漸關(guān)注科學(xué)數(shù)據(jù)共享及重用所產(chǎn)生的價(jià)值,他們關(guān)注自己的數(shù)據(jù)被誰使用,自己的數(shù)據(jù)價(jià)值多高,使用他人的數(shù)據(jù)是否可靠等問題。科學(xué)數(shù)據(jù)的使用績效和影響評估已成為推動科學(xué)數(shù)據(jù)公開、共享以及重用的重要助力。
績效分析與影響評估包括定性與定量兩個(gè)方面,數(shù)據(jù)的使用計(jì)量則是定量分析的基礎(chǔ)。目前,科學(xué)數(shù)據(jù)的使用計(jì)量分三類,分別是科學(xué)數(shù)據(jù)的引用計(jì)量,科學(xué)數(shù)據(jù)的使用統(tǒng)計(jì)以及科學(xué)數(shù)據(jù)的替代計(jì)量。它們從不同角度計(jì)量科學(xué)數(shù)據(jù)的使用,并提供多樣化的數(shù)據(jù)以便評估。本文關(guān)注科學(xué)數(shù)據(jù)使用計(jì)量中的使用統(tǒng)計(jì)部分,梳理現(xiàn)狀,分析關(guān)鍵問題,并探討如何利用它為機(jī)構(gòu)、學(xué)者、科學(xué)數(shù)據(jù)提供商、圖書館等角色提供科學(xué)數(shù)據(jù)的使用績效評價(jià)。
1科學(xué)數(shù)據(jù)使用計(jì)量
現(xiàn)有學(xué)術(shù)評估體系中,科研人員傾向于認(rèn)可數(shù)據(jù)引用和數(shù)據(jù)下載作為科學(xué)數(shù)據(jù)的影響評價(jià)指標(biāo)。研究數(shù)據(jù)聯(lián)盟(Research data alliance,RDA)文獻(xiàn)計(jì)量學(xué)小組的調(diào)查發(fā)現(xiàn),研究人員認(rèn)為評價(jià)數(shù)據(jù)影響力的前三個(gè)指標(biāo)分別是數(shù)據(jù)引用計(jì)量、數(shù)據(jù)下載和同行評議文章中被提及的數(shù)量,社交媒體、博客等使用排序靠后。2014年的另一個(gè)在線調(diào)查中,95%的研究人員表示引用或者正式出版是獲知自己數(shù)據(jù)影響力的最佳方式,而60%左右的研究者認(rèn)為數(shù)據(jù)下載量也是反映自身數(shù)據(jù)影響力的重要方式。
引用是傳統(tǒng)科研學(xué)術(shù)評估體系中的重要一環(huán),在科學(xué)文獻(xiàn)領(lǐng)域廣泛應(yīng)用。作為文獻(xiàn)領(lǐng)域中成熟的影響力評估數(shù)據(jù),引用計(jì)量在科學(xué)數(shù)據(jù)影響力評估中也獲得優(yōu)先考慮。科學(xué)數(shù)據(jù)引用計(jì)量是三類使用計(jì)量中最早進(jìn)入研究,也獲得最多關(guān)注。文獻(xiàn)方面,幾乎所有關(guān)于科學(xué)數(shù)據(jù)評價(jià)計(jì)量的文獻(xiàn)都會涉及引用計(jì)量,研究角度包括引用規(guī)范、引用行為研究、引用評價(jià)模型等。實(shí)踐上,Datacite、英國數(shù)據(jù)監(jiān)護(hù)中心(The Digital Curation Centre,DCC)、ESIP、RDA、英國聯(lián)合信息系統(tǒng)委員會(Joint InformationSystems Committee,JISC)等機(jī)構(gòu)對數(shù)據(jù)引用標(biāo)準(zhǔn)、引用原則、引用應(yīng)用等方面進(jìn)行研究實(shí)踐。Springer、Nature,Elsevier等出版商也在生物醫(yī)學(xué)領(lǐng)域開展數(shù)據(jù)引用試點(diǎn)項(xiàng)目,獲得了許多的一手?jǐn)?shù)據(jù)。
盡管數(shù)據(jù)引用計(jì)量被認(rèn)為是最權(quán)威的評估數(shù)據(jù)來源,然而數(shù)據(jù)引用計(jì)量的廣范圍應(yīng)用存在四大障礙。第一,鑒于數(shù)據(jù)出版成本高、出版流程不完善及研究者缺乏出版動力,科學(xué)數(shù)據(jù)公開出版還不具備廣范圍實(shí)施的條件;第二,盡管DataCite、PANGAEA、Dataverse、ICPSR、中國西部環(huán)境與生態(tài)科學(xué)數(shù)據(jù)中心、冰川凍土科學(xué)數(shù)據(jù)中心、基礎(chǔ)科學(xué)數(shù)據(jù)共享網(wǎng)等重要學(xué)術(shù)組織、數(shù)據(jù)倉儲和研究機(jī)構(gòu)都提出了相應(yīng)的科學(xué)數(shù)據(jù)引用和著錄標(biāo)準(zhǔn),但世界范圍內(nèi)缺乏統(tǒng)一的科學(xué)數(shù)據(jù)引用標(biāo)準(zhǔn);第三,數(shù)據(jù)引用行為匱乏,許多作者在數(shù)據(jù)二次分析時(shí)不標(biāo)明數(shù)據(jù)引用;第四,數(shù)據(jù)倉儲商對科學(xué)數(shù)據(jù)引用的不重視。Making Data Count項(xiàng)目調(diào)查了71個(gè)科學(xué)數(shù)據(jù)倉儲庫,結(jié)果顯示僅有23%的倉儲追蹤數(shù)據(jù)引用。
數(shù)據(jù)下載是科研人員認(rèn)可的另一大計(jì)量數(shù)據(jù)。它是數(shù)據(jù)使用統(tǒng)計(jì)的主要構(gòu)成之一。NISO定義數(shù)據(jù)使用是用戶訪問以及下載一個(gè)公開出版的數(shù)據(jù)集的行為,其統(tǒng)計(jì)范圍包括數(shù)據(jù)的下載、數(shù)據(jù)訪問、數(shù)據(jù)集標(biāo)注等。相比引用計(jì)量,科學(xué)數(shù)據(jù)的使用統(tǒng)計(jì)計(jì)量具有預(yù)先、直觀的特點(diǎn)。預(yù)先性指我們可以在數(shù)據(jù)正式被引用發(fā)生前就洞悉數(shù)據(jù)的可能影響,而直觀性表現(xiàn)為我們能夠從數(shù)據(jù)的瀏覽或者下載直觀了解數(shù)據(jù)或者數(shù)據(jù)集受歡迎和關(guān)注的程度。此外數(shù)據(jù)使用統(tǒng)計(jì)比引用更為廣泛。John等調(diào)查71個(gè)數(shù)據(jù)倉儲,發(fā)現(xiàn)90%的倉儲提供數(shù)據(jù)下載統(tǒng)計(jì),僅有23%的數(shù)據(jù)倉儲引用獨(dú)立數(shù)據(jù)集,20%的引用將數(shù)據(jù)倉儲作為整體引用。由此看出,數(shù)據(jù)使用統(tǒng)計(jì)比數(shù)據(jù)引用計(jì)量更具可操作性。但使用統(tǒng)計(jì)數(shù)據(jù)并不能完全反映出數(shù)據(jù)本身質(zhì)量的問題。數(shù)據(jù)使用統(tǒng)計(jì)具有來源復(fù)雜、數(shù)據(jù)量龐大的特點(diǎn),尤其需要在統(tǒng)計(jì)來源、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)準(zhǔn)等方面進(jìn)行大量工作,本文第三部分將對這些內(nèi)容詳細(xì)闡述。
替代計(jì)量學(xué)是文獻(xiàn)計(jì)量學(xué)領(lǐng)域的新寵。它作為傳統(tǒng)引用計(jì)量的補(bǔ)充,主要關(guān)注學(xué)術(shù)資源的網(wǎng)絡(luò)使用。科學(xué)數(shù)據(jù)的替代計(jì)量學(xué)內(nèi)容和文獻(xiàn)的替代計(jì)量學(xué)內(nèi)容區(qū)別不大,主要統(tǒng)計(jì)對象包括科學(xué)數(shù)據(jù)的社交媒體提及、評論、訪問等。近年來也有部分研究探索科學(xué)數(shù)據(jù)的替代計(jì)量模型。如NISO的替代計(jì)量小組將計(jì)劃研究科學(xué)數(shù)據(jù)的替代計(jì)量方式。雖然替代計(jì)量學(xué)的研究在持續(xù)增加,但由于缺乏標(biāo)準(zhǔn)化的數(shù)據(jù)集以及數(shù)據(jù)統(tǒng)計(jì)來源,其應(yīng)用的普遍性受到限制。
目前而言,數(shù)據(jù)引用、數(shù)據(jù)使用及數(shù)據(jù)替代計(jì)量尚未形成完整的評估體系,其中數(shù)據(jù)引用和替代計(jì)量受制于數(shù)據(jù)來源較少,短期內(nèi)無法普遍適用。而科學(xué)數(shù)據(jù)的使用數(shù)據(jù)一直存在于數(shù)據(jù)倉儲的日志中,獲取難度低,其評價(jià)績效的效果也得到科研人員的肯定,因此,利用科學(xué)數(shù)據(jù)的使用數(shù)據(jù)來幫助評價(jià)科學(xué)數(shù)據(jù)的影響力具有可行性。
2數(shù)據(jù)使用統(tǒng)計(jì)研究現(xiàn)狀與實(shí)踐
科學(xué)數(shù)據(jù)作為科學(xué)研究的另一個(gè)重大產(chǎn)出,其成果管理、利用、評估的發(fā)展路線基本上遵循科學(xué)文獻(xiàn)的模式??茖W(xué)數(shù)據(jù)早期作為科學(xué)文獻(xiàn)的附加材料,僅僅在保存和數(shù)據(jù)驗(yàn)證上發(fā)揮作用。伴隨著科學(xué)數(shù)據(jù)日漸受到科研機(jī)構(gòu)、科研人員的重視,科研數(shù)據(jù)的使用統(tǒng)計(jì)也得到關(guān)注。
倉儲機(jī)構(gòu)及數(shù)據(jù)中心是最早利用科學(xué)數(shù)據(jù)使用統(tǒng)計(jì)的主體之一。它們基于使用統(tǒng)計(jì)數(shù)據(jù)評價(jià)科學(xué)數(shù)據(jù)的傳播和推廣的力度。隨著科研人員反思引用作為學(xué)術(shù)評價(jià)計(jì)量指標(biāo)的單一性和絕對性,利用使用統(tǒng)計(jì)評價(jià)學(xué)術(shù)影響的研究逐漸興起。Bollen等提出基于使用且覆蓋整個(gè)研究過程的影響計(jì)量方法,計(jì)量內(nèi)容涵蓋引用、發(fā)現(xiàn)、下載、同行評議郵件數(shù)、閱讀以及保存等。Fear指出學(xué)術(shù)數(shù)據(jù)集的評價(jià)計(jì)量不能依據(jù)單一指標(biāo),應(yīng)多因素考慮,如數(shù)據(jù)引用計(jì)量、二次影響(如G指數(shù))、數(shù)據(jù)重用的學(xué)科廣度以及數(shù)據(jù)下載量。
2009年,Chavan等提出數(shù)據(jù)使用索引(Data usageindex)是數(shù)據(jù)出版框架中三大技術(shù)基礎(chǔ)設(shè)施之一,其統(tǒng)計(jì)指標(biāo)涵蓋訪問、下載頻率、下載量、使用度等。這是學(xué)術(shù)界第一次正式提出數(shù)據(jù)使用統(tǒng)計(jì),并將其作為單獨(dú)對象進(jìn)行研究。GBIF數(shù)據(jù)出版工作組進(jìn)一步細(xì)化數(shù)據(jù)使用索引中指標(biāo)的統(tǒng)計(jì)及用途,提出利用下載、檢索、記錄數(shù)量、數(shù)據(jù)集數(shù)量等數(shù)據(jù)可以計(jì)算出數(shù)據(jù)使用影響、興趣影響、使用率、使用評分等評價(jià)指標(biāo)。Rodrigo Costas(2012)提出數(shù)據(jù)計(jì)量的概念,認(rèn)為數(shù)據(jù)使用統(tǒng)計(jì)也是計(jì)量的重要組成。NISO報(bào)告認(rèn)同研究數(shù)據(jù)使用統(tǒng)計(jì)是重要評價(jià)衡量,建議研究數(shù)據(jù)共享平臺(包括數(shù)據(jù)倉儲)為研究數(shù)據(jù)使用統(tǒng)計(jì)建立標(biāo)準(zhǔn)和最佳實(shí)踐。國內(nèi)目前主要關(guān)注科學(xué)數(shù)據(jù)引用對數(shù)據(jù)影響評估的作用,尚未對專門研究數(shù)據(jù)使用統(tǒng)計(jì),僅在科學(xué)數(shù)據(jù)共享平臺績效評估指標(biāo)中提及或科學(xué)數(shù)據(jù)出版環(huán)境中建議包含使用統(tǒng)計(jì)的科學(xué)數(shù)據(jù)評價(jià)指標(biāo)。
國際上已有多個(gè)項(xiàng)目對科學(xué)數(shù)據(jù)使用統(tǒng)計(jì)進(jìn)行研究和實(shí)踐。如研究數(shù)據(jù)聯(lián)盟下的數(shù)據(jù)出版計(jì)量小組正在研究如何對數(shù)據(jù)計(jì)量概念化;NISO的替代計(jì)量指標(biāo)小組考慮將替代計(jì)量指標(biāo)擴(kuò)展到非傳統(tǒng)的軟件或科學(xué)數(shù)據(jù);JISC資助的數(shù)據(jù)計(jì)量項(xiàng)目準(zhǔn)備基于COUNTER標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)使用計(jì)量實(shí)踐;由NSF資助,加州數(shù)字圖書館、PLOS和DataONE共同參與的Making Data Count項(xiàng)目創(chuàng)建了一個(gè)數(shù)據(jù)計(jì)量的試點(diǎn)網(wǎng)站。
3科學(xué)數(shù)據(jù)使用統(tǒng)計(jì)流程及關(guān)鍵問題
3.1科學(xué)數(shù)據(jù)使用統(tǒng)計(jì)的利益相關(guān)方
3.1.1數(shù)據(jù)提供者
數(shù)據(jù)保存是數(shù)據(jù)使用的最基本前提。使用統(tǒng)計(jì)數(shù)據(jù)最主要的來源是數(shù)據(jù)倉儲。英國數(shù)據(jù)監(jiān)護(hù)中心DCC將數(shù)據(jù)倉儲分為公共獲取的科學(xué)數(shù)據(jù)倉儲數(shù)據(jù)中心或科學(xué)數(shù)據(jù)庫、通用的數(shù)據(jù)倉儲庫、機(jī)構(gòu)數(shù)據(jù)倉儲庫、期刊的補(bǔ)充材料存儲服務(wù)、項(xiàng)目、部門或者個(gè)人主頁五類。表1對這五類數(shù)據(jù)倉儲的優(yōu)缺點(diǎn)及使用統(tǒng)計(jì)數(shù)據(jù)提供的力度進(jìn)行對比。
可以看出,機(jī)構(gòu)倉儲、數(shù)據(jù)中心、通用的數(shù)據(jù)倉儲庫是科學(xué)數(shù)據(jù)使用統(tǒng)計(jì)的主要數(shù)據(jù)提供方。從供應(yīng)方的角度,使用統(tǒng)計(jì)能直觀的了解其資源的利用情況,為后續(xù)資源推廣、用戶行為分析、資源個(gè)性化加工、提供數(shù)據(jù)分析服務(wù)奠定數(shù)據(jù)基礎(chǔ)。
3.1.2數(shù)據(jù)消費(fèi)者
科研人員、科研機(jī)構(gòu)、學(xué)術(shù)資助機(jī)構(gòu)既是統(tǒng)計(jì)數(shù)據(jù)產(chǎn)生過程中的數(shù)據(jù)使用者,也是使用統(tǒng)計(jì)數(shù)據(jù)消費(fèi)的主體??蒲腥藛T可利用科學(xué)數(shù)據(jù)使用統(tǒng)計(jì)幫助評估個(gè)人科學(xué)數(shù)據(jù)的受關(guān)注程度,利于開展同行甚至是跨行業(yè)的科研合作,有條件的情況下,還可將其作為自身科研績效評價(jià)的一項(xiàng)佐證數(shù)據(jù)??蒲袡C(jī)構(gòu)可以利用使用統(tǒng)計(jì)數(shù)據(jù)評估機(jī)構(gòu)的學(xué)術(shù)影響力和傳播范圍,還可以基于數(shù)據(jù)分析熱點(diǎn)活躍的學(xué)科及主題,進(jìn)行針對性的學(xué)科建設(shè)。使用統(tǒng)計(jì)數(shù)據(jù)還可以作為機(jī)構(gòu)特色科學(xué)數(shù)據(jù)資源建設(shè)的依據(jù);對于學(xué)術(shù)資助機(jī)構(gòu)而言,國外許多機(jī)構(gòu),如美國自然科學(xué)基金會(NSF)、英國人文研究委員會(AHRC)等機(jī)構(gòu)要求科研人員在項(xiàng)目中提交科學(xué)數(shù)據(jù)的倉儲及管理計(jì)劃,而科學(xué)數(shù)據(jù)的使用統(tǒng)計(jì)可以作為資助成果績效評價(jià)的一個(gè)參考。
3.2科學(xué)數(shù)據(jù)使用統(tǒng)計(jì)流程
科學(xué)數(shù)據(jù)的使用統(tǒng)計(jì)并非簡單的數(shù)字統(tǒng)計(jì),而是一個(gè)完整的數(shù)據(jù)分析流程。它涵蓋了數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)規(guī)范化、數(shù)據(jù)分析及報(bào)告以及最終使用統(tǒng)計(jì)數(shù)據(jù)報(bào)告應(yīng)用等一系列流程。數(shù)據(jù)和文獻(xiàn)同作為科學(xué)研究的產(chǎn)出,在成果保存、傳播及共享等方面有諸多相似之處,因而其使用統(tǒng)計(jì)在流程和方法上也類似。然則科學(xué)數(shù)據(jù)缺乏成熟共享的傳播模式,加之其具備分布式倉儲、表現(xiàn)粒度不一、缺乏統(tǒng)一描述及應(yīng)用標(biāo)準(zhǔn)等特點(diǎn),所以數(shù)據(jù)的使用統(tǒng)計(jì)也需具體情況具體分析。
3.2.1數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)采集的穩(wěn)定性和可靠性關(guān)系到最終數(shù)據(jù)應(yīng)用的效果。無論是數(shù)據(jù)引用、數(shù)據(jù)使用或者是數(shù)據(jù)的替代使用,都需要保證數(shù)據(jù)來源的可靠、穩(wěn)定以及效率。數(shù)據(jù)的使用統(tǒng)計(jì)需要在以下方面進(jìn)行準(zhǔn)備。
首先是使用統(tǒng)計(jì)數(shù)據(jù)的可信度。數(shù)據(jù)中心、通用數(shù)據(jù)倉儲以及機(jī)構(gòu)數(shù)據(jù)倉儲庫,擁有較完善的數(shù)據(jù)提交審核機(jī)制,提供數(shù)據(jù)的元數(shù)據(jù)描述,還基于唯一數(shù)據(jù)標(biāo)識符追溯數(shù)據(jù)來源,可以保證數(shù)據(jù)的穩(wěn)定獲取,是合適的使用數(shù)據(jù)來源。
其次是數(shù)據(jù)版本。區(qū)別于文獻(xiàn),數(shù)據(jù)具有多版本的特點(diǎn)。例如研究者提交一份數(shù)據(jù)后,后續(xù)新的研究對原有數(shù)據(jù)進(jìn)行了增改刪除,新的數(shù)據(jù)是原有數(shù)據(jù)的高級版本。此種情況下,數(shù)據(jù)的版本控制需要發(fā)揮作用。版本控制前需要明確一個(gè)問題,即同源數(shù)據(jù)不同版本是屬于一個(gè)還是多個(gè)處理對象?現(xiàn)有的數(shù)據(jù)管理實(shí)踐將科學(xué)數(shù)據(jù)的不同版本認(rèn)定為原始數(shù)據(jù)的升級,作為同一個(gè)對象處理,同時(shí)保留數(shù)據(jù)的版本信息。例如UK DATA ACHIVE、Leicester大學(xué)的數(shù)據(jù)倉儲實(shí)踐。因而我們建議在數(shù)據(jù)命名上體現(xiàn)出版本信息,采用唯一標(biāo)識符定位數(shù)據(jù),跟蹤數(shù)據(jù)保存位置,并在統(tǒng)計(jì)數(shù)據(jù)使用量時(shí),將同源數(shù)據(jù)集的不同版本在不同平臺上的使用量歸一。此外我們也可借助版本控制工具,在數(shù)據(jù)庫中對科學(xué)數(shù)據(jù)進(jìn)行版本化,并基于算法和工具來追蹤數(shù)據(jù)版本。
第三是數(shù)據(jù)粒度。湯森路透(Thomson Reuters)公司的數(shù)據(jù)引用索引DCI將科學(xué)數(shù)據(jù)粒度劃分為三個(gè)層次:數(shù)據(jù)倉儲,數(shù)據(jù)研究,數(shù)據(jù)集。數(shù)據(jù)倉儲是數(shù)據(jù)的實(shí)際存儲地,包含數(shù)據(jù)研究和數(shù)據(jù)集。數(shù)據(jù)研究是指某一項(xiàng)研究或者實(shí)驗(yàn)中產(chǎn)生的一系列關(guān)聯(lián)的數(shù)據(jù)集合,通常包含若干數(shù)據(jù)集,可根據(jù)項(xiàng)目或主題分類。數(shù)據(jù)集是DCI中的最小單元。也有研究關(guān)注更細(xì)粒度的科學(xué)數(shù)據(jù)。如數(shù)據(jù)使用索引以文獻(xiàn)數(shù)據(jù)作為基準(zhǔn),把科學(xué)數(shù)據(jù)統(tǒng)計(jì)粒度分兩層:第一層是數(shù)據(jù)集,相當(dāng)于期刊;第二層是數(shù)據(jù)集的記錄,相當(dāng)于期刊文章。
原則上,數(shù)據(jù)統(tǒng)計(jì)的粒度越細(xì)越好,然而在實(shí)際操作中,數(shù)據(jù)倉儲范圍太大,數(shù)據(jù)研究適用性較窄,數(shù)據(jù)記錄則由于不同數(shù)據(jù)倉儲或數(shù)據(jù)中心對數(shù)據(jù)記錄的定義不一致,導(dǎo)致統(tǒng)計(jì)困難。目前科學(xué)數(shù)據(jù)的數(shù)字標(biāo)識主要集中數(shù)據(jù)集層次,異構(gòu)數(shù)據(jù)倉儲中對于數(shù)據(jù)集的定義和描述相比更為統(tǒng)一,因而在數(shù)據(jù)集粒度層進(jìn)行使用數(shù)據(jù)的統(tǒng)計(jì)更具有效率。
第四是數(shù)據(jù)標(biāo)識符。持續(xù)獨(dú)特的標(biāo)識符可以永久保證一個(gè)數(shù)據(jù)集甚至是一條數(shù)據(jù)記錄獨(dú)立、唯一的位置,它在保證數(shù)據(jù)的可訪問性以及重用性上有著非常重要的作用。同時(shí)在數(shù)據(jù)使用中,應(yīng)用數(shù)字對象唯一標(biāo)識符可以合并不同版本的同源數(shù)據(jù)使用以及同一數(shù)據(jù)在不同的數(shù)據(jù)倉儲中的使用。目前國際范圍內(nèi)有多種數(shù)字對象標(biāo)識符應(yīng)用,如Digital Object Identifiers(DOIs),Archival Resource Keys(ARKs),Persistent Uniform Resource Locators(PURLs),Uniform Resource Names(URNs),Life Science Identifiers(LSIDs)等。其中DOI應(yīng)用范圍最廣,也得到許多機(jī)構(gòu)的承認(rèn)。
3.2.2數(shù)據(jù)采集
倉儲平臺的兩種主流使用數(shù)據(jù)采集方式是日志文件和頁面標(biāo)簽。
日志文件記錄了所有記錄的原始使用情況,涵蓋各種類型的訪問,訪問來源、響應(yīng)情況、IP地址等,內(nèi)容詳細(xì)但瑣碎。因而日志文件需要清洗和轉(zhuǎn)換后才可作為使用統(tǒng)計(jì)來利用,轉(zhuǎn)換過程中還涉及日志數(shù)據(jù)和統(tǒng)計(jì)標(biāo)準(zhǔn)對接的問題。日志數(shù)據(jù)可以直接在數(shù)據(jù)倉儲平臺下載,或借助協(xié)議自動、定時(shí)采集。下載方式直接簡單,但面對多個(gè)平臺使用日志時(shí),用戶或者機(jī)構(gòu)需要手動搜集、保存和整理使用日志,這樣的方式復(fù)雜、低效。協(xié)議收割方式可以解決多平臺數(shù)據(jù)自動采集和統(tǒng)一處理,是最理想的數(shù)據(jù)收集方式。
頁面標(biāo)簽方法是在每一個(gè)頁面上使用JavaScript,當(dāng)頁面被瀏覽器訪問時(shí),JavaScript將通知第三方服務(wù)進(jìn)行統(tǒng)計(jì)。
這兩種數(shù)據(jù)采集方式各有長短。日志統(tǒng)計(jì)方式不需要額外改造網(wǎng)站和查詢DNS,因而不會增加服務(wù)器的負(fù)擔(dān),但其數(shù)據(jù)噪音大,無法直接去除無效訪問和網(wǎng)絡(luò)爬蟲訪問等;頁面標(biāo)簽方式在數(shù)據(jù)噪音處理上優(yōu)于日志,日漸成為網(wǎng)絡(luò)分析的一個(gè)標(biāo)準(zhǔn)。它允許第三方服務(wù)訪問網(wǎng)絡(luò)服務(wù)器,以頁面激活打開作為計(jì)數(shù),并非以請求作為依據(jù),可排除未響應(yīng)請求和爬蟲請求,但是其不能追蹤下載完成事件和搜索引擎蜘蛛,對服務(wù)器負(fù)擔(dān)大。
科學(xué)數(shù)據(jù)的使用統(tǒng)計(jì)具有跨平臺、海量的特點(diǎn),在內(nèi)容豐富化,實(shí)時(shí)性和標(biāo)準(zhǔn)化上有較高的要求。因而經(jīng)過標(biāo)準(zhǔn)化清洗并且可以自動收割的日志方式是優(yōu)秀的解決方案。標(biāo)準(zhǔn)化清洗可基于標(biāo)準(zhǔn)進(jìn)行,自動收割則需要標(biāo)準(zhǔn)化的數(shù)據(jù)交換和采集協(xié)議。SUSHI(Standardized Usage StatisticsHarvesting Initiative,標(biāo)準(zhǔn)化使用統(tǒng)計(jì)收割協(xié)議)是由NISO發(fā)起的項(xiàng)目。它是一個(gè)請求數(shù)據(jù)的網(wǎng)絡(luò)服務(wù)模型,可以實(shí)現(xiàn)通過一個(gè)XML框架將使用數(shù)據(jù)在不同的系統(tǒng)中自動傳遞。SUSHI協(xié)議解決了符合COUNTER規(guī)范的使用統(tǒng)計(jì)報(bào)告自動收集及跨平臺雙向傳遞的問題。但是國外的實(shí)踐也只是解決了SUSHI自動收集符合COUNTER規(guī)范數(shù)據(jù)的問題。
3.2.3數(shù)據(jù)規(guī)范
使用統(tǒng)計(jì)的最大障礙在于缺乏對下載、瀏覽等統(tǒng)計(jì)的標(biāo)準(zhǔn)。只有規(guī)范化的數(shù)據(jù),才能相互比較并發(fā)現(xiàn)資源的價(jià)值。
在線電子資源使用統(tǒng)計(jì)(Counting Online Usage ofNetwork Electronic Resources,COUNTER)是規(guī)范電子資源使用統(tǒng)計(jì)報(bào)告數(shù)據(jù)處理、審核和提交的國際化標(biāo)準(zhǔn),于2002年由高校、出版界和中間商共同發(fā)起,其統(tǒng)計(jì)報(bào)告解決了使用統(tǒng)計(jì)數(shù)據(jù)的統(tǒng)計(jì)標(biāo)準(zhǔn)和格式的一致性問題,并對數(shù)據(jù)庫、電子期刊、電子圖書和參考文獻(xiàn)的統(tǒng)計(jì)格式分別進(jìn)行了規(guī)定。目前已經(jīng)被數(shù)十個(gè)數(shù)據(jù)庫商所支持,還有多個(gè)基于COUNTER標(biāo)準(zhǔn)的使用數(shù)據(jù)分析平臺??茖W(xué)數(shù)據(jù)的使用統(tǒng)計(jì)缺乏規(guī)范,鑒于文獻(xiàn)和數(shù)據(jù)的同源性,部分研究實(shí)踐嘗試?yán)肅OUNTER標(biāo)準(zhǔn)規(guī)范科學(xué)數(shù)據(jù)的使用統(tǒng)計(jì)。例如JISC的數(shù)據(jù)計(jì)量項(xiàng)目與IRUS-UK合作嘗試基于COUNTER統(tǒng)計(jì)數(shù)據(jù)集使用;Making Data Count項(xiàng)目組對150000個(gè)數(shù)據(jù)集進(jìn)行了COUNTER規(guī)范的統(tǒng)計(jì)實(shí)驗(yàn);NISO的替代計(jì)量指標(biāo)小組的報(bào)告中建議基于COUNTER標(biāo)準(zhǔn)并考慮特殊情況對科學(xué)數(shù)據(jù)使用進(jìn)行統(tǒng)計(jì)。
科學(xué)數(shù)據(jù)使用統(tǒng)計(jì)借鑒COUNTER規(guī)范益處良多。首先它可以利用COUNTER標(biāo)準(zhǔn)在數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)審核、標(biāo)準(zhǔn)化報(bào)告格式方面的豐富經(jīng)驗(yàn)。其次,SUSHI和COUNTER已經(jīng)建立了一套完整的數(shù)據(jù)交換方式,基于兩個(gè)規(guī)范可以實(shí)現(xiàn)標(biāo)準(zhǔn)化使用數(shù)據(jù)的自動收集。
但是COUNTER標(biāo)準(zhǔn)應(yīng)用于科學(xué)數(shù)據(jù)還存在一些問題。如COUNTER標(biāo)準(zhǔn)中未定義科學(xué)數(shù)據(jù)資源類型,所以沒有對應(yīng)的使用統(tǒng)計(jì)報(bào)告;COUNTER對機(jī)器自動獲取的數(shù)據(jù)實(shí)行完全過濾,這在科學(xué)數(shù)據(jù)使用統(tǒng)計(jì)中不可取。
3.2.4數(shù)據(jù)清洗
通過日志或頁面標(biāo)簽方式獲取原始的使用數(shù)據(jù)后,我們需要清洗和處理數(shù)據(jù)。這些處理包括對數(shù)據(jù)分類、識別有效的使用等。
數(shù)據(jù)分類主要是對數(shù)據(jù)使用的用戶分類,可以參照IP地址、機(jī)構(gòu)用戶、個(gè)人注冊用戶等類型對使用數(shù)據(jù)分類。
在COUNTER規(guī)范中,使用數(shù)據(jù)的有效計(jì)數(shù)有嚴(yán)格規(guī)定,如只計(jì)算成功和有效的請求、HTML格式鏈接上間隔不足lOs的雙擊只計(jì)數(shù)一次、PDF格式鏈接上不足30s的雙擊只計(jì)數(shù)一次等。但是COUNTER規(guī)范并非完美。如COUNTER并未定義檢索行為是服務(wù)器端響應(yīng)還是用戶端實(shí)際接收完整結(jié)果。但實(shí)際操作中多數(shù)以服務(wù)器端響應(yīng)來進(jìn)行統(tǒng)計(jì),未考慮用戶是否成功接收到數(shù)據(jù),也未明確定義服務(wù)器端會話不完整和用戶自行點(diǎn)擊取消下載情況如何計(jì)數(shù)。
科學(xué)數(shù)據(jù)的使用與電子資源使用有一明顯區(qū)別,即利用APIs或者爬蟲等所產(chǎn)生的使用應(yīng)計(jì)入科學(xué)數(shù)據(jù)的使用統(tǒng)計(jì)。COUNTER針對電子資源使用,專門提供一個(gè)附錄記錄已知的集成和自動搜索引擎列表以及網(wǎng)絡(luò)機(jī)器人、網(wǎng)絡(luò)爬蟲、網(wǎng)頁、爬蟲等列表,并在頭標(biāo)區(qū)中設(shè)有參數(shù)來排除非人下載以及消除同一個(gè)機(jī)器的重復(fù)下載。這并不適合科學(xué)數(shù)據(jù)的使用統(tǒng)計(jì)。因而NISO建議采用兩種方式統(tǒng)計(jì)科學(xué)數(shù)據(jù)下載,一種針對人類使用,另一種包括合法的機(jī)器訪問和下載,可以通過白名單的方式,保存合法的機(jī)器訪問數(shù)據(jù)。
3.2.5數(shù)據(jù)分析和報(bào)告
收集、清洗和規(guī)范化使用數(shù)據(jù),其最終是為了分析數(shù)據(jù),以幫助科學(xué)數(shù)據(jù)提供和使用的各方來評價(jià)科學(xué)數(shù)據(jù)的效果和價(jià)值。
基于數(shù)據(jù)集的使用統(tǒng)計(jì)數(shù)據(jù),科學(xué)數(shù)據(jù)使用統(tǒng)計(jì)報(bào)告可從數(shù)據(jù)倉儲、數(shù)據(jù)研究以及數(shù)據(jù)集三個(gè)維度展示。表2參考COUNTER規(guī)范,結(jié)合科學(xué)數(shù)據(jù)存儲和使用方式,大致對科學(xué)數(shù)據(jù)的使用數(shù)據(jù)報(bào)告的內(nèi)容和字段進(jìn)行說明。
4思考與建議
4.1重視對科學(xué)數(shù)據(jù)使用統(tǒng)計(jì)
隨著科學(xué)數(shù)據(jù)共享和開放程度提高,科學(xué)數(shù)據(jù)的使用績效評估日漸受到重視。鑒于引用在學(xué)術(shù)評價(jià)中正的重要地位,科學(xué)數(shù)據(jù)引用的機(jī)制、行為、規(guī)范等內(nèi)容得到廣泛關(guān)注。而科學(xué)數(shù)據(jù)使用統(tǒng)計(jì)作為第一手評價(jià)數(shù)據(jù),關(guān)注明顯少于引用。
事實(shí)上,使用統(tǒng)計(jì)數(shù)據(jù)比引用數(shù)據(jù)更容易獲取,有廣泛的基礎(chǔ)數(shù)據(jù)來源。一手的使用統(tǒng)計(jì)可以直觀了解數(shù)據(jù)資源使用情況、追蹤和分析用戶使用行為、檢驗(yàn)科學(xué)數(shù)據(jù)倉儲商的服務(wù)品質(zhì),還能夠快速反映出科學(xué)數(shù)據(jù)領(lǐng)域內(nèi)的研究熱點(diǎn),甚至可以基于使用數(shù)據(jù)來測量學(xué)者的學(xué)術(shù)影響力。已有多個(gè)學(xué)者研究發(fā)現(xiàn)學(xué)術(shù)資源下載和引用問存在很強(qiáng)的正關(guān)聯(lián)。因此科學(xué)數(shù)據(jù)倉儲平臺、研究機(jī)構(gòu)、科研資助機(jī)構(gòu)以及研究者都要重視科學(xué)數(shù)據(jù)使用統(tǒng)計(jì)。
科學(xué)數(shù)據(jù)倉儲平臺應(yīng)該積極探索、解決科學(xué)數(shù)據(jù)使用統(tǒng)計(jì)實(shí)際操作過程中的技術(shù)問題,例如為科學(xué)數(shù)據(jù)分配機(jī)器可讀的永久標(biāo)識符、創(chuàng)建科學(xué)數(shù)據(jù)的登錄頁面、使用數(shù)據(jù)下載接口提供等,并且致力于為用戶提供基于標(biāo)準(zhǔn)(例如COUNTER)的使用數(shù)據(jù)報(bào)告,多角度、多層次的分析用戶使用行為。
科研資助機(jī)構(gòu)和大學(xué)等學(xué)術(shù)機(jī)構(gòu)應(yīng)該積極鼓勵研究者制定詳細(xì)的科研數(shù)據(jù)管理計(jì)劃,并鼓勵他們將科學(xué)數(shù)據(jù)保存到合適的數(shù)據(jù)倉儲庫中。同時(shí),學(xué)術(shù)機(jī)構(gòu)可以考慮將數(shù)據(jù)使用統(tǒng)計(jì)引入到學(xué)術(shù)績效評價(jià)或職業(yè)獎勵結(jié)構(gòu)體系中,這樣有助于使數(shù)據(jù)共享與數(shù)據(jù)發(fā)布成為學(xué)者常規(guī)工作中的重要活動,激勵數(shù)據(jù)共享。
科研人員應(yīng)該重視科研數(shù)據(jù)的長期保存,建立良好的數(shù)據(jù)管理計(jì)劃,共享科學(xué)數(shù)據(jù),主動利用科學(xué)數(shù)據(jù)使用統(tǒng)計(jì),積極從中尋找合作機(jī)會。
4.2科學(xué)數(shù)據(jù)使用統(tǒng)計(jì)標(biāo)準(zhǔn)建設(shè)
只有遵循規(guī)范,才能產(chǎn)生一致性的數(shù)據(jù),才能合理分析數(shù)據(jù)。現(xiàn)行背景下尚未有專門的科學(xué)數(shù)據(jù)使用統(tǒng)計(jì)標(biāo)準(zhǔn),這是使用統(tǒng)計(jì)應(yīng)用過程中的最大障礙。標(biāo)準(zhǔn)的制定是一個(gè)復(fù)雜的過程,它需要多方參與,并且可以用于指導(dǎo)實(shí)踐。COUNTER標(biāo)準(zhǔn)是一個(gè)成熟的學(xué)術(shù)電子資源使用統(tǒng)計(jì)規(guī)范,其在使用數(shù)據(jù)收集、清洗等處理過程、標(biāo)準(zhǔn)化的統(tǒng)計(jì)報(bào)告的經(jīng)驗(yàn)和大量數(shù)據(jù)庫商與圖書館推動的COUNTER實(shí)踐都能夠在科學(xué)數(shù)據(jù)使用統(tǒng)計(jì)應(yīng)用過程中提供有力指導(dǎo)。
我們建議標(biāo)準(zhǔn)制定機(jī)構(gòu)、科學(xué)數(shù)據(jù)倉儲平臺及科研資助機(jī)構(gòu)通力合作,以COUNTER規(guī)范為基礎(chǔ)藍(lán)本,結(jié)合科學(xué)數(shù)據(jù)使用的獨(dú)有特點(diǎn),制定合適科學(xué)數(shù)據(jù)的COUNTER報(bào)告規(guī)范。科學(xué)數(shù)據(jù)倉儲平臺也可以自主探索并實(shí)踐新的科學(xué)數(shù)據(jù)使用規(guī)范。同時(shí)需要將數(shù)據(jù)倉儲商納入到SUSHI注冊商體系內(nèi),確保可以基于SUSHI協(xié)議自動傳遞標(biāo)準(zhǔn)化的科學(xué)數(shù)據(jù)使用統(tǒng)計(jì)報(bào)告。
4.3建設(shè)統(tǒng)計(jì)平臺
使用統(tǒng)計(jì)平臺是一站式的收集、集成、瀏覽、下載、保存及分析利用數(shù)字資源使用統(tǒng)計(jì)數(shù)據(jù)門戶。借助SUSHI協(xié)議,統(tǒng)計(jì)分析平臺定期從不同的數(shù)據(jù)倉儲平臺中自動收集標(biāo)準(zhǔn)化的使用統(tǒng)計(jì)數(shù)據(jù),并整合數(shù)據(jù)。統(tǒng)計(jì)平臺可以對統(tǒng)計(jì)數(shù)據(jù)長期保存,即使源數(shù)據(jù)已經(jīng)被刪除?;跇?biāo)準(zhǔn)化的報(bào)告,統(tǒng)計(jì)平臺為科學(xué)數(shù)據(jù)使用中參與各方提供豐富數(shù)據(jù)報(bào)表,例如倉儲庫訪問的年、月度變化,國家下載排名、機(jī)構(gòu)下載排名、熱點(diǎn)學(xué)科科學(xué)數(shù)據(jù)下載排名等。
目前已經(jīng)有使用數(shù)據(jù)統(tǒng)計(jì)平臺在嘗試科學(xué)數(shù)據(jù)使用計(jì)量分析。IRUSdata-UK是代表之一。IRUS-UK是JISC資助的國際服務(wù),為機(jī)構(gòu)提供機(jī)構(gòu)倉儲內(nèi)容的使用統(tǒng)計(jì),并提供基于COUNTER標(biāo)準(zhǔn)的可對比統(tǒng)計(jì)報(bào)告。IRUSdata-UK項(xiàng)目是IRSU-UK項(xiàng)目基礎(chǔ)上針對科學(xué)數(shù)據(jù)集的使用統(tǒng)計(jì)數(shù)據(jù)分析項(xiàng)目。該項(xiàng)目與UK Data Service等15個(gè)科學(xué)數(shù)據(jù)倉儲(類型涵蓋EPrints,DSpace和Fedora等)合作,利用倉儲自身后臺日志文件,統(tǒng)計(jì)數(shù)據(jù)集級別的科學(xué)數(shù)據(jù)下載,基于COUNTER標(biāo)準(zhǔn),過濾噪音內(nèi)容(多重點(diǎn)擊、不完全下載、網(wǎng)絡(luò)機(jī)器人反復(fù)隨機(jī)下載鏈接等),最后分析使用績效。
盡管目前國內(nèi)并未有科學(xué)數(shù)據(jù)的使用統(tǒng)計(jì)平臺實(shí)踐,但國內(nèi)已經(jīng)有基礎(chǔ)數(shù)據(jù)的整合平臺,如基礎(chǔ)科學(xué)數(shù)據(jù)共享網(wǎng)等。建議由圖書館或數(shù)據(jù)出版商推動研制專門的科學(xué)數(shù)據(jù)資源使用統(tǒng)計(jì)平臺,基于出版商提供的符合COUNTER規(guī)范的使用統(tǒng)計(jì)數(shù)據(jù),側(cè)重?cái)?shù)字資源使用數(shù)據(jù)的收集、集成和分析。
4.4圖書館積極參與科研數(shù)據(jù)影響評價(jià)
一直以來,圖書館是科學(xué)數(shù)據(jù)管理及共享的積極推動者和實(shí)踐者。尤其是高校圖書館和研究型圖書館。它們創(chuàng)建機(jī)構(gòu)存儲庫對科研數(shù)據(jù)長期保存,幫助科研人員制定數(shù)據(jù)管理計(jì)劃,參與科學(xué)數(shù)據(jù)共享規(guī)范的研究,幫助學(xué)?;驒C(jī)構(gòu)創(chuàng)建科研數(shù)據(jù)管理政策,與出版社一道推動數(shù)據(jù)出版實(shí)踐,可以說,圖書館是科學(xué)數(shù)據(jù)管理領(lǐng)域的先驅(qū)者和重要貢獻(xiàn)者。
參與科學(xué)數(shù)據(jù)影響評價(jià)實(shí)踐也是圖書館參與數(shù)據(jù)管理的重要方向。一方面,圖書館應(yīng)繼續(xù)推動科學(xué)數(shù)據(jù)共享及重用理念的傳播,為學(xué)?;蛘邫C(jī)構(gòu)的科研人員提供數(shù)據(jù)管理相關(guān)服務(wù),例如提供科學(xué)數(shù)據(jù)長期保存、元數(shù)據(jù)規(guī)范、數(shù)據(jù)工作流管理等。另一方面,圖書館可以多方式參與到科學(xué)數(shù)據(jù)影響評價(jià)過程中。圖書館可以積極推動學(xué)?;驒C(jī)構(gòu)的決策層將科學(xué)數(shù)據(jù)使用納入科研學(xué)術(shù)的績效評估體系,并提供相應(yīng)的科學(xué)數(shù)據(jù)使用計(jì)量數(shù)據(jù);提供科學(xué)數(shù)據(jù)機(jī)構(gòu)倉儲的圖書館可以嘗試基于COUNTER規(guī)范提供科學(xué)數(shù)據(jù)使用統(tǒng)計(jì)分析報(bào)告;圖書館還可以參與數(shù)據(jù)使用統(tǒng)計(jì)標(biāo)準(zhǔn)規(guī)范的制定和測試過程。
5結(jié)語
在未來的時(shí)間里,科學(xué)數(shù)據(jù)的影響績效評估將會變得愈發(fā)重要。全面綜合的科學(xué)數(shù)據(jù)計(jì)績效評估,不應(yīng)僅僅將數(shù)據(jù)引用作為考量標(biāo)準(zhǔn),科學(xué)數(shù)據(jù)使用統(tǒng)計(jì)和替代計(jì)量也應(yīng)納入考核的數(shù)據(jù)支撐??茖W(xué)數(shù)據(jù)的使用統(tǒng)計(jì)應(yīng)用的主要障礙在于數(shù)據(jù)采集和數(shù)據(jù)標(biāo)準(zhǔn)化。而建立一個(gè)長效、規(guī)范化、多層次的科學(xué)數(shù)據(jù)使用統(tǒng)計(jì)體系,需要科學(xué)數(shù)據(jù)倉儲平臺、科研機(jī)構(gòu)、科研資助機(jī)構(gòu)、科研工作者、圖書館、標(biāo)準(zhǔn)制定機(jī)構(gòu)各方的積極參與及合作。