宋秀芬
(湖北警官學(xué)院刑事技術(shù)與情報系)
數(shù)據(jù)已成為驅(qū)動科研活動的戰(zhàn)略性資源,價值性科研數(shù)據(jù)存檔與保存有助于其在未來研究中被發(fā)現(xiàn)與再利用。由于傳統(tǒng)機(jī)構(gòu)知識庫(Institutional Repositories,簡稱IR)數(shù)據(jù)服務(wù)不到位、數(shù)據(jù)保存內(nèi)容不完整、缺乏嵌入式科研流程服務(wù)、數(shù)據(jù)監(jiān)護(hù)的功能不完善,故需優(yōu)化傳統(tǒng)機(jī)構(gòu)知識庫或開發(fā)數(shù)據(jù)知識庫來支持?jǐn)?shù)據(jù)監(jiān)護(hù)以適應(yīng)數(shù)據(jù)密集型科學(xué)發(fā)展要求,規(guī)避價值性數(shù)據(jù)丟失風(fēng)險、維護(hù)數(shù)據(jù)質(zhì)量、提升數(shù)據(jù)價值、保障數(shù)據(jù)長期再利用。在此背景下,文章根據(jù)機(jī)構(gòu)知識庫與數(shù)據(jù)知識庫特點(diǎn)與內(nèi)涵,從存儲內(nèi)容、數(shù)據(jù)監(jiān)護(hù)、嵌入式科研流程服務(wù)三個方面比較兩者之間的差異,并利用國外高質(zhì)量數(shù)字知識庫實(shí)例對新型機(jī)構(gòu)知識庫與數(shù)據(jù)知識庫如何適應(yīng)數(shù)據(jù)服務(wù)要求進(jìn)行揭示。
Lynch認(rèn)為,機(jī)構(gòu)知識庫為社區(qū)成員提供關(guān)于機(jī)構(gòu)與社區(qū)創(chuàng)建的數(shù)字資源管理、傳播與再利用等一系列服務(wù),是關(guān)于數(shù)字資料管理、長期保存、組織、訪問與傳播的組織承諾與義務(wù)。[1]該定義強(qiáng)調(diào)機(jī)構(gòu)知識庫是服務(wù)工具(如長期保存)而不是館藏發(fā)展系統(tǒng)。Markey等認(rèn)為,機(jī)構(gòu)知識庫是一系列服務(wù)與技術(shù),收集、管理、訪問、傳播與保存機(jī)構(gòu)產(chǎn)生的數(shù)字資源,大多數(shù)機(jī)構(gòu)知識庫由高校、政府部門、博物館、企業(yè)等創(chuàng)建,高校機(jī)構(gòu)知識庫一般由圖書館負(fù)責(zé)管理與維護(hù)。[2]中國科學(xué)院的研究認(rèn)為,機(jī)構(gòu)知識庫是研究機(jī)構(gòu)實(shí)施知識管理的工具,是機(jī)構(gòu)有效管理其知識資產(chǎn)的工具,也是機(jī)構(gòu)知識能力建設(shè)的重要機(jī)制。[3]蘭州大學(xué)的研究認(rèn)為,機(jī)構(gòu)知識庫是一個研究機(jī)構(gòu)收集、保存和傳播數(shù)字形式知識資產(chǎn)的重要媒介。[4]
可見,機(jī)構(gòu)知識庫不僅指技術(shù)基礎(chǔ)設(shè)施(軟件、存儲、服務(wù)形式),也包括與技術(shù)基礎(chǔ)設(shè)施相關(guān)的計劃與資源。機(jī)構(gòu)知識庫一般由高校、科研機(jī)構(gòu)、政府部門等機(jī)構(gòu)創(chuàng)建,其任務(wù)是對數(shù)字資源進(jìn)行收集、管理、保存、訪問和傳播。
機(jī)構(gòu)知識庫的存儲內(nèi)容包括期刊論文、演示報告、軟件、會議論文、學(xué)位論文、研究報告、專著、專利、進(jìn)修報告、會議PPT、預(yù)印本等學(xué)術(shù)成果。如,臺灣學(xué)術(shù)機(jī)構(gòu)典藏系統(tǒng)TAIR存儲內(nèi)容包括教學(xué)資料、學(xué)生作業(yè)、研究計劃等,[5]OpenDOAR收錄的機(jī)構(gòu)知識庫內(nèi)容以期刊論文、碩士博士論文、研究報告與會議論文為主,[6]中國科學(xué)院機(jī)構(gòu)知識庫保存內(nèi)容包括期刊論文、研究報告、學(xué)位論文、文集、專利、會議論文、專著、成果、演示報告與其他。[7]目前,傳統(tǒng)機(jī)構(gòu)知識庫僅存儲科研成果,未對科研成果的支撐數(shù)據(jù)進(jìn)行存儲。
對科研人員而言,機(jī)構(gòu)知識庫便于查找并獲取完整且豐富的學(xué)術(shù)研究資源;對科研成果作者而言,機(jī)構(gòu)知識庫實(shí)現(xiàn)個人產(chǎn)出的知識資產(chǎn)集中管理與保存,提高科研成果能見度,提升作者學(xué)術(shù)影響力與地位;對科研機(jī)構(gòu)而言,機(jī)構(gòu)知識庫集中展示機(jī)構(gòu)學(xué)術(shù)成果,加快學(xué)術(shù)成果傳播,提高機(jī)構(gòu)學(xué)術(shù)影響力;對圖書館而言,機(jī)構(gòu)知識庫擴(kuò)充了圖書館本地特色資源、深化了圖書館對科研與教學(xué)的支持能力、深化了圖書館在機(jī)構(gòu)知識管理中的職責(zé)與作用、擴(kuò)展了圖書館在學(xué)術(shù)交流體系與科教知識基礎(chǔ)設(shè)施的職責(zé)與作用。
目前,國內(nèi)外對數(shù)據(jù)知識庫(Data Repository[8]或Research-Data Repository[9])的定義還未形成統(tǒng)一認(rèn)識,本文的數(shù)據(jù)知識庫指科研數(shù)據(jù)知識庫。
德國網(wǎng)絡(luò)信息計劃(German Initiative for Network Information,DINI)在(2013年開放存取知識庫與發(fā)布服務(wù))報告中將數(shù)據(jù)知識庫定義為:數(shù)據(jù)知識庫是為科研人員提供科研數(shù)據(jù)存檔與呈現(xiàn)的平臺,這些科研數(shù)據(jù)根據(jù)不同學(xué)科而具有不同格式,是研究過程的結(jié)果或基礎(chǔ)。[10]2013年,國際數(shù)據(jù)知識庫注冊系統(tǒng)re3data.org網(wǎng)站將數(shù)據(jù)知識庫定義為:數(shù)據(jù)知識庫是以學(xué)術(shù)性出版物為基礎(chǔ)的科研數(shù)據(jù)長期存儲與訪問的可持續(xù)信息基礎(chǔ)設(shè)施;其中科研數(shù)據(jù)是通過實(shí)驗(yàn)、測量、調(diào)查或訪談等學(xué)術(shù)項(xiàng)目產(chǎn)生的信息對象。[9]2012年,國內(nèi)學(xué)者首次提出“數(shù)據(jù)知識庫”概念。[11]中國科學(xué)院文獻(xiàn)情報中心的研究認(rèn)為,數(shù)據(jù)知識庫不僅是科研數(shù)據(jù)開放共享的基礎(chǔ),更是整個規(guī)范化科研數(shù)據(jù)評價體系的基石,數(shù)據(jù)知識庫的研究重點(diǎn)不僅是信息系統(tǒng)建設(shè),還涉及到數(shù)據(jù)質(zhì)量審核、數(shù)據(jù)成果評估、數(shù)據(jù)發(fā)布的規(guī)范政策。[12]劉峰等認(rèn)為,數(shù)據(jù)知識庫存儲和管理“科研數(shù)據(jù)”(Research Data)、支持科研活動及其知識創(chuàng)造的數(shù)字知識庫,其中科研數(shù)據(jù)是指通過采集、實(shí)驗(yàn)、觀察、整理而形成、用于科研分析并最終形成科研成果的數(shù)字?jǐn)?shù)據(jù)。[13]
綜上:①數(shù)據(jù)知識庫的利益相關(guān)者包括數(shù)據(jù)知識庫的管理人員、數(shù)據(jù)創(chuàng)建者、數(shù)據(jù)用戶、基金委員會、圖書館員、技術(shù)支持人員等;②數(shù)據(jù)知識庫的服務(wù)對象包括數(shù)據(jù)作者、數(shù)據(jù)所有者、數(shù)據(jù)發(fā)布者、數(shù)據(jù)用戶等;[14]③數(shù)據(jù)知識庫的服務(wù)目標(biāo)是為利益相關(guān)者提供數(shù)據(jù)存儲、維護(hù)、共享、訪問、再利用等服務(wù);④數(shù)據(jù)知識庫的作用對象為科研數(shù)據(jù),文章將科研數(shù)據(jù)稱為“數(shù)據(jù)”,包括科研過程產(chǎn)生的數(shù)據(jù)集(調(diào)查數(shù)據(jù)、實(shí)驗(yàn)數(shù)據(jù)、觀察數(shù)據(jù)、仿真數(shù)據(jù)與派生數(shù)據(jù))、科研成果(出版物)、元數(shù)據(jù)(數(shù)據(jù)描述)、數(shù)據(jù)文件(背景文件、操作指南、說明書等)等;⑤數(shù)據(jù)知識庫作為數(shù)據(jù)服務(wù)的基礎(chǔ)設(shè)施,屬于數(shù)字知識庫。[15]
中國科學(xué)院文獻(xiàn)情報中心根據(jù)數(shù)據(jù)知識庫政策,將數(shù)據(jù)知識庫分為通用型數(shù)據(jù)知識庫與專業(yè)型數(shù)據(jù)知識庫兩類。通用型數(shù)據(jù)知識庫面向多學(xué)科,如,人文社科領(lǐng)域中Dryad[16]、figshare[17]等,其中Dryad知識庫[18]是國際科學(xué)與醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)存儲的非盈利性數(shù)據(jù)知識庫,協(xié)助科研人員標(biāo)識、存儲數(shù)據(jù)集,并建立數(shù)據(jù)與論文鏈接。專業(yè)型數(shù)據(jù)知識庫面向特定學(xué)科,如,哈佛大學(xué)的IQSS Dataverse Network[19]、復(fù)旦大學(xué)社會科學(xué)數(shù)據(jù)平臺。[20]
Pampel等在分析re3data.org中400個知識庫的基礎(chǔ)上,根據(jù)數(shù)據(jù)來源將數(shù)據(jù)知識庫分為四種類型:機(jī)構(gòu)數(shù)據(jù)知識庫、學(xué)科數(shù)據(jù)知識庫、多學(xué)科數(shù)據(jù)知識庫、項(xiàng)目數(shù)據(jù)知識庫(見表1)。[21]
表1 數(shù)據(jù)知識庫的分類及其實(shí)例
傳統(tǒng)機(jī)構(gòu)知識庫作為網(wǎng)上文庫或者學(xué)術(shù)文獻(xiàn)知識庫,僅收集與保存終端產(chǎn)品的科研成果,如期刊論文、會議論文、學(xué)位論文、專著、專利、會議PPT、預(yù)印本等學(xué)術(shù)成果,未對學(xué)術(shù)成果的支撐數(shù)據(jù)、實(shí)驗(yàn)數(shù)據(jù)、隱性數(shù)據(jù)、工具、元數(shù)據(jù)以及文檔進(jìn)行保存與維護(hù)。[22]如,康奈爾大學(xué)圖書館的舊機(jī)構(gòu)知識庫DSpace僅存儲科研過程的終端產(chǎn)品,未存儲科研人員在科研進(jìn)程中產(chǎn)生的派生數(shù)據(jù)、實(shí)驗(yàn)數(shù)據(jù)、模擬數(shù)據(jù)等。[23]數(shù)據(jù)知識庫存儲內(nèi)容包括科研成果以及相關(guān)數(shù)據(jù)集(原始數(shù)據(jù)、派生數(shù)據(jù)、重組數(shù)據(jù)等),將機(jī)構(gòu)內(nèi)各種系統(tǒng)、各個團(tuán)隊(duì)、各個成員散存的各類學(xué)術(shù)成果、經(jīng)驗(yàn)、實(shí)驗(yàn)記錄、中間數(shù)據(jù)等進(jìn)行集成、再組織與可視化。Heery等指出,機(jī)構(gòu)知識庫未存儲數(shù)據(jù)集,機(jī)構(gòu)需投資與構(gòu)建數(shù)據(jù)知識庫來彌補(bǔ)機(jī)構(gòu)知識庫數(shù)據(jù)服務(wù)空缺,利用數(shù)據(jù)知識庫存儲與處理數(shù)據(jù)。[24]
可見,傳統(tǒng)機(jī)構(gòu)知識庫數(shù)據(jù)存儲不完整,未對科研成果的支撐材料進(jìn)行保存與共享,而數(shù)據(jù)知識庫彌補(bǔ)了傳統(tǒng)機(jī)構(gòu)知識庫的數(shù)據(jù)服務(wù)空缺。
傳統(tǒng)機(jī)構(gòu)知識庫不支持?jǐn)?shù)據(jù)監(jiān)護(hù),數(shù)據(jù)知識庫支持?jǐn)?shù)據(jù)監(jiān)護(hù)戰(zhàn)略實(shí)施,是基礎(chǔ)設(shè)施與數(shù)據(jù)監(jiān)護(hù)理論方法共同構(gòu)成數(shù)據(jù)服務(wù)的統(tǒng)一體。Shreeves等指出,由于機(jī)構(gòu)知識庫存在低存檔率與不支持?jǐn)?shù)據(jù)監(jiān)護(hù)的問題,未來機(jī)構(gòu)知識庫需提供數(shù)據(jù)監(jiān)護(hù)服務(wù)以促進(jìn)數(shù)據(jù)密集型科學(xué)發(fā)展,約翰霍普金斯大學(xué)、明尼蘇達(dá)大學(xué)、普渡大學(xué)正在構(gòu)建數(shù)據(jù)知識庫來支持?jǐn)?shù)據(jù)監(jiān)護(hù)。[25]
傳統(tǒng)機(jī)構(gòu)知識庫只注重科研成果與部分?jǐn)?shù)據(jù)采集、組織、保存、傳播與統(tǒng)計利用等,不重視數(shù)據(jù)關(guān)聯(lián)、版本控制、數(shù)據(jù)溯源、數(shù)據(jù)使用跟蹤、幫助與支持、教育與培訓(xùn)等。傳統(tǒng)機(jī)構(gòu)知識庫只完成科研項(xiàng)目完成后的成果保存工作,而未涉及到項(xiàng)目立項(xiàng)前數(shù)據(jù)檢索、分析、處理以及項(xiàng)目中期數(shù)據(jù)存儲、再利用情況的跟蹤等。因此,傳統(tǒng)機(jī)構(gòu)知識庫僅相當(dāng)于機(jī)構(gòu)科研成果存儲庫,或者是機(jī)構(gòu)成果管理的簡單平臺,未實(shí)現(xiàn)數(shù)據(jù)監(jiān)護(hù)功能,無法勝任數(shù)據(jù)監(jiān)護(hù)使命。
數(shù)據(jù)知識庫支持?jǐn)?shù)據(jù)密集型學(xué)術(shù)研究,為科研人員提供科研交流、咨詢、協(xié)助、合作、培訓(xùn)、數(shù)據(jù)共享等服務(wù)。數(shù)據(jù)知識庫的數(shù)據(jù)監(jiān)護(hù)服務(wù)將數(shù)據(jù)知識庫、數(shù)據(jù)監(jiān)護(hù)、科研活動三者緊密聯(lián)系在一起,建立了集數(shù)據(jù)知識庫、數(shù)據(jù)監(jiān)護(hù)、科研活動于一體的新型管理與服務(wù)模式。數(shù)據(jù)知識庫提供的服務(wù)包括:項(xiàng)目前期提供數(shù)據(jù)檢索、數(shù)據(jù)管理計劃模板、研究方法咨詢等服務(wù);項(xiàng)目中期提供數(shù)據(jù)收集工具、數(shù)據(jù)分析工具、數(shù)據(jù)實(shí)驗(yàn)室等服務(wù);項(xiàng)目后期提供數(shù)據(jù)保存服務(wù)。因此,數(shù)據(jù)知識庫承擔(dān)全部數(shù)據(jù)監(jiān)護(hù)工作,有利于規(guī)避數(shù)據(jù)丟失風(fēng)險,持續(xù)維護(hù)數(shù)據(jù)再利用價值。
傳統(tǒng)機(jī)構(gòu)知識庫只涉及科研成果的保存與管理,未提供嵌入式科研流程服務(wù),不參與科研人員的科研過程活動,而數(shù)據(jù)知識庫服務(wù)于科研項(xiàng)目的全生命周期。Choudhury指出,傳統(tǒng)機(jī)構(gòu)知識庫未提供嵌入式科學(xué)研究數(shù)據(jù)服務(wù),新型數(shù)字知識庫提供了惠及整個科研流程的數(shù)據(jù)服務(wù)。[26]
傳統(tǒng)機(jī)構(gòu)知識庫作為終端產(chǎn)品存儲平臺未提供數(shù)據(jù)描述、分析、發(fā)現(xiàn)、維護(hù)、增值等服務(wù),未提供數(shù)據(jù)管理政策、模板、工具、教育培訓(xùn)、咨詢與幫助等服務(wù),導(dǎo)致科研流程與科研數(shù)據(jù)分離,科研人員按照個人習(xí)慣將數(shù)據(jù)存儲在個人電腦中,無法實(shí)現(xiàn)數(shù)據(jù)長期有效再利用,并易產(chǎn)生數(shù)據(jù)丟失問題。
數(shù)據(jù)知識庫是圍繞科研流程展開的全生命周期服務(wù)活動,包括立項(xiàng)前研究調(diào)查與規(guī)劃服務(wù)、項(xiàng)目進(jìn)展中數(shù)據(jù)收集與分析服務(wù)、項(xiàng)目結(jié)題后數(shù)據(jù)保存服務(wù)。國外部分?jǐn)?shù)據(jù)知識庫提供高質(zhì)量嵌入式科研流程服務(wù)。普渡大學(xué)數(shù)據(jù)知識庫(Purdue University Research Repository,PURR)提供在線協(xié)同工作空間與數(shù)據(jù)共享平臺以支持普渡大學(xué)科研人員與其他合作者的數(shù)據(jù)管理需求,協(xié)助科研人員創(chuàng)建數(shù)據(jù)管理計劃、上傳數(shù)據(jù)與發(fā)布數(shù)據(jù);[27]萊布尼茲社會科學(xué)研究所GESIS數(shù)據(jù)知識庫為科研人員提供整個數(shù)據(jù)生命周期的嵌入式科研流程服務(wù),其具體流程服務(wù)包括數(shù)據(jù)檢索服務(wù)、研究計劃咨詢服務(wù)、數(shù)據(jù)收集服務(wù)、數(shù)據(jù)分析服務(wù)、數(shù)據(jù)注冊與存檔服務(wù)。[28]
綜上,數(shù)據(jù)知識庫與傳統(tǒng)機(jī)構(gòu)知識庫在存儲內(nèi)容、服務(wù)目標(biāo)、嵌入式數(shù)據(jù)服務(wù)與數(shù)據(jù)監(jiān)護(hù)方面存在差異(見表2)。數(shù)據(jù)知識庫的產(chǎn)生彌補(bǔ)了機(jī)構(gòu)知識庫的不足,但機(jī)構(gòu)知識庫仍具有其作用與價值,數(shù)據(jù)知識庫無法替代機(jī)構(gòu)知識庫的作用與價值。
傳統(tǒng)機(jī)構(gòu)知識庫對規(guī)模大且復(fù)雜度大的數(shù)據(jù)集存在管理難度,不具備小數(shù)據(jù)所有權(quán)管理政策與標(biāo)準(zhǔn),而科研人員具有數(shù)據(jù)與文獻(xiàn)發(fā)布、數(shù)據(jù)溯源展現(xiàn)以及數(shù)據(jù)再利用跟蹤等服務(wù)需求。根據(jù)國外高?;蚩蒲袡C(jī)構(gòu)的數(shù)據(jù)服務(wù)實(shí)踐,可通過升級與優(yōu)化傳統(tǒng)機(jī)構(gòu)知識庫服務(wù)功能(如明尼蘇達(dá)大學(xué)UDC、康奈爾大學(xué)eCommons)與構(gòu)建數(shù)據(jù)知識庫(如伊利諾伊大學(xué)厄巴納香檳分校Illinois Data Bank、密歇根大學(xué)Deep Blue Data、普渡大學(xué)PURR)兩種方式來實(shí)現(xiàn)數(shù)據(jù)長期保存與共享。
新型機(jī)構(gòu)知識庫對傳統(tǒng)機(jī)構(gòu)知識庫的數(shù)據(jù)保存與使用政策、國際標(biāo)準(zhǔn)與慣例、模型與工具、小數(shù)據(jù)管理機(jī)制、數(shù)據(jù)處理能力等方面進(jìn)行升級與優(yōu)化,保障機(jī)構(gòu)知識庫適應(yīng)數(shù)據(jù)密集型科學(xué)發(fā)展要求。高校與科研機(jī)構(gòu)對傳統(tǒng)機(jī)構(gòu)知識庫升級與優(yōu)化后,不僅可存儲科研成果,還能存儲科研成果相關(guān)的原始數(shù)據(jù)與派生數(shù)據(jù)。Ball認(rèn)為,機(jī)構(gòu)知識庫承擔(dān)著機(jī)構(gòu)數(shù)字成果的監(jiān)護(hù)角色,需要具體政策和工具來保存和監(jiān)護(hù)機(jī)構(gòu)數(shù)字成果;[29]Choudhury建議機(jī)構(gòu)知識庫提供嵌入式科研流程的數(shù)據(jù)服務(wù),并對其已有數(shù)據(jù)文件或數(shù)據(jù)記錄(包含多個相關(guān)文件)所有權(quán)進(jìn)行跟蹤服務(wù)。[26]如明尼蘇達(dá)大學(xué)Digital Conservancy[30]、康奈爾大學(xué)eCommons[31]、賓夕法尼亞大學(xué)ScholarSphere[32]、華盛頓大學(xué)Open Scholarship[33]等都是在傳統(tǒng)機(jī)構(gòu)知識庫的基礎(chǔ)上升級與優(yōu)化,收集、存儲與共享多學(xué)科的科研成果與相關(guān)數(shù)據(jù)集。[34]
(1)明尼蘇達(dá)大學(xué)機(jī)構(gòu)知識庫(University Digital Conservancy,UDC)[30]長期保存與提供免費(fèi)公開訪問大學(xué)數(shù)字資源,數(shù)字資源包括教師開放存取學(xué)術(shù)作品的副本、優(yōu)秀學(xué)生作品(如學(xué)位論文與獲獎?wù)撐牡龋⒋髮W(xué)數(shù)字記錄(如檔案館數(shù)字記錄)以及數(shù)據(jù)。2015年,構(gòu)建明尼蘇達(dá)大學(xué)數(shù)據(jù)知識庫(Data Repository for the University of Minnesota,DRUM),其屬于UDC子集,具有自定義元數(shù)據(jù)模式與提交工作流的功能,收集并公開明尼蘇達(dá)大學(xué)科研人員、學(xué)生與教職工產(chǎn)生的數(shù)據(jù),世界各地分散科研人員通過數(shù)據(jù)知識庫平臺檢索與下載數(shù)據(jù)。[35,36]該數(shù)據(jù)知識庫為用戶提供靈活數(shù)據(jù)訪問方式,滿足基金組織對數(shù)據(jù)共享與保存方面要求,保障數(shù)據(jù)長期保存與最大化再利用。
(2)康奈爾大學(xué)階段型數(shù)據(jù)知識庫(Data Staging Repository,DataStaR)的嵌入式科研流程服務(wù)超越了傳統(tǒng)機(jī)構(gòu)知識庫的終端服務(wù),融合了機(jī)構(gòu)知識庫和學(xué)科庫的功能。[37]DataStaR由平臺與服務(wù)構(gòu)成,服務(wù)是指在科研人員控制下實(shí)現(xiàn)跨機(jī)構(gòu)庫數(shù)據(jù)處理、存儲、共享與發(fā)布等服務(wù),平臺是為科研人員提供科研數(shù)據(jù)的在線臨時存儲庫。[38]階段型數(shù)據(jù)知識庫DataStaR的數(shù)據(jù)可轉(zhuǎn)移到長期保存的機(jī)構(gòu)知識庫eCommons中。eCommons創(chuàng)建于2002年,用于保存教職工以及學(xué)生學(xué)術(shù)成果以相關(guān)數(shù)據(jù)集,免費(fèi)提供校內(nèi)產(chǎn)生的、具有持久價值的數(shù)字內(nèi)容長期訪問。
數(shù)據(jù)知識庫承擔(dān)數(shù)據(jù)服務(wù)工作,機(jī)構(gòu)知識庫承擔(dān)科研與教學(xué)成果長期保存任務(wù),且二者存儲內(nèi)容相互關(guān)聯(lián),共同為世界各地科研人員提供知識服務(wù)。如,北京大學(xué)的開放研究數(shù)據(jù)服務(wù)平臺(PKU-OpenData)為科研人員提供數(shù)據(jù)存儲、發(fā)布、管理、共享與再利用等服務(wù),為數(shù)據(jù)用戶提供數(shù)據(jù)瀏覽、檢索、在線分析與下載功能,促進(jìn)數(shù)據(jù)傳播、發(fā)現(xiàn)、再利用與規(guī)范引用。其數(shù)據(jù)知識庫平臺的數(shù)據(jù)與北京大學(xué)機(jī)構(gòu)知識庫的期刊論文、會議論文、學(xué)位論文、報紙、報告、專著、專利等研究成果建立關(guān)聯(lián)。[39]
(1)2016年,密歇根大學(xué)圖書館機(jī)構(gòu)知識庫Deep Blue[40]與數(shù)據(jù)知識庫Deep Blue Data[41]共同提供知識服務(wù),旨在廣泛傳播密歇根大學(xué)社區(qū)在科研、教學(xué)和創(chuàng)新方面的知識貢獻(xiàn),并確保其長期有效。Deep Blue Data提供數(shù)據(jù)保存與訪問服務(wù),其數(shù)據(jù)來源于機(jī)構(gòu)科研、教學(xué)、與學(xué)習(xí)活動中。作為密歇根大學(xué)產(chǎn)生數(shù)據(jù)存儲與共享平臺,Deep Blue Data提升了數(shù)據(jù)的再利用價值,滿足了利益相關(guān)者關(guān)于數(shù)據(jù)存儲與共享的要求。[41]
(2)伊利諾伊大學(xué)厄巴納香檳分校(University of Illinois at Urbana-Champaign,UIUC)機(jī)構(gòu)知識庫(The Illinois Digital Environment for Access to Learning and Scholarship,IDEALS)[42]與數(shù)據(jù)知識庫Illinois Data Bank在機(jī)構(gòu)數(shù)字資產(chǎn)存儲、維護(hù)與共享發(fā)揮不同作用與價值,共同為本機(jī)構(gòu)數(shù)字資產(chǎn)提供長期保存服務(wù)。[43]IDEALS收集與傳播教師、科研人員及研究生的學(xué)術(shù)成果,并提供持續(xù)可靠的訪問,其學(xué)術(shù)成果包括工作文件、技術(shù)報告、專題論文和學(xué)位論文、演示文稿以及小型數(shù)據(jù)集。Illinois Data Bank的使命是整合、存儲與維護(hù)由教師、科研人員和研究生自愿創(chuàng)建與發(fā)布數(shù)據(jù),并提供持續(xù)可靠訪問數(shù)據(jù),其數(shù)據(jù)來源于伊利諾伊大學(xué)厄巴納香檳分校的科研項(xiàng)目。[44]Illinois Data Bank的數(shù)據(jù)與IDEALS相關(guān)成果(如期刊文章、源代碼或存放在別處數(shù)據(jù))建立動態(tài)關(guān)聯(lián),平臺符合基金委員會與出版商對數(shù)據(jù)存檔要求,保障數(shù)據(jù)持久和持續(xù)訪問,滿足世界各地科研人員的數(shù)據(jù)服務(wù)需求。
(3)2008年,普渡大學(xué)圖書館提出了分布式環(huán)境的機(jī)構(gòu)知識庫支持?jǐn)?shù)據(jù)監(jiān)護(hù)的論點(diǎn)。[45]普渡大學(xué)分布式數(shù)據(jù)監(jiān)護(hù)中心(D2C2)包括三個并行數(shù)字知識庫:電子檔案知識庫e-Archives、數(shù)字文檔知識庫Purduee-Pubs以及數(shù)據(jù)知識庫PURR,三個并行數(shù)字知識庫實(shí)現(xiàn)了分布式研究、分布式數(shù)據(jù)、分布式方法的不同解決方案。[46]e-Archives服務(wù)于數(shù)字化檔案與特色館藏,科研人員不受地理、背景與研究興趣限制自由訪問其集合;Purdue e-Pubs存儲普渡大學(xué)作者的電子書、論文、報告等;PURR以HUBzero軟件為平臺,用于存儲表格、傳感器與儀器輸出、軟件源代碼與仿真、圖像、視頻、音頻、觀察日志、訪談記錄、調(diào)查工具與結(jié)果等數(shù)據(jù),提供在線的協(xié)同工作空間與數(shù)據(jù)共享平臺以支持普渡大學(xué)科研人員與其合作者的數(shù)據(jù)監(jiān)護(hù)需求,協(xié)助科研人員創(chuàng)建虛擬科研環(huán)境與數(shù)據(jù)管理計劃、上傳數(shù)據(jù)與發(fā)布數(shù)據(jù)等。[47,48]e-Archives與Purduee-Pubs不支持?jǐn)?shù)據(jù)監(jiān)護(hù)服務(wù),PURR支持?jǐn)?shù)據(jù)密集型科學(xué)的學(xué)術(shù)交流與開放存取,支持嵌入式科研流程服務(wù)。
目前,國內(nèi)機(jī)構(gòu)知識庫無法保障數(shù)據(jù)長期保存與共享,同時數(shù)據(jù)知識庫數(shù)量少且質(zhì)量不高,很難滿足科研人員數(shù)據(jù)服務(wù)需求。為了構(gòu)建有助于數(shù)據(jù)密集型科學(xué)發(fā)展的數(shù)據(jù)監(jiān)護(hù)平臺,國內(nèi)高校與科研機(jī)構(gòu)迫切需要優(yōu)化傳統(tǒng)機(jī)構(gòu)知識庫的數(shù)據(jù)處理功能或構(gòu)建數(shù)據(jù)知識庫聯(lián)盟,并完善其數(shù)據(jù)監(jiān)護(hù)功能。筆者將進(jìn)一步研究國內(nèi)數(shù)據(jù)知識庫的數(shù)據(jù)監(jiān)護(hù)功能,如,可持續(xù)性、透明度、數(shù)據(jù)知識庫聯(lián)盟、嵌入式科研流程服務(wù)、訪問管理、平臺功能、在線處理、互操作、數(shù)據(jù)監(jiān)護(hù)人員協(xié)同工作等。