黃鑫+鄧仲華
(1.武漢大學(xué)信息管理學(xué)院 湖北武漢 430072)
摘 要:文章使用文獻調(diào)研法,介紹了元數(shù)據(jù)服務(wù)研究現(xiàn)狀,總結(jié)了元數(shù)據(jù)在科學(xué)數(shù)據(jù)管理中的多方面應(yīng)用。同時以部分歐美高校圖書館為例,從元數(shù)據(jù)的介紹服務(wù)、創(chuàng)建服務(wù)、咨詢服務(wù)和培訓(xùn)服務(wù)四個角度探討了國外高校圖書館科學(xué)數(shù)據(jù)的元數(shù)據(jù)服務(wù)內(nèi)容。
關(guān)鍵字:科學(xué)數(shù)據(jù);科學(xué)數(shù)據(jù)服務(wù);元數(shù)據(jù);元數(shù)據(jù)服務(wù)
中圖分類號:G254.364 文獻標(biāo)識碼:A DOI:10.11968/tsyqb.1003-6938.2017034
隨著數(shù)據(jù)密集型科研范式的興起,科學(xué)數(shù)據(jù)逐漸成為科研活動的中心,科學(xué)數(shù)據(jù)的采集、分析、存儲、共享和可視化開始成為科研活動的主題,科研成果的發(fā)現(xiàn)對科學(xué)數(shù)據(jù)的分析和計算也越來越依賴。元數(shù)據(jù)作為用于描述科學(xué)數(shù)據(jù)的數(shù)據(jù),在科學(xué)數(shù)據(jù)的組織、存儲、監(jiān)護、檢索、引用、出版等環(huán)節(jié)中都起到了至關(guān)重要的作用。高質(zhì)量的元數(shù)據(jù)服務(wù)對于推進科研活動進程、加速科研成果產(chǎn)出具有重要意義,然而現(xiàn)有的科研工作者并不擅長創(chuàng)建元數(shù)據(jù)[1],圖書館作為傳統(tǒng)科研支持與服務(wù)機構(gòu),積極開展科學(xué)數(shù)據(jù)的元數(shù)據(jù)服務(wù)極具必要性,如何面向科研人員的數(shù)據(jù)管理需求來開展元數(shù)據(jù)服務(wù),開展什么內(nèi)容的元數(shù)據(jù)服務(wù)是高校圖書館所需要思考的問題。
1 高校圖書館科學(xué)數(shù)據(jù)的元數(shù)據(jù)服務(wù)研究現(xiàn)狀
Tenopir[1]在針對科研工作者的一項問卷調(diào)查研究中發(fā)現(xiàn):(1)59.8%的受訪科研工作者對自己的科研數(shù)據(jù)描述情況非常滿意或比較滿意;(2)26%受訪者對于自己所使用的元數(shù)據(jù)創(chuàng)建工具表示滿意,32%的受訪者則表示不滿意;(3)在元數(shù)據(jù)標(biāo)準(zhǔn)方面,56%的受訪者表示他們不了解什么是元數(shù)據(jù)標(biāo)準(zhǔn),22%的受訪者表示他們習(xí)慣于使用自己實驗室的元數(shù)據(jù)標(biāo)準(zhǔn),該調(diào)查說明科研工作者并不十分擅長元數(shù)據(jù)的創(chuàng)建工作。2012年,Tenopir[2]再次對美國和加拿大地區(qū)的351所大學(xué)圖書館科學(xué)數(shù)據(jù)服務(wù)情況進行問卷調(diào)查,發(fā)現(xiàn)有11.9%的受訪圖書館已經(jīng)提供科學(xué)數(shù)據(jù)的元數(shù)據(jù)創(chuàng)建和轉(zhuǎn)換服務(wù),3.7%、10.1%和8.3%的受訪圖書館計劃在未來一年內(nèi)、兩年內(nèi)和兩年后提供元數(shù)據(jù)的創(chuàng)建和轉(zhuǎn)換服務(wù),66.1%的圖書館暫時沒有相關(guān)的計劃,另外,研究型大學(xué)相比于本科學(xué)位授予大學(xué)和職業(yè)大學(xué)的圖書館更傾向于開通元數(shù)據(jù)創(chuàng)建服務(wù);受到NSF更多資助的大學(xué)圖書館更傾向于開通元數(shù)據(jù)的創(chuàng)建服務(wù);擁有多于5000名學(xué)生的學(xué)校相比于人數(shù)少于5000人的學(xué)校更傾向于開通元數(shù)據(jù)的創(chuàng)建服務(wù)。Si[3]在對USA News排位世界前100名大學(xué)圖書館科學(xué)數(shù)據(jù)服務(wù)的調(diào)查研究中發(fā)現(xiàn),28.7%的高校圖書館已經(jīng)開始提供科學(xué)數(shù)據(jù)的元數(shù)據(jù)相關(guān)服務(wù),涉及元數(shù)據(jù)的介紹和創(chuàng)建等方面。康奈爾大學(xué)科學(xué)數(shù)據(jù)管理服務(wù)團隊RDMSG調(diào)查了一些受到NSF資助的科研工作者[4],結(jié)果顯示:(1)40%的受訪科研工作者曾經(jīng)為自己的科學(xué)數(shù)據(jù)創(chuàng)建元數(shù)據(jù),26%的受訪科研人員從不創(chuàng)建元數(shù)據(jù),32%的受訪者則表示不確定;(2)僅有10%的受訪者習(xí)慣按照一定的標(biāo)準(zhǔn)來創(chuàng)建元數(shù)據(jù),9%的受訪者從未按照標(biāo)準(zhǔn)來創(chuàng)建元數(shù)據(jù),61%的受訪者則表示不確定;(3)一些受訪者會評論,說“我不知道什么是元數(shù)據(jù)”,這說明圖書館開展元數(shù)據(jù)介紹服務(wù)具有必要性。黃如花[5]調(diào)查了美國部分高校圖書館科學(xué)數(shù)據(jù)的元數(shù)據(jù)實踐情況,從科學(xué)數(shù)據(jù)管理周期的角度分析了圖書館在科學(xué)數(shù)據(jù)計劃階段的元數(shù)據(jù)標(biāo)準(zhǔn)和元素推薦服務(wù)、科學(xué)數(shù)據(jù)描述與組織階段的元數(shù)據(jù)標(biāo)準(zhǔn)選擇服務(wù)和科學(xué)數(shù)據(jù)存儲階段的數(shù)據(jù)文檔命名與格式規(guī)范服務(wù)。由研究現(xiàn)狀可發(fā)現(xiàn),現(xiàn)有高校圖書館對科學(xué)數(shù)據(jù)的元數(shù)據(jù)服務(wù)主要集中于實地調(diào)查研究,調(diào)查重點是科研人員使用元數(shù)據(jù)的習(xí)慣和技能程度,而對高??茖W(xué)數(shù)據(jù)的元數(shù)據(jù)服務(wù)的具體內(nèi)容、服務(wù)原則、服務(wù)方式等缺乏細致的總結(jié)與歸納。
2 元數(shù)據(jù)在科學(xué)數(shù)據(jù)管理中的應(yīng)用
2.1 科學(xué)數(shù)據(jù)管理計劃中的元數(shù)據(jù)
自2011年開始,美國國家科學(xué)基金會NSF要求科研項目申請材料中必須包含科學(xué)數(shù)據(jù)管理計劃DMP,而元數(shù)據(jù)方案是數(shù)據(jù)管理計劃的核心組成部分之一,項目申請者必須提交元數(shù)據(jù)的內(nèi)容、格式和標(biāo)準(zhǔn)[6]。英國生物技術(shù)與生物科學(xué)理事會BBSRC同樣要求基金申請者提交個人的科學(xué)數(shù)據(jù)共享計劃,其中包括元數(shù)據(jù)的格式和標(biāo)準(zhǔn),如數(shù)據(jù)的來源或操作過程,以防止數(shù)據(jù)被誤用,誤解或混淆[7]。英國醫(yī)學(xué)研究理事會MRC發(fā)布了數(shù)據(jù)管理計劃的導(dǎo)航文件,要求基金申請者提交數(shù)據(jù)生成的方法、分析過程、來源、編碼、變量等元數(shù)據(jù)內(nèi)容[8]。另外,受到耶魯大學(xué)[9]、麻省理工大學(xué)[10]、明尼蘇達大學(xué)[11]等高校推薦的數(shù)據(jù)管理計劃制定工具DMPTools也可以幫助科研人員創(chuàng)建元數(shù)據(jù)。
2.2 科學(xué)數(shù)據(jù)存儲中的元數(shù)據(jù)
在科研人員計劃將科學(xué)數(shù)據(jù)存儲至機構(gòu)倉儲中時,需要為科學(xué)數(shù)據(jù)創(chuàng)建元數(shù)據(jù),以增加數(shù)據(jù)的組織效率和被發(fā)現(xiàn)幾率,也可用于數(shù)據(jù)的遷移和轉(zhuǎn)換,數(shù)據(jù)標(biāo)題、關(guān)鍵詞、創(chuàng)建者、數(shù)據(jù)類型、來源和出處等是常見的元數(shù)據(jù)項。如普渡大學(xué)PURR數(shù)據(jù)倉儲有一套較為完善的元數(shù)據(jù)生成工作流[12],提交給PURR的每個數(shù)據(jù)集都會獲得完整的元數(shù)據(jù),一部分元數(shù)據(jù)由提交數(shù)據(jù)的科研人員來創(chuàng)建,另一部分則由系統(tǒng)根據(jù)數(shù)據(jù)集特征自動識別并插入。PURR融合了多個元數(shù)據(jù)標(biāo)準(zhǔn),以便充分描述更多類型的數(shù)據(jù)集,都柏林核心被用于數(shù)據(jù)發(fā)現(xiàn)和引用,METS標(biāo)準(zhǔn)用來表示數(shù)據(jù)集文件的結(jié)構(gòu)和層次,MODS標(biāo)準(zhǔn)被用于標(biāo)注數(shù)據(jù)集的創(chuàng)建者和訪問權(quán)限,PREMIS標(biāo)準(zhǔn)則用來記錄每個數(shù)據(jù)集經(jīng)歷的保存事件和知識產(chǎn)權(quán)。
2.3 科學(xué)數(shù)據(jù)檢索中的元數(shù)據(jù)
元數(shù)據(jù)是數(shù)據(jù)檢索的核心,用戶需要向搜索引擎或服務(wù)館員提交數(shù)據(jù)主題、題名、創(chuàng)作者、關(guān)鍵詞等項目來獲取所需科學(xué)數(shù)據(jù)?,F(xiàn)在,元數(shù)據(jù)還被用于科學(xué)數(shù)據(jù)與科研文獻之間的關(guān)聯(lián),通過對科學(xué)數(shù)據(jù)和科學(xué)文獻添加數(shù)字對象唯一標(biāo)識符DOI,可以有效的實現(xiàn)數(shù)據(jù)與文獻之間的關(guān)聯(lián),用戶可以在閱讀科學(xué)文獻時查看相關(guān)科學(xué)數(shù)據(jù),也可以檢索引用相關(guān)科學(xué)數(shù)據(jù)的科學(xué)文獻。
2.4 科學(xué)數(shù)據(jù)監(jiān)護中的元數(shù)據(jù)
元數(shù)據(jù)是數(shù)據(jù)監(jiān)護的支柱,沒有元數(shù)據(jù)的數(shù)據(jù)資源將不能被恢復(fù),不能被識別,也將變得不可用[13]。DCC發(fā)布的數(shù)據(jù)監(jiān)護生命周期模型在其內(nèi)環(huán)中強調(diào)了元數(shù)據(jù)作為“描述信息(Description)”和“表示信息(Representation)”的重要作用[14],在該數(shù)據(jù)監(jiān)護生命周期模型中,與元數(shù)據(jù)相關(guān)的活動包括:(1)為數(shù)據(jù)集分配管理性元數(shù)據(jù)、描述性元數(shù)據(jù)、技術(shù)性元數(shù)據(jù)、結(jié)構(gòu)性元數(shù)據(jù)和保存元數(shù)據(jù);(2)采用適當(dāng)?shù)脑獢?shù)據(jù)標(biāo)準(zhǔn)以確保數(shù)據(jù)被長期合理的描述與控制;(3)收集數(shù)據(jù)表示信息,以充分理解數(shù)字資料和相關(guān)元數(shù)據(jù)。
2.5 科學(xué)數(shù)據(jù)引用中的元數(shù)據(jù)
科學(xué)數(shù)據(jù)引用領(lǐng)域經(jīng)常采用一些被廣泛使用的元數(shù)據(jù)標(biāo)準(zhǔn),元數(shù)據(jù)標(biāo)準(zhǔn)的實施可以有效減輕數(shù)據(jù)互操作過程中的冗余,增強數(shù)據(jù)采集、認證和質(zhì)量控制過程的自動化,這對于數(shù)據(jù)發(fā)現(xiàn)、復(fù)用和增值具有重要意義。另外,元數(shù)據(jù)標(biāo)準(zhǔn)還可以從知識產(chǎn)權(quán)的角度界定科學(xué)數(shù)據(jù)的使用權(quán)限。大英圖書館、德國國家圖書館等20多個國家的數(shù)據(jù)中心、圖書館、政府和科研機構(gòu)聯(lián)合創(chuàng)立了DataCite科學(xué)數(shù)據(jù)引用組織[15],旨在推進數(shù)據(jù)引用規(guī)范化,通過完善的元數(shù)據(jù)體系來幫助用戶查找想要的科學(xué)數(shù)據(jù)是其提供的重要服務(wù),它所發(fā)布的 “DataCite Metadata Schema”系列文檔為科研用戶推薦了一些核心元數(shù)據(jù)元素和使用規(guī)則[16],如將數(shù)據(jù)標(biāo)識符、創(chuàng)作者、標(biāo)題、出版者、出版年份、資源類型作為必選元數(shù)據(jù),數(shù)據(jù)主題、貢獻者、日期、語言、相關(guān)標(biāo)識符、大小、格式、版本號、權(quán)利、地理位置、描述和基金情況作為備選元數(shù)據(jù)。
3 高校圖書館科學(xué)數(shù)據(jù)的元數(shù)據(jù)服務(wù)內(nèi)容
本文選取哈佛大學(xué)圖書館、麻省理工大學(xué)圖書館、康奈爾大學(xué)圖書館、伊利諾伊大學(xué)圖書館、北卡羅來納大學(xué)圖書館、明尼蘇達大學(xué)圖書館、愛丁堡大學(xué)圖書館和緬恩大學(xué)圖書館為調(diào)查對象,原因如下:(1)它們都是在科學(xué)數(shù)據(jù)管理與服務(wù)方面發(fā)展最快、建設(shè)程度最高并位于前列的歐美科研型大學(xué),大多都屬于美國USA News排名世界前100位的大學(xué);(2)它們都屬于英國數(shù)據(jù)監(jiān)護中心(Digital Curation Center,DCC)所認證的擁有科學(xué)數(shù)據(jù)管理和監(jiān)護相關(guān)培訓(xùn)能力的歐美高校與獨立科研院所;(3)它們同樣屬于Tenopir[1]和Si[3]的調(diào)查對象。本文將從元數(shù)據(jù)介紹服務(wù)、元數(shù)據(jù)創(chuàng)建服務(wù)、元數(shù)據(jù)咨詢服務(wù)和元數(shù)據(jù)培訓(xùn)服務(wù)四個方面來研究高校圖書館科學(xué)數(shù)據(jù)的元數(shù)據(jù)服務(wù)內(nèi)容(見表1)。
3.1 元數(shù)據(jù)介紹服務(wù)
大多數(shù)科研人員在進行科學(xué)數(shù)據(jù)的存儲準(zhǔn)備工作時,并不十分重視元數(shù)據(jù)的創(chuàng)建問題。在2012年的圖書館與信息資源會議CLIR上[17],一系列的調(diào)查研究發(fā)現(xiàn):“元數(shù)據(jù)和數(shù)據(jù)描述文檔只有能夠幫助科研人員完成科研任務(wù)或產(chǎn)生學(xué)術(shù)論文時才會受到科研人員重視,在一個科研項目結(jié)束后,為數(shù)據(jù)集增添合適的元數(shù)據(jù)會耗費科研人員更多的時間與精力,他們更愿意把時間花在科研成果的出版上,而不是元數(shù)據(jù)的增添以及數(shù)據(jù)的長期存儲與監(jiān)護上”。針對這個問題,部分高校圖書館會在其主頁上通過解答問題的方式向科研人員介紹元數(shù)據(jù)的重要性,也有一部分高校將元數(shù)據(jù)的介紹服務(wù)置于數(shù)據(jù)管理計劃DMP的介紹文檔之中。如華盛頓大學(xué)圖書館[18]在主頁中列出了“什么是元數(shù)據(jù)?”“我們?yōu)槭裁匆私庠獢?shù)據(jù)?”“元數(shù)據(jù)的國際標(biāo)準(zhǔn)有哪些?”等介紹性問題并做出了詳細的解答。明尼蘇達大學(xué)圖書館[19]主頁的“data documentation and metadata”導(dǎo)航中列出了“Who”、“What”、“When”、“Where”、“Why”五個基本元數(shù)據(jù)示例。普林斯頓大學(xué)[20]、波士頓大學(xué)[21]則同樣在其圖書館主頁介紹了元數(shù)據(jù)的概念、基礎(chǔ)元數(shù)據(jù)項、國際通用元數(shù)據(jù)標(biāo)準(zhǔn)等問題。
3.2 科學(xué)數(shù)據(jù)的元數(shù)據(jù)創(chuàng)建服務(wù)
在將個人科學(xué)數(shù)據(jù)存儲到圖書館機構(gòu)知識庫的過程中,科研人員需要元數(shù)據(jù)創(chuàng)建方面的幫助,而圖書館也已經(jīng)比較擅長為科研人員提供元數(shù)據(jù)的創(chuàng)建服務(wù)。根據(jù)Markey[22]對美國各大機構(gòu)知識庫的調(diào)查中發(fā)現(xiàn):“科研人員普遍沒有能力制定高質(zhì)量的元數(shù)據(jù)”,另外,有74.2%的受訪者認為:在將個人科學(xué)數(shù)據(jù)遷移到機構(gòu)知識庫的過程中,機構(gòu)知識庫“提供更好的元數(shù)據(jù)創(chuàng)建服務(wù)”是一項非常重要的因素。圖書館提供科學(xué)數(shù)據(jù)的元數(shù)據(jù)創(chuàng)建服務(wù)主要有四種形式:
(1)發(fā)布指導(dǎo)性文檔的服務(wù)形式。密歇根大學(xué)的政治與社會科學(xué)校際研究聯(lián)盟ICPSR[23]在其社會科學(xué)數(shù)據(jù)存儲導(dǎo)航文檔中設(shè)置了一個標(biāo)題為“best practice in creating metadata”的文檔,其鼓勵科研用戶使用Data Documentation Intiative (DDI)元數(shù)據(jù)規(guī)范來創(chuàng)建元數(shù)據(jù),并設(shè)置了首席研究員、標(biāo)題、資金來源、數(shù)據(jù)生產(chǎn)者、項目描述、加權(quán)、數(shù)據(jù)源、變量等十多個元數(shù)據(jù)項目,旨在引導(dǎo)科研人員為自己的社會科學(xué)數(shù)據(jù)創(chuàng)建合適的元數(shù)據(jù)。麻省理工大學(xué)圖書館[24]在元數(shù)據(jù)指導(dǎo)文檔中列舉了科研人員在創(chuàng)建數(shù)據(jù)時需要執(zhí)行的重要操作:①記錄與項目相關(guān)的所有文件名和格式、數(shù)據(jù)組織方式、生成數(shù)據(jù)的硬件設(shè)備和軟件工具,以及數(shù)據(jù)更改或處理的信息;②數(shù)據(jù)命名結(jié)構(gòu)中使用的代碼、縮寫或變量的說明;③記錄數(shù)據(jù)獲取的位置,以使其更容易被檢索。并在“Things to document your data”目錄下推薦了數(shù)據(jù)標(biāo)題、創(chuàng)作者、標(biāo)識符、日期、主題、資助者、權(quán)利、語言、位置和方法等元數(shù)據(jù)元素。伊利諾伊大學(xué)圖書館[25]發(fā)布的“Illinois Data Bank Metadata Documentation”文檔詳細介紹了伊利諾伊大學(xué)圖書館數(shù)據(jù)倉儲所使用的元數(shù)據(jù)條目,并針對倉儲內(nèi)的科學(xué)數(shù)據(jù)資源設(shè)計了一組專用屬性,科研人員需按照已公布的元數(shù)據(jù)條目和屬性來上傳數(shù)據(jù)。另外,它還將數(shù)據(jù)倉儲元數(shù)據(jù)和數(shù)據(jù)引用元數(shù)據(jù)之間形成映射,向科研人員提供科學(xué)數(shù)據(jù)的出版和引用服務(wù)。
(2)自我提交表格的服務(wù)形式。高校圖書館的科學(xué)數(shù)據(jù)存儲服務(wù)經(jīng)常由一個自我提交的表格開始,通過下拉菜單或軟件工具來實現(xiàn),這些自我提交的表格是根據(jù)科研用戶的需求,圍繞著元數(shù)據(jù)標(biāo)準(zhǔn)體系設(shè)計的。哈佛大學(xué)的數(shù)量科學(xué)研究所IQSS所開發(fā)的Dataverse項目[26]是一個集數(shù)據(jù)共享、出版和檢索功能于一身的開源應(yīng)用,科研用戶可以創(chuàng)建自己的獨立數(shù)據(jù)空間并上傳數(shù)據(jù),Dataverse可使上傳的數(shù)據(jù)更容易被其他科研人員或科研機構(gòu)發(fā)現(xiàn),從而擴大用戶的學(xué)術(shù)影響力,其同樣為科研用戶提交科學(xué)數(shù)據(jù)時提供元數(shù)據(jù)創(chuàng)建服務(wù)??蒲杏脩粜枰獜囊粋€自我提交的表格開始,錄入數(shù)據(jù)標(biāo)題、作者姓名、單位、數(shù)據(jù)描述、主題分類、關(guān)鍵詞、上傳者等默認元數(shù)據(jù)項目,也可以在數(shù)據(jù)集提交成功之后再次添加更詳細的元數(shù)據(jù)項目,包括數(shù)據(jù)引用格式、期刊來源、數(shù)據(jù)創(chuàng)作時間、創(chuàng)作地點、軟件工具、相關(guān)數(shù)據(jù)集等。北卡羅來納大學(xué)的生命科學(xué)數(shù)據(jù)倉儲Dryad[27]在科研用戶提交科學(xué)數(shù)據(jù)時為其提供元數(shù)據(jù)創(chuàng)建服務(wù),其中包括元數(shù)據(jù)錄入環(huán)節(jié),數(shù)據(jù)標(biāo)題、作者、期刊名稱、DOI、出版時間、期刊所在地理位置、主題分類等元素,另外,Dryad還允許科研人員錄制并提交一個簡短的YouTube視頻來描述數(shù)據(jù)的上傳過程。
(3)嵌入至科研過程中的服務(wù)形式。圖書館也會通過嵌入到科研過程之中的方式來幫助科研人員創(chuàng)建元數(shù)據(jù),這種方式的優(yōu)勢在于:服務(wù)館員、學(xué)科專家和科研人員針對特定項目問題進行密切交流,可以進一步加深服務(wù)館員和學(xué)科專家對科研人員元數(shù)據(jù)需求的了解,從而提高元數(shù)據(jù)服務(wù)質(zhì)量,而且,科研人員的統(tǒng)計行為,包括下載、共享、評論、鏈接等用戶信息行為可以被用來提取元數(shù)據(jù)??的螤柎髮W(xué)的Albert R. Mann圖書館建立了康奈爾大學(xué)地理信息倉儲庫CUGIR[28],為紐約州提供地理空間數(shù)據(jù)和相關(guān)元數(shù)據(jù),特別強調(diào)與農(nóng)業(yè)、生態(tài)、自然資源和人與環(huán)境相互作用相關(guān)的自然特征。由聯(lián)邦地理數(shù)據(jù)委員會FGDC頒布的地理空間元數(shù)據(jù)內(nèi)容標(biāo)準(zhǔn)CSDGM是目前使用最廣泛的標(biāo)準(zhǔn),由于CUGIR參與了很多地理空間數(shù)據(jù)交換所計劃,所以CUGIR中提供的所有數(shù)據(jù)必須使用FGDC的CSDGM元數(shù)據(jù)標(biāo)準(zhǔn)。在很多案例中,康奈爾大學(xué)圖書館的館員必須嵌入到科研項目過程中,通過與科研人員的緊密合作來幫助創(chuàng)建和改進元數(shù)據(jù),以確保CSDGM元數(shù)據(jù)標(biāo)準(zhǔn)從項目開始就被科研人員所了解和使用。
(4)提供軟件工具的服務(wù)形式。軟件工具不僅被用于科學(xué)數(shù)據(jù)的元數(shù)據(jù)創(chuàng)建,還被用于將數(shù)據(jù)管理過程集成到科研工作流中,這對推動科學(xué)數(shù)據(jù)管理發(fā)展進程具有重要意義??的螤柎髮W(xué)開發(fā)的VIVO工具[29],是一種基于語義技術(shù)的科研發(fā)現(xiàn)系統(tǒng),接受國家衛(wèi)生研究院NIH的資助,其允許研究者展示學(xué)術(shù)證書、學(xué)術(shù)關(guān)系、社交網(wǎng)絡(luò)、科研出版物、經(jīng)費、教學(xué)、服務(wù)等信息。VIVO中的信息不僅可以在普通瀏覽器網(wǎng)頁中可讀,也可以用于系統(tǒng)之間的交換??蒲杏脩艨梢栽赩IVO中挖掘、聚合元數(shù)據(jù),將新的元數(shù)據(jù)項目添加至個人科研出版物中,并與之前已經(jīng)存在的元數(shù)據(jù)完全兼容。DMPTools[30]是用于創(chuàng)建數(shù)據(jù)管理計劃的軟件工具,向科研人員提供DMPTools是加利福尼亞大學(xué)、斯坦福大學(xué)、哈佛大學(xué)等高校圖書館的數(shù)據(jù)管理計劃服務(wù)的一部分,科學(xué)數(shù)據(jù)的描述、元數(shù)據(jù)的創(chuàng)建是科學(xué)數(shù)據(jù)管理計劃的重要組成部分,科研人員可以使用DMPTools為自己的科學(xué)數(shù)據(jù)創(chuàng)建元數(shù)據(jù)。
3.3 元數(shù)據(jù)咨詢服務(wù)
科學(xué)數(shù)據(jù)的元數(shù)據(jù)咨詢服務(wù)是指圖書館為科研人員提供元數(shù)據(jù)的開發(fā)、提取、復(fù)用、轉(zhuǎn)換等元數(shù)據(jù)相關(guān)的咨詢服務(wù),屬于圖書館科學(xué)數(shù)據(jù)咨詢服務(wù)模式的一部分。當(dāng)前,高校圖書館向?qū)W院機構(gòu)、科研教師和學(xué)生開展科學(xué)數(shù)據(jù)的元數(shù)據(jù)咨詢服務(wù)主要集中于科研型大學(xué),根據(jù)Tenopir[2]在2012年的調(diào)查發(fā)現(xiàn):只有17.9%的受訪圖書館提供科學(xué)數(shù)據(jù)的元數(shù)據(jù)咨詢服務(wù),其大多是科研型大學(xué),而普通高校和專職高校圖書館則并不傾向于提供此類服務(wù),另外分別有7.8%、8.3%和7.8%的受訪圖書館計劃在未來一年內(nèi)、兩年內(nèi)和兩年之后將提供元數(shù)據(jù)咨詢服務(wù)。伊利諾伊大學(xué)圖書館擁有獨立的科學(xué)數(shù)據(jù)服務(wù)團隊,也擁有獨立的元數(shù)據(jù)服務(wù)團隊,科研人員可以在其圖書館首頁的“Research Data Service”導(dǎo)航中申請科學(xué)數(shù)據(jù)的元數(shù)據(jù)咨詢服務(wù),和大多高校圖書館不同的是,伊利諾伊大學(xué)的圖書館不僅提供郵件咨詢與電話咨詢,也提供服務(wù)館員與科研人員面對面的咨詢服務(wù)[31],其咨詢內(nèi)容包括:(1)提供各種類型的參考元數(shù)據(jù);(2)討論創(chuàng)建元數(shù)據(jù)的經(jīng)驗;(3)根據(jù)具體的科研項目提供元數(shù)據(jù)模板;(4)提供一個具體的項目元數(shù)據(jù)實例以供參考??的螤柎髮W(xué)圖書館的技術(shù)服務(wù)中心設(shè)立了元數(shù)據(jù)服務(wù)部門,在元數(shù)據(jù)服務(wù)主管的指導(dǎo)下,元數(shù)據(jù)服務(wù)館員的職能包括:(1)為圖書館機構(gòu)知識庫的科學(xué)數(shù)據(jù)集創(chuàng)建合適的元數(shù)據(jù);(2)與其他圖書館員工合作,為元數(shù)據(jù)政策和程序的開發(fā)、實施和評估方面提供專業(yè)知識,同時監(jiān)測元數(shù)據(jù)領(lǐng)域的外部發(fā)展,標(biāo)準(zhǔn)制定和不斷變化的需求;(3)元數(shù)據(jù)維護,主要是在系統(tǒng)之間集成元數(shù)據(jù)并對資源間的關(guān)系進行擴展。康奈爾大學(xué)圖書館所提供的元數(shù)據(jù)咨詢服務(wù)遵循以下原則[32]:(1)可持續(xù)性。不僅要滿足用戶現(xiàn)在的需求,也需要考慮用戶未來的需求;(2)可擴展性。服務(wù)需要根據(jù)項目情況的變化而不斷調(diào)整;(3)可訪問性。擴展服務(wù)渠道以被盡可能多的人所了解;(4)可用性。服務(wù)易于被理解和使用;(5)成本規(guī)劃。在追求高質(zhì)量的產(chǎn)品和服務(wù)的同時承認預(yù)算限制;(6)明確責(zé)任。根據(jù)協(xié)議,合同或備忘錄明確服務(wù)責(zé)任。其向科研人員提供的咨詢服務(wù)內(nèi)容包括:(1)審查科研項目元數(shù)據(jù)需求并提出參考建議;(2)分析現(xiàn)有元數(shù)據(jù),在需要時設(shè)計并推薦轉(zhuǎn)換策略;(3)使用最佳的項目元數(shù)據(jù)案例來教育和培訓(xùn)科研人員;(4)幫助科研用戶確定項目元數(shù)據(jù)標(biāo)準(zhǔn);(5)幫助創(chuàng)建數(shù)據(jù)模型,促進無縫訪問,互操作性和重用;(6)幫助確定適合項目需求的訪問類型和適當(dāng)?shù)拇鎯?;?)構(gòu)建元數(shù)據(jù)工作流;(8)修改或重新格式化元數(shù)據(jù)以滿足項目需求;(9)在整個項目生命周期中提供元數(shù)據(jù)質(zhì)量控制。
3.4 元數(shù)據(jù)培訓(xùn)服務(wù)
科學(xué)數(shù)據(jù)的元數(shù)據(jù)培訓(xùn)服務(wù)是指圖書館為了科研人員能夠更熟練地處理元數(shù)據(jù)相關(guān)的科研事務(wù)而開設(shè)的培訓(xùn)服務(wù),包括研討會、課程、學(xué)術(shù)交流會等形式,通過培訓(xùn)的科研人員將會獲取科學(xué)數(shù)據(jù)管理能力認證,由于學(xué)科之間的元數(shù)據(jù)創(chuàng)建方式和標(biāo)準(zhǔn)差異很大,圖書館提供綜合的關(guān)于元數(shù)據(jù)構(gòu)建和管理的培訓(xùn)具有一定難度。科研數(shù)據(jù)管理課程MANTRA[33]由愛丁堡大學(xué)圖書館開發(fā),被耶魯大學(xué)圖書館、杜克大學(xué)圖書館等機構(gòu)推薦,是一個免費開放的在線科學(xué)數(shù)據(jù)管理培訓(xùn)課程。該課程面向研究生、初級科研工作者和信息專業(yè)人士設(shè)計,可以幫助科研人員了解和學(xué)習(xí)如何管理日??蒲谢顒又挟a(chǎn)生的數(shù)據(jù)?!皩W(xué)習(xí)數(shù)據(jù)描述方法,創(chuàng)建個人科學(xué)數(shù)據(jù)的元數(shù)據(jù)”是該課程九大教學(xué)單元之一,包含概念解釋、步驟說明、示例教學(xué)、數(shù)據(jù)處理練習(xí)和視頻剪輯瀏覽等項目,用戶最多花一個小時即可學(xué)習(xí)完畢,該課程具有極高的易用性和可用性。北卡羅來納大學(xué)教堂山分校為科研人員提供了一套數(shù)據(jù)監(jiān)護能力認證課程[34],畢業(yè)生將成為能夠?qū)?shù)據(jù)資源進行規(guī)劃,管理和實施以確保數(shù)據(jù)長期完整性和可用性的專業(yè)人員,其科學(xué)數(shù)據(jù)管理能力將被圖書館、檔案館、博物館,以及公司和政府機構(gòu)所需求?!霸獢?shù)據(jù)架構(gòu)和應(yīng)用”是這套課程的一部分,具體內(nèi)容有:(1)學(xué)習(xí)在數(shù)字環(huán)境中校驗元數(shù)據(jù);(2)學(xué)習(xí)在不同信息環(huán)境中開發(fā)和實現(xiàn)元數(shù)據(jù)模式;(3)學(xué)習(xí)創(chuàng)建機器可理解的元數(shù)據(jù)標(biāo)準(zhǔn)和技術(shù)應(yīng)用。另外一門課程“數(shù)字資源的保存和訪問”中也包括元數(shù)據(jù)的創(chuàng)建方法教學(xué)。緬恩大學(xué)圖書館同樣在數(shù)據(jù)監(jiān)護能力的培訓(xùn)中開通了元數(shù)據(jù)相關(guān)的課程[35]:(1)調(diào)查了用于描述和編碼數(shù)據(jù)資源的元數(shù)據(jù)國際標(biāo)準(zhǔn),以幫助科學(xué)數(shù)據(jù)的未來的發(fā)現(xiàn)和長期保存;(2)介紹了用于描述數(shù)字資源內(nèi)容和上下文關(guān)系的元數(shù)據(jù)格式標(biāo)準(zhǔn),并強調(diào)它們在圖書館、檔案庫和在線倉儲中的應(yīng)用;(3)總結(jié)了柏林核心和OAI等特定的元數(shù)據(jù)標(biāo)準(zhǔn),以及它們在HTML、XML和RDF等標(biāo)記語言中的表示方式。
4 結(jié)語
近年來,科學(xué)數(shù)據(jù)服務(wù)發(fā)展十分迅速,以哈佛大學(xué)、麻省理工大學(xué)、康奈爾大學(xué)為首的很多歐美高校紛紛以豐富的數(shù)據(jù)資源、強大硬件基礎(chǔ)設(shè)施和軟件工具、多功能應(yīng)用平臺為基礎(chǔ)開展了科學(xué)數(shù)據(jù)的計算、咨詢、出版和引用等服務(wù),元數(shù)據(jù)是科學(xué)數(shù)據(jù)管理的基礎(chǔ),高校圖書館發(fā)展元數(shù)據(jù)的介紹服務(wù)、創(chuàng)建服務(wù)、咨詢服務(wù)和培訓(xùn)服務(wù)符合科研活動需求,且極具必要性。本文以部分歐美高校圖書館作為調(diào)查對象,總結(jié)了圖書館科學(xué)數(shù)據(jù)的元數(shù)據(jù)服務(wù)內(nèi)容,以期能促進我國圖書館科學(xué)數(shù)據(jù)服務(wù)的發(fā)展。
參考文獻:
[1] Tenopir C,Allard S,Douglass K L,et al.Data sharing by scientists:Practices and perceptions[J].PLoS ONE,2011,6(6):1-21.
[2] Tenopir C,Birch B,Allard S.Academic Libraries and Research Data Service:Current Practices and Plans for the Future[EB/OL].[2016-04-16].http://www.ala.org/acrl/sites/ala.org.acrl/files/content/publications/whitepapers/Tenopir_Birch_Allard.pdf.
[3] Si L,Xing W,Zhuang X,et al.Investigation and analysis of research data service in university libraries[J].The Electronic Library,2015,33(3):417-449.
[4] Steinhart G,Chen E,Arguillas,F(xiàn),et al.Prepared to plan?A snapshot of researcher readiness to address data management planning requirements[J].Journal of eScience Librarianship,2012,1(2):63-78.
[5] 黃如花,邱春艷.圖書館參與科學(xué)數(shù)據(jù)管理中的元數(shù)據(jù)應(yīng)用實踐研究[J].圖書與情報,2014(5):65-66.
[6] Data Management Guidance for CISE Proposals and Awards[EB/OL].[2016-12-02].https://www.nsf.gov/cise/cise_dmp.jsp.
[7] BBSRC DATA SHARING POLICY[EB/OL].[2016-12-02].http://www.bbsrc.ac.uk/documents/data-sharing-policy-pdf/.
[8] TEMPLATE FOR A DATA MANAGEMENT PLAN[EB/OL].[2016-12-02].http://www.mrc.ac.uk/documents/doc/data-management-plans-template/.
[9] Research Data Management:Data management plans[EB/OL].[2016-12-29].http://guides.library.yale.edu/c.php?g=296023&
p=1973420.
[10] Data management[EB/OL].[2016-12-29].https://libraries.mit.edu/data-management/.
[11] MANAGING YOUR DATA[EB/OL].[2016-12-29].https://www.lib.umn.edu/datamanagement.
[12] PURR Preservation Strategic Plan[EB/OL].[2016-12-30].https://purr.purdue.edu/legal/preservation-strategies.
[13] Metadata and Digital Curation[EB/OL].[2016-12-29].http://www.dcc.ac.uk/resources/briefing-papers/standards-watch-papers/what-are-metadata-standards#1.
[14] DCC Curation Lifecycle Model[EB/OL].[2016-12-29].http://www.dcc.ac.uk/resources/curation-lifecycle-model.
[15] DataCite[EB/OL].[2016-12-30].https://www.datacite.org/.
[16] DataCite Metadata Schema Documentation for the Publication and Citation of Research Data[EB/OL].[2016-12-30].http://schema.datacite.org/meta/kernel-4.0/.
[17] Jahnke L,Asher A.The problem of data[EB/OL].[2016-12-29].http://www.clir.org/pubs/reports/pub154/pub154.pdf.
[18] Data Management Guide:Metadata[EB/OL].[2016-11-19].http://guides.lib.uw.edu/c.php?g=341761&p=2304338.
[19] Data Documentation and Metadata[EB/OL].[2016-11-19].https://www.lib.umn.edu/datamanagement/metadata.
[20] NSF Data Management Plan Help:What is Metadata?[EB/OL].[2016-11-19].http://libguides.princeton.edu/c.php?g=84261&p=541205.
[21] Data Management:Metadata[EB/OL].[2016-11-19].http://libguides.bc.edu/c.php?g=44295&p=280677.
[22] Markey K,Rieh S Y,Jean B S,et al.Census of institutional repositories in the United States:MIRACLE project research findings[EB/OL].[2016-12-02].http://www.clir.org/pubs/reports/pub140/reports/pub140/pub140.pdf.
[23] ICPSR.Guide to Social Science Data Preparation and Archiving[EB/OL].[2016-12-06].http://www.icpsr.umich.edu/icpsrweb/content/deposit/guide/chapter3docs.html.
[24] Documentation & metadata[EB/OL].[2016-12-06].http://libraries.mit.edu/data-management/store/documentation/.
[25] Research Data Service[EB/OL].[2016-12-16].https://www.ideals.illinois.edu/handle/2142/79490.
[26] Harvard Dataverse[EB/OL].[2016-12-20].http://dataverse.harvard.edu/.
[27] Dryad Submission.Publication metadata[EB/OL].[2016-10-16]. https://datadryad.org/handle/10255/3/submit/20186111235
f35540a6b34551d2b192226100514.continue.
[28] CUGIR[EB/OL].[2016-12-20].http://cugir.mannlib.cornell.edu/.
[29] Welcome to VIVO[EB/OL].[2016-12-22].http://vivo.library.cornell.edu/.
[30] Data Management Planning Tool[EB/OL].[2016-12-22].http://dmptool.org/.
[31] Research Data Service[EB/OL].[2016-12-22].http://researchdataservice.illinois.edu/.
[32] Metadata Production and Consulting Services[EB/OL].[2016-12-22].https://lts.library.cornell.edu/metadata.
[33] Data management training[EB/OL].[2016-12-23].http://www.ed.ac.uk/institute-academic-development/postgraduate/doctoral/courses/online-courses/data-management.
[34] Certificate in Digital Curation[EB/OL].[2016-12-23].https://sils.unc.edu/programs/certificates/digital_curation.
[35] Digital Curation at the University of Maine[EB/OL].[2016-12-23].http://digitalcuration.umaine.edu/#.
作者簡介:黃鑫,女,武漢大學(xué)信息管理學(xué)院博士研究生;鄧仲華,男,武漢大學(xué)信息管理學(xué)院教授,博士生導(dǎo)師。