沈婷婷 盧志國 (上海大學圖書館 上海 200444)
隨著科學技術的迅猛發(fā)展,科學數(shù)據(jù)的管理與共享問題也引起學者越來越多的關注??萍疾吭块L徐冠華院士曾說過:“科研是群體性的活動,數(shù)據(jù)是最重要的基礎,開展科學數(shù)據(jù)共享的重要性絲毫不亞于發(fā)表學術論文?!盵1]然而,目前我國對于高??蒲许椖慨a(chǎn)生的科學數(shù)據(jù)缺乏管理,這些數(shù)據(jù)往往由科研人員自行保存,大部分數(shù)據(jù)資料無法共享,長期處于閑置狀態(tài)。
數(shù)據(jù)監(jiān)管( Data Curation )是近年來國外高校對本機構的科學數(shù)據(jù)提出的管理方法,它是對科學數(shù)據(jù)收集、組織、查證和保存,并使科研人員在以后的研究中發(fā)現(xiàn)這些數(shù)據(jù)的新價值[2]。英國聯(lián)合信息系統(tǒng)委員會( Joint Information Systems Committee,簡稱JISC )對其的解釋是:為確保數(shù)據(jù)當前使用目的,并能用于未來再發(fā)現(xiàn)及再利用,從數(shù)據(jù)產(chǎn)生伊始即對其進行管理和完善的活動[3-4]。對于動態(tài)數(shù)據(jù)集而言,這意味著需要進行持續(xù)性補充和更新,以使數(shù)據(jù)符合用戶需求[3-4]。
科學研究是不斷創(chuàng)新、不斷進步的過程,科學數(shù)據(jù)也隨研究的進展而不斷更新。因而,與一般的數(shù)據(jù)保存相比,科學數(shù)據(jù)監(jiān)管更強調(diào)動態(tài)性,它不僅簡單地保存數(shù)據(jù),更需要不斷完善數(shù)據(jù),使其能供以后的科研人員使用。
筆者曾對我國高校開展的科學數(shù)據(jù)監(jiān)管服務進行了討論[5],并初步探討其服務模式,提出了基于科研項目的數(shù)據(jù)監(jiān)管模式[6]。本文將對此模式進一步研究,分析科研項目不同階段的科學數(shù)據(jù)監(jiān)管方法。筆者建議,圖書館員應深入科研過程,為科研人員提供個性化的數(shù)據(jù)監(jiān)管服務。本文介紹了國內(nèi)外科學數(shù)據(jù)的監(jiān)管情況,分析了當前高??茖W數(shù)據(jù)具有的多學科化、多樣化和大量化等特點,提出了科研項目在立項前、項目進行中、結項后3個不同階段的高校科學數(shù)據(jù)監(jiān)管方法,探討了科學數(shù)據(jù)收集方法及公開方式。
近些年,國外對數(shù)據(jù)監(jiān)管采取了一系列的措施,包括政府投入大量資金支持科學數(shù)據(jù)的長期積累、高效流動和低成本使用,并頒布了一系列有關科學數(shù)據(jù)共享的政策法規(guī),從法律、政策等多方面保障科學數(shù)據(jù)的管理與共享服務。美國國家科學基金會(National Science Foundation,簡稱NSF)要求研究人員對由資助項目所產(chǎn)生的數(shù)據(jù)需要提交數(shù)據(jù)管理計劃[7]。澳大利亞政府成立了澳大利亞國家數(shù)據(jù)服務(Australian National Data Service,簡稱ANDS)合作中心,為科學數(shù)據(jù)的管理提供專業(yè)服務[8]。JISC資助建立了數(shù)字監(jiān)管中心(Digital Curation Centre,簡稱DCC),以促進數(shù)字資源的管理工作[9]。
國際上很多著名的高校圖書館已經(jīng)開始關注高校科學數(shù)據(jù)監(jiān)管的問題,并為高??蒲腥藛T開展了相關服務。例如,約翰·霍普金斯大學圖書館、康奈爾大學圖書館、加利福尼亞大學圖書館等加入了由美國國家科學基金會DataNet計劃資助的相關項目,以實現(xiàn)高??茖W數(shù)據(jù)的監(jiān)管;普渡大學圖書館和伊利諾伊大學圖書館與信息科學研究生院共同主持的數(shù)據(jù)監(jiān)管項目(Data Curation Profiles)旨在研究科學數(shù)據(jù)的具體監(jiān)管內(nèi)容和方式[10];康奈爾大學圖書館開展的數(shù)據(jù)倉庫項目(DataStaR)支持本機構的科學數(shù)據(jù)共享,為科研工作提供協(xié)作[11]。
此外,一些國外學者對高??茖W數(shù)據(jù)監(jiān)管也進行了研究。Loenen等總結了科學數(shù)據(jù)的開放原則[12];Walters以佐治亞理工學院為例,通過介紹該校數(shù)據(jù)監(jiān)管計劃,建立了數(shù)據(jù)監(jiān)管模型[13];康奈爾大學圖書館數(shù)字工作小組的研究報告論述了全球數(shù)據(jù)監(jiān)管的發(fā)展環(huán)境,為該館開展相關服務提出了5個方面的建議[14]。
對于由中國科學院等單位負責的一些超大型研究項目,我國也非常注重數(shù)據(jù)監(jiān)管。1994年,中國科學院地學部以咨詢建議的方式呼吁打破地球科學和資源環(huán)境科學數(shù)據(jù)壁壘,實現(xiàn)數(shù)據(jù)共享,得到了時任國務委員的宋健院士和原國家科學技術委員會的重視。黃鼎成[15]、孫九林[16]、劉闖[17]等學者也分別發(fā)文,探討我國的科學數(shù)據(jù)共享的理論機制等問題。
雖然我國高校尚未系統(tǒng)開展科學數(shù)據(jù)監(jiān)管服務,但一些學者已經(jīng)開始關注,其理論研究處于起步階段。2012年,在第六屆上海國際圖書館論壇上,上海圖書館副館長劉煒在“大數(shù)據(jù)時代的圖書館”的報告中指出,科學數(shù)據(jù)管理的研究將會成為大數(shù)據(jù)時代的重要研究方向之一。其他相關的文獻主要有,師榮華和劉細文推演出e-Science環(huán)境下圖書館可以嘗試開展的科學數(shù)據(jù)服務方式,并分析了相關案例[18];楊鶴林介紹了美國高校圖書館對科學數(shù)據(jù)監(jiān)護的研究和實踐情況[4];錢鵬和鄭建明探討了高??茖W數(shù)據(jù)的采集、管理,提出與科學文獻整合的學科服務[19];程蓮娟介紹了美國高校圖書館的數(shù)據(jù)監(jiān)護規(guī)劃和發(fā)展策略以及其協(xié)作與教育情況,并提出培養(yǎng)人才,完善高校圖書館數(shù)字資源長期保存機制等啟示[20]。
本文所討論的數(shù)據(jù)是指任何以數(shù)字化形式存儲的內(nèi)容,包括文本、數(shù)字、圖像、視頻、音頻、軟件、算法、動畫、模型等。在科學活動中,這些數(shù)據(jù)可以通過觀察、計算或者實驗等方式獲得。
首先,由于高校學科類別繁多,涉及文、理、工、商、法等學科,每個學科千差萬別,各學科產(chǎn)生的數(shù)據(jù)內(nèi)容也有天壤之別。而且,由于學科、專業(yè)的交叉越來越頻繁,新學科不斷出現(xiàn),數(shù)據(jù)間的邏輯關系非常復雜,增加了數(shù)據(jù)分類的難度。
其次,由于各學科的科學數(shù)據(jù)有很大差異,數(shù)據(jù)形式和儲存方法多種多樣。其形式除了常見的數(shù)字、文字、圖像外,還包括語音、影像等各種多媒體形式,儲存方式包括不同的數(shù)據(jù)庫格式、不同的電子文件格式及不同的科學儀器產(chǎn)生的專有格式等。
第三,由于人力、物力、財力資源的限制,高??茖W研究往往無法達到龐大的研究規(guī)模,每個學科產(chǎn)生的科學數(shù)據(jù)量也相對較少。但是由于高校學科種類繁多,各學科的數(shù)據(jù)總量仍很大。因而與大型項目科學數(shù)據(jù)共享相比,更需要考慮哪些數(shù)據(jù)需要保存、如何保存等問題。
根據(jù)高??茖W數(shù)據(jù)的特點,本文將探討基于科研項目的高校數(shù)據(jù)監(jiān)管計劃,即以科研項目為單位,按項目名稱存儲科學數(shù)據(jù),在原有機構庫的基礎上搭建科學數(shù)據(jù)平臺。按項目分類可以很好地處理多學科數(shù)據(jù)的存儲問題。
近年來,高校圖書館對數(shù)字資源的管理、共享等方面的實踐使其有能力為高??蒲腥藛T提供數(shù)據(jù)監(jiān)管服務。圖書館員從科研項目立項之初就主動進入項目組,從科研項目的調(diào)研、開展具體研究到結題,提供全程的科學數(shù)據(jù)跟蹤式服務,這樣不僅能節(jié)約科研人員管理數(shù)據(jù)的時間,而且還能收集到高質(zhì)量的科學數(shù)據(jù),為以后的科學數(shù)據(jù)再利用奠定基礎。
此外,本文所討論的科研項目不包含保密項目,對涉及國家安全、具有重要軍事應用價值或者國家重要戰(zhàn)略資源的數(shù)據(jù)不在本文的討論范圍內(nèi)。
在科研項目立項前,高校圖書館可以提供數(shù)據(jù)搜索分析服務,增強現(xiàn)有數(shù)據(jù)的使用價值,促進學術交流。圖書館平時要密切留意重要的學科數(shù)據(jù)庫的發(fā)展動態(tài)。例如,高校圖書館加強對學科數(shù)據(jù)庫的收集,整理、分析和跟蹤學科數(shù)據(jù)庫,并對學科數(shù)據(jù)庫進行評估、推介、導航服務[21]。對于科研人員的數(shù)據(jù)需求,圖書館可以通過現(xiàn)有數(shù)據(jù)庫幫助他們搜索,并對相關的科學數(shù)據(jù)進行評價、分類和整理,使他們能夠方便、快速地查找到所需的數(shù)據(jù)資源。圖書館員可以借助數(shù)據(jù)挖掘工具對收集到的數(shù)據(jù)進行分析,為科研人員提供加工提煉的信息??蒲腥藛T收到數(shù)據(jù)后,可以對數(shù)據(jù)內(nèi)容進行評價,并判斷數(shù)據(jù)是否符合自己的使用要求。圖書館可以根據(jù)反饋建議,不斷調(diào)整數(shù)據(jù)存儲內(nèi)容,評估哪些數(shù)據(jù)需要長期保存并優(yōu)化長期保存計劃。而對于數(shù)據(jù)提供者,圖書館可以定期通知其數(shù)據(jù)的下載數(shù)量,讓他們了解自己提供的數(shù)據(jù)在什么時候、多大程度上被利用。同時將用戶對數(shù)據(jù)的評價反饋給數(shù)據(jù)提供者,以促進數(shù)據(jù)提供者與用戶之間的學術交流,活躍學術氛圍。
科研項目研究過程產(chǎn)生的需要不斷更新且未發(fā)表的科學數(shù)據(jù)不易完全公布。高校圖書館可以先提供數(shù)據(jù)存儲服務,指定學科館員幫助科研人員存儲研究過程中產(chǎn)生的數(shù)據(jù),并及時更新?;蛘邎D書館允許科研人員自行存儲數(shù)據(jù),圖書館員可以指導他們規(guī)范地存儲并定期提醒其更新平臺上的數(shù)據(jù)。這就要求科研人員對提交的數(shù)據(jù)標注名稱、類型,并進行簡單描述(包括獲取數(shù)據(jù)的時間、地點、方式等信息),對于部分數(shù)據(jù),還需要提交實驗設備和實驗過程簡述。對于已存儲的科學數(shù)據(jù),圖書館要界定數(shù)據(jù)的保密范圍,合理劃分密級。對于平臺上的數(shù)據(jù),圖書館應允許用戶查詢其標題、作者、摘要等信息,但不開放數(shù)據(jù)的具體內(nèi)容。如果已存儲的數(shù)據(jù)需要在課題組成員或本校人員之間共享,那么由數(shù)據(jù)提交者向圖書館提供共享者名單,圖書館根據(jù)名單開放數(shù)據(jù)查閱權限。至于已存儲的數(shù)據(jù)是否需要長期保存,則要根據(jù)不同學科數(shù)據(jù)的使用情況而定。例如,康奈爾大學圖書館提供的DataStaR服務就允許研究人員自行上傳數(shù)據(jù),對初始數(shù)據(jù)可以調(diào)整甚至刪除,并自行設定他人訪問數(shù)據(jù)權限,而圖書館員則幫助他們創(chuàng)建元數(shù)據(jù)并整理數(shù)據(jù),與他們一起商討需要公開的數(shù)據(jù)等[22]。
科研人員在項目結題時通常會創(chuàng)造大量有價值的科學數(shù)據(jù),此時高校圖書館主要提供數(shù)據(jù)共享服務。圖書館可以先公開已發(fā)表的學術論文涉及的各類相關科學數(shù)據(jù)。學科館員應與科研人員交流,確定最終的數(shù)據(jù)版本,幫助他們完成相關數(shù)據(jù)的提交,包括數(shù)據(jù)整理、格式轉(zhuǎn)換等。如果這些數(shù)據(jù)已保存在數(shù)據(jù)庫里,則只需要調(diào)整相應的訪問權限。如果該學科擁有使用范圍更廣的學科數(shù)據(jù)庫,那么圖書館員可以協(xié)助科研人員把整理好的數(shù)據(jù)提交到學科數(shù)據(jù)庫中。對于未發(fā)表的數(shù)據(jù),圖書館根據(jù)不同學科,可以在數(shù)據(jù)保存一定年限后予以公開。對于科研項目結題后產(chǎn)生的、與該科研項目相關的數(shù)據(jù),圖書館也要保存。圖書館員要定期與科研項目負責人聯(lián)系,確保及時更新數(shù)據(jù)庫中的數(shù)據(jù),并與科研人員協(xié)商,確定數(shù)據(jù)開放范圍。對于這些數(shù)據(jù)的長期保存問題,需要通過后期的專業(yè)評估而定。
每位科學家都有權利享用國有科學數(shù)據(jù)資源,更有義務提供由國家投入而產(chǎn)生的科學數(shù)據(jù)和成果并為社會共享。當然,由于我國目前尚未規(guī)定對高??茖W數(shù)據(jù)進行管理,以上方案的實施還需要得到科研人員的大力支持。因此,高校圖書館可以先與對數(shù)據(jù)監(jiān)管服務感興趣的院系或者科研人員開展合作。
高校圖書館一直都是高校文獻保障體系的主體,是科研人員獲得信息服務和知識服務的重要場所。因而,圖書館有必要、有能力、也有義務為高??茖W數(shù)據(jù)監(jiān)管服務做出貢獻。高校圖書館應根據(jù)科研人員的數(shù)據(jù)需求,組織專業(yè)化的服務團隊,深入到科研人員的科研項目中去,滿足科研人員對數(shù)據(jù)服務的個性化需求。
[1]科學數(shù)據(jù)共享工作應該受到尊重和支持 :徐冠華院士訪問地球系統(tǒng)科學信息共享中心[EB/OL]. [2012-10-09]. http://www.cws.net.cn/CWSNews_View.asp?CWSNewsID=32356.
[2]Choudury S.Data Curation:An Ecological Perspective.College &Research Libraries News[J].2010,71(4):194-196.
[3]Lord P,Macdonald A,Lyon L,et al.From Data Deluge to Data Curation[C].Proceedings of the 3rd U.K.E-Science All Hands Meeting,EPSRC:Swidon,2004:371-375.
[4]楊鶴林.數(shù)據(jù)監(jiān)護:美國高校圖書館的新探索[J].大學圖書館學報,2011(2):18-21,41.
[5]沈婷婷,盧志國.數(shù)據(jù)監(jiān)管在我國高校圖書館的應用展望[J].圖書情報工作,2012,56(7):54-57,87.
[6]沈婷婷,盧志國.基于科研項目的高??茖W數(shù)據(jù)監(jiān)管[G]//智慧城市與圖書館服務.第六屆上海國際圖書館論壇論文集.上海:上??茖W技術文獻出版社,2012:114-117.
[7]Cyberinfrastructure Vision for 21st Century Discovery[EB/OL].[2012-03-08].http://www.nsf.gov/pubs/2007/nsf0728/index.jsp.
[8]Towards the Australian Data Commons[EB/OL].[2012-03-08].http://www.pfc.org.au/pub/Main/Data/TowardstheAustralian DataCommons.pdf.
[9]Digital Curation Centre[EB/OL].[2012-03-08].http://www.dcc.ac.uk/.[10]Data Curation Profiles[EB/OL].[2011-10-09].http://www4.lib.purdue.edu/dcp/overview.
[11]Gold A. Data Curation and Libraries:Short-Term Developments,Long-Term Prospects[EB/OL].[2011-10-06].http://works.bepress.com/agold01/9/.
[12]Loenen B V, Onsrud H J. Geographic Data for Academic Research:Assessing Access Policies[J].Cartography and geographic information science,2004,30(1): 3-17.
[13]Walters T O. Data Curation Program Development in U.S.Universities:The Georgia Institute of Technology Example[J].The International Journal of Digital Curation,2009,4(3): 83-92.
[14]Steinhart G,Saylor J,McCue J,et al.Digital Research Data Curation:Overview of Issues,Current Activities,and Opportunities for the Cornell University Library[R].New York,The CUL Data Working Group,2008:1-49.
[15]黃鼎成.科學數(shù)據(jù)共享的理論基礎與共享機制[J].中國基礎科學,2003(2):22-27.
[16]劉潤達,孫九林,廖順寶.科學數(shù)據(jù)共享中數(shù)據(jù)授權問題初探[J].情報雜志,2010,29(12):15-18.
[17]王正興,劉 闖.科學數(shù)據(jù)可持續(xù)共享:關鍵是利益的均衡[J].中國科技論壇,2005 (6):92- 96.
[18]師榮華,劉細文.基于數(shù)據(jù)生命周期的圖書館科學數(shù)據(jù)服務研究[J].圖書情報工作,2011,55(1):39-42.
[19]錢 鵬,鄭建明.高??茖W數(shù)據(jù)組織與服務初探[J].情報理論與實踐,2011,34(2):27-29.
[20]程蓮娟.美國高校圖書館數(shù)據(jù)監(jiān)護的實踐及其啟示[J].圖書館雜志,2012,31(1):76-78.
[21]王學勤,Stout A,Silver H.建立數(shù)據(jù)驅(qū)動的E-Science圖書館服務:機遇和挑戰(zhàn)[J].圖書情報工作,2011,55(13): 80-83.
[22]Steinhart G. DataStaR:An Institutional Approach to Research Data Curation[J].IASSIST Quarterly,2007(3-4): 34-39.