王會(huì)梅
(安徽師范大學(xué)圖書館)
良好的科研數(shù)據(jù)管理有利于確保研究的完整性、增加研究的影響、支持?jǐn)?shù)據(jù)的未來持續(xù)使用、滿足內(nèi)外部要求。研究數(shù)據(jù)來自學(xué)術(shù)和實(shí)踐,包括觀察、實(shí)驗(yàn)、模擬及其派生的數(shù)據(jù),主要包括文本文件、電子表格、照片、音像磁帶、數(shù)據(jù)庫、模型等。研究數(shù)據(jù)滿足下列特性:準(zhǔn)確、完整、可靠、真實(shí)并附有元數(shù)據(jù);以風(fēng)險(xiǎn)最小的方式安全儲(chǔ)存;在最新研究信息系統(tǒng)(Current Research Information System,CRIS)被登記;可追蹤、可訪問和可引用;滿足法律、倫理、協(xié)議和資助者指定的要求;能被驗(yàn)證和進(jìn)一步利用;從研究結(jié)果發(fā)表算起研究數(shù)據(jù)至少應(yīng)保存10年。數(shù)據(jù)管理的原則有:可證實(shí)性、可信賴性、定制化、可開放獲取、最低成本。目前,大多數(shù)相關(guān)研究集中美國[1]、英國[2]、澳大利亞[3]等國家高校的數(shù)據(jù)管理模式與服務(wù)策略探討,對歐盟和荷蘭高校圖書館數(shù)據(jù)管理的關(guān)注較少。
荷蘭最有名的大學(xué)是成立于1632年的阿姆斯特丹大學(xué),其圖書館藏書350萬卷,由荷蘭教育文化與科學(xué)部撥款。此外,荷蘭還有許多知名大學(xué),如:建于1575年的荷蘭最古老的大學(xué)——萊頓大學(xué),其圖書館是歐洲唯一擁有中文藏書的圖書館;建于1614年的格羅寧根大學(xué);建于1636年的烏得勒支大學(xué);建于1842年的代爾夫特理工大學(xué),其圖書館最具有未來派特征,最為現(xiàn)代化;鹿特丹大學(xué)成立于1913年,又稱鹿特丹伊拉斯姆斯大學(xué),其圖書館憑借專業(yè)收藏,代表著客戶導(dǎo)向、創(chuàng)新性和效率性。本文依據(jù)荷蘭這6所高校圖書館的數(shù)據(jù)(見表1),分析其研究類數(shù)據(jù)管理的創(chuàng)新服務(wù)模式,以期為我國圖書館數(shù)據(jù)管理提供借鑒。
當(dāng)申請項(xiàng)目被批準(zhǔn)時(shí),申請人員必須提供一個(gè)完整的數(shù)據(jù)管理計(jì)劃(Data Management Plan,DMP)。這個(gè)計(jì)劃是立項(xiàng)項(xiàng)目開展研究的第一步,目的是讓研究數(shù)據(jù)可被搜索、獲取和重復(fù)使用。DMP是產(chǎn)生和使用數(shù)據(jù)的一份正式文件,主要闡明數(shù)據(jù)的收集、管理、保存、共享和應(yīng)用等(見圖1)。對于數(shù)據(jù)管理計(jì)劃,可以借助免費(fèi)的基于Web的制作工具DMP online創(chuàng)建。DMP online包括登陸、注冊、創(chuàng)建、共享、支撐和維護(hù)系統(tǒng)等,可讓研究人員能夠輕松地編寫、編輯、共享、存儲(chǔ)和管理數(shù)據(jù)。各大學(xué)圖書館均提供DMP的通用模板及編制建議。研究包括的三個(gè)階段(項(xiàng)目申報(bào)階段、項(xiàng)目研究中的數(shù)據(jù)收集和分析階段、項(xiàng)目完成后階段)均應(yīng)進(jìn)行數(shù)據(jù)管理(見表2)。項(xiàng)目前數(shù)據(jù)管理包括:了解數(shù)據(jù)政策、制定數(shù)據(jù)管理計(jì)劃、進(jìn)行成本預(yù)算;項(xiàng)目中數(shù)據(jù)管理指數(shù)據(jù)保存、數(shù)據(jù)命名、數(shù)據(jù)結(jié)構(gòu)分析、元數(shù)據(jù)和數(shù)據(jù)訪問等;項(xiàng)目完成后的數(shù)據(jù)管理主要指數(shù)據(jù)選擇標(biāo)準(zhǔn)、數(shù)據(jù)公開、數(shù)據(jù)發(fā)布。DMP的確立有利于理解所有數(shù)據(jù)的創(chuàng)建、存儲(chǔ)和發(fā)布,不僅滿足了資助單位的要求,而且便于研究人員高效管理數(shù)據(jù),還可以降低數(shù)據(jù)丟失、或難以辨認(rèn)、無法使用等風(fēng)險(xiǎn)(見圖2)。
表1 荷蘭6所著名高校圖書館數(shù)據(jù)管理
圖1 數(shù)據(jù)管理計(jì)劃的內(nèi)容(阿姆斯特丹大學(xué)圖書館)
圖2 數(shù)據(jù)管理計(jì)劃的優(yōu)點(diǎn)(烏得勒支大學(xué)圖書館)
表2 研究數(shù)據(jù)全周期管理(萊頓大學(xué)圖書館)
當(dāng)前,資助者要求研究人員必須遵守?cái)?shù)據(jù)管理計(jì)劃,而且不同的資助部門對研究數(shù)據(jù)的要求各不相同,但都要求對數(shù)據(jù)進(jìn)行一個(gè)簡短描述。在這份描述中,應(yīng)闡釋被采集或生成的數(shù)據(jù)類型、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)利用,以及項(xiàng)目實(shí)施中或完成后數(shù)據(jù)的保存方法和地址。一些荷蘭學(xué)術(shù)資助機(jī)構(gòu)明確要求研究人員應(yīng)遵守研究數(shù)據(jù)的管理政策:荷蘭皇家藝術(shù)與科學(xué)院(Royal Netherlands Academy of Arts and Sciences,簡稱KNAW)要求項(xiàng)目負(fù)責(zé)人在數(shù)據(jù)管理計(jì)劃中提出免費(fèi)使用數(shù)據(jù)的條款;荷蘭科學(xué)研究協(xié)作組織(The Netherlands Organisation for Scientific Research,簡稱NWO)要求獲批項(xiàng)目必須簽訂數(shù)據(jù)歸檔合同和網(wǎng)絡(luò)服務(wù)協(xié)議;荷蘭衛(wèi)生研究與發(fā)展組織(The Netherlands Organisation for Health Research and Development,簡稱Zon MW)要求獲批項(xiàng)目的申請人必須詳細(xì)制定數(shù)據(jù)管理計(jì)劃,闡明數(shù)據(jù)使用、共享和訪問方式等;歐盟科研框架計(jì)劃“Horizon 2020”(簡稱“H2020”)要求項(xiàng)目獲批后,必須編寫詳細(xì)管理計(jì)劃,并在項(xiàng)目啟動(dòng)后六個(gè)月內(nèi)上交。荷蘭國家研究數(shù)據(jù)管理協(xié)調(diào)中心比較了五個(gè)資助部門的數(shù)據(jù)管理要求(見表3)。另外,出版商基于數(shù)據(jù)使用策略,明確要求項(xiàng)目組在線將全部數(shù)據(jù)發(fā)送到中心服務(wù)器,或者將數(shù)據(jù)存儲(chǔ)在指定網(wǎng)站供訪問使用。
表3 各資助單位對數(shù)據(jù)管理計(jì)劃的要求
①文件名應(yīng)清晰明了、編碼簡短、不超過25個(gè)字符,應(yīng)包含的信息有:項(xiàng)目名、項(xiàng)目數(shù)量、研究團(tuán)隊(duì)名稱、測定方法、研究對象、創(chuàng)建日期、版本號等。文件名可以使用字母A-Z或a-z、數(shù)字0-9、破折號、下劃線、點(diǎn),不能用特殊字符(如&、%、$、#、)),盡量避免使用空格、點(diǎn)號和特殊字符。在數(shù)據(jù)管理計(jì)劃中設(shè)立一個(gè)文件名編碼說明,有利于理解文件含義。②文件格式是數(shù)字文件中的信息編碼的方式,主要指數(shù)據(jù)保存的標(biāo)準(zhǔn)化方式,一般用后綴.wmv、.mp3、.pdf等表示。選擇合理的文件保存格式,可以保證數(shù)據(jù)容易打開訪問、有效分析和持久使用,還可以在數(shù)據(jù)轉(zhuǎn)換中防止內(nèi)容、特性(元數(shù)據(jù))、布局、質(zhì)量等發(fā)生變化。③對不同數(shù)據(jù)實(shí)行分類管理。按主題分:實(shí)驗(yàn)類、分析方法類等;按采集地點(diǎn)分:國家、地區(qū)或具體地點(diǎn);按時(shí)間順序分:年、月、日或周期;按類型分:報(bào)告、論文等;按文件的性質(zhì)分:主文件、工作文件等;按版本分:概念版本、初版本、最終版本等。數(shù)據(jù)的組織結(jié)構(gòu)應(yīng)清晰明確,可以設(shè)置多個(gè)版本和副本。④采用元數(shù)據(jù)描述或表征數(shù)據(jù)行為,元數(shù)據(jù)有利于數(shù)據(jù)搜索和有效引用。如研究背景與方法、所用儀器及其設(shè)置參數(shù)、數(shù)據(jù)采集時(shí)間、數(shù)據(jù)與數(shù)據(jù)集(庫)描述、實(shí)驗(yàn)室日志等人類可讀的元數(shù)據(jù);還有一種為僅能由計(jì)算機(jī)和搜索引擎讀取的元數(shù)據(jù)。⑤注意數(shù)據(jù)備份。依據(jù)使用周期合理安排頻次,分開存放備份文件并進(jìn)行定期測試。備份有多種方法,如外部硬盤、網(wǎng)絡(luò)、云服務(wù)器等。
數(shù)據(jù)的長久安全保存或長期存檔非常重要,但需考慮存儲(chǔ)空間、保存價(jià)格和用戶友好等特點(diǎn)(見圖3)。可在線保存歸檔、進(jìn)行數(shù)字化處理的數(shù)據(jù)類型有很多,如應(yīng)用程序、成績表、研究報(bào)告、學(xué)位論文、宣傳冊、政策文件、會(huì)議記錄、合同等。被保存的數(shù)據(jù)選取標(biāo)準(zhǔn):單位、出資人或出版商要求保存的數(shù)據(jù);被高度重復(fù)使用和高度創(chuàng)新的數(shù)據(jù);不可重復(fù)的、唯一性的數(shù)據(jù);可用性高的數(shù)據(jù)。保存的原則包括可靠性、安全性、可訪問、易導(dǎo)出。數(shù)據(jù)保存有很多作用:有利于共享,滿足用戶對數(shù)據(jù)的需求和合法操作;根據(jù)數(shù)據(jù)協(xié)議、數(shù)據(jù)法和歸檔法進(jìn)行保存,有利于通過審查委員會(huì)和資助單位的審核;有利于數(shù)據(jù)清查,明確數(shù)據(jù)表達(dá)的含義。數(shù)據(jù)文件有多種保護(hù)方式:①利用加密軟件SURF file sender發(fā)送個(gè)人或隱私數(shù)據(jù),并基于保密協(xié)議,限制數(shù)據(jù)訪問和共享;②安裝防火墻和殺毒軟件、及時(shí)更新升級操作系統(tǒng)和軟件、使用安全的無線網(wǎng)絡(luò)、設(shè)置密碼保護(hù)等加強(qiáng)計(jì)算機(jī)系統(tǒng)的安全;③鎖控電腦和電腦房,保護(hù)好原始數(shù)據(jù)記錄、USB和移動(dòng)硬盤,不遺留未受保護(hù)的數(shù)據(jù),嚴(yán)格保護(hù)非數(shù)字化的材料,對研究數(shù)據(jù)進(jìn)行物理保護(hù);④重點(diǎn)保護(hù)隱私敏感型數(shù)據(jù)。
在荷蘭,有兩個(gè)國家級數(shù)據(jù)庫:DANS(人文社會(huì)科學(xué))和4TU(荷蘭理工大學(xué)聯(lián)盟)。數(shù)據(jù)存儲(chǔ)平臺(tái)可由研究單位和市場開發(fā)。大學(xué)開發(fā)的云服務(wù)器有UVA/AUAS Fig Stand、Surf Drand。云服務(wù)存儲(chǔ)文件具有許多優(yōu)點(diǎn):Internet連接方便、原始數(shù)據(jù)可追溯、恢復(fù)快、易共享等,但機(jī)密和敏感數(shù)據(jù)不應(yīng)存儲(chǔ)在公共云服務(wù)中。公司開發(fā)運(yùn)營的數(shù)據(jù)庫有GITHUB、BitBucket。在選擇這些付費(fèi)數(shù)據(jù)庫時(shí)要考慮數(shù)據(jù)庫的質(zhì)量、配置條件(持久標(biāo)識(shí)符、訪問限制、許可證)、要求(文件格式、元數(shù)據(jù))、數(shù)據(jù)的可搜索性。
圖3 數(shù)據(jù)長期存檔的判定流程
公開發(fā)布或發(fā)表數(shù)字化數(shù)據(jù)不僅可以提高研究的影響力、促進(jìn)跨學(xué)科合作交流,而且有利于數(shù)據(jù)檢索,使數(shù)據(jù)可訪問、可共享、可引用和遵守資助者要求。發(fā)布數(shù)據(jù)時(shí),應(yīng)注意以下幾點(diǎn):原則上不允許發(fā)布個(gè)人數(shù)據(jù),但必須發(fā)布的個(gè)人數(shù)據(jù)應(yīng)匿名;數(shù)據(jù)應(yīng)適當(dāng)描述(如采集地點(diǎn)、時(shí)間等)并同步發(fā)布元數(shù)據(jù);確保標(biāo)識(shí)符準(zhǔn)確、唯一、可靠和可被引用。在公共存儲(chǔ)庫中發(fā)布敏感或隱私數(shù)據(jù)時(shí),一般通過永久的標(biāo)識(shí)符、許可證制度、知識(shí)共享協(xié)議限制訪問。因此,必須依據(jù)是否保證長期的數(shù)據(jù)保護(hù)、數(shù)據(jù)保存的成本和地點(diǎn)、默認(rèn)的許可證、是否有證書等選擇合適的數(shù)據(jù)庫。有些數(shù)據(jù)集必須獲得許可或使用資格,才可被引用或復(fù)用。在專著或期刊中,引用的信息必須包含作者、年份、數(shù)據(jù)集名、數(shù)據(jù)庫、版本、永久標(biāo)識(shí)符、URL。當(dāng)數(shù)據(jù)公開發(fā)表后將被賦予永久標(biāo)識(shí)符,如DOI、Handle、URN、ARk、PURL等。Unishare是數(shù)據(jù)共享和文件發(fā)送的服務(wù)器,網(wǎng)頁界面清晰專業(yè)、版本管理能力強(qiáng),可簽名認(rèn)證存儲(chǔ)的文件并被隨時(shí)隨地訪問,具有恢復(fù)已刪除文件的能力,研究人員和訪問者分別可獲得205GB、100GB的免費(fèi)數(shù)據(jù)存儲(chǔ)空間。DataverseNL是由哈佛大學(xué)發(fā)起、格羅寧根大學(xué)等機(jī)構(gòu)共同開發(fā)的一個(gè)數(shù)據(jù)共享和發(fā)布平臺(tái),可安全、長久的在線存儲(chǔ)各類數(shù)據(jù)和軟件。UVA/AUAS Figshare是阿姆斯特丹大學(xué)圖書館的數(shù)據(jù)共享平臺(tái),按學(xué)科分為23個(gè)類別:應(yīng)用社會(huì)科學(xué)與法律、商業(yè)與經(jīng)濟(jì)、數(shù)字媒體與創(chuàng)意產(chǎn)業(yè)、考古學(xué)、天文學(xué)、生物學(xué)、化學(xué)、經(jīng)濟(jì)與商業(yè)、計(jì)算機(jī)科學(xué)、教育、健康、藝術(shù)史、語言與文化、法律、數(shù)學(xué)、哲學(xué)、媒體、自然地理、物理學(xué)、宗教、社會(huì)與行為科學(xué)、運(yùn)動(dòng)與營養(yǎng)、技術(shù)。
數(shù)據(jù)應(yīng)以安全的方式進(jìn)行處理和儲(chǔ)存,必須保證數(shù)據(jù)的完整性。根據(jù)法律,每個(gè)人都有權(quán)保護(hù)自己的隱私。因此,當(dāng)收集個(gè)人資料用于研究時(shí),必須保護(hù)參與者的隱私。如把個(gè)人數(shù)據(jù)從數(shù)據(jù)集中提取出來,選擇安全網(wǎng)站存儲(chǔ);對訪問進(jìn)行加密、限制和選擇;涉及個(gè)人的名字用匿名或假名表示等。
“Privacy Paleis”與格羅寧根大學(xué)研究數(shù)據(jù)辦公室合作,分別于2015年11月、2016年6月舉辦了第一屆、第二屆數(shù)據(jù)隱私研討會(huì),Michiel van der Ree分享了隱私保護(hù)的K-匿名對策,Gerd Weitkamp談到了虛擬空間的隱私,Melika Nariman&Esther Hoorn講述了seminar中的隱私保護(hù),并針對隱私影響評估和數(shù)據(jù)保護(hù)影響評估及NOREA、SURF、ICO等隱私評估工具展開了討論。2015年12月17日,歐盟網(wǎng)絡(luò)與信息安全局針對在大數(shù)據(jù)背景下的個(gè)人隱私問題提出了大數(shù)據(jù)的隱私保護(hù)設(shè)計(jì)。加拿大安大略信息和隱私專員Ann Cavoukian在2009年指出,在隱私保護(hù)中存在的7項(xiàng)基本原則:積極主動(dòng)預(yù)防隱私被侵犯、應(yīng)默認(rèn)設(shè)置隱私保護(hù)、隱私安全應(yīng)嵌入設(shè)計(jì)、全過程關(guān)注隱私、端到端隱私安全實(shí)現(xiàn)全壽命保護(hù)、保證可見透明開放環(huán)境下的隱私保護(hù)、以用戶為中心尊重用戶隱私。目前,歐洲隱私權(quán)法與個(gè)人資料保護(hù)法在數(shù)據(jù)生命周期的整體過程中,努力保護(hù)科研項(xiàng)目中的數(shù)據(jù)采集、分析、保存、共享的隱私權(quán)。2018年5月25日起,《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation)被強(qiáng)制執(zhí)行,對數(shù)據(jù)處理提出要求:①目的限制要求,個(gè)人數(shù)據(jù)只能用于特定的、合法的正當(dāng)目的;②安全需求,必須采取組織和技術(shù)措施防止非法訪問;③透明度要求,數(shù)據(jù)必須公開、透明,他人有權(quán)查閱、共享、再利用。
數(shù)據(jù)管理計(jì)劃涉及到成本與收益。數(shù)據(jù)管理成本來源于每個(gè)研究階段和研究活動(dòng),如數(shù)據(jù)采集、錄入、發(fā)布、保存、管理等費(fèi)用較高,而數(shù)據(jù)的訪問、使用、共享、培訓(xùn)、版權(quán)等可產(chǎn)生經(jīng)濟(jì)效益。英國數(shù)據(jù)中心(UKData Service)開發(fā)了數(shù)據(jù)成本估算工具(見表4)。根據(jù)項(xiàng)目復(fù)雜度,完成一個(gè)數(shù)據(jù)管理計(jì)劃大概需要2個(gè)小時(shí)到2天的時(shí)間。在準(zhǔn)備申請項(xiàng)目時(shí)提前列出數(shù)據(jù)管理計(jì)劃,可以顯著降低數(shù)據(jù)管理的成本。在評議階段,大多數(shù)研究資助者要求主持人提供項(xiàng)目研究期間或研究完成后數(shù)據(jù)管理及其發(fā)布的成本預(yù)算分析,對可能的資助項(xiàng)目進(jìn)行數(shù)據(jù)管理成本的評估。
表4 數(shù)據(jù)管理的成本估算(烏得勒支大學(xué)圖書館)
數(shù)據(jù)管理的相關(guān)政策主要有學(xué)術(shù)嚴(yán)謹(jǐn)誠信守則、研究數(shù)據(jù)的大學(xué)政策框架、信息安全策略、荷蘭科研誠信行為守則等。①學(xué)術(shù)嚴(yán)謹(jǐn)誠信守則包括:數(shù)據(jù)透明性原則、良好的研究實(shí)踐標(biāo)準(zhǔn)和標(biāo)準(zhǔn)評估協(xié)議。標(biāo)準(zhǔn)評估協(xié)議主要針對大學(xué)、科學(xué)研究組織、研究機(jī)構(gòu)開展的科研誠信和內(nèi)部科研文化的評估,維護(hù)科學(xué)的獨(dú)立性和嚴(yán)謹(jǐn)性。②研究數(shù)據(jù)的大學(xué)政策框架包括:保證存檔數(shù)據(jù)可安全訪問和再使用,保存環(huán)境適合長時(shí)保護(hù);元數(shù)據(jù)應(yīng)清楚無誤,保證研究數(shù)據(jù)被搜索到;除協(xié)議和基金資助要求外,數(shù)據(jù)知識(shí)產(chǎn)權(quán)不應(yīng)轉(zhuǎn)讓給商業(yè)出版商或代理商;項(xiàng)目啟動(dòng)前研究工作者應(yīng)制定數(shù)據(jù)管理計(jì)劃,并依據(jù)此計(jì)劃管理數(shù)據(jù);在申報(bào)書中必須列出數(shù)據(jù)保護(hù)和管理的成本預(yù)算。③信息安全策略是指基于法律和大學(xué)要求根據(jù)不同數(shù)據(jù)類型(公共數(shù)據(jù)、基礎(chǔ)數(shù)據(jù)、敏感數(shù)據(jù)、關(guān)鍵數(shù)據(jù))進(jìn)行分類管理,保證誠信、保密、最優(yōu)獲取。④荷蘭科研誠信行為守則專門指出研究數(shù)據(jù)必須滿足5個(gè)原則:誠信、謹(jǐn)慎、透明、獨(dú)立、責(zé)任,并強(qiáng)調(diào)了研究單位的監(jiān)管責(zé)任,即在開始研究之前,應(yīng)考慮數(shù)據(jù)被收集、使用、處理和共享的相關(guān)工具和協(xié)議(見圖4)。
圖4 數(shù)據(jù)管理的工具和協(xié)議(來自烏得勒支大學(xué)圖書館)
隨著全社會(huì)對數(shù)據(jù)管理的關(guān)注度日益提高,專業(yè)化、高效化的數(shù)據(jù)管理機(jī)構(gòu)應(yīng)運(yùn)而生。格羅寧根大學(xué)圖書館專門成立了研究數(shù)據(jù)辦公室,幫助研究人員采集、保存、管理數(shù)據(jù),并為項(xiàng)目申報(bào)書中的數(shù)據(jù)管理計(jì)劃編制提供建議。鹿特丹大學(xué)數(shù)據(jù)服務(wù)中心為研究人員提供數(shù)據(jù)管理計(jì)劃模板,配備數(shù)據(jù)管理團(tuán)隊(duì),開設(shè)數(shù)據(jù)管理培訓(xùn)課程。萊頓大學(xué)數(shù)字管理中心、代爾夫特理工大學(xué)、阿姆斯特丹大學(xué)、烏得勒支大學(xué)的圖書館等均成立了研究數(shù)據(jù)管理中心,負(fù)責(zé)其學(xué)校的數(shù)據(jù)管理。數(shù)據(jù)管理機(jī)構(gòu)的功能有:建議和協(xié)助研究人員完成數(shù)據(jù)管理,在編制數(shù)據(jù)管理計(jì)劃中提供信息幫助和服務(wù);厘清數(shù)據(jù)管理中的法律法規(guī)問題,如數(shù)據(jù)保護(hù)法、寫作模板的同意聲明及版權(quán)、數(shù)據(jù)庫法、數(shù)據(jù)共享許可證等;保護(hù)數(shù)據(jù)隱私和商業(yè)敏感數(shù)據(jù),同時(shí)保證數(shù)據(jù)分類明確,安全性好,可訪問;制定并建立數(shù)據(jù)標(biāo)準(zhǔn),對元數(shù)據(jù)進(jìn)行規(guī)范化和統(tǒng)一化;提供數(shù)據(jù)支持技術(shù),并進(jìn)行數(shù)據(jù)的歸檔、整理、入庫布局、數(shù)據(jù)分析、維護(hù)與管理;協(xié)助研究人員使用各種工具,如數(shù)據(jù)數(shù)字化工具、數(shù)據(jù)創(chuàng)建工具和保存軟件等,并引入第三方服務(wù)和相關(guān)管理;制定成本預(yù)算,并對數(shù)據(jù)保存進(jìn)行論證。
個(gè)人數(shù)據(jù)是指一些可鑒定、描述個(gè)人的一些研究數(shù)據(jù),包括個(gè)人的直接數(shù)據(jù)和間接引用的特定數(shù)據(jù),如姓名、職業(yè)、年齡、地址、電話號碼等,還包括“敏感”個(gè)人數(shù)據(jù):宗教信仰、種族民族、政治偏好、健康狀況、性取向、體檢數(shù)據(jù)、基因數(shù)據(jù)、會(huì)員資格、犯罪記錄、經(jīng)濟(jì)狀況等。個(gè)人數(shù)據(jù)會(huì)給個(gè)人的基本權(quán)利和自由帶來很大的風(fēng)險(xiǎn),因此需要特殊的保護(hù)。
通用數(shù)據(jù)保護(hù)條例要求研究人員對個(gè)人數(shù)據(jù)處理的方法和目的提供清晰透徹的說明,并在研究之前、過程中和之后做好保護(hù),如調(diào)整數(shù)據(jù)管理計(jì)劃、開展數(shù)據(jù)分類、個(gè)人數(shù)據(jù)匿名化或假名化,設(shè)置保密協(xié)議和知情同意書、共享分級等。當(dāng)從收集參與者的個(gè)人數(shù)據(jù)時(shí),按法律規(guī)定,需要這些參與者的知情同意,才能處理和傳播數(shù)據(jù);當(dāng)個(gè)人數(shù)據(jù)在兩個(gè)法律實(shí)體之間傳送或者第三方將利用這些數(shù)據(jù)時(shí),應(yīng)簽訂數(shù)據(jù)傳送協(xié)議和處理協(xié)議,防止數(shù)據(jù)被誤用或非法訪問。
當(dāng)存在下列情形時(shí),應(yīng)獲得知情同意:任何個(gè)人信息有可能被識(shí)別時(shí),應(yīng)在共享或者公開前去除或修改身份信息;當(dāng)獲得參與者的名字、地址和健康等個(gè)人信息時(shí),研究后應(yīng)銷毀、或去身份化、代碼覆蓋;應(yīng)保密與身份信息對應(yīng)的代碼,且只能被負(fù)責(zé)人或研究團(tuán)隊(duì)關(guān)鍵成員安全獲??;當(dāng)個(gè)人數(shù)據(jù)在發(fā)表、共享和再利用時(shí),應(yīng)完全保密;當(dāng)同意保密協(xié)議,并得到研究團(tuán)隊(duì)的批準(zhǔn)時(shí),其他研究人員可以訪問敏感數(shù)據(jù)和去身份數(shù)據(jù);當(dāng)不使用名字或可被識(shí)別的信息時(shí),個(gè)人同意的數(shù)據(jù)可發(fā)表或供公開使用。書面知情同意文件應(yīng)描述數(shù)據(jù)采集的目的、個(gè)人數(shù)據(jù)的未來使用、知情同意的范圍,并提出數(shù)據(jù)機(jī)密性的保護(hù)措施、去除個(gè)人身份信息、個(gè)人信息保留時(shí)間等,需包含一份信息表、一個(gè)簽字的簡短同意書。參與研究項(xiàng)目、對數(shù)據(jù)進(jìn)行歸檔和共享簽署同意書,有利于數(shù)據(jù)具有長期價(jià)值和可重復(fù)研究。
在個(gè)人數(shù)據(jù)的共享中應(yīng)采取的安全措施:個(gè)人隱私或敏感數(shù)據(jù)必須去識(shí)別化和訪問批準(zhǔn),完全匿名化或嚴(yán)格保密;承諾使用完滅除數(shù)據(jù);注意同意書的截止時(shí)間;數(shù)據(jù)訪問以研究團(tuán)隊(duì)為主。關(guān)于知情同意的指導(dǎo)文件有很多:UK Data Service發(fā)布的Consent for data sharing;澳大利亞國家數(shù)據(jù)中心(Australian National Data Service)發(fā)布的Data sharing considerations for Human Research Ethics Committees、Ethics,consent&data sharing;密歇根大學(xué)社會(huì)研究所(Institute for Social Research at the University of Michigan)發(fā)布的Recommended Informed Consent Language for Data Sharing等。
針對研究人員的數(shù)據(jù)工具分為:存儲(chǔ)、備份、共享、傳輸、加密等數(shù)據(jù)保存與管理的工具:交互計(jì)算、高效計(jì)算、數(shù)據(jù)互作等數(shù)據(jù)分析和模擬的工具;制定數(shù)據(jù)管理計(jì)劃的工具(如DMP online)。研究單位可提供的工具有:交互計(jì)算工具,如R studio/R、MATLAB、SPSS、SAS、STATA;以及高效計(jì)算設(shè)備,如GPU和較大的內(nèi)存(64+GB)電腦,或者Utrecht BioInformatics Center(UBC)工作站、多設(shè)備集成的國家科學(xué)研究計(jì)算中心;數(shù)據(jù)互作的網(wǎng)絡(luò)服務(wù)器。相關(guān)的數(shù)據(jù)服務(wù)有:設(shè)計(jì)元數(shù)據(jù)表、草擬數(shù)據(jù)協(xié)議和政策、針對數(shù)據(jù)管理計(jì)劃和處理的網(wǎng)上培訓(xùn)和專題研討等。以數(shù)據(jù)保存服務(wù)為例(見表5),應(yīng)綜合考慮數(shù)據(jù)類型、大小、數(shù)據(jù)產(chǎn)生率、保存時(shí)間、數(shù)據(jù)質(zhì)量、訪問機(jī)制、特別是數(shù)據(jù)共享與否、數(shù)據(jù)分類及其敏感性、保存的物理地址、基于可靠性和最低價(jià)格的數(shù)據(jù)備份等,這些需要在數(shù)據(jù)管理管理計(jì)劃詳細(xì)說明。
大學(xué)圖書館的數(shù)據(jù)館員作為研究人員智力支持的一部分,幫助研究人員創(chuàng)建數(shù)據(jù)管理計(jì)劃,為數(shù)據(jù)發(fā)表做準(zhǔn)備,并對數(shù)據(jù)進(jìn)行整理、格式化和版本化,上傳、保存、保護(hù)、發(fā)布數(shù)據(jù),提高數(shù)據(jù)的訪問和管理效率,協(xié)助完成資助者的要求、實(shí)現(xiàn)數(shù)據(jù)再利用、保證科學(xué)誠信。數(shù)據(jù)館員工作為有償服務(wù),可兼職,可全職。一個(gè)合格的數(shù)據(jù)館員必須具有如下優(yōu)點(diǎn):熟悉數(shù)據(jù)指導(dǎo)方針和規(guī)章制度、能和專業(yè)人士友好合作、頭腦靈活、有時(shí)間、在項(xiàng)目全過程或項(xiàng)目之間提供持續(xù)的服務(wù)、幫助研究人員拓展知識(shí)、服務(wù)價(jià)格更低廉合理。此外,研究數(shù)據(jù)管理支持(Research Data Management Support,RDMS)可 以幫助研究人員搜索已有的數(shù)據(jù),找到可再利用的數(shù)據(jù)集、核對數(shù)據(jù)集的使用條例、對數(shù)據(jù)再用提出建議和使用技巧、幫助研究人員及小組創(chuàng)建元數(shù)據(jù)表和進(jìn)行數(shù)據(jù)描述。
總之,對研究數(shù)據(jù)應(yīng)在研究前、研究中和研究后實(shí)行全過程管理,從產(chǎn)生、采集、保存、發(fā)布、共享、再利用、保護(hù)等角度均要考慮數(shù)據(jù)的大小、成本、政策、隱私、工具、服務(wù)、支持等,以期使數(shù)據(jù)最大程度上可被搜索、可獲取、可操作和可重復(fù)利用。
表5 數(shù)據(jù)存儲(chǔ)的服務(wù)方式(烏得勒支大學(xué)圖書館)