胡卉 吳鳴
摘 要:文章首先分析歸納了科研工作流與數(shù)據(jù)生命周期的一般流程,接著調(diào)研數(shù)據(jù)素養(yǎng)核心能力研究現(xiàn)狀,剖析國(guó)內(nèi)外學(xué)者提出的幾種較有代表性的數(shù)據(jù)素養(yǎng)核心能力體系,最后梳理了嵌入科研工作流和數(shù)據(jù)生命周期的數(shù)據(jù)素養(yǎng)核心內(nèi)容體系,繪制了研究人員應(yīng)具備的數(shù)據(jù)素養(yǎng)能力框架。
關(guān)鍵詞:數(shù)據(jù)素養(yǎng);科研工作流;科研數(shù)據(jù)生命周期
中圖分類號(hào): G254.97 文獻(xiàn)標(biāo)識(shí)碼: A DOI:10.11968/tsyqb.1003-6938.2016085
Core Competencies of Data Literacy Embedded in Research Workflow and Data Lifecycle
Abstract The research work flow processes and general research data lifecycle are summarized at first, and then research status of data literacy core competencies is investigated and several representative core competencies frameworks are analyzed, and finally core competencies framework of data literacy around research work flow processes and research data lifecycle are built.
Key words data literacy; research workflow; research data lifecycle
1 引言
大數(shù)據(jù)時(shí)代的到來(lái)正在改變21世紀(jì)公民的素養(yǎng)格局,尤其是數(shù)據(jù)密集型第四科研范式下,具備良好的數(shù)據(jù)素養(yǎng)和熟練的數(shù)據(jù)技能已成為研究群體開(kāi)展研究工作的重要能力保障[1]。然而,實(shí)踐工作中龐大的數(shù)據(jù)量和復(fù)雜的數(shù)據(jù)管理問(wèn)題使得研究人員面臨嚴(yán)峻挑戰(zhàn),為適應(yīng)數(shù)據(jù)驅(qū)動(dòng)的新型研究環(huán)境,應(yīng)對(duì)科研實(shí)踐中的各種數(shù)據(jù)問(wèn)題,培養(yǎng)研究人員的數(shù)據(jù)素養(yǎng)能力勢(shì)在必行。那么數(shù)據(jù)素養(yǎng)是什么?M.Schield[2]認(rèn)為數(shù)據(jù)素養(yǎng)是根據(jù)科研需求在不同數(shù)據(jù)源中獲取、操作和總結(jié)數(shù)據(jù),并從中推斷結(jié)論的一種能力;J.Qin和D.Ignazio[3]認(rèn)為數(shù)據(jù)素養(yǎng)是“研究者在科研過(guò)程中收集、處理、操作、評(píng)估和利用數(shù)據(jù)的能力”;P.Calzada和 M .粵憶.Marzal[4]認(rèn)為數(shù)據(jù)素養(yǎng)“包含個(gè)人獲取、理解、批判性地評(píng)估和管理數(shù)據(jù)的能力,并在使用數(shù)據(jù)的過(guò)程中遵守道德規(guī)范”??傮w而言,數(shù)據(jù)素養(yǎng)強(qiáng)調(diào)的是一種正當(dāng)?shù)匕l(fā)現(xiàn)和獲取數(shù)據(jù)、批判地選擇和評(píng)估數(shù)據(jù)、規(guī)范地管理和處理數(shù)據(jù)、合理地利用和共享數(shù)據(jù)的意識(shí)和能力。
目前,國(guó)內(nèi)外學(xué)者已就數(shù)據(jù)素養(yǎng)能力體系展開(kāi)探索,并積累了一定的成果和經(jīng)驗(yàn),主要集中在三個(gè)方面:一是從數(shù)據(jù)素養(yǎng)的概念和內(nèi)涵出發(fā),梳理數(shù)據(jù)素養(yǎng)包含的各種能力,如J.Qin[3]、郝媛玲和沈婷婷[5]等;二是圖書館員在長(zhǎng)期從事科研數(shù)據(jù)管理服務(wù)的基礎(chǔ)上,概括和總結(jié)數(shù)據(jù)管理過(guò)程中所需的技能,如Carlson.J[6]、A.L.Ogier[7]等;三是從數(shù)據(jù)素養(yǎng)的上位類概念信息素養(yǎng)出發(fā),在信息素養(yǎng)能力標(biāo)準(zhǔn)中提取數(shù)據(jù)相關(guān)的能力,如C. P.Javier 和M.粵憶. Marzal[4]等。然而,從研究項(xiàng)目啟動(dòng)之初的數(shù)據(jù)產(chǎn)生、項(xiàng)目實(shí)施中的數(shù)據(jù)處理和分析到項(xiàng)目結(jié)題時(shí)基于數(shù)據(jù)得出研究結(jié)論、發(fā)表科研成果,再到后續(xù)研究中對(duì)數(shù)據(jù)的二次開(kāi)發(fā)和利用,科研數(shù)據(jù)已成為科學(xué)研究工作的基本單元滲透到科研工作流的各個(gè)環(huán)節(jié),數(shù)據(jù)素養(yǎng)與科研工作流、科研數(shù)據(jù)生命周期密不可分。因此,構(gòu)建嵌入科研工作流、圍繞科研數(shù)據(jù)生命周期的數(shù)據(jù)素養(yǎng)能力框架,對(duì)于更好地培養(yǎng)研究人員的數(shù)據(jù)意識(shí)和數(shù)據(jù)管理技能具有重要意義?;诖耍疚膹目蒲泄ぷ髁骱蛿?shù)據(jù)生命周期的一般流程出發(fā),調(diào)研了數(shù)據(jù)素養(yǎng)核心能力研究現(xiàn)狀,整理并分析了國(guó)內(nèi)外學(xué)者提出的幾種典型的數(shù)據(jù)素養(yǎng)核心能力體系,梳理并歸納了嵌入科研工作流和數(shù)據(jù)生命周期的數(shù)據(jù)素養(yǎng)核心內(nèi)容體系,繪制研究人員應(yīng)具備的數(shù)據(jù)素養(yǎng)技能流程圖,以期為衡量研究人員的數(shù)據(jù)素養(yǎng)能力和探索數(shù)據(jù)素養(yǎng)教育實(shí)踐提供參考和建議。
2 科研工作流與數(shù)據(jù)生命周期
數(shù)據(jù)從收集(或形成)、加工、保存、傳播、檢索、存取與利用,到消失或不再被利用的過(guò)程,就是數(shù)據(jù)的生命周期[8]。隨著科技的發(fā)展和時(shí)代的快速進(jìn)步,有些數(shù)據(jù)永久地休眠,再也得不到利用;而很大一部分?jǐn)?shù)據(jù)卻只是進(jìn)入了暫時(shí)的休眠狀態(tài),它們將來(lái)可能會(huì)根據(jù)人類的需要再次被激活和更新,進(jìn)入下一個(gè)“生命周期”,周而復(fù)始,生生不息。在數(shù)字科研環(huán)境下,“生命周期”不同于產(chǎn)生到消亡的“生命期”,它是一個(gè)循環(huán)過(guò)程,經(jīng)過(guò)數(shù)字資源管理和長(zhǎng)期保存,實(shí)現(xiàn)數(shù)字資源發(fā)現(xiàn)和再利用[9]。在科研實(shí)踐過(guò)程中,處于生命周期不同階段的數(shù)據(jù)具有顯著差異,不論是數(shù)據(jù)的類型格式還是內(nèi)容含義,亦或數(shù)據(jù)的量級(jí)特性,均不可一概而論。正確認(rèn)識(shí)科研數(shù)據(jù)生命周期,把握生命周期各個(gè)階段的數(shù)據(jù)特性,培養(yǎng)良好的數(shù)據(jù)素養(yǎng)能力,是實(shí)現(xiàn)科研數(shù)據(jù)規(guī)范管理和發(fā)揮數(shù)據(jù)價(jià)值最大化的前提和基礎(chǔ)。
目前,科研工作流與數(shù)據(jù)生命周期已得到業(yè)界的廣泛重視,英國(guó)聯(lián)合信息系統(tǒng)委員會(huì)(JISC)、美國(guó)地質(zhì)調(diào)查局(USGS)等國(guó)家組織委員會(huì),英國(guó)數(shù)據(jù)管理中心(DCC)、英國(guó)數(shù)據(jù)檔案(UKDA)、地球數(shù)據(jù)觀察網(wǎng)絡(luò)(DataONE)等數(shù)據(jù)管理專業(yè)機(jī)構(gòu)以及弗吉尼亞大學(xué)、阿爾伯塔大學(xué)、昆士蘭大學(xué)等學(xué)術(shù)研究機(jī)構(gòu)紛紛就科研數(shù)據(jù)生命周期展開(kāi)探索研究,建立科研工作流與數(shù)據(jù)生命周期模型,以規(guī)范和指導(dǎo)數(shù)據(jù)管理工作的正常開(kāi)展。
為深入了解科研實(shí)踐的具體流程,筆者選取了國(guó)際上較典型的科研數(shù)據(jù)生命周期進(jìn)行剖析,以總結(jié)和梳理科研工作流和數(shù)據(jù)生命周期的一般流程。8種模型具體為:英國(guó)高等教育、繼續(xù)教育和技能培訓(xùn)提供研究支撐的英國(guó)聯(lián)合信息系統(tǒng)委員會(huì)(JISC)[10];英國(guó)專門負(fù)責(zé)大型社會(huì)和經(jīng)濟(jì)數(shù)據(jù)的采集、監(jiān)管并提供數(shù)據(jù)訪問(wèn)與獲取的專業(yè)機(jī)構(gòu)英國(guó)數(shù)據(jù)檔案(UKDA)[11];世界領(lǐng)先的數(shù)字信息管理中心英國(guó)數(shù)字內(nèi)容管理中心(DCC)[12];世界上最大的社會(huì)科學(xué)數(shù)據(jù)中心美國(guó)校際社會(huì)科學(xué)數(shù)據(jù)共享聯(lián)盟(ICPSR)[13];地球環(huán)境科學(xué)領(lǐng)域的數(shù)據(jù)管理專業(yè)組織地球數(shù)據(jù)觀察網(wǎng)絡(luò)(DataONE)[14];專注于統(tǒng)計(jì)數(shù)據(jù)和社會(huì)科學(xué)數(shù)據(jù)描述的國(guó)際標(biāo)準(zhǔn)協(xié)會(huì)數(shù)據(jù)文檔倡議聯(lián)盟(DDI)[15];美國(guó)弗吉尼亞大學(xué)圖書館[16];加拿大阿爾伯塔大學(xué)圖書館[17](見(jiàn)表1)。
筆者在分析梳理國(guó)外典型科研工作流與數(shù)據(jù)生命周期模型的基礎(chǔ)上,結(jié)合國(guó)內(nèi)研究實(shí)踐,繪制了嵌入科研工作流的科研數(shù)據(jù)生命周期一般流程(見(jiàn)圖1)。除了項(xiàng)目啟動(dòng)、項(xiàng)目實(shí)施和項(xiàng)目結(jié)項(xiàng)三個(gè)核心階段外,還包括項(xiàng)目啟動(dòng)前的研究構(gòu)想以及項(xiàng)目結(jié)束后的后續(xù)研究??蒲袛?shù)據(jù)生命周期的一般流程包括八個(gè)階段,分別是數(shù)據(jù)管理計(jì)劃、數(shù)據(jù)產(chǎn)生與收集、數(shù)據(jù)管理與組織、數(shù)據(jù)處理與分析、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)發(fā)表與共享、數(shù)據(jù)發(fā)現(xiàn)與獲取、數(shù)據(jù)再利用,各個(gè)階段環(huán)環(huán)相扣,緊密相連。下文將以此為基礎(chǔ)梳理和構(gòu)建圍繞科研工作流和數(shù)據(jù)生命周期的數(shù)據(jù)素養(yǎng)能力框架。
3 數(shù)據(jù)素養(yǎng)核心能力研究現(xiàn)狀
能力標(biāo)準(zhǔn)為圖書館服務(wù)開(kāi)展和各級(jí)各類教學(xué)提供了明確的目標(biāo)和方向,也為各個(gè)機(jī)構(gòu)的課程設(shè)計(jì)提供了基本的框架和指南[18]。數(shù)據(jù)素養(yǎng)是信息素養(yǎng)的子集,目前,信息素養(yǎng)領(lǐng)域已建立了較完善的能力標(biāo)準(zhǔn)體系,既有以美國(guó)、英國(guó)、澳大利亞、加拿大等區(qū)域性信息素養(yǎng)能力標(biāo)準(zhǔn),又有面向中小學(xué)教育、高等教育的層級(jí)性信息素養(yǎng)能力標(biāo)準(zhǔn),以及大眾傳播學(xué)、人類與社會(huì)科學(xué)、護(hù)理學(xué)、科學(xué)與工程技術(shù)等以學(xué)科劃分的領(lǐng)域信息素養(yǎng)能力標(biāo)準(zhǔn)。盡管這些標(biāo)準(zhǔn)對(duì)于數(shù)據(jù)素養(yǎng)評(píng)估和教學(xué)有一定的參考意義,但就數(shù)據(jù)素養(yǎng)應(yīng)用實(shí)踐而言,仍亟需數(shù)據(jù)素養(yǎng)能力標(biāo)準(zhǔn)或框架來(lái)衡量研究人員的數(shù)據(jù)素養(yǎng)能力和指導(dǎo)數(shù)據(jù)素養(yǎng)教育工作的開(kāi)展。
目前,這一問(wèn)題已獲得國(guó)內(nèi)外學(xué)者的廣泛關(guān)注,他們從不同的角度,結(jié)合數(shù)據(jù)管理服務(wù)和數(shù)據(jù)素養(yǎng)教育探索的實(shí)踐經(jīng)驗(yàn),構(gòu)建數(shù)據(jù)素養(yǎng)能力體系,推動(dòng)數(shù)據(jù)管理培訓(xùn)和數(shù)據(jù)素養(yǎng)教育的發(fā)展。如美國(guó)雪城大學(xué)J.Qin等[3]對(duì)比了信息素養(yǎng)、數(shù)字素養(yǎng)和科學(xué)數(shù)據(jù)素養(yǎng)的不同概念,指出科學(xué)數(shù)據(jù)素養(yǎng)包含數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)管理、數(shù)據(jù)評(píng)估和數(shù)據(jù)利用五個(gè)方面的技巧和能力。并以此為基礎(chǔ),為學(xué)校STEM各專業(yè)本科生開(kāi)設(shè)科學(xué)數(shù)據(jù)素養(yǎng)課程;美國(guó)弗吉尼亞理工大學(xué)圖書館為滿足學(xué)校師生的數(shù)據(jù)管理需求,A.L.Ogier等[7]圖書館員開(kāi)發(fā)了數(shù)據(jù)素養(yǎng)課程,其教育內(nèi)容模型包括八個(gè)方面:數(shù)據(jù)管理與組織、數(shù)據(jù)轉(zhuǎn)換與互操作性、數(shù)據(jù)共享與獲取、元數(shù)據(jù)與質(zhì)量控制、數(shù)據(jù)科學(xué)、數(shù)據(jù)監(jiān)管、數(shù)據(jù)存檔與保存、數(shù)據(jù)倫理與責(zé)任;美國(guó)印第安納大學(xué)圖書館S.Konkiel等[19]設(shè)計(jì)了包含10種能力的數(shù)據(jù)素養(yǎng)核心能力框架:數(shù)據(jù)管理與組織、數(shù)據(jù)格式與數(shù)據(jù)類型、數(shù)據(jù)可視化、數(shù)據(jù)質(zhì)量控制、數(shù)據(jù)發(fā)現(xiàn)與獲取、數(shù)據(jù)分析、元數(shù)據(jù)、數(shù)據(jù)倫理、數(shù)據(jù)保存、數(shù)據(jù)復(fù)用,將數(shù)據(jù)管理素養(yǎng)集成到數(shù)據(jù)可視化課程中,根據(jù)學(xué)生的數(shù)據(jù)技能需求,有針對(duì)性地制定學(xué)習(xí)目標(biāo)和評(píng)估方案;巴西里約熱內(nèi)盧聯(lián)邦大學(xué)A.Tygel和R.Kirsch [20]基于教育學(xué)家P.Freire的素養(yǎng)模型定義了數(shù)據(jù)素養(yǎng)核心能力,包括數(shù)據(jù)讀?。〝?shù)據(jù)意識(shí)、數(shù)據(jù)發(fā)現(xiàn)與獲取、數(shù)據(jù)收集)、數(shù)據(jù)處理(數(shù)據(jù)處理技術(shù)、數(shù)據(jù)處理工具)、數(shù)據(jù)交流(數(shù)據(jù)類型、數(shù)據(jù)格式、數(shù)據(jù)評(píng)估、數(shù)據(jù)倫理)和數(shù)據(jù)生產(chǎn)(數(shù)據(jù)格式、數(shù)據(jù)發(fā)表工具)四種核心能力,用以指導(dǎo)和規(guī)范圖書館的數(shù)據(jù)管理課程;西班牙卡洛斯三世大學(xué)P.Javier 和M.粵憶.Marzal等[4]從信息素養(yǎng)能力標(biāo)準(zhǔn)出發(fā),選取美國(guó)學(xué)校圖書館員協(xié)會(huì)(AASL)制定的《共同核心州立標(biāo)準(zhǔn)》、美國(guó)大學(xué)與研究圖書館協(xié)會(huì)(ACRL)制定的《高等教育信息素養(yǎng)能力標(biāo)準(zhǔn)》、《科學(xué)與工程技術(shù)信息素養(yǎng)能力標(biāo)準(zhǔn)》、《人類學(xué)與社會(huì)科學(xué)信息素養(yǎng)能力標(biāo)準(zhǔn)》、《護(hù)理學(xué)信息素養(yǎng)能力標(biāo)準(zhǔn)》、《政治學(xué)信息素養(yǎng)能力標(biāo)準(zhǔn)》,梳理其中有關(guān)數(shù)據(jù)管理的內(nèi)容,結(jié)合圖書館科學(xué)數(shù)據(jù)管理服務(wù),構(gòu)建了包含數(shù)據(jù)意識(shí)(什么是數(shù)據(jù)、數(shù)據(jù)背景)、數(shù)據(jù)發(fā)現(xiàn)和獲?。〝?shù)據(jù)來(lái)源、數(shù)據(jù)獲取方法)、數(shù)據(jù)閱讀理解和評(píng)價(jià)(數(shù)據(jù)閱讀與表達(dá)、數(shù)據(jù)評(píng)估)、數(shù)據(jù)管理(數(shù)據(jù)和元數(shù)據(jù)的收集與管理)、數(shù)據(jù)利用(數(shù)據(jù)操作、數(shù)據(jù)分析、數(shù)據(jù)使用倫理)五大指標(biāo)的數(shù)據(jù)素養(yǎng)核心能力框架;瑞士R.Schneider[21]在“全球信息素養(yǎng)研究與實(shí)踐的共性與挑戰(zhàn)”大會(huì)上指出科研數(shù)據(jù)素養(yǎng)和數(shù)據(jù)管理能力包括8個(gè)方面的內(nèi)容,分別是數(shù)據(jù)識(shí)別、數(shù)據(jù)處理、數(shù)據(jù)計(jì)劃、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)保護(hù)、數(shù)據(jù)評(píng)估、數(shù)據(jù)管理、數(shù)據(jù)交流。國(guó)內(nèi)學(xué)者也在構(gòu)建數(shù)據(jù)素養(yǎng)能力體系方面取得了一定的研究成果。如上海大學(xué)的郝媛玲和沈婷婷[5]認(rèn)為數(shù)據(jù)素養(yǎng)的核心內(nèi)容包含五個(gè)方面的基本要素,分別是數(shù)據(jù)態(tài)度(數(shù)據(jù)道德觀、數(shù)據(jù)價(jià)值觀)、數(shù)據(jù)意識(shí)(主體意識(shí)、獲取意識(shí)、共享意識(shí)、更新意識(shí)、安全意識(shí)、人才意識(shí))、數(shù)據(jù)知識(shí)(特點(diǎn)與類型、作用于效應(yīng)、規(guī)律與規(guī)范、轉(zhuǎn)換方式、搜索方法)、數(shù)據(jù)技能(獲取、處理、利用、展示、評(píng)價(jià)、再創(chuàng)造)和數(shù)據(jù)倫理(法制觀念、數(shù)據(jù)安全、數(shù)據(jù)道德、知識(shí)產(chǎn)權(quán)),旨在為我國(guó)建立數(shù)據(jù)素養(yǎng)培養(yǎng)機(jī)制提供建議。
為了更深入展示國(guó)內(nèi)外數(shù)據(jù)素養(yǎng)能力體系研究現(xiàn)狀,筆者選取了美國(guó)普渡大學(xué)圖書館研究團(tuán)隊(duì)、加拿大達(dá)爾豪斯大學(xué)圖書館研究團(tuán)隊(duì)和國(guó)內(nèi)華東師范大學(xué)團(tuán)隊(duì)構(gòu)建的數(shù)據(jù)素養(yǎng)核心能力框架作為案例進(jìn) 行詳細(xì)介紹。
(1)普渡大學(xué)圖書館
普渡大學(xué)、康奈爾大學(xué)、明尼蘇達(dá)大學(xué)和俄勒岡大學(xué)四校圖書館聯(lián)合開(kāi)展數(shù)據(jù)信息素養(yǎng)教育項(xiàng)目(DIL),以Carlson.J為代表的研究團(tuán)隊(duì)通過(guò)剖析ACRL《高等教育信息素養(yǎng)標(biāo)準(zhǔn)》,訪談?wù){(diào)研教師和學(xué)生的數(shù)據(jù)信息素養(yǎng)需求,并總結(jié)地理信息學(xué)等圖書館課程經(jīng)驗(yàn),構(gòu)建了包含12項(xiàng)核心能力的數(shù)據(jù)素養(yǎng)框架體系:數(shù)據(jù)實(shí)踐規(guī)范、數(shù)據(jù)轉(zhuǎn)換與互操作、數(shù)據(jù)監(jiān)管和再利用、數(shù)據(jù)管理和組織、數(shù)據(jù)保存、數(shù)據(jù)處理和分析、數(shù)據(jù)質(zhì)量和記錄、數(shù)據(jù)可視化和表示、數(shù)據(jù)庫(kù)和數(shù)據(jù)格式、數(shù)據(jù)發(fā)現(xiàn)和獲取、元數(shù)據(jù)和數(shù)據(jù)描述、數(shù)據(jù)倫理與道德(見(jiàn)表2)。DIL項(xiàng)目組在該能力框架的基礎(chǔ)上,調(diào)研自然資源、土木工程、計(jì)算機(jī)科學(xué)等不同領(lǐng)域研究群體的數(shù)據(jù)需求,根據(jù)需求設(shè)計(jì)課程大綱展開(kāi)針對(duì)性培訓(xùn)和教育,提高研究人員的數(shù)據(jù)管理能力[6]。
(2)加拿大達(dá)爾豪斯大學(xué)圖書館
加拿大達(dá)爾豪斯大學(xué)圖書館的C. Ridsdale等[22]學(xué)者在數(shù)據(jù)管理服務(wù)經(jīng)驗(yàn)的基礎(chǔ)上梳理出科研人員在數(shù)據(jù)管理過(guò)程中所需的數(shù)據(jù)素養(yǎng)能力,構(gòu)建了包括數(shù)據(jù)管理概念、數(shù)據(jù)收集、數(shù)據(jù)管理、數(shù)據(jù)評(píng)估和數(shù)據(jù)應(yīng)用五方面的數(shù)據(jù)素養(yǎng)能力矩陣(見(jiàn)表3),擬在能力矩陣的基礎(chǔ)上設(shè)計(jì)數(shù)據(jù)素養(yǎng)課程,幫助學(xué)校師生員工提高數(shù)據(jù)管理技能。
(3)華東師范大學(xué)隆茜
我國(guó)華東師范大學(xué)的隆茜[23]在綜合國(guó)內(nèi)外文獻(xiàn)對(duì)數(shù)據(jù)素養(yǎng)內(nèi)涵、組成能力的闡述的基礎(chǔ)上,從數(shù)據(jù)意識(shí)、數(shù)據(jù)獲取能力、數(shù)據(jù)處理與分析能力、數(shù)據(jù)交流能力、數(shù)據(jù)評(píng)價(jià)能力和數(shù)據(jù)道德六個(gè)維度構(gòu)建了高校師生數(shù)據(jù)素養(yǎng)能力評(píng)價(jià)指標(biāo)體系(見(jiàn)表4)。并以此為基礎(chǔ)編制數(shù)據(jù)素養(yǎng)能力調(diào)查問(wèn)卷,分析高校師生的數(shù)據(jù)素養(yǎng)能力現(xiàn)狀,為數(shù)據(jù)素養(yǎng)教育奠定基礎(chǔ)。
筆者對(duì)以上10種數(shù)據(jù)素養(yǎng)能力框架進(jìn)行梳理與解析,深入剖析能力框架的構(gòu)成要素,共羅列了21種數(shù)據(jù)素養(yǎng)技能,分別是數(shù)據(jù)意識(shí)、數(shù)據(jù)收集與創(chuàng)建、數(shù)據(jù)轉(zhuǎn)換與互操作、數(shù)據(jù)管理與組織、數(shù)據(jù)保存、數(shù)據(jù)處理與分析(技術(shù)和工具)、數(shù)據(jù)質(zhì)量控制、數(shù)據(jù)可視化、數(shù)據(jù)類型、數(shù)據(jù)格式、數(shù)據(jù)發(fā)現(xiàn)與獲取、元數(shù)據(jù)、數(shù)據(jù)倫理與道德、數(shù)據(jù)評(píng)估、數(shù)據(jù)利用與復(fù)用、數(shù)據(jù)共享、數(shù)據(jù)長(zhǎng)期保存、數(shù)據(jù)安全、數(shù)據(jù)解讀、數(shù)據(jù)引用、數(shù)據(jù)交流,各能力框架及其對(duì)應(yīng)的數(shù)據(jù)素養(yǎng)技能(見(jiàn)表5),這將為本文構(gòu)建科研數(shù)據(jù)生命周期的數(shù)據(jù)素養(yǎng)核心能力框架提供參考和借鑒。
4 嵌入科研工作流與數(shù)據(jù)生命周期的數(shù)據(jù)素養(yǎng)能力框架
在考察數(shù)據(jù)素養(yǎng)核心能力研究現(xiàn)狀、總結(jié)科研工作流和科研數(shù)據(jù)生命周期的一般流程的基礎(chǔ)上,本文梳理了嵌入科研工作流與數(shù)據(jù)生命周期的數(shù)據(jù)素養(yǎng)核心能力框架(見(jiàn)圖2)。數(shù)據(jù)素養(yǎng)能力框架從科研工作流出發(fā),包括項(xiàng)目啟動(dòng)前的數(shù)據(jù)管理計(jì)劃;項(xiàng)目實(shí)施中的數(shù)據(jù)產(chǎn)生與收集、數(shù)據(jù)管理與組織、數(shù)據(jù)處理與分析、數(shù)據(jù)存儲(chǔ);項(xiàng)目結(jié)題時(shí)的數(shù)據(jù)發(fā)表與共享,以及項(xiàng)目結(jié)束后的數(shù)據(jù)發(fā)現(xiàn)與獲取、數(shù)據(jù)再利用等8個(gè)生命周期階段的22項(xiàng)數(shù)據(jù)管理能力。
(1)數(shù)據(jù)意識(shí)。數(shù)據(jù)意識(shí)是一個(gè)抽象的概念,具體來(lái)說(shuō),作為一名數(shù)據(jù)工作者,應(yīng)理解什么是科研數(shù)據(jù)和為什么要管理科研數(shù)據(jù)等問(wèn)題??蒲袛?shù)據(jù)是為了特定的目標(biāo)所收集、觀測(cè)、創(chuàng)建、分析的信息[24]。良好的數(shù)據(jù)管理實(shí)踐包含但不限于以下優(yōu)點(diǎn):提高研究成果的影響力,增加數(shù)據(jù)引用率;避免重復(fù)勞動(dòng),節(jié)省時(shí)間;確保研究成果可驗(yàn)證性和完整性;保證數(shù)據(jù)安全,降低數(shù)據(jù)丟失的風(fēng)險(xiǎn);滿足資助機(jī)構(gòu)和學(xué)術(shù)出版商的數(shù)據(jù)管理要求;通過(guò)數(shù)據(jù)再利用,促進(jìn)新的知識(shí)發(fā)現(xiàn)[25]??傮w而言,數(shù)據(jù)管理貫穿科研項(xiàng)目始終,良好的科研數(shù)據(jù)管理實(shí)踐是知識(shí)再生的基礎(chǔ)。規(guī)范化地管理科研數(shù)據(jù),是確保數(shù)據(jù)長(zhǎng)期保存和持久訪問(wèn)的關(guān)鍵,也是未來(lái)數(shù)據(jù)被其他研究人員理解和復(fù)用的前提。因此,研究人員在正式著手?jǐn)?shù)據(jù)管理工作之前,應(yīng)具備基本的數(shù)據(jù)意識(shí)。
(2)了解數(shù)據(jù)管理和共享的政策和要求。隨著開(kāi)放獲取事業(yè)的推進(jìn),越來(lái)越多的資助機(jī)構(gòu)(如美國(guó)國(guó)家科學(xué)基金委NSF[26]、美國(guó)國(guó)立衛(wèi)生研究院NIH[27]、美國(guó)航空航天局(NASA)[28]、英國(guó)研究理事會(huì)RCUK[29]、經(jīng)濟(jì)合作與發(fā)展組織OECD[30])、期刊出版商(如Nature、Springer、Wiley、Elsevier、RSC、ACS)以及研究機(jī)構(gòu)(如JISC、ANDS、牛津大學(xué)、麻省理工學(xué)院、劍橋大學(xué)、康奈爾大學(xué))紛紛發(fā)布數(shù)據(jù)管理政策,要求科研人員提交數(shù)據(jù)管理計(jì)劃,規(guī)范科學(xué)數(shù)據(jù)管理流程[31]。在國(guó)內(nèi),2002年科技部牽頭建設(shè)“科學(xué)數(shù)據(jù)共享工程”,目標(biāo)是整合離散的科學(xué)數(shù)據(jù)資源,構(gòu)建面向全社會(huì)的網(wǎng)絡(luò)化、智能化的管理與共享服務(wù)體系[32]。為規(guī)范科學(xué)數(shù)據(jù)匯交和共享,2006年科技部還制定了“國(guó)家科技計(jì)劃項(xiàng)目科學(xué)數(shù)據(jù)匯交暫行辦法”,規(guī)定了匯交科學(xué)數(shù)據(jù)的種類及范圍、數(shù)據(jù)匯交義務(wù)人的權(quán)利與義務(wù)等[33]。期刊出版商發(fā)布了相應(yīng)的數(shù)據(jù)政策,如《現(xiàn)代圖書情報(bào)技術(shù)》雜志要求從2016年起,所有投稿論文需要提交支持論文結(jié)論的科學(xué)數(shù)據(jù),并通過(guò)適當(dāng)方式供研究共同體或社會(huì)公眾共享[34]。在從事科研工作時(shí),研究人員有必要了解并遵守相應(yīng)的數(shù)據(jù)管理政策和規(guī)范。
(3)制定數(shù)據(jù)管理計(jì)劃(工具使用)。許多資助機(jī)構(gòu)明確提出了數(shù)據(jù)管理計(jì)劃要求,如2003年美國(guó)國(guó)立衛(wèi)生研究院發(fā)布數(shù)據(jù)共享政策,指出“所有向NIH申請(qǐng)經(jīng)費(fèi)在500,000美元以上的科研項(xiàng)目,建議但不強(qiáng)制提交一份數(shù)據(jù)管理說(shuō)明文檔,闡述數(shù)據(jù)共享的計(jì)劃和策略,由于特殊原因不能共享的,應(yīng)在說(shuō)明文檔中詳細(xì)說(shuō)明[27]”;2007年,英國(guó)生物技術(shù)和生物科學(xué)研究理事會(huì)要求“其資助的科研項(xiàng)目的申請(qǐng)書必須包含數(shù)據(jù)管理計(jì)劃,作為一份不超過(guò)1頁(yè)的獨(dú)立附件,簡(jiǎn)要說(shuō)明數(shù)據(jù)的管理和共享計(jì)劃[35]”;2011年,美國(guó)國(guó)家科學(xué)基金會(huì)提出“所有提交到NSF的項(xiàng)目申請(qǐng)書必須包含不超過(guò)2頁(yè)的名為《數(shù)據(jù)管理計(jì)劃》的補(bǔ)充文件,詳細(xì)描述該項(xiàng)目將如何根據(jù)NSF傳播和共享科研成果的相關(guān)政策開(kāi)展數(shù)據(jù)管理工作[25]”。為此,國(guó)際數(shù)據(jù)管理組織根據(jù)數(shù)據(jù)管理要求開(kāi)發(fā)了一系列數(shù)據(jù)管理計(jì)劃工具,常用的包括三種:一是面向美國(guó)資助機(jī)構(gòu)要求的由加州大學(xué)數(shù)字圖書館協(xié)會(huì)等協(xié)作開(kāi)發(fā)的DMP Tool[36];二是面向英國(guó)資助機(jī)構(gòu)要求的由DCC開(kāi)發(fā)的DMP Online[37];三是面向加拿大資助機(jī)構(gòu)要求的由阿爾伯塔大學(xué)開(kāi)發(fā)的DMP Assistant(曾用名DMP Builder)[38]。在申請(qǐng)基金項(xiàng)目時(shí),選擇恰當(dāng)?shù)臄?shù)據(jù)管理計(jì)劃工具制定符合資助機(jī)構(gòu)要求的數(shù)據(jù)管理計(jì)劃,已成為申請(qǐng)基金、獲得項(xiàng)目資助的重要前提。
(4)數(shù)據(jù)創(chuàng)建與數(shù)據(jù)收集。在項(xiàng)目之初的數(shù)據(jù)收集階段,研究人員需要考慮是否需要?jiǎng)?chuàng)建新的數(shù)據(jù)集,或是否可以復(fù)用已有的數(shù)據(jù)源。如果需要?jiǎng)?chuàng)建新的數(shù)據(jù),那么應(yīng)考慮使用哪些工具、采用哪種方式、應(yīng)用何種技術(shù)來(lái)創(chuàng)建和收集數(shù)據(jù)。
(5)數(shù)據(jù)發(fā)現(xiàn)與獲取。當(dāng)確定項(xiàng)目需要哪些數(shù)據(jù)時(shí),可以通過(guò)數(shù)據(jù)檢索判斷是否可以復(fù)用已有的數(shù)據(jù),這就需要研究人員具備數(shù)據(jù)發(fā)現(xiàn)和獲取的技能。數(shù)據(jù)獲取的途徑很多,常規(guī)的包括數(shù)據(jù)中心、數(shù)據(jù)倉(cāng)儲(chǔ)、機(jī)構(gòu)知識(shí)庫(kù)等,如英國(guó)數(shù)據(jù)檔案中心、澳大利亞國(guó)家數(shù)據(jù)中心等國(guó)家數(shù)據(jù)中心,生物學(xué)Gen Bank、醫(yī)藥科學(xué)Dryad、地理環(huán)境科學(xué)Pangaea等領(lǐng)域數(shù)據(jù)倉(cāng)儲(chǔ),哈佛大學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)Harvard Dataverse Network、中國(guó)科學(xué)院數(shù)據(jù)云等機(jī)構(gòu)知識(shí)庫(kù)等都支持?jǐn)?shù)據(jù)的開(kāi)放獲取。但需要強(qiáng)調(diào)的是,在檢索和獲取他人數(shù)據(jù)集時(shí),應(yīng)遵守?cái)?shù)據(jù)復(fù)用和數(shù)據(jù)在分配的限制條件。研究人員在使用來(lái)自第三方的數(shù)據(jù)時(shí),需要獲得許可訪問(wèn),在允許的范圍內(nèi)使用科研數(shù)據(jù),使用數(shù)據(jù)引用標(biāo)準(zhǔn)格式注明數(shù)據(jù)原始來(lái)源,以保證數(shù)據(jù)的完整性和真實(shí)性。
(6)數(shù)據(jù)類型。數(shù)據(jù)類型多種多樣,明確數(shù)據(jù)類型有利于高效管理數(shù)據(jù)、提高科研效率。根據(jù)數(shù)據(jù)來(lái)源劃分,可將數(shù)據(jù)分為觀測(cè)型數(shù)據(jù)、實(shí)驗(yàn)型數(shù)據(jù)、仿真數(shù)據(jù)、派生或編譯數(shù)據(jù)、引用或規(guī)范數(shù)據(jù)五種類型[39](見(jiàn)表6)。
(7)數(shù)據(jù)格式、數(shù)據(jù)格式轉(zhuǎn)換與互操作。隨著技術(shù)的發(fā)展,研究人員在存儲(chǔ)數(shù)據(jù)以確保長(zhǎng)期訪問(wèn)時(shí),應(yīng)充分考慮硬件和軟件的存儲(chǔ)設(shè)施,選擇恰當(dāng)?shù)臄?shù)據(jù)格式。如文本文件應(yīng)選擇ODF格式而不是Word格式,表格文件應(yīng)選擇ASCII格式而不是 Excel格式,視頻文件應(yīng)選擇MPEG-4格式而不是 Quicktime格式,圖片文件應(yīng)選擇TIFF或JPEG2000格式而不是GIF或 JPG格式,網(wǎng)頁(yè)應(yīng)選擇XML或RDF格式而不是 RDBMS格式。總體而言,規(guī)范并支持格式轉(zhuǎn)換和互操作的數(shù)據(jù)格式應(yīng)具備以下特點(diǎn):非私有的;開(kāi)放的文檔標(biāo)準(zhǔn);被科研群體普遍使用的數(shù)據(jù)格式;計(jì)算機(jī)可讀的標(biāo)準(zhǔn)化格式,如ASCII、Unicode;非加密的;非壓縮的[40]。
(8)數(shù)據(jù)組織(命名規(guī)則、文件夾組織)。在數(shù)據(jù)完成收集后,應(yīng)對(duì)數(shù)據(jù)進(jìn)行規(guī)范組織,包括數(shù)據(jù)和數(shù)據(jù)集的結(jié)構(gòu)化、制定文件命名規(guī)則等。數(shù)據(jù)結(jié)構(gòu)化時(shí)應(yīng)注意使用文件夾管理數(shù)據(jù)文件,使用具有揭示意義的詞匯來(lái)命名文件夾,使用科學(xué)的文件夾層次結(jié)構(gòu),將正在進(jìn)行的數(shù)據(jù)文件和已經(jīng)分析完成的數(shù)據(jù)文件分開(kāi)保存,設(shè)置最高級(jí)別的訪問(wèn)權(quán)限等。文件命名指采用一致性的邏輯方式對(duì)數(shù)據(jù)和數(shù)據(jù)文件夾進(jìn)行命名,制定文件命名規(guī)則時(shí),可參考以下規(guī)則:文件名稱短但具有揭示意義;日期時(shí)間使用標(biāo)準(zhǔn)格式;避免使用空格鍵;避免使用特殊字符;基于主題內(nèi)容識(shí)別數(shù)據(jù),而不是僅依靠時(shí)間和版本;如果在不同的文件中包含相同的信息,考慮分組存放;在命名中考慮版本信息[41]。
(9)數(shù)據(jù)描述與元數(shù)據(jù)。元數(shù)據(jù)是描述資源特征的結(jié)構(gòu)化信息,對(duì)數(shù)據(jù)進(jìn)行詳細(xì)記錄是數(shù)據(jù)集可發(fā)現(xiàn)和可獲取的前提。使用元數(shù)據(jù)目的是為了更好地描述數(shù)據(jù),揭示數(shù)據(jù)的內(nèi)容特征,不同的學(xué)科領(lǐng)域具有不同的元數(shù)據(jù)標(biāo)準(zhǔn)。如地理空間元數(shù)據(jù)標(biāo)準(zhǔn)(Content Standard for Digital Geospatial Metadata)、天文學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)(Astronomy Visualization Metadata)、生態(tài)學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)(Ecological Metadata Language)等,具體取決于研究項(xiàng)目的數(shù)據(jù)類型、數(shù)據(jù)格式和學(xué)科領(lǐng)域。如果現(xiàn)有的元數(shù)據(jù)標(biāo)準(zhǔn)不能滿足項(xiàng)目的數(shù)據(jù)描述需求,研究人員可創(chuàng)建元數(shù)據(jù)方案,包括描述性版塊、權(quán)利版塊、結(jié)構(gòu)化版塊和技術(shù)信息板塊:描述性版塊即描述數(shù)據(jù)集內(nèi)容的信息,如題名、日期、創(chuàng)建者姓名等;權(quán)利版塊包含數(shù)據(jù)歸屬權(quán)、數(shù)據(jù)的使用和訪問(wèn)權(quán)限等;結(jié)構(gòu)化版塊包括數(shù)據(jù)的邏輯結(jié)構(gòu)、表現(xiàn)形式等;技術(shù)信息版塊指數(shù)據(jù)的技術(shù)特征、數(shù)據(jù)創(chuàng)建軟件、使用方法等[42]。元數(shù)據(jù)是規(guī)范化管理數(shù)據(jù)的基礎(chǔ),是數(shù)據(jù)管理計(jì)劃的重要組成部分,在項(xiàng)目啟動(dòng)前就應(yīng)確定元數(shù)據(jù)記錄方案。
(10)數(shù)據(jù)質(zhì)量控制。數(shù)據(jù)質(zhì)量控制對(duì)抽樣檢查數(shù)據(jù)值的準(zhǔn)確性進(jìn)行二次數(shù)據(jù)錄入,對(duì)比檢查數(shù)據(jù)是否有誤,分組排序,查找離散值和缺失值、統(tǒng)計(jì)計(jì)算極端值和異常值。還可以使用OpenRefine等數(shù)據(jù)清洗工具。在數(shù)據(jù)管理計(jì)劃中還應(yīng)包含數(shù)據(jù)收集的質(zhì)量控制說(shuō)明。包括使用的刻度標(biāo)準(zhǔn)、樣本二次采集和測(cè)量、數(shù)據(jù)采集標(biāo)準(zhǔn)、數(shù)據(jù)準(zhǔn)入標(biāo)準(zhǔn)、數(shù)據(jù)驗(yàn)證和使用的受控詞匯表等[43]。
(11)數(shù)據(jù)處理與分析(技術(shù)、工具)。在完成數(shù)據(jù)的收集和組織后,根據(jù)數(shù)據(jù)類型和預(yù)期結(jié)果選取恰當(dāng)?shù)臄?shù)據(jù)分析方法對(duì)數(shù)據(jù)進(jìn)行處理和分析是得出研究結(jié)論的關(guān)鍵所在。隨著數(shù)據(jù)量的劇增和數(shù)據(jù)問(wèn)題的日益復(fù)雜化,研究人員在處理和分析數(shù)據(jù)時(shí)往往需要借助專業(yè)的數(shù)據(jù)分析工具,如SAS、SPSS、STATA等。此外,在進(jìn)行數(shù)據(jù)建模、仿真計(jì)算時(shí)還需要研究人員掌握一定的計(jì)算機(jī)編程等技術(shù)。
(12)數(shù)據(jù)解讀。數(shù)據(jù)解讀能力主要強(qiáng)調(diào)認(rèn)識(shí)數(shù)據(jù)的內(nèi)容特征和洞察數(shù)據(jù)的實(shí)質(zhì)內(nèi)涵。這要求研究人員具備三方面的能力:一是扎實(shí)的專業(yè)領(lǐng)域知識(shí);二是敏銳的數(shù)據(jù)分析能力;三是精準(zhǔn)的數(shù)據(jù)表達(dá)能力。任何數(shù)據(jù)認(rèn)知錯(cuò)誤和表達(dá)錯(cuò)誤都可能造成研究結(jié)論的巨大差異,導(dǎo)致嚴(yán)重后果。
(13)數(shù)據(jù)可視化。無(wú)處不在的圖像和可視化媒體正在改變21世紀(jì)的素養(yǎng)格局,可視化素養(yǎng)被視為公民的必備素養(yǎng)[44]。大數(shù)據(jù)環(huán)境下,利用數(shù)據(jù)可視化技術(shù)形象、直觀地展示數(shù)據(jù)內(nèi)容和研究結(jié)論已成為學(xué)術(shù)信息交流的重要方式。Gephi、Exhibit和Gnuplot等數(shù)據(jù)可視化軟件在科學(xué)研究中發(fā)揮著重要作用,研究人員應(yīng)學(xué)習(xí)并掌握相應(yīng)的數(shù)據(jù)可視化技能。
(14)數(shù)據(jù)安全與備份(數(shù)據(jù)保存環(huán)境與存儲(chǔ)介質(zhì))。采取數(shù)據(jù)安全措施能夠有效避免數(shù)據(jù)被不當(dāng)訪問(wèn)、使用、修改、傳播和破壞,數(shù)據(jù)安全的含義主要包括:一是網(wǎng)絡(luò)安全,確保機(jī)密數(shù)據(jù)不能上網(wǎng),將敏感信息保存到不能聯(lián)網(wǎng)的計(jì)算機(jī)中;二是物理安全,確保重要資料存放地的安全(如保安看守),尋求可信任的人充當(dāng)計(jì)算機(jī)的故障檢修員;三是計(jì)算機(jī)系統(tǒng)和文件安全,包括更新計(jì)算機(jī)殺毒軟件、避免使用郵件或FTP協(xié)議傳輸保密數(shù)據(jù),在計(jì)算機(jī)和數(shù)據(jù)文件中使用密碼等加密措施;另一種確保數(shù)據(jù)安全的措施是定期進(jìn)行數(shù)據(jù)備份。進(jìn)行可靠地?cái)?shù)據(jù)備份是數(shù)據(jù)管理實(shí)踐的重要環(huán)節(jié)。定期數(shù)據(jù)備份能夠有效規(guī)避數(shù)據(jù)丟失、數(shù)據(jù)損壞、病毒或黑客破壞、停電、軟件損壞以及其他人工錯(cuò)誤。建議對(duì)數(shù)據(jù)進(jìn)行三份備份,即原始數(shù)據(jù)、原始數(shù)據(jù)在本地的備份、原始數(shù)據(jù)在遠(yuǎn)程設(shè)備上的備份[45]。
(15)數(shù)據(jù)版本控制。版本控制是對(duì)數(shù)據(jù)處理不同階段的數(shù)據(jù)進(jìn)行標(biāo)識(shí)的過(guò)程。它能夠?qū)?shù)據(jù)的處理流程進(jìn)行跟蹤,標(biāo)識(shí)哪個(gè)是草案,哪個(gè)是修訂以及哪個(gè)是最新的版本。能夠有效避免數(shù)據(jù)的混亂,尤其是研究小組的人員同時(shí)對(duì)數(shù)據(jù)進(jìn)行處理時(shí)??偟膩?lái)說(shuō),版本控制的優(yōu)點(diǎn)包括可追溯性、可識(shí)別性、清楚明晰、減少重復(fù)、減少錯(cuò)誤等。版本控制一般通過(guò)對(duì)文件命名來(lái)體現(xiàn),此外還可使用版本控制表,即對(duì)文件進(jìn)行操作修改時(shí),填寫文件版本的修訂情況,包括新版本的序號(hào)、修改人、修改目的、修改日期等[46]。
(16)數(shù)據(jù)保存(短期保存和長(zhǎng)期保存)。數(shù)據(jù)保存是數(shù)據(jù)管理流程的關(guān)鍵步驟,不僅指項(xiàng)目結(jié)題后的數(shù)據(jù)存檔,還包括項(xiàng)目進(jìn)程中數(shù)據(jù)分析與處理等階段的數(shù)據(jù)保存。在項(xiàng)目期間需要短期地保存數(shù)據(jù)時(shí),應(yīng)注意數(shù)據(jù)類型與格式、數(shù)據(jù)存儲(chǔ)介質(zhì)與遷移、數(shù)據(jù)備份與安全等問(wèn)題;在制定數(shù)據(jù)管理計(jì)劃時(shí)應(yīng)明確提出項(xiàng)目結(jié)題后的數(shù)據(jù)長(zhǎng)期保存方案,具體包括數(shù)據(jù)存儲(chǔ)地點(diǎn)(如公共數(shù)據(jù)中心、領(lǐng)域數(shù)據(jù)倉(cāng)儲(chǔ)、機(jī)構(gòu)知識(shí)庫(kù))、數(shù)據(jù)保存內(nèi)容、數(shù)據(jù)保存時(shí)間、數(shù)據(jù)保存介質(zhì)、數(shù)據(jù)保存成本、敏感隱私性數(shù)據(jù)存儲(chǔ)策略等方面的問(wèn)題。
(17)數(shù)據(jù)遴選與評(píng)估。數(shù)據(jù)保存面臨著高昂的數(shù)據(jù)保存費(fèi)用、需要花費(fèi)更多的勞動(dòng)和精力、在良莠不齊的海量數(shù)據(jù)中進(jìn)行檢索和查詢使得數(shù)據(jù)發(fā)現(xiàn)變得更加困難等挑戰(zhàn),并不是所有的數(shù)據(jù)都需要保存。因而,制定數(shù)據(jù)存儲(chǔ)策略時(shí)應(yīng)遴選和評(píng)估數(shù)據(jù),即確定哪些數(shù)據(jù)需要存儲(chǔ),哪些數(shù)據(jù)需要被銷毀和刪除,評(píng)估數(shù)據(jù)是否具有未來(lái)的利用價(jià)值。在遴選和評(píng)估數(shù)據(jù)時(shí),可根據(jù)以下問(wèn)題進(jìn)行判斷:資助機(jī)構(gòu)和學(xué)習(xí)要求保存什么數(shù)據(jù)?數(shù)據(jù)對(duì)于研究項(xiàng)目和機(jī)構(gòu)而言是否具有重要價(jià)值?數(shù)據(jù)中是否涉及知識(shí)產(chǎn)權(quán)和相關(guān)倫理問(wèn)題?是否對(duì)數(shù)據(jù)進(jìn)行充分描述?是否能夠支付數(shù)據(jù)保存費(fèi)用?
(18)數(shù)據(jù)發(fā)表。目前,科研數(shù)據(jù)發(fā)表主要有三種形式:一是科研數(shù)據(jù)獨(dú)立發(fā)表:將科研數(shù)據(jù)集作為獨(dú)立的數(shù)字對(duì)象存儲(chǔ)在數(shù)據(jù)倉(cāng)儲(chǔ)或數(shù)據(jù)中心,支持?jǐn)?shù)據(jù)的發(fā)現(xiàn)、獲取和再利用;二是發(fā)表數(shù)據(jù)論文,在數(shù)據(jù)論文中描述數(shù)據(jù)集的內(nèi)容及其相關(guān)信息,將數(shù)據(jù)論文發(fā)表到專業(yè)數(shù)據(jù)期刊中,原始數(shù)據(jù)集存儲(chǔ)在期刊出版商或其指定的數(shù)據(jù)倉(cāng)儲(chǔ)中;三是數(shù)據(jù)作為期刊論文的補(bǔ)充材料發(fā)表。在論文中注明數(shù)據(jù)來(lái)源及獲取方式,根據(jù)論文與數(shù)據(jù)之間的關(guān)聯(lián)獲取原始數(shù)據(jù),支持研究結(jié)論驗(yàn)證,防止學(xué)術(shù)不端[47]。其中,將數(shù)據(jù)作為期刊論文的補(bǔ)充材料發(fā)表是最普遍的數(shù)據(jù)發(fā)表形式,分兩種情況:第一,論文發(fā)表時(shí)將相關(guān)數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)倉(cāng)儲(chǔ)中,通過(guò)DOI等數(shù)據(jù)唯一標(biāo)識(shí)符與論文創(chuàng)建關(guān)聯(lián);第二,數(shù)據(jù)作為論文的補(bǔ)充材料同論文一并提交到期刊出版商。了解數(shù)據(jù)發(fā)表的不同形式,并基于實(shí)際需求選擇恰當(dāng)?shù)臄?shù)據(jù)發(fā)表方式,是研究人員傳播學(xué)術(shù)成果、獲得學(xué)術(shù)聲譽(yù)的基本常識(shí)。
(19)數(shù)據(jù)共享與許可協(xié)議、數(shù)據(jù)訪問(wèn)權(quán)限。在共享數(shù)據(jù)時(shí)設(shè)置數(shù)據(jù)訪問(wèn)權(quán)限、選擇適當(dāng)?shù)臄?shù)據(jù)許可協(xié)議是保障數(shù)據(jù)創(chuàng)建者權(quán)益的重要手段。共享的數(shù)據(jù)涉及商業(yè)機(jī)密、敏感信息和隱私內(nèi)容時(shí),可以設(shè)置數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)儲(chǔ)的數(shù)據(jù)訪問(wèn)權(quán)限,通過(guò)密碼等方式控制數(shù)據(jù)的訪問(wèn),同時(shí)保證數(shù)據(jù)的可發(fā)現(xiàn)性和可訪問(wèn)性。數(shù)據(jù)使用權(quán)限主要通過(guò)數(shù)據(jù)許可協(xié)議體現(xiàn)。目前使用較廣泛的是Open Data Commons[48](分為PDDL、ODC-By、ODC-ODbL三種級(jí)別)和Creative Commons[49](分為BY、NC、ND、SA四種級(jí)別)制定的數(shù)據(jù)許可協(xié)議。創(chuàng)建者根據(jù)數(shù)據(jù)開(kāi)放需求選擇恰當(dāng)?shù)臄?shù)據(jù)許可協(xié)議,數(shù)據(jù)使用者遵守相應(yīng)的數(shù)據(jù)使用規(guī)范,能夠有效避免數(shù)據(jù)知識(shí)產(chǎn)權(quán)糾紛等法律問(wèn)題,促進(jìn)數(shù)據(jù)開(kāi)放共享環(huán)境的健康有序發(fā)展。
(20)數(shù)據(jù)共享的倫理問(wèn)題。數(shù)據(jù)共享的倫理問(wèn)題主要體現(xiàn)在數(shù)據(jù)的隱私性、敏感性和保密性。社會(huì)科學(xué)、生物醫(yī)學(xué)等領(lǐng)域的項(xiàng)目往往包含人類或動(dòng)物的隱私信息,或是能夠識(shí)別個(gè)人信息的敏感數(shù)據(jù)。凡是涉及人類受試者或?yàn)l危動(dòng)物信息的研究項(xiàng)目需通過(guò)倫理審查方可實(shí)施。也就是說(shuō),在開(kāi)展調(diào)查前,需獲得受試者的知情同意;在數(shù)據(jù)處理和分析時(shí),應(yīng)采用匿名化處理等方式保護(hù)受試者的信息不泄露;在共享數(shù)據(jù)時(shí),需要獲得受試者的數(shù)據(jù)共享知情同意許可,也可以限制數(shù)據(jù)共享的范圍和對(duì)象來(lái)保護(hù)受試者的隱私信息。此外,涉及商業(yè)機(jī)密、專利信息、尚未發(fā)表的論文數(shù)據(jù),以及公開(kāi)將導(dǎo)致不良后果的敏感數(shù)據(jù)(如毒品信息)等也是屬于數(shù)據(jù)倫理不宜公開(kāi)的范疇。
(21)數(shù)據(jù)共享的法律問(wèn)題。首先是數(shù)據(jù)的知識(shí)產(chǎn)權(quán)和版權(quán)問(wèn)題。英國(guó)、澳大利亞等國(guó)認(rèn)為數(shù)據(jù)知識(shí)產(chǎn)權(quán)賦予數(shù)據(jù)創(chuàng)建者處理數(shù)據(jù)的權(quán)利,即允許其他研究者做什么和不能做什么,而中美等國(guó)認(rèn)為數(shù)據(jù)作為事實(shí)材料不受知識(shí)產(chǎn)權(quán)的保護(hù),而使用儀器設(shè)備、花費(fèi)時(shí)間成本和資源成本來(lái)收集、處理、分析數(shù)據(jù),這種原始的數(shù)據(jù)集可被視為知識(shí)產(chǎn)權(quán)保護(hù)的范圍;其次是數(shù)據(jù)的歸屬權(quán)問(wèn)題。一般而言,研究人員在職務(wù)崗位或利用機(jī)構(gòu)環(huán)境所產(chǎn)生的數(shù)據(jù)歸屬于本機(jī)構(gòu)而非數(shù)據(jù)創(chuàng)建者。此外,數(shù)據(jù)共享的法律問(wèn)題還包括合同、協(xié)議規(guī)定的其他具體問(wèn)題。
(22)數(shù)據(jù)引用。隨著數(shù)據(jù)集被視為一種獨(dú)立的科研成果,數(shù)據(jù)引用也隨之成為衡量學(xué)術(shù)影響力的重要指標(biāo)。對(duì)于數(shù)據(jù)生產(chǎn)者而言,數(shù)據(jù)引用指標(biāo)與傳統(tǒng)文獻(xiàn)引用一樣,是對(duì)數(shù)據(jù)生產(chǎn)者研究工作的肯定和支持,代表學(xué)術(shù)貢獻(xiàn)和學(xué)術(shù)聲譽(yù);對(duì)于數(shù)據(jù)利用者而言,規(guī)范化的數(shù)據(jù)引用有利于準(zhǔn)確查找數(shù)據(jù),更好地理解數(shù)據(jù)和獲取數(shù)據(jù),進(jìn)而促進(jìn)新的知識(shí)發(fā)現(xiàn)。數(shù)據(jù)引用的構(gòu)成要素包括但不限于:數(shù)據(jù)創(chuàng)建者、數(shù)據(jù)集名稱、出版年、出版商、可用性和訪問(wèn)情況(如URL或DOI)。不同的數(shù)據(jù)倉(cāng)儲(chǔ)、期刊出版商和組織機(jī)構(gòu)具有不同的數(shù)據(jù)引用格式,如DataCite的數(shù)據(jù)引用格式為:創(chuàng)建者(發(fā)布年):標(biāo)題.出版商.標(biāo)識(shí)符[50]。在進(jìn)行數(shù)據(jù)引用時(shí),應(yīng)先了解具體的數(shù)據(jù)引用標(biāo)準(zhǔn)格式。此外,EndNote等文獻(xiàn)管理軟件也添加了數(shù)據(jù)引用功能,可以直接創(chuàng)建數(shù)據(jù)集引用格式。
5 結(jié)語(yǔ)
數(shù)據(jù)素養(yǎng)除了強(qiáng)調(diào)數(shù)據(jù)意識(shí)的樹(shù)立和數(shù)據(jù)知識(shí)的了解外,更重要的是掌握一系列可操作的數(shù)據(jù)技能集合,涉及從數(shù)據(jù)產(chǎn)生與收集、數(shù)據(jù)分析與處理、數(shù)據(jù)發(fā)表與共享到數(shù)據(jù)再利用的科研數(shù)據(jù)生命周期全過(guò)程,而數(shù)據(jù)生命周期又與科研工作流密不可分,嵌入項(xiàng)目啟動(dòng)、項(xiàng)目實(shí)施、項(xiàng)目結(jié)題的各個(gè)環(huán)節(jié)。因此,構(gòu)建圍繞科研工作流和數(shù)據(jù)生命周期的數(shù)據(jù)素養(yǎng)能力體系對(duì)于科研數(shù)據(jù)管理服務(wù)開(kāi)展和數(shù)據(jù)素養(yǎng)教育實(shí)施具有重要意義。本文在調(diào)研國(guó)內(nèi)外數(shù)據(jù)素養(yǎng)能力體系研究現(xiàn)狀、分析數(shù)據(jù)素養(yǎng)能力框架研究成果的基礎(chǔ)上,圍繞科研數(shù)據(jù)生命周期八個(gè)階段構(gòu)建了包含22項(xiàng)能力的數(shù)據(jù)素養(yǎng)核心能力框架。如有疏漏,敬請(qǐng)業(yè)界前輩批評(píng)指正。未來(lái)將基于此框架調(diào)研不同研究群體的數(shù)據(jù)素養(yǎng)能力現(xiàn)狀,設(shè)計(jì)嵌入研究過(guò)程的數(shù)據(jù)素養(yǎng)教育模式,培養(yǎng)研究群體的數(shù)據(jù)意識(shí)和數(shù)據(jù)管理能力。
參考文獻(xiàn):
[1] Koltay T.Data literacy for researchers and data librarians[J].Journal of Librarianship and Information Science,2015:096100
0615616450.
[2] Schield M.Information literacy,statistical literacy and data literacy[J].IASSIST Quarterly,2004,28(2/3):6-11.
[3] Jian Q,DIgnazio J.Lessons learned from a two-year experience in science data literacy education[C].31st Annual IATUL Conference.Purdue University,2010.
[4] Calzada Prado J,Marzal M粵憶.Incorporating data literacy into information literacy programs:Core competencies and contents[J].Libri,2013,63(2):123-134.
[5] 郝媛玲,沈婷婷.數(shù)據(jù)素養(yǎng)及其培養(yǎng)機(jī)制的構(gòu)建與策略思考[J].情報(bào)理論與實(shí)踐,2016,39(1):58-63.
[6] Carlson J,F(xiàn)osmire M,Miller C C,et al.Determining data information literacy needs:A study of students and research faculty[J].portal:Libraries and the Academy,2011,11(2):629-657.
[7] Ogier A L,Lener E,Miller R K.The data literacy advisory team at virginia tech:Developing a content model for data lteracy instruction[EB/OL].[2016-04-30].http://docs.lib.purdue.edu/cgi/viewcontent.cgi?article=1054&context;=dilsymposium.
[8] 張靜波.大數(shù)據(jù)時(shí)代的數(shù)據(jù)素養(yǎng)教育[J].科學(xué),2013,65(4):29-32.
[9] 肖瀟.基于數(shù)據(jù)生命周期的科學(xué)數(shù)據(jù)服務(wù)模式研究[D].北京:中國(guó)科學(xué)院研究生院,2012:16.
[10] The research lifecycle[EB/OL].[2016-04-30].https://www.jisc.ac.uk/guides/implementing-a-virtual-research-environment-vre.
[11] Research data lifecycle[EB/OL].[2016-04-30].http://www.data-archive.ac.uk/create-manage/life-cycle.
[12] DCC curation lifecycle model[EB/OL].[2016-04-30].http://www.dcc.ac.uk/resources/curation-lifecycle-model.
[13] The data life cycle[EB/OL].[2016-04-30].http://www.icpsr.umich.edu/files/ICPSR/access/dataprep.pdf.
[14] Best practices[EB/OL].[2016-04-30].https://www.dataone.org/best-practices.
[15] DDI data lifecycle[EB/OL].[2016-04-30].http://www.ddialliance.org/training/why-use-ddi.
[16] Research data management[EB/OL].[2016-04-30].http://guides.library.vcu.edu/data.
[17] Humprey C.e-Science and the Life Cycle of Research[EB/OL].[2016-04-30].http://datalib.library.ualberta. ca/~ humphrey/lifecycle-science060308.doc.
[18] Association of College and Research Libraries.Working Group on Intersections of Scholarly Communication and Information Literacy.Intersections of scholarly communication and information literacy:creating strategic collaborations for a changing academic environment[M].Association of College and Research Libraries,2013:28.
[19] Konkiel S,Marshall B,Polley D.Integrating data management literacies with data visualization instruction a one-shot workshop[EB/OL].[2016-04-30].http://docs.lib.purdue.edu/dilsymposium/2013/posters/3/.
[20] Tygel A,Kirsch R.Contributions of Paulo Freire for a critical data literacy[EB/OL].[2016-04-30].http://www.dataliteracy.eita.org.br/wp-content/uploads/2015/02/Contributions-of-Paulo-Freire-for-a-critical-data-literacy.pdf.
[21] Schneider R.Research data literacy[C].European Conference on Information Literacy.Springer International Publishing,2013:134-140.
[22] Ridsdale C,Rothwell J,Smit M,et al.Strategies and Best Practices for Data Literacy Education[EB/OL].[2016-04-30].http://www.mikesmit.com/wp-content/papercite-data/pdf/data_literacy.pdf.
[23] 隆茜.數(shù)據(jù)素養(yǎng)能力指標(biāo)體系構(gòu)建及高校師生數(shù)據(jù)素養(yǎng)能力現(xiàn)狀調(diào)查與分析[J].圖書館,2015(12):51-56,62.
[24] What is research data?[EB/OL].[2016-04-30].http://guides.library.yale.edu/content.php?pid=324929&sid;=2665407.
[25] Data management[EB/OL].[2016-04-30].http://libraries.mit.edu/data-management/.
[26] Dissemination and Sharing of Research Results[EB/OL].[2016-04-30].http://www.nsf.gov/bfa/dias/policy/dmp.jsp.
[27] NIH Data Sharing Policy[EB/OL].[2016-04-30].http://grants.nih.gov/grants/policy/data_sharing/.
[28] NASA Data&Information; Policy[EB/OL].[2016-04-30].http://science.nasa.gov/earth-science/earth-science-data/data-information-policy/.
[29] RCUK Common Principles on Data Policy[EB/OL].[2016-04-30].http://www.rcuk.ac.uk/research/Pages?/DataPolicy.aspx.
[30] OECD Principles and Guidelines for Access to Research Data from Public Funding[EB/OL].[2016-04-30].http://www.oec
d.org/sti/sci-tech/38500813.pdf.
[31] Funding Agency and Data Management Guidelines[EB/OL].[2016-04-30].https://www.lib.umn.edu/datamanagement/funding.
[32] 科學(xué)數(shù)據(jù)共享工程[EB/OL].[2016-04-30].http://www.sciencedata.cn/index.php.
[33] 國(guó)家科技計(jì)劃項(xiàng)目科學(xué)數(shù)據(jù)匯交暫行辦法(草案)[EB/OL].[2016-04-30].http://www.sciencedata.cn/fagui.php.
[34] 現(xiàn)代圖書情報(bào)技術(shù).支撐數(shù)據(jù)提交要求[EB/OL].[2016-04-30].http://manu44.magtech.com.cn/Jwk_infotech_wk3/fileup/1003-3513/NEWS/20160408165409.pdf.
[35] BBSRC data sharing policy[EB/OL].[2016-04-30].http:// www.bsrc.ac.uk/web/FILES/Policies/data-sharing-policy.pdf.
[36] DMP Tool[EB/OL].[2016-04-30].https://dmp.cdlib.org/.
[37] DMP Online[EB/OL].[2016-04-30].http://www.dcc.ac.uk/dmponline.
[38] DMP Assistant[EB/OL].[2016-04-30].https://assistant.portagenetwork.ca/.
[39] Data types & file formats[EB/OL].[2016-04-30].http://data.library.virginia.edu/data-management/plan/format-types/.
[40] Managing research data[EB/OL].[2016-04-30].https://data.bris.ac.uk/.
[41] Data management support for researchers[EB/OL].[2016-04-30].http://www.gla.ac.uk/services/datamanagement/.
[42] Research data management[EB/OL].[2016-04-30].http://library.uoregon.edu/datamanagement.
[43] Strategies for sharing your data[EB/OL].[2016-04-30].http://data.research.cornell.edu/.
[44] A practical guide to ACRLs Visual Literacy Competency Standards[EB/OL].[2016-04-30].http://www.ala.org/news/member-news/2016/03/practical-guide-acrl-s-visual-literacy-competency-standards.
[45] Research data[EB/OL].[2016-04-30].http://www.bath.ac.uk/research/data/.
[46] Research data Management[EB/OL].[2016-04-30].http://www.data.cam.ac.uk/.
[47] 陳秀娟,吳鳴,胡卉.嵌入科研工作流的圖書館數(shù)據(jù)管理服務(wù)——以化學(xué)學(xué)科為例[J].圖書館論壇,2016,36(3):49-55,102.
[48] Open Data Commons[EB/OL].[2016-04-30].http://opendatacommons.org/licenses/.
[49] Creative Commons[EB/OL].[2016-04-30].https://creativecommons.org/.
[50] Datacite[EB/OL].[2016-04-30].https://www.datacite.org/.
作者簡(jiǎn)介:胡卉,女,中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心、中國(guó)科學(xué)院大學(xué)碩士研究生;吳鳴,女,中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心研究館員。