曾麗瑩 劉茲恒 (北京大學信息管理系 北京 100871)
在信息與網絡技術迅速發(fā)展的推動下,科學模式產生了巨大變革,科學研究逐漸朝數據密集驅動型的方向發(fā)展??蒲袛祿粌H是科研機構的學術產出,還是科學研究的重要基礎,其價值日益凸顯。為滿足日趨強烈的科研數據管理與共享需求,目前已有越來越多的高校通過建立科研數據知識庫來存儲、發(fā)布、開放和共享科研數據。
數據知識庫,又稱數據倉儲、數據資源庫等,是通過存儲和管理科研數據來支持科研活動及知識創(chuàng)造的數字知識庫[1]。截至2017年3月,全球已有1 831個科研數據知識庫在re3data.org上登記注冊,其中有多學科數據知識庫1 571個,機構數據知識庫467個[2]。在這些數據知識庫中,由高校建設或參與建設的有211個。為了解國內外高??蒲袛祿R庫建設現狀,本文以在re3data.org上登記注冊的211個高??蒲袛祿R庫為研究對象,對全球高??蒲袛祿R庫的基本情況、數據管理和數據利用進行調研和分析,總結其發(fā)展的特點,從而為我國高校科研數據管理與共享提供借鑒。
1.1 建成時間分布
由于re3data.org上并未注明各科研數據知識庫建成的時間,我們通過對各科研數據知識庫網站直接進行調研,最終確定了86個科研數據知識庫的建成時間。其中,由博爾德大學與美國國家冰雪數據中心、美國國家宇航局、美國國家科學基金會等在1982年聯合建立的美國國家宇航局分布式全國冰雪數據中心主動存檔中心(NASA Distributed Active Archive Center at National Snow & Ice Data Center)是最早的科研數據知識庫[3]。而從科研數據知識庫建成的時間分布來看,只有8%是在2003年之前建立的(見下頁圖1)。2003年之后,科研數據知識庫數量整體呈波動上升的態(tài)勢,這說明高??蒲袛祿R庫自2003年之后逐漸進入穩(wěn)步向前發(fā)展的階段。從全球開放存取的發(fā)展視角看,開放存取運動起源于20世紀90年代,2002年布達佩斯會議召開,2003年《柏林宣言》和《百斯達開放存取式出版宣言》相繼頒布,開放存取從此也進入實質性發(fā)展階段。對比可知,高??蒲袛祿R庫的發(fā)展軌跡與全球開放存取運動的發(fā)展態(tài)勢相符,開放存取理念推動了科研數據知識庫的發(fā)展。
圖1 高??蒲袛祿R庫建設時間分布
1.2 地域分布
211個高校科研數據知識庫的國家/地區(qū)分布結果如圖2所示。美國、英國、德國、澳大利亞和加拿大是高??蒲袛祿R庫建設數量排名靠前的5個國家,其中美國有90個,占總量的42.7%;英國和德國有64個,占總量的30.3%。中國注冊在案的只有兩個科研數據知識庫,分別是北京大學建立的開放研究數據平臺,華中科技大學和中國科學技術大學與杜鵑工作組(cuckoo workgroup)共同建立的蛋白賴氨酸修飾綱要庫(Compendium of Protein Lysine Modifications)。
圖2 高??蒲袛祿R庫國家/地區(qū)分布情況
由此可見,在全球范圍內,北美和歐洲發(fā)達國家高校建設的科研數據知識庫數量較多,而我國和其他地區(qū)的高??蒲袛祿R庫建設較為薄弱。我國高校應該借鑒歐美國家的建設實踐和成功經驗,加快科研數據知識庫建設進程。
1.3 類別分布
全球高??蒲袛祿R庫按照建設目的和存儲內容可分為3種類型,一是通用型機構知識庫,主要保存高校科研人員的研究成果并提供開放存取,其內容以學位論文和會議論文等文字型出版物為主,但也包含科研數據,如劍橋大學機構知識庫、圣愛德華大學機構知識庫等。二是專門的科研數據知識庫,以高校為主體建立,主要存儲和發(fā)布科研人員的研究數據,如北京大學開放研究數據平臺、莫納什大學研究數據知識庫等。三是專題型科研數據知識庫,由高校研究機構與校外研究中心合作建立,如康奈爾大學與美國農產品銷售局、經濟研究局等建立的美國農業(yè)部經濟、統計和市場信息系統,加州大學勞倫斯伯克利國家實驗室和美國地質調查局等建立的北加利福尼亞地震數據中心等。
在這211個高??蒲袛祿R庫中,專門的科研數據知識庫占比最大(41%),其次是專題型科研數據知識庫,最后是通用型機構知識庫(見圖3)。這說明高校對科研數據的重視程度比較高,建立專門的科研數據知識庫對科研數據進行專門的管理是高校較為普遍的做法。部分高校雖然并未建立專門的科研數據知識庫,但利用機構知識庫來存儲、管理和共享科研數據,使機構知識庫成為了高??蒲袛祿芾淼谋憬萃緩街弧?/p>
圖3 高??蒲袛祿R庫類型分布
1.4 學科分布
re3data.org將科研數據知識庫的學科分為人文社會科學、生命科學、自然科學和工程科學4大類。211個高??蒲袛祿R庫的學科領域分布如表1所示。整體來看,涉及生命科學、人文社會科學和自然科學領域的科研數據知識庫數量較多,分別有136、129和121個,占知識庫總量的64.45%、61.14%和57.35%;涉及工程科學數據的知識庫數量相對較少,僅有39.81%。在所有科研數據知識庫中,只有7%(14個)的知識庫同時含有人文社會科學、生命科學、自然科學和工程科學4個學科領域的數據。
表1 高??蒲袛祿R庫科研數據所屬學科分布
生命科學領域科研數據由生物體或組織的核酸、基因等通用數據和臨床實驗數據組成,具有數量大、數據多源異構和數據整合分析復雜等特點[4]。自然科學諸如物理、化學、地球地質等學科,也擁有大量的實驗、計算數據,科研數據規(guī)模較大,而人文社會科學數據規(guī)模相對較小。由此可見,高校科研數據知識庫中數據類型分布與學科數據特點大致相符。但從整體來看,高校科研數據知識庫還是有些偏科情況,對人文社會科學和工程科學領域的科研數據重視、挖掘程度不夠。
1.5 數據資源類型
高校科研數據知識庫存儲的內容類型多樣,包括歸檔數據、音像數據、配置數據、數據庫、圖片、網絡數據、純文本、原始數據、科學和統計數據格式、軟件應用、源代碼、標準辦公文檔、結構化圖形、結構化文本以及其他共13種數據類型,如圖4所示。
圖 4 高??蒲袛祿R庫數據類型分布
從數據類型數量上看,高校科研數據知識庫存儲量最多的是標準辦公文檔(包括Word、Excel、PPT等)、純文本、圖片和科學統計數據,其次是原始數據、結構化文本、音像數據、結構化圖形,而存儲配置數據、網絡數據、源代碼和軟件應用的科研數據知識庫較少。
從數據類型劃分來看,高校科研數據知識庫存在如下問題:①類別不清晰,如歸檔數據和原始數據其實是數據泛稱,并非是特定的數據格式;②格式不統一,同種數據存在多種格式,如純文本和結構化文本;③數據加工層次不夠,高??蒲袛祿R庫的數據大都以科研人員上傳的原始面貌呈現,在數據的規(guī)范化處理和加工描述上仍有欠缺。
2.1 數據管理政策
數據管理政策是高校按照數據生命周期管理科研數據的規(guī)范和保障[5]。高校在建立科研數據知識庫時也會發(fā)布相應的數據政策。本次調查發(fā)現,在211個高??蒲袛祿R庫中,只有14.7%(31個)的科研數據知識庫沒有頒布數據政策,而頒布1項數據管理政策的科研知識庫數量最多,占40.3%,之后科研數據知識庫數量與政策數量成反比,如圖5所示。
圖5 高校科研數據知識庫頒布政策數量及知識庫數量
發(fā)布數據政策數量最多的是愛丁堡大學數據知識庫(Edinburgh DataShare),政策內容包括:使用條款和條件、數據知識庫存儲協議、數據和元數據政策、保護政策、提交政策、內容政策和服務政策;其次是卡爾加里大學機構知識庫、普渡大學研究知識庫和北卡羅萊納大學數據知識庫。上述4個數據知識庫的數據政策內容如下頁表2所示。
具體來看,各高??蒲袛祿R庫發(fā)布的數據政策內容可分為5種類型:①專門的數據政策;②數據管理政策,包括數據管理、保存、分享和元數據政策;③數據使用政策,如使用條款或用戶使用條例;④數據獲取政策,如開放存取等;⑤數據保護、隱私和許可政策。發(fā)布各項政策的高??蒲袛祿R庫數量及其占比如下頁表3所示。由表3可知,頒布數據使用政策的高校科研數據知識庫數量最多,占比為22.75%;其次是數據管理政策,占比為10.43%;相對而言,發(fā)布數據獲取和數據保護、隱私和許可政策的知識庫數量較少。
整體來看,絕大部分高校科研數據知識庫都發(fā)布了數據政策,個別科研數據知識庫如愛丁堡大學數據知識庫和卡爾加里大學機構知識庫等的數據政策內容比較完備,涵蓋數據管理、數據使用、獲取、保護、隱私和許可等各方面。除此之外,近一半的科研數據知識庫政策內容只涉及數據使用和獲取,涉及數據保護、隱私、許可和管理的不多,存在政策內容類型單一、內容層次不夠完善的問題。而這會使研究人員的科研數據缺乏政策保障,科研人員會面臨科研成果被侵權的風險,其利用知識庫存儲和共享科研數據的積極性也會受到影響。
表2 部分高??蒲袛祿R庫數據政策內容
表3 高??蒲袛祿R庫數據管理政策內容及知識庫數量
2.2 元數據標準
高校在利用科研數據知識庫管理科研數據時,需要采用相應的元數據標準對科研數據進行描述,以便用戶對數據進行存儲、組織和檢索。筆者通過調研發(fā)現,高??蒲袛祿R庫采用的元數據標準按照學科類別可分為一般科研數據、生物科學、地球科學、社會與人文以及其他5個類別。高??蒲袛祿R庫在一般科研數據領域采用的元數據標準有都柏林核心(DC)元數據和數據引用元數據框架。生物科學領域采用的元數據標準有達爾文核心元數據(基于都柏林核心元數據產生的生物學領域的元數據標準,被看作是DC元數據的生物學擴展)和ISA-Tab。地球科學領域采用較多的是地理信息元數據和地理空間數據元數據內容標準。人文社會科學領域主要采用的是應用于社會和行為科學數據文檔的標準——數據存檔計劃DDI。具體元數據標準及其采用的知識庫數量如表4所示。
從整體來看,高校科研數據知識庫采用的元數據標準類型多樣,這說明高校針對不同學科、不同主題的科研數據選用了不同的元數據標準,科研數據描述更有針對性;但就具體學科來看,同一領域如生物和地球科學,不同科研數據知識庫采用的元數據標準不盡相同,使用比較分散。
3.1 數據資源規(guī)模
科研數據知識庫資源包括科研數據集、文件、調查項目等,科研數據知識庫資源數量反映了其資源建設的豐富性。43%的高校在re3data.org網站上公布了科研數據知識庫的資源規(guī)模,存儲的資源包括數據庫(Dataverse)、數據集、文件、圖片、項目、記錄、條目、調查及其他等各種形式數據。不同科研數據知識庫因其存儲的科研數據類型不同,其資源規(guī)模的計量方式也不同。但整體來說,在各高??蒲袛祿R庫中,專題科研數據知識庫以收集、存儲和管理學科或項目科研數據為主要目的,而且大都以特定的科研機構或科研項目為基礎,因而其科研數據規(guī)模最大、數據量較為豐富;其次為存儲高??蒲腥藛T科研數據的專門科研數據知識庫;而機構知識庫的內容以科研文獻為主,科研數據存儲規(guī)模相對較小。部分高??蒲袛祿R庫的數據量可如表5所示。
表5 部分高??蒲袛祿R庫資源數量
科研數據的規(guī)模和數量反映了科研數據知識庫資源的豐富性,數據規(guī)模越大,用戶可獲取的資源就越多,就能越好地對科研數據進行開發(fā)和利用。高校在建設科研數據知識庫時,應注重擴大科研數據資源的規(guī)模,鼓勵科研人員通過知識庫來保存和共享科研數據。
3.2 數據許可協議
科研數據的共享和重用過程很容易產生知識產權糾紛。為消除知識產權帶來的限制,科研人員一般通過知識產權許可機制來賦予他人合法使用科研數據的權利[6]。目前,211個國內外高??蒲袛祿R庫采取的數據許可協議有Apache許可證2.0版(Apache license2.0)、BSD開源協議(BSD)、知識共享許可協議(CC)、CC0許可協議、版權聲明(Copyrights)、開放數據公用許可(ODC)、開放政府許可協議(OGL)、公共領域許可(Public Domain)、互惠許可(Reciprocal License,簡稱RL)和其他共10種,采用各項數據許可協議的高??蒲袛祿R庫數量如圖6所示。
除了不明確的“其他”類數據許可協議之外,高??蒲袛祿R庫采用最多的數據許可協議是CC,即在聲明自身版權的前提下允許他人合法分享、使用和演繹科研數據,這既能幫助高??蒲袛祿R庫實現資源共享,又能保護科研人員享有的版權,是平衡數據共享(公共利益)和版權保護(作者利益)的靈活方式。其次是版權聲明,即標明版權所屬,只允許在法律允許范圍內使用,這與CC的區(qū)別是,用戶可以不經作者或其他著作權人同意而使用其已發(fā)表的作品,但應按照規(guī)定支付報酬并注明出處,這種版權聲明對用戶的限制力度較CC大。之后是公共領域許可和CC0許可協議,這兩種數據許可協議同意完全將科研數據置于公共領域,實現科研數據的無門檻訪問。
3.3 知識庫的開放程度
科研數據知識庫作為科研數據保存和共享的重要載體,其開放程度可以從數據上傳和數據獲取兩方面來評判。211個高??蒲袛祿R庫的數據上傳有封閉、公開和限制3種狀態(tài);數據訪問有封閉、限時、限制和公開4種狀態(tài);數據上傳和訪問的限制方法有付費、機構會員、注冊和其他4種類型。機構科研數據知識庫的數據上傳和訪問也可以同時有多種開放狀態(tài)、多種限制類型。數據上傳和數據獲取的不同開放程度知識庫數量分別如圖7和圖8所示。
圖6 高??蒲袛祿R庫數據許可協議使用數量
圖7 高校科研數據知識庫數據上傳開放程度
圖8 高??蒲袛祿R庫數據可訪問情況
由圖7可知,絕大部分高??蒲袛祿R庫在數據上傳方面都是限制(158個)或不開放(50個)上傳,可供公眾自由上傳數據的知識庫只有5個。數據上傳的限制類型主要是知識庫注冊(84個)和成為機構會員(63個)。
高??蒲袛祿R庫內不同科研數據的開放訪問程度也不同,同一知識庫可能有多種數據訪問類型。由圖8可知,90%(190個)的科研數據知識庫支持部分數據全公開訪問,50%(114個)的科研數據知識庫實行數據的限制性訪問,21%(44個)的科研數據知識庫實行數據的限時訪問,另外還有29個科研數據知識庫不開放數據訪問。
整體來看,高校科研數據知識庫主要對注冊用戶和機構內用戶開放,符合高校為機構內科研人員數據存檔的需求。同時,非完全公開數據上傳也有助于控制數據質量。目前,絕大部分高??蒲袛祿R庫的數據是完全面向公眾開放的,這與其實現科研數據共享的初衷一致。
綜合數據許可協議和開放程度來看,高校建立的科研數據知識庫重視資源的開放、共享和使用,為用戶利用科研數據提供了便利。
4.1 建立完整的數據政策,提供完善的數據服務體系。
211個高??蒲袛祿R庫制定的數據管理政策內容以數據使用協議為主,在科研數據管理、共享、保護和隱私方面涉及較少。由于管理政策關乎科研數據的質量,共享政策關乎科研數據的訪問和利用,數據保護和隱私政策關乎科研人員的知識產權和隱私保護,這幾方面都會影響科研數據知識庫的建設和使用,因此,高??蒲袛祿R庫應制定一套包含存儲、獲取、管理、開放、使用、隱私和保護等整個過程的完整政策法規(guī),為科研數據管理和共享建立政策支撐和法規(guī)保障。
在完整的數據政策的指導下,高校科研數據知識庫還應建立一套包括數據管理計劃、數據采集與加工、數據組織與標引、數據保存、數據獲取與復用、版權咨詢和數據管理素養(yǎng)等在內的科研數據管理與共享服務體系。通過完善的數據服務,滿足科研人員數據管理與共享的需求,提升科研人員數據存檔和管理的積極性,豐富科研數據知識庫資源數量。
4.2 完善元數據管理,建立數據處理和加工規(guī)范。
由調查可知,不同高校用于描述科研數據的元數據標準不盡相同,特定學科表現尤為明顯,存在元數據標準使用分散、管理不到位的問題。高校在如火如荼地建設科研數據知識庫的同時,還應重視科研數據的元數據管理,即結合不同學科特征,分別選定統一的元數據標準,再在此基礎上對元數據方案進行個性化和開放性的擴展,在保證通用性的前提下,滿足個性化需求,從而更好地實現數據組織、利用、整合和長期保存。
科研數據管理與共享服務的落腳點在于科研數據的增值利用和再創(chuàng)造,這就涉及到數據處理和加工的問題??蒲袛祿揭?guī)范,加工程度越高,其利用效能就越大。高校在建立科研數據知識庫時,應制定一套規(guī)范的數據處理和加工流程,對科研數據進行深層次的揭示和規(guī)范化的呈現,挖掘科研數據的內在價值,進而實現科研數據產出、存儲、重用和再造的良性循環(huán)。
此外,不同學科的研究方法和研究過程不完全相同,所產生的科研數據的呈現形式、數據格式與所需存儲空間也必然不盡相同。高校在建立科研數據知識庫時,要考慮多種數據格式的存儲和利用問題,注重數據知識庫基礎設施的靈活和可擴展性,即要建立一個可重構、可長期利用的科研數據知識庫。
4.3 豐富知識庫的學科和內容覆蓋面,擴大知識庫科研數據資源規(guī)模。
在211個高??蒲袛祿R庫中,只有7%的數據類型涵蓋生命科學、自然科學、人文社會科學和工程科學4個學科內容,其他數據知識庫存儲的科研數據所涉學科不夠完整。就資源數量來說,各高??蒲袛祿R庫的存儲規(guī)模普遍較小,且以標準化文檔、文本和圖片等為主,可重用的元數據和數據集資源較少。
高校科研數據知識庫服務最終面向各個學科、各個研究機構和全體科研人員,高校在建設科研數據知識庫時,應注重多學科綜合發(fā)展,拓寬服務群體,擴大知識庫的學科和內容覆蓋面。與此同時,高校還應盡量擴大知識庫的科研數據資源規(guī)模,一方面采取多種措施鼓勵科研人員通過知識庫來保存和共享科研數據;另一方面還可以依托圖書館員,通過嵌入科研機構和課題組的科研過程,主動收集和整理保存科研數據,豐富科研數據知識庫資源。
4.4 借鑒國外經驗,加快推進我國高??蒲袛祿芾砼c共享機制。
全球在re3data.org上注冊的1 831個數據知識庫中只有211個是高校建立或參與建立的,高校是科研事業(yè)的重要主體和科研數據產出的重要來源,但高校建設科研數據知識庫的比例卻不到12%,這說明高??蒲袛祿芾砼c共享整體較為滯后。而在已建立科研數據知識庫的高校中,歐美發(fā)達國家建立的數量較多,亞非等發(fā)展中國家建設的數量少,造成了地域和國別差異較大。
目前,我國也只有北京大學等少數高校建立了開放研究數據平臺,整體來看高校科研數據管理與共享機制建設非常薄弱。科研數據管理與共享對高??蒲泄ぷ鞯陌l(fā)展有著重要的價值,我國高校應加快建立科研數據管理與共享機制,制定統一的科研數據管理與共享政策規(guī)范,完善科研數據管理與共享服務體系,建設科研數據管理與共享基礎設施,為科學研究提供強有力的資源和服務支持。
當前,科學研究正在朝數據密集型的第四范式發(fā)展,科研數據的價值不斷凸顯,科研數據管理和共享的需求日益增長。高校作為科研的重要主體,通過建立科研數據知識庫來滿足科研人員的需求成為發(fā)展的必然。現今全球高??蒲袛祿R庫數量上進入穩(wěn)步發(fā)展的階段,但在數據政策、數據覆蓋范圍和數據處理加工方面還很欠缺,軟硬件設施發(fā)展不協調,也與快速增長的數據產出和數據需求不相符合。高校在建立科研數據知識庫時,應建立完備的數據政策和數據管理與共享服務體系,擴大科研數據知識庫的學科和內容覆蓋面,完善元數據管理和數據處理規(guī)范。而我國高校也應借鑒全球高??蒲袛祿R庫的發(fā)展經驗,加快科研數據管理與共享機制的建設進程,以推動科研創(chuàng)新和知識再創(chuàng)造。
[1]劉 峰,張曉林,孔麗華.科研數據知識庫研究述評[J].現代圖書情報技術,2014,(2):25-31.
[2]NASA Distributed Active Archive Center at National Snow &Ice Data Center[EB/OL].[2017-03-19].https://nsidc.org/daac/.
[3]鄒麗雪,歐陽崢崢,王 輝.生命科學領域數據倉儲特點及服務分析[J].圖書情報工作,2016,60(7):59-66.
[4]魏 悅,劉桂峰.英國高校科研數據管理政策內容調查及啟示[J].圖書情報研究,2016(4):35-44.
[5]王 舒,王 紅,宋曉丹.科研數據的知識產權保護與許可機制研究[J].圖書館論壇,2016,(4):65-71.