都 宜
(山西財經(jīng)大學(xué)圖書館 山西 太原 030000)
高校科學(xué)數(shù)據(jù)的管理、共享與再利用早已成為世界各國、各類機(jī)構(gòu)和組織關(guān)注的焦點,同時,大學(xué)科研院所、科研資助機(jī)構(gòu)、期刊出版社乃至國際組織等相關(guān)機(jī)構(gòu)也都出臺了關(guān)于科學(xué)數(shù)據(jù)管理與共享的相關(guān)政策[1]。例如,經(jīng)濟(jì)合作與發(fā)展組織(OECD)在《公共資助科學(xué)數(shù)據(jù)開放獲取的原則和指南》(2007年)中指出:“公共資助的科學(xué)數(shù)據(jù)應(yīng)在適當(dāng)?shù)姆秶鷥?nèi)提供開放獲取以實現(xiàn)共享”。早在2010年,美國國家科學(xué)基金會(NSF)就要求科研機(jī)構(gòu)在本機(jī)構(gòu)申請基金時,必須提供一份包含數(shù)據(jù)管理和數(shù)據(jù)共享的數(shù)據(jù)計劃。而我國則在2018年1月23日審議通過了《科學(xué)數(shù)據(jù)管理辦法》,對科學(xué)數(shù)據(jù)的管理與共享進(jìn)行了原則上的規(guī)定。
科學(xué)數(shù)據(jù)的獲取主要通過三種途徑:一是研究者本人或團(tuán)隊通過實際觀測、實驗等方式獲得實驗數(shù)據(jù);二是研究者或研究機(jī)構(gòu)通過調(diào)查訪談等方式獲取社會科學(xué)、人文科學(xué)類數(shù)據(jù);三是通過引用其他研究者生產(chǎn)并進(jìn)行共享的數(shù)據(jù)。在實際的科學(xué)研究工作中,通過前兩種途徑獲得科學(xué)數(shù)據(jù)往往需要耗費大量的時間、精力、資金,并且還要考據(jù)到場地、設(shè)備、人員等因素,因此,引用其他科研人員已經(jīng)生產(chǎn)并共享的數(shù)據(jù)成為眾多科研人員的選擇。
科學(xué)數(shù)據(jù)是科學(xué)數(shù)據(jù)共享活動的客體,是共享平臺建設(shè)的重要內(nèi)容,不同的學(xué)者及共享平臺對科學(xué)數(shù)據(jù)有著不同的理解與定義,而這些不同的理解與定義決定著科學(xué)數(shù)據(jù)共享的范圍、方式和途徑。
科技部在2006年發(fā)布的標(biāo)準(zhǔn)文件《科學(xué)數(shù)據(jù)共享工程數(shù)據(jù)分類編碼方案(SSD/T2122—2004》將科學(xué)數(shù)據(jù)定義為:科學(xué)數(shù)據(jù)是指人類在認(rèn)識世界、改造世界的科技活動中所產(chǎn)生的原始性、基礎(chǔ)性數(shù)據(jù),以及按照不同需求系統(tǒng)加工的數(shù)據(jù)產(chǎn)品和相關(guān)信息。2018年3月17日,國務(wù)院辦公廳頒布的《科學(xué)數(shù)據(jù)管理辦法》第二條:“本辦法所稱科學(xué)數(shù)據(jù)主要包括在自然科學(xué)、工程技術(shù)科學(xué)等領(lǐng)域,通過基礎(chǔ)研究、應(yīng)用研究、試驗開發(fā)等產(chǎn)生的數(shù)據(jù),以及通過觀測監(jiān)測、考察調(diào)查、檢驗檢測等方式取得并用于科學(xué)研究活動的原始數(shù)據(jù)及其衍生數(shù)據(jù)?!?/p>
盡管各學(xué)者與機(jī)構(gòu)對科學(xué)數(shù)據(jù)的定義不盡相同,但其仍有共同之處,如:科學(xué)數(shù)據(jù)基本屬性為原始性、基礎(chǔ)性;科學(xué)數(shù)據(jù)的產(chǎn)出領(lǐng)域大多為自然科學(xué)或科技活動;科學(xué)數(shù)據(jù)除原始數(shù)據(jù)外還包含由基礎(chǔ)數(shù)據(jù)加工后的衍生數(shù)據(jù)。
但隨著計算機(jī)及信息技術(shù)與傳統(tǒng)藝術(shù)和人文領(lǐng)域(歷史、哲學(xué)、語言學(xué)文學(xué)、藝術(shù)、考古和音樂等)的結(jié)合愈加緊密,產(chǎn)生了大量描述性、事實性數(shù)據(jù)及其衍生數(shù)據(jù),這些數(shù)據(jù)與自然科學(xué)領(lǐng)域的科學(xué)數(shù)據(jù)一樣,是數(shù)字人文科學(xué)研究的基礎(chǔ)數(shù)據(jù)和原始數(shù)據(jù),對科研工作有著重大意義,亟待被廣大科研工作者獲得并利用。
高校科學(xué)數(shù)據(jù)按照取得方式可以劃分為:實驗數(shù)據(jù)、觀測數(shù)據(jù)、計算數(shù)據(jù)、調(diào)查數(shù)據(jù)。
高??茖W(xué)數(shù)據(jù)按經(jīng)費來源可劃分為:縱向課題數(shù)據(jù)、橫向課題數(shù)據(jù)、校內(nèi)科研項目經(jīng)費課題數(shù)據(jù)、自籌經(jīng)費課題數(shù)據(jù)[2]。
高校科學(xué)數(shù)據(jù)按照數(shù)據(jù)的公開性可劃分為:保密數(shù)據(jù)、部分保密數(shù)據(jù)、公開數(shù)據(jù)。
高??茖W(xué)數(shù)按數(shù)據(jù)規(guī)模來看可以分為:綜合類大規(guī)??茖W(xué)數(shù)據(jù)、專項類小科學(xué)數(shù)據(jù)[3]。綜合類大規(guī)??茖W(xué)數(shù)據(jù)往往來自于較為宏大的科學(xué)研究項目,研究人員涉及多個國家、組織和多個學(xué)科,并有著大量的資金投入,因此這些項目基本都制定了完善的數(shù)據(jù)政策,有專人維護(hù)并發(fā)布相關(guān)數(shù)據(jù)。相比較而言,專項類小科學(xué)數(shù)據(jù)研究目標(biāo)相對專一,項目資金有限,研究者通常由某個或幾個高校的研究人員組成,因此,其數(shù)據(jù)資料常常缺乏完善的保存與管理,數(shù)據(jù)共享只能在有限的范圍內(nèi)展開。
2.3.1 高??茖W(xué)數(shù)據(jù)具有多學(xué)科性
高校,特別是綜合類高校,通常包含十幾甚至幾十乃至更多專業(yè),各個專業(yè)所產(chǎn)生的數(shù)據(jù)類型繁多,形式各異,同單一科研所產(chǎn)生的數(shù)據(jù)相比,具有多學(xué)科的特點。
所指的科學(xué)數(shù)據(jù)既包含主流的自然科學(xué)領(lǐng)域的科學(xué)數(shù)據(jù),也包含近年來興起的人文科學(xué)領(lǐng)域的科學(xué)數(shù)據(jù)。尤其是對國際、國內(nèi)紛紛建立的各種“數(shù)字人文”研究機(jī)構(gòu)而言,人文科學(xué)數(shù)據(jù)使其研究獲得了新的研究途徑,迎來了新的研究范式。
采用GB/T 13609-2017《天然氣取樣導(dǎo)則》規(guī)定的方法進(jìn)行取樣[4],現(xiàn)場取樣示意圖見圖1。取樣鋼瓶在實驗室經(jīng)過特殊處理,在取樣過程中,由于壓力的突降,取樣管線和接頭等部位可能造成節(jié)流,節(jié)流處會急劇降溫,若不采取一定的措施則會造成重?zé)N的析出、損失,導(dǎo)致取樣不準(zhǔn)確,使取到的樣品沒有代表性。因此,取樣時應(yīng)對取樣探頭、取樣管線和取樣閥等部位采取加熱保溫措施。
2.3.2 高??茖W(xué)數(shù)據(jù)大多是專項類小科學(xué)數(shù)據(jù)
高??茖W(xué)數(shù)據(jù)主要是來自于高?;诳蒲谢顒铀a(chǎn)生的,通常由相關(guān)科研人員或課題組成員保管的科學(xué)數(shù)據(jù),屬于專項類小科學(xué)數(shù)據(jù)的范疇。這類科學(xué)數(shù)據(jù)單獨看數(shù)據(jù)量不大,但是由于研究人員眾多、研究項目廣泛,因此數(shù)據(jù)積累起來總量非常驚人。但是,這些數(shù)據(jù)通常分散保存在項目組成員那里,沒有專人維護(hù)。而通過科學(xué)數(shù)據(jù)共享平臺,可以對這類科學(xué)數(shù)據(jù)進(jìn)行有效監(jiān)護(hù),避免數(shù)據(jù)丟失,節(jié)約維護(hù)成本,實現(xiàn)科學(xué)數(shù)據(jù)的有效共享,從而進(jìn)一步挖掘科學(xué)數(shù)據(jù)的科研含量。
2.3.3 高??茖W(xué)數(shù)據(jù)形式具有多樣性
高??茖W(xué)數(shù)據(jù)共享平臺的共享數(shù)據(jù)可以包括教師和學(xué)生的研究數(shù)據(jù)、未公開發(fā)表的學(xué)生學(xué)位論文、教師科研人員的課題成果、校內(nèi)教師著作(專著和合著)、數(shù)據(jù)集、灰色文件等,文件格式包括但不限于數(shù)據(jù)、文本、音頻、視頻和圖像等多種形式。
2.3.4 高??茖W(xué)數(shù)據(jù)連續(xù)性較差
高校的科學(xué)數(shù)據(jù)大多依附于課題產(chǎn)生,課題結(jié)束,科研數(shù)據(jù)的產(chǎn)生也就隨之終止,由于各類課題持續(xù)時間有限,科學(xué)數(shù)據(jù)的產(chǎn)生通常隨著課題的結(jié)束而結(jié)束,因此高??蒲袛?shù)據(jù)的連續(xù)性較差。
科學(xué)數(shù)據(jù)生命周期的理論眾多,盡管細(xì)節(jié)處略有區(qū)別,但總的來說,科學(xué)數(shù)據(jù)的生命周期從數(shù)據(jù)計劃開始,經(jīng)歷數(shù)據(jù)的分析、運用,最后到數(shù)據(jù)的發(fā)布、共享3個階段,高校乃至我國學(xué)術(shù)界對科學(xué)數(shù)據(jù)的利用都是不完整的,尤其缺乏前期對科數(shù)據(jù)的管理計劃和后期的數(shù)據(jù)發(fā)布共享階段,科學(xué)數(shù)據(jù)流沒有形成完整的回路,導(dǎo)致了科學(xué)數(shù)據(jù)的生命周期不完整,使眾多的科學(xué)數(shù)據(jù)被封存在計算機(jī)內(nèi),無法被利用。高校科學(xué)數(shù)據(jù)共享平臺建設(shè)的目的就是通過提供一個數(shù)據(jù)共享的生態(tài)環(huán)境,幫助高??蒲腥藛T管理數(shù)據(jù)、運用數(shù)據(jù)和共享數(shù)據(jù),完善并延長科學(xué)數(shù)據(jù)的生命周期,發(fā)揮數(shù)據(jù)的價值。
科學(xué)數(shù)據(jù)通過在特定平臺上開放共享,高校研究人員可以通過網(wǎng)絡(luò)方便獲取資源,科學(xué)數(shù)據(jù)發(fā)布平臺的內(nèi)容資源是及時更新的,具有動態(tài)性。數(shù)據(jù)提交者將自己研究產(chǎn)出的科學(xué)數(shù)據(jù)上傳到發(fā)布平臺,并可以根據(jù)研究進(jìn)度對數(shù)據(jù)進(jìn)行動態(tài)的補(bǔ)充和修改。而其他研究者可以通過平臺與數(shù)據(jù)共享者進(jìn)行交流,從而產(chǎn)生了一種新的學(xué)術(shù)交流形式,增加了研究人員之間的信息交流,緩解了信息獲取失衡的問題,實現(xiàn)了數(shù)據(jù)資源的共享和利用,促進(jìn)了學(xué)術(shù)的交流和傳播。
高校研究機(jī)構(gòu)通過收集、保存、傳播和共享本校師生的科研成果,并將其作為一個整體,系統(tǒng)、完整地進(jìn)行展示,其他科研人員通過對高??茖W(xué)數(shù)據(jù)平臺所發(fā)布的數(shù)據(jù)資源進(jìn)行研究、引用和再利用,可以在利用數(shù)據(jù)的同時了解到該高校的科研水平和科研進(jìn)展,進(jìn)而對其科研成果產(chǎn)生一定的評價,間接地提升了高校學(xué)術(shù)地位和影響力。
高校對科學(xué)數(shù)據(jù)及其描述文檔以標(biāo)準(zhǔn)化的形式長期保存,一方面為研究人員提供了一個便捷的科學(xué)數(shù)據(jù)交流和共享的平臺,另一方面加強(qiáng)了對科研數(shù)據(jù)的傳播和再利用,通過對科學(xué)數(shù)據(jù)進(jìn)行共享,有助于提高研究人員的學(xué)術(shù)聲望和影響力。
高校科學(xué)數(shù)據(jù)共享的建設(shè)模式通常包含高校自建共享平臺、高校與其他機(jī)構(gòu)合作建設(shè)共享平臺、委托第三方建設(shè)共享平臺等方式。
高校自建共享平臺是指由高校自行開發(fā)、研究、建設(shè)、管理以及維護(hù)科學(xué)數(shù)據(jù)共享平臺。能夠自建共享平臺的高校通常都是綜合類大學(xué),具有較強(qiáng)的計算機(jī)、信息技術(shù)類專業(yè)水平以及較為廣泛的學(xué)科分布,用于共享的科學(xué)數(shù)據(jù)能夠達(dá)到一定數(shù)量,參與共享的人員達(dá)到一定規(guī)模。自建平臺能夠基于本校的科研需求專門設(shè)計,較好地滿足本校科研人員的特殊需求。如美國密西根大學(xué)的ICPSR社會科學(xué)數(shù)據(jù)共享平臺是根據(jù)具體需求而專門定制開發(fā),應(yīng)用至今已有二十多年的歷史[4]。
與其他機(jī)構(gòu)合作是高校建設(shè)共享平臺中較多采用的方式。其他機(jī)構(gòu)可以是其他高校、科研機(jī)構(gòu)、社會機(jī)構(gòu)、數(shù)據(jù)庫公司等。高校通過與其他機(jī)構(gòu)合作,共享平臺可以獲得更多的技術(shù)支持、資源支持、資金支持以及政策支持,使共享平臺從共享主體、共享客體乃至建設(shè)效果上產(chǎn)生的倍加效應(yīng)遠(yuǎn)遠(yuǎn)大于高校自建的效果。如哈佛大學(xué)和麻省理工學(xué)院聯(lián)合創(chuàng)建的哈佛—麻省理工數(shù)據(jù)中心[5];復(fù)旦大學(xué)社會科學(xué)數(shù)據(jù)研究中心則是與哈佛大學(xué)的Dataverse Network系統(tǒng)開展了全面的合作。
在這一建設(shè)模式下,高校不參與平臺的具體建設(shè),而是根據(jù)自身的需要選擇不同的平臺,或向平臺建設(shè)機(jī)構(gòu)提出自己的建設(shè)要求。在這一模式下,高校只需在選擇階段進(jìn)行細(xì)致的調(diào)研,而無需進(jìn)行本地開發(fā)與服務(wù)器的維護(hù),可以節(jié)省大量時間成本、人力成本和費用等,能較快地的將自身數(shù)據(jù)接入共享平臺。同時,共享平臺為所有合作的機(jī)構(gòu)提供統(tǒng)一的檢索界面,方便高校師生檢索利用數(shù)據(jù)。如英國的Figshare平臺,該平臺可以為用戶提供簡便友好的用戶界面,展示機(jī)構(gòu)的所有研究成果,衡量機(jī)構(gòu)研究成果的學(xué)術(shù)影響力,并集成到已構(gòu)建成功的共享平臺中。目前,世界多所著名大學(xué)和出版機(jī)構(gòu)正在接受Figshare服務(wù)。
以上3種建設(shè)模式各有優(yōu)缺點,不同的學(xué)??梢园凑兆陨韺嶋H情況選擇適宜的共享機(jī)制。就我國已經(jīng)開展科學(xué)數(shù)據(jù)共享的高校而言,與其他機(jī)構(gòu)合作建設(shè)共享平臺或委托第三方建設(shè)共享平臺。
目前,我國高??茖W(xué)數(shù)據(jù)共享平臺建設(shè)正處于起步階段,可以結(jié)合科學(xué)數(shù)據(jù)的特點和數(shù)據(jù)使用者的需求,充分借鑒國外高校已經(jīng)發(fā)展較為成熟的平臺建設(shè)經(jīng)驗,從頂層設(shè)計開始,分級規(guī)劃、統(tǒng)一標(biāo)準(zhǔn),加快推動我國高校界的科學(xué)數(shù)據(jù)共享平臺建設(shè)。