国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

國內(nèi)外科學(xué)數(shù)據(jù)重用理論研究與實踐進(jìn)展

2022-05-07 11:24尹文辰
山東圖書館學(xué)刊 2022年2期
關(guān)鍵詞:科研人員規(guī)范領(lǐng)域

尹文辰

(上海大學(xué)文化遺產(chǎn)與信息管理學(xué)院,上海 200444)

1 引言

近些年來,伴隨著科學(xué)技術(shù)、社會經(jīng)濟(jì)的發(fā)展,學(xué)者們對于大數(shù)據(jù)的研究方興未艾。隨著科學(xué)研究的不斷深入,科學(xué)數(shù)據(jù)也在不斷產(chǎn)生和利用,科學(xué)數(shù)據(jù)的重用行為(下文簡稱“數(shù)據(jù)重用”)也開始逐漸興起。從科學(xué)數(shù)據(jù)的開放到數(shù)據(jù)的重用,其中可能涉及到數(shù)據(jù)共享、數(shù)據(jù)組織、數(shù)據(jù)存儲等等各個流程。每個流程之間環(huán)環(huán)相扣,其最終目的是實現(xiàn)數(shù)據(jù)資源的開放與最大化的利用[1]。并且數(shù)據(jù)資源往往可以通過廣泛的社會服務(wù),發(fā)揮其潛在價值,進(jìn)而可以減少國家的重復(fù)投資,提升科研投資的效率[2]。但是,由于每一類、每一領(lǐng)域的科學(xué)數(shù)據(jù)都具有自身的特征,或是體現(xiàn)在收集難易程度上,或是在數(shù)據(jù)的表現(xiàn)形式上,因此,人們逐漸意識到科學(xué)數(shù)據(jù)重用的研究價值,針對科學(xué)數(shù)據(jù)重用的研究也日益豐富,并且不少機(jī)構(gòu)數(shù)據(jù)庫也對數(shù)據(jù)重用發(fā)布了相關(guān)說明與規(guī)定。

因此,本文通過搜集國內(nèi)外有關(guān)科學(xué)數(shù)據(jù)重用的文獻(xiàn),總結(jié)出過去及當(dāng)下學(xué)者們研究的側(cè)重點,并發(fā)現(xiàn)數(shù)據(jù)重用在當(dāng)下研究的未普及之處與理論不足,再結(jié)合有關(guān)政府、機(jī)構(gòu)、數(shù)據(jù)庫等實際的工作進(jìn)展,作出相應(yīng)的總結(jié)與思考,以便未來學(xué)者們做進(jìn)一步研究。

2 文獻(xiàn)來源

首先,本文通過CNKI、WOS、BING、EBSCO、Elsevier等國內(nèi)外數(shù)據(jù)庫,以“數(shù)據(jù)重用”“數(shù)據(jù)復(fù)用”“date reuse”為主題詞做精準(zhǔn)搜索,篩選出符合本研究領(lǐng)域文獻(xiàn)54篇。其次,在參考了J.Webster等學(xué)者們給予文獻(xiàn)綜述的建議[3]:可以從檢索出文獻(xiàn)的引文中篩選出符合研究主題的相關(guān)文獻(xiàn),共獲得有效文獻(xiàn)33篇。再者,通過閱讀以上相關(guān)文獻(xiàn)后筆者發(fā)現(xiàn),“數(shù)據(jù)重用”“數(shù)據(jù)共享”“數(shù)據(jù)引用”等關(guān)鍵詞經(jīng)常共同出現(xiàn),所以為了更全面了解“數(shù)據(jù)重用”,筆者又以上述關(guān)鍵詞及其英文表達(dá)作了精準(zhǔn)檢索,鑒于本文研究以“科學(xué)數(shù)據(jù)重用”為主,因而只選擇了部分引用量較多的代表性文獻(xiàn)。最后,在實踐層面,筆者又去NIH、NASA、NSR、ESRC、Scientific Data、中國自然科學(xué)基金、中國科學(xué)院情報文獻(xiàn)數(shù)據(jù)中心等國內(nèi)外知名數(shù)據(jù)庫網(wǎng)站查閱了“數(shù)據(jù)重用”的相關(guān)實際政策及實踐工作的開展情況,并進(jìn)行了歸納總結(jié)。

3 有關(guān)科學(xué)數(shù)據(jù)重用概念的研究

對于科學(xué)數(shù)據(jù)重用的研究,可以追溯到上個世紀(jì)。起初,學(xué)者們對于科學(xué)數(shù)據(jù)重用的研究側(cè)重點還在該行為的意義和目的方面。Martin ME、King[4][5]等人率先提出數(shù)據(jù)共享和重用這一行為概念,指明其目的是讓研究再現(xiàn)、增加創(chuàng)新的可能性、提升數(shù)據(jù)的價值。1997年,國際科學(xué)委員會再次強調(diào)了數(shù)據(jù)的價值在于它們的共享和重復(fù)利用[6],而這也為之后開放科學(xué)的建立打下了基礎(chǔ)。

進(jìn)入21世紀(jì)后,學(xué)界對于數(shù)據(jù)重用的研究重點有了些許的變化,由注重意義、結(jié)果和價值影響方面,轉(zhuǎn)變?yōu)殚_始討論“科學(xué)數(shù)據(jù)重用”行為本身的問題。如Karast[7]等人就發(fā)表了自己的看法,認(rèn)為數(shù)據(jù)重用是指那些沒有收集數(shù)據(jù)的人使用數(shù)據(jù),其關(guān)注的重點為是否使用他人數(shù)據(jù)而非能產(chǎn)生什么結(jié)果。數(shù)據(jù)重用在這一時期往往被界定為數(shù)據(jù)的二次使用,并且這些數(shù)據(jù)的意義已經(jīng)不由其原始的目的所決定,而是旨在解決新的問題。

隨著開放科學(xué)的不斷發(fā)展,我們也逐漸步入大數(shù)據(jù)的時代,越來越多的學(xué)者注意到科學(xué)數(shù)據(jù)對于研究成果的重要性。面對大數(shù)據(jù)時代海量的數(shù)據(jù),如何去做好數(shù)據(jù)管理就成了當(dāng)下的研究熱題,因而有關(guān)數(shù)據(jù)共享、引用、重用等方面的研究此起彼伏。

圖1 科學(xué)數(shù)據(jù)重用定義發(fā)展歷程

通過觀查數(shù)據(jù)重用研究的發(fā)展歷程可以從以下三點著手定義:數(shù)據(jù)重用目的確認(rèn)、數(shù)據(jù)重用行為界定、數(shù)據(jù)重用相近概念辨析。對于數(shù)據(jù)重用目的,多數(shù)學(xué)者們表現(xiàn)出較大一致性,認(rèn)為重用他人的數(shù)據(jù)可以降低自己研究的成本,并且還可從原有數(shù)據(jù)中激發(fā)靈感。對于數(shù)據(jù)重用行為界定,可以分為直接使用與間接使用。直接使用則主要包括對原數(shù)據(jù)的獲取、設(shè)立數(shù)據(jù)鏈接(引用)、進(jìn)行數(shù)據(jù)挖掘等行為,將原數(shù)據(jù)直接用于的新研究;間接使用則主要表現(xiàn)為對原數(shù)據(jù)或數(shù)據(jù)集進(jìn)行修改、刪減、合并等,獲得衍生數(shù)據(jù),再以衍生數(shù)據(jù)作為支持新研究的關(guān)鍵。對于數(shù)據(jù)重用相關(guān)概念,文獻(xiàn)調(diào)研顯示術(shù)語“數(shù)據(jù)重用”與“數(shù)據(jù)共享”“數(shù)據(jù)引用”經(jīng)常共同出現(xiàn),而且容易混淆,三者有聯(lián)系但概念又不是完全一致。數(shù)據(jù)共享可以認(rèn)為是數(shù)據(jù)重用的前提,只有數(shù)據(jù)先被創(chuàng)造者通過某些渠道發(fā)表共享,其他人才可能接觸到這些數(shù)據(jù),才可能發(fā)生重用行為[8]。數(shù)據(jù)引用作為實現(xiàn)數(shù)據(jù)共享的重要手段[9],本身則是數(shù)據(jù)重用的一種表現(xiàn)形式。數(shù)據(jù)在被共享以后不一定會發(fā)生重用行為,但數(shù)據(jù)重用則往往伴隨著數(shù)據(jù)的共享。

綜上所述,本文暫且將數(shù)據(jù)重用的概念定義為:借助一定的手段,通過公開的數(shù)據(jù)庫、平臺或個人、研究小組等,搜集曾經(jīng)為了研究一個問題而產(chǎn)生的數(shù)據(jù),直接作為一個新的問題的研究基礎(chǔ),或衍生出新的數(shù)據(jù)(集),使原數(shù)據(jù)的價值擴(kuò)大化,并以數(shù)據(jù)支持研究的行為。

4 有關(guān)科學(xué)數(shù)據(jù)重用行為偏好及影響因素的研究

4.1 科研人員數(shù)據(jù)重用行為偏好的研究

4.1.1 以科研人員為中心的研究

此研究的重點則在于將研究人員按照不同的標(biāo)準(zhǔn)進(jìn)行劃分,這類研究的數(shù)量相對較多。常見的劃分標(biāo)準(zhǔn)有科研人員年齡[10]、所屬科學(xué)研究領(lǐng)域等等[11][12]。

在年齡方面,研究發(fā)現(xiàn)[13]低年齡(小于40周歲)的研究人員更傾向于數(shù)據(jù)共享和重用,但同時他們也要求研究由自己主導(dǎo),并且希望研究成果被發(fā)表;中年齡段(40-49周歲)的研究人員更傾向于在科研小組中共享重用數(shù)據(jù),并致力于從這些共享數(shù)據(jù)的重用中創(chuàng)新開發(fā)新的數(shù)據(jù),但他們對于一些數(shù)據(jù)管理組織的認(rèn)同感較低;高年齡段(50周歲及以上)的研究者聲稱他們共享的數(shù)據(jù)比其他年齡段的人都多,但在其他年齡段的研究者想要獲取這些數(shù)據(jù)時卻遭到不少的限制,即高年齡階段的科研人員數(shù)據(jù)共享重用意愿與行為呈現(xiàn)脫節(jié)狀態(tài)。

在學(xué)科領(lǐng)域方面,自然科學(xué)領(lǐng)域和人文社科領(lǐng)域?qū)?shù)據(jù)的使用率均呈現(xiàn)較高水準(zhǔn),部分細(xì)分的學(xué)科領(lǐng)域數(shù)據(jù)使用率甚至高達(dá)100%,但重復(fù)使用率在不同領(lǐng)域則表現(xiàn)出較大的差異性[14]。有研究表明85%的重用行為主要發(fā)生在三個具有數(shù)據(jù)密集型特征的領(lǐng)域[15]。它們是農(nóng)業(yè)和生物科學(xué)(55.9%)、環(huán)境科學(xué)(16%)和醫(yī)學(xué)(13.6%)。究其原因,根據(jù)一些調(diào)研文獻(xiàn)表示,最初數(shù)據(jù)共享被認(rèn)為是始于這三個研究領(lǐng)域,是發(fā)展基礎(chǔ)設(shè)施、資源和政策以促進(jìn)數(shù)據(jù)共享的先驅(qū),因而導(dǎo)致這些研究領(lǐng)域重復(fù)使用的數(shù)據(jù)數(shù)量也遠(yuǎn)大于其他研究領(lǐng)域。

隨著調(diào)研的深入,又有學(xué)者發(fā)現(xiàn)無論是自然學(xué)科還是人文社科,即使是部分?jǐn)?shù)據(jù)使用率較高的領(lǐng)域如醫(yī)藥衛(wèi)生技術(shù)和社會科學(xué)Ⅱ兩個領(lǐng)域,重復(fù)使用率也保持較低水平[16]。這可能是由于學(xué)科差異的影響,不同學(xué)科科研人員的思維方式不同,并且在缺乏規(guī)范的數(shù)據(jù)重用規(guī)則、缺少便捷的數(shù)據(jù)獲取渠道等多方位因素的環(huán)境下,造成這些領(lǐng)域的數(shù)據(jù)重用實踐發(fā)展較為緩慢。

另一方面,即便在數(shù)據(jù)重用率較高的一些領(lǐng)域,科研人員的數(shù)據(jù)重用行為仍存在些許差異,其中較為明顯的是數(shù)據(jù)來源和原因差異、重用動機(jī)差異。a.數(shù)據(jù)來源和原因方面,經(jīng)濟(jì)學(xué)領(lǐng)域的科研人員傾向于重用規(guī)范性的數(shù)據(jù)庫和統(tǒng)計年鑒的數(shù)據(jù),因為他們更在意數(shù)據(jù)的完備性、適用性和數(shù)據(jù)量的大小[17];管理學(xué)領(lǐng)域數(shù)據(jù)來源以政府和商業(yè)數(shù)據(jù)庫居多,個人或團(tuán)體數(shù)據(jù)偏少,因為這些數(shù)據(jù)庫更具有準(zhǔn)確性,且易獲得[18];生物科學(xué)領(lǐng)域的科研人員在理論突破、學(xué)術(shù)研究方面傾向于重用文獻(xiàn)中的數(shù)據(jù),在遺傳學(xué)和腫瘤學(xué)等實踐性較強的學(xué)科研究中傾向于重用已有的數(shù)據(jù)集或小組數(shù)據(jù)[19],因為重用自己的數(shù)據(jù)或在產(chǎn)生數(shù)據(jù)的同一研究小組中的數(shù)據(jù)可以有效避免數(shù)據(jù)權(quán)限和隱私問題,并且由于對該數(shù)據(jù)的熟悉,也使得重用起來更易于解釋和可信,進(jìn)而使研究更具有權(quán)威性[20]。整體上來說各學(xué)科領(lǐng)域之很難表現(xiàn)出較大一致性,這種現(xiàn)象很大程度上源于不同學(xué)科領(lǐng)域的科研人員思考問題的方式不同、研究問題的類型不同、解決問題的手段也不同,因此在解決實際問題如制定重用規(guī)范時,應(yīng)根據(jù)具體領(lǐng)域的特點,因“域”制宜。b.在重用動機(jī)方面,相對而言學(xué)科間的統(tǒng)一性會顯著一些。以管理學(xué)、經(jīng)濟(jì)學(xué)為代表的人文社科領(lǐng)域科研人員數(shù)據(jù)重用往往是為了滿足他們的信息需求[21],隨著信息化的發(fā)展,此類需求的數(shù)量也在不斷上升,因而促進(jìn)了科研人員數(shù)據(jù)重用;而以生物學(xué)、醫(yī)學(xué)為代表的自然學(xué)科領(lǐng)域科研人員數(shù)據(jù)重用往往是因為他們學(xué)科領(lǐng)域的數(shù)據(jù)具有一定的不可復(fù)制性[22][23],若不進(jìn)行數(shù)據(jù)重用,則很可能會加大研究的難度,并且新獲得的數(shù)據(jù)也很有可能受到外界質(zhì)疑,因此他們選擇重用科學(xué)數(shù)據(jù)進(jìn)而很好地規(guī)避這些風(fēng)險。

4.1.2 以科學(xué)數(shù)據(jù)為中心的研究

這類研究重點則在于將科學(xué)數(shù)據(jù)進(jìn)行不同種類的區(qū)分,而這些區(qū)分的標(biāo)準(zhǔn)相比較于科研人員而言,就比較能凸顯出較大的差異性。其中較為常見的劃分標(biāo)準(zhǔn)為數(shù)據(jù)的類型、數(shù)據(jù)的使用方式、使用數(shù)據(jù)的目的、數(shù)據(jù)的搜集手段等,此外還有學(xué)者按照數(shù)據(jù)的導(dǎo)出格式規(guī)范進(jìn)行劃分并開展了相應(yīng)的研究[24][25]。調(diào)查發(fā)現(xiàn),不同研究將數(shù)據(jù)按照不同標(biāo)準(zhǔn)劃分,總能發(fā)現(xiàn)不同類型數(shù)據(jù)的重用行為差異性,因此此類研究難以得出概括性結(jié)論。

4.2 影響科研人員數(shù)據(jù)重用因素的研究

此類研究學(xué)者們也是按照不同標(biāo)準(zhǔn)先將人員或者數(shù)據(jù)劃分為不同的群體,然后再探究不同群體之間的差異性。整體而言,在借鑒了部分學(xué)者們的分類標(biāo)準(zhǔn)的基礎(chǔ)之上[26],本文將這些影響因素歸納為個人因素、技術(shù)或環(huán)境因素兩大類。

個人因素方面,科研人員對科研數(shù)據(jù)重用生態(tài)系統(tǒng)的態(tài)度與感知對其重用行為具有重要影響[27],數(shù)據(jù)重用的感知效能、感知重要性、數(shù)據(jù)質(zhì)量更能促進(jìn)科研人員數(shù)據(jù)重用行為[28],數(shù)據(jù)重用的感知努力、感知風(fēng)險會對科研人員數(shù)據(jù)重用行為有負(fù)面影響[29]。在眾多研究結(jié)果中,與常理較違背的是對重用數(shù)據(jù)缺乏信任并不會導(dǎo)致科研人員停止使用該重用數(shù)據(jù),可能是科研人員會想方設(shè)法攻克這些問題,具體原因還可進(jìn)一步探究。另外,根據(jù)文獻(xiàn)調(diào)研結(jié)果,此類因素的研究數(shù)量是整體研究數(shù)量中最多的,可能原因是此類研究方法較為成熟、模型應(yīng)用較為廣泛、調(diào)研數(shù)據(jù)較為易得。但也因此導(dǎo)致研究的結(jié)果可能會具有一些局限性,因為此類研究往往是基于問卷調(diào)查,問題的設(shè)計往往具有一定主觀性,且不同的研究人員設(shè)置的變量差異性較大,收集的數(shù)據(jù)也僅僅是為自身研究量身定制的。

技術(shù)或環(huán)境方面,數(shù)據(jù)的完整性、可訪問性、可獲取性、易操作性、數(shù)據(jù)平臺可信度以及科研人員知識背景和數(shù)據(jù)模型都將影響數(shù)據(jù)重用行為[30-34],但具體到某個點的影響力度或者定量分析方面還欠缺一些研究。多數(shù)學(xué)者們都在強調(diào)數(shù)據(jù)重用規(guī)范則會較大程度影響科研人員數(shù)據(jù)重用行為,但在具體實施規(guī)范方面,相應(yīng)的研究數(shù)量則較少。另一方面,雖然規(guī)范的數(shù)據(jù)管理和可靠準(zhǔn)確的數(shù)據(jù)是科研人員愿意利用數(shù)據(jù)的前提[35],但是對那些已經(jīng)采用成熟的數(shù)據(jù)管理方法的人來說,這些外來的規(guī)范幾乎沒有影響甚至有負(fù)影響[36]。這也從另一個方面說明數(shù)據(jù)重用規(guī)范的制定可能并不一定都是有利的,因此需要進(jìn)一步深究。

5 有關(guān)科學(xué)數(shù)據(jù)重用所遇到問題的研究

5.1 針對數(shù)據(jù)本身問題的研究

根據(jù)中國科學(xué)院情報文獻(xiàn)中心[37]的定義,指出科學(xué)數(shù)據(jù)應(yīng)以實際應(yīng)用為主,因此如何解決數(shù)據(jù)的使用以及儲存問題就成為關(guān)鍵。首先,最直觀的問題便是數(shù)據(jù)的可用性問題以及去文本化問題(去除在原有研究中特定的環(huán)境含義)[38]。由于科學(xué)數(shù)據(jù)多數(shù)是在一定的科研環(huán)境中形成,其或多或少會帶有一定的環(huán)境特征,這些特征往往體現(xiàn)在數(shù)據(jù)的記錄形式及其注釋上,而對此卻缺乏完善的規(guī)范體系[39],這就可能導(dǎo)致他人理解該數(shù)據(jù)的難度大大增加,從而限制了比較分析,阻礙了數(shù)據(jù)共享與重用[40]。

其次,科學(xué)數(shù)據(jù)的版權(quán)問題也不容忽視。隨著我國法治社會體系的發(fā)展,公民們的版權(quán)意識也在不斷提高,對于數(shù)據(jù)版權(quán)的討論也日益增多[41]。但相比較于國外,國內(nèi)關(guān)于數(shù)據(jù)版權(quán)的研究就相對較少,且分析力度不足。受版權(quán)的影響,其他人可能難以接觸到這些已經(jīng)成形的數(shù)據(jù)或數(shù)據(jù)集,數(shù)據(jù)重用則更加困難。

第三,數(shù)據(jù)的丟失也會嚴(yán)重影響數(shù)據(jù)重用。由于期刊或書籍版面的限制,就有可能導(dǎo)致原數(shù)據(jù)的部分或全部丟失[42],而殘缺的數(shù)據(jù)很可能難以反映原有研究的結(jié)果,甚至?xí)贸鼋厝幌喾吹慕Y(jié)論[43]。因此,數(shù)據(jù)的丟失可能比其他因素更能影響數(shù)據(jù)重用的效果,因為文章一旦發(fā)布,就成為靜態(tài)實體,無法修改[44],而他人在重用這些數(shù)據(jù)時可能并不知道這些數(shù)據(jù)是殘缺的。

5.2 針對數(shù)據(jù)搜集過程中遇到問題的探究

在自然科學(xué)領(lǐng)域,有學(xué)者提出了小數(shù)據(jù)概念[45],即在大數(shù)據(jù)的環(huán)境下用于研究特定領(lǐng)域的小型數(shù)據(jù)集。小型數(shù)據(jù)集可能很難找到,因為它們很少存放在存儲庫中,更多是儲存在調(diào)查員的本地硬盤驅(qū)動器或?qū)嶒炇曳?wù)器上。在這些小的研究中,積極保存數(shù)據(jù)及其附帶文件很少是一個正式的過程。因此,自然科學(xué)研究人員數(shù)據(jù)重用在獲取數(shù)據(jù)難度上還是比較大的。這就導(dǎo)致自然科學(xué)領(lǐng)域關(guān)于數(shù)據(jù)搜集的研究相對較少,相比之下,在該領(lǐng)域以數(shù)據(jù)共享、數(shù)據(jù)引用作為研究重點的文獻(xiàn)就涉及較多。

相比較于自然科學(xué)領(lǐng)域,社會科學(xué)領(lǐng)域的數(shù)據(jù)在獲取難度上相對較低,因而研究方面也較為廣泛,遇到的問題也較多。有研究就發(fā)現(xiàn)該領(lǐng)域的研究人員獲取的數(shù)據(jù)往往就比較帶有一定的主觀性,因為他們獲得數(shù)據(jù)的來源往往是個人、小規(guī)模的形式[46]。這就導(dǎo)致重用這些數(shù)據(jù)而得出來的結(jié)果與客觀事實會有一定的偏差,對該結(jié)果的質(zhì)疑之聲也相對較高。此外,許多社會科學(xué)數(shù)據(jù)是有價值且敏感的,以至于幾乎不允許外部研究人員訪問[47]。甚至即使該數(shù)據(jù)最初是由研究人員創(chuàng)造的,隱私問題有時會要求這些人員在研究完成后銷毀這些數(shù)據(jù)。這一做法顯然使科學(xué)數(shù)據(jù)重用變得更加困難,甚至?xí)黾悠墼p性出版物[48][49]。

5.3 針對科研人員自身問題的探究

整體來說,學(xué)者們對科研人員自身影響數(shù)據(jù)重用的研究切入點可分為科研人員的重用意愿與科研人員自身所具備的技能兩大方面。

一方面,有研究表明不同的人群對于數(shù)據(jù)重用的態(tài)度不一樣,一些科研人員會從自身利益角度出發(fā)會拒絕數(shù)據(jù)重用[50]。亦或者,他們會制定一些個人的標(biāo)準(zhǔn)限制他人的重用行為[51]。這是因為研究人員會認(rèn)為在存儲庫中共享數(shù)據(jù)與他們的工作無關(guān),特別是在存儲庫中共享數(shù)據(jù)可能是一個耗時的過程,并且認(rèn)為這對正在進(jìn)行共享的研究人員來說回報很少[52]。因此雖然大多數(shù)人都表示把數(shù)據(jù)共享到數(shù)據(jù)庫進(jìn)行重用是有意義的[53][54],但少有人去這樣做。這類研究往往是基于問卷調(diào)研或者走訪的形式,相對而言樣本可能具有獨特性,所以研究結(jié)果可以作為參考,在解決具體問題時可以繼續(xù)作有針對性的研究。

另一方面,數(shù)據(jù)重用被學(xué)者們證實又需要科研人員具備專門的知識和其他人員的信任[55]。有研究發(fā)現(xiàn)即使是那些直接獲得所有研究文件或者本身就是原始研究人員的調(diào)查人員,仍然難以理解他們得到的數(shù)據(jù)[56],而科研人員對數(shù)據(jù)的理解則會很大程度上影響其對數(shù)據(jù)的使用行為。此外,部分研究人員也表示他們?nèi)狈υ诠泊鎯熘泄蚕頂?shù)據(jù)的時間、渠道和技術(shù),也沒有相應(yīng)的激勵機(jī)制[57]。從某種程度上講,基礎(chǔ)設(shè)施的短缺也將導(dǎo)致科研人員放棄研究數(shù)據(jù)的共享與重用。此類研究常常是基于某種特定的場所,如政府部門、研究所或某個學(xué)科領(lǐng)域等較為封閉或獨特的領(lǐng)域,并且以發(fā)現(xiàn)問題為主要研究,在提出解決方案時論證相對不足,仍需要進(jìn)一步探索。

6 對科學(xué)數(shù)據(jù)重用所遇到問題的解決方式——重用規(guī)范的研究與實踐進(jìn)展

6.1 針對制定重用規(guī)范的主體的研究

針對數(shù)據(jù)重用存在的一些問題,無論國內(nèi)外都有眾多學(xué)者們表示應(yīng)該建立數(shù)據(jù)重用標(biāo)準(zhǔn)規(guī)范[58][59],并且他們還表示數(shù)據(jù)共享、重用的利益相關(guān)者有責(zé)任去制定關(guān)于數(shù)據(jù)共享和重用的規(guī)范[60],這樣做的目的是鼓勵那些利益相關(guān)者進(jìn)行數(shù)據(jù)共享,并可以更好地衡量研究人員數(shù)據(jù)重用的效果[61]。同時,也有人表示不同的利益相關(guān)者也可以根據(jù)自身利益制定不同的行為規(guī)范[62][63]。對此,F(xiàn)ederer L[64]就總結(jié)出了數(shù)據(jù)共享、重用的利益相關(guān)者,不僅包括重用和度量數(shù)據(jù)標(biāo)準(zhǔn)的創(chuàng)造者、出版商、數(shù)據(jù)庫、資助者和機(jī)構(gòu),還包括了引用管理軟件的創(chuàng)建者、研究人員、受訓(xùn)人員、圖書管理員等等。雖然當(dāng)下已經(jīng)有許多研究指出了制定重用規(guī)范的主體及其義務(wù),但具體每個主體應(yīng)該如何實踐操作等問題方面研究較為空缺,也沒有較好的范例可以借鑒,因此還需要投入更多的精力思考。

6.2 針對重用規(guī)范制定的研究與進(jìn)展

6.2.1 學(xué)術(shù)界研究

國外有學(xué)者根據(jù)數(shù)據(jù)共享的標(biāo)準(zhǔn)[65],創(chuàng)造了一種新的度量標(biāo)準(zhǔn)Meloda[66]。它允許對信息進(jìn)行評級并評估其重用程度,其中還包括了一些具體重用數(shù)據(jù)時的操作規(guī)范。同時,Missier P[67]也提供了一個基于W3C PROV數(shù)據(jù)模型的DTS的理論模型,其最終目的是基于數(shù)據(jù)重用直接度量的信用模型為數(shù)據(jù)發(fā)布者提供共享數(shù)據(jù)的激勵。

在我國,也有學(xué)者則將共享數(shù)據(jù)協(xié)議按嚴(yán)格程度分為了五個等級[68],不同的數(shù)據(jù)利益相關(guān)者可根據(jù)不同的需求,選擇合適的標(biāo)準(zhǔn)規(guī)范數(shù)據(jù)重用行為。除此之外,還有學(xué)者認(rèn)為在未來設(shè)計數(shù)據(jù)文件時,重要的是將它們與出版物聯(lián)系起來[69]。

雖然到目前為止,尚未有很多研究定義學(xué)術(shù)界各個領(lǐng)域中數(shù)據(jù)重用的規(guī)范具體是什么,但是有些領(lǐng)域已經(jīng)具備更積極的數(shù)據(jù)重用文化,如生物醫(yī)藥領(lǐng)域。無論是否有強大的數(shù)據(jù)重用規(guī)范,進(jìn)一步探索各學(xué)科中的數(shù)據(jù)重用行為都將有助于更好地理解主觀規(guī)范在數(shù)據(jù)重用中的影響,有助于更好地理解和幫助科研社區(qū)創(chuàng)建數(shù)據(jù)重用文化。

6.2.2 組織機(jī)構(gòu)實踐進(jìn)展

(1)Scientific Data、OECD與FAIR數(shù)據(jù)原則

起初,期刊Scientific Data在2000年就制定了《網(wǎng)絡(luò)時代的科學(xué)原則》[70],其中就指明了數(shù)據(jù)的發(fā)布是科學(xué)研究和知識傳播的基礎(chǔ)。經(jīng)濟(jì)合作與發(fā)展組織(OECD)也于2006年頒布了《公共資金資助的研究數(shù)據(jù)獲取原則與指南》[71],明確了共享數(shù)據(jù)的十三種特性。這兩個原則都特別關(guān)注知識產(chǎn)權(quán)問題,都意識到科學(xué)數(shù)據(jù)共享與重用過程中必然產(chǎn)生利益均衡問題,需要通過法律手段予以解決[72]。在此基礎(chǔ)上,歐盟FORCE11工作組又結(jié)合了2013年G8科技部長關(guān)于開放科學(xué)數(shù)據(jù)的聲明[73],發(fā)表了FAIR數(shù)據(jù)原則(FAIR Data Principles)[74],其著重強調(diào)了開放數(shù)據(jù)的可發(fā)現(xiàn)、可獲取、互操作和可重用特點[75],并且具體規(guī)定了數(shù)據(jù)重用的一些操作[76]。

當(dāng)下,Scientific Data[77]已將數(shù)據(jù)重用作為構(gòu)建數(shù)據(jù)庫的六大基本原則之一,并且明確規(guī)定了數(shù)據(jù)標(biāo)準(zhǔn)化和詳細(xì)的說明使研究數(shù)據(jù)更易于查找和重用。這其中就包括一些數(shù)據(jù)描述符用于提供解釋、重用和再現(xiàn)數(shù)據(jù)所需的信息,確保鏈接到存儲數(shù)據(jù)文件、代碼或工作流的一個或多個受信任的數(shù)據(jù)存儲庫,從而較大程度上滿足資助者數(shù)據(jù)管理要求,特別是通過演示過程來促進(jìn)研究數(shù)據(jù)的重用潛力。

由此可見,Scientific Data在數(shù)據(jù)重用規(guī)范方面還是涉及較早,并且有一定發(fā)展年限,在某些具體的細(xì)則上作出了詳細(xì)的規(guī)定,因而在該行業(yè)內(nèi)可作為典型案例參考學(xué)習(xí)。

(2)NIH

美國國立衛(wèi)生研究院(NIH)[78]宣布了最終的基因組數(shù)據(jù)共享(GDS)政策,對于屬于GDS政策范圍內(nèi)的研究,通過其機(jī)構(gòu)審查委員會(IRB),隱私委員會或同等機(jī)構(gòu)提交機(jī)構(gòu),應(yīng)審查知情同意材料,以確定是否屬于適用于共享數(shù)據(jù)以供二次研究使用。并且,NIH不鼓勵使用專利來防止他人使用數(shù)據(jù)。

該研究院雖然并未明文規(guī)定所共享的數(shù)據(jù)該如何重用,但從其字里行間可以明確感受到其對數(shù)據(jù)重用的重視性。從目前的來看,其工作的重點尚且停留在數(shù)據(jù)重用的前提——數(shù)據(jù)共享方面,在未來不排除NIH會對數(shù)據(jù)重用作更詳細(xì)的明文規(guī)定。

(3)英國社會科學(xué)研究社區(qū)

《2013-2018年英國社會和經(jīng)濟(jì)研究數(shù)據(jù)資源戰(zhàn)略》(NDS)[79]為英國社會科學(xué)研究社區(qū)提出了戰(zhàn)略方法,并致力于數(shù)據(jù)資源的重大發(fā)展。該戰(zhàn)略探討了如何使研究人員能夠充分利用新的和現(xiàn)有的數(shù)據(jù)資源,制定公共參與戰(zhàn)略,并與公眾就可能識別個人或組織的數(shù)據(jù)重用或組織之間的聯(lián)系進(jìn)行溝通。相比較于上述二者,該研究社區(qū)對數(shù)據(jù)重用的規(guī)定就顯得較為滯后,暫且停留在戰(zhàn)略層面,并且最近幾年未能發(fā)現(xiàn)有相關(guān)的明文規(guī)定。

(4)加拿大聯(lián)邦政府

在加拿大,聯(lián)邦政府一直在通過開放政府和開放科學(xué)倡議來增加其對研究數(shù)據(jù)管理和共享的興趣和支持[80]。2014年,加拿大科學(xué)、技術(shù)和創(chuàng)新戰(zhàn)略就通過促進(jìn)“開放獲取聯(lián)邦資助研究產(chǎn)生的出版物和相關(guān)數(shù)據(jù)以加速研究、推動創(chuàng)新和造福經(jīng)濟(jì)”來促進(jìn)開放科學(xué)。2015年,各機(jī)構(gòu)宣布了一項新的“三機(jī)構(gòu)出版物開放獲取政策”,要求公開提供由公共基金資助的研究出版物,以獲得整個社區(qū)的利益,并且在之后很長一段時期內(nèi)評估如何在這個更廣泛的政策背景下繼續(xù)推進(jìn)研究數(shù)據(jù)管理,其中就包括制定Research Data Management and Sharing(RDM)準(zhǔn)則[81]。該準(zhǔn)則詳細(xì)規(guī)定了調(diào)查人員在提供、共享、使用數(shù)據(jù)時應(yīng)盡的義務(wù),其中個別條例涉及到了數(shù)據(jù)重用前提——數(shù)據(jù)共享的內(nèi)容,如調(diào)查人員必須以某種形式共享數(shù)據(jù),但此后有關(guān)政策頒布工作進(jìn)展較少。整體而言,加拿大聯(lián)邦政府在數(shù)據(jù)重用方面的工作僅僅初具苗頭,甚至未進(jìn)入戰(zhàn)略層面。

(5)中華人民共和國國務(wù)院辦公廳

2018年,中華人民共和國國務(wù)院辦公廳頒發(fā)了《科學(xué)數(shù)據(jù)管理辦法》[82](簡稱辦法),該辦法從政府角度出發(fā),明確了政府機(jī)關(guān)、法人單位及其他主管部門對科學(xué)數(shù)據(jù)管理的工作職能。其中,對于數(shù)據(jù)的共享與重用,該辦法提出應(yīng)對科學(xué)數(shù)據(jù)進(jìn)行分級分類管理,并鼓勵有關(guān)部門對數(shù)據(jù)進(jìn)行共享,鼓勵機(jī)構(gòu)或個人對共享數(shù)據(jù)進(jìn)行二次加工、分析、創(chuàng)造新的價值。此外,辦法還強調(diào)了數(shù)據(jù)安全問題,對于重用的數(shù)據(jù)要注明引用,必要時可提供一定報酬。此辦法的頒布與實施,填補了我國數(shù)據(jù)管理政策上的空白,明確了各個人員和機(jī)構(gòu)的工作職責(zé),使科學(xué)數(shù)據(jù)的共享、儲存、重用每一個步驟都有相應(yīng)的規(guī)范約束,對于促進(jìn)我國科學(xué)數(shù)據(jù)管理水平具有劃時代意義。

(6)其他

除以上機(jī)構(gòu)組織外,筆者還調(diào)研了NSR、ESRC等眾多知名數(shù)據(jù)庫,但可惜的是在筆者調(diào)研這些數(shù)據(jù)庫時并未發(fā)現(xiàn)任何有關(guān)于數(shù)據(jù)重用的明文規(guī)定,甚至關(guān)于數(shù)據(jù)共享、數(shù)據(jù)引用等規(guī)定也只字未提。因此,未來各大機(jī)構(gòu)數(shù)據(jù)庫關(guān)于數(shù)據(jù)重用的工作任重而道遠(yuǎn)。

7 總結(jié)與展望

統(tǒng)觀前文有關(guān)科學(xué)數(shù)據(jù)重用的研究與實踐進(jìn)展,深入剖析這些研究與規(guī)定可以發(fā)現(xiàn)以下幾點:

一是針對科學(xué)數(shù)據(jù)重用行為的定義,目前的研究與規(guī)定都或多或少地涉及,但又沒有很明確表達(dá),現(xiàn)有的表達(dá)也多停留在重用的目的、意義、人員上,相比較而言針對重用技術(shù)、方法、過程、結(jié)果上的界定較為模糊。相比之下數(shù)據(jù)重用的臨近概念,如數(shù)據(jù)引用,已被多數(shù)學(xué)者在實踐效果、學(xué)術(shù)規(guī)范、影響因素[83]等方面做了較多的研究,并且形成了一定的規(guī)范準(zhǔn)則[84],甚至針對這些引用規(guī)范又有學(xué)者做了更加深入的內(nèi)容分析與特點分析[85][86],相對而言研究較為全面,因而可作為一定參考;

二是針對科學(xué)數(shù)據(jù)重用行為的研究,更多集中在科研人員科學(xué)數(shù)據(jù)重用中遇到的問題與其行為偏好上,學(xué)者們使用的研究方法眾多,研究切入點也較為廣泛,呈百花爭艷現(xiàn)象,然而當(dāng)涉及到數(shù)據(jù)重用所遇到問題的解決方法時,雖然多數(shù)學(xué)者認(rèn)為制定相應(yīng)的規(guī)范有助于解決問題,但對于如何具體規(guī)范科學(xué)數(shù)據(jù)重用行為,如何落實該項規(guī)定,從目前的研究來看相對還比較匱乏;

三是在應(yīng)用方面,針對科學(xué)數(shù)據(jù)重用的前提——數(shù)據(jù)共享方面,不少學(xué)者、研究員與一些出版商、組織機(jī)構(gòu)都做了較為詳細(xì)的研究與有關(guān)政策的制定,其側(cè)重點往往放在激勵機(jī)制、共享規(guī)范、流程制定、共享意義、數(shù)據(jù)存儲等方面,尚可形成較為系統(tǒng)的體系。但另一邊,科學(xué)數(shù)據(jù)重用的制定相對而言進(jìn)展較緩,部分知名數(shù)據(jù)庫、組織機(jī)構(gòu)也僅僅是將其作為一項構(gòu)建原則或者網(wǎng)頁說明一筆帶過,尚未形成科學(xué)的管理體系以及定量或定性評價標(biāo)準(zhǔn),甚至有更多的數(shù)據(jù)庫網(wǎng)站以及政府機(jī)關(guān)對科學(xué)數(shù)據(jù)重用未提出只字片語。

圖2 數(shù)據(jù)重用理論與實踐進(jìn)展

從目前的研究來看,在理論方面對于數(shù)據(jù)重用行為定義的研究往往被忽略,而對于數(shù)據(jù)重用的價值、存在問題、影響因素、確定解決問題主體與職責(zé)等方面的研究此起彼伏、細(xì)致入微,但到了具體制定相應(yīng)規(guī)范、評價標(biāo)準(zhǔn)時,多數(shù)研究者未曾作為重點研究,僅停留在思考與建議層面。原因可能在于此類研究操作難度上較大,以至于在實踐層面呈現(xiàn)脫節(jié)狀態(tài)。無論是國內(nèi)外的數(shù)據(jù)庫機(jī)構(gòu)或者政府部門,已經(jīng)制定的重用規(guī)范未能很好地發(fā)現(xiàn)與先前理論研究的較大關(guān)聯(lián)性,更有多數(shù)機(jī)構(gòu)或部門未曾制定重用規(guī)范。希望未來學(xué)者們與有關(guān)工作人員可以結(jié)合理論研究來彌補此項缺口,尤其是針對不同數(shù)據(jù)庫的個性化重用規(guī)范。

猜你喜歡
科研人員規(guī)范領(lǐng)域
科技部等五部門聯(lián)合發(fā)文開展減輕青年科研人員負(fù)擔(dān)專項行動
來稿規(guī)范
來稿規(guī)范
科研人員揭示油桃果實表皮不長毛的奧秘
科研人員破譯黑豬肉特征風(fēng)味物質(zhì)
PDCA法在除顫儀規(guī)范操作中的應(yīng)用
來稿規(guī)范
2020 IT領(lǐng)域大事記
領(lǐng)域·對峙
企業(yè)科研人員激勵問題及對策研究
南开区| 抚宁县| 错那县| 南川市| 陆河县| 论坛| 玉林市| 福清市| 松溪县| 沽源县| 广水市| 靖西县| 鄯善县| 三明市| 清镇市| 同德县| 襄樊市| 华容县| 玉林市| 织金县| 大竹县| 黑水县| 满洲里市| 大同县| 都安| 梧州市| 肥东县| 唐河县| 和田县| 屏南县| 定西市| 泰来县| 定南县| 亚东县| 肇东市| 胶州市| 玉山县| 太仆寺旗| 尚义县| 特克斯县| 兰州市|