●臧國全,胡喜超(鄭州大學(xué) 信息管理系,鄭州 450001)
研究數(shù)據(jù)類數(shù)字資源有很多種,其保存價值也各有所不同。主要類型有下述4種:
(1)觀測型數(shù)據(jù)。來自于天文望遠鏡、人造衛(wèi)星、傳感設(shè)備、測量儀器以及其他記錄不可重復(fù)性現(xiàn)象數(shù)據(jù)(如天文數(shù)據(jù)庫SDSS[1]中的數(shù)據(jù))的設(shè)備,還包括社會觀測類數(shù)據(jù)(如ICPSR[2]的人口調(diào)查數(shù)據(jù))。很多情況下,產(chǎn)生這類數(shù)據(jù)的觀測環(huán)境無法再現(xiàn)。
(2)實驗型數(shù)據(jù)。來自于大型實驗設(shè)備(如粒子加速器)的實驗、醫(yī)學(xué)臨床試驗、生物實驗、制藥實驗以及其他條件控制性實驗的實驗結(jié)果(包括中間結(jié)果),還包括對人類和瀕臨滅絕物種進行實驗的數(shù)據(jù)。有些情況下,重復(fù)這類實驗要么不可行,要么有悖于人類倫理道德。
(3)計算型數(shù)據(jù)。來自于大規(guī)模計算的模擬。雖然這類數(shù)據(jù)可以通過重新模擬計算環(huán)境再次獲取,但至少有下述原因需要對這類數(shù)據(jù)進行中期(一般3—5年)以上保存,即短期內(nèi)難以獲得這種模擬所需的時間和計算設(shè)備等資源,這種情況對于大范圍共享的超大型計算設(shè)備(如美國國家自然科學(xué)基金NSF的計算機)尤其普遍。
這3種類型數(shù)據(jù)的保存常常需要同時保存一些輔助數(shù)據(jù),比如設(shè)備的校準數(shù)據(jù)、實驗參數(shù)等。
(4)參考型數(shù)據(jù)。比如人類基因數(shù)據(jù)庫和全球蛋白質(zhì)資源數(shù)據(jù)庫(UniProt[3]) 等,主要用于跨學(xué)科橫向研究(如,全球經(jīng)濟和社會狀態(tài)的交叉研究等)。
一般認為,研究數(shù)據(jù)類數(shù)字資源保存是傳統(tǒng)介質(zhì)研究數(shù)據(jù)類信息資源保存的延伸。但是,由于下述兩個原因,導(dǎo)致兩者存在較大區(qū)別:其一,研究數(shù)據(jù)類數(shù)字資源的非排斥性消費屬性(原因在于傳統(tǒng)介質(zhì)研究數(shù)據(jù)類信息資源是購買使用,而研究數(shù)據(jù)類數(shù)字資源是授權(quán)使用),導(dǎo)致保存動機不足,并產(chǎn)生“搭便車”的問題;其二,研究數(shù)據(jù)類數(shù)字資源保存的派生需求屬性,導(dǎo)致保存動機錯位,并產(chǎn)生利益相關(guān)方承擔(dān)的保存職責(zé)變化。
從經(jīng)濟學(xué)角度看,數(shù)字保存的基本屬性是供給與需求。影響數(shù)字保存供給與需求的因素主要有三:[4]數(shù)字資源的保存價值、保存決策者的保存動機和數(shù)字資源的保存成本。在數(shù)字保存的總體框架下,探討研究數(shù)據(jù)類數(shù)字資源保存的供給與需求影響因素,不僅有助于這類數(shù)字資源保存的可持續(xù)性,而且也可供其他類型數(shù)字資源(如學(xué)術(shù)型數(shù)字資源) 的長期保存參考。
經(jīng)濟學(xué)上,價值指受益。數(shù)字資源的保存價值是用戶對其訪問和使用所獲得的受益。保存價值不僅影響數(shù)字保存的供給,同時也影響數(shù)字保存的需求。保存價值越高,不僅會提升數(shù)字保存的供給,也會刺激數(shù)字保存的需求;反之,會導(dǎo)致數(shù)字保存的供給和需求的下降。
保存價值體現(xiàn)在用戶需求之中。數(shù)字保存的用戶需求有兩個基本特征:① 當(dāng)前需求的發(fā)散性,指不同類型的當(dāng)前用戶群體對某一類型數(shù)字資源的訪問需求的分布狀態(tài)。針對研究數(shù)據(jù)類數(shù)字資源,當(dāng)前用戶具有高度集中性,且具有較強學(xué)科專業(yè)特征,主要分布在兩個領(lǐng)域:一是研究人員,尤其是基于“數(shù)據(jù)密集型研究”的專業(yè)人員,這類用戶將研究數(shù)據(jù)類數(shù)據(jù)資源作為一項新研究的輸入,同時其研究的輸出又形成新的研究數(shù)據(jù)類數(shù)字資源;二是公共政策制定人員,這類用戶在制定公共政策時常常需要參考這類數(shù)字資源(如,氣候、地震、海洋、社會普查、瀕臨滅絕物種等數(shù)據(jù))。以上兩類用戶對研究數(shù)據(jù)類數(shù)字資源保存的完整性、可訪問性和保存實踐的重大變化都會給予高度關(guān)注。② 未來需求的預(yù)測性,指用戶需求不僅分布在現(xiàn)在,更主要分布在未來,因此在進行數(shù)字資源的保存選擇時,不僅要考察當(dāng)前的用戶需求,還必須預(yù)測未來的用戶需求。針對研究數(shù)據(jù)類數(shù)字資源,未來需求可以基于傳統(tǒng)介質(zhì)研究數(shù)據(jù)類信息資源進行合理預(yù)測,而后者的未來需求預(yù)測模式的形成與完善已有很長歷史。
保存價值與保存周期有關(guān)。數(shù)字資源的保存周期越長,半衰期也可能越長,保存價值可能越大。從保存周期角度劃分,研究數(shù)據(jù)類數(shù)字資源可以分為兩類:一是需長期保存的數(shù)字資源,主要涉及觀測環(huán)境無法再現(xiàn)的觀測型數(shù)據(jù)、難以重復(fù)進行實驗的實驗型數(shù)據(jù)以及一些歷史類數(shù)據(jù),這類數(shù)據(jù)半衰期很長,保存價值也很高;二是需要中期保存(一般為3-5年)的數(shù)字資源,主要涉及計算型數(shù)據(jù)和觀測環(huán)境可以再現(xiàn)的觀測型數(shù)據(jù),這些數(shù)據(jù)一旦有更新或更完整的數(shù)據(jù)出現(xiàn)(如,更精確設(shè)備實驗產(chǎn)生的數(shù)據(jù)),就應(yīng)該及時更新,更新周期取決于數(shù)據(jù)性質(zhì)和學(xué)科專業(yè),但一般不會太久,所以半衰期相對較短,保存價值也相對較低。
保存價值與數(shù)字資源的保存選擇有關(guān)。一般來講,經(jīng)過權(quán)威專業(yè)機構(gòu)進行保存選擇的數(shù)字資源的保存價值比不加選擇而進行保存的價值要高。針對研究數(shù)據(jù)類數(shù)字資源,專業(yè)團體在對這類數(shù)字資源進行保存選擇和保存周期設(shè)定方面扮演重要角色,比如,美國應(yīng)用研究中心(ARC[5])和美國政治與社會研究跨大學(xué)聯(lián)盟(ICPSR[2]) 分別代表天文科學(xué)和社會科學(xué)的專家和用戶制定天文觀測數(shù)據(jù)和社會普查數(shù)據(jù)的保存選擇標準。實際上,幾乎所有的數(shù)據(jù)密集型研究領(lǐng)域都形成了各自領(lǐng)域的比較一致的保存選擇標準,授權(quán)給一個代理機構(gòu)代表該領(lǐng)域?qū)<液陀脩魧嵤┰擃I(lǐng)域數(shù)據(jù)的保存選擇,實踐證明,這是一種提高保存價值的有效方式。
保存價值的測度來自于用戶訪問的受益。但這種受益很難定量化,很多時候只能定性化,比如增加知識、幫助解決問題等。正是因為這個特征,保存價值常常用負面受益形式表示。負面受益包括兩個方面:① 如果數(shù)字資源沒有保存,未來需求時就需重新生產(chǎn),這會產(chǎn)生生產(chǎn)成本,這種情況適用于計算型數(shù)據(jù)和觀測環(huán)境可以再現(xiàn)的觀測型數(shù)據(jù);② 如果無法再次生產(chǎn),將導(dǎo)致永久性不可訪問,此時的保存價值可以用減少無法接受的損失風(fēng)險來衡量,這種情況適用于觀測環(huán)境無法再現(xiàn)的觀測型數(shù)據(jù)、無法重復(fù)進行實驗的實驗型數(shù)據(jù)以及一些歷史類數(shù)據(jù),一旦錯過保存時間,將導(dǎo)致永久性丟失。
保存動機是保存決策者實施數(shù)字保存的驅(qū)動力。影響數(shù)字保存供給與需求的保存動機缺失有兩種情況:一是保存動機不足,比如以營利為目的的數(shù)字保存系統(tǒng)在保存成本高于保存收入時;二是保存動機錯位,比如出現(xiàn)在數(shù)字保存的受益群體(因此他們有保存動機)與處于保存位置(因為他們擁有或控制數(shù)字資源)但缺乏保存動機的團體之間的錯位。
保存動機不足的根本原因在于數(shù)字資源消費的搭便車問題。從經(jīng)濟學(xué)角度講,用戶對數(shù)字資源的消費是一種非排斥性消費,數(shù)字資源可同時供眾多用戶并發(fā)消費,并且相互之間不會產(chǎn)生影響。這種非排斥性消費屬性必然導(dǎo)致“搭便車”問題(也即“免費享受”問題)?!按畋丬嚒眴栴}是指一些人需要某種產(chǎn)品(一般是公共產(chǎn)品),在別人付出代價去取得后,他們采用“拿來主義”,不勞而獲地享受成果。[6]例如,在天文學(xué)領(lǐng)域,提倡專業(yè)研究者與業(yè)余愛好者之間共享數(shù)據(jù)一直是天文學(xué)科的優(yōu)良文化,該領(lǐng)域的研究數(shù)據(jù)類數(shù)字資源庫SDSS也支持范圍寬泛的各類用戶免費訪問,這種學(xué)科文化和訪問政策就導(dǎo)致嚴重的搭便車問題,并因此大大降低了保存決策者(往往也是保存費用的承擔(dān)者)的保存動機。
解決研究數(shù)據(jù)類數(shù)字資源保存動機不足的第一種方法是將用戶限定在支付費用的范圍之內(nèi)。比如,成立于1962年全球最大的社會問題與政策研究數(shù)據(jù)保存機構(gòu)ICPSR[2](美國政治與社會研究跨大學(xué)聯(lián)盟),該聯(lián)盟目前運行包括美國人口統(tǒng)計、教育、人類健康與疾病、少數(shù)民族等9個領(lǐng)域的20多個有關(guān)美國社會問題的研究數(shù)據(jù)類數(shù)據(jù)庫,[7]這些數(shù)據(jù)庫的保存費用有些來自于美國聯(lián)邦政府(比如,人口統(tǒng)計數(shù)據(jù)庫DSDR的保存費用來自聯(lián)邦統(tǒng)計局,也即美國公民的稅收),用戶局限在美國本土(采用IP限制方法);有些來自于會員費用(如,人類健康與疾病數(shù)據(jù)庫HMCA),用戶局限在注冊會員;也有些提供用戶在線注冊訪問,保存費用(至少部分保存費用) 來自用戶的注冊費用。上述3種方法都被證實是解決“搭便車”問題的有效途徑,也是ICPSR保存動機的根源所在。
解決研究數(shù)據(jù)類數(shù)字資源保存動機不足的第二種方法是實施保存意愿,強制性提升保存動機。資助機構(gòu)常常是保存意愿的施加者,被資助機構(gòu)或個人則是保存意愿的接收者。比如,作為資助機構(gòu)的美國國家自然科學(xué)基金委員會(NSF)和英國聯(lián)合信息系統(tǒng)委員會(JISC),針對資助的研究項目制定了研究數(shù)據(jù)的保存選擇標準,明確規(guī)定用于研究數(shù)據(jù)保存的受資助項目的資金比例,并將研究數(shù)據(jù)保存作為成果評價的一個核心指標,監(jiān)督研究數(shù)據(jù)的產(chǎn)生和保存過程,建立和完善研究數(shù)據(jù)生產(chǎn)與保存的報告制度。實際上,針對這種基金資助型研究,研究數(shù)據(jù)的保存遵循“零和規(guī)則”(zero-sum[8]),也即研究數(shù)據(jù)保存活動花費的時間和資金從研究項目總體預(yù)算中扣除,不會產(chǎn)生額外負擔(dān),這種規(guī)則對提升保存動機產(chǎn)生較大影響。
保存動機錯位的根本原因是數(shù)字保存的派生需求屬性。所謂派生需求是指對一種產(chǎn)品(常常是中間產(chǎn)品) 的需求派生自對另一種產(chǎn)品(常常是最終產(chǎn)品)的需求,如對輪胎的需求派生自對汽車運輸?shù)男枨蟆a槍?shù)字資源,社會關(guān)心的是未來訪問和利用的可能性,長期保存則產(chǎn)生這種可能。所以,對數(shù)字保存的需求派生自用戶對數(shù)字資源的未來訪問的需求。
解決保存動機錯位的第一種方法是實施產(chǎn)權(quán)的非獨占性許可,從而實現(xiàn)保存職責(zé)的轉(zhuǎn)移。在傳統(tǒng)介質(zhì)研究數(shù)據(jù)類信息資源保存與訪問中,版權(quán)法保護這類信息資源的產(chǎn)權(quán)擁有者在特定時期內(nèi)享有的獨占權(quán),同時也授予有限權(quán)給有資質(zhì)的公共機構(gòu)進行保存以滿足公共的訪問需求。但是針對研究數(shù)據(jù)類數(shù)字資源,這種公共與私人之間的利益平衡關(guān)系難以實現(xiàn),因為數(shù)字資源是授權(quán)使用,而傳統(tǒng)資源是購買使用。為了實施有效的數(shù)字保存,學(xué)者可以將自己的研究成果的保存權(quán)以非獨占方式直接許可給致力于長期保存的數(shù)字保存系統(tǒng),將保存職責(zé)從學(xué)者個人轉(zhuǎn)移到專業(yè)的數(shù)字保存系統(tǒng)。比如美國天文學(xué)SDSS數(shù)據(jù)庫,天文業(yè)余愛好者和專業(yè)研究者將其觀測和研究出的天文數(shù)據(jù)的保存權(quán)以非獨占方式轉(zhuǎn)讓給該數(shù)據(jù)庫進行長期保存,供其他天文愛好者和研究人員免費共享訪問,同時也實現(xiàn)了這類數(shù)據(jù)的保存職責(zé)從個人擁有者到專業(yè)保存者的轉(zhuǎn)移,為后者理順了保存動機。
解決保存動機錯位的第二種方法是構(gòu)建公共保存與私人保存之間的合作機制,協(xié)調(diào)保存動機。這類合作機制的基本功能有二:一是界定公共與私人之間的保存角色和承擔(dān)的保存職責(zé);二是研究數(shù)字資源從私人擁有者到公共保存機構(gòu)的安全轉(zhuǎn)移。一些領(lǐng)域已經(jīng)建立了這類合作機制,比如,根據(jù)美國國會頒發(fā)的《國家數(shù)字信息基礎(chǔ)結(jié)構(gòu)和保存計劃》中的公共與私人數(shù)字資源保存之間的多邊合作機制框架,美國U-niProt協(xié)會承擔(dān)生物科學(xué)技術(shù)領(lǐng)域中這類合作的協(xié)調(diào)職能,履行該領(lǐng)域中公共保存與私人保存之間合作機制的管理職責(zé)。另外,該機構(gòu)建立的全球著名的蛋白質(zhì)UniProt數(shù)據(jù)庫(收錄生物科學(xué)的研究數(shù)據(jù),包括基因研究數(shù)據(jù)、蛋白質(zhì)序列研究數(shù)據(jù)等),依靠美國聯(lián)邦政府財政撥款從公共利益角度保存該領(lǐng)域的研究數(shù)據(jù),供全球生物科學(xué)科研人員免費訪問。
基于目前實踐以及經(jīng)濟學(xué)角度,研究數(shù)據(jù)類數(shù)字資源的保存被視為下述兩種不同的經(jīng)濟產(chǎn)品,成本支付方式差異甚大,對該類數(shù)字保存供給與需求的影響也很不同。
(1)研究數(shù)據(jù)類數(shù)字資源的保存被視為一種公共產(chǎn)品。比如,全球蛋白質(zhì)數(shù)據(jù)庫、天文學(xué)SDSS數(shù)據(jù)庫等,公共機構(gòu)保存這類數(shù)字資源,通過社會公共資金(一般來源于社會稅收)支付保存費用。針對這類數(shù)字資源的保存,成本越低,所需資金就越少,這類公共產(chǎn)品的供給門檻就越低,反之,就會增加這類公共產(chǎn)品供給的困難。目前,業(yè)界持有一個普遍觀點是對這類公共產(chǎn)品應(yīng)該提供公共獲取,甚至免費的公共獲?。ㄈ缰麢C構(gòu)PubMed Central[9]所提倡的)。但是,如果公共獲取政策不與保存成本相連接,那么這種獲取就失去了經(jīng)濟基礎(chǔ)。一些數(shù)字保存的經(jīng)歷說明:[10]即使公共投資也沒有長期的保障。
(2)研究數(shù)據(jù)類數(shù)字資源的保存被視為一種經(jīng)濟產(chǎn)品。比如,ICPSR中一些數(shù)據(jù)庫,商業(yè)化的數(shù)字保存系統(tǒng)提供保存并面向公共提供訪問,通過收取用戶的訪問費用支付保存成本。針對這類數(shù)字資源的保存,保存成本不僅影響這類經(jīng)濟產(chǎn)品的供給,也會影響用戶對這類經(jīng)濟產(chǎn)品的需求。成本過高,會增加數(shù)字保存供給的經(jīng)濟障礙,也會提高用戶支付的訪問費用,降低用戶的訪問需求。因此,降低保存成本是這類經(jīng)濟產(chǎn)品的一個永恒主題,實現(xiàn)的基本方式有規(guī)模經(jīng)濟和范圍經(jīng)濟兩種,前者的一個示例是保存的數(shù)字資源規(guī)模越大,單件保存成本越低;后者的一個示例是綁定保存服務(wù)與訪問服務(wù)。
另外,還有一種成本支付模式是上述兩種的結(jié)合,由政府提供初始資金,用于數(shù)字保存系統(tǒng)基礎(chǔ)設(shè)施的建設(shè),系統(tǒng)運行成本通過收取用戶訪問費用支付。這種模式有助于促進公益性較強的研究數(shù)據(jù)類數(shù)字資源的可持續(xù)保存以及數(shù)據(jù)密集型研究的基礎(chǔ)建設(shè)。
無論是在自然科學(xué)領(lǐng)域,還是在人文社會科學(xué)領(lǐng)域,基于數(shù)據(jù)密集型的科學(xué)研究方法應(yīng)用日臻普及,這種方法的應(yīng)用基礎(chǔ)是研究數(shù)據(jù)類數(shù)字資源的長期保存。構(gòu)建這類數(shù)字資源的長期保存模型應(yīng)該至少包括:
(1)研究數(shù)據(jù)類數(shù)字資源的保存價值的評估機制。該機制應(yīng)該由專業(yè)社團或其他公共認可的組織構(gòu)建,用于保存機構(gòu)對這類數(shù)字資源進行長期保存時的篩選。
(2)科學(xué)基金資助的研究數(shù)據(jù)類數(shù)字資源的保存意愿的施加機制。該機制應(yīng)該由科學(xué)基金提供者實施,用于受資助項目產(chǎn)生的研究數(shù)據(jù)類數(shù)字資源的保存或轉(zhuǎn)移給公共保存機構(gòu)進行保存。
(3)研究數(shù)據(jù)類數(shù)字資源的長期保存成本的分攤機制。該機制應(yīng)該由數(shù)字保存系統(tǒng)實施,用于該類數(shù)字資源長期保存的經(jīng)濟可持續(xù)性保障。
(4)研究數(shù)據(jù)類數(shù)字資源生產(chǎn)者的非獨占性許可機制。該機制應(yīng)該由該類數(shù)字資源生產(chǎn)者實施,用于降低公共機構(gòu)從公共利益出發(fā)保存該類數(shù)字資源的產(chǎn)權(quán)障礙。
(5)研究數(shù)據(jù)類數(shù)字資源的私人保存與公共保存之間的合作機制。該機制應(yīng)該由這類數(shù)字資源的領(lǐng)航保存機構(gòu)(如美國的ICPSR)構(gòu)建并測試完善,用于該類數(shù)字資源從私人擁有者到公共保存機構(gòu)的保存職責(zé)的轉(zhuǎn)移。
[1] SDSS.The Sloan Digital Sky Survey[EB/OL].[2010-08-01].http://www.sdss.org/.
[2] ICPSR.Inter-University Consortium for Political and Social Research[EB/OL].[2010-07-23].http://www.icpsr.umich.edu/icpsrweb/ICPSR/.
[3] Uni Prot[EB/OL].[2010-08-19].http://www.uniprot.org.
[4] Francine B,et al.Sustainable economics for a digital planet:Ensuring long-term access to digital information[EB/OL].[2010-03-10].http://brft.sdsc.edu/biblio/BRTF_Final_Report.pdf.
[5] ARC.Applied Research Center[EB/OL].[2010-08-02].http://www.arc.org.
[6] 百度百科.搭便車問題的經(jīng)濟學(xué)含義[EB/OL].[2010-05-10].http://baike.baidu.com/view/1180932.htm.
[7] ICPSR Thematic Collections[EB/OL].[2010-08-06].http://www.icpsr.umich.edu/icpsrweb/ICPSR/partners/archives.jsp.
[8] 零和游戲 [EB/OL].[2010-07-01].http://zhidao.baidu.com/question/7116223.html?si=2.
[9] PubMed Central.U.S.National Institutes of Health free digitalarchive of biomedical and lifesciences journal literature[EB/OL].[2010-07-27].http://www.ncbi.nlm.nih.gov/pmc/.
[10] AHDS.Enabling Digital Resources for the Artsand Humanities[EB/OL].[2010-01-30].http://ahds.ac.uk.