●賀姝祎 (中國科學(xué)院 上海天文臺圖書館,上海 200030)
1991年,5個(gè)北歐國家的檔案館(瑞士、挪威、丹麥、芬蘭、冰島)就電子文件的保護(hù)與存取問題進(jìn)行了調(diào)研,并在此基礎(chǔ)上出版了《電子文件的存取與保護(hù)》一書。1994年歐洲保存與獲取委員會(huì)(ECPAEuropeanCommissiononPreservationandAccess) 成立,它是研究數(shù)字信息長期保存與獲取的最大跨國協(xié)會(huì),旨在共同研究各種類型文獻(xiàn)的檢索能力以及信息保護(hù)問題。目前加入該組織的國家共有41個(gè),其成員為歐洲大學(xué)、圖書館、檔案館及出版界等部門的著名學(xué)者、專家。[1]
1992年3月,澳大利亞國家圖書館主辦了“澳大利亞已記錄的文化遺產(chǎn)的存取”的全國會(huì)議。這次會(huì)議對電子格式文獻(xiàn)長期存取進(jìn)行了研討與回顧。1993年12月,澳大利亞檔案館、澳大利亞圖書服務(wù)信息委員會(huì)、澳大利亞國家保護(hù)辦公室與澳大利亞電影錄音檔案館共同組建保護(hù)數(shù)字信息存取工作組PADI,其主要目標(biāo)是指導(dǎo)電子文本的保護(hù)與管理,保護(hù)數(shù)字信息存取和國家數(shù)字信息的調(diào)研,制定信息存取與保護(hù)的原則、策略等。
1994年12月,美國保護(hù)與存取委員會(huì)(CPACommission on Preservation&Access)與美國研究圖書館組織(RLG)共同組建了數(shù)字歸檔特別工作組,其主要任務(wù)是負(fù)責(zé)對以數(shù)字格式存貯的信息的長期存取問題進(jìn)行調(diào)研,并對其保護(hù)措施提出建設(shè)性意見。特別工作組的人員來自產(chǎn)業(yè)部門、博物館、檔案館、圖書館、出版界、學(xué)術(shù)界與政府等部門。主要有:國家農(nóng)業(yè)圖書館、國會(huì)圖書館、密歇根大學(xué)圖書館、研究圖書館小組、國家檔案館、密歇根大學(xué)信息學(xué)院、加利福尼亞大學(xué)、哥倫比亞大學(xué)、耶魯大學(xué)、約翰·霍布金斯大學(xué)、CyberVillage有限公司、IBM研究中心、美國物理協(xié)會(huì)、貝爾實(shí)驗(yàn)室、版權(quán)許可中心、OCLC等單位。
隨著數(shù)字資源長期保存引起各國廣泛關(guān)注而不斷開展相關(guān)標(biāo)準(zhǔn)和規(guī)范的制定也取得了成果。
1990年,隸屬于NASA(美國國家航空航天局)的 CCSDS (Consultative Committee for Space Data Systems)空間數(shù)據(jù)系統(tǒng)咨詢委員會(huì)應(yīng)ISO的要求,承擔(dān)起了制訂長期保存數(shù)字?jǐn)?shù)據(jù)檔案標(biāo)準(zhǔn)的任務(wù)。1997年,NASA最先提出OAIS Open Archive Information System“空間數(shù)據(jù)的開放檔案信息系統(tǒng)概念模型”的理論模型。1999年5月,CCSDS發(fā)布了OAIS參考模型草案《Reference Modelfor an Open Archival Information System(OAIS)》,它被作為ISO國際標(biāo)準(zhǔn)的一個(gè)草案被寫進(jìn)了1999年7月的新版本中,2002年1月,出版在了ISO藍(lán)皮書CCSDS 650.0-B-1版本中,現(xiàn)已正式成為ISO標(biāo)準(zhǔn)ISO 14721:2003。[2]這個(gè)標(biāo)準(zhǔn)可應(yīng)用于任何檔案館或者圖書館適用于所有文獻(xiàn)類型。
此參考模型定義了一個(gè)數(shù)據(jù)保存的總體框架,包括應(yīng)具備的功能、統(tǒng)一的概念和術(shù)語等等。此框架適用于所有致力于長期保存數(shù)字資源并提供利用的系統(tǒng)和組織從而為很多組織包括政府部門和數(shù)字圖書館采用。2003年,OAIS最終成為ISO標(biāo)準(zhǔn)并頒布。標(biāo)準(zhǔn)的研制,對開展數(shù)字資源長期保存實(shí)踐起到了很好的規(guī)范和引導(dǎo)作用。
近年來,數(shù)字資源長期保存領(lǐng)域經(jīng)歷了理論研究到個(gè)體實(shí)驗(yàn)再到最佳實(shí)踐、機(jī)構(gòu)聯(lián)合的發(fā)展歷程,研究內(nèi)容不斷拓展和深入,吸引了國際上越來越多的機(jī)構(gòu)參與。較為成熟的數(shù)字資源長期保存項(xiàng)目已有l(wèi)0多種(見表1),可概括為三種主要組織模式:機(jī)構(gòu)獨(dú)立保存模式、第三方委托保存模式、合作保存模式,見表2。
表1 國際數(shù)字資源長期保存項(xiàng)目一覽表
表2 數(shù)字資源長期保存三種模式之比較
機(jī)構(gòu)獨(dú)立保存是由保存機(jī)構(gòu)在擁有對被保存資源的使用權(quán)的條件下,獲得相關(guān)權(quán)利人(如出版商)許可后進(jìn)行長期保存,被保存資源的服務(wù)范圍也大都限定在保存機(jī)構(gòu)內(nèi)的原有用戶。[3]
(1)大英圖書館。1993年,大英圖書館提出了建立數(shù)字化圖書館的目標(biāo),其內(nèi)容包括:增加數(shù)字形式出版物的保存;為讀者提供網(wǎng)絡(luò)和數(shù)字化服務(wù);利用數(shù)字化技術(shù)保存和修復(fù)館藏等。1999年,大英圖書館成立專門團(tuán)隊(duì),旨在保存一切數(shù)字資源,2000年9月和IBM公司將共同建立全國性的數(shù)字化圖書館,并提供數(shù)字資料的保護(hù)和訪問。大英圖書館主要將傳統(tǒng)館藏?cái)?shù)字化,同時(shí)還以開發(fā)珍貴館藏資源為重點(diǎn)。最著名的項(xiàng)目之一便是將已有1000年歷史的著名史詩《貝奧武夫》的原稿進(jìn)行了數(shù)字化處理。該稿在遭受天災(zāi)人禍之后已經(jīng)有點(diǎn)模糊,后經(jīng)特制的高分辨率數(shù)碼相機(jī)使其以數(shù)碼形式再現(xiàn),為各種資料的數(shù)字化奠定了基礎(chǔ)。這點(diǎn)為我國公共圖書館進(jìn)行館藏?cái)?shù)字化提供了寶貴的經(jīng)驗(yàn)。該數(shù)字圖書館的藏品包括根據(jù)館藏資料制成的文字、聲音和圖像的數(shù)字化文件。[4]
(2) 加利福尼亞大學(xué) DPR項(xiàng)目。DPR(Digital Preservation Repository) 是加利福尼亞大學(xué)數(shù)字保存?zhèn)}儲項(xiàng)目,它是加利福尼亞大學(xué)圖書館數(shù)字保存計(jì)劃的重要組成部分。DPR是支持對數(shù)字對象長久保存的一系列服務(wù),它將在授權(quán)用戶和可信賴的、長期存儲系統(tǒng)之間提供受控的、有序的保存和利用機(jī)制。[5]目前,DPR的數(shù)據(jù)存儲量是925GB,大約有15萬個(gè)數(shù)據(jù)對象。加利福尼亞大學(xué)圖書館數(shù)字保存計(jì)劃的目標(biāo)是:保持能夠?qū)λx擇的研究和教學(xué)過程中產(chǎn)生的數(shù)字信息長期存取。為達(dá)到這一目標(biāo),該計(jì)劃已經(jīng)著手開發(fā)由DPR和其他工具組成的基于公認(rèn)標(biāo)準(zhǔn)的基礎(chǔ)結(jié)構(gòu)體系,以支持學(xué)術(shù)信息的識別、獲取、描述、組織和持久管理等。
(3) e-Depot數(shù)字存檔系統(tǒng)。KB(KoninklijkeBibliotheek)是荷蘭國家圖書館的e-Depot數(shù)字存檔系統(tǒng),由荷蘭國家圖書館與IBM公司合作開發(fā),它是一套完全自動(dòng)化的數(shù)字資源保存系統(tǒng),長期穩(wěn)定地存儲著國際上主要出版商的電子期刊。該系統(tǒng)于1993啟動(dòng),其戰(zhàn)略目標(biāo)是:確保國際性電子期刊的長期使用,降低數(shù)據(jù)永久性丟失的風(fēng)險(xiǎn),在服務(wù)被中斷后可以作為后備服務(wù),及時(shí)提供資源中不再有商業(yè)價(jià)值的期刊的訪問權(quán),防止數(shù)字資源格式過時(shí),保存沒有后續(xù)出版機(jī)構(gòu)的期刊。1995與Elsevier、荷蘭出版商協(xié)會(huì)開始項(xiàng)目合作,2002與Elsevier出版社簽署存檔協(xié)議,目前該系統(tǒng)主要保存世界范圍內(nèi)8個(gè)著名出版商的資源。[6]
基于保存規(guī)模、相關(guān)技術(shù)、管理機(jī)制、法律權(quán)限等多方面因素的考慮,一些文獻(xiàn)機(jī)構(gòu)較傾向于合作保存模式,即由多家機(jī)構(gòu)共同承擔(dān)長期保存任務(wù),各成員通過合作實(shí)現(xiàn)保存風(fēng)險(xiǎn)和保存成本的分擔(dān)。
(1) LOCKSS項(xiàng)目。LOCKSS(Lots of Copies Keeps StuffSafe) 多備份資源保存項(xiàng)目,由美國Stanford大學(xué)圖書館于1999年發(fā)起并組織實(shí)施,得到美國國家自然基金、Sun Microsystems Inc以及AndrewW.Mellon基金支持,主要致力于解決數(shù)字資源的永久保存與利用問題。LOCKSS系統(tǒng)最初創(chuàng)建運(yùn)行在斯坦福大學(xué)一個(gè)由低端計(jì)算機(jī)組成的網(wǎng)絡(luò)上。它通過建立出版商與圖書館、圖書館與圖書館之間的協(xié)作平臺,提出了從電子資源出版、發(fā)布到永久性保存與利用等一整套解決方案。[7]圖書館獲得出版商授權(quán)后,可以利用LOCKSS工具在本地創(chuàng)建一個(gè)低費(fèi)用、永久保存的數(shù)字化信息緩存站點(diǎn),實(shí)現(xiàn)對訂購電子信息的采集、本地存儲、管理以及用戶服務(wù)等功能。LOCKSS還包括圖書館之間的協(xié)作,即建立聯(lián)盟圖書館間資源共享與協(xié)作機(jī)制,實(shí)現(xiàn)本地資源的動(dòng)態(tài)更新、損壞修復(fù)、丟失補(bǔ)遺等功能,保證資源的完整性及永久有效性。[8]通過該項(xiàng)目,用戶可對多種格式的數(shù)字化資源,如PDF、HTML、JPEG、TIF等格式,進(jìn)行可靠、穩(wěn)定、長期地保存和利用。
LOCKSS系統(tǒng)保存的數(shù)字資源主要是內(nèi)容具有權(quán)威性的連續(xù)電子出版物,包括電子期刊、報(bào)紙、政府文件等類型的資源。2004年Springer與LOCKSS建立了合作關(guān)系,牛津大學(xué)出版社等一批著名學(xué)術(shù)出版社相繼成為LOCKSS聯(lián)盟的成員。2005年英國皇家物理學(xué)會(huì)(IOP)的第一本可長期保存的期刊《NewJournal ofPhysics》通過LOCKSS系統(tǒng)發(fā)布。目前已經(jīng)有20多個(gè)國家的157家機(jī)構(gòu)在使用LOCKSS的BOXES軟件,8個(gè)出版商正式加入LOCKSS聯(lián)盟。目前我國加入該聯(lián)盟的機(jī)構(gòu)主要有中國科學(xué)院文獻(xiàn)情報(bào)中心、清華大學(xué)、香港大學(xué)、香港中文大學(xué)、香港理工大學(xué)。
(2)NDIIPP項(xiàng)目。2000年12月美國國會(huì)通過法案(PublicLaw106-554),決定由國會(huì)圖書館領(lǐng)導(dǎo)實(shí)施國家數(shù)字信息基礎(chǔ)設(shè)施和保存計(jì)劃(NDIIPP National Digital Information Infrastructure and Preservation Program)。國會(huì)圖書館承擔(dān)主要管理職責(zé),并與美國重要政府部門及相關(guān)數(shù)字內(nèi)容收藏機(jī)構(gòu)合作,同時(shí)鼓勵(lì)廣大民營機(jī)構(gòu)參與。這些機(jī)構(gòu)包括:商務(wù)部、白宮科技政策辦公室、國家檔案和記錄管理中心、OCLC等。NDIIPP的戰(zhàn)略目標(biāo)是:建立一個(gè)由權(quán)責(zé)明確的合作伙伴聯(lián)合組成的國家網(wǎng)絡(luò),以保障對豐富數(shù)字內(nèi)容的長期獲取。目前,NDIIPP保存的數(shù)字信息類型為:地理空間數(shù)據(jù) (Geospatial data)、網(wǎng)站信息 (Web sites)、電視節(jié)目信息(Television)、社會(huì)科學(xué)數(shù)據(jù)(Social science datasets)、電子雜志(E-Journals)、歷史資料(Historicalmaterials)。截至2008年底,NDIIPP建立的數(shù)字保存合作網(wǎng)絡(luò)已經(jīng)吸引了來自全國各地130余個(gè)伙伴成員加入。NDIIPP試圖有選擇地保存電子圖書、電子期刊、數(shù)字電視、數(shù)字錄像、網(wǎng)站等6種媒體類型的信息,其所關(guān)注的有關(guān)數(shù)字保存的關(guān)鍵性問題主要包括知識產(chǎn)權(quán)、數(shù)字信息的采集與選擇、數(shù)字信息保存計(jì)劃的經(jīng)濟(jì)可持續(xù)性以及數(shù)字保存的技術(shù)結(jié)構(gòu)等。[9]
(3) EMANI:為數(shù)學(xué)出版物的長期電子存儲提供支持的合作項(xiàng)目。2002年2月“數(shù)學(xué)文獻(xiàn)電子文檔網(wǎng)絡(luò)”EMANI(Electronic Mathematics Archiving Network Initiative)研發(fā)的國際合作項(xiàng)目正式啟動(dòng),該項(xiàng)目由德國發(fā)起,得到美國康奈爾大學(xué)圖書館、德國哥廷根大學(xué)圖書館、法國MathDoc聯(lián)盟、中國清華大學(xué)圖書館、德國主要的數(shù)學(xué)學(xué)會(huì)、Springer-Verlag出版社等機(jī)構(gòu)的共同參與。該項(xiàng)目旨在為成員館和內(nèi)容提供商建立一個(gè)合作性的框架,以管理不斷增長的數(shù)字備份文件和數(shù)學(xué)類電子出版物,推動(dòng)世界范圍內(nèi)數(shù)學(xué)領(lǐng)域的出版物數(shù)字化,建立一個(gè)統(tǒng)一的數(shù)學(xué)資料存儲和發(fā)布平臺,以滿足高校圖書館和學(xué)術(shù)性團(tuán)體的需要,不僅要確保數(shù)字資源得到長期的、穩(wěn)定的保存,還要支持全球用戶檢索及全文瀏覽。資料來源主要為Springer-Verlag、 Birkhaeuser Verlag、 Teu-bner Verlag、ViewegVerlag和theELibMinEMIS出版物。[10]
由于長期保存在技術(shù)和操作方面的復(fù)雜性,任何一個(gè)圖書館所配備的人力、物力、財(cái)力都無法維持?jǐn)?shù)字資源的長期保存,基于這種需求第三方保存應(yīng)運(yùn)而生,它是由資源提供方(如出版商) 與資源采購方(如圖書館)以外的第三方機(jī)構(gòu)承擔(dān)委托保存職責(zé)的模式,通常由大型數(shù)據(jù)中心或商業(yè)機(jī)構(gòu)或大型圖書館提供第三方保存服務(wù),[11]目的是共同承擔(dān)經(jīng)費(fèi)開支,共同發(fā)展市場,合作行動(dòng),從而提供更廣泛的數(shù)字資源服務(wù)。
(1)Portico電子存儲項(xiàng)目。第三方委托存儲模式中最具代表性的是Portico。該項(xiàng)目由JSTOR過刊數(shù)據(jù)庫和The LibraryofCongress共同主持,獲得安德魯·梅隴基金會(huì)(The AndrewW.Mellon Foundation) 的資助,同時(shí)也通過向參與項(xiàng)目的數(shù)據(jù)庫出版商和圖書館收取年費(fèi)的形式獲得經(jīng)費(fèi)。Portico主要致力于運(yùn)用第三方委托存儲模式為商業(yè)化的數(shù)字學(xué)術(shù)資源提供長期存儲服務(wù)。通過直接與出版商、圖書館簽訂保存許可協(xié)議,Portico一方面從出版商那里獲取源文件,把不同的文件轉(zhuǎn)換成標(biāo)準(zhǔn)的、可長期使用的存儲格式;另一方面Portico為圖書館保存其所采購的數(shù)字資源并在突發(fā)條件下為其提供數(shù)字資源的訪問權(quán)。到目前為止已有44個(gè)數(shù)據(jù)庫商,9個(gè)國家的377個(gè)圖書館加入了Portico項(xiàng)目,保存文章數(shù)目達(dá)到13619643篇(截止到2009年9月17日)。Elsevier2008年與Portico達(dá)成合作協(xié)議,即Portico協(xié)助Elsevier在線STM平臺Science Direct處理其電子圖書保存問題。此協(xié)議將確保Science Direct電子圖書內(nèi)容未來的長期保存。Portico是唯一一個(gè)同時(shí)保存Elsevier電子圖書和全部期刊回溯文檔的存儲庫。由于數(shù)字資源的提供和使用存在許多不可預(yù)知性,當(dāng)圖書館無法從數(shù)據(jù)庫商和其他地方獲得信息時(shí),Portico為所有提供存儲支持的圖書館開放內(nèi)網(wǎng)的訪問權(quán)。[12]
(2) AHDS項(xiàng)目。英國的藝術(shù)人文數(shù)據(jù)服務(wù)AHDS(Art s and Humanities Data Service) 成立于1996年,為JISCJoint Information Systems Committee、AHRBArts and Humanities Research Board兩個(gè)機(jī)構(gòu)共同成立,致力于藝術(shù)人文領(lǐng)域數(shù)字資源的搜集、保存及推廣,從而促進(jìn)數(shù)字資源教育研究。[13]由AHDS聯(lián)合相關(guān)機(jī)構(gòu)進(jìn)行的數(shù)字保存研究,從數(shù)字信息生命周期的角度提出了數(shù)字保存綱要(Guidelines for Digital Preservation:DraftDataPolicyFramework)。AHDS下面還有一個(gè)視覺藝術(shù)資料服務(wù)中心(The Visual Arts Data Service,VADS)。VADS通過互聯(lián)網(wǎng)提供視覺藝術(shù)數(shù)字資源的研究、學(xué)習(xí)及教育,并且使得這些資源能夠長久保存。[14]它的任務(wù)包括:①對其下屬的學(xué)科子項(xiàng)目制定技術(shù)標(biāo)準(zhǔn);②提供檢索途徑并負(fù)責(zé)妥善保管;③促使高校在科研、教學(xué)活動(dòng)中有效地利用這些學(xué)術(shù)性檔案資源。[15]
我國數(shù)字資源長期保存的研究開始于20世紀(jì)末,各種研究著眼于數(shù)字資源長期保存過程中所涉及的政策、法律、技術(shù)、管理等多種因素。同時(shí),部分文獻(xiàn)機(jī)構(gòu),尤其是高校開展了數(shù)字資源長期保存的嘗試,最具代表性的有:中國國家圖書館的網(wǎng)絡(luò)信息資源保存試驗(yàn)項(xiàng)目,CALIS的學(xué)位論文持久保存實(shí)踐,清華大學(xué)圖書館參與的數(shù)字資源長期保存系統(tǒng)的研究與開發(fā)項(xiàng)目以及“大學(xué)數(shù)字博物館建設(shè)工程”等項(xiàng)目,都從不同方面對數(shù)字資源長期保存加以實(shí)踐。
然而,我國數(shù)字資源長期保存起步較晚,在相關(guān)技術(shù)、法律權(quán)限、運(yùn)作機(jī)制、經(jīng)費(fèi)投入機(jī)制、人才培養(yǎng)機(jī)制等諸多方面尚待探索和完善,因此多數(shù)文獻(xiàn)機(jī)構(gòu)對于數(shù)字資源長期保存還存在顧慮,并持觀望態(tài)度。文獻(xiàn)機(jī)構(gòu)需借鑒國外的成熟經(jīng)驗(yàn)和成果,針對國內(nèi)實(shí)際情況,可從以下幾方面入手:
(1)制定完善的公共投入機(jī)制,明確數(shù)字資源長期保存所需經(jīng)費(fèi)來源。
(2)制定相應(yīng)人才培養(yǎng)機(jī)制,確定培訓(xùn)對象,包括:對圖書館現(xiàn)有工作人員和大學(xué)相關(guān)專業(yè)學(xué)生進(jìn)行系統(tǒng)的教育和培訓(xùn);將數(shù)字資源長期保存納入大學(xué)教育;制定相應(yīng)的學(xué)位培養(yǎng)模式,培養(yǎng)專業(yè)人才,不斷提高圖書館人的信息素質(zhì)。
(3)建立相對健全、統(tǒng)一的法律授權(quán)、管理策略、技術(shù)標(biāo)準(zhǔn)、保存政策、資源保存的選取標(biāo)準(zhǔn)。
(4)加強(qiáng)文獻(xiàn)機(jī)構(gòu)間的協(xié)調(diào)、合作,建立統(tǒng)一的戰(zhàn)略聯(lián)盟,通力合作,可以避免重復(fù)建設(shè),降低成本,共同解決數(shù)字資源長期保存所帶來的挑戰(zhàn),規(guī)避單獨(dú)建設(shè)所面臨的高投入和高風(fēng)險(xiǎn)。
[1]http://www.knaw.nl/ecpa/.[2009-09-10].
[2]胡星火.基于OAIS的數(shù)字信息長期保存研究[D].南京:南京航空航天大學(xué),2008.
[3]王松林.一個(gè)基于OAIS和DC的保存元數(shù)據(jù)方案[J].圖書館學(xué)刊,2005(1):1-3.
[4]張玫,等.中國圖書館數(shù)字文獻(xiàn)資源長期保存現(xiàn)狀調(diào)查[J].圖書情報(bào)知識,2009(3):47-51,59.
[5]張?jiān)缕季幾g.大英圖書館的開創(chuàng)性入網(wǎng)工程——發(fā)展電子圖書館項(xiàng)目[J].江蘇圖書館學(xué)報(bào),1998(2):51-52.
[6]http://www.bl.uk/aboutus/stratpolprog/ccare/introduction/digital/digpresstrat.pdf.[2009-09-10].
[7]國外數(shù)字圖書館如何用開源 [EB/OL].[2009-05].http://www.media.edu.cn/.
[8]http://www.kb.nl/hrd/dd/index.html.[2009-10-10].
[9]吳振新,等.LOCKSS數(shù)字資源長期保存策略[J].現(xiàn)代圖書情報(bào)技術(shù),2006(2):35-39.
[10]賓鋒.電子期刊長期保存模式LOCKSS和Portico比較研究[J].情報(bào)探索,2009(5):63-65.
[11]http://catalog.loc.gov/cgi-bin/Pwebrecon.cgi.[2009-10-10].
[12]http://www.digitalpreservation.gov/news/events/ndiipp_meetings/ndiipp09/index.html.[2009-09-12].
[13]http://conference.las.ac.cn/Sino-German/2004/pdf/cn/26.pdf.[2009-09-12].
[14]http://www.portico.org/.[2009-09-17].
[15]http://en.wikipedia.org/wiki/Arts_and_Humanities_Data_Service.[2009-12-14].
[16]任平編譯.數(shù)字資源長期保存研究在英國[J].現(xiàn)代圖書情報(bào)技術(shù),2005(3):66-69.
[17]王浩.牛津文檔中心開展AHDS計(jì)劃的實(shí)踐對我國語言類高校檔案數(shù)字化的啟示[J].檔案與建設(shè),2008(6):26-28,25.