用于數(shù)字資源長期保存的開源軟件比較分析
李愛明
(湖北工程學(xué)院, 孝感 432000)
摘要:目前,世界上數(shù)字檔案館和數(shù)字圖書館項(xiàng)目開展的如火如荼,以實(shí)現(xiàn)對不同領(lǐng)域、不同格式數(shù)字資源的組織與管理。開源軟件常常被用來組織、存貯和檢索數(shù)字資源。文章在探討數(shù)字資源長期保存評價(jià)標(biāo)準(zhǔn)的基礎(chǔ)上,通過構(gòu)建一個(gè)測試環(huán)境,對現(xiàn)有數(shù)字圖書館開源軟件(OSS-DL)的信息資源長期保存功能進(jìn)行對比分析與研究,期望為用戶選擇開源軟件提供參考借鑒。
關(guān)鍵詞:數(shù)字圖書館;開源軟件;數(shù)字保存;CDS-Invenio;Fedora;DSpace;GreenStone;Eprints;MyCoRe
中圖分類號:G250.71
文獻(xiàn)標(biāo)識碼:A
文章編號:1006-1525(2015)01-0075-04
Abstract:Digital archives and digital library projects are being initiated all over the world in order to achieve different formats and domains in the units and organization of resources. Open-source software is often used to organize, store and retrieve the digital content. In this paper, the evaluation standard about long-term preservation of digital resources is discussed. By constructing a test environment, the author makes an analysis and study of the long-term preservation function of digital resources about existing open-source digital library software (OSS - DL) with the hope of providing a reference for the users to select open -source software.
基金項(xiàng)目:湖北工程學(xué)院科研項(xiàng)目(R2014019)
作者簡介:李愛明,女,副研究館員。
收稿日期:2014-07-28
Comparative analysis of open-source software based on the long-term preservation of digital resources
LI Ai-ming
(Hubei Engineering University, Xiaogan432000, China)
Key words: digital library; open-source software; digital preservation; CDS-Invenion; Fedora; DSpace; GreenStone; Eprints; MyCoRe
引言
網(wǎng)上數(shù)字信息不斷產(chǎn)生,其格式多種多樣,如 pdf文檔、doc文檔、mp3文件、mpg視頻文件等。數(shù)字信息爆炸性增長并以異構(gòu)的形式存在,增加了其被利用的復(fù)雜性。同時(shí),創(chuàng)建數(shù)字信息的軟件與硬件不斷變化,對數(shù)字資源的保存及將來的使用提出了重大挑戰(zhàn)。我們知道,存在于互聯(lián)網(wǎng)或內(nèi)聯(lián)網(wǎng)上的數(shù)字資源,其數(shù)字存儲的目標(biāo)之一是不管創(chuàng)建資源的格式與應(yīng)用程序是什么,必須保證數(shù)字資源的正常輸出。數(shù)字文檔被添加到數(shù)據(jù)庫,通常都是由提供支持?jǐn)?shù)字內(nèi)容長期保存的開源軟件來完成。本文首先探討開源軟件用于數(shù)字資源長期保存的評價(jià)標(biāo)準(zhǔn);然后通過安裝具有代表性的數(shù)字圖書館開源軟件(OSS-DL),進(jìn)行數(shù)字保存實(shí)驗(yàn),從數(shù)字資源長期保存的角度對數(shù)字圖書館開源軟件進(jìn)行比較分析。
1開源軟件
目前,大量的開源軟件項(xiàng)目被用來建設(shè)數(shù)字圖書館、機(jī)構(gòu)知識庫、數(shù)字檔案館或數(shù)字資源庫。開源軟件在開源許可條款與條件下可免費(fèi)獲得,也可在獲取其資源代碼后對其加以修改,使其在此基礎(chǔ)上進(jìn)一步的發(fā)展、定制和再分配[1]。例如北京大學(xué)圖書館早在1998年就與新西蘭數(shù)字圖書館合作,利用他們的Greenstone開源軟件系統(tǒng)進(jìn)行拓片項(xiàng)目和學(xué)位論文文摘及索引項(xiàng)目的建設(shè)[2]。
自1997年以來,開源軟件(OSS)聲稱占有了巨大計(jì)算機(jī)產(chǎn)業(yè)的市場份額,用戶在網(wǎng)上可獲取大量的OSS,世界上最大OSS開發(fā)網(wǎng)站是SourceForge.net。目前,SourceForge倉儲聚集了30多萬個(gè)項(xiàng)目,有4600多萬注冊用戶[3]。OSS被應(yīng)用于圖書館各個(gè)方面,其中最重要的一項(xiàng)應(yīng)用是建設(shè)數(shù)字圖書館。作為創(chuàng)建數(shù)字圖書館的工具,OSS逐漸被認(rèn)為是建設(shè)商業(yè)數(shù)字圖書館系統(tǒng)的選擇,其它商業(yè)軟件因某些功能缺陷、費(fèi)用高昂、支持不足等原因不能滿足應(yīng)用需求。OSS-DL以其可免費(fèi)獲得以及功能性強(qiáng)的優(yōu)勢,已被全世界大量機(jī)構(gòu)所使用。
2數(shù)字資源長期保存
數(shù)字資源長期保存是指為保證數(shù)字比特流可長期維護(hù)和其內(nèi)容可長期獲取的必要管理活動,有兩層含意,一是長期存儲(storage),二是長期可獲取(access)。數(shù)字保存適用于原生數(shù)字文檔的保存、在線文檔的存儲、以及模擬數(shù)字轉(zhuǎn)換產(chǎn)品的保存,它涉及許多程序來進(jìn)行電子文檔的長期保存,并供人們長期訪問。相比紙質(zhì)印刷型文獻(xiàn),數(shù)字資源保存過程更復(fù)雜,既要組織信息內(nèi)容,又要保證長期保存,并能與不斷發(fā)展的技術(shù)相適應(yīng),確保經(jīng)過多年后仍能夠被用戶檢索與獲得。由于數(shù)字資源保存依賴于網(wǎng)絡(luò),而信息技術(shù)變化很快,硬件和軟件都在不可預(yù)測地老化,故存儲媒體穩(wěn)定性較差,若干年后可能會因無法進(jìn)入保存數(shù)字信息的物理存儲介質(zhì)造成數(shù)字信息丟失。在使用方面,多數(shù)情況下信息機(jī)構(gòu)僅購買了數(shù)字資源的使用權(quán),可能會因多種原因,數(shù)據(jù)庫商或其委托的鏡像服務(wù)商有可能終止經(jīng)營或者停止向用戶提供服務(wù)。一旦出現(xiàn)上述問題,數(shù)字資源就無法使用。因此,數(shù)字資源的長期保存問題一直是學(xué)界研究的熱點(diǎn)。
3開源軟件用于數(shù)字資源長期保存的評價(jià)標(biāo)準(zhǔn)
目前,國際上尚沒有形成數(shù)字資源長期保存的權(quán)威標(biāo)準(zhǔn)體系。數(shù)字資源長期保存評價(jià)標(biāo)準(zhǔn)涉及數(shù)據(jù)錄入、數(shù)據(jù)管理、元數(shù)據(jù)管理、唯一標(biāo)識系統(tǒng)、認(rèn)證授權(quán)與安全等多個(gè)方面,貫穿到知識庫系統(tǒng)的編目、查詢、檢索、流通的工作流程中,涉及的標(biāo)準(zhǔn)多且復(fù)雜。下面將從數(shù)字資源長期保存的角度,探討在使用OSS-DL建立資源庫時(shí)應(yīng)用到的相關(guān)標(biāo)準(zhǔn)。以下定義的標(biāo)準(zhǔn)是從相關(guān)研究及其它探討有關(guān)OSS-DL數(shù)字資源長期保存的資料中總結(jié)出來,主要標(biāo)準(zhǔn)有:
(1)文件特征(如大小、格式等)
①是否支持任何數(shù)字保存策略?如果是,它是否明確地支持一些特定的保存策略,如位階保存、格式遷移或?qū)μ峤晃募袷降南薅ā?/p>
②是否保存文件的原始特征?如文件名、文件大小以及創(chuàng)建日期。
③如何管理復(fù)合對象?(同一對象的多種文件格式被鏈接在一起的情況)
④能否添加或刪除新的文件格式?
⑤是否有能力處理多種文件格式,并支持文件格式版本?
⑥是否使用格式注冊?如果是,使用哪種格式注冊(如PRONOM、GDFR、DCC)來表示格式信息?
⑦使用什么標(biāo)準(zhǔn)來描述文件格式?軟件是否記錄表征信息?是否使用網(wǎng)絡(luò)MIME類型?
⑧是否支持自動格式注冊?對于未知格式,系統(tǒng)是否發(fā)信息給提交者索取有關(guān)文檔格式描述的附加信息?
(2)完整性檢查
①是否對那些被添加到知識庫的數(shù)字文檔進(jìn)行數(shù)據(jù)完整性檢查?
②是否有質(zhì)量控制措施確保被添加到知識庫的每個(gè)文檔的完整性與持續(xù)識別?
③是否能維持提交對象保存后的永久識別?
(3)元數(shù)據(jù)
①是否支持每個(gè)被添加到知識庫的文檔的元數(shù)據(jù)保存,如出處、真實(shí)可靠性、保存活動、技術(shù)環(huán)境。
②軟件在進(jìn)行數(shù)字保存時(shí)實(shí)際數(shù)字文件和元數(shù)據(jù)的保存位置。
③軟件怎樣驗(yàn)證存儲對象及元數(shù)據(jù)的準(zhǔn)確性?能否對元數(shù)據(jù)進(jìn)行自動檢查?
(4)許可、權(quán)利與認(rèn)證
①是否有機(jī)制來保持對知識庫中單個(gè)圖像/對象的許可狀態(tài)?
②是否支持跟蹤與管理著作權(quán);支持合同或許可證上所要求的使用限制?
③能否定期自動驗(yàn)證校驗(yàn)和?
④校驗(yàn)和能否密碼簽名以防止被篡改?
⑤是否對發(fā)生在程序包生命周期中的所有事件提供審計(jì)日志?
⑥如果知識庫接收到具有不明確所有權(quán)的數(shù)字內(nèi)容,軟件是否有策略處理那些因所有權(quán)造成的不利因素與挑戰(zhàn)?
⑦是否有機(jī)制決定數(shù)字資源庫中的對象何時(shí)應(yīng)該遷移到新的硬件與軟件?
⑧是否支持預(yù)定事件?如按預(yù)定時(shí)間表通知人們對過時(shí)的格式進(jìn)行手動檢查。
4比較分析
首先建立一個(gè)測試環(huán)境,在這個(gè)環(huán)境下將安裝一些主要的OSS-DL,所有被選擇安裝的軟件都可在開放資源許可條款和條件下獲得,主要有CDS-Invenio、space、Eprints、Fedora、Greenston和MyCoRe。這些軟件程序常常被用來創(chuàng)建數(shù)字檔案館、數(shù)字圖書館、機(jī)構(gòu)知識庫[4-7]。它們被安裝在Debain Lenny操作系統(tǒng)中,該系統(tǒng)擁有2GB的RAM和1TN的磁盤空間。
所安裝的每種軟件都是最近的版本,分別為:CDS-Invenio(版本0.99.3)、Dspace(版本1.7.0 )、Eprints(版本3.2.4)、FEDORA(版本3.4.2)、Greenstone(版本2.8.3)和MyCoRe(版本2.0.2)。為了檢驗(yàn)軟件對不同數(shù)字資源類型的保存特征,上傳了一個(gè)小型館藏,該館藏具備所有文獻(xiàn)類型,如文本文件、音頻文件、視頻文件、數(shù)據(jù)集文件等。
根據(jù)前面提到的標(biāo)準(zhǔn),我們將從以下幾個(gè)方面進(jìn)行比較:
(1)元數(shù)據(jù)支持。理論上,每個(gè)被添加到知識庫的數(shù)字文檔必須附有一個(gè)詳細(xì)說明。軟件應(yīng)具有為每個(gè)數(shù)字對象添加管理性、結(jié)構(gòu)性文獻(xiàn)詳情的功能。元數(shù)據(jù)保存包括數(shù)字內(nèi)容格式、結(jié)構(gòu)及使用的技術(shù)性細(xì)節(jié)、所有對資源的操作歷史、文檔的責(zé)任與權(quán)利等。從數(shù)字資源長期保存的觀點(diǎn)來看,管理性、技術(shù)性的元數(shù)據(jù)是非常重要的。目前不同類型的文檔有不同的元數(shù)據(jù)格式,主要有Dublin Core、MODS、MARC、METS、LOM、ETDMS、MPEG21/DIDL等[8]。
(2)永久識別。為了實(shí)現(xiàn)數(shù)字館藏的長期穩(wěn)定管理,永久識別是必須的。文檔被添加到數(shù)字儲存軟件后,系統(tǒng)將給每個(gè)文檔分配一個(gè)唯一的識別碼,這有助于為網(wǎng)絡(luò)上的數(shù)字文檔建立一個(gè)唯一的、廣泛支持的識別體系。
(3)校驗(yàn)和與版本支持。校驗(yàn)和是一個(gè)用來檢驗(yàn)數(shù)字資源有效性的計(jì)算機(jī)值。通常,校驗(yàn)和被用在通信環(huán)境中檢測數(shù)據(jù)是否被成功地傳輸?shù)骄W(wǎng)絡(luò)。版本支持是指軟件是否支持文檔的不同版本[9]。
(4)自動格式識別。對數(shù)字知識庫進(jìn)行設(shè)定以識別某些常見的格式。
(5)審計(jì)日志。主要跟蹤用戶的相關(guān)操作與活動。
(6)文件的詳細(xì)信息。包括文件名稱、文件特征等。
(7)實(shí)際數(shù)據(jù)文件存儲。實(shí)際文件和元數(shù)據(jù)分別被保存的位置。
通過運(yùn)行測試,對六種軟件的比較分析如表1:
表1 測試結(jié)果
CDS-InvenioDspaceEprintsFedoraGreenstoneMyCoRe實(shí)際數(shù)據(jù)文件存儲實(shí)際文件被保存在“data”目錄,元數(shù)據(jù)被保存在“mysql”表中。實(shí)際文件被保存在“assetstore”文件夾,元數(shù)據(jù)被保存在“postgres數(shù)據(jù)庫中。元數(shù)據(jù)被保存在“mysql”中,實(shí)際文件被保存在Eprints“disk0”目錄中。實(shí)際文件被保存在“data/datastream”文件夾,元數(shù)據(jù)文件被保存在“mysql”數(shù)據(jù)庫中。所有文件及元數(shù)據(jù)被保存在“import”文件夾。元數(shù)據(jù)以metadata.xml文件保存。元數(shù)據(jù)與實(shí)際文件被保存在“data”文件夾中。
通過以上比較分析,Dspace、Fedora、Eprints具有較完備的數(shù)字資源長期保存策略。FEDORA從數(shù)字保存的角度能支持較多的重要功能,但是它缺乏友好的界面,因此,它被安裝得不多?,F(xiàn)在,Dspace和Eprints被大量用于建設(shè)數(shù)字存儲庫。Eprints具有較大的靈活性,能按用戶的實(shí)際需求進(jìn)行相應(yīng)改進(jìn),在全球的用戶較多。Dspace遵從相關(guān)標(biāo)準(zhǔn)、支持任意類型的數(shù)據(jù)內(nèi)容存儲、兼容性強(qiáng)、具有高度的可擴(kuò)展性,界面友好,受到各高校及研究機(jī)構(gòu)青睞。目前,大量的知識庫采
用Dspace來建設(shè),如清華大學(xué)圖書館于2004年就開始基于Dspace進(jìn)行各種應(yīng)用探索[10]。
5結(jié)語
關(guān)于數(shù)字信息的保存,還有許多值得了解和研究的地方。對國外代表性的開源軟件進(jìn)行研究與借鑒,有助于掌握其核心技術(shù),加快我國數(shù)字圖書館建設(shè)的進(jìn)程。目前,我國數(shù)字資源長期保存的發(fā)展?fàn)顟B(tài)仍然還處于比較早期的實(shí)驗(yàn)階段。今后,圖書館將處理更多的數(shù)字資源,因此,這些軟件程序必須通過更友好的界面提供合適的數(shù)字保存支持。誠然,眾多的開源軟件給圖書館應(yīng)用和數(shù)字圖書館建設(shè)發(fā)展帶來了生機(jī), 圖書館在選擇開源軟件時(shí),應(yīng)考慮多方面的因素,如資金、技術(shù)力量,以及是否有能力對開源軟件進(jìn)行擴(kuò)展與改進(jìn)等。各軟件無絕對的優(yōu)劣之分,應(yīng)結(jié)合圖書館實(shí)際來進(jìn)行選擇。
參考文獻(xiàn):
[1] 耿慶軍,王朋,孫華瑋.開源軟件在教育信息化中的應(yīng)用研究[J].軟件導(dǎo)刊,2010,(4):26-28.
[2] 錢國富,涂穎哲.基于開源軟件的圖書館2.0建設(shè)研究[J].圖書情報(bào)工作,2007,(5):63-66.
[3] http://sourceforge.net/,2013-10-1.
[4] http://www.dspace.org/,2013-11-4.
[5] http: //www. fedora-commons.org/,2013-11-4.
[6] http: //www. eprints. org/,2013-11-4.
[7] http: //www. greenstone. org./ ,2013-11-5.
[8] 路瑩,郝繼英,王紅軍.開源軟件在圖書館的應(yīng)用研究[J].現(xiàn)代情報(bào),2012,(12):140-142.
[9] Linstead E, Bajracharya S, Ngo T, et al. Sourcerer:Miningand searching internet-scale software repositories[J].DateMining and Knowledge Discovery,2009,18(2):300-336.
[10] 曾婷,董麗.Dspace的相關(guān)研究進(jìn)展及應(yīng)用探索[J].現(xiàn)代圖書情報(bào)技術(shù),2007,(6):11-15.
(責(zé)任編輯:王靖雯)
大學(xué)圖書情報(bào)學(xué)刊2015年1期