圖書館在操作系統(tǒng)中實現(xiàn)數(shù)字信息長期保存的技術(shù)探討

2010-03-22 13:09寧夏回族自治區(qū)圖書館銀川950001

圖書館理論與實踐 2010年12期

●張莉（寧夏回族自治區(qū)圖書館，銀川 950001）

圖書館數(shù)字信息的長期有效保存一直是圖書館管理的難點(diǎn)，也吸引了越來越多圖書館機(jī)構(gòu)和學(xué)者的關(guān)注。在該領(lǐng)域中，一系列國際會議iPRES［1］更推動了從理論研究到實踐推廣的進(jìn)程，為數(shù)字信息的長期保存提供了指導(dǎo)。本文就圖書館數(shù)字信息長期保存中存在的問題進(jìn)行探討，明確提出解決這些問題的一個可持續(xù)的方式，即通過改變操作系統(tǒng)處理的方式，為用戶提供一個處理數(shù)字內(nèi)容的接口，以一種普及的文檔格式保存文件，以便于文檔的長期保存。

鑒于微軟擁有最大的操作系統(tǒng)市場份額，國內(nèi)大多數(shù)圖書館都在使用，因此本文以微軟Windows操作系統(tǒng)為例進(jìn)行討論。

1 圖書館保存數(shù)字信息時遇到的問題

當(dāng)圖書館需要持久和準(zhǔn)確地保存大量數(shù)字對象時，會遭遇一些特定的問題，這些問題增加了保存的難度。

1.1 文件格式大多不是“保存”格式

通常情況下，文件格式的過期速度非?？欤?］遠(yuǎn)遠(yuǎn)超出我們的預(yù)期。有些格式在設(shè)計時可能就是過時的，比如一個格式的最后版本跟新軟件的格式有沖突，新格式可能會不支持舊的格式。如果這些舊格式存放在長期訪問的知識庫中，甚或這種舊格式的文件正在用戶的計算機(jī)中被使用，這將產(chǎn)生嚴(yán)重的問題，即隨著新軟件的運(yùn)用，舊格式文件將無法使用。如果因為某種原因，用戶無法訪問源格式的文件，就可能丟失該格式保存的文件。但這并不是說沒有可供長期保存使用的格式。例如，對源內(nèi)容（例如音頻、視頻、靜態(tài)圖像）就有專門設(shè)計的用于長期保存的格式。然而，在這些源格式與相對普及便利的格式之間存有差距。因為，通常這些源格式很少大范圍使用。這就是為什么我們更有可能會遇到一個Word 97格式的文件，而不是PDF/A格式的文件（Word格式比PDF格式更加便利）。

1.2 機(jī)構(gòu)有時比用戶更重視格式

對于許多用戶來說，文件格式只不過是暫時承載特定內(nèi)容的一個載體，但是對于保存機(jī)構(gòu)而言，有時收集來的文件的格式卻有些神圣不可侵犯。因此，大量的理論研究和資源都耗費(fèi)在確保文件收到時的格式可以能夠使用上。

1.3 保留關(guān)聯(lián)背景信息很困難

為了有意義地保護(hù)數(shù)字對象（例如，保存在Word 97格式的手稿），不僅要了解文件格式，而且也要了解數(shù)字對象的數(shù)據(jù)以及元數(shù)據(jù)中沒有的大量信息。例如作者之類的信息，應(yīng)當(dāng)以元數(shù)據(jù)呈現(xiàn)，而實際上在許多情況下，這種信息嵌入在文件中。在圖書館里，我們可以發(fā)現(xiàn)很多舊文檔只有很少的關(guān)聯(lián)背景的信息，但它卻很重要。

即使可以一直準(zhǔn)確地識別數(shù)字對象的文件格式，并且可以從文件中提取元數(shù)據(jù)，但仍然有一些信息是無法在文件的元數(shù)據(jù)中體現(xiàn)出來的。例如，一張照片的元數(shù)據(jù)描述了攝影者使用的相機(jī)以及照片的拍攝地點(diǎn)，但可能無法顯示這個文件是否是原始文件，還是其他文件的復(fù)制文件。同樣，也無法知道這個文件是否有多個版本，還是就只有這一個版本。對于文檔，我們很難知道接收的是草稿，還是最終的版本。給定一個文件夾，其中的文件命名都類似，我們自然不能知道這些文件之間的關(guān)系。還有，在許多領(lǐng)域，這樣的文檔也無法提供相應(yīng)的背景資料。在許多情況下，獲得這些背景信息有助于保存對象，但是一般都很難找到。

1.4 文件格式很難識別

目前，識別文件格式的工具正變得愈加可靠。比如DROID［3］之類的工具，能夠很好地識別很大范圍內(nèi)的格式。然而，雖然通過這種軟件的功能，我們能總體知道現(xiàn)在文件都使用了什么樣的格式，但是，由于消費(fèi)者使用文件格式的方式以及目前正在使用的文件格式的數(shù)量眾多，對于一些要求準(zhǔn)確識別的并要求基本上進(jìn)行自動保存的大規(guī)模的文件我們通常都不能識別。

1.5 元數(shù)據(jù)可能存儲不一致或不完全

盡管一些程序?qū)嶋H上已在文件格式中存儲了元數(shù)據(jù)，但是，由于各種原因，檢索這些數(shù)據(jù)將會遇到問題。不同的文件格式存儲的元數(shù)據(jù)不同（即使對同一個文件格式的不同實例，不同的軟件也有可能會儲存不同的元數(shù)據(jù)）。另外，對于某些文件格式，擁有者未必愿意披露如何存儲元數(shù)據(jù)。這意味著，在許多情況下，即使該文件可以識別，可能也沒有辦法準(zhǔn)確地提取所有可用的元數(shù)據(jù)。目前有一個新機(jī)制是讓每個新的文件格式包含所有形式的元數(shù)據(jù)。但面對眾多的格式，以其排列組合以及增長率來看，意味著這根本是一個不具有可持續(xù)性的做法。

1.6 識別文件格式需要較長時間

即使文件格式識別及確認(rèn)的程序的性能是最先進(jìn)的，但仍然存在瓶頸。例如，澳大利亞圖書館從PANDORA網(wǎng)絡(luò)檔案館中采集了一大組樣本數(shù)據(jù)，并運(yùn)用了DROID系統(tǒng)來處理和識別。這些樣本數(shù)據(jù)的文件都相當(dāng)小（網(wǎng)站的片段），卻花了近40天來處理大約17萬份文件，這樣的效率顯然是不可接受的。

2 圖書館數(shù)字信息資源的長期保存能力

當(dāng)我們討論數(shù)字資源的長期保存的解決方案時，通常是聚焦在解決問題的結(jié)果方面，由此產(chǎn)生了大量的數(shù)字資源長期保存系統(tǒng)，例如基于OAIS模型［4］的成熟系統(tǒng) Fedora、DSpace、EPrint和開源系統(tǒng)DAITSS。［5］不過，這些解決方案是否能夠解決所有問題的根源，還有待驗證。另外，單從圖書館等收集機(jī)構(gòu)的技術(shù)系統(tǒng)入手，是無法解決長期保存數(shù)字資源的所有問題的。有研究者提出，問題的解決需要數(shù)字信息長期保存的相關(guān)主體，包括數(shù)字信息創(chuàng)造者、出版商、保存機(jī)構(gòu)、軟硬件開發(fā)者、非盈利組織和政府部門等系統(tǒng)合作。

本文著眼于數(shù)字信息長期保存問題的一個特別方面，即一個保存機(jī)構(gòu)長時間接收和保存外部來源文件的能力。例如，一個圖書館需要數(shù)字保存一份著名作家捐贈的手稿，雖然有許多理論上可行的長期保存數(shù)字對象的解決方案，如仿真或遷移，但大部分長期保存的解決方案依賴于該機(jī)構(gòu)的能力。該機(jī)構(gòu)必須具有準(zhǔn)確地識別數(shù)字對象使用的文件格式并記錄這些數(shù)字對象的背景含義的能力。本文重點(diǎn)介紹通過改進(jìn)圖書館操作系統(tǒng)的功能來解決數(shù)字信息長期保存問題。這種改進(jìn)系統(tǒng)不僅是讓圖書館等保存機(jī)構(gòu)使用，也可以讓終端用戶使用。

3 在操作系統(tǒng)上的改進(jìn)辦法

為了長期保存圖書館接收到的文件的數(shù)字對象，需要做到以下三點(diǎn)：①文件格式是一直普及的格式；②元數(shù)據(jù)可以隨時提?。虎坳P(guān)聯(lián)的背景信息始終可以提取。

正如前面所述，處理后繼的問題是數(shù)字信息長期保存時必要的工作，但我們無法試圖讓工程師解決所有出現(xiàn)的問題。從上面提出的解決方案來看，均需要投入更多的資金和資源到我們已經(jīng)開拓的領(lǐng)域，如文件標(biāo)識或元數(shù)據(jù)提取。不過，至少現(xiàn)在，對于圖書館之類的機(jī)構(gòu)，應(yīng)該可以預(yù)見到，這種方案的實現(xiàn)和支撐有許多的技術(shù)障礙。

即使人們不會為了長期讀取而預(yù)先分類排序他們所得的數(shù)據(jù)，但通常至少會為了短期的查找和使用而組織自己的文件。例如，許多人都會確保當(dāng)前使用的文檔在本地磁盤上保存，甚至手工做一份不同名字的備份。不過，一旦該文件結(jié)束了使用期，人們就會將內(nèi)容復(fù)制到一個CD中，或者全部刪掉?？傊绻麛?shù)字對象包含了用戶能夠感受到的價值，那么用戶還是希望確保它依然可以訪問。這就表明，在某一個時間段，上面提到的三點(diǎn)要求在任何類型的文件中都可以體現(xiàn)到。具體來說，當(dāng)文件正在使用時，最容易找到這些信息。

此外，在許多情況下，當(dāng)文件正在使用時，用戶不僅需要擁有更多關(guān)于文件的知識，同時也需要更多關(guān)于操作系統(tǒng)的知識。對于用戶常用的大多數(shù)文件類型，操作系統(tǒng)會通過其內(nèi)部注冊機(jī)制來關(guān)聯(lián)相應(yīng)的應(yīng)用程序。比如說，用戶雙擊一個.DOC文件，它就會直接在Word中打開并可編輯，而不需要用戶首先加載Word程序，然后再從中打開該.DOC文件。盡管這些關(guān)聯(lián)關(guān)系是基于一個基礎(chǔ)范圍的，而且在個體層面上不太可靠（可以將一個DOC文件的擴(kuò)展名改為PDF），這仍然在理論上是一個潛在的寶貴的資料。但是，此信息只保存在操作系統(tǒng)內(nèi)。如果這些文件轉(zhuǎn)移到其他介質(zhì)，比如轉(zhuǎn)移到一張備份CD光盤上，那么在用戶的非當(dāng)前工作環(huán)境中使用時，這種信息可能會丟失。

因此，解決問題需要了解文件格式是如何構(gòu)建的。作為一個自我包含的對象，設(shè)計者將其認(rèn)為最重要的元數(shù)據(jù)直接嵌入了這個對象。雖然這足以讓一般用戶利用文件進(jìn)行工作，但只有少數(shù)文件格式詳細(xì)記錄了其保存類型。例如，很難遇到一個文件格式，其中包含該文件的歷史事件。對于收集機(jī)構(gòu)，這意味著除非伴隨文件有一些人們可讀的描述文檔，否則這種信息是根本沒有存儲的。

在收集機(jī)構(gòu)之外，也有很多實際案例表明，文件中存儲的元數(shù)據(jù)并不能充分滿足用戶的需求。例如，用戶可以在一張CD上再次存儲他們的文件備份。假設(shè)他們可能卸載許多應(yīng)用，甚至更換一臺新計算機(jī)，在需要看那張CD的內(nèi)容之前，他們不再知道存儲的文檔是什么。有時用戶可能還記得他們以前使用的軟件，并通過手動重新安裝來訪問。另外，在某些情況下，內(nèi)部存儲的元數(shù)據(jù)處理復(fù)雜信息時效率不高，即使文件格式中數(shù)據(jù)非常豐富，如使用的ID3的MP3文件；即使ID3包含了有關(guān)文件本身的信息范圍非常大，一定程度上還包含一組給定文件的屬性，如“專輯”字段等的背景信息，它并沒有明確包含單一的文件與其他關(guān)聯(lián)文件的信息。因此，如果用戶要建立一個更復(fù)雜的歌曲隊列，比如一系列的播放列表，這樣的信息需要在MP3之外生成、維護(hù)和說明。

真正的問題是在文件離開原作者的環(huán)境中后如何維持這些信息。例如在閃存設(shè)備上，當(dāng)文件被帶到一個新的計算機(jī)上時，由于新計算機(jī)沒有與相應(yīng)應(yīng)用的關(guān)聯(lián)關(guān)系或者有完全不同的關(guān)聯(lián)關(guān)系，文件間的關(guān)聯(lián)將會丟失。因此，使其在單個應(yīng)用或者多個應(yīng)用組合上不適用。不過，理論上，操作系統(tǒng)通過文件系統(tǒng)，其實是能夠負(fù)責(zé)這類信息的。微軟之前曾以各種題目探討過這個概念，例如前一陣的WinFS文件系統(tǒng)，［6］是個小型的半公開測試版，而且未被發(fā)布。盡管WinFS似乎主要關(guān)注如何返回豐富的搜索結(jié)果，而不是集中提供背景數(shù)據(jù)，但它仍可能維護(hù)一個終端用戶電腦上所有的文件環(huán)境，并且在技術(shù)上它是朝這個方向發(fā)展的。

因此，相比儲存標(biāo)簽信息，或分析哪些歌曲屬于同一藝術(shù)家，文件系統(tǒng)本身可以存儲更復(fù)雜的信息，例如事件的跟蹤以及用戶定義或者生成的一組文件之間的關(guān)系（例如，同一個圖片的重復(fù)版本）。

如果我們可以找到有效的方法在用戶的操作環(huán)境外來傳播元數(shù)據(jù)，并將其和數(shù)據(jù)記錄方法結(jié)合，那么收集機(jī)構(gòu)不必進(jìn)行鑒定或元數(shù)據(jù)提取，就能直接存檔和保存大多數(shù)接收的文件。

4 改進(jìn)方案的優(yōu)勢

從文件系統(tǒng)的發(fā)展中可以看到，這種解決方案的實現(xiàn)是有價值的，但這需要我們重新思考該如何對待和設(shè)計操作系統(tǒng)上的文件，也需要改變應(yīng)用程序和操作系統(tǒng)之間的交互。另外，操作系統(tǒng)的這種改進(jìn)也不是某一個公司單獨(dú)實施后傳播給其他人，而是要在所有操作系統(tǒng)一致性地實現(xiàn)這種改進(jìn)。

對于保存機(jī)構(gòu)以及供應(yīng)商和最終用戶，這樣改進(jìn)產(chǎn)生的顯著好處，遠(yuǎn)遠(yuǎn)超過其弊端。

（1）針對我們遷移的文件，一個包含元數(shù)據(jù)的附屬文件（也許類似XML），即使在不支持附加元數(shù)據(jù)的文件系統(tǒng)上也能夠在遷移過程中生成包含元數(shù)據(jù)的附屬文件。如果這是通過標(biāo)準(zhǔn)方式實現(xiàn)的，那么圖書館及其他收集機(jī)構(gòu)就可以方便地利用這一應(yīng)用來支持其收集文檔。

（2）如果給一個易用的API（應(yīng)用接口），在用戶擁有這個文件的同時，翻譯和寫作程序可以幫助其檢查文件的完整性。這樣有助于減少由于接受損壞信息引起的相關(guān)問題（比如定期生成文件的校驗碼）。

（3）當(dāng)用戶無法訪問其計算機(jī)上的文件時（例如，用戶的文件相對于處理軟件已經(jīng)超出有效使用期），文件系統(tǒng)可以通知他們，促使他們將文件的格式轉(zhuǎn)換為可以訪問的格式，同時提醒用戶是否會丟失一些文件元數(shù)據(jù)或文件格局。這可能會讓某些遷移更為特殊。例如，同一個供應(yīng)商文件格式之間的遷移可能使信息損失最少，這對于用戶來說非常重要，尤其是那些閉源文件。

（4）通過網(wǎng)絡(luò)檢索瀏覽路徑。即當(dāng)用戶正在使用的電腦沒有一個可用的文件瀏覽路徑，但他可以通過共享其使用過的其他計算機(jī)上的瀏覽信息找到可用的瀏覽路徑。即使用戶的任何一臺計算機(jī)上瀏覽路徑都不可用，仍然有其他途徑可以訪問，比如可以通過在線服務(wù)，或者購買新軟件。

（5）對于用戶提交的文件，在提交之前，需要確認(rèn)提交的文件是否已經(jīng)使用了最合適的格式。這需要圖書館及其他收集機(jī)構(gòu)制定嚴(yán)格的數(shù)字文件提交標(biāo)準(zhǔn)與政策，這將減少圖書館需要處理的未知文件的數(shù)量。

（6）圖書館應(yīng)使用用戶將更有可能使用的操作系統(tǒng)。這將降低保持舊文件的復(fù)雜性，對陳舊內(nèi)容的獲取更加容易。對于保存大量數(shù)字化信息資料的圖書館，這種改進(jìn)將促進(jìn)特定供應(yīng)商提供更有價值的解決方案，其吸引力將遠(yuǎn)遠(yuǎn)超過沒有提供這種附加信息存儲的其他方案。

（7）如果圖書館及其他收集機(jī)構(gòu)能夠更加嚴(yán)格地定義其接收的文件格式，并在文件提交之前的任何標(biāo)準(zhǔn)化工作都由內(nèi)容的作者代為實現(xiàn)，這樣可以確保重要數(shù)據(jù)不會丟失。

5 結(jié)語

如何解決舊的文獻(xiàn)資料永遠(yuǎn)都會是一個問題。對現(xiàn)代操作系統(tǒng)的這種改進(jìn)，不可能解決已接收到的所有材料的問題，也不能完全解決目前一些用戶的計算機(jī)上的舊文件格式的問題。然而，這種解決方案可以做的是，幫助我們擺脫目前這種困難的局面。事實上，如果對操作系委統(tǒng)不著手做一些改進(jìn)，以促進(jìn)實現(xiàn)長期的數(shù)字保存，那么我們就將會一直需要處理前面所提到的那些問題。從根本上講，這并不在于文件格式的識別程序有多好，它們不可能永遠(yuǎn)保持更新到最新的狀態(tài)，它們只能以當(dāng)前標(biāo)準(zhǔn)來處理接收的文檔。對圖書館及文獻(xiàn)信息收集機(jī)構(gòu)來說，已經(jīng)投入了大量的資金來處理這類問題，但是如果我們只是不斷地進(jìn)行被動的補(bǔ)救工作，那我們所做的一切最終將是徒勞的。我們應(yīng)該把工作重點(diǎn)放在真正重要的東西上——確保我們擁有的數(shù)據(jù)能夠長期讀取，這樣我們可以將我們的精力和資金用于實現(xiàn)能夠真正保存這些內(nèi)容的方案上。

［1］李丹，向菁. 協(xié)作與實踐：數(shù)字資源長期保存工具及方法——2008年數(shù)字資源長期保存國際會議（iPRES2008）綜述［J］.圖書館理論與實踐，2009 （11）： 70－72.

［2］ Pearson D,Webb C.2008,Defining file formatobsoles cence:A risky journey ［J］.The International Journal ofDigitalCuration， 2005， 1（3）： 89 106.

［3］ DROID （DigitalRecordObjectIdentification）［EB/OL］.［2010－01－20］.http://droid.sourceforge.net/wiki/index.php/Introduction.

［4］吳振新.開源長期保存系統(tǒng)DAITSS研究［J/OL］.現(xiàn)代圖書情報技術(shù)，2009（7/8）： 18－22 http://www.dlib.org/dlib/november04/stanescu/11stanescu.html.

［5］李克征.數(shù)字信息長期保存的技術(shù)方法分析［J］.圖書館工作與研究， 2006（2）： 58－60.

［6］ Rizzo,T.WinFS101:IntroducingtheNewWindowsFileSystem ［J/OL］ .MicrosoftCorporation， 2004 （3）［2010-01－20］ .http://msdn.microsoft.com/library/default.asp?url=/library/enus/dnwin-fs/html/winfs03112004.asp.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡