国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

圖書館在操作系統(tǒng)中實現(xiàn)數(shù)字信息長期保存的技術(shù)探討

2010-03-22 13:09寧夏回族自治區(qū)圖書館銀川950001
圖書館理論與實踐 2010年12期
關(guān)鍵詞:數(shù)字信息文檔機(jī)構(gòu)

●張 莉 (寧夏回族自治區(qū)圖書館,銀川 950001)

圖書館數(shù)字信息的長期有效保存一直是圖書館管理的難點(diǎn),也吸引了越來越多圖書館機(jī)構(gòu)和學(xué)者的關(guān)注。在該領(lǐng)域中,一系列國際會議iPRES[1]更推動了從理論研究到實踐推廣的進(jìn)程,為數(shù)字信息的長期保存提供了指導(dǎo)。本文就圖書館數(shù)字信息長期保存中存在的問題進(jìn)行探討,明確提出解決這些問題的一個可持續(xù)的方式,即通過改變操作系統(tǒng)處理的方式,為用戶提供一個處理數(shù)字內(nèi)容的接口,以一種普及的文檔格式保存文件,以便于文檔的長期保存。

鑒于微軟擁有最大的操作系統(tǒng)市場份額,國內(nèi)大多數(shù)圖書館都在使用,因此本文以微軟Windows操作系統(tǒng)為例進(jìn)行討論。

1 圖書館保存數(shù)字信息時遇到的問題

當(dāng)圖書館需要持久和準(zhǔn)確地保存大量數(shù)字對象時,會遭遇一些特定的問題,這些問題增加了保存的難度。

1.1 文件格式大多不是“保存”格式

通常情況下,文件格式的過期速度非??欤?]遠(yuǎn)遠(yuǎn)超出我們的預(yù)期。有些格式在設(shè)計時可能就是過時的,比如一個格式的最后版本跟新軟件的格式有沖突,新格式可能會不支持舊的格式。如果這些舊格式存放在長期訪問的知識庫中,甚或這種舊格式的文件正在用戶的計算機(jī)中被使用,這將產(chǎn)生嚴(yán)重的問題,即隨著新軟件的運(yùn)用,舊格式文件將無法使用。如果因為某種原因,用戶無法訪問源格式的文件,就可能丟失該格式保存的文件。但這并不是說沒有可供長期保存使用的格式。例如,對源內(nèi)容(例如音頻、視頻、靜態(tài)圖像)就有專門設(shè)計的用于長期保存的格式。然而,在這些源格式與相對普及便利的格式之間存有差距。因為,通常這些源格式很少大范圍使用。這就是為什么我們更有可能會遇到一個Word 97格式的文件,而不是PDF/A格式的文件(Word格式比PDF格式更加便利)。

1.2 機(jī)構(gòu)有時比用戶更重視格式

對于許多用戶來說,文件格式只不過是暫時承載特定內(nèi)容的一個載體,但是對于保存機(jī)構(gòu)而言,有時收集來的文件的格式卻有些神圣不可侵犯。因此,大量的理論研究和資源都耗費(fèi)在確保文件收到時的格式可以能夠使用上。

1.3 保留關(guān)聯(lián)背景信息很困難

為了有意義地保護(hù)數(shù)字對象(例如,保存在Word 97格式的手稿),不僅要了解文件格式,而且也要了解數(shù)字對象的數(shù)據(jù)以及元數(shù)據(jù)中沒有的大量信息。例如作者之類的信息,應(yīng)當(dāng)以元數(shù)據(jù)呈現(xiàn),而實際上在許多情況下,這種信息嵌入在文件中。在圖書館里,我們可以發(fā)現(xiàn)很多舊文檔只有很少的關(guān)聯(lián)背景的信息,但它卻很重要。

即使可以一直準(zhǔn)確地識別數(shù)字對象的文件格式,并且可以從文件中提取元數(shù)據(jù),但仍然有一些信息是無法在文件的元數(shù)據(jù)中體現(xiàn)出來的。例如,一張照片的元數(shù)據(jù)描述了攝影者使用的相機(jī)以及照片的拍攝地點(diǎn),但可能無法顯示這個文件是否是原始文件,還是其他文件的復(fù)制文件。同樣,也無法知道這個文件是否有多個版本,還是就只有這一個版本。對于文檔,我們很難知道接收的是草稿,還是最終的版本。給定一個文件夾,其中的文件命名都類似,我們自然不能知道這些文件之間的關(guān)系。還有,在許多領(lǐng)域,這樣的文檔也無法提供相應(yīng)的背景資料。在許多情況下,獲得這些背景信息有助于保存對象,但是一般都很難找到。

1.4 文件格式很難識別

目前,識別文件格式的工具正變得愈加可靠。比如DROID[3]之類的工具,能夠很好地識別很大范圍內(nèi)的格式。然而,雖然通過這種軟件的功能,我們能總體知道現(xiàn)在文件都使用了什么樣的格式,但是,由于消費(fèi)者使用文件格式的方式以及目前正在使用的文件格式的數(shù)量眾多,對于一些要求準(zhǔn)確識別的并要求基本上進(jìn)行自動保存的大規(guī)模的文件我們通常都不能識別。

1.5 元數(shù)據(jù)可能存儲不一致或不完全

盡管一些程序?qū)嶋H上已在文件格式中存儲了元數(shù)據(jù),但是,由于各種原因,檢索這些數(shù)據(jù)將會遇到問題。不同的文件格式存儲的元數(shù)據(jù)不同(即使對同一個文件格式的不同實例,不同的軟件也有可能會儲存不同的元數(shù)據(jù))。另外,對于某些文件格式,擁有者未必愿意披露如何存儲元數(shù)據(jù)。這意味著,在許多情況下,即使該文件可以識別,可能也沒有辦法準(zhǔn)確地提取所有可用的元數(shù)據(jù)。目前有一個新機(jī)制是讓每個新的文件格式包含所有形式的元數(shù)據(jù)。但面對眾多的格式,以其排列組合以及增長率來看,意味著這根本是一個不具有可持續(xù)性的做法。

1.6 識別文件格式需要較長時間

即使文件格式識別及確認(rèn)的程序的性能是最先進(jìn)的,但仍然存在瓶頸。例如,澳大利亞圖書館從PANDORA網(wǎng)絡(luò)檔案館中采集了一大組樣本數(shù)據(jù),并運(yùn)用了DROID系統(tǒng)來處理和識別。這些樣本數(shù)據(jù)的文件都相當(dāng)小(網(wǎng)站的片段),卻花了近40天來處理大約17萬份文件,這樣的效率顯然是不可接受的。

2 圖書館數(shù)字信息資源的長期保存能力

當(dāng)我們討論數(shù)字資源的長期保存的解決方案時,通常是聚焦在解決問題的結(jié)果方面,由此產(chǎn)生了大量的數(shù)字資源長期保存系統(tǒng),例如基于OAIS模型[4]的成熟系統(tǒng) Fedora、DSpace、EPrint和開源系統(tǒng)DAITSS。[5]不過,這些解決方案是否能夠解決所有問題的根源,還有待驗證。另外,單從圖書館等收集機(jī)構(gòu)的技術(shù)系統(tǒng)入手,是無法解決長期保存數(shù)字資源的所有問題的。有研究者提出,問題的解決需要數(shù)字信息長期保存的相關(guān)主體,包括數(shù)字信息創(chuàng)造者、出版商、保存機(jī)構(gòu)、軟硬件開發(fā)者、非盈利組織和政府部門等系統(tǒng)合作。

本文著眼于數(shù)字信息長期保存問題的一個特別方面,即一個保存機(jī)構(gòu)長時間接收和保存外部來源文件的能力。例如,一個圖書館需要數(shù)字保存一份著名作家捐贈的手稿,雖然有許多理論上可行的長期保存數(shù)字對象的解決方案,如仿真或遷移,但大部分長期保存的解決方案依賴于該機(jī)構(gòu)的能力。該機(jī)構(gòu)必須具有準(zhǔn)確地識別數(shù)字對象使用的文件格式并記錄這些數(shù)字對象的背景含義的能力。本文重點(diǎn)介紹通過改進(jìn)圖書館操作系統(tǒng)的功能來解決數(shù)字信息長期保存問題。這種改進(jìn)系統(tǒng)不僅是讓圖書館等保存機(jī)構(gòu)使用,也可以讓終端用戶使用。

3 在操作系統(tǒng)上的改進(jìn)辦法

為了長期保存圖書館接收到的文件的數(shù)字對象,需要做到以下三點(diǎn):①文件格式是一直普及的格式;②元數(shù)據(jù)可以隨時提?。虎坳P(guān)聯(lián)的背景信息始終可以提取。

正如前面所述,處理后繼的問題是數(shù)字信息長期保存時必要的工作,但我們無法試圖讓工程師解決所有出現(xiàn)的問題。從上面提出的解決方案來看,均需要投入更多的資金和資源到我們已經(jīng)開拓的領(lǐng)域,如文件標(biāo)識或元數(shù)據(jù)提取。不過,至少現(xiàn)在,對于圖書館之類的機(jī)構(gòu),應(yīng)該可以預(yù)見到,這種方案的實現(xiàn)和支撐有許多的技術(shù)障礙。

即使人們不會為了長期讀取而預(yù)先分類排序他們所得的數(shù)據(jù),但通常至少會為了短期的查找和使用而組織自己的文件。例如,許多人都會確保當(dāng)前使用的文檔在本地磁盤上保存,甚至手工做一份不同名字的備份。不過,一旦該文件結(jié)束了使用期,人們就會將內(nèi)容復(fù)制到一個CD中,或者全部刪掉??傊绻麛?shù)字對象包含了用戶能夠感受到的價值,那么用戶還是希望確保它依然可以訪問。這就表明,在某一個時間段,上面提到的三點(diǎn)要求在任何類型的文件中都可以體現(xiàn)到。具體來說,當(dāng)文件正在使用時,最容易找到這些信息。

此外,在許多情況下,當(dāng)文件正在使用時,用戶不僅需要擁有更多關(guān)于文件的知識,同時也需要更多關(guān)于操作系統(tǒng)的知識。對于用戶常用的大多數(shù)文件類型,操作系統(tǒng)會通過其內(nèi)部注冊機(jī)制來關(guān)聯(lián)相應(yīng)的應(yīng)用程序。比如說,用戶雙擊一個.DOC文件,它就會直接在Word中打開并可編輯,而不需要用戶首先加載Word程序,然后再從中打開該.DOC文件。盡管這些關(guān)聯(lián)關(guān)系是基于一個基礎(chǔ)范圍的,而且在個體層面上不太可靠(可以將一個DOC文件的擴(kuò)展名改為PDF),這仍然在理論上是一個潛在的寶貴的資料。但是,此信息只保存在操作系統(tǒng)內(nèi)。如果這些文件轉(zhuǎn)移到其他介質(zhì),比如轉(zhuǎn)移到一張備份CD光盤上,那么在用戶的非當(dāng)前工作環(huán)境中使用時,這種信息可能會丟失。

因此,解決問題需要了解文件格式是如何構(gòu)建的。作為一個自我包含的對象,設(shè)計者將其認(rèn)為最重要的元數(shù)據(jù)直接嵌入了這個對象。雖然這足以讓一般用戶利用文件進(jìn)行工作,但只有少數(shù)文件格式詳細(xì)記錄了其保存類型。例如,很難遇到一個文件格式,其中包含該文件的歷史事件。對于收集機(jī)構(gòu),這意味著除非伴隨文件有一些人們可讀的描述文檔,否則這種信息是根本沒有存儲的。

在收集機(jī)構(gòu)之外,也有很多實際案例表明,文件中存儲的元數(shù)據(jù)并不能充分滿足用戶的需求。例如,用戶可以在一張CD上再次存儲他們的文件備份。假設(shè)他們可能卸載許多應(yīng)用,甚至更換一臺新計算機(jī),在需要看那張CD的內(nèi)容之前,他們不再知道存儲的文檔是什么。有時用戶可能還記得他們以前使用的軟件,并通過手動重新安裝來訪問。另外,在某些情況下,內(nèi)部存儲的元數(shù)據(jù)處理復(fù)雜信息時效率不高,即使文件格式中數(shù)據(jù)非常豐富,如使用的ID3的MP3文件;即使ID3包含了有關(guān)文件本身的信息范圍非常大,一定程度上還包含一組給定文件的屬性,如“專輯”字段等的背景信息,它并沒有明確包含單一的文件與其他關(guān)聯(lián)文件的信息。因此,如果用戶要建立一個更復(fù)雜的歌曲隊列,比如一系列的播放列表,這樣的信息需要在MP3之外生成、維護(hù)和說明。

真正的問題是在文件離開原作者的環(huán)境中后如何維持這些信息。例如在閃存設(shè)備上,當(dāng)文件被帶到一個新的計算機(jī)上時,由于新計算機(jī)沒有與相應(yīng)應(yīng)用的關(guān)聯(lián)關(guān)系或者有完全不同的關(guān)聯(lián)關(guān)系,文件間的關(guān)聯(lián)將會丟失。因此,使其在單個應(yīng)用或者多個應(yīng)用組合上不適用。不過,理論上,操作系統(tǒng)通過文件系統(tǒng),其實是能夠負(fù)責(zé)這類信息的。微軟之前曾以各種題目探討過這個概念,例如前一陣的WinFS文件系統(tǒng),[6]是個小型的半公開測試版,而且未被發(fā)布。盡管WinFS似乎主要關(guān)注如何返回豐富的搜索結(jié)果,而不是集中提供背景數(shù)據(jù),但它仍可能維護(hù)一個終端用戶電腦上所有的文件環(huán)境,并且在技術(shù)上它是朝這個方向發(fā)展的。

因此,相比儲存標(biāo)簽信息,或分析哪些歌曲屬于同一藝術(shù)家,文件系統(tǒng)本身可以存儲更復(fù)雜的信息,例如事件的跟蹤以及用戶定義或者生成的一組文件之間的關(guān)系(例如,同一個圖片的重復(fù)版本)。

如果我們可以找到有效的方法在用戶的操作環(huán)境外來傳播元數(shù)據(jù),并將其和數(shù)據(jù)記錄方法結(jié)合,那么收集機(jī)構(gòu)不必進(jìn)行鑒定或元數(shù)據(jù)提取,就能直接存檔和保存大多數(shù)接收的文件。

4 改進(jìn)方案的優(yōu)勢

從文件系統(tǒng)的發(fā)展中可以看到,這種解決方案的實現(xiàn)是有價值的,但這需要我們重新思考該如何對待和設(shè)計操作系統(tǒng)上的文件,也需要改變應(yīng)用程序和操作系統(tǒng)之間的交互。另外,操作系統(tǒng)的這種改進(jìn)也不是某一個公司單獨(dú)實施后傳播給其他人,而是要在所有操作系統(tǒng)一致性地實現(xiàn)這種改進(jìn)。

對于保存機(jī)構(gòu)以及供應(yīng)商和最終用戶,這樣改進(jìn)產(chǎn)生的顯著好處,遠(yuǎn)遠(yuǎn)超過其弊端。

(1)針對我們遷移的文件,一個包含元數(shù)據(jù)的附屬文件(也許類似XML),即使在不支持附加元數(shù)據(jù)的文件系統(tǒng)上也能夠在遷移過程中生成包含元數(shù)據(jù)的附屬文件。如果這是通過標(biāo)準(zhǔn)方式實現(xiàn)的,那么圖書館及其他收集機(jī)構(gòu)就可以方便地利用這一應(yīng)用來支持其收集文檔。

(2) 如果給一個易用的API(應(yīng)用接口),在用戶擁有這個文件的同時,翻譯和寫作程序可以幫助其檢查文件的完整性。這樣有助于減少由于接受損壞信息引起的相關(guān)問題(比如定期生成文件的校驗碼)。

(3)當(dāng)用戶無法訪問其計算機(jī)上的文件時(例如,用戶的文件相對于處理軟件已經(jīng)超出有效使用期),文件系統(tǒng)可以通知他們,促使他們將文件的格式轉(zhuǎn)換為可以訪問的格式,同時提醒用戶是否會丟失一些文件元數(shù)據(jù)或文件格局。這可能會讓某些遷移更為特殊。例如,同一個供應(yīng)商文件格式之間的遷移可能使信息損失最少,這對于用戶來說非常重要,尤其是那些閉源文件。

(4)通過網(wǎng)絡(luò)檢索瀏覽路徑。即當(dāng)用戶正在使用的電腦沒有一個可用的文件瀏覽路徑,但他可以通過共享其使用過的其他計算機(jī)上的瀏覽信息找到可用的瀏覽路徑。即使用戶的任何一臺計算機(jī)上瀏覽路徑都不可用,仍然有其他途徑可以訪問,比如可以通過在線服務(wù),或者購買新軟件。

(5)對于用戶提交的文件,在提交之前,需要確認(rèn)提交的文件是否已經(jīng)使用了最合適的格式。這需要圖書館及其他收集機(jī)構(gòu)制定嚴(yán)格的數(shù)字文件提交標(biāo)準(zhǔn)與政策,這將減少圖書館需要處理的未知文件的數(shù)量。

(6)圖書館應(yīng)使用用戶將更有可能使用的操作系統(tǒng)。這將降低保持舊文件的復(fù)雜性,對陳舊內(nèi)容的獲取更加容易。對于保存大量數(shù)字化信息資料的圖書館,這種改進(jìn)將促進(jìn)特定供應(yīng)商提供更有價值的解決方案,其吸引力將遠(yuǎn)遠(yuǎn)超過沒有提供這種附加信息存儲的其他方案。

(7)如果圖書館及其他收集機(jī)構(gòu)能夠更加嚴(yán)格地定義其接收的文件格式,并在文件提交之前的任何標(biāo)準(zhǔn)化工作都由內(nèi)容的作者代為實現(xiàn),這樣可以確保重要數(shù)據(jù)不會丟失。

5 結(jié)語

如何解決舊的文獻(xiàn)資料永遠(yuǎn)都會是一個問題。對現(xiàn)代操作系統(tǒng)的這種改進(jìn),不可能解決已接收到的所有材料的問題,也不能完全解決目前一些用戶的計算機(jī)上的舊文件格式的問題。然而,這種解決方案可以做的是,幫助我們擺脫目前這種困難的局面。事實上,如果對操作系委統(tǒng)不著手做一些改進(jìn),以促進(jìn)實現(xiàn)長期的數(shù)字保存,那么我們就將會一直需要處理前面所提到的那些問題。從根本上講,這并不在于文件格式的識別程序有多好,它們不可能永遠(yuǎn)保持更新到最新的狀態(tài),它們只能以當(dāng)前標(biāo)準(zhǔn)來處理接收的文檔。對圖書館及文獻(xiàn)信息收集機(jī)構(gòu)來說,已經(jīng)投入了大量的資金來處理這類問題,但是如果我們只是不斷地進(jìn)行被動的補(bǔ)救工作,那我們所做的一切最終將是徒勞的。我們應(yīng)該把工作重點(diǎn)放在真正重要的東西上——確保我們擁有的數(shù)據(jù)能夠長期讀取,這樣我們可以將我們的精力和資金用于實現(xiàn)能夠真正保存這些內(nèi)容的方案上。

[1]李丹,向菁. 協(xié)作與實踐:數(shù)字資源長期保存工具及方法——2008年數(shù)字資源長期保存國際會議(iPRES2008) 綜述 [J].圖書館理論與實踐,2009 (11): 70-72.

[2] Pearson D,Webb C.2008,Defining file formatobsoles cence:A risky journey [J].The International Journal ofDigitalCuration, 2005, 1(3): 89 106.

[3] DROID (DigitalRecordObjectIdentification) [EB/OL].[2010-01-20].http://droid.sourceforge.net/wiki/index.php/Introduction.

[4]吳振新.開源長期保存系統(tǒng)DAITSS研究 [J/OL].現(xiàn)代圖書情報技術(shù),2009(7/8): 18-22 http://www.dlib.org/dlib/november04/stanescu/11stanescu.html.

[5]李克征.數(shù)字信息長期保存的技術(shù)方法分析 [J].圖書館工作與研究, 2006(2): 58-60.

[6] Rizzo,T.WinFS101:IntroducingtheNewWindowsFileSystem [J/OL] .MicrosoftCorporation, 2004 (3) [2010-01-20] .http://msdn.microsoft.com/library/default.asp?url=/library/enus/dnwin-fs/html/winfs03112004.asp.

猜你喜歡
數(shù)字信息文檔機(jī)構(gòu)
淺談Matlab與Word文檔的應(yīng)用接口
有人一聲不吭向你扔了個文檔
基于BIM的企業(yè)數(shù)字信息歸檔與利用模式研究
北京尚水?dāng)?shù)字信息產(chǎn)品介紹
數(shù)字有形狀嗎?數(shù)字信息精確性和品牌標(biāo)識形狀的匹配效應(yīng)*
一周機(jī)構(gòu)凈增(減)倉股前20名
基于RI碼計算的Word復(fù)制文檔鑒別
一周機(jī)構(gòu)凈增(減)倉股前20名
一周機(jī)構(gòu)凈增倉股前20名
一周機(jī)構(gòu)凈減倉股前20名