葛吉靈
摘 要:本文對在新常態(tài)下檔案數(shù)字化,應(yīng)解決的主要問題做了剖析,進(jìn)一步明確了怎樣解決還原原件,保存數(shù)字化的成果及加工存儲的成本和有效管理等幾個方面,對做好檔案數(shù)字化提供有益的幫助。
關(guān)鍵詞:新常態(tài);檔案數(shù)字化;研究
在信息化高速發(fā)展和利用的時代,檔案數(shù)字化工作中存在這許多問題,在工作中最影響檔案數(shù)字化成果的問題主要有,怎樣保證數(shù)字化檔案的能夠忠實地還原原件,怎樣保證數(shù)字化檔案的長期保存,怎樣減少數(shù)字檔案加工、存儲和利用的成本,怎樣對數(shù)字化檔案進(jìn)行管理是檔案數(shù)字化值得研究的課題。
一、科學(xué)管理,確保數(shù)字化檔案真實反映原件面貌
紙質(zhì)檔案數(shù)字化工作目的。一是長期保管,即“替代性保管”,使用數(shù)字化復(fù)本替代原件長期保存和使用和“復(fù)本保管”即為重要檔案原件制作異地保管的數(shù)字化復(fù)本。二是以利用為目的的檔案數(shù)字化同樣區(qū)分為兩種情況:網(wǎng)絡(luò)利用和非網(wǎng)絡(luò)利用。非網(wǎng)絡(luò)利用范圍相對有限,主要集中在文獻(xiàn)資料的出版和發(fā)行;而網(wǎng)絡(luò)利用是數(shù)字化檔案利用的主要形式。
檔案數(shù)字化以利用為主。無論是利用還是保管,圖像格式必須具有良好的還原性、安全性,即識讀、顯示出來的數(shù)字文件在內(nèi)容上應(yīng)與原件完全一致,能夠通過數(shù)字簽名等技術(shù)固化數(shù)字文件的內(nèi)容,防止保管、利用過程中的信息篡改。此外,所選格式必須預(yù)期較低的遷移頻率和遷移損耗,否則,數(shù)字檔案會隨信息遷移而失去原真性,甚至成為無法利用的“數(shù)字垃圾”。目前很多地方的數(shù)字化圖像以黑白和灰度圖像為主,彩色圖像多用于照片檔案,且分辨率很低。各檔案館進(jìn)行數(shù)字化加工時,基本上遵照“紙質(zhì)檔案掃描方式主要采用黑白(二值)方式掃描。當(dāng)黑白方式掃描清晰度較差時,采用灰度方式掃描,灰度方式一般采用256灰階?!掌瑱n案掃描方式可選擇彩色或者灰度兩種方式掃描”的原則進(jìn)行,采用的圖像格式以TIFF/G4、TIFF/LZW、JPG和PDF為主。對于普通紙質(zhì)檔案,其掃描分辨率一般定為150dpi左右,部分檔案館標(biāo)準(zhǔn)更低,只有50~100dpi。照片檔案掃描分辨率一般定為300dpi左右。
二、嚴(yán)格管理,確保數(shù)字化檔案安全長期保存
數(shù)字化文件的要長期安全保存,主要抓好管理系統(tǒng)的保護(hù)和維護(hù)和文件格式的制度化標(biāo)準(zhǔn)化。
(一)建立起一個能夠承擔(dān)長期數(shù)字檔案長期維護(hù)的一個可信數(shù)字倉儲TDR系統(tǒng)。傳統(tǒng)的檔案管理系統(tǒng)顯然已經(jīng)無法滿足這樣的需求,而OAIS參考模型是數(shù)字倉儲和數(shù)字保存領(lǐng)域重要的國際標(biāo)準(zhǔn),為數(shù)字資源保存提供了全面一致的框架。TDR遵循這一模型,有利于在一個統(tǒng)一的概念、術(shù)語和模型框架下,進(jìn)行TDR的規(guī)劃建設(shè),易于開展分布式TDR之間數(shù)字資源的共享,以及規(guī)范化的管理和發(fā)展。在TDR中,一個非常重要的功能就是對AIP的維護(hù)、更新、技術(shù)仿真以及遷移。要做到這點,必須從標(biāo)準(zhǔn)規(guī)范和技術(shù)手段同時入手。技術(shù)標(biāo)準(zhǔn)的是一個不管地自我進(jìn)化的一個實體,我們在建設(shè)TDR時需要考慮到對原有標(biāo)準(zhǔn)的繼承和過度,我們應(yīng)當(dāng)關(guān)注虛擬化技術(shù)。
虛擬化技術(shù)不僅僅能夠為我們節(jié)省運維成本,在TDR系統(tǒng)中,更為重要的功用是能夠?qū)υ械南到y(tǒng)環(huán)境進(jìn)行模擬和測試,使得我們面對突然的技術(shù)升級時有充分的適應(yīng)期和緩沖期。目前,我們已經(jīng)全面對服務(wù)器進(jìn)行了虛擬化,未來將對存儲系統(tǒng)進(jìn)行虛擬化,通過計算資源和存儲資源的統(tǒng)一虛擬化,通過內(nèi)容管理平臺進(jìn)行系統(tǒng)管理,為構(gòu)建TDR系統(tǒng)打下一個良好的基礎(chǔ)。
(二)采用開放的格式標(biāo)準(zhǔn),規(guī)范制度管理。標(biāo)準(zhǔn)規(guī)范方面我們認(rèn)為國家檔案局頒布的《電子文件長期保存版式文件技術(shù)規(guī)范》是一個非常好的起點,它從標(biāo)準(zhǔn)的角度明確了電子文件的長期保存格式,為未來我們統(tǒng)一歸檔格式打下了一個良好的基礎(chǔ)。不足之處在于僅規(guī)范了原生型電子文件的格式規(guī)范,而未對其他類型的電子文件的格式規(guī)范做出要求,所以盡快針對數(shù)字化加工的格式標(biāo)準(zhǔn)和規(guī)范進(jìn)行重新修訂和增補非常重要。同時在標(biāo)準(zhǔn)的制定上,應(yīng)積極地參與國際標(biāo)準(zhǔn)的制定。用制度來規(guī)范數(shù)字格式的標(biāo)準(zhǔn),確保標(biāo)準(zhǔn)不走樣。
三、多家競爭,科學(xué)選擇,減少成本,保證質(zhì)量
一是外包公司要多家選擇。最好通過服務(wù)外包的形式大力培育中介機構(gòu)來完成此項工作,以某市為例,該市已有檔案服務(wù)中介機構(gòu)30多家,是一個完全競爭性的市場。在一個完全競爭性的市場狀態(tài)下,商品的價格會自發(fā)地限定在一個價格范圍之內(nèi),而且價格是比較低廉的。該市紙質(zhì)檔案數(shù)字化加工的成本約每頁0.25元(包括了前處理、加工、質(zhì)檢等環(huán)節(jié))。通過市場的完全競爭使得我們在數(shù)字化加工上的成本降到了一個相對合理的位置。但隨之而來的問題在于,眾多的中介服務(wù)機構(gòu)出于對市場的爭奪以及自身業(yè)務(wù)素質(zhì)等因素,會出現(xiàn)惡性壓價以及加工質(zhì)量較低等問題,而行政許可法的設(shè)立使得檔案局無法限制這類服務(wù)機構(gòu)的市場準(zhǔn)入。做法是對中介服務(wù)機構(gòu)采取登記備案制度。同時,考慮今后將定期發(fā)布對中介機構(gòu)服務(wù)水平和質(zhì)量的分析評定報告,以期各家服務(wù)機構(gòu)提升自己的業(yè)務(wù)素質(zhì)和服務(wù)水平。
二是采用了簡潔Djvu各式,極大地節(jié)省了存儲資源。該市完成約XX個全宗約800萬頁檔案的掃描,而僅占據(jù)了大約600GB的磁盤空間,由于采用了虛擬服務(wù)器,能夠非常靈活地分配存儲資源,所以我們的存儲系統(tǒng)資源利用率非常高。由于Djvu文件小,便于在網(wǎng)絡(luò)快捷利用,完全能夠滿足在1Mbps帶寬的ADSL線路上的瀏覽和傳輸。采取多家競爭,科學(xué)存儲可在合理的范圍減少成本,為推進(jìn)檔案數(shù)字化打下基礎(chǔ)。
四、規(guī)范管理數(shù)字化了的檔案,是檔案數(shù)字化的重要環(huán)節(jié)
有效地管理數(shù)字化檔案是一個非常重。從電子文件的定義去分析,紙質(zhì)檔案數(shù)字化文件也可被視之為一種電子文件。既然是屬于電子文件,那么紙質(zhì)檔案數(shù)字化文件也應(yīng)當(dāng)要遵循電子文件的管理模式,也同樣要遵循電子文件管理的原則,也同樣要前端控制、全程控制、全過程元數(shù)據(jù)記錄和行為跟蹤記錄。目前部分的數(shù)字化文件的管理不到位,主要原因是不規(guī)范。
一是加強混合式檔案管理。 在ICA發(fā)布的《電子文件管理系統(tǒng)建設(shè)規(guī)范及功能需求》中,明確地提出了ERMS系統(tǒng)要能夠進(jìn)行混合式檔案管理。所謂混合式檔案管理,就是指能夠?qū)υ碗娮游募㈤g接型電子文件以及實體檔案進(jìn)行統(tǒng)一的管理。同時,在建設(shè)ERMS系統(tǒng)時,我們要考慮各類安全措施的應(yīng)用,如訪問控制、數(shù)字簽名、防擴散的使用。通過構(gòu)建一個安全的系統(tǒng)環(huán)境來保證其產(chǎn)生和管理的電子文件,無論是原生型的,還是間接型的,在未來都能夠保證其憑證作用。
二是存儲系統(tǒng)的法規(guī)建設(shè)。盡管目前我們國家還未出臺類似于塞班斯法案SOX或者美國聯(lián)邦健康保險攜帶和責(zé)任法案HIPAA,要構(gòu)建一個安全的軟件系統(tǒng)環(huán)境,如何構(gòu)建一個安全的、遵循法規(guī)的硬件系統(tǒng)環(huán)境同樣值得關(guān)注。
五、結(jié)語
在新常態(tài)下,檔案數(shù)字化成為不可逆轉(zhuǎn)的趨勢,對其在數(shù)字化過程中存在問題的研究,為提升檔案數(shù)字化的質(zhì)量、存儲和管理及利用有著重要意義。