劉 倩
(安徽科技學院黨委(校長)辦公室 安徽滁州 233000)
數(shù)字檔案數(shù)量呈急劇增長態(tài)勢,如何鑒定,管理和存儲這些海量的檔案數(shù)據(jù)是檔案學界的熱點問題。數(shù)字檔案館作為新型的檔案倉庫和窗口,既具備傳統(tǒng)檔案館的功能和性質,也承擔著在信息時代更大程度的發(fā)揮檔案價值的重任。然而,數(shù)字檔案因自身的脆弱性,與載體的不可分離性等特點,保存期限較短,其長期安全保存較傳統(tǒng)紙質檔案更加困難。數(shù)據(jù)遷移是數(shù)字檔案保存利用過程中常用的技術手段,是實現(xiàn)檔案在分級存儲設備中合理、高效調度的重要組成部分[1]。數(shù)字的檔案館存儲壓力隨著數(shù)據(jù)量的爆炸性增長越來越大,數(shù)據(jù)遷移技術的應用能幫助實現(xiàn)存儲資源合理、經(jīng)濟、高效的分配,數(shù)據(jù)遷移在數(shù)字檔案的長期保存和方便利用中有不可忽視的作用?;诖耍骄繑?shù)字時代下檔案管理數(shù)據(jù)遷移模式的規(guī)范化具有重要價值。
(一)數(shù)字檔案及數(shù)字檔案館。數(shù)字檔案是在計算機環(huán)境中生成的,具有保存和利用價值,并按照電子文件管理規(guī)定正式歸檔的電子文件。電子文件類型非常豐富,遠超傳統(tǒng)觀念中的檔案。正如傳統(tǒng)檔案的主體是紙質文件一般,數(shù)字檔案的主體是文本文件。隨著信息技術的發(fā)展,更加生動、直觀和形象的圖像、音頻、視頻和多媒體文件也成為“社會記憶”必不可少的一部分。常見的電子文件包括文本文件,影像文件,聲音文件,多媒體文件,數(shù)據(jù)庫文件,超文本文件等等,其中部分文件可以打印出來,但有些文件只有在計算機環(huán)境中才有意義。電子文件不但類型豐富,同類型文件的格式也極具多樣化,譬如文本文件常用的有wps,doc,pdf等格式,圖像文件的常用格式有bmp,tiff,gif 等,影像文件的常用格式為avi,wma等常用格式,聲音文件也有mp3,mid,wav等格式。如此紛繁的文件格式,使得文件管理者在面對海量的信息的同時,還要選擇轉化合適的文件格式。這不僅是數(shù)字檔案管理的一大威脅,也是數(shù)據(jù)遷移時要考慮的重要因素。
目前,數(shù)字檔案大多保存在數(shù)字檔案館中。通常來說數(shù)字檔案館至少會擁有檔案目錄數(shù)據(jù)庫和全文數(shù)據(jù)庫兩個大型數(shù)據(jù)庫。目錄數(shù)據(jù)庫存儲的不是檔案原文,而是在著錄和標引的過程中產(chǎn)生的二次文獻。它有助于檢索功能的開發(fā),并具有一定的學術研究價值。全文數(shù)據(jù)庫存儲的是所有數(shù)字檔案的主體,包括傳統(tǒng)檔案資料數(shù)字化后形成的數(shù)字檔案,以及直接移交進館的檔案數(shù)據(jù)。數(shù)字檔案館中幾乎全部的數(shù)字檔案都集中存儲在這兩個信息數(shù)據(jù)庫中。信息爆炸的今天,數(shù)字檔案的數(shù)量以極高的速度增長,數(shù)字檔案館的存儲容量也隨之不斷增加。現(xiàn)在中國第一歷史檔案館和第二歷史檔案館的存儲數(shù)量早已達到上千TB,即便是中小型的檔案館,其數(shù)據(jù)存儲容量也已經(jīng)突破了TB級[2]。如何降低數(shù)字檔案的存儲成本和管理難度,以及后續(xù)對數(shù)字檔案資源進行針對性的開發(fā)和利用是數(shù)字檔案館亟需解決的問題。數(shù)據(jù)遷移是數(shù)字檔案館海量信息資源的來源手段之一,也是數(shù)字檔案館合理分配存儲資源的重要方式。由此可見,檔案管理中數(shù)據(jù)遷移的規(guī)范化發(fā)展尤為重要。
(二)檔案管理內數(shù)據(jù)遷移。自然界中,遷移是由原來的地點前往新的地點的行為和活動過程。傳統(tǒng)的檔案遷移比較符合這種定義,遷移的方式相對單一,本質上是檔案實體物理位置的變化。檔案數(shù)字化也是數(shù)據(jù)遷移的一種,從實體檔案到電子文件,檔案的內容發(fā)生了復制和遷移,但數(shù)據(jù)遷移的重要性、多樣性和復雜性更多的還是體現(xiàn)在計算機環(huán)境中的電子文件上。電子文件的遷移是指將源系統(tǒng)中的電子文件向目標系統(tǒng)進行轉移存儲的方法與過程。隨著檔案管理現(xiàn)代化的步伐,檔案管理系統(tǒng)本身面臨著不斷的升級,同時不同全宗、不同系統(tǒng)保存的文件的集中化存儲也是必然趨勢。這個過程可能是軟件的更新,系統(tǒng)的升級,或者硬件的轉變,是一個從原來的計算機環(huán)境向目標環(huán)境轉移的過程。利用數(shù)據(jù)遷移可以實現(xiàn)數(shù)字檔案的備份、利用、共享,從而達到長期保存和發(fā)揮檔案價值的目的。由于數(shù)字檔案的非人工識讀性,與載體不可分離性等自身特性,對遷移的技術和安全水平有較高的標準[3]。
(一)數(shù)據(jù)遷移執(zhí)行力度規(guī)范化。我國電子文件和數(shù)字檔案的管理缺乏全盤的戰(zhàn)略安排,在規(guī)范和標準滯后時又難以通過戰(zhàn)略指明方向,發(fā)布的標準主要集中在格式,術語,歸檔等方面,對數(shù)據(jù)遷移并沒有細致、深入的規(guī)定[4]。目前,我國的文件是分階段保存的,文件生產(chǎn)者和檔案管理者相互獨立,互不干涉。因此同類型的文件,生成者可以有多種可以選擇的格式,在歸檔時通常就要反復的壓縮和解壓縮將文件從原本的格式轉換為規(guī)范的格式。有時由于文件體積過大,為了節(jié)約存儲空間,在保管時進行必要的壓縮,利用時則需要解壓縮,后果是數(shù)字檔案的格式、結構甚至內容有可能會在高頻率的格式轉換中受損。雖然文本文件可能沒有直觀的體現(xiàn),但是經(jīng)過轉換的數(shù)字檔案的真實性、完整性和可靠性都無法保證。對于音頻、視頻檔案,信息的損失很容易造成畫質、音質的下降。即使采用統(tǒng)一的格式也不能做到一勞永逸,如果選擇了專有格式,可能面臨技術陳舊,兼容性差,安全版權等方面的問題,甚至還會因為公司的消亡導致文件的不可解讀從而丟失[3]。除此之外,技術過時,后繼無力。比如根據(jù)十幾年前發(fā)表的規(guī)范,很多現(xiàn)已淘汰的載體、格式還列在其中,現(xiàn)在主流的最新的技術卻沒有納入規(guī)范。在實踐中,各級各地區(qū)檔案部門各自做主,既存在選擇的檔案格式不一的情況,也可能選擇的格式不適合歸檔。如現(xiàn)在很多的文本文件以doc格式歸檔保存,但規(guī)范標準下推薦的歸檔格式其實是pdf格式。這對將來數(shù)字檔案規(guī)范化遷移時的實際執(zhí)行情況造成了障礙。
(二)數(shù)據(jù)遷移環(huán)節(jié)步驟規(guī)范化。與傳統(tǒng)檔案不同的是,數(shù)字檔案必須依托兼容的系統(tǒng)環(huán)境中才可以正常使用。所以軟件環(huán)境,系統(tǒng)環(huán)境的改變都可能影響數(shù)字檔案的狀態(tài)。系統(tǒng)的升級包括檔案管理系統(tǒng)的升級,軟件系統(tǒng)的更新升級、操作系統(tǒng)平臺的升級等許多方面[5]。相對來說檔案管理系統(tǒng)升級的周期較短,風險更大。操作系統(tǒng)更新發(fā)生的頻率低,環(huán)境相對穩(wěn)定,對檔案的影響較小。系統(tǒng)升級時,檔案數(shù)據(jù)遷移一般有三種方法:首先,系統(tǒng)切換前通過工具遷移。即在系統(tǒng)切換前利用工具將源系統(tǒng)中的檔案數(shù)據(jù)提取,轉換,然后加載到新的目標系統(tǒng)中。因為其方便快捷,是數(shù)據(jù)遷移最常用的方法。其次,系統(tǒng)切換前手工錄入。手工錄入一方面會消耗大量的人力、物力和時間成本,另一方面人工操作較高的出錯率導致遷移過程的數(shù)據(jù)損失。最后,切換后由新系統(tǒng)生成。這種方法需要提前遷移所需的數(shù)據(jù)到新系統(tǒng)中,通過系統(tǒng)自帶的功能和程序生成主要的檔案數(shù)據(jù)。每次檔案管理系統(tǒng)的升級,要對遷移數(shù)據(jù)進行大量格式上或存儲位置上的遷移,在此過程中面臨極大的成本上的風險和檔案完整性、可讀性的風險。目前,針對系統(tǒng)升級可能帶來的風險,僅規(guī)范化了測試及備份步驟,對于數(shù)據(jù)遷移的具體環(huán)節(jié)步驟規(guī)范化較為模糊。
(三)數(shù)據(jù)遷移存儲載體。數(shù)字檔案不僅格式讓人眼花繚亂,存儲載體也一直更新?lián)Q代,多種多樣,從最初的軟盤到如今常見的u盤,光盤,磁盤以及綜合的磁盤陣列等等,功能各有千秋。但受使用壽命和技術壽命限制,檔案管理者不得不采取數(shù)據(jù)遷移的方式來實現(xiàn)數(shù)據(jù)的長期保存。在遷移過程中,如果載體遇到風險,信息的安全性必然受到影響,所以必須慎重選擇合適的遷移載體。
表1 常見遷移載體性能
通過分析表格中幾種常用的遷移載體,就存儲容量而言,硬盤拔得頭籌,從保存期限和安全性的角度考慮,光盤、磁帶特別是縮微膠片都遠勝于它。一般磁帶、光盤比較適合作為需要長期保存的,相對重要的檔案遷移和備份載體。目前光盤是相對主流的檔案存儲載體,但磁帶也有不可取代的優(yōu)點,隨著技術的更新發(fā)展,重回市場也未可知。硬盤雖然具有數(shù)據(jù)量大,存取速度快等優(yōu)點,但使用壽命較短,隨時可能失真,而且開放的修改權限不能保證文件的安全性,真實性和可靠性,適合作為大容量的檔案暫存設備??s微膠片是縮微版的檔案原件,適合作為珍貴檔案的備份,替代原件使用,起到保護和利用的作用。此外,云計算背后的云存儲開始走入人們的視線并得到了廣泛的運用。云存儲作為新的存儲手段,有明顯的優(yōu)勢和劣勢。優(yōu)勢在于其海量的存儲空間,高效的存取效率,數(shù)據(jù)的高度共享性。但其劣勢也不容忽視,如果云存儲平臺的保密性,穩(wěn)定性,規(guī)范性不能得到保障,數(shù)字檔案的云存儲模式還任重道遠,但也是未來可能的方向,值得長期關注[6]。綜上,在數(shù)據(jù)遷移過程中,格式的轉換,系統(tǒng)的升級和載體的選擇都存在風險。為了保證檔案信息的安全,完整和利用,在制定遷移策略時需根據(jù)存儲系統(tǒng)規(guī)范化選擇存儲載體,分級存儲系統(tǒng)及存儲模式。
(一)規(guī)范數(shù)據(jù)遷移前提條件。首先,選擇檔案遷移的基本單位。在數(shù)字檔案遷移過程中,實際對象是全文數(shù)據(jù)庫中的電子文件[7]。如果每次遷移以文件為單位,容量太小,增加系統(tǒng)的負擔。如果容量過大,遷移策略也失去了意義,所以確定合適的遷移單位是遷移策略一大要點。由此,結合檔案本身的保存方式,和遷移觸發(fā)的兩個條件:訪問頻率和保存時間來確定基本單位。當訪問頻率高低的變化觸發(fā)遷移時,檔案全宗可以作為數(shù)據(jù)遷移的基本單位的,而時間上的定期遷移一般以年度文件夾為基本單位。其次,保證目標系統(tǒng)有足夠的存儲空間。一般正常的遷移順序是由在線存儲轉變?yōu)榻€存儲甚至離線存儲。但次級存儲設備上的文件遷移到一級設備上的情況也會發(fā)生。因此,必須考慮在線存儲的磁盤空間,在能保證隨時遷入的新數(shù)據(jù)的存儲空間的前提下,可以將次級存儲設備的文件恢復在線存儲。如果在線存儲空間不足或者超過警告值,決不能從次級存儲遷入數(shù)據(jù),甚至需要酌情遷出在線文件來保證足夠的剩余空間[8]。最后,根據(jù)指定的保管期限和訪問頻率遷移數(shù)據(jù)下,系統(tǒng)大多數(shù)采用定期遷移的方式,好處是以固定的時間做標準,定期執(zhí)行遷移工作能減少系統(tǒng)的負擔;缺點是過于死板,不能夠及時根據(jù)訪問率的變化情況來做調整。因此,增加人為控制數(shù)據(jù)遷移的前提。在特殊情況下,如預見政策的變化會帶來某種檔案數(shù)據(jù)利用率的增加,可以提前直接將相關檔案由次級存儲遷移至在線存儲。
(二)規(guī)范數(shù)據(jù)遷移具體環(huán)節(jié)。數(shù)據(jù)遷移工作最主要的是實施階段,常用方法可分為一次遷移、分次遷移、先錄后遷和先遷后補。不同系統(tǒng)間的數(shù)據(jù)遷移在遷移方法上一般采用一次遷移,分次遷移和先遷后補。該模式下的每一次遷移工作理論上都需要經(jīng)過制定遷移計劃、準備工作、風險分析、實施工作、校驗工作等完整的流程。在制定遷移計劃時,首先確定遷移對象的數(shù)量、種類、和優(yōu)先順序。內容重要的優(yōu)先,載體受損的優(yōu)先,利用率高的優(yōu)先。做遷移準備工作時,成立檔案遷移小組,確定遷移時間、遷移方法和工具。在進行風險分析時,制定規(guī)避措施。對于可能的“內容穩(wěn)定性風險、安全性風險、完整性風險、參考性風險、成本風險、功能風險、知識產(chǎn)權風險等”,要充分評測,做好應對[9]。在遷移實施工作時,此階段應該根據(jù)制定的方案有序進行。為了保證檔案的安全性,首先應該對源檔案數(shù)據(jù)的進行異地備份,直到遷移后的電子檔案正常運行一定期限后方可銷毀。過程中應登記檔案遷移過程表,保存詳細的遷移記錄,以備以后參考。在進行遷移校驗工作時,數(shù)據(jù)遷移完成后有必要對電子檔案內容的完整性、可用性進行校驗測試,確保遷移工作質量。
(三)規(guī)范分級存儲系統(tǒng)模式。面對數(shù)字檔案爆發(fā)性的增長態(tài)勢,數(shù)字檔案館的存儲空間、擴容能力甚至資金成本將難以應付高速增長的數(shù)字檔案數(shù)量,屆時檔案的在線檢索利用效率也會隨之降低。根據(jù)信息生命周期理論,數(shù)據(jù)歸檔之后,對檔案用戶而言是新的數(shù)據(jù),會重新開始下一個生命周期循環(huán)[9]。在一個完整的周期中,信息的訪問頻率是變化的,所以數(shù)字檔案館可以采用分級存儲,即通過分級存儲管理軟件實現(xiàn)存放在不同級別的存儲設備中數(shù)據(jù)的自動遷移,達到存儲設備和訪問頻率的匹配,在盡可能不影響訪問性能的情況下,用更低的成本來存儲檔案[10]。在實踐上這也符合存儲的“二八原則”,即存儲的檔案中只有20%是常常被訪問的,80%的檔案出于無人問津的狀態(tài)。
存儲設備一般是按磁盤陣列—光盤庫—磁帶庫分布,存儲級別與載體相匹配的,根據(jù)分級存儲的分類要求,不同檔案按照利用需求、保密級別、檔案價值等要素可以分為三種不同的存儲模式,如表2所示。
表2 分級存儲的各級載體特點
首先,第一級以在線(On-line)存儲為主,采用傳輸效率高、性能好、價格昂貴的設備來實現(xiàn)存儲數(shù)據(jù)的任意讀取,滿足使用者對數(shù)據(jù)訪問的速度要求。其次,第二級為近線(Near-line)存儲,近線存儲設備的價格比在線存儲低,相對數(shù)據(jù)訪問速度也慢一些,一般存儲的是那些需要定期訪問,但對頻率和響應速度要求不高的數(shù)據(jù)。近線存儲的數(shù)據(jù)在總數(shù)據(jù)量中占很大的比重,所以足夠的容量最重要。最后,離線(Off-line)存儲,可以類比為實體的文件管理中心,保存?zhèn)浞莸幕蚣磳N毀的數(shù)據(jù),在需要獲取離線數(shù)據(jù)時可以通過數(shù)據(jù)遷移技術回到在線存儲狀態(tài)。
檔案是人類在社會活動中真實記錄和反映,是寶貴的社會財富,是意義深遠的文化遺產(chǎn),需要得到充分的保存和利用。數(shù)字檔案是現(xiàn)今其中最奪目的一員,數(shù)字檔案館是檔案館的發(fā)展方向。數(shù)據(jù)遷移對檔案尤其是數(shù)字檔案的長期保存和有效利用具有重要作用,需要在模式上、技術上、規(guī)范上進行挖掘和提升。檔案事業(yè)需要在國家的戰(zhàn)略布置和規(guī)范指導下,在全社會的合作中,用科學管理的思想,不斷迎接新的變化,成為重要的文化支柱,促進社會的進步與發(fā)展。