于英濤
(華北計(jì)算技術(shù)研究所 中國 北京 100083)
檔案數(shù)字化是隨著計(jì)算機(jī)技術(shù)、掃描技術(shù)、OCR 技術(shù)、數(shù)字?jǐn)z影技術(shù)(錄音、錄像)、數(shù)據(jù)庫技術(shù)、多媒體技術(shù)、存儲(chǔ)技術(shù)的發(fā)展而產(chǎn)生的一種新型檔案信息形態(tài),它把各種載體的檔案資源轉(zhuǎn)化為數(shù)字化的檔案信息, 以數(shù)字化的形式存儲(chǔ),網(wǎng)絡(luò)化的形式互相連接,利用計(jì)算機(jī)系統(tǒng)進(jìn)行管理,形成一個(gè)有序結(jié)構(gòu)的檔案信息庫,及時(shí)提供利用,實(shí)現(xiàn)資源共享。
檔案數(shù)字化是數(shù)字檔案建設(shè)最基礎(chǔ)的工作,傳統(tǒng)栽體的檔案經(jīng)高科技技術(shù)加工成數(shù)字檔案形式,通過局域網(wǎng)、政務(wù)網(wǎng)、互聯(lián)網(wǎng)進(jìn)行計(jì)算機(jī)檢索、閱讀電子檔案,為迎接檔案信息服務(wù)新環(huán)境的挑戰(zhàn),提高管理水平、提高效率,增強(qiáng)檔案業(yè)務(wù)部門的服務(wù)水平,為檔案內(nèi)部管理及面向客戶服務(wù)提供高效率的全面服務(wù)。 檔案數(shù)字化流程圖檔案工作的數(shù)字化建設(shè)是順應(yīng)潮流、適應(yīng)時(shí)代發(fā)展的新舉措、新要求。 檔案作為一種原生信息資源,其重要性正日益凸顯出來,逐步掌握信息技術(shù)為檔案工作服務(wù),為社會(huì)主義經(jīng)濟(jì)建設(shè)服務(wù),為社會(huì)主義精神文明建設(shè)服務(wù)。
隨著檔案信息化建設(shè)和數(shù)字化工作的開展,某檔案館在機(jī)讀目錄的管理以及檔案數(shù)字化加工方面進(jìn)行了大量的研究和工作,目前大約形成機(jī)讀目錄上百萬條,檔案數(shù)據(jù)容量約9TB,聲像光盤幾千余張。 另外隨著檔案接收進(jìn)館工作的進(jìn)行,大量的檔案信息數(shù)據(jù)也陸續(xù)接收進(jìn)館。 因此如何充分運(yùn)用先進(jìn)的網(wǎng)絡(luò)、存儲(chǔ)和數(shù)字化技術(shù)手段,將寶貴的館藏檔案數(shù)據(jù)進(jìn)行有效的整理加工并轉(zhuǎn)儲(chǔ)到安全可靠的存儲(chǔ)設(shè)備中,再通過網(wǎng)絡(luò)環(huán)境實(shí)現(xiàn)對(duì)這些信息資源的高效率的檢索和共享,充分發(fā)揮它們的價(jià)值,是檔案館信息化基礎(chǔ)建設(shè)亟待解決的任務(wù)。
圖1
針對(duì)檔案館目前數(shù)據(jù)分散、增長速度快,工作效率低及數(shù)據(jù)安全性差的現(xiàn)實(shí), 設(shè)計(jì)了一套完整的存儲(chǔ)系統(tǒng)解決方案,幫助檔案館實(shí)現(xiàn)業(yè)務(wù)目標(biāo)。 該方案將檔案館存儲(chǔ)系統(tǒng)的架構(gòu)分為三級(jí),分別為在線數(shù)據(jù)存儲(chǔ)(On-Line)、近線數(shù)據(jù)存儲(chǔ)(Near-Line)、離線數(shù)據(jù)存儲(chǔ)(Off-Line)。 具體如圖1 所示。
每個(gè)級(jí)別的功能簡要描述如下:
1)在線數(shù)據(jù)存儲(chǔ)(On-Line)
在線存儲(chǔ)(On-Line)是工作級(jí)的存儲(chǔ),在線存儲(chǔ)的最大特征是存儲(chǔ)設(shè)備和所存儲(chǔ)的數(shù)據(jù)時(shí)刻保持“在線”狀態(tài),可以隨時(shí)讀取和修改,以滿足前端應(yīng)用服務(wù)器或數(shù)據(jù)庫對(duì)數(shù)據(jù)訪問的速度要求,其中最主要的在線存儲(chǔ)是磁盤存儲(chǔ)。 在線存儲(chǔ)的性能是最高的,但成本也是最高的。
2)近線數(shù)據(jù)存儲(chǔ)(Near-Line)
近線存儲(chǔ)就是在原有的在線存儲(chǔ)及離線存儲(chǔ)之間引入的第二層存儲(chǔ),是在線和離線存儲(chǔ)的中間點(diǎn),是近似在線的存儲(chǔ)。 其特點(diǎn)是數(shù)據(jù)訪問的速度接近在線存儲(chǔ),但在價(jià)格上卻接近離線海量存儲(chǔ),因此,在有效降低存儲(chǔ)產(chǎn)品成本的同時(shí),也保證了數(shù)據(jù)能夠被及時(shí)訪問。 由于存放的數(shù)據(jù)容量大、訪問頻度低,用近線存儲(chǔ)設(shè)備來存儲(chǔ),比使用磁帶庫靈活,同時(shí)也避免了在線存儲(chǔ)的昂貴投資。 傳統(tǒng)定義的近線存儲(chǔ)設(shè)備主要為NAS 系統(tǒng)與光盤庫設(shè)備。
3)離線數(shù)據(jù)存儲(chǔ)(Off-Line)
離線數(shù)據(jù)是對(duì)在線數(shù)據(jù)的備份,以防范可能發(fā)生的數(shù)據(jù)災(zāi)難,離線數(shù)據(jù)不常被調(diào)用,一般也遠(yuǎn)離系統(tǒng)應(yīng)用。 離線存儲(chǔ)的典型產(chǎn)品是磁帶庫,價(jià)格相對(duì)低廉,但離線存儲(chǔ)介質(zhì)上的數(shù)據(jù)在讀寫時(shí)是順序進(jìn)行的,當(dāng)需要讀取數(shù)據(jù)時(shí),需要把磁帶卷到頭,再進(jìn)行定位。 因此,離線存儲(chǔ)的訪問速度慢、效率低。
檔案館可根據(jù)應(yīng)用系統(tǒng)的主要功能、業(yè)務(wù)類型、對(duì)數(shù)據(jù)訪問要求等因素,將其數(shù)據(jù)部署在各級(jí)存儲(chǔ)上,既能最大限度滿足應(yīng)用需求,又可使存儲(chǔ)成本最小化。
圖2
某檔案館以前采用傳統(tǒng)的LAN 結(jié)構(gòu)和手工備份方式,人工手動(dòng)備份數(shù)據(jù)庫中的關(guān)鍵數(shù)據(jù),SQL、Oracle 的數(shù)據(jù)備份需要占用較多的工作量,對(duì)核心業(yè)務(wù)數(shù)據(jù)信息備份的工作無法量化考核。針對(duì)這一情況,設(shè)計(jì)了采用SAN 存儲(chǔ)架構(gòu)和集中、高效的網(wǎng)絡(luò)備份系統(tǒng)。 其目的在于一方面是采用最先進(jìn)的存儲(chǔ)技術(shù),最大化的利用現(xiàn)有的存儲(chǔ)設(shè)備,建立一個(gè)數(shù)據(jù)集中管理的存儲(chǔ)系統(tǒng);另一方面為系統(tǒng)和數(shù)據(jù)建立備份,從而對(duì)系統(tǒng)和數(shù)據(jù)進(jìn)行有效保護(hù),在系統(tǒng)遭遇意外損害時(shí),能及時(shí)對(duì)系統(tǒng)和數(shù)據(jù)進(jìn)行恢復(fù)。
該備份方案示意圖如圖2。
檔案館備份系統(tǒng)的組成如下:
1)備份主服務(wù)器:負(fù)責(zé)整個(gè)備份系統(tǒng)的管理,包括備份策略的制訂、 備份數(shù)據(jù)庫的保存。 該服務(wù)器同時(shí)也是一個(gè)Media Server 服務(wù)器, 負(fù)責(zé)將本機(jī)的數(shù)據(jù)和客戶端的數(shù)據(jù)備份到磁帶庫中。
2)備份客戶端程序:安裝在所有需要通過SAN 備份的其他服務(wù)器上。 每個(gè)服務(wù)器均通過SAN 連接光纖交換機(jī)。 備份數(shù)據(jù)均通過光纖網(wǎng)絡(luò)備份到磁帶庫中。
3)NAS 備份軟件:使用網(wǎng)絡(luò)數(shù)據(jù)管理協(xié)議(NDMP),為網(wǎng)絡(luò)附屬存儲(chǔ)(NAS)主機(jī)提供在線數(shù)據(jù)備份和恢復(fù)。
4)數(shù)據(jù)庫備份程序:安裝在需要備份數(shù)據(jù)庫的服務(wù)器。能夠?qū)崿F(xiàn)熱備份,和快速恢復(fù)數(shù)據(jù)庫。
5)光纖磁帶庫與光纖交換機(jī)連接。 采用LTO 磁帶機(jī),通過備份軟件的控制,實(shí)現(xiàn)備份數(shù)據(jù)的高速、自動(dòng)、存儲(chǔ)。 當(dāng)數(shù)據(jù)受到損害時(shí),可以從磁帶庫中恢復(fù)數(shù)據(jù)。
6)由于主機(jī)及磁帶庫均接入SAN 結(jié)構(gòu),故未來可以平滑的升級(jí)到SAN 的方式備份一些重要的主機(jī)及數(shù)據(jù)庫,以避免備份數(shù)據(jù)對(duì)現(xiàn)有局域網(wǎng)絡(luò)的沖擊。
目前, 該存儲(chǔ)備份系統(tǒng)已在某檔案館建成并投入運(yùn)行。通過該系統(tǒng),檔案館可使信息像其他業(yè)務(wù)資產(chǎn)一樣有效地得到管理。 該系統(tǒng)不僅能幫助檔案館解決數(shù)據(jù)分散、效率低及安全性差的問題,并能滿足未來業(yè)務(wù)增長的需求。 它還可以滿足存儲(chǔ)空間的需求,減少開銷及資源浪費(fèi),同時(shí)減少在管理跨多種操作系統(tǒng)平臺(tái)的企業(yè)系統(tǒng)和信息孤島時(shí)的眾多難題。 大大提高了檔案館檔案信息化水平。
建成后的的存儲(chǔ)系統(tǒng)的特點(diǎn)為:
檔案館存儲(chǔ)系統(tǒng)的通道帶寬、存儲(chǔ)系統(tǒng)I/O 能力、服務(wù)器的網(wǎng)絡(luò)性能和響應(yīng)能力等重要指標(biāo),可以滿足實(shí)時(shí)性要求很高的多節(jié)點(diǎn)客戶端數(shù)據(jù)請(qǐng)求及大容量數(shù)據(jù)存儲(chǔ)的需要,提高了業(yè)務(wù)運(yùn)行效率。
檔案館存儲(chǔ)系統(tǒng)具備超大容量,同時(shí)也具備穩(wěn)定性與安全性也達(dá)到了很高的要求。 同時(shí)由于其先進(jìn)的架構(gòu),可使存儲(chǔ)容量靈活擴(kuò)展,提高了應(yīng)用的可持續(xù)運(yùn)行能力。
檔案館存儲(chǔ)系統(tǒng)采用了業(yè)界領(lǐng)先的三級(jí)的架構(gòu),成熟先進(jìn)而且為高端產(chǎn)品,適合未來幾年內(nèi)的技術(shù)發(fā)展方向。
檔案館存儲(chǔ)系統(tǒng)中的磁盤陣列均采取基于鏡像的數(shù)據(jù)保護(hù)機(jī)制,確保數(shù)據(jù)的可靠性;同時(shí)通過建設(shè)備份系統(tǒng),實(shí)現(xiàn)了文件系統(tǒng)數(shù)據(jù)、操作系統(tǒng)數(shù)據(jù)、多種應(yīng)用及數(shù)據(jù)庫數(shù)據(jù)的定期自動(dòng)備份,在發(fā)生數(shù)據(jù)災(zāi)難時(shí),可快速恢復(fù)數(shù)據(jù),保證了數(shù)據(jù)的安全性和應(yīng)用的持續(xù)運(yùn)行。S