魏紅霞
(江蘇省檔案館,江蘇 南京,210008)
檔案信息管理系統(tǒng)數(shù)據(jù)庫設(shè)計中的三庫分離技術(shù)
魏紅霞
(江蘇省檔案館,江蘇 南京,210008)
三庫分離技術(shù)是在檔案信息管理系統(tǒng)數(shù)據(jù)庫設(shè)計實踐中提出的一種實用的數(shù)字檔案長期保存技術(shù),它將數(shù)據(jù)庫在物理設(shè)計上劃分為核心庫、管理庫、利用庫。文章分析了三庫分離技術(shù)的應(yīng)用背景、定義及相應(yīng)的數(shù)據(jù)庫設(shè)計方法,并提出了其在長期保存、提高數(shù)據(jù)庫效率和保證數(shù)據(jù)安全性方面的優(yōu)點和應(yīng)用原則。
三庫分離技術(shù) 檔案信息管理系統(tǒng) 長期保存技術(shù) 核心庫 管理庫 利用庫
21世電子紀文以件來及信電息子化檔發(fā)案展大迅量猛涌,現(xiàn),我國全面進入檔案信息化發(fā)展階段。隨著檔案信息化建設(shè)的開展和逐步深入,數(shù)字檔案館建設(shè)成了檔案信息化的重點工程。檔案數(shù)據(jù)庫建設(shè)是數(shù)字檔案館建設(shè)的核心內(nèi)容之一,它是提高檔案管理效率和服務(wù)水平的根本途徑。數(shù)據(jù)庫技術(shù)是建立數(shù)據(jù)庫及其應(yīng)用系統(tǒng)的技術(shù),是信息系統(tǒng)開發(fā)和建設(shè)中的核心技術(shù),具體來說,數(shù)據(jù)庫設(shè)計是指對于一個給定的應(yīng)用環(huán)境,構(gòu)造最優(yōu)的數(shù)據(jù)庫模式,建立數(shù)據(jù)庫及其應(yīng)用系統(tǒng),使之能夠有效地存儲數(shù)據(jù),滿足各種用戶的信息要求和處理要求,它的設(shè)計直接關(guān)系到系統(tǒng)執(zhí)行的效率和系統(tǒng)的安全性及穩(wěn)定性[1]。
1.1 現(xiàn)實背景
大數(shù)據(jù)時代,電子數(shù)據(jù)指數(shù)式增長,電子檔案的存儲和訪問成了數(shù)據(jù)庫設(shè)計的瓶頸問題。隨著電子檔案數(shù)量的快速增長以及系統(tǒng)用戶訪問量的不斷擴大,檔案信息管理系統(tǒng)出現(xiàn)運行效率降低、用戶長時間等待等甚至已經(jīng)影響到用戶正常操作的現(xiàn)象,造成了系統(tǒng)整體性能低下。另外,電子檔案還存在著自然災(zāi)害和人為破壞的風險,以及系統(tǒng)安全、載體安全、電子檔案遷移風險及電子檔案真實性等幾個方面的問題。針對以上諸多問題,優(yōu)化數(shù)據(jù)庫設(shè)計顯得尤其重要。本文要探討的三庫分離技術(shù)是在總結(jié)檔案信息管理系統(tǒng)數(shù)據(jù)庫設(shè)計實踐基礎(chǔ)上提出的一種實用的數(shù)字檔案長期保存技術(shù),此項技術(shù)的應(yīng)用有助于提高系統(tǒng)的整體性能,保障數(shù)字檔案的安全性。
1.2 OAIS參考模型
OAIS(Open Archival Information System,開放檔案信息系統(tǒng))參考模型是空間數(shù)據(jù)系統(tǒng)咨詢委員會(CCSDS)制定的標準,并于2003年作為ISO的標準(ISO14721:2003)頒發(fā)。其主要目的是為具有數(shù)據(jù)長期保存和利用責任的檔案機構(gòu)以及非檔案機構(gòu)提供數(shù)字信息長期保存和利用的基本概念、術(shù)語、基本信息模型、功能模型和指南。具體模型如圖1所示。
OAIS參考模型提出了數(shù)字檔案館等對數(shù)字信息長期保存和利用負有責任的機構(gòu)應(yīng)該履行的六項基本功能:
(1)檔案收集:從信息生產(chǎn)者那里接收提交信息包(SIP),并且對內(nèi)容進行準備,以便所提交信息能夠在檔案系統(tǒng)中存儲和管理。
(2)數(shù)據(jù)管理:對檔案信息包的描述信息進行管理,幫助用戶查找和檢索信息。
(3)歸檔存儲:存儲檔案信息包,為其選擇恰當?shù)拇鎯γ襟w,判斷存儲級別,按照不同級別采取不同的安全保管措施,并執(zhí)行錯誤檢測以及災(zāi)難恢復(fù)。
(4)檔案利用:將歸檔信息包加工成分發(fā)信息包,并提供給用戶利用。
圖1 OAIS信息模型
圖2 系統(tǒng)功能模型
圖3 數(shù)據(jù)庫優(yōu)化模型
(5)行政管理:與信息生產(chǎn)者簽訂“移交協(xié)議”,對數(shù)據(jù)移交的格式、移交的內(nèi)容、程序和方式進行規(guī)范,把握信息長期保存的源頭。
(6)保存規(guī)劃:對技術(shù)的變化以及用戶群的服務(wù)需求變化進行監(jiān)控,并根據(jù)變化制定詳細的保存策略和遷移計劃[2]。
1.3 三庫分離技術(shù)的提出
OAIS規(guī)定了資源存取和長期保存的概念和參考框架。本文以O(shè)AIS六個功能模塊為基礎(chǔ),按照電子文件從檔案生產(chǎn)者傳遞到檔案利用者的過程分析設(shè)計出收集管理模塊、保存模塊、利用模塊三大系統(tǒng)功能模型。如圖2所示。
在對系統(tǒng)功能模型進行分析的基礎(chǔ)上,可以利用三庫分離技術(shù)進一步優(yōu)化數(shù)據(jù)庫模型,即在數(shù)據(jù)庫物理設(shè)計中將數(shù)據(jù)庫分為核心庫、管理庫和利用庫,如圖3所示。
檔案信息管理系統(tǒng)中的管理庫、核心庫、利用庫主要功能如下:
(1)管理庫:該庫主要供檔案業(yè)務(wù)人員進行新增修改刪除等操作,實現(xiàn)電子檔案數(shù)據(jù)的收集整理、編目著錄、鑒定銷毀等日常管理。
(2)核心庫:該庫主要實現(xiàn)電子檔案數(shù)據(jù)的長期保存。
(3)利用庫:該庫主要供利用者借閱利用,實現(xiàn)電子檔案數(shù)據(jù)的檢索統(tǒng)計、編研利用、數(shù)據(jù)分析及數(shù)據(jù)挖掘。
2.1 三庫分離的數(shù)據(jù)庫架構(gòu)
在概念結(jié)構(gòu)上,因在三庫概念結(jié)構(gòu)設(shè)計時三庫中檔案對象具有相同的ER圖,因此三庫的邏輯結(jié)構(gòu)一致。在物理結(jié)構(gòu)上,三庫分離技術(shù)實質(zhì)上是數(shù)據(jù)庫物理結(jié)構(gòu)設(shè)計時的一種優(yōu)化措施。三庫分離的數(shù)據(jù)庫架構(gòu)如圖4所示。
在三庫分離數(shù)據(jù)庫架構(gòu)中,服務(wù)器和存儲之間使用存儲區(qū)域網(wǎng)絡(luò)(Storage Area Network,簡稱SAN)連接。SAN實際是一種專門為存儲建立的獨立于TCP/IP網(wǎng)絡(luò)之外的采用高速數(shù)據(jù)連接通道(光纖通道FC)的專用網(wǎng)絡(luò),目前一般的SAN提供2Gb/S到4Gb/S的傳輸數(shù)率,存取速度很快。由于SAN的基礎(chǔ)是一個專用網(wǎng)絡(luò),所有的服務(wù)器與存儲設(shè)備均采用中心化管理,因此擴展性很強,不管是在一個SAN系統(tǒng)中增加一定的存儲空間還是增加幾臺使用存儲空間的服務(wù)器都非常方便,并且可以通過集群方式達到高可用性[3]。
圖4 三庫分離數(shù)據(jù)庫架構(gòu)
圖5 三庫同步流程圖
2.2 三庫的具體設(shè)計
管理庫是檔案信息系統(tǒng)正常運行的核心組件,它提供對檔案數(shù)據(jù)的編輯、修改和刪除等操作,支持各類管理流程順利實現(xiàn)。管理庫的核心數(shù)據(jù)采用按檔案類型建表的架構(gòu)。為保證管理庫的災(zāi)難恢復(fù)和高可用性,我們在三庫設(shè)計中使用了數(shù)據(jù)庫雙機熱備技術(shù)。將管理庫安裝成為互為備份的兩臺服務(wù)器,當運行著的服務(wù)器出現(xiàn)故障無法啟動時,另一臺服務(wù)器自動啟動以減少損失;當原運行著的服務(wù)器被修復(fù)后,又可以作為新的備用服務(wù)器。
核心庫即檔案的長期保存庫,該數(shù)據(jù)庫結(jié)構(gòu)遵照相關(guān)的元數(shù)據(jù)標準,采用以全宗建表的架構(gòu),基于XML(可擴展標記語言,Extensible Markup Language)技術(shù)對電子檔案元數(shù)據(jù)進行封裝。利用標準的、與軟硬件無關(guān)的XML語言將電子檔案與其元數(shù)據(jù)按照規(guī)范結(jié)構(gòu)封裝在一個數(shù)據(jù)包中,可以維護電子檔案與其元數(shù)據(jù)的完整性,并保障兩者之間的可靠聯(lián)系,實現(xiàn)電子檔案的自描述、自包含、自證明[4]。在封裝的同時,引入CA技術(shù)對封裝包做數(shù)字簽名操作,形成數(shù)字簽名和鎖定簽名,確保電子檔案的真實性。具體設(shè)計是將基礎(chǔ)結(jié)構(gòu)元數(shù)據(jù)作為一個全宗表的通用字段,將各檔案類型中非通用字段整合為XML文件保存在名為擴展字段的大字段中,將封裝新增的元數(shù)據(jù)在電子文件封裝表中保存。在電子檔案進入核心庫時,應(yīng)當對其元數(shù)據(jù)的完整性和封裝包的合法性進行全面檢測,嚴防不合格的電子檔案數(shù)據(jù)進入核心庫。
利用庫主要用于檢索統(tǒng)計、編研利用、數(shù)據(jù)分析等數(shù)據(jù)挖掘應(yīng)用。為便于高效地查詢利用,利用庫的核心數(shù)據(jù)采用按檔案類型建表的架構(gòu)。
2.3 三庫同步設(shè)計
三庫間數(shù)據(jù)通過數(shù)據(jù)庫同步保持一致。核心庫數(shù)據(jù)由管理庫數(shù)據(jù)同步而來,利用庫中數(shù)據(jù)由核心庫數(shù)據(jù)同步而來。在同步過程中,首先使用數(shù)據(jù)庫連接方法連接需要進行同步的兩個數(shù)據(jù)庫,然后建立能實現(xiàn)同步的存儲過程,最后在計劃任務(wù)中運行存儲過程完成同步。使用計劃任務(wù)可設(shè)置三庫之間的同步工作在每天業(yè)務(wù)空閑時間段進行,以避免與客戶端爭搶資源。三庫同步流程如圖5所示。
3.1 三庫分離技術(shù)的優(yōu)點
首先,三庫分離技術(shù)實現(xiàn)了電子檔案的長期保存。電子檔案與傳統(tǒng)檔案相比,有著檢索便捷、傳輸快速、高度開放、信息共享等優(yōu)點。然而電子檔案在長期保存方面卻存在著一系列問題,成為電子檔案建設(shè)和發(fā)展的瓶頸。三庫分離技術(shù)將長期保存數(shù)據(jù)存放在核心庫中,只對核心庫進行同步操作,而不進行添加刪除更新等操作,有利于實現(xiàn)電子檔案的長期保存。
其次,三庫分離技術(shù)提高了數(shù)據(jù)庫的效率。在數(shù)據(jù)庫設(shè)計中采用三庫分離技術(shù),可使長期保存數(shù)據(jù)、工作數(shù)據(jù)、利用數(shù)據(jù)不再存放于同一個數(shù)據(jù)庫,三庫中數(shù)據(jù)也不會隨著業(yè)務(wù)數(shù)據(jù)量的累積而急劇增加。在進行三庫分離后,系統(tǒng)管理員對電子檔案數(shù)據(jù)進行添加刪除更新等操作只在管理庫中進行,用戶查閱利用數(shù)字檔案只在利用庫中進行,此舉可以優(yōu)化數(shù)據(jù)庫性能,有效提升數(shù)據(jù)庫使用效率。
最后,三庫分離技術(shù)保證了電子檔案數(shù)據(jù)的安全性。管理庫中包含許多業(yè)務(wù)中間過程的臨時數(shù)據(jù),其有效性需要在審核后才能確認。如果直接在核心庫中進行操作,一旦數(shù)據(jù)庫系統(tǒng)的事務(wù)遭到破壞,數(shù)據(jù)的正確性就得不到保障。而在三庫分離的情況下,進行添加刪除更新等操作時,首先將臨時數(shù)據(jù)進行逐級上報審批,審批通過后保存到管理庫中成為正式數(shù)據(jù),最后對核心庫和利用庫中的數(shù)據(jù)進行同步更新;如果審批未通過,則不需要將數(shù)據(jù)保存到管理庫中。
3.2 三庫分離技術(shù)的應(yīng)用原則
三庫分離技術(shù)在數(shù)據(jù)庫設(shè)計中具有明顯的優(yōu)越性,但不可否認的是此項技術(shù)也增加了系統(tǒng)程序的復(fù)雜性。在數(shù)據(jù)庫實際設(shè)計中,設(shè)計者要根據(jù)檔案信息管理系統(tǒng)業(yè)務(wù)子系統(tǒng)的實際情況,對技術(shù)有選擇地加以應(yīng)用。三庫分離技術(shù)的應(yīng)用可遵循以下原則:
(1)核心庫與管理庫、核心庫與利用庫必須分離,以此保證核心庫的安全,實現(xiàn)電子檔案數(shù)據(jù)的長期保存。
(2)管理庫和利用庫分離與否視業(yè)務(wù)數(shù)據(jù)量大小而決定。在業(yè)務(wù)數(shù)據(jù)量較大的情況下,為提高數(shù)據(jù)庫使用效率,管理庫和利用庫可以分離。在業(yè)務(wù)數(shù)據(jù)量不大的情況下,管理庫和利用庫可以不分離。
三庫分離技術(shù)是在檔案信息管理系統(tǒng)數(shù)據(jù)庫設(shè)計實踐中提出的一種實用的數(shù)字檔案長期保存技術(shù),它提高了電子檔案數(shù)據(jù)的訪問效率,保障了電子檔案數(shù)據(jù)的安全性,對大數(shù)據(jù)時代檔案信息系統(tǒng)的數(shù)據(jù)庫設(shè)計具有一定的實際應(yīng)用價值以及理論研究意義。
[1]謝波.江蘇省數(shù)字檔案館建設(shè)理論與實踐[M].河海大學(xué)出版社,2014.
[2]何歡歡.OAIS參考模型及其在我國的應(yīng)用[J].圖書館雜志,2008(9):56-61.
[3]黃靖鋒.基于SAN的網(wǎng)絡(luò)存儲技術(shù)研究與應(yīng)用[D].電子科技大學(xué),2010.
[4]段榮婷.國際電子文件置標理論與應(yīng)用研究綜述[J].浙江檔案,2011(8):36-39.
[5]謝波.理念與范式:檔案工作新探[M].南京大學(xué)出版社,2011.
[6]石偉偉,譚秀娟.房產(chǎn)信息系統(tǒng)數(shù)據(jù)庫設(shè)計中的三庫分離技術(shù)[J].計算機工程,2006,(5):58-59.
[7]吳彩榮,羅艷,龍波,覃濤.基于OAIS模型的電子政務(wù)檔案長久保存系統(tǒng)研究[A].廣西計算機學(xué)會.廣西計算機學(xué)會2014年學(xué)術(shù)年會論文集[C].廣西:廣西計算機學(xué)會,2014:9.
[8]高旭,趙豪邁.數(shù)字檔案長期保存利用技術(shù)機制[J].檔案學(xué)通訊,2013(6):85-89.
[9]林麗群.數(shù)字檔案信息長期保存的策略研究[J].社會工作與管理,2011(1):78-82.
[10]胡星火.基于OAIS的數(shù)字信息長期保存研究[D].南京航空航天大學(xué),2008.
[11]王艷麗.我國檔案界對OAIS參考模型的研究和應(yīng)用[J].浙江檔案,2009(4):26-27.
[12]孫曉燕.淺析幾種常見的計算機網(wǎng)絡(luò)存儲技術(shù)[J].中小企業(yè)管理與科技旬刊,2011(3):254.
魏紅霞,女,江蘇省檔案館主任科員,主要研究方向為檔案數(shù)字化。
Archives In formation Management System Database Design of the Three Databases Separation Technology
Wei Hongxia
(Jiangsu Archives,Nanjing,Jiangsu,210008)
Three databases separation technology is puts forward in the archive information system database design practice of a practical long-term preservation technology.In the physical database design,database is divided into core database,management database,use database.This paper analyzes the three databases separation technology application background,definition and corresponding design methods,and summarizes its advantages an application of long-term preservation,efficiency and principles of data security.
Three Databases Separation Technology;Archive Information Management System;Long-term Preservation Technology;Core Database;Management Database;Use Database
G270.7