當前,檔案部門在政府信息化建設向云計算、大數(shù)據(jù)、數(shù)據(jù)共享快速發(fā)展這樣的“新常態(tài)”下,面臨著巨大挑戰(zhàn),主要表現(xiàn)在以下幾個方面: 第一,如何能夠高效、快速、敏捷地響應各種業(yè)務系統(tǒng)的規(guī)則變化,完整地收集、歸檔和集成業(yè)務數(shù)據(jù),為檔案部門擴展信息種類和數(shù)據(jù)量、積極參與到智慧電子政務和智慧化城市建設中提供數(shù)據(jù)保障。第二,各個機關單位的信息系統(tǒng)面臨數(shù)據(jù)膨脹的壓力,如果能夠切實有效地幫助他們解決系統(tǒng)的數(shù)據(jù)壓力,將數(shù)據(jù)歸檔轉化為一種真正的信息化服務。第三,如何突破現(xiàn)有的歸檔模式,真正實現(xiàn)數(shù)據(jù)庫歸檔,為各類業(yè)務系統(tǒng)提供業(yè)務數(shù)據(jù)的長期保存、管理和訪問等功能,以支持業(yè)務合規(guī)、信息統(tǒng)計和數(shù)據(jù)挖掘等信息利用的需要。
眼下,全省檔案系統(tǒng)在“最多跑一次”工作的引領下,根據(jù)省檔案局的工作部署和要求,正緊鑼密鼓地開展“最多跑一次”事項電子數(shù)據(jù)歸檔工作[1]。作為此項工作的試點單位之一,杭州市檔案局以理念創(chuàng)新為推動、業(yè)務優(yōu)化為保障、技術路徑為手段,針對上述問題大膽嘗試,探索出了一條行之有效的“最多跑一次”事項數(shù)據(jù)歸檔實踐路徑。
杭州市電子業(yè)務數(shù)據(jù)歸檔系統(tǒng)(Electronic Data Archive System,EDAS)是杭州市檔案局開發(fā)的針對電子業(yè)務數(shù)據(jù)歸檔的全新系統(tǒng)。它不但能夠有效地實現(xiàn)對政務服務網(wǎng)行政事項電子數(shù)據(jù)進行歸檔,而且能夠對其他各類重要的業(yè)務系統(tǒng)進行數(shù)據(jù)歸檔,并且能夠保持業(yè)務數(shù)據(jù)、辦理過程信息和結果的完整性。EDAS、電子文件管理系統(tǒng)ERMS、數(shù)字檔案館系統(tǒng)一起構建起了完整的信息生命周期管理環(huán)境。
基于對前述問題的思考,杭州市檔案局對EDAS的建設提出了以下要求:一是自動化歸檔。采用全自動化歸檔以降低人工干預,確保系統(tǒng)具有足夠高的歸檔效率。二是不依賴第三方的數(shù)據(jù)攝入。通過配置和工具即可完成歸檔數(shù)據(jù)的攝入,無需第三方的軟件定制開發(fā)。三是高度靈活的數(shù)據(jù)管理功能。支持各種類型的數(shù)據(jù)格式和信息/記錄結構,并最大限度地保持業(yè)務信息的有機關聯(lián)。四是高性能。能夠對TB甚至是PB級規(guī)模的數(shù)據(jù)具有很高的信息檢索和訪問并發(fā)能力。
2.1 業(yè)務規(guī)則前置。數(shù)據(jù)自動化歸檔的前提條件是需要制定規(guī)則,只有通過既定的規(guī)則,EDAS才能夠實現(xiàn)數(shù)據(jù)攝入、封裝、生成檔號、賦予保管期限、確定系統(tǒng)保留時間、自動分類、入庫等一系列業(yè)務操作。因此,制定詳細的歸檔管理計劃成為項目實施之前的業(yè)務重點。
相對于傳統(tǒng)的保管期限表,市檔案局要求各個業(yè)務單位必須根據(jù)自己的業(yè)務職能重新梳理業(yè)務分類,并對各類業(yè)務的業(yè)務編碼、歸檔范圍、文件保管期限、處置動作、開放等級、密級劃定做詳細的要求,使得傳統(tǒng)的保管期限表升級到了更為細致、科學的綜合性歸檔管理計劃,并嵌入系統(tǒng)中形成業(yè)務規(guī)則。
2.2 統(tǒng)一數(shù)據(jù)模型(Unified Data Model,UDM)。從業(yè)務角度看,不同的業(yè)務過程和業(yè)務信息千差萬別,而這些差異化極大的信息又是在各種技術環(huán)境中產生、流轉和交換的。如果針對每一個業(yè)務單獨構建一個歸檔數(shù)據(jù)標準規(guī)范,無疑在后期的標準管理和維護上都不可行。因此EDAS提供了一種統(tǒng)一的歸檔數(shù)據(jù)模型(Unified Data Model,UDM),能夠幫助實現(xiàn)以下目標:一是具有足夠的靈活性以應對不同業(yè)務系統(tǒng)的數(shù)據(jù);二是足夠抽象和通用,幫助用戶更好地訪問和理解數(shù)據(jù);三是建立全方位的數(shù)據(jù)視角,消滅數(shù)據(jù)差異性,保證歸檔數(shù)據(jù)的一致性。
UDM在邏輯模型設計上參考OAIS的數(shù)據(jù)包模型[2],在邏輯上由三個部分構成:一是數(shù)據(jù)包描述信息和封裝信息,包含了信息封裝報的各類描述信息;二是保存描述信息PDI,指與歸檔內容相關的描述信息,比如歷史參考信息、歸檔信息等;三是業(yè)務信息,即業(yè)務過程中產生的文件材料和業(yè)務的描述信息、過程信息等。
在數(shù)據(jù)抓取的過程中,可以將這些信息按照相應的元數(shù)據(jù)規(guī)范組織成信息包描述文件、保存信息描述文件和文檔,通過封裝技術將其組織在一起。
2.3 混合式的數(shù)據(jù)庫架構。在數(shù)據(jù)庫的構建形式上,EDAS采用RDBMS和NoSQL混合式的數(shù)據(jù)庫架構。這樣做,一是為了實現(xiàn)數(shù)據(jù)的管用分離,更重要的是為了更好地管理半結構化數(shù)據(jù)(XML、JSON)。這種架構當中RDBMS因為只承擔最為基礎的信息管理(如SIP、AIP信息包的基本描述信息),所以應盡可能簡單。管理和使用半結構化數(shù)據(jù)的任務則由NoSQL數(shù)據(jù)庫承擔。在實際的業(yè)務場景中(比如行政審批業(yè)務),其數(shù)據(jù)的結構會根據(jù)業(yè)務的調整不斷發(fā)生變化(業(yè)務環(huán)節(jié)、信息的變更)。由于NoSQL數(shù)據(jù)庫的反范式化操作無需事先定義實體關系、字段,添加新的屬性或組合對象操作都非常靈活,也就意味著應對業(yè)務變化的能力相較于RDBMS更強。因此采用XML或者JSON來構建數(shù)據(jù)物理模型是非常理想的選擇。
EDAS通過前置機實現(xiàn)與政務服務網(wǎng)的數(shù)據(jù)庫同步,依靠ETL工具對同步數(shù)據(jù)庫進行數(shù)據(jù)抽取、轉換,并將每一條業(yè)務數(shù)據(jù)庫記錄以及文檔附件封裝成一個歸檔信息單元(Archival Information Unit,AIU)。除了使用ETL工具之外,通過靈活的數(shù)據(jù)模板配置,EDAS也可以接收第三方已經封裝的歸檔數(shù)據(jù)包,因此在數(shù)據(jù)兼容性上完全符合相關的要求和標準。
多個AIU形成一個歸檔批次進入SIP封裝隊列進行信息提交包的封裝。系統(tǒng)對SIP封裝包進行數(shù)據(jù)校驗并形成MD5碼,以確保封裝內容不被改動。通過校驗之后,SIP封裝包進入AIP封裝隊列進行歸檔信息包封裝并最終進入數(shù)據(jù)倉庫進行歸檔保存。在SIP封裝到AIP封裝的階段,數(shù)據(jù)包的真實性保障可以通過MD5碼、數(shù)字簽名或者時間戳予以保證。
4.1 現(xiàn)行管理制度的遵循。由于EDAS直接與業(yè)務系統(tǒng)對接,傳統(tǒng)從業(yè)務部門到檔案室再到檔案館的三段式管理由于繞開了檔案室變成了兩段,因此不可避免地出現(xiàn)了與現(xiàn)有檔案管理模式不一致的地方,尤其是歸檔數(shù)據(jù)的歸屬權和管理權問題。從信息管理的角度來說,減少管理環(huán)節(jié)能夠提升管理效率。但是考慮到與現(xiàn)行管理制度的兼容,杭州市檔案局通過在電子文件管理系統(tǒng)ERMS中嵌入各立檔單位的行政事項歸檔規(guī)則,如分類、編碼、保管期限、系統(tǒng)保留時間、處置動作、開放權限等,同時將EDAS收集的各單位歸檔數(shù)據(jù)自動導入到ERMS對應單位的數(shù)據(jù)歸檔區(qū),以此規(guī)避與現(xiàn)行管理制度上的矛盾。
4.2 多系統(tǒng)多數(shù)據(jù)源的集成。EDAS的建設初衷,就是要構建起一個能夠集成多個數(shù)據(jù)源的歸檔系統(tǒng),將歸檔轉變?yōu)橐环N信息治理的服務,通過技術推動來實現(xiàn)檔案管理部門服務能力的提升和數(shù)據(jù)管理能力的進步。要達成這樣的目標,集成平臺的多系統(tǒng)多數(shù)據(jù)源接入就成為關鍵。只有通過靈活地數(shù)據(jù)定義和前端數(shù)據(jù)的接入方式,多系統(tǒng)集成才能成為可能。傳統(tǒng)的依托于第三方的定制開發(fā)或者數(shù)據(jù)導出,雖然在技術上可行,但是存在以下幾個問題:一是業(yè)務系統(tǒng)已經失去原開發(fā)商的技術支持;二是面臨著高昂的開發(fā)定制費用;三是多方工作協(xié)調的難度;四是數(shù)據(jù)獲得不夠齊全完整。
如果存在上述任何一個問題,顯然無法滿足杭州市檔案局的建設目標和要求,因此杭州市檔案局采用了ETL數(shù)據(jù)抽取和第三方定制開發(fā)相結合的方式進行多數(shù)據(jù)源集成。經過前期的數(shù)據(jù)測試,EDAS完成了30家機關單位共計12.4萬筆的測試數(shù)據(jù)歸檔,證明了建設思路的可行。目前,除了正在與行政服務網(wǎng)對接之外,正在與衛(wèi)計委的醫(yī)學出生證明系統(tǒng)、林水局的自建業(yè)務審批系統(tǒng)進行對接。
4.3 數(shù)據(jù)模板。數(shù)據(jù)模板是EDAS的核心功能,是統(tǒng)一數(shù)據(jù)模型UMD在系統(tǒng)中的具體實現(xiàn),也是多系統(tǒng)集成的最重要、最基礎的保障。在數(shù)據(jù)模板的定義中,一個業(yè)務記錄(Record)由多個區(qū)塊(Block)來構成[3]。Block是用于對數(shù)據(jù)對象進行組織以達到信息充分表述的信息容器,它將有關聯(lián)關系或者有特殊意義的一組信息以Block這種方式組織起來。每個Block可以代表著一組信息,比如歸檔信息、業(yè)務信息、技術環(huán)境信息等。節(jié)點(Node)是一種特殊的Block,用來描述業(yè)務環(huán)節(jié)。如果存在著業(yè)務流程并且需要對每個環(huán)節(jié)進行描述時,可以將每個環(huán)節(jié)形成一個Node。如果不存在業(yè)務流程(比如直接登記)則無需定義Node,只需將信息直接存儲于Block當中即可。
在Block和node中,除了系統(tǒng)默認定義的元數(shù)據(jù),可以根據(jù)業(yè)務信息自定義不同的元數(shù)據(jù)。正是這種數(shù)據(jù)模板和單獨對Block、Node的元數(shù)據(jù)定義,使得EDAS能夠真正應對各種類型的業(yè)務系統(tǒng)數(shù)據(jù)。
目前,考慮到未來應對多數(shù)據(jù)源的歸檔效率和數(shù)據(jù)的利用分析,杭州市檔案局正在對EDAS做進一步的升級和改進,重點是改進底層的數(shù)據(jù)支撐框架和分析計算框架,以期EDAS能夠滿足未來對大數(shù)據(jù)的數(shù)據(jù)關聯(lián)、對比和組裝等諸多數(shù)據(jù)利用分析的需求,努力將其打造為一個新型的歸檔數(shù)據(jù)集成平臺。