◎劉文婧 韓建業(yè)
隨著時代的發(fā)展,數(shù)據(jù)的采集、處理、存儲和應(yīng)用都發(fā)生著深刻而巨大的變革,給政府統(tǒng)計帶來了極大挑戰(zhàn)。國家統(tǒng)計局《“十三五”時期統(tǒng)計改革發(fā)展規(guī)劃綱要》就打造適用可靠的數(shù)據(jù)存儲管理平臺作出規(guī)劃,在繼續(xù)建設(shè)和完善國家統(tǒng)計數(shù)據(jù)資源體系的基礎(chǔ)上,加快建設(shè)統(tǒng)計數(shù)據(jù)歸檔管理系統(tǒng)。國家統(tǒng)計局《關(guān)于進(jìn)一步推進(jìn)新形勢下國家調(diào)查隊(duì)改革和創(chuàng)新發(fā)展的意見》進(jìn)一步強(qiáng)調(diào),要加強(qiáng)國家調(diào)查隊(duì)數(shù)據(jù)資源管理和共享能力,建立面向基礎(chǔ)調(diào)查數(shù)據(jù)管理的工作制度及電子文件柜系統(tǒng),推進(jìn)各項(xiàng)調(diào)查數(shù)據(jù)資源統(tǒng)一存儲與共享。
湖北調(diào)查隊(duì)系統(tǒng)按照“統(tǒng)籌考慮、統(tǒng)一規(guī)劃、分期建設(shè)、分步實(shí)施”的構(gòu)想,以國家統(tǒng)計數(shù)據(jù)庫系統(tǒng)為基礎(chǔ),按照體系科學(xué)、功能健全、流程合理的系統(tǒng)建設(shè)規(guī)劃和原則,開展電子數(shù)據(jù)歸檔管理系統(tǒng)建設(shè)。
系統(tǒng)包括綜合數(shù)據(jù)文件柜系統(tǒng)、元數(shù)據(jù)庫子系統(tǒng)及系統(tǒng)管理子系統(tǒng)三個主要部分。綜合數(shù)據(jù)文件柜系統(tǒng)是用于連接統(tǒng)計數(shù)據(jù)處理系統(tǒng)和統(tǒng)計數(shù)據(jù)庫體系的數(shù)據(jù)管理和整理的子系統(tǒng),可以規(guī)劃統(tǒng)計數(shù)據(jù)結(jié)構(gòu)及安全域劃分,并用于基礎(chǔ)數(shù)據(jù)、成品數(shù)據(jù)的歸檔管理,提供接收、下載、導(dǎo)出、整理維護(hù)以及加載更新等功能。元數(shù)據(jù)庫子系統(tǒng)是系統(tǒng)的重要組成部分,包含統(tǒng)計報表、調(diào)查制度等統(tǒng)計元數(shù)據(jù)的維護(hù)管理。元數(shù)據(jù)管理是其他子系統(tǒng)的工作基礎(chǔ),其他子系統(tǒng)都依賴于該系統(tǒng)。系統(tǒng)管理子系統(tǒng)主要是實(shí)現(xiàn)用戶權(quán)限和相關(guān)的運(yùn)維功能,包括用戶管理、機(jī)構(gòu)管理、權(quán)限管理、密碼修改及日志管理等。
按照文件的方式(非結(jié)構(gòu)化)進(jìn)行歸檔管理、集中存儲,實(shí)現(xiàn)分類別、分時段歷史數(shù)據(jù)的可查詢、可追溯、可復(fù)原和可使用,從根本上解決統(tǒng)計調(diào)查數(shù)據(jù)的存儲、共享、開發(fā)等問題。一是建立統(tǒng)計數(shù)據(jù)共享機(jī)制。對文件資料進(jìn)行統(tǒng)一共享設(shè)置,各業(yè)務(wù)部門人員通過不同的數(shù)據(jù)權(quán)限可在線預(yù)覽和下載查看其他部門共享的數(shù)據(jù),達(dá)到系統(tǒng)內(nèi)文件共享的目的。二是建立任務(wù)跟蹤機(jī)制。形成定期的歸檔制度,通過查詢文件柜系統(tǒng)中的歸檔情況,可跟蹤各業(yè)務(wù)部門上傳文件的具體情況,包括待上傳、已上傳、未上傳和遲上傳,從而解決數(shù)據(jù)遲報、缺報的問題,實(shí)現(xiàn)精細(xì)化管理。三是建立元數(shù)據(jù)管理機(jī)制?;贗SO-11179、CSpro標(biāo)準(zhǔn)建立的元數(shù)據(jù)以及指標(biāo)化數(shù)據(jù)管理體系,將數(shù)據(jù)資料進(jìn)行電子化、標(biāo)準(zhǔn)化處理,實(shí)現(xiàn)數(shù)據(jù)查詢的精準(zhǔn)化。
總體架構(gòu)包括:IT基礎(chǔ)設(shè)施層、數(shù)據(jù)層、應(yīng)用支撐層、應(yīng)用層、界面層、支撐體系、運(yùn)維體系、標(biāo)準(zhǔn)規(guī)范體系以及安全保障體系(見圖1)。其中數(shù)據(jù)層的數(shù)據(jù)資源系統(tǒng)統(tǒng)一保存總隊(duì)各業(yè)務(wù)系統(tǒng)數(shù)據(jù),包括各種統(tǒng)計業(yè)務(wù)所需要的數(shù)據(jù)庫及其所保存的數(shù)據(jù)資源及管理配置。功能架構(gòu)也就是文件柜系統(tǒng)由首頁、文件柜、元數(shù)據(jù)管理和系統(tǒng)管理四個子系統(tǒng)組成(見圖2)。部署架構(gòu)則為運(yùn)行湖北調(diào)查系統(tǒng)內(nèi)網(wǎng),用戶通過內(nèi)網(wǎng)訪問文件柜系統(tǒng)。應(yīng)用服務(wù)器中安裝操作系統(tǒng)和應(yīng)用中間件,文件柜系統(tǒng)的應(yīng)用程序部署在應(yīng)用服務(wù)器中;數(shù)據(jù)庫服務(wù)器中安裝操作系統(tǒng)和數(shù)據(jù)庫中間件,文件柜系統(tǒng)的數(shù)據(jù)庫部署在數(shù)據(jù)庫服務(wù)器中。應(yīng)用服務(wù)器和數(shù)據(jù)庫服務(wù)器通過光纖交換機(jī)連接磁盤陣列和磁帶庫,文件柜系統(tǒng)的物理文件存貯在磁盤陣列中,備份文件也存儲在磁盤陣列中。
一是數(shù)據(jù)標(biāo)準(zhǔn)化內(nèi)容。除了指標(biāo)、數(shù)據(jù)元、數(shù)據(jù)庫結(jié)構(gòu)等數(shù)據(jù)本身的標(biāo)準(zhǔn)化外,還有交換數(shù)據(jù)的標(biāo)準(zhǔn)、元數(shù)據(jù)標(biāo)準(zhǔn)等內(nèi)容。二是數(shù)據(jù)采集處理模式。采用分散采集、集中處理、集中交換、集中管理、全局應(yīng)用的建設(shè)模式,把來自各個業(yè)務(wù)處室、不同來源、不同存儲方式、不同格式和不同質(zhì)量的業(yè)務(wù)源數(shù)據(jù),根據(jù)數(shù)據(jù)特點(diǎn)及時采集到統(tǒng)計數(shù)據(jù)庫后,對數(shù)據(jù)文件進(jìn)行解析,并以指標(biāo)化的形式存儲到工作庫數(shù)據(jù)庫中。對外交換數(shù)據(jù)統(tǒng)一由統(tǒng)計數(shù)據(jù)庫進(jìn)行存儲管理,由統(tǒng)計數(shù)據(jù)庫交換服務(wù)系統(tǒng)統(tǒng)一進(jìn)行交換策略管理和交換方式管理,使數(shù)據(jù)交換服務(wù)規(guī)范化標(biāo)準(zhǔn)化。三是數(shù)據(jù)模型設(shè)計可擴(kuò)展性。隨著統(tǒng)計調(diào)查事業(yè)不斷發(fā)展和數(shù)據(jù)庫系統(tǒng)應(yīng)用不斷深入,必然要產(chǎn)生新的指標(biāo)和新的數(shù)據(jù)。系統(tǒng)數(shù)據(jù)模型的設(shè)計力保適應(yīng)新形勢新變化,盡可能少修改甚至不修改各類數(shù)據(jù)表結(jié)構(gòu)。四是數(shù)據(jù)資源支持類型。將數(shù)據(jù)資源分為業(yè)務(wù)數(shù)據(jù)、元數(shù)據(jù)兩類。業(yè)務(wù)數(shù)據(jù)從功能上分為定報數(shù)據(jù)、普查數(shù)據(jù)和一次性調(diào)查數(shù)據(jù)。從數(shù)據(jù)內(nèi)容形式上可以分為關(guān)系型的基礎(chǔ)業(yè)務(wù)數(shù)據(jù)、統(tǒng)計指標(biāo)數(shù)據(jù)、非結(jié)構(gòu)化的文檔多媒體數(shù)據(jù)等。元數(shù)據(jù)可按用途分為技術(shù)元數(shù)據(jù)、業(yè)務(wù)元數(shù)據(jù)和操作元數(shù)據(jù)。
圖1 電子數(shù)據(jù)歸檔管理系統(tǒng)總體框架
圖2 電子數(shù)據(jù)歸檔管理系統(tǒng)功能架構(gòu)
在國家統(tǒng)計局?jǐn)?shù)據(jù)管理中心的關(guān)心支持下,湖北調(diào)查總隊(duì)按照先行試點(diǎn)、從易到難、逐步推進(jìn)的工作思路,全力推進(jìn)該系統(tǒng)建設(shè)試點(diǎn)工作。于2017年2月完成了系統(tǒng)環(huán)境搭建,積極開展消費(fèi)價格調(diào)查處相關(guān)價格調(diào)查資料加載試點(diǎn)工作,同時整理相關(guān)加載資料目錄清單和用戶操作手冊,3月對歷史數(shù)據(jù)歸檔工作進(jìn)行部署,對系統(tǒng)整體功能、操作與管理流程進(jìn)行了培訓(xùn),正式啟動了系統(tǒng)全面試點(diǎn)工作。4月再次組織各專業(yè)處室對需要加載的調(diào)查專業(yè)及報表進(jìn)行再梳理確認(rèn),并按照規(guī)范的目錄要求對收集的資料進(jìn)行了編輯和整理,包括2006年以來除涉密電子數(shù)據(jù)資料以外的各類進(jìn)度調(diào)查、各類普查、專項(xiàng)(委托)調(diào)查等原始和匯總數(shù)據(jù)及相關(guān)制度和說明、各種以電子方式存儲的統(tǒng)計產(chǎn)品(出版物、文件等),含電子版文檔、電子版統(tǒng)計調(diào)查數(shù)據(jù)和其他類需要?dú)w檔管理的磁介質(zhì)、媒體和音像類數(shù)據(jù)等。5月再次集中梳理試點(diǎn)中發(fā)現(xiàn)的新問題,對系統(tǒng)功能進(jìn)一步完善,按照可讀取、可識別(數(shù)據(jù)與調(diào)查制度相匹配)、可使用(可在目前計算機(jī)處理環(huán)境下使用)原則,逐個處室按目錄完成數(shù)據(jù)加載驗(yàn)收。目前,近七年包括住戶收支調(diào)查、住戶專項(xiàng)調(diào)查、消費(fèi)價格調(diào)查、生產(chǎn)資料價格調(diào)查、農(nóng)業(yè)調(diào)查以及畜牧業(yè)調(diào)查在內(nèi)的9個專業(yè)、118個制度、140個標(biāo)準(zhǔn)表,2000多個數(shù)據(jù)文件已全部完成數(shù)據(jù)加載,各項(xiàng)后續(xù)工作正在有序推進(jìn)。同時,還出臺了《湖北調(diào)查總隊(duì)統(tǒng)計調(diào)查數(shù)據(jù)資料存儲管理辦法》,為歷史數(shù)據(jù)的保管、開發(fā)和利用提供了制度保障。
電子數(shù)據(jù)歸檔管理系統(tǒng)建設(shè)是一項(xiàng)全新工作,沒有太多經(jīng)驗(yàn)可供借鑒,且涉及較長歷史跨度和多個處室,使得對數(shù)據(jù)進(jìn)行加工、整理、錄入和審校工作量大,從湖北調(diào)查隊(duì)系統(tǒng)的實(shí)踐探索中可以看出,由于人員力量等客觀條件限制,實(shí)現(xiàn)整體數(shù)據(jù)加載一步到位,客觀上存在困難。從理論上說歸檔的歷史數(shù)據(jù)越多越系統(tǒng),其發(fā)揮的作用就越大,但在實(shí)際操作中,有的由于年代久遠(yuǎn),技術(shù)原因?qū)е聰?shù)據(jù)無法解讀;有的因人員變動或保管不善導(dǎo)致數(shù)據(jù)丟失,損失無法彌補(bǔ);有的則是加工整理難度大。因此,搶救歷史數(shù)據(jù)迫在眉睫。
從目前來看,系統(tǒng)建設(shè)前期開發(fā)主要依靠政府購買服務(wù),而后期管理維護(hù)和開發(fā)利用將是一個動態(tài)的、長期的工作。從長遠(yuǎn)來看,電子數(shù)據(jù)歸檔管理系統(tǒng)將實(shí)現(xiàn)規(guī)范保存、集中管理、開放共享的建設(shè)目標(biāo),有利于政府統(tǒng)計調(diào)查數(shù)據(jù)實(shí)現(xiàn)安全存儲、高效應(yīng)用。
■ 看花紫陌 原永紅/攝
電子數(shù)據(jù)歸檔管理系統(tǒng)是一個統(tǒng)一資料管理平臺,其優(yōu)點(diǎn)是將數(shù)據(jù)從各應(yīng)用系統(tǒng)平臺中分離出來,擺脫數(shù)據(jù)對處理軟件的依賴,減輕數(shù)據(jù)處理軟件的壓力,使數(shù)據(jù)徹底獨(dú)立,最大限度保留調(diào)查信息和調(diào)查表信息,提高數(shù)據(jù)的再利用,為數(shù)據(jù)交換平臺建設(shè)打下良好基礎(chǔ)。
基于集中統(tǒng)一的數(shù)據(jù)存儲管理,將數(shù)據(jù)從各匯總上報系統(tǒng)中分離出來,擺脫數(shù)據(jù)對處理軟件的束縛,徹底釋放數(shù)據(jù)的獨(dú)立性、共享性,拓展數(shù)據(jù)的規(guī)模和應(yīng)用。同時通過權(quán)限管理,各業(yè)務(wù)部門用戶可相互開通共享數(shù)據(jù)的互訪權(quán)限,在系統(tǒng)中直接進(jìn)行數(shù)據(jù)的訪問利用,實(shí)現(xiàn)了數(shù)據(jù)資源的高效流通。
系統(tǒng)支持集群+分布式模式部署,規(guī)避單點(diǎn)故障,易于橫向擴(kuò)展;前后臺分離,并支持傳輸3DES等加密方式加密后的交易數(shù)據(jù);文件分布式存儲,文件自動在多個數(shù)據(jù)存儲區(qū)域備份;文件加密存儲,物理文件只能通過文件柜系統(tǒng)等經(jīng)過授權(quán)的方式獲??;非結(jié)構(gòu)化存儲各報告期數(shù)據(jù),適應(yīng)數(shù)據(jù)結(jié)構(gòu)隨時間而變化。