国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

平谷區(qū)檔案館檔案數(shù)據(jù)整合與存儲策略分析

2016-05-30 06:29見雪冬
北京檔案 2016年4期
關(guān)鍵詞:平谷區(qū)案卷檔案館

見雪冬

摘要:本文以平谷區(qū)檔案館為例,對檔案數(shù)據(jù)整合與存儲提出策略分析,即通過從分散到集中、從異構(gòu)到同構(gòu)、從綜合到專題、從獨立到共享實現(xiàn)檔案數(shù)據(jù)的整合;在檔案數(shù)據(jù)的存儲上,實現(xiàn)分布式集中存儲策略。

關(guān)鍵詞:檔案數(shù)字化數(shù)據(jù)整合數(shù)據(jù)存儲

檔案數(shù)據(jù)整合是指把原來通過各種渠道收集到的零散的檔案數(shù)據(jù),通過技術(shù)手段和方法,進(jìn)行數(shù)據(jù)結(jié)構(gòu)重構(gòu)或數(shù)據(jù)結(jié)構(gòu)匹配,以形成相對規(guī)范的檔案數(shù)據(jù)。檔案數(shù)據(jù)存儲則是把檔案數(shù)據(jù)以某種格式記錄在計算機(jī)內(nèi)部或外部存儲介質(zhì)上。檔案數(shù)據(jù)的整合與存儲主要是為了實現(xiàn)檔案數(shù)據(jù)結(jié)構(gòu)的合理配置及優(yōu)化,通過對檔案數(shù)據(jù)的整合,形成體系完整、內(nèi)容豐富的檔案數(shù)據(jù)。目前,北京市平谷區(qū)檔案館保存著大量的檔案數(shù)據(jù),而且呈TB級增長,特別是檔案數(shù)字化后,數(shù)據(jù)的整合和存儲變得更為復(fù)雜?;诖?,筆者以平谷區(qū)檔案館的在相關(guān)方面的具體做法為例,對檔案館的數(shù)據(jù)整合與存儲提出建議,以供探討。

一、平谷區(qū)檔案數(shù)據(jù)來源及其分類

(一)案卷級、文件級電子目錄

1.從各立檔單位接收的案卷級、文件級電子目錄。平谷區(qū)檔案館以每五年為一輪從各立檔單位接收紙質(zhì)檔案,且每年都要接收案卷級電子目錄和文件級電子目錄。比如1996~2005年期間,共接收電子目錄26萬條。

2.從各村接收的案卷級、文件級電子目錄。平谷區(qū)檔案館在新農(nóng)村檔案示范區(qū)的建設(shè)中,從各村收集了部分案卷級、文件級電子目錄。內(nèi)容主要涉及10類村級重點檔案,包括兩委換屆、林改檔案、產(chǎn)改檔案、養(yǎng)老保險、合作醫(yī)療、網(wǎng)格化管理、村集體經(jīng)濟(jì)管理、戶口底冊、計劃生育、承包合同。此外,村務(wù)管理檔案、農(nóng)村科技檔案作為涉農(nóng)檔案的重要來源,其形成的檔案數(shù)據(jù)量也很大。

(二)從各立檔單位接收的電子文件

自2005年至今,平谷區(qū)檔案館共接收電子文件11.6萬件,數(shù)據(jù)總量73.5GB,包括文本文件、數(shù)據(jù)文件、圖形文件、圖像文件、影像文件、聲音文件。

(三)各類檔案的電子目錄和數(shù)字化形成的電子版掃描件

平谷區(qū)檔案館館藏目錄主要分成14類基礎(chǔ)數(shù)據(jù)庫,包括文書檔案、婚姻檔案、房產(chǎn)檔案、老土地照檔案、招工檔案、知青檔案、兵役檔案、獨生子女檔案、教學(xué)檔案、二胎檔案、現(xiàn)行文件檔案、開放檔案目錄、老報刊目錄、聲像檔案目錄。截至2015年,共整理案卷級目錄13.7萬條,文件級目錄153萬條。數(shù)據(jù)總量1.5GB。據(jù)2015年5月傳統(tǒng)載體檔案數(shù)字副本的統(tǒng)計數(shù)據(jù)顯示,歷年來,平谷區(qū)檔案館共數(shù)字化紙質(zhì)檔案12.38萬卷,700萬頁,數(shù)據(jù)總量8TB。數(shù)字化錄音、錄像131盤,數(shù)據(jù)總量1.5TB。

(四)通過檔案業(yè)務(wù)系統(tǒng)采集的數(shù)據(jù)

平谷區(qū)檔案館業(yè)務(wù)系統(tǒng)主要包括4個,一是平谷區(qū)檔案信息網(wǎng),二是平谷區(qū)數(shù)字檔案平臺,三是平谷區(qū)村級檔案信息管理發(fā)布平臺,四是平谷區(qū)檔案工作管理系統(tǒng)。這四個系統(tǒng)每年產(chǎn)生的數(shù)據(jù)總量在40GB左右。以2011年平谷區(qū)村級檔案信息管理發(fā)布平臺為例,全年度,平谷區(qū)村級檔案信息管理發(fā)布平臺產(chǎn)生數(shù)據(jù)總量1.2GB。其中,從鎮(zhèn)羅營鎮(zhèn)上鎮(zhèn)村采集案卷級電子目錄283條,文件級電子目錄2030條;從大華山鎮(zhèn)大華山村采集案卷級電子目錄481條,文件級電子目錄1809條。

二、平谷區(qū)檔案數(shù)據(jù)整合的策略分析

平谷區(qū)檔案數(shù)據(jù)來源于不同的基層單位(全宗),不同的數(shù)據(jù)庫,不同的系統(tǒng),無論數(shù)據(jù)結(jié)構(gòu)還是數(shù)據(jù)內(nèi)容上都會存在差異。結(jié)構(gòu)化數(shù)據(jù)(行數(shù)據(jù),存儲在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來邏輯表達(dá)實現(xiàn)的數(shù)據(jù))也好,非結(jié)構(gòu)化數(shù)據(jù)(視頻、音頻、圖片、圖像、文檔、文本等)也好,雖然已經(jīng)按照全宗進(jìn)行分類,但依然零亂、不便管理。通過整合、存儲,數(shù)據(jù)清晰、結(jié)構(gòu)統(tǒng)一,更便于檔案數(shù)據(jù)的收管用。

(一)從分散到集中,將分散于鄉(xiāng)鎮(zhèn)、行政村的檔案基礎(chǔ)數(shù)據(jù)集中到檔案館保存

平谷區(qū)檔案館要求各立檔單位每年6月到10月,將上一年度的電子目錄和電子文件,通過平谷區(qū)數(shù)字檔案平臺和平谷區(qū)村級檔案信息管理發(fā)布平臺來實現(xiàn)數(shù)據(jù)的集中上交。

1.利用平谷區(qū)數(shù)字檔案平臺實現(xiàn)對鄉(xiāng)鎮(zhèn)檔案基礎(chǔ)數(shù)據(jù)的集中。該平臺鏈接在平谷區(qū)政務(wù)內(nèi)網(wǎng)中,可以覆蓋到平谷區(qū)所有鄉(xiāng)鎮(zhèn)、委辦局,這樣每個單位的檔案室都可以連接政務(wù)內(nèi)網(wǎng),因此實現(xiàn)了檔案數(shù)據(jù)在鄉(xiāng)鎮(zhèn)、委辦局這一層級的數(shù)據(jù)集中。自2008年至2014年底,平谷區(qū)檔案館利用該平臺共接收檔案目錄3萬卷、24萬條,電子文件1.2萬件,數(shù)據(jù)總量達(dá)20GB??梢哉f,通過這種方式,基本上實現(xiàn)了網(wǎng)絡(luò)環(huán)境下文件歸檔、移交館室的一體化;檔案管理館室的一體化;檔案利用館室的一體化;檔案工作監(jiān)督指導(dǎo)館室一體化的工作模式,為各立檔單位電子目錄和電子文件的實時歸檔移交提供了支持平臺。

2.利用平谷區(qū)村級檔案信息管理發(fā)布平臺,實現(xiàn)對全區(qū)273個行政村的案卷級和文件級目錄的收集工作。2010年,平谷區(qū)村級檔案信息管理發(fā)布平臺在熊兒寨、黃松峪、鎮(zhèn)羅營、馬坊四鄉(xiāng)鎮(zhèn)58個村推廣使用。2011年,又在大華山、大興莊、南獨樂河、山東莊四個鄉(xiāng)鎮(zhèn),63個村進(jìn)行推廣。2012年,完成系統(tǒng)在全區(qū)的推廣工作。目前,273個行政村都可以使用該系統(tǒng)實現(xiàn)村級檔案目錄的錄入工作,基本上實現(xiàn)了村一級檔案數(shù)據(jù)的收集工作。

(二)從異構(gòu)到同構(gòu),把不同軟件、不同系統(tǒng)生成的檔案數(shù)據(jù)結(jié)構(gòu)調(diào)整統(tǒng)一

就安裝的檔案軟件來說,2008年以前,全區(qū)各立檔單位自行安裝各類軟件。在使用系統(tǒng)上,部分單位使用Word、Excel、Access等辦公軟件錄入電子目錄。這些不同的軟件和系統(tǒng)所產(chǎn)生的數(shù)據(jù)結(jié)構(gòu)千差萬別。平谷區(qū)檔案館針對這種情況,從數(shù)據(jù)庫字段項、字段格式等方面規(guī)范了電子目錄數(shù)據(jù)庫結(jié)構(gòu)。通過數(shù)據(jù)導(dǎo)出、合并數(shù)據(jù)庫等方式,將數(shù)據(jù)統(tǒng)一保存到Sql server數(shù)據(jù)庫中。目前,相關(guān)全宗數(shù)據(jù)涉及80個、目錄150萬余條,這些數(shù)據(jù)形成后均可在在查檔大廳直接利用。

(三)從綜合到專題,在收集到的文書檔案數(shù)據(jù)庫中抽取同類數(shù)據(jù),構(gòu)成專題數(shù)據(jù)庫

平谷區(qū)檔案館根據(jù)實際利用情況,從150萬余條文書綜合庫中抽取具有同類屬性(內(nèi)容、格式、結(jié)構(gòu)基本一致)的數(shù)據(jù),逐步形成婚姻檔案、房產(chǎn)檔案、老土地照檔案、招工檔案、知青檔案、兵役檔案、獨生子女檔案、教學(xué)檔案、二胎檔案等14個專題目錄數(shù)據(jù)庫。筆者認(rèn)為,未來結(jié)合編研的需要,還會形成以重大活動、專題事項為主線的數(shù)據(jù)庫。比如:四清檔案、文革檔案、階級成分檔案、紀(jì)檢案件檔案、林權(quán)證檔案等。

(四)從獨立到共享,采取復(fù)制、提前進(jìn)館等方式,實現(xiàn)各個機(jī)構(gòu)獨立數(shù)據(jù)的共享

目前,每個立檔單位都會形成具有行業(yè)特色的數(shù)據(jù)庫,這些數(shù)據(jù)基本上相對獨立。針對這種情況,平谷區(qū)檔案館采用基層檔案數(shù)字化的方式,通過復(fù)制、提前進(jìn)館等方式,將這部分?jǐn)?shù)據(jù)提前利用。比如:民政局的婚姻檔案、殘聯(lián)的業(yè)務(wù)檔案等。

三、平谷區(qū)檔案數(shù)據(jù)存儲策略分析

(一)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的存儲分析

1.非結(jié)構(gòu)化數(shù)據(jù)主要采取文件夾方式分級存儲,根據(jù)檔號編制規(guī)則建立文件夾,并與檢索數(shù)據(jù)庫形成對應(yīng)關(guān)系。如果有相應(yīng)的管理系統(tǒng),可以通過文件管理的方式進(jìn)行。比如掃描檔案的原文、接收的電子文件等。采用檔號分級的方式命名文件夾的優(yōu)勢在于:一是便于管理,方便非結(jié)構(gòu)化數(shù)據(jù)和目錄形成對應(yīng)關(guān)系;二是便于利用,文件數(shù)據(jù)可以直接導(dǎo)入到檔案管理系統(tǒng)中;三是可以解決操作系統(tǒng)的文件夾數(shù)量限制問題;四是方便數(shù)據(jù)的拆分,一旦出現(xiàn)數(shù)據(jù)量較大的情況,可以將數(shù)據(jù)拆成幾個小份來存儲和管理。如圖1所示。

2.結(jié)構(gòu)化數(shù)據(jù)主要通過數(shù)據(jù)庫存儲。目前較為常見的數(shù)據(jù)庫(DB2,ORACLE,SQL,MYSQL)都有數(shù)據(jù)自動備份和快速恢復(fù)功能,不論哪種數(shù)據(jù)庫,只要數(shù)據(jù)資源脫離機(jī)器本身,形成備份文件,就可以移植到任意計算機(jī)中。備份的數(shù)據(jù)不論以什么格式存在,只要形成備份文件,都可以存儲。經(jīng)過數(shù)據(jù)庫系統(tǒng)的導(dǎo)入、導(dǎo)出功能,合并、拆分字段,形成數(shù)據(jù)格式一致、結(jié)構(gòu)統(tǒng)一的數(shù)據(jù)庫。

(二)檔案數(shù)據(jù)存儲策略的選擇

根據(jù)平谷區(qū)檔案館的設(shè)備情況和檔案數(shù)據(jù)量情況,最終確定分布式集中存儲策略。分布式集中存儲,采用可擴(kuò)展的系統(tǒng)結(jié)構(gòu),利用多臺存儲服務(wù)器分擔(dān)存儲負(fù)荷,可以有效解決存儲服務(wù)器的性能問題。

1.所謂分布,主要是實現(xiàn)數(shù)據(jù)備份的分布。在數(shù)據(jù)大量增加的情況下,只需要增加硬盤,對于節(jié)省成本具有優(yōu)勢。一方面,數(shù)據(jù)在移交檔案館之前,分散存儲于各鄉(xiāng)鎮(zhèn)、村檔案室,通過檔案數(shù)據(jù)上報、接收等方式,統(tǒng)一集中到檔案館,數(shù)據(jù)經(jīng)過整合之后再保存到陣列集中存儲;另一方面,檔案館可以把重要備份的數(shù)據(jù)分成N份,按照不同的數(shù)據(jù)級別分別存儲于不同的數(shù)據(jù)中心或者異地備份基地,這樣的管理方式對安全和成本控制都有較好的效果。據(jù)統(tǒng)計,平谷區(qū)檔案館目前存有檔案數(shù)據(jù)8TB。其中,包括電子目錄150萬余條和紙質(zhì)掃描件700萬頁。2015年,其數(shù)據(jù)量增長了6TB左右,檔案館只需購買3塊2TB的硬盤,就可以完成拓展。

2.所謂集中,主要是實現(xiàn)數(shù)據(jù)存儲的集中。在存儲資料的安全性上,由于采用了專用的磁盤陣列,數(shù)據(jù)安全性較好,而且方便管理,可以把主要數(shù)據(jù)集中存儲于磁盤陣列,采用交換機(jī)交換模式,建立不同的工作站。比如:查檔利用工作站、管理鑒定工作站、數(shù)字轉(zhuǎn)化工作站、數(shù)據(jù)收集整理工作站等,這些不同的工作站相互獨立,數(shù)據(jù)清晰不沖突。工作人員可以根據(jù)權(quán)限、職責(zé),分別工作,既不影響數(shù)據(jù)的整體性,又能保持高度共享。

猜你喜歡
平谷區(qū)案卷檔案館
平谷區(qū)總工會扎實開展“強(qiáng)國復(fù)興有我”群眾性主題宣傳教育活動
平谷區(qū)總工會 圍繞中心 精準(zhǔn)服務(wù)職工群體
石家莊市人大常委會 認(rèn)真開展案卷評查
山西省開展農(nóng)業(yè)行政處罰案卷評查活動
全省部分檔案館新館掠影
工作廣角
北京市平谷區(qū)語言文字工作導(dǎo)覽圖
關(guān)于獸藥監(jiān)督執(zhí)法案卷的幾個問題
太倉市數(shù)字檔案館成為“全國示范數(shù)字檔案館”
北京市平谷區(qū)農(nóng)村居民慢性病控制現(xiàn)狀分析