關(guān)鍵詞:檔案管理系統(tǒng);檔案;數(shù)字化;通用化;系統(tǒng)
0 引言
傳統(tǒng)的檔案管理方式[1]面臨信息爆炸式增長和檢索查閱效率低下等挑戰(zhàn)。隨著時(shí)間積累和單位相關(guān)工作的推進(jìn),檔案的數(shù)量不斷增加,檔案門類也越來越復(fù)雜,這對效率低下的傳統(tǒng)手工檔案管理工作產(chǎn)生巨大的壓力[2-3]。近年來,越來越多的單位開始嘗試將傳統(tǒng)的檔案管理方式向數(shù)字化檔案管理轉(zhuǎn)變,希望借助計(jì)算機(jī)技術(shù)將數(shù)字化融入單位的檔案管理工作來提高單位的檔案管理效率和檔案查閱的有效性[4]。
基于此,本文結(jié)合團(tuán)隊(duì)在相關(guān)單位檔案數(shù)字化整理上的相關(guān)實(shí)施經(jīng)驗(yàn),針對當(dāng)前單位數(shù)字化檔案管理的迫切需求,設(shè)計(jì)和開發(fā)一種面向通用化管理的檔案數(shù)字化掃描管理系統(tǒng),旨在通過大數(shù)據(jù)技術(shù)和計(jì)算機(jī)應(yīng)用技術(shù)實(shí)現(xiàn)檔案的數(shù)字化管理。系統(tǒng)設(shè)計(jì)了檔案通用化管理模塊來對檔案信息進(jìn)行標(biāo)準(zhǔn)化和結(jié)構(gòu)系統(tǒng)化處理,從而滿足各種類型的傳統(tǒng)檔案目錄查詢向數(shù)字化查詢調(diào)閱的轉(zhuǎn)變;然后通過結(jié)合高拍儀等超便攜設(shè)備搭建了檔案掃描模塊,實(shí)現(xiàn)了紙質(zhì)檔案電子化掃描和OCR識別處理。
文章的組織結(jié)構(gòu)如下:第一部分介紹了引言和研究現(xiàn)狀;第二部分介紹了相關(guān)技術(shù);第三部分詳細(xì)介紹了系統(tǒng)設(shè)計(jì)和實(shí)現(xiàn);第四部分對系統(tǒng)進(jìn)行了設(shè)計(jì)與實(shí)現(xiàn);最后一部分總結(jié)了研究成果并展望了未來的研究方向。通過本文的研究,該系統(tǒng)的實(shí)現(xiàn)期望可以提高單位檔案管理人員的工作效率和準(zhǔn)確性,有效地幫助單位提升檔案查詢調(diào)閱的工作便捷性,推動數(shù)字化檔案管理的發(fā)展。
1 研究現(xiàn)狀
如前文所述,隨著社會信息化和大數(shù)據(jù)技術(shù)應(yīng)用進(jìn)程的不斷加快,一方面數(shù)據(jù)信息的增長使得檔案數(shù)量累積越來越多,給檔案管理工作帶來了嚴(yán)峻挑戰(zhàn);另一方面,信息化進(jìn)程也給新時(shí)代下檔案管理工作帶來新的思路,越來越多的單位開始嘗試借助信息化技術(shù)來緩解傳統(tǒng)紙質(zhì)文檔“管理難、保存難、歸檔難、查找難”等問題[5]。但是檔案管理工作依舊存在以下問題值得關(guān)注。
1.1 檔案工作管理難、保存難、歸檔難
隨著工作開展的積累,往往一個(gè)單位檔案數(shù)量龐大且門類繁多,這給檔案工作的歸檔、保存和管理帶來了巨大挑戰(zhàn)。傳統(tǒng)的檔案工作由于缺乏高效的分類和數(shù)據(jù)檢索機(jī)制,常常使得檔案的整理和存儲工作變得異常復(fù)雜。此外,紙質(zhì)檔案的物理特性使得它們?nèi)菀资艿江h(huán)境因素的影響,如濕度、溫度等,這不僅增加了檔案保存的難度,也縮短了檔案的使用壽命。
1.2 檔案調(diào)閱查詢難,效率低
當(dāng)下許多檔案的管理依舊借助傳統(tǒng)的檔案目錄和標(biāo)識進(jìn)行,在數(shù)量龐大且類別眾多的檔案調(diào)閱過程中,沒有數(shù)字化支持顯得尤為低效。比如用戶在查找特定檔案時(shí),管理人員往往需要花費(fèi)大量時(shí)間在繁雜的紙質(zhì)文件中進(jìn)行手動搜索,這一過程不僅耗時(shí)耗力,而且容易出錯。
1.3 現(xiàn)有檔案系統(tǒng)缺乏通用性、無法滿足大規(guī)模數(shù)據(jù)處理需求
隨著信息化進(jìn)程的加快,檔案數(shù)量不斷增長,傳統(tǒng)的檔案數(shù)字化管理系統(tǒng)往往無法處理大規(guī)模的檔案數(shù)據(jù)。其次,現(xiàn)有的檔案數(shù)字化管理系統(tǒng)往往是針對特定單位或特定類型的檔案設(shè)計(jì)的,無法滿足不同單位和不同類型檔案的管理需求以及大規(guī)模數(shù)據(jù)處理的需求。
2 相關(guān)技術(shù)
在傳統(tǒng)的紙質(zhì)檔案管理模式向檔案數(shù)字化管理模式的轉(zhuǎn)變過程中,針對傳統(tǒng)紙質(zhì)文檔“管理難、保存難、歸檔難、查找難”等問題,面向通用化管理的檔案數(shù)字化掃描管理系統(tǒng)需要完成檔案通用數(shù)據(jù)標(biāo)識管理、檔案管理查詢管理以及檔案掃描識別等檔案數(shù)字化管理服務(wù),從而實(shí)現(xiàn)單位對檔案數(shù)據(jù)的高效管理和數(shù)字化處理,提高檔案管理的效率和安全性[6-7]。其主要技術(shù)如下。
2.1 基于分布式的通用化檔案數(shù)字管理模塊
檔案數(shù)字化的核心是實(shí)現(xiàn)檔案數(shù)字化管理和檔案電子化掃描。檔案系統(tǒng)首先需要實(shí)現(xiàn)的是將紙質(zhì)檔案數(shù)據(jù)完成數(shù)字化處理,實(shí)現(xiàn)檔案數(shù)據(jù)的快速查找。但是,受限于檔案數(shù)量多、門類復(fù)雜、數(shù)據(jù)量大等問題,如何實(shí)現(xiàn)紙質(zhì)檔案數(shù)據(jù)到結(jié)構(gòu)規(guī)整的數(shù)字化應(yīng)用數(shù)據(jù)是當(dāng)前檔案數(shù)字管理系統(tǒng)普遍遇到的重要問題之一[8]。因此,為了實(shí)現(xiàn)檔案數(shù)字管理系統(tǒng)對數(shù)據(jù)的維護(hù),系統(tǒng)首先需要根據(jù)檔案屬歸屬按照標(biāo)準(zhǔn)的檔案數(shù)據(jù)規(guī)劃進(jìn)行嚴(yán)格結(jié)構(gòu)化的通用性分析,從而在保障檔案基礎(chǔ)數(shù)據(jù)化轉(zhuǎn)換的準(zhǔn)確可靠性的基礎(chǔ)上實(shí)現(xiàn)各類檔案通用化標(biāo)識和管理,緩解檔案的“歸檔難”“查找難”等問題。其次,由于各單位內(nèi)部各科室檔案門類多,檔案電子化掃描上傳同步過程中數(shù)據(jù)交互量大,為了緩解大數(shù)據(jù)、高并發(fā)帶來的系統(tǒng)瓶頸問題,實(shí)現(xiàn)檔案查閱調(diào)取及時(shí)性需求,系統(tǒng)采用C/S+智能客戶端分布式體系結(jié)構(gòu),將檔案管理系統(tǒng)按檔案業(yè)務(wù)分類進(jìn)行分割,拆分成多個(gè)共享核心數(shù)據(jù)庫的獨(dú)立分布式子服務(wù)器。
2.2 基于高拍儀的檔案掃描和OCR 識別處理模塊
基于分布式的通用化檔案數(shù)字管理模塊實(shí)現(xiàn)了紙質(zhì)檔案數(shù)據(jù)向數(shù)字化管理的轉(zhuǎn)化。如何將原始檔案通過掃描模塊與檔案數(shù)據(jù)關(guān)聯(lián)后,識別檔案全文內(nèi)容并進(jìn)行保存歸檔和全文檢索,是基于通用化的檔案系統(tǒng)關(guān)注的重點(diǎn)之一。因此,系統(tǒng)設(shè)計(jì)了基于高拍儀的檔案掃描和OCR識別處理模塊。首先,基于高拍儀的檔案掃描功能,通過高分辨率的攝像頭將紙質(zhì)文檔進(jìn)行拍攝和數(shù)字化處理等掃描記錄,但是其掃描所產(chǎn)生的電子檔案實(shí)際上只是以圖像形式存在的文件,而非真正意義上的文本文件,不利于對檔案的內(nèi)容進(jìn)行引用、檢索等。因此,系統(tǒng)創(chuàng)新性地融入了OCR 技術(shù)[9-12],OCR技術(shù)通過文字特征抽取、比對識別等技術(shù)為檔案提供了一種新的著錄方式,使檔案條目通過計(jì)算機(jī)錄入成為可能。檔案處理后,工作人員可以直接從OCR后的全文中找到著錄項(xiàng),如題名、文號等,便于后期檔案的查詢和調(diào)閱,從而實(shí)現(xiàn)真正的全文檢索。
3 面向通用化管理的檔案數(shù)字化掃描管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
3.1 系統(tǒng)架構(gòu)設(shè)計(jì)
檔案數(shù)字化建設(shè)過程中存在數(shù)據(jù)量大、結(jié)構(gòu)復(fù)雜、瞬時(shí)并發(fā)高等問題。為了緩解大數(shù)據(jù)、高并發(fā)帶來的系統(tǒng)瓶頸問題,通用化管理的檔案數(shù)字化掃描管理系統(tǒng)采用了“分布式”的建設(shè)思路,將檔案管理系統(tǒng)按檔案業(yè)務(wù)分類進(jìn)行分割拆分成多個(gè)子服務(wù)器,即數(shù)據(jù)庫分為檔案數(shù)字化核心數(shù)據(jù)庫(主要包含人員、單位以及角色授權(quán)等核心數(shù)據(jù))及檔案業(yè)務(wù)數(shù)據(jù)數(shù)據(jù)庫,根據(jù)檔案類別將服務(wù)拆分成多個(gè)子業(yè)務(wù)檔案數(shù)字化服務(wù)器,實(shí)現(xiàn)對系統(tǒng)的分布式分離(比如業(yè)務(wù)1掃描子系統(tǒng)、業(yè)務(wù)N掃描子系統(tǒng)、檔案數(shù)字化管理子系統(tǒng)以及系統(tǒng)基本管理系統(tǒng))。系統(tǒng)分布式網(wǎng)絡(luò)拓?fù)浼軜?gòu)圖如圖1所示。
3.2 系統(tǒng)功能模塊設(shè)計(jì)
針對傳統(tǒng)的紙質(zhì)檔案管理模式向檔案電子化管理模式的轉(zhuǎn)變,面向通用化管理的檔案數(shù)字化掃描管理系統(tǒng)主要針對檔案管理者。系統(tǒng)基于C/S架構(gòu)編程語言,采用C#+SQL Server 數(shù)據(jù)庫+WinForm 控件架構(gòu),滿足了多位管理者的同時(shí)性能需求,實(shí)現(xiàn)了通用化的檔案數(shù)據(jù)管理、檔案數(shù)字化掃描錄入以及檔案查詢調(diào)閱等檔案管理和電子化處理功能,為用戶提供了一站式的檔案數(shù)字化處理和檔案管理調(diào)閱查詢管理服務(wù),以提高檔案管理的效率。
1) 系統(tǒng)設(shè)置模塊:該模塊是檔案管理數(shù)字化平臺的基本框架,也是分布式系統(tǒng)結(jié)構(gòu)的核心,實(shí)現(xiàn)了檔案管理員對系統(tǒng)的基礎(chǔ)設(shè)置管理,如:用戶管理、權(quán)限分配以及部門基礎(chǔ)字典等基本功能。
2) 檔案類型通用標(biāo)識管理模塊:為了實(shí)現(xiàn)系統(tǒng)的普適性以及通用化,系統(tǒng)設(shè)置了10個(gè)通用屬性,用戶可以自行標(biāo)注每一類檔案的屬性標(biāo)記,實(shí)現(xiàn)檔案數(shù)據(jù)結(jié)構(gòu)規(guī)整化管理。管理者登錄本系統(tǒng)后,可以根據(jù)單位檔案門類情況,將紙質(zhì)檔案數(shù)據(jù)根據(jù)實(shí)際業(yè)務(wù)需求進(jìn)行分類,然后在檔案通用標(biāo)識管理模塊根據(jù)分類情況自定義標(biāo)注不同類別的檔案標(biāo)識。
3) 檔案數(shù)據(jù)管理模塊:該模塊主要是基于管理員維護(hù)的檔案基礎(chǔ)數(shù)據(jù),可以將紙質(zhì)檔案目錄等數(shù)據(jù)通過系統(tǒng)新增錄入、程序?qū)胍约暗谌浇涌趯拥姆绞?,?shí)現(xiàn)檔案的數(shù)字化管理。檔案基礎(chǔ)數(shù)據(jù)維護(hù)后,用戶可以根據(jù)檔案類別等關(guān)鍵字快速查找,實(shí)現(xiàn)用戶隨時(shí)檔案快速調(diào)閱,快速定位并可以下載電子化掃描的電子文件檔案進(jìn)行本地保存。該模塊主要功能包括:檔案數(shù)據(jù)維護(hù)、檔案數(shù)據(jù)查詢(關(guān)鍵字查詢)、查看掃描檔案以及下載檔案備份等功能。
4) 基于高拍儀的檔案掃描和OCR識別處理模塊:該模塊主要是根據(jù)檔案電子化掃描的要求實(shí)現(xiàn)紙質(zhì)檔案的掃描和檔案數(shù)據(jù)的管理。模塊通過基于高拍儀便攜辦公設(shè)備完成紙質(zhì)檔案的掃描,掃描過程借助OCR技術(shù)將高拍儀掃描紙質(zhì)檔案實(shí)現(xiàn)檔案題名及目錄的識別提取和檔案大小自動裁切。
3.3 系統(tǒng)實(shí)現(xiàn)效果
4 結(jié)束語
本文針對單位檔案管理工作中存在的問題,設(shè)計(jì)和實(shí)現(xiàn)了一種面向通用化管理的檔案數(shù)字化掃描管理系統(tǒng)。系統(tǒng)設(shè)計(jì)了檔案通用類型標(biāo)識管理、檔案數(shù)據(jù)管理和查詢以及檔案掃描管理等模塊,實(shí)現(xiàn)了檔案的通用化管理,提高了檔案管理的效率和安全性。本文的研究成果為單位檔案數(shù)字化管理提供了新的思路和方法,該系統(tǒng)的部署可以滿足單位歷史紙質(zhì)檔案向數(shù)字化管理的轉(zhuǎn)變,對推動數(shù)字化檔案管理的發(fā)展具有重要意義。系統(tǒng)未來將在OCR識別精確度和移動端應(yīng)用擴(kuò)展等方面進(jìn)一步完善,提高系統(tǒng)的穩(wěn)定性和可擴(kuò)展性,以滿足不同單位的檔案數(shù)字化需求。