摘 要 數(shù)據(jù)庫(kù)管理針對(duì)的是檔案的目錄、掃描件以及照片、電子文檔等數(shù)據(jù),這些數(shù)據(jù)普遍具有的特點(diǎn)有結(jié)構(gòu)化也有非結(jié)構(gòu)化的,新一代的檔案管理系統(tǒng)從設(shè)計(jì)和實(shí)現(xiàn)的角度,對(duì)于數(shù)據(jù)管理系統(tǒng)的開發(fā)和利用已經(jīng)進(jìn)入了完整有效的管理階段。本文結(jié)合混合型數(shù)據(jù)庫(kù)檔案管理系統(tǒng)的開發(fā)理念,對(duì)于這一數(shù)據(jù)庫(kù)管理特性以及在檔案管理中的運(yùn)用情況進(jìn)行分析,如檔案的全文檢索等,旨在研究如何提高檔案的利用率,將檔案的利用價(jià)值予以提升。
關(guān)鍵詞 檔案管理系統(tǒng);數(shù)據(jù)庫(kù);結(jié)構(gòu)化數(shù)據(jù)
中圖分類號(hào) TP3 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 1674-6708(2017)188-0070-02
隨著我國(guó)信息化建設(shè)的不斷深入,信息資源在檔案的行政事業(yè)管理中不斷需要加強(qiáng),以保證檔案的管理和利用能夠健康快速地發(fā)展。由于檔案工作牽扯到的社會(huì)信息以及業(yè)務(wù)工作非常多,因此對(duì)于檔案信息資源的開發(fā)和利用已經(jīng)成為國(guó)企檔案工作發(fā)展的基本目標(biāo),是適應(yīng)國(guó)企改革發(fā)展需要進(jìn)行的時(shí)代性的創(chuàng)新和變革。新時(shí)期檔案實(shí)業(yè)要達(dá)到健康持續(xù)的發(fā)展,需要對(duì)各類文件、會(huì)議資料、電傳等等加以管理,還有與企業(yè)發(fā)展有關(guān)的技術(shù)資料、科研報(bào)告、論文資料等,以及企業(yè)的立式檔案,線性文件等都要加強(qiáng)管理。不同的應(yīng)用領(lǐng)域,其側(cè)重點(diǎn)也不盡相同。檔案的管理系統(tǒng)涉及到的內(nèi)容眾多,當(dāng)前運(yùn)用計(jì)算機(jī)輔助管理系統(tǒng),對(duì)檔案的信息和實(shí)體進(jìn)行管理,是非常有必要的。
1 數(shù)據(jù)庫(kù)類型
數(shù)據(jù)庫(kù)的管理平臺(tái)包含了檔案的管理系統(tǒng)的全部?jī)?nèi)容,從當(dāng)前檔案管理的數(shù)據(jù)庫(kù)的發(fā)展里程來(lái)進(jìn)行數(shù)據(jù)庫(kù)的類型分類,可以看到:
從檔案的發(fā)展初期,采用手工錄入的方式,建立檔案目錄表,要求檔案管理人員參照檔案的放歸規(guī)定,將各類紙質(zhì)實(shí)體檔案加以收集、整理、立卷和歸檔。進(jìn)入計(jì)算機(jī)輔助檔案目錄管理之后,采用獨(dú)立的計(jì)算機(jī)管理的方式,將檔案的目錄加以整理,形成了桌面式的數(shù)據(jù)庫(kù)檔案目錄管理平臺(tái)。到了互聯(lián)網(wǎng)時(shí)代,依托網(wǎng)絡(luò)建立大中型關(guān)系數(shù)據(jù)庫(kù),將數(shù)據(jù)平臺(tái)中的掃描功能加以利用,形成了檔案實(shí)體的掃描管理體系。
如今,數(shù)據(jù)庫(kù)的全文檢索功能,能夠?qū)n案的目錄以及全文等加以掃描和管理,電子文件、多媒體文件等等,都可以進(jìn)入非結(jié)構(gòu)化數(shù)據(jù)管理體系中,而且通過(guò)管理結(jié)構(gòu)的不斷調(diào)整和優(yōu)化,數(shù)據(jù)庫(kù)管理已經(jīng)達(dá)到了全文數(shù)據(jù)管理和數(shù)字檢索的發(fā)展階段[1]。
當(dāng)前,國(guó)企的檔案掛歷I軟件已經(jīng)實(shí)現(xiàn)了數(shù)字化的接收、整理和編目的技術(shù)。通過(guò)計(jì)算機(jī)管理將檔案的利用和移交全程加以運(yùn)行,網(wǎng)絡(luò)的查詢以及調(diào)檔等,通過(guò)服務(wù),實(shí)現(xiàn)了管理系統(tǒng)的運(yùn)行,即便是海量的信息,全文數(shù)據(jù)庫(kù)技術(shù)通過(guò)OCR檔案管理識(shí)別技術(shù)、電子文件全文內(nèi)容索引和存儲(chǔ)技術(shù)等,都能達(dá)到高效快捷的檔案的索引和存儲(chǔ),提高了檔案的查全率和查準(zhǔn)率,能夠?qū)⑷臋z索手段予以提高,對(duì)于檔案的利用水平來(lái)說(shuō)是十分高效和便捷的。但是,由于后臺(tái)數(shù)據(jù)平臺(tái)的數(shù)據(jù)庫(kù)的類型的不同,在物理原理上,檔案的數(shù)據(jù)物理儲(chǔ)存的功能不盡相同,因此也不能保證數(shù)據(jù)段的一致性以及完整程度。這兩類數(shù)據(jù)庫(kù)的開發(fā)結(jié)構(gòu)不同,因此在系統(tǒng)開發(fā)的難度上有所增加,增加了數(shù)據(jù)庫(kù)維護(hù)的成本。
兩類數(shù)據(jù)庫(kù)的類型,分為傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)以及現(xiàn)代信息檢索系統(tǒng),前者的缺點(diǎn)在于不具備數(shù)據(jù)處理效率,靈活性一般,后者需要結(jié)構(gòu)化數(shù)據(jù)以及元數(shù)據(jù)的支持。因此,在集成傳統(tǒng)數(shù)據(jù)庫(kù)管理系統(tǒng)的基礎(chǔ)上建立新的數(shù)據(jù)庫(kù)管理平臺(tái),體現(xiàn)數(shù)據(jù)存儲(chǔ)的管理非結(jié)構(gòu)化,將數(shù)據(jù)的關(guān)系特性和全文特性予以表現(xiàn),構(gòu)成檔案管理的新課題?;旌闲蛿?shù)據(jù)庫(kù)就應(yīng)運(yùn)而生,在當(dāng)前國(guó)企檔案管理系統(tǒng)中發(fā)揮著重要的作用。
2 數(shù)據(jù)庫(kù)應(yīng)用以及技術(shù)特點(diǎn)
1)數(shù)據(jù)庫(kù)采用的是擁有自主知識(shí)產(chǎn)權(quán)的數(shù)據(jù)管理系統(tǒng),支持關(guān)系數(shù)據(jù)模型以及強(qiáng)大的多語(yǔ)種核心語(yǔ)法集,能夠進(jìn)行高擴(kuò)展性和穩(wěn)定性的多語(yǔ)種檢索全文,遵照標(biāo)準(zhǔn)化和開放性的原則,在數(shù)據(jù)訪問(wèn)中能夠做到跨平臺(tái)和標(biāo)準(zhǔn)化,為企業(yè)服務(wù)接口服務(wù)。
2)該系統(tǒng)的特點(diǎn)首先是能夠?qū)?shù)據(jù)進(jìn)行半結(jié)構(gòu)化和非結(jié)構(gòu)化的混合統(tǒng)一管理,對(duì)于海量的數(shù)據(jù),從檢索技術(shù)和數(shù)據(jù)庫(kù)管理技術(shù)的角度出發(fā),保證數(shù)據(jù)庫(kù)管理技術(shù)中的事務(wù)性和完整性,對(duì)全文進(jìn)行檢索的數(shù)據(jù)查詢功能利用的是非結(jié)構(gòu)化索引融合,采用的是多種查詢方式和相互操作的
實(shí)現(xiàn)[2]。
3)OCR識(shí)別技術(shù),通過(guò)對(duì)暗、亮的模式的掃描,采用掃描儀等設(shè)備對(duì)字符進(jìn)行識(shí)別,然后將形狀識(shí)別為計(jì)算機(jī)文字,形成文本資料和圖像文件進(jìn)行分析處理。
4)PDF技術(shù)是通過(guò)設(shè)備的分辨,將文字、字型等封裝在一個(gè)文件中,設(shè)置超文本連接或者動(dòng)態(tài)影像等電子信息,提高集成度和安全可靠性。
5)全文信息自動(dòng)抽取技術(shù),是將文件的無(wú)關(guān)信息進(jìn)行過(guò)濾,然后得到全文數(shù)據(jù)庫(kù)的索引等的自動(dòng)加載,將電子文件以附件的形式入庫(kù),提供原版的瀏覽。
3 系統(tǒng)架構(gòu)
由數(shù)字化掃描將檔案生成目錄數(shù)據(jù)或者是電子文件,通過(guò)OCR識(shí)別技術(shù)生成檔案,加載到檔案資源庫(kù)中,生成數(shù)據(jù)導(dǎo)入數(shù)據(jù)表,自動(dòng)掛接電子文件,通過(guò)全文信息技術(shù)的抽取,建立全文索引。
用C/S和B/S相結(jié)合的模式提供檔案信息的管理和利用,其中以C/S方式提供檔案信息管理和維護(hù)功能,以B/S方式提供檔案信息的檢索和利用功能。
應(yīng)用平臺(tái)調(diào)用業(yè)務(wù)層數(shù)據(jù)訪問(wèn)接口,在不影響其他功能模塊的前提下,構(gòu)建五大業(yè)務(wù)功能模塊客戶端,各業(yè)務(wù)功能模塊再通過(guò)數(shù)據(jù)層數(shù)據(jù)訪問(wèn)接口,采用混合型數(shù)據(jù)庫(kù)管理系統(tǒng),提供訪問(wèn)接口的服務(wù):檔案維護(hù)、檔案管理、檔案利用、系統(tǒng)檢索利用和Web管理,只需更各業(yè)務(wù)功能模塊和檔案系統(tǒng)利用平臺(tái)(Browser)相應(yīng)的模塊,就能通過(guò)檔案系統(tǒng)管理平臺(tái)(Client)問(wèn)業(yè)務(wù)功能模塊統(tǒng)一訪問(wèn)和操作數(shù)據(jù)庫(kù)。整個(gè)系統(tǒng)可存放檔案目錄,可在支撐平臺(tái)和安全保障的支持下對(duì)用戶信息、日志信息、系統(tǒng)設(shè)置等系統(tǒng)數(shù)據(jù)進(jìn)行維護(hù),確保全文、電子文件等檔案信息能夠被安全、訪問(wèn)和利用,并在數(shù)據(jù)庫(kù)平臺(tái)中加以封裝,并穩(wěn)定、可靠地運(yùn)行。
4 結(jié)論
新一代的檔案管理系統(tǒng),運(yùn)用信息技術(shù)和網(wǎng)絡(luò)技術(shù)予以輔助,不斷提高檔案信息化管理水平,也為檔案調(diào)用等服務(wù)提供了技術(shù)和資源優(yōu)勢(shì),能夠讓檔案信息資源更好地服務(wù)于社會(huì)。
參考文獻(xiàn)
[1]彭飛.基于格局理論的多模態(tài)語(yǔ)言檔案數(shù)據(jù)庫(kù)建設(shè)研究[J].北京檔案,2017(3):26-28.
[2]賀建英.大數(shù)據(jù)下MongoDB數(shù)據(jù)庫(kù)檔案文檔存儲(chǔ)去重研究[J].現(xiàn)代電子技術(shù),2015,38(16):51-55.
作者簡(jiǎn)介:李麗茹,航天四院四零一所。