高秀娟
摘 要:隨著科學(xué)技術(shù)的發(fā)展,云計(jì)算的應(yīng)運(yùn)而生,無疑給現(xiàn)行的電子文件管理技術(shù)帶來的前所未有的變革,為其今后的發(fā)展動(dòng)向奠定了前提條件和基礎(chǔ)。本文從不同角度,基于云計(jì)算環(huán)境,對(duì)如何構(gòu)建電子文件管理的關(guān)鍵技術(shù)進(jìn)行了深入研究,并闡釋了相關(guān)實(shí)現(xiàn)方案。
關(guān)鍵詞:云計(jì)算;電子文件管理;關(guān)鍵技術(shù)
云計(jì)算時(shí)代的來臨,且伴隨著運(yùn)用力度的不斷加大,越來越受到人們的關(guān)注,一度成為業(yè)界人士相繼研究的重要課題之一。源于云計(jì)算的普及,顛覆了以往支撐電子文件管理實(shí)現(xiàn)的技術(shù)框架,也促使其電子文件管理朝向多元化方向發(fā)展,但其關(guān)鍵技術(shù)的研究并不多見。故而,對(duì)云計(jì)算環(huán)境下電子文件管理關(guān)進(jìn)技術(shù)的研究有著重要的現(xiàn)實(shí)意義。
1 云計(jì)算環(huán)境下電子文件管理技術(shù)框架
云計(jì)算環(huán)境下的電子文件包管理同時(shí)兼有資源虛擬化(SAAS層次上)與對(duì)云平臺(tái)提供商所提供云服務(wù)的優(yōu)先選擇和配置雙重特性,而隨著私有云的漸次成熟,終究會(huì)帶動(dòng)公共云和混合云的發(fā)展。因此,其技術(shù)構(gòu)架涵蓋如下:
(1)固件或硬件層。交換機(jī)、硬件服務(wù)器等基礎(chǔ)設(shè)備,服務(wù)于軟件的內(nèi)核層的管理、操作及更新;內(nèi)核層經(jīng)操作系統(tǒng)內(nèi)核、集群中間件、虛擬機(jī)監(jiān)控器等,實(shí)現(xiàn)對(duì)固件或硬件層的管理。
(2)分布式數(shù)據(jù)(非結(jié)構(gòu)化)存儲(chǔ)。事先配置好存儲(chǔ)量大小,常以64MB為以組塊,以主服務(wù)器提供的形式,在各個(gè)組塊經(jīng)索引后,實(shí)現(xiàn)不同數(shù)據(jù)管理服務(wù)器的存儲(chǔ),且云計(jì)算環(huán)境下的全部數(shù)據(jù)存儲(chǔ),均由文件系統(tǒng)管理。
(3)分布式數(shù)據(jù)(結(jié)構(gòu)化)存儲(chǔ)。包含Bigtable、RDS及HBase等技術(shù),在云計(jì)算中,電子文件元數(shù)據(jù)的存儲(chǔ)通常都是在分布式結(jié)構(gòu)化表中,由其管理系統(tǒng)進(jìn)行統(tǒng)一管理。
(4)分布數(shù)據(jù)處理技術(shù)。在云計(jì)算中,電子文件管理系統(tǒng)采用以MapReduce為主的分布式數(shù)據(jù)處理技術(shù)對(duì)電子文件進(jìn)行處理。
(5)電子文件管理基礎(chǔ)性服務(wù)。電子文件封包、憑證管理、文件完整性校驗(yàn)、數(shù)據(jù)分布式存取、文件監(jiān)控等,提供出基礎(chǔ)性服務(wù)與核心功能。
(6)電子文件管理業(yè)務(wù)服務(wù)。包括信息捕獲、系統(tǒng)管理、保管與處置、安全與監(jiān)控、檢索與再現(xiàn)及非電子管理等,負(fù)責(zé)虛擬化和電子文件管理數(shù)據(jù)庫的實(shí)現(xiàn)與形成。
2 云計(jì)算環(huán)境下電子文件管理關(guān)鍵技術(shù)
鑒于云計(jì)算環(huán)境較之于以往電子文件管理環(huán)境具有的特殊性,其技術(shù)突破(即關(guān)鍵技術(shù))應(yīng)圍繞數(shù)據(jù)信息建模技術(shù)、結(jié)構(gòu)與非結(jié)構(gòu)數(shù)據(jù)分布存取技術(shù)、電子文件數(shù)據(jù)溯源技術(shù)進(jìn)行。
1. 數(shù)據(jù)信息建模技術(shù)
要將不同電子文件封裝要求不盡相同這一點(diǎn)納入到數(shù)據(jù)信息建模技術(shù)中,如提交信息包(SIP)、存檔信息包(AIP)及發(fā)布信息包(DIP)的信息模型及實(shí)現(xiàn)不同信息包之間的轉(zhuǎn)換,同時(shí)要結(jié)合云計(jì)算技術(shù)特性,如大文件組塊管理、多副本管理、數(shù)據(jù)分布式管理等。
2.結(jié)構(gòu)與非結(jié)構(gòu)數(shù)據(jù)分布存取技術(shù)
云計(jì)算環(huán)境下的電子文件管理較之于傳統(tǒng)電子文件管理系統(tǒng),最大的區(qū)別在于數(shù)據(jù)分布呈現(xiàn)出結(jié)構(gòu)化與非結(jié)構(gòu)、且異構(gòu)電子文件海量,存取多具復(fù)雜性。如
Google文件系統(tǒng),采用中心服務(wù)器管理技術(shù),數(shù)據(jù)不支持緩存,只在用戶端備有專用的接口。云計(jì)算環(huán)境下的電子文件管理要實(shí)現(xiàn)文件分塊、多副本管理、MapReduce、加入結(jié)點(diǎn)動(dòng)態(tài)等過程具有挑戰(zhàn)性。
3.電子文件數(shù)據(jù)溯源技術(shù)
在云環(huán)境中,其特殊性為電子文件與其元數(shù)據(jù)的溯源提供了技術(shù)支持。在云計(jì)算中,電子文件的回溯基本上可劃分為結(jié)構(gòu)化數(shù)據(jù)表與非結(jié)構(gòu)化數(shù)據(jù)。在Bigtable中,其數(shù)據(jù)模型的組成主要包括行、列及時(shí)間戳。而且,在云計(jì)算中,非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)通過采用多副本技術(shù),能有效地溯源文件實(shí)體對(duì)象。然而,并不是云計(jì)算中的所有技術(shù)都能操作電子文件與其元數(shù)據(jù)的回溯,因此,在云計(jì)算中,憑證性回溯技術(shù)的管理還需要進(jìn)行進(jìn)一步的突破。
3 云環(huán)境下電子文件管理相關(guān)關(guān)鍵技術(shù)實(shí)現(xiàn)方案
云環(huán)境下電子文件管理關(guān)鍵技術(shù)的實(shí)現(xiàn),要在對(duì)傳統(tǒng)電子文件管理環(huán)境進(jìn)行改觀的同時(shí)納入云計(jì)算這一因素,因而,要抓住和掌握相關(guān)實(shí)現(xiàn)要點(diǎn),并在此基礎(chǔ)上,滲透到云計(jì)算的各個(gè)層次中,達(dá)到電子文件管理的最優(yōu)化。
1.實(shí)現(xiàn)要點(diǎn)
1.1底層技術(shù)與核心技術(shù)相平衡
云計(jì)算供應(yīng)商所提供的云服務(wù),應(yīng)將操作簡便性、實(shí)用性作為首要特征,電子文件管理關(guān)鍵技術(shù)的實(shí)現(xiàn)首先要考慮技術(shù)的可操作性。新技術(shù)的研發(fā)固然重要,首先要避免刻意追求新技術(shù)的復(fù)雜化,注重原有技術(shù)的重組,達(dá)到底層技術(shù)與核心技術(shù)相平衡,確保底層技術(shù)和核心技術(shù)二者之間的協(xié)調(diào)發(fā)展。
1.2經(jīng)濟(jì)性與穩(wěn)定性相平衡
云計(jì)算環(huán)境下電子文件管理系統(tǒng)必須要達(dá)到經(jīng)濟(jì)性與穩(wěn)定性相平衡目的,事實(shí)上,經(jīng)濟(jì)性通常會(huì)不利于系統(tǒng)的穩(wěn)定性,在容錯(cuò)問題的處理上尤為多見,因其會(huì)涉及到Master、Sever、數(shù)據(jù)管服務(wù)器等部分。在計(jì)算與存儲(chǔ)能力均等的基礎(chǔ)上,搭建云端服務(wù)器集群的成本要遠(yuǎn)遠(yuǎn)低于對(duì)超級(jí)計(jì)算機(jī)購買的成本,而較低成本的云端部署與服務(wù)器硬件,避免了集機(jī)群更新?lián)Q代的煩惱,且用戶可采用瘦終端來實(shí)現(xiàn)加大云服務(wù)的功能。
1.3靈活性與安全性相平衡
靈活性涉及到多副本管理、節(jié)點(diǎn)動(dòng)態(tài)管理、動(dòng)態(tài)故障恢復(fù)、故障動(dòng)態(tài)監(jiān)測(cè)等方面,可使電子文件管理系統(tǒng)管理方便化,在帶來方便的同時(shí)也帶來了可靠性、一致性及保密性等方面更高的管理要求。因此,在云環(huán)境下,必須要保證靈活性與安全性的平衡,以保證電子文件管理系統(tǒng)的方便性與安全性。
1.4針對(duì)性與可持續(xù)性相平衡
實(shí)現(xiàn)云計(jì)算中的電子文件管理系統(tǒng)并不是一步到位的,而是要通過統(tǒng)一的規(guī)劃,按照步驟一步一步實(shí)現(xiàn)的,并注重部門的協(xié)作及部門間的資源共享。而針對(duì)性是區(qū)別電子文件管理系統(tǒng)和各種業(yè)務(wù)應(yīng)用系統(tǒng)的主要特點(diǎn)之一,電子文件管理務(wù)必要遵循相關(guān)功能標(biāo)準(zhǔn),同時(shí)還要注意可持續(xù)性。
2.實(shí)現(xiàn)方法
在云計(jì)算中,實(shí)現(xiàn)電子文件管理系統(tǒng)的方案多種多樣,但可以劃分為兩大類:商業(yè)解決方案與開源解決方案。但由于考慮到文件管理的特殊性與未來不可知性,因此建議采用開源解決方案?,F(xiàn)階段,開源方案的主流方向主要有:Hadoop、Nimbus、Eucalyptus,而Hadoop與Eucalyptus則是通過模仿商業(yè)解決方案而來的。通過對(duì)現(xiàn)階段的實(shí)現(xiàn)技術(shù)的普及度、成熟度、技術(shù)公開性及未來的發(fā)展趨勢(shì)等方面進(jìn)行綜合考慮,建立在云計(jì)算中的電子文件管理系統(tǒng)應(yīng)采用Hadoop的編程模式。作為Apache開源組織所提供的分布式計(jì)算機(jī)框架,Hadoop包括多種編程技術(shù),且具有較大的可靠性與可可擴(kuò)展性。因此,在現(xiàn)階段的通用技術(shù)框架中,可以采用HadoopHDFS技術(shù)實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)、采用HBase技術(shù)實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)、采用MapReduce技術(shù)實(shí)現(xiàn)分布式處理及采用ZooKeeper技術(shù)實(shí)現(xiàn)鎖服務(wù)。
4 結(jié)語
綜上所述,隨著關(guān)鍵技術(shù)的越來越成熟及應(yīng)用的越來越廣泛,電子文件管理的實(shí)現(xiàn)逐漸發(fā)展到采用公共云及混合云技術(shù),并滲透到云計(jì)算的各種層次中。因此,在未來的工作中,必須要對(duì)云計(jì)算進(jìn)行充分的分析,以研究出最好的實(shí)現(xiàn)技術(shù)。
參考文獻(xiàn)
[1]薛四新.云計(jì)算環(huán)境下電子文件管理的實(shí)現(xiàn)機(jī)理[J].檔案學(xué)通訊,2013,13(3):65-66.
[2]薛四新,黃萃.云計(jì)算環(huán)境下電子文件管理研究綜述[J].北京檔案,2011,12(9):25-27.
[3]薛四新,朝樂門,田雷.云計(jì)算環(huán)境下電子文件管理的關(guān)鍵技術(shù)研究[J].北京檔案,2013,17(1):22-24.
[4]王玉龍.云計(jì)算環(huán)境下電子文件管理問題的思考[J].北京檔案,2012,15(2):21-23.