国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

云計算環(huán)境下電子文件管理的關(guān)鍵技術(shù)研究

2013-04-01 06:07薛四新朝樂門田雷
北京檔案 2013年1期
關(guān)鍵詞:云端結(jié)構(gòu)化分布式

薛四新 朝樂門 田雷

摘要:云計算的出現(xiàn)改變了電子文件管理的技術(shù)架構(gòu)和實現(xiàn)方法。本文在構(gòu)建云端電子文件管理的技術(shù)框架基礎(chǔ)上,探討了云端電子文件管理需要解決的五項關(guān)鍵技術(shù),即電子文件的對象建模技術(shù)、海量異構(gòu)電子文件的分布式存取技術(shù)和電子文件及其元數(shù)據(jù)的溯源技術(shù)。在此基礎(chǔ)上,提出了云端電子文件管理系統(tǒng)架構(gòu)的四項基本原則和實現(xiàn)方案。

關(guān)鍵詞:電子文件云計算關(guān)鍵技術(shù)

云計算的應(yīng)用將導(dǎo)致支撐電子文件管理實現(xiàn)的技術(shù)框架發(fā)生本質(zhì)上的轉(zhuǎn)變。目前,國內(nèi)外學(xué)者在云計算對電子文件管理的影響和所帶來的新問題等方面進行了一定研究①,但缺少對云環(huán)境下電子文件管理關(guān)鍵技術(shù)的系統(tǒng)研究。本文重點探討整合應(yīng)用這些技術(shù)的通用框架、關(guān)鍵技術(shù)、實現(xiàn)原則和建議方案,為云環(huán)境下電子文件管理系統(tǒng)的構(gòu)建提供技術(shù)基礎(chǔ)和實施依據(jù)。

1 云端電子文件管理系統(tǒng)的技術(shù)框架

云環(huán)境下的電子文件管理系統(tǒng)不僅需要實現(xiàn)SaaS層次上的資源虛擬化,而且還應(yīng)根據(jù)電子文件的特殊性,對其他云服務(wù)提供商提供的平臺層和設(shè)施層的云服務(wù)進行選擇、配置和優(yōu)化使用。私有云的成功實踐和成熟推廣會進一步推動云環(huán)境下的電子文件管理的研究、應(yīng)用與發(fā)展,并進一步帶動相關(guān)管理部門和人員認識水平的提升,最終將逐漸會被混合云或公共云替代。

基于云計算的技術(shù)框架和電子文件管理的系統(tǒng)建設(shè)和應(yīng)用需求,采用分層方法設(shè)計云環(huán)境下電子文件管理系統(tǒng)的技術(shù)框架是實現(xiàn)電子文件管理的首要任務(wù),圖1呈現(xiàn)了電子文件管理系統(tǒng)的技術(shù)框架

1.1固件/硬件層主要包含硬件服務(wù)器和交換機等物理基礎(chǔ)設(shè)施,為軟件內(nèi)核層提供硬件的操作、管理和更新服務(wù);軟件內(nèi)核層負責(zé)管理固件/硬件層的物理硬件設(shè)備,通常由操作系統(tǒng)內(nèi)核、虛擬機監(jiān)控器、集群中間件等工具和技術(shù)來實現(xiàn)。

1.2非結(jié)構(gòu)化數(shù)據(jù)的分布式存儲。電子文件通常是以非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)方式存在,云計算環(huán)境中非結(jié)構(gòu)化大數(shù)據(jù)的存儲通常采用分布式文件管理技術(shù)如Google的GFS、Hadoop的HDFS等。非結(jié)構(gòu)化大數(shù)據(jù)的存儲過程中,一般按照實現(xiàn)配置好的大?。J為64MB)進行分塊,并對每個分塊進行唯一索引后存儲在不同的數(shù)據(jù)塊服務(wù)器上,所有數(shù)據(jù)塊服務(wù)器由主服務(wù)器統(tǒng)一管理,力求控制流和數(shù)據(jù)流的分離。在云環(huán)境下,電子文件特別是大數(shù)據(jù)對象的文件將被存放到分布式的非結(jié)構(gòu)化文件系統(tǒng)中,由文件系統(tǒng)統(tǒng)一管理。

1.3結(jié)構(gòu)化數(shù)據(jù)對象的分布式存儲。云環(huán)境下結(jié)構(gòu)化數(shù)據(jù)的存儲技術(shù)有Google的Bigtable、Amazon的RDS、Hadoop的HBase等技術(shù),與傳統(tǒng)關(guān)系數(shù)據(jù)庫不同的是,云環(huán)境下的結(jié)構(gòu)化數(shù)據(jù)模型一般由一個行關(guān)鍵字、列關(guān)鍵字和時間戳進行索引,其數(shù)據(jù)訪問需要數(shù)據(jù)鎖服務(wù)。云環(huán)境下的結(jié)構(gòu)化數(shù)據(jù)的分布式存儲一般采用主服務(wù)器和子表服務(wù)器進行分工管理,其中主服務(wù)器負責(zé)新子表的分配、子表服務(wù)器的監(jiān)控和負載均衡等問題。在云環(huán)境下,電子文件的元數(shù)據(jù)一般存儲在分布式結(jié)構(gòu)化表中,由分布式結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng)統(tǒng)一管理。

1.4分布式數(shù)據(jù)處理。與傳統(tǒng)電子文件管理系統(tǒng)不同的是,云環(huán)境下的電子文件管理系統(tǒng)中將會采用以MapReduce為代表的分布式數(shù)據(jù)處理技術(shù)來處理電子文件,需要對目前的電子文件管理系統(tǒng)中普遍采用的數(shù)據(jù)處理算法和技術(shù)實現(xiàn)工具進行改進或重新設(shè)計。

1.5電子文件管理基礎(chǔ)服務(wù)。該層為電子文件管理業(yè)務(wù)層提供一些共性的基礎(chǔ)性服務(wù)和核心功能,包括電子文件封裝、電子憑證管理、完整性校驗、分布式存取、電子文件監(jiān)控和電子文件的溯源。

1.6電子文件管理業(yè)務(wù)服務(wù)。電子文件管理業(yè)務(wù)服務(wù)主要包括信息捕獲、安全與監(jiān)控、保管與處置、檢索與再現(xiàn)、系統(tǒng)管理、非電子文件管理,負責(zé)實現(xiàn)電子文件管理業(yè)務(wù)服務(wù)的虛擬化,形成電子文件管理的工具資源池。電子文件管理用戶可以通過系統(tǒng)提供的接口,包括人機交互界面(如Web界面)和程序編程接口(如Web服務(wù)、API等),以租用的方式享用電子文件管理基礎(chǔ)服務(wù)的各項功能。

除了上述組成部分之外,云環(huán)境下電子文件管理還需要系統(tǒng)管理、安全保障、容錯機制和服務(wù)質(zhì)量等技術(shù),它們貫穿于云環(huán)境下的電子文件管理系統(tǒng)的所有層次,需要統(tǒng)一設(shè)計和研發(fā)。

2 云端電子文件管理的關(guān)鍵技術(shù)

圖1所示的云環(huán)境下的電子文件管理的通用技術(shù)框架的應(yīng)用需要如下關(guān)鍵技術(shù)的突破:

2.1電子文件的對象建模技術(shù)

電子文件的對象建模是電子文件管理系統(tǒng)的關(guān)鍵步驟之一。在不同的電子文件管理標準中,對電子文件的封裝要求有所不同。如何構(gòu)建SIP ( Submission Information Package,提交信息包)、AIP ( Archival Information Package,存檔信息包)、DIP (Dissemination InformationPackage,發(fā)布信息包)的信息模型以及如何實現(xiàn)這些不同信息包之間的相互轉(zhuǎn)換是云端電子文件管理中需要解決的技術(shù)問題。此外,電子文件對象建模技術(shù)還需要考慮云計算環(huán)境本身的技術(shù)特殊性,如多副本管理、大文件分塊管理、分布式處理等特征。因此,電子文件對象的建模與封裝是云環(huán)境下的電子文件管理系統(tǒng)實現(xiàn)過程中需要解決的關(guān)鍵技術(shù)之一。

2.2海量異構(gòu)電子文件的分布式存取技術(shù)

海量異構(gòu)電子文件的分布式存取是云端電子文件管理系統(tǒng)與傳統(tǒng)電子文件管理系統(tǒng)的區(qū)別之一。以Google文件系統(tǒng)為例,主要技術(shù)特點是采用中心服務(wù)器模式,不緩存數(shù)據(jù),在用戶態(tài)下實現(xiàn)和只提供專用接口。目前的電子文件管理中采用的數(shù)據(jù)處理技術(shù)不能直接應(yīng)用于云環(huán)境下的分布式數(shù)據(jù)處理任務(wù)中。云環(huán)境下的電子文件管理需要進行大文件的分塊、MapReduce、多副本管理、結(jié)點動態(tài)加入、用戶態(tài)下實現(xiàn)等特殊操作。因此,面向海量異構(gòu)電子文件的分布式存取技術(shù)是云端電子文件管理的重要課題之一。

2.3電子文件及其元數(shù)據(jù)的溯源技術(shù)

云計算技術(shù)本身的特殊性為電子文件及其元數(shù)據(jù)的溯源提供了良好的技術(shù)保障。云環(huán)境下電子文件回溯可分為兩類:結(jié)構(gòu)化數(shù)據(jù)表的溯源和非結(jié)構(gòu)化數(shù)據(jù)的溯源。以Bigtable為例,其數(shù)據(jù)模型由行、列、時間戳組成。與傳統(tǒng)數(shù)據(jù)庫不同的是,Bigtable中采用了關(guān)鍵字排序、列簇(ColumnFamily)存儲和時間戳,可以很容易在不同版本之間回溯。此外,云計算環(huán)境中的非結(jié)構(gòu)化數(shù)據(jù)的存儲中采用了多副本技術(shù),也較好地支持文件實體對象的溯源。但是,云計算中的這些技術(shù)并不能完全支持電子文件及其元數(shù)據(jù)的回溯操作,如證據(jù)保留和憑證生成等。因此,憑證性回溯技術(shù)是云端電子文件管理中需要突破的重要技術(shù)。

3 云端電子文件管理的實現(xiàn)方案

圖1所示的云環(huán)境下的電子文件管理通用技術(shù)框架和上述關(guān)鍵技術(shù)的實現(xiàn)需要以下基本原則和實現(xiàn)方法。

3.1實現(xiàn)原則

基于以上分析,可以歸納出,云環(huán)境下電子文件管理系統(tǒng)的構(gòu)建需要遵從以下基本原則:

3.1.1底層技術(shù)的簡單性與上層應(yīng)用的復(fù)雜性之間的平衡原則。簡單實用性是云計算服務(wù)模式的重要特征。其簡單實用性主要體現(xiàn)在兩個層面,一是在云計算的設(shè)計思想中,云計算的實現(xiàn)并不追求新技術(shù)的創(chuàng)造,而更加重視現(xiàn)有技術(shù)的重組;另一個是云計算的實現(xiàn)技術(shù)上,云計算一般采用簡單實用的實現(xiàn)技術(shù),不主張實現(xiàn)技術(shù)的復(fù)雜化。以Amazon提出的SDB(SimpleDB)為例,這種技術(shù)不需要實現(xiàn)定義模式信息,其屬性的修改添加以追加形式實現(xiàn),操作類型簡單(不支持像連接、排序等復(fù)雜操作)。然而,底層的簡單實用往往會增加上層應(yīng)用的復(fù)雜度。因此,在云環(huán)境下的電子文件管理系統(tǒng)的設(shè)計和實現(xiàn)中,不僅要考慮底層技術(shù)的簡單實用原則,而且還注重避免上層應(yīng)用的復(fù)雜性,力求在二者之間達到平衡。

3.1.2經(jīng)濟性與穩(wěn)定性之間的平衡。經(jīng)濟性也是云技術(shù)的重要特征之一,云計算的經(jīng)濟性體現(xiàn)云端和終端的經(jīng)濟性。云端的經(jīng)濟性體現(xiàn)在云端部署在成本相對較低的服務(wù)器硬件之上,不追求服務(wù)器集機群的實時更新?lián)Q代。在計算能力和存儲能力相等的情況下,搭建一個云端服務(wù)器集群的成本要低于購買一臺超級計算機作為服務(wù)器的成本;終端的經(jīng)濟性體現(xiàn)在云計算對終端的要求較低,用戶可以使用瘦終端就可以調(diào)用功能強大的云服務(wù),不需要購買昂貴的軟硬件設(shè)備和進行繁瑣的軟硬件管理與維護工作②。因此,云環(huán)境下的電子文件管理系統(tǒng)的設(shè)計應(yīng)遵循經(jīng)濟性原則,可直接部署在配置較低的普通服務(wù)器硬件上,而且應(yīng)支持多種類型的終端設(shè)備。但是,經(jīng)濟性原則往往帶來穩(wěn)定性問題,尤其是容錯處理問題。經(jīng)濟性帶來的容錯處理是云計算的重要難題之一,涉及云計算中的Master服務(wù)器、Sever服務(wù)器、數(shù)據(jù)管理服務(wù)器等每個組成部分。因此,在經(jīng)濟性和穩(wěn)定性之間的平衡是云環(huán)境下電子文件管理的重要指導(dǎo)原則之一。

3.1.3靈活性與安全性的統(tǒng)一。靈活性(或彈性)作為云計算的重要特征,涉及節(jié)點動態(tài)管理、故障動態(tài)監(jiān)測、動態(tài)故障恢復(fù)、多副本管理、動態(tài)租約管理和彈性服務(wù)組合。顯然,靈活性給電子文件管理系統(tǒng)的技術(shù)實現(xiàn)帶來了較大程度的方便性。但是,靈活性也給電子文件的一致性、可靠性和保密性提出了更復(fù)雜的管理要求。因此,保證靈活性與安全性之間的平衡是云環(huán)境下的電子文件管理系統(tǒng)的IT實現(xiàn)的重要指導(dǎo)原則之一。

3.1.4針對性和可持續(xù)性的統(tǒng)一。針對性強調(diào)的是電子文件管理系統(tǒng)與其他業(yè)務(wù)應(yīng)用系統(tǒng)的區(qū)別性,主要強調(diào)電子文件管理系統(tǒng)遵循相關(guān)的功能要求標準的符合程度。當前國內(nèi)外關(guān)于與電子文件管理系統(tǒng)的功能要求標準有ISO15489、DoD5015.02、Moreq2、ICA、《電子文件歸檔與管理規(guī)范GB/T18894-2002》、《電子文件管理系統(tǒng)通用功能要求》等。因此,云環(huán)境下的電子文件管理系統(tǒng)的實現(xiàn)中必須遵循這些原則和要求,具備較強的針對性或?qū)I(yè)性。同時,針對性的實現(xiàn)也要支持和遵循可持續(xù)性。云環(huán)境下的電子文件管理系統(tǒng)的實現(xiàn)并不要求一步到位,應(yīng)統(tǒng)一規(guī)劃,分步驟實現(xiàn),重視部門協(xié)同和資源共享。因此,針對性和可持續(xù)性的統(tǒng)一是云環(huán)境下的電子文件管理系統(tǒng)的研發(fā)中必須遵循的原則之一。

3.2實現(xiàn)方法

云計算環(huán)境中的電子文件管理系統(tǒng)的實現(xiàn)技術(shù)方案有多種,可以分為兩大類,即商業(yè)解決方案和開源解決方案??紤]到電子文件管理需求的特殊性及未來應(yīng)用的可擴展性,建議采用開源解決方案。目前,主流的開源方案有Hadoop、Eucalyptus、Nimbus和Sectorand Sphere。其中,Hadoop和Eucalyptus分別模仿了兩個主流的商業(yè)解決方案,即Google和Amazon的云技術(shù)。綜合考慮實現(xiàn)技術(shù)的成熟度、普及程度、內(nèi)部技術(shù)的公開性和未來發(fā)展趨勢,建議在云環(huán)境下的電子文件管理中采用基于Hadoop的開源解決方案。

在云環(huán)境下的電子文件管理系統(tǒng)的開發(fā)中應(yīng)采用基于Hadoop的編程模式或類似于Hadoop的編程模式。Hadoop是Apache開源組織提供的一種具有高可靠性、高可擴展性的分布式計算機框架,包括Hadoop Common、Avro、Vhukwa、HBase、HDFS、Hive、MapReduce、Pig和ZooKeeper等編程技術(shù)③。其中,Hadoop HDFS、MapReduce、HBase、ZooKeeper、Pig分別對應(yīng)Google的GFS、MapReduce、Bigtable、Chubby和Sawzall。因此,在圖1所示的通用技術(shù)框架中,可以分別使用Hadoop HDFS、HBase、MapReduce和ZooKeeper技術(shù)實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的存儲、結(jié)構(gòu)化數(shù)據(jù)的存儲、分布式處理和鎖服務(wù)。

4 結(jié)語

以云計算為中心的新型信息生態(tài)環(huán)境為電子文件管理提供了新的計算模式和技術(shù)實現(xiàn)方案。在這種生態(tài)環(huán)境下,云端電子文件管理系統(tǒng)的初期建設(shè)往往定位于SaaS層的私有云。隨著關(guān)鍵技術(shù)和典型應(yīng)用的成熟與發(fā)展,電子文件管理將逐漸采用混合云或公共云技術(shù),并將滲透至云計算的不同層次。為此,本文將云端電子文件管理系統(tǒng)的通用技術(shù)劃分為七個層次,探討所需的四項關(guān)鍵技術(shù),并提出了研發(fā)電子文件管理系統(tǒng)的基本原則和實現(xiàn)方案。因此,本文研究對于云環(huán)境下的電子文件管理系統(tǒng)的研發(fā)活動具有重要的指導(dǎo)意義。在未來的工作中,我們將重點進行實證分析,并進一步完善本文研究成果。

本文是北京市科技計劃課題《基于異構(gòu)系統(tǒng)的電子檔案憑證性保障核心技術(shù)開發(fā)與應(yīng)用》(項目編號Z111100075011001)、國家自然科學(xué)基金項目“語義Web環(huán)境下的大規(guī)模協(xié)同知識處理模型研究”(項目編號71103020)和國家社科基金重大項目《云計算環(huán)境下的信息資源集成與服務(wù)研究》(項目編號:12&ZD220;)的成果之一。

參考文獻:

薛四新,黃萃.云計算環(huán)境下電子文件管理研究綜述[J].北京檔案,2011(09):25-27.

朝樂門,張勇,邢春曉.云端信息資源管理研究[J].情報資料工作,2010(4):44-49.

The Apache Software Foundation.What Is Apache Hadoop[EB/OL]. [2012- 4- 6]. http://hadoop.apache.org/#What+Is+Apache+Hadoop%3F.

作者單位:清華大學(xué)檔案館中國人民大學(xué)數(shù)據(jù)工程與知識工程教育部重點實驗室北京市檔案局

猜你喜歡
云端結(jié)構(gòu)化分布式
促進知識結(jié)構(gòu)化的主題式復(fù)習(xí)初探
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
云端之城
美人如畫隔云端
行走在云端
云端創(chuàng)意
基于DDS的分布式三維協(xié)同仿真研究
基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
西門子 分布式I/O Simatic ET 200AL
基于軟信息的結(jié)構(gòu)化轉(zhuǎn)換
潜山县| 蒲城县| 博爱县| 黎川县| 紫阳县| 资溪县| 泊头市| 高陵县| 松阳县| 阆中市| 搜索| 常山县| 绿春县| 吴桥县| 辉县市| 华容县| 钟祥市| 仁寿县| 泉州市| 梨树县| 金门县| 鹤岗市| 内丘县| 苗栗县| 云浮市| 厦门市| 鄂尔多斯市| 河东区| 玉溪市| 于都县| 图木舒克市| 年辖:市辖区| 江津市| 白沙| 邓州市| 新竹市| 新野县| 青川县| 宜章县| 松滋市| 嵊泗县|