楊 靜 殷建琳
(1.江蘇省檔案局,江蘇南京,210008;2.南京新模式軟件集成有限公司,江蘇南京,210009)
隨著我國(guó)電子政務(wù)和信息化建設(shè)的不斷推進(jìn)及其在各個(gè)領(lǐng)域的廣泛應(yīng)用,產(chǎn)生了類(lèi)型繁多、數(shù)量巨大、內(nèi)容豐富的電子文件。從中央到地方,從各級(jí)國(guó)家行政機(jī)關(guān)到各類(lèi)企事業(yè)單位,甚至每一個(gè)個(gè)人,無(wú)不都在廣泛地使用電子文件。電子檔案的長(zhǎng)期保存也不可逆轉(zhuǎn)地進(jìn)入了大數(shù)據(jù)時(shí)代。
由于傳統(tǒng)存儲(chǔ)設(shè)備容量帶寬有限、設(shè)備節(jié)點(diǎn)不易擴(kuò)展、不易使用、數(shù)據(jù)管理困難,不足以應(yīng)付日益增長(zhǎng)的大數(shù)據(jù),而在云計(jì)算發(fā)展背景下應(yīng)運(yùn)而生的云存儲(chǔ)技術(shù)在一定的程度上解決了這個(gè)難題。云存儲(chǔ)技術(shù)是人類(lèi)進(jìn)入大數(shù)據(jù)時(shí)代一種新型的存儲(chǔ)模式,可以通過(guò)網(wǎng)絡(luò)提供可配置的虛擬化存儲(chǔ)及相關(guān)數(shù)據(jù)訪(fǎng)問(wèn)的服務(wù),為海量數(shù)據(jù)的存儲(chǔ)和管理提供解決方案。
狹義上來(lái)說(shuō),云存儲(chǔ)是一個(gè)以數(shù)據(jù)管理和存儲(chǔ)為核心的云計(jì)算平臺(tái),依靠軟件將分布在不同位置不同種類(lèi)的存儲(chǔ)介質(zhì)有效結(jié)合組成一個(gè)更大的存儲(chǔ)介質(zhì),對(duì)外界提供透明一致的存儲(chǔ)和業(yè)務(wù)訪(fǎng)問(wèn)接口。
云存儲(chǔ)的內(nèi)涵主要是存儲(chǔ)虛擬化和存儲(chǔ)自動(dòng)化,在虛擬存儲(chǔ)技術(shù)之上對(duì)存儲(chǔ)服務(wù)和設(shè)備進(jìn)行虛擬化,即把對(duì)物理存儲(chǔ)數(shù)據(jù)的訪(fǎng)問(wèn)抽象成對(duì)邏輯數(shù)據(jù)的訪(fǎng)問(wèn)。存儲(chǔ)虛擬化除了要實(shí)現(xiàn)異構(gòu)存儲(chǔ)介質(zhì)的互聯(lián)和統(tǒng)一管理,實(shí)現(xiàn)數(shù)據(jù)的共享、沖突解決、一致性及數(shù)據(jù)遷移,實(shí)現(xiàn)數(shù)據(jù)的透明存儲(chǔ)和容錯(cuò)容災(zāi)策略,對(duì)系統(tǒng)有性能優(yōu)化和負(fù)載均衡處理能力之外,還要提供存儲(chǔ)安全和數(shù)據(jù)訪(fǎng)問(wèn)的安全保證,此外虛擬存儲(chǔ)系統(tǒng)本身還要具有高可靠性和高可擴(kuò)展性等特點(diǎn)。
云存儲(chǔ)結(jié)構(gòu)模型是一種層次結(jié)構(gòu),它由4 層組成,見(jiàn)圖1。傳統(tǒng)存儲(chǔ)設(shè)備僅僅是簡(jiǎn)單的硬件范疇,而云存儲(chǔ)的組成更多的是存儲(chǔ)設(shè)備、網(wǎng)絡(luò)設(shè)備、應(yīng)用軟件、服務(wù)器、訪(fǎng)問(wèn)接口等多個(gè)部分的有機(jī)聚合,超越了傳統(tǒng)硬件的單一性。云存儲(chǔ)模型是一種典型的層次結(jié)構(gòu),低一層向高一層提供服務(wù),高一層次不必關(guān)心底層次的業(yè)務(wù)邏輯只需要調(diào)用接口即可,這樣提高層內(nèi)內(nèi)聚度和降低了層次之間耦合性,易于維護(hù)。
(1)云存儲(chǔ)架構(gòu)中最基礎(chǔ)的部分是存儲(chǔ)層。存儲(chǔ)層的設(shè)備可以是網(wǎng)絡(luò)接入服務(wù)器NAS、光纖通道FC、網(wǎng)絡(luò)小型計(jì)算機(jī)系統(tǒng)接口iSCSI 等。這一層的存儲(chǔ)設(shè)備種類(lèi)繁多,由統(tǒng)一的設(shè)備管理系統(tǒng)進(jìn)行集中管理、虛擬化操作、狀態(tài)監(jiān)控和升級(jí)維護(hù)等??紤]到數(shù)據(jù)冗余備份和能量消耗,通常是把存儲(chǔ)集群分布在不同的地域,各個(gè)地域間的集群通過(guò)網(wǎng)絡(luò)互聯(lián)或光纖通道連接形成一個(gè)更大的邏輯設(shè)備。
(2)云存儲(chǔ)架構(gòu)核心部分是基礎(chǔ)管理層,基礎(chǔ)管理層通過(guò)集群應(yīng)用、網(wǎng)格計(jì)算、分布式文件系統(tǒng)等技術(shù)實(shí)現(xiàn)多個(gè)存儲(chǔ)設(shè)備之間的協(xié)同工作,使多個(gè)設(shè)備可以向外提供相同的服務(wù)。該層的P2P對(duì)等存儲(chǔ)技術(shù)可以保證數(shù)據(jù)的高擴(kuò)展性和高容錯(cuò)性。為了保證云存儲(chǔ)介質(zhì)中的數(shù)據(jù)不會(huì)被未授權(quán)的用戶(hù)訪(fǎng)問(wèn),該層采取內(nèi)容分發(fā)系統(tǒng)和數(shù)據(jù)加密技術(shù),同時(shí)為了達(dá)到數(shù)據(jù)冗余和云存儲(chǔ)自身安全穩(wěn)定的目的在該層采用數(shù)據(jù)容災(zāi)備份技術(shù)。
(3)應(yīng)用接口層是云存儲(chǔ)框架中最靈活多變的一層,因?yàn)樵搶拥慕M成由實(shí)際的運(yùn)營(yíng)單位決定,業(yè)務(wù)的不同會(huì)有不同的應(yīng)用接口提供不同的服務(wù),例如網(wǎng)絡(luò)硬盤(pán)的接口、視頻監(jiān)控的應(yīng)用平臺(tái)等。
(4)訪(fǎng)問(wèn)層是用戶(hù)可以直接接觸到層次,任何有權(quán)限的用戶(hù)都可以通過(guò)該層的接口進(jìn)入云存儲(chǔ)系統(tǒng),享受云存儲(chǔ)高效便捷的服務(wù)。
圖1 云存儲(chǔ)結(jié)構(gòu)模型
目前,最為流行的開(kāi)源云計(jì)算平臺(tái)是Apache 基金組織開(kāi)發(fā)的Hadoop 生態(tài)系統(tǒng)。Hadoop 系統(tǒng)在實(shí)現(xiàn)上借鑒了谷歌云計(jì)算的理論架構(gòu),具有良好的可靠性、擴(kuò)展性和容錯(cuò)性?;贖adoop 的核心技術(shù)HDFS、MapReduce和HBase可以為用戶(hù)提供一個(gè)系統(tǒng)底層透明的云存儲(chǔ)系統(tǒng),這個(gè)系統(tǒng)可以針對(duì)PB級(jí)數(shù)據(jù)存儲(chǔ)和管理。
HDFS 是Hadoop 中 眾 多 技 術(shù)的基礎(chǔ),很多更高級(jí)的應(yīng)用都是建立在這個(gè)分布式文件系統(tǒng)上的。HDFS 存儲(chǔ)對(duì)象針對(duì)大規(guī)模的應(yīng)用數(shù)據(jù),數(shù)據(jù)吞吐量高且具有容錯(cuò)性。Hadoop 中有一個(gè)綜合性的文件抽象系統(tǒng),它提供了文件系統(tǒng)實(shí)現(xiàn)的各類(lèi)接口,HDFS只是這個(gè)抽象文件系統(tǒng)的一個(gè)實(shí)例。
HDFS 結(jié)構(gòu)采用云存儲(chǔ)架構(gòu)松弛耦合非對(duì)稱(chēng)架構(gòu),是一個(gè)主從結(jié)構(gòu)體系,它有兩類(lèi)節(jié)點(diǎn),一類(lèi)是Namenode,另一類(lèi)是Datanode。這兩類(lèi)節(jié)點(diǎn)分別承擔(dān)管理者和執(zhí)行者的任務(wù)。Namenode 是管理集群中的任務(wù)執(zhí)行調(diào)度,Datanode 是具體任務(wù)的執(zhí)行節(jié)點(diǎn)。NameNode是整個(gè)HDFS 的管理節(jié)點(diǎn),相當(dāng)于集群的大腦,負(fù)責(zé)收集和管理存儲(chǔ)節(jié)點(diǎn)上文件的元數(shù)據(jù),維護(hù)整個(gè)集群上文件系統(tǒng)的命名空間。NameNode執(zhí)行文件系統(tǒng)命名空間的打開(kāi)、關(guān)閉、重命名等操作??蛻?hù)端若想操作文件首先要通過(guò)NameNode通信獲得文件的元數(shù)據(jù)信息,如得到文件的存儲(chǔ)節(jié)點(diǎn),然后去和存儲(chǔ)節(jié)點(diǎn)交互操作完成數(shù)據(jù)的訪(fǎng)問(wèn)。從Namenode 中可以獲得每個(gè)文件的每個(gè)塊所在的Datanode。需要注意的是,這些信息是臨時(shí)的,Namenode 會(huì)在每次文件系統(tǒng)重啟的時(shí)候動(dòng)態(tài)地重建這些信息。
Datanode是文件系統(tǒng)的工作和存儲(chǔ)節(jié)點(diǎn)。HDFS文件系統(tǒng)存在一個(gè)文件塊Block的概念,若存儲(chǔ)在上面的一個(gè)文件大于這個(gè)塊的大小,文件會(huì)被切分成很多塊并盡可能分散存儲(chǔ)在不同的數(shù)據(jù)節(jié)點(diǎn)Datanode上。Datanode主要職責(zé)是響應(yīng)客戶(hù)的讀寫(xiě)數(shù)據(jù)請(qǐng)求,以及在Namenode的統(tǒng)一管理指揮下對(duì)數(shù)據(jù)塊進(jìn)行復(fù)制、刪除、創(chuàng)建等操作,并且通過(guò)心跳機(jī)制定時(shí)向Namenode 報(bào)道節(jié)點(diǎn)上的數(shù)據(jù)塊的情況,默認(rèn)條件下DataNode上的數(shù)據(jù)復(fù)制成三份。
為了提高NameNode節(jié)點(diǎn)的內(nèi)存效率,需要把對(duì)文件系統(tǒng)元數(shù)據(jù)的操作分開(kāi),NameNode 中采用了編輯日志文件(Editlog)和映像文件(FsImage)策略。編輯日志和映像文件都存儲(chǔ)在Namenode 的本地文件系統(tǒng),前者負(fù)責(zé)記錄HDFS 文件元數(shù)據(jù)的變化,后者存儲(chǔ)整個(gè)文件系統(tǒng)的命名空間,即所有文件或數(shù)據(jù)塊的元數(shù)據(jù)信息。兩者的作用關(guān)系是,HDFS在啟動(dòng)的時(shí)候會(huì)把磁盤(pán)中的映像文件和編輯日志文件加載到內(nèi)存中,按照日志文件上記錄的元數(shù)據(jù)變化更改映像文件,然后新的映像文件刷新到本地磁盤(pán),舊的編輯日志文件被置空等待新的操作寫(xiě)入。同時(shí)為了減輕NameNode的負(fù)擔(dān),HDFS為Namenode還提供了一個(gè)輔助名字節(jié)點(diǎn)(Secondary Namenode),Namenode啟動(dòng)的時(shí)候合并映像文件和編輯日志,而剩下的時(shí)間里輔助名字節(jié)點(diǎn)會(huì)周期地從名字節(jié)點(diǎn)上復(fù)制映像文件和編輯日志到輔助節(jié)點(diǎn)上合成一個(gè)新的映像文件,合并生成新的映像文件后重新傳到名字節(jié)點(diǎn)替換掉原來(lái)的映像節(jié)點(diǎn)。
出于安全性的考慮,HDFS 集群上的節(jié)點(diǎn)一般部署在不同的機(jī)架上,機(jī)架之間節(jié)點(diǎn)的交互通信都要經(jīng)過(guò)交換機(jī)。默認(rèn)情況下當(dāng)集群副本因子為3 時(shí),一個(gè)副本放在與原始數(shù)據(jù)相同的機(jī)架的另一個(gè)節(jié)點(diǎn)上,機(jī)架內(nèi)節(jié)點(diǎn)間的帶寬要比機(jī)架間節(jié)點(diǎn)的帶寬大,這樣可以保證較快訪(fǎng)問(wèn)數(shù)據(jù)。另外一個(gè)副本則放置在與原始數(shù)據(jù)不同的機(jī)架上,機(jī)架的錯(cuò)誤率要比節(jié)點(diǎn)錯(cuò)誤率低,可以防止整個(gè)機(jī)架失效時(shí)數(shù)據(jù)丟失。
借鑒了Google的Mapreduce編程思想,Hadoop 也有一套MapReduce 編程模型,在這個(gè)模型上做并行開(kāi)發(fā)很容易實(shí)現(xiàn)數(shù)據(jù)處理。MapReduce把數(shù)據(jù)的處理分為兩個(gè)階段:映射Map 和化簡(jiǎn)Reduce。也就是說(shuō)先對(duì)數(shù)據(jù)分解操作,針對(duì)分解的片段分別處理,在Reduce階段把結(jié)果匯總得到最后結(jié)果。并不是所有的數(shù)據(jù)都適合MapReduce 處理,用MapReduce 編程要體現(xiàn)一個(gè)分而治之的思想:首先把待處理的數(shù)據(jù)集分解成許多小的數(shù)據(jù)集,每一個(gè)小的數(shù)據(jù)集可以分別并行進(jìn)行處理。
在Map 映射階段,MapReduce框架將用戶(hù)輸入數(shù)據(jù)分割成為M個(gè)片段,對(duì)應(yīng)M個(gè)Map任務(wù)。對(duì)數(shù)據(jù)分解操作,針對(duì)分解的片段分別處理,在Reduce階段把結(jié)果匯總得到最后結(jié)果。
Hadoop是基于LCA架構(gòu)的,不僅HDFS存在兩類(lèi)節(jié)點(diǎn),MapReduce也存在管理任務(wù)JobTracker和執(zhí)行任務(wù)TaskTracker。JobTracker 是管理者,負(fù)責(zé)調(diào)度和監(jiān)控TaskTracker的執(zhí)行,JobTracker分派任務(wù)把Map和Redece 函數(shù)交給空閑的TaskTracker去執(zhí)行。TaskTracker負(fù)責(zé)執(zhí)行JobTracker 分配的任務(wù),若TaskTracker 運(yùn)行出現(xiàn)問(wèn)題,JobTracker 將調(diào)度另外的一個(gè)空閑的TaskTracker重新開(kāi)始執(zhí)行。
HBase是基于列的分布式數(shù)據(jù)庫(kù),與傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)相比,它的特點(diǎn)如下:
(1)數(shù)據(jù)類(lèi)型:關(guān)系型數(shù)據(jù)庫(kù)有豐富的類(lèi)型選擇(比如日期、整型、字符串等)和存儲(chǔ)方式。HBase 沒(méi)有那么多類(lèi)型只有字符串類(lèi)型,所有的類(lèi)型都是由用戶(hù)自己處理的。
(2)數(shù)據(jù)操作:傳統(tǒng)數(shù)據(jù)庫(kù)有各種各樣的函數(shù)、連接操作。針對(duì)HBase 的操作相對(duì)比較簡(jiǎn)單,只有插入、刪除、查詢(xún)、清空等。表之間的關(guān)系也很簡(jiǎn)單,表與表相互分離,所以沒(méi)有表與表之間的連接操作。
(3)存儲(chǔ)模式:關(guān)系表中的數(shù)據(jù)通常是基于表結(jié)構(gòu)和行來(lái)存儲(chǔ)的,而HBase則是基于列存儲(chǔ)的。
(4)數(shù)據(jù)維護(hù):傳統(tǒng)數(shù)據(jù)庫(kù)更新操作時(shí)是替換操作,新值替換掉舊值。HBase 中,確切的說(shuō)是不應(yīng)該叫做更新,因?yàn)楦潞笈f的版本依舊會(huì)保留。
(5)可伸縮性:傳統(tǒng)的數(shù)據(jù)庫(kù)可伸縮性差,需要增加中間層次才可實(shí)現(xiàn)伸縮性。而HBase設(shè)計(jì)之初就考慮到了伸縮性,可以很輕易動(dòng)態(tài)增加和刪除節(jié)點(diǎn),這樣對(duì)錯(cuò)誤有較高的兼容性。
電子檔案的長(zhǎng)期保存需要一個(gè)存儲(chǔ)平臺(tái)。這個(gè)平臺(tái)需要滿(mǎn)足以下的要求:
(1)容量大。電子政務(wù)、商務(wù)等辦公過(guò)程中產(chǎn)生了大量的電子文件,這些文件歸檔數(shù)據(jù)的存儲(chǔ)要求一個(gè)大的存儲(chǔ)容納空間。
(2)性能高。存儲(chǔ)平臺(tái)要有高的并發(fā)性來(lái)響應(yīng)用戶(hù)的請(qǐng)求。
(3)可靠性高。為防止數(shù)據(jù)丟失,采取冗余備份機(jī)制盡可能地將數(shù)據(jù)分散存儲(chǔ)保證數(shù)據(jù)可靠性。
(4)擴(kuò)展性好。隨著時(shí)間的推移,產(chǎn)生的電子檔案數(shù)量將不斷增加,這要求這個(gè)存儲(chǔ)平臺(tái)可以動(dòng)態(tài)擴(kuò)展存儲(chǔ)空間來(lái)滿(mǎn)足不斷增長(zhǎng)的電子檔案。
(5)數(shù)據(jù)簡(jiǎn)單處理。系統(tǒng)需要對(duì)存儲(chǔ)平臺(tái)上的數(shù)據(jù)進(jìn)行簡(jiǎn)單地處理,這些處理提取出存儲(chǔ)文件中的關(guān)鍵信息,并對(duì)這些信息進(jìn)行存儲(chǔ),方便以后查詢(xún)檢索等操作。
云存儲(chǔ)是一種通過(guò)網(wǎng)絡(luò)提供可配置的虛擬化存儲(chǔ)的服務(wù)。云存儲(chǔ)的實(shí)現(xiàn)可用Hadoop 技術(shù)搭建一個(gè)云存儲(chǔ)平臺(tái),這在一定程度上解決了電子檔案數(shù)據(jù)的真實(shí)性、完整性、安全性、存儲(chǔ)成本等問(wèn)題。
系統(tǒng)基于MVC三層架構(gòu)體系,層次清楚、易于開(kāi)發(fā)、方便維護(hù)和部署、有利于軟件工程化管理,結(jié)構(gòu)設(shè)計(jì)如圖2所示。
顯示層是用戶(hù)可以看到的與系統(tǒng)進(jìn)行交互的界面。用戶(hù)可以通過(guò)頁(yè)面來(lái)進(jìn)行對(duì)文件系統(tǒng)的增加、刪除、查找等基本操作,系統(tǒng)管理員可以在顯示層對(duì)集群運(yùn)行狀況進(jìn)行監(jiān)控和維護(hù),還能對(duì)用戶(hù)進(jìn)行管理。
業(yè)務(wù)邏輯層表示整個(gè)系統(tǒng)業(yè)務(wù)邏輯和規(guī)則,在該層并行處理對(duì)HDFS和HBase數(shù)據(jù)的訪(fǎng)問(wèn),處理如頁(yè)面轉(zhuǎn)發(fā)等基本邏輯,對(duì)整個(gè)平臺(tái)存儲(chǔ)系統(tǒng)進(jìn)行配置,可以理解為T(mén)omcat服務(wù)器。
數(shù)據(jù)存儲(chǔ)層是整個(gè)存儲(chǔ)系統(tǒng)的基礎(chǔ),主要是利用HDFS 和HBase對(duì)電子文檔建立倒排索引,并對(duì)元數(shù)據(jù)進(jìn)行存儲(chǔ)。
3.3.1 文件上傳流程
云存儲(chǔ)平臺(tái)有很多邏輯處理流程,現(xiàn)在最復(fù)雜的是電子文件上傳時(shí)的過(guò)程。首先,外部數(shù)據(jù)由交互界面瀏覽器端的fileUpload 組件傳到后臺(tái)中心處理模塊,中心處理模塊初步處理電子文件提取出電子文件的元數(shù)據(jù)信息比如文件名、文件大小、文件類(lèi)型等存儲(chǔ)到HBase 數(shù)據(jù)庫(kù)里面。如果文件大小超過(guò)一定的閾值可直接存放到HDFS 里面,如果文件小于閾值先把文件放到服務(wù)器的小文件隊(duì)列里面,當(dāng)文件隊(duì)列滿(mǎn)或者是定時(shí)器間隔到則對(duì)小文件隊(duì)列里面的文件作Sequence壓縮處理,處理后合并成大文件存放到HDFS 中。當(dāng)文件放到HDFS 之后對(duì)上面的文件作MapReduce 處理,建立倒排索引,然后把索引放到數(shù)據(jù)HBase中去。
圖2 云存儲(chǔ)系統(tǒng)MVC架構(gòu)圖
3.3.2 文件下載流程
用戶(hù)進(jìn)行文件下載操作時(shí),判斷文件是否為空、為多個(gè)文件或?yàn)槲募A,如果是上述情況,輸出用戶(hù)錯(cuò)誤提示信息。用戶(hù)選定文件成功,系統(tǒng)將對(duì)用戶(hù)提交的數(shù)據(jù)進(jìn)行處理,并判斷選定文件是否存在于HDFS 中,如果不存在,返回頁(yè)面。如果文件存在,則讀取文件內(nèi)容,修改HTTP 協(xié)議的Head 信息,發(fā)送讀取數(shù)據(jù)到瀏覽器輸出,返回頁(yè)面。
3.3.3 文件夾目錄創(chuàng)建流程
用戶(hù)創(chuàng)建目錄時(shí),系統(tǒng)將判斷該用戶(hù)是否有創(chuàng)建目錄的權(quán)限,如果不允許在該目錄下創(chuàng)建文件夾將提示用戶(hù)相關(guān)信息,返回頁(yè)面。如果用戶(hù)擁有權(quán)限判斷成功,系統(tǒng)將異步提交用戶(hù)數(shù)據(jù)到服務(wù)端,服務(wù)器對(duì)用戶(hù)數(shù)據(jù)字符處理判斷該文件夾是否已存在。系統(tǒng)在用戶(hù)指定目錄創(chuàng)建文件夾,完成后,檢測(cè)其文件夾是否創(chuàng)建成功。如果目錄創(chuàng)建成功,則記錄日志到數(shù)據(jù)庫(kù),提示用戶(hù)創(chuàng)建成功返回頁(yè)面。
3.3.4 文件重命名
用戶(hù)重命名文件(文件夾)時(shí),系統(tǒng)將會(huì)判斷用戶(hù)的權(quán)限,如果權(quán)限不允許用戶(hù)進(jìn)行重命名操作,將提示用戶(hù)相關(guān)信息并返回提示頁(yè)面。當(dāng)用戶(hù)權(quán)限認(rèn)證成功后,系統(tǒng)將彈出對(duì)話(huà)框,上面是舊文件名稱(chēng)下面是要求和輸入新的文件名,用戶(hù)可以將名稱(chēng)修改,鼠標(biāo)點(diǎn)擊保存。用戶(hù)向服務(wù)器提交相關(guān)數(shù)據(jù),服務(wù)器對(duì)提交的數(shù)據(jù)進(jìn)行過(guò)濾驗(yàn)證處理,用戶(hù)輸入數(shù)據(jù)驗(yàn)證成功,如果該新文件名已經(jīng)存在,輸出用戶(hù)提示信息并返回頁(yè)面。
*本文系江蘇省檔案局科研項(xiàng)目“基于云存儲(chǔ)的電子檔案長(zhǎng)期保存技術(shù)研究”(項(xiàng)目編號(hào)2014-1)的研究成果之一。
[1]薛四新.云計(jì)算環(huán)境下電子文件管理的實(shí)現(xiàn)機(jī)理[M].上海:世界圖書(shū)出版公司,2013.
[2]劉鵬.實(shí)戰(zhàn)Hadoop--開(kāi)啟通向云計(jì)算的捷徑[M].北京:電子工業(yè)出版社,2011.
[3]GB/T18894-201X,電子文件歸檔與電子檔案管理規(guī)范[S].