云雅
【摘要】Hadoop系統(tǒng)在我國當前數(shù)字化檔案共享平臺體系構建中發(fā)揮著重要作用。本文結合Hadoop系統(tǒng)在云平臺共享體系中的主要功能,開展了體系構建中的功能設置研究。這一研究的開展對于提高我國檔案云平臺共享體系,以及Hadoop云平臺技術發(fā)展都起到了不可忽視的作用。
【關鍵詞】Hadoop云平臺;檔案共享體系;構建
隨著數(shù)字化檔案建設的不斷推進,大數(shù)據(jù)與云平臺技術在數(shù)字檔案體系建設中得到廣泛應用。其中Hadoop系統(tǒng)是當前數(shù)字化檔案建設中較為常用的一種數(shù)據(jù)存儲與處理技術。特別是這一系統(tǒng)技術中的云平臺技術特征,對于數(shù)字化檔案管理與應用起到了不可忽視的作用。因此研究者在2016年海南省哲學社會科學規(guī)劃課題“基于分布式系統(tǒng)的檔案資源集成平臺模式研究”中,開展了Hadoop云平臺支持下的檔案共享體系構建研究,并將其作為其中研究成果之一,為Hadoop數(shù)字化檔案系統(tǒng)建設提供理論支持。
一、檔案云平臺共享遇到的問題與Hadoop應用
在當前的數(shù)字化檔案管理中,云平臺共享是其主要的共享模式。但是在實際的云平臺共享過程中,管理者也遇到了部分問題。為了解決這些問題,管理與技術人員采用了Hadoop技術進行了應對處理。
(一)檔案數(shù)量與類型龐大復雜。數(shù)字化檔案管理與共享是建立在大數(shù)據(jù)模式下的一種新型檔案管理模式。而大數(shù)據(jù)技術應用的特點就是數(shù)據(jù)信息的復雜與龐大。單就數(shù)字化檔案管理而言,大數(shù)據(jù)支持下的檔案無論是數(shù)量還是種類都超過了傳統(tǒng)檔案。就數(shù)量而言,大數(shù)據(jù)檔案已經(jīng)達到了PB級別;就種類而言,數(shù)字化檔案內(nèi)部包括了文字、視頻、圖片、音頻等各種類型。因此更好地處理這些體積龐大、種類復雜的檔案文件,最終實現(xiàn)云平臺共享,就成為了檔案技術研究的重要內(nèi)容。而在這一過程中,Hadoop系統(tǒng)技術的應用很好地解決了這一問題。主要是因為這一技術具有以下兩個優(yōu)勢:1.龐大的數(shù)據(jù)儲存能力。Hadoop系統(tǒng)采用了HDFS存儲系統(tǒng),可以實現(xiàn)海量的數(shù)據(jù)信息存儲;而其數(shù)據(jù)處理系統(tǒng)也是PB級別的處理模式,進而解決了檔案數(shù)據(jù)龐大的問題。2.集成化數(shù)據(jù)庫系統(tǒng)的應用。由于Hadoop系統(tǒng)采用的是集成化數(shù)據(jù)庫系統(tǒng),因此其數(shù)據(jù)存儲采用了內(nèi)部共享模式,可以實現(xiàn)檔案存儲中不同數(shù)據(jù)庫內(nèi)容的有效共享,避免出現(xiàn)文件格式間檢索困難的問題。
(二)需求針對性服務共享困難。針對性服務是當前數(shù)字檔案服務的主要發(fā)展方向,也是技術支持的主要對象。但是在數(shù)字化檔案云平臺共享中,如何針對客戶需求開展針對性共享服務一直是技術發(fā)展的難題。為了解決這一問題,技術人員結合云平臺共享特征,利用Hadoop系統(tǒng)技術開展了技術應對研究。
(三)數(shù)據(jù)資源共享問題。隨著大數(shù)據(jù)時代的來臨,檔案信息資源共享已經(jīng)不再集中于單一的檔案數(shù)據(jù)系統(tǒng),而是建立在云平臺整體環(huán)境中。在這一過程中,如何實現(xiàn)不同檔案數(shù)據(jù)系統(tǒng)資源共享,形成云平臺下的資源共享模式,就成為了檔案共享研究的重要內(nèi)容。Hadoop系統(tǒng)正是在這一技術要求下,由谷歌開發(fā)研制的一個具有較強伸縮性,同時運行穩(wěn)定的數(shù)據(jù)系統(tǒng)。因此在這一系統(tǒng)運行中,既可以通過云平臺與其他檔案系統(tǒng)形成大數(shù)據(jù)交換,同時完成高效的數(shù)據(jù)處理過程,形成穩(wěn)定的檔案資源共享。
二、Hadoop系統(tǒng)支持下的檔案云平臺共享設計
Hadoop系統(tǒng)技術的應用對于檔案資源的云共享平臺建設起到了重要的技術支持作用。為此技術人員以Hadoop系統(tǒng)為基礎,開展了共享平臺設計。
(一)系統(tǒng)功能框架設置。在共享系統(tǒng)設計開始前,設計者首先需要根據(jù)共享要求設置其基本功能子系統(tǒng),形成Hadoop平臺的云服務的整體框架。在實際的檔案共享系統(tǒng)中,其基本功能系統(tǒng)包括了以下幾個組成部分:一是系統(tǒng)控制功能。二是檔案信息存儲系統(tǒng)。三是檔案文件資源共享系統(tǒng)。四是檔案查找與使用權限管理系統(tǒng)。五是安全以及檔案資源備份與恢復系統(tǒng)等功能系統(tǒng)。在這些功能系統(tǒng)的設置中,技術人員的主要工作包括了以下幾個內(nèi)容:1.系統(tǒng)設置中首先需要通過Hadoop系統(tǒng)對已有各數(shù)據(jù)庫內(nèi)的數(shù)字檔案信息進行整合。2.通過MapReduce處理技術將已有的資源集中到云平臺服務架構中進行管理,實現(xiàn)云平臺下的檔案資源的儲存與分析處理。3.建立網(wǎng)絡與單機并存的控制系統(tǒng),進而在網(wǎng)絡平臺與控制主機都可以實現(xiàn)全部檔案資源的讀寫、查詢、備份恢復等功能。4.對于具有保密性質(zhì)或涉及個人因素的檔案內(nèi)容,系統(tǒng)需要利用秘鑰與口令設置管理權限,避免檔案泄密問題的出現(xiàn)。5.根據(jù)系統(tǒng)保密等級,為網(wǎng)絡云平臺系統(tǒng)設置相對應的安全管理權限,確保云平臺中檔案安全性。
(二)設計主要流程。檔案共享平臺設計中,技術人員需要根據(jù)Hadoop系統(tǒng)中的數(shù)據(jù)與文件處理方式合理設置設計流程,進而確保共享平臺使用的合理性。在系統(tǒng)設計中其主要的流程包括了以下幾點:1.存儲功能設置。在云平臺共享系統(tǒng)中,Hadoop采用的是自身攜帶的HDFS系統(tǒng)。在實際應用中這一系統(tǒng)使用的是抽象化的塊存儲結構。這種結構使得系統(tǒng)存儲不會受到云平臺中任何節(jié)點磁盤大小的限制,極大地提高了檔案數(shù)據(jù)信息儲存數(shù)量。在實際的存儲設置中,為了提高檔案數(shù)據(jù)管理的有序性與安全性,實現(xiàn)Hadoop高效的錯容功能,其元數(shù)據(jù)信息與文件塊應采用分開存儲模式。同時在HDFS數(shù)據(jù)儲存中,設置者應建立默認文件復制狀態(tài),并將復制文件儲存在儲存集群不同節(jié)點上。這種復制文件儲存模式可以在云平臺某個節(jié)點故障文件遺失的情況下,利用NameNode獲取元數(shù)據(jù)信息,進而確保檔案元數(shù)據(jù)安全。2.檔案讀取功能設置。在檔案云平臺讀取中,Hadoop主要是通過讀取NameNode中存儲的編輯日志與鏡像空間內(nèi)容,獲得檔案內(nèi)容。因此在功能設置中,技術人員人員應確保系統(tǒng)啟動過程中,NameNode可以在動態(tài)狀態(tài)下重建以上信息,進而確保檔案讀取者可以可以通過NameNode得到所需的元數(shù)據(jù)信息,進而通過節(jié)點獲取到檔案文件。同時在云平臺檔案數(shù)據(jù)讀取中,一般都是采用JavaApi接口,利用Java.net.URL打開所需數(shù)據(jù)流,最終通過Filesystem指定路徑對象,完成檔案的讀取與重載控制。3.文件查詢功能設置。Hadoop支持下的檔案云平臺是通過HIVE數(shù)據(jù)倉庫中的JavaApi接口完成所需的查詢工作。這一查詢功能主要包括了原屬信息、文件目錄結構以及檔案目錄匹配等各種查詢功能。其主要的查詢方法設置包括了以下幾類:一是檔案元數(shù)據(jù)查詢,主要是利用Filestatus進行操作。二是列出目錄文件信息查詢,主要是利用liststatus方法進行操作。三是通過日志文件,利用大數(shù)據(jù)挖掘模式對云平臺海量數(shù)據(jù)進行目錄篩選查詢。4.訪問權限功能設置。從Hadoop2.0系統(tǒng)開始,系統(tǒng)中增加了全新的安全與授權機制(Simple和Kerberos)。因此管理者可以根據(jù)檔案的安全級別,建立起相應的安全訪問授權功能。如金融檔案等具有較高隱私性、保密性的檔案管理中,系統(tǒng)超級管理員都應具有設置訪問權限的權利與職責。一般訪問者檔案使用權限包括了查閱、拷貝、修改等不同內(nèi)容。同時對于訪問安全要求較高的檔案內(nèi)容應設置訪問者的專用秘鑰或授權令牌,確保云平臺下檔案的安全性能。
三、結束語
隨著Hadoop系統(tǒng)在檔案云平臺管理中的不斷應用,其在檔案共享中的技術支持作用越來越明顯。因此系統(tǒng)設置研究者,結合檔案云共享平臺中的儲存、讀取、查詢以及安全授權四個主要功能,開展了Hadoop支持下的系統(tǒng)體系構建研究。
【本文為2016年海南省哲學社會科學規(guī)劃課題“基于分布式系統(tǒng)的檔案資源集成平臺模式研究”(項目編號:HNSK(ZC)16-47)的成果之一】
【參考文獻】
[1]陶水龍.檔案數(shù)字資源云備份策略的分析與研究[J].檔案學通訊,2012(04).
[2]陳晨.基于云計算的圖書館信息資源共享系統(tǒng)研究[J].現(xiàn)代情報,2011(10).
[3]趙保,任慧朋.Hadoop云平臺下醫(yī)療檔案共享體系的構建[J].中國病案,2016(11).