国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)時(shí)代的檔案信息平臺(tái)建設(shè)

2015-12-28 02:45:38安亞翔
檔案與建設(shè) 2015年10期
關(guān)鍵詞:存儲(chǔ)系統(tǒng)結(jié)構(gòu)化管理員

王 平 安亞翔

(1.江蘇省檔案館,江蘇南京,210008;2.南京軍區(qū)空軍司令部直工處,江蘇南京,210018)

1 檔案信息化進(jìn)入大數(shù)據(jù)時(shí)代

“大數(shù)據(jù)”已越來越成為社會(huì)各界一個(gè)時(shí)髦的詞匯。2012年《紐約時(shí)報(bào)》的一篇專欄中寫到,“‘大數(shù)據(jù)’時(shí)代已經(jīng)降臨”。在維基百科中“大數(shù)據(jù)”(Big data)指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工在合理時(shí)間內(nèi)達(dá)到截取、管理、處理,并整理成為人類所能解讀的信息。根據(jù)互聯(lián)網(wǎng)數(shù)據(jù)中心的資料,2012年全球的數(shù)據(jù)總量為2.7ZB。到目前為止,人類生產(chǎn)的所有印刷材料的總數(shù)據(jù)量是200PB,而歷史上全人類說過的所有的話的數(shù)據(jù)量大約是5EB。全球知名研究機(jī)構(gòu)IDC預(yù)測(cè),2020年,全球數(shù)據(jù)規(guī)模將達(dá)到40ZB。

毋庸置疑,這些數(shù)據(jù)中部分最終將做為檔案進(jìn)入各級(jí)數(shù)字檔案館中進(jìn)行存儲(chǔ)、管理和利用,并通過各種網(wǎng)絡(luò)平臺(tái)提供公共檔案信息服務(wù)和共享利用。

對(duì)于檔案大數(shù)據(jù)的特點(diǎn),可以分 別 用 Volume、Variety、Value、Velocity這4個(gè)V開頭的英文單詞來概括。

第一,檔案數(shù)據(jù)體量巨大(Volume)。隨著館藏檔案數(shù)字化率不斷提高和電子檔案的采集歸檔,各個(gè)數(shù)字檔案館的數(shù)據(jù)容量將逐步從TB級(jí)別躍升到PB乃至EB級(jí)別。

第二,檔案數(shù)據(jù)類型繁多(Variety)。這種類型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。相對(duì)于以往便于存儲(chǔ)的以文本為主的結(jié)構(gòu)化數(shù)據(jù),越來越多的非結(jié)構(gòu)化數(shù)據(jù)的產(chǎn)生給所有廠商都提出了挑戰(zhàn)。拜互聯(lián)網(wǎng)和通信技術(shù)近年來迅猛發(fā)展所賜,如今的數(shù)據(jù)類型早已不是單一的文本形式,網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等多類型的數(shù)據(jù)對(duì)數(shù)據(jù)處理能力提出了更高的要求。

第三,檔案數(shù)據(jù)價(jià)值密度低(Value)。價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比。以視頻為例,一部一小時(shí)的視頻,在連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。如何通過強(qiáng)大的機(jī)器算法更迅速地完成數(shù)據(jù)的價(jià)值“提純”是目前大數(shù)據(jù)背景下亟待解決的難題。

挖掘大數(shù)據(jù)的價(jià)值類似沙里淘金,從海量數(shù)據(jù)中挖掘稀疏但珍貴的信息。

第四,需對(duì)檔案數(shù)據(jù)進(jìn)行快速查詢利用(Velocity)。根據(jù)IDC的一份名為“數(shù)字宇宙”的報(bào)告,預(yù)計(jì)到2020年全球數(shù)據(jù)使用量將會(huì)達(dá)到35.2ZB。在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是信息平臺(tái)的生命。

對(duì)于檔案大數(shù)據(jù)應(yīng)用而言,要能在10秒鐘內(nèi)形成答案。實(shí)時(shí)處理的要求,是區(qū)別大數(shù)據(jù)引用和傳統(tǒng)數(shù)據(jù)倉庫技術(shù)、商業(yè)智能技術(shù)的關(guān)鍵差別之一。

檔案信息化管理也正在進(jìn)入大數(shù)據(jù)時(shí)代。如何滿足大數(shù)據(jù)時(shí)代對(duì)數(shù)字檔案的收、存、管、用的需求,特別實(shí)現(xiàn)是“大數(shù)據(jù)”檔案的長(zhǎng)期保存和高效利用是一個(gè)重要的課題。

2 檔案大數(shù)據(jù)存儲(chǔ)系統(tǒng)建設(shè)

隨著信息技術(shù)發(fā)展速度越來越快,數(shù)字化檔案數(shù)量不斷翻番,檔案數(shù)據(jù)除了包括各類結(jié)構(gòu)化的檔案目錄外,還包括大量非結(jié)構(gòu)化的檔案數(shù)字化原文和電子檔案數(shù)據(jù)的優(yōu)化存儲(chǔ)。利用存儲(chǔ)基礎(chǔ)設(shè)施提供的強(qiáng)大功能存放數(shù)據(jù),實(shí)現(xiàn)長(zhǎng)期保存,讓數(shù)據(jù)能夠被高效使用。

檔案大數(shù)據(jù)存儲(chǔ)平臺(tái)建設(shè)首要工作是對(duì)現(xiàn)有的存儲(chǔ)資源進(jìn)行整合,建立以檔案數(shù)據(jù)為中心,分布處理、集中管理的存儲(chǔ)體系,最大限度地發(fā)揮整個(gè)存儲(chǔ)系統(tǒng)的性能。檔案大數(shù)據(jù)存儲(chǔ)平臺(tái)應(yīng)能達(dá)到如下的功能要求:

(1)檔案大數(shù)據(jù)應(yīng)統(tǒng)一集中存儲(chǔ)。

(2)存儲(chǔ)系統(tǒng)應(yīng)具有高容量和高穩(wěn)定性。

(3)存儲(chǔ)系統(tǒng)應(yīng)具有良好的性能。

(4)存儲(chǔ)系統(tǒng)應(yīng)支持管理員對(duì)存儲(chǔ)空間的靈活分配和配置。

(5)存儲(chǔ)系統(tǒng)應(yīng)具有高度的安全性和完善的權(quán)限控制。

(6)存儲(chǔ)系統(tǒng)應(yīng)具有高可靠性和安全性。

(7)存儲(chǔ)系統(tǒng)應(yīng)支持多種協(xié)議、操作系統(tǒng)、數(shù)據(jù)庫系統(tǒng)。

(8)存儲(chǔ)系統(tǒng)可進(jìn)行高效的靈活管理。

(9)存儲(chǔ)系統(tǒng)應(yīng)具有模塊化設(shè)計(jì)并支持熱插拔。

(10)存儲(chǔ)系統(tǒng)具有卷復(fù)制和拷貝等的高級(jí)存儲(chǔ)功能。

傳統(tǒng)的存儲(chǔ)系統(tǒng)大致可以分成三種類型:

(1)依 附 存 儲(chǔ) 系 統(tǒng)(Direct Attached Storage,DAS):又稱為以服務(wù)器為中心的存儲(chǔ)體系。其特征為存儲(chǔ)設(shè)備是通用服務(wù)器的一部分,該服務(wù)器同時(shí)提供應(yīng)用程序的運(yùn)行。數(shù)據(jù)的輸入/輸出由服務(wù)器負(fù)責(zé),數(shù)據(jù)訪問與操作系統(tǒng)、文件系統(tǒng)和服務(wù)程序緊密相關(guān)。當(dāng)用戶數(shù)量增加或服務(wù)器正在提供服務(wù)時(shí),響應(yīng)會(huì)變慢。在網(wǎng)絡(luò)帶寬足夠的情況下,服務(wù)器本身成為數(shù)據(jù)輸入/輸出的瓶頸。當(dāng)前絕大多數(shù)存儲(chǔ)系統(tǒng)都屬于這種類型。

(2)網(wǎng)絡(luò)依附存儲(chǔ)系統(tǒng)(Network Attached Storage,NAS):這種存儲(chǔ)方式多采用專用數(shù)據(jù)服務(wù)器。該服務(wù)器不再承擔(dān)應(yīng)用服務(wù),稱之為“瘦服務(wù)器”(Thin Server)。數(shù)據(jù)服務(wù)器通過局域網(wǎng)的接口與應(yīng)用服務(wù)器連接。NAS也是一種集中化數(shù)據(jù)存儲(chǔ)形式,便于維護(hù)和管理。

(3)存儲(chǔ)區(qū)域網(wǎng)絡(luò)(Storage Area Network,SAN):采用高速數(shù)據(jù)連接通道——光纖通道(Fiber Channel,FC)連接服務(wù)器和存儲(chǔ)系統(tǒng)。從結(jié)構(gòu)上看,服務(wù)器和數(shù)據(jù)存儲(chǔ)系統(tǒng)相互獨(dú)立。將設(shè)備連接到FC集線器或交換機(jī)上,便于擴(kuò)展系統(tǒng)規(guī)模。在SAN中,所有的存儲(chǔ)設(shè)備和存儲(chǔ)數(shù)據(jù)均可采用中心化管理,使得整個(gè)存儲(chǔ)系統(tǒng)具有可伸縮性。并且,可以通過存儲(chǔ)設(shè)備的集群方式達(dá)到高可用度。

傳統(tǒng)存儲(chǔ)解決方案的弊病很多,這些弊病多由異構(gòu)存儲(chǔ)和SAN孤島造成。異構(gòu)存儲(chǔ)是指不同的存儲(chǔ)有不同的底層架構(gòu)、不同的管理界面、功能、性能以及運(yùn)維升級(jí)的操作。為了將檔案數(shù)據(jù)從一種存儲(chǔ)陣列移植到另一種存儲(chǔ)陣列,可能因需要專業(yè)化服務(wù),而花費(fèi)額外的高昂費(fèi)用,增加數(shù)字檔案館的IT運(yùn)維成本。另一方面,多種存儲(chǔ)系統(tǒng)共存使得數(shù)字檔案館需要聘用非常專業(yè)的技術(shù)人員對(duì)這些系統(tǒng)進(jìn)行管理,人員成本又成了一個(gè)難以解決的問題。

為了實(shí)現(xiàn)檔案大數(shù)據(jù)存儲(chǔ)平臺(tái)的功能需要采用全新的技術(shù)解決方案,確保檔案大數(shù)據(jù)的長(zhǎng)期安全保存。

2.1 虛擬化存儲(chǔ):軟件定義的檔案數(shù)據(jù)存儲(chǔ)系統(tǒng)

為了解決異構(gòu)存儲(chǔ)和SAN孤島帶來的高成本、低效率問題,必須設(shè)計(jì)一個(gè)新的技術(shù)再造新的規(guī)范,很明顯存儲(chǔ)虛擬化就是這個(gè)技術(shù)。簡(jiǎn)單來說,存儲(chǔ)虛擬化的基本思路是將底層的硬件設(shè)備池化,形成多個(gè)不同容量、不同性能的存儲(chǔ)資源池。而上層的服務(wù)器系統(tǒng)管理程序所看到的也是這些存儲(chǔ)資源池。

存儲(chǔ)虛擬化優(yōu)勢(shì)包括四個(gè)方面:

第一,整合異構(gòu)存儲(chǔ),降低運(yùn)維成本。整合異構(gòu)存儲(chǔ)是存儲(chǔ)虛擬化的首要任務(wù),所有存儲(chǔ)設(shè)備將不再被貼上供應(yīng)商的標(biāo)簽,企業(yè)也不會(huì)被一家或者幾家廠商綁架。因?yàn)榇鎯?chǔ)虛擬化方案中,底層的硬件設(shè)備相對(duì)上層應(yīng)用來說是完全透明的。

第二,消除存儲(chǔ)孤島,提高系統(tǒng)靈活性。由于所有的存儲(chǔ)資源都被虛擬化了,所以數(shù)據(jù)的遷移和管理都變成了虛擬機(jī)之間的交流,即便是更改存儲(chǔ)基礎(chǔ)設(shè)施,也不影響連續(xù)存取數(shù)據(jù)。為應(yīng)用程序提供的數(shù)據(jù)連續(xù)可用性可以幫助用戶避免因故障時(shí)間而造成的影響和成本的增加。

第三,將合適的資源分配給合適的任務(wù)負(fù)載。在檔案數(shù)據(jù)中心中,存儲(chǔ)資源的種類可能是多樣的,如果是閃存與磁盤并存的系統(tǒng),存儲(chǔ)虛擬化將需要完成分層存儲(chǔ)的功能。即是說閃存資源將優(yōu)先提供給關(guān)鍵業(yè)務(wù)的虛擬機(jī),而低速磁盤則更多的用于備份或者歸檔。

第四,簡(jiǎn)潔的操作界面,降低系統(tǒng)管理成本。由于底層硬件資源被上層的虛擬化軟件接管,應(yīng)用存儲(chǔ)資源與供應(yīng)商不再有直接的聯(lián)系,那么操作界面很容易被簡(jiǎn)化。單一的管理界面通過對(duì)整個(gè)存儲(chǔ)庫進(jìn)行集中存儲(chǔ)管理,可以幫助IT管理員提高生產(chǎn)力。系統(tǒng)管理員只需學(xué)習(xí)一個(gè)界面,就可以完成大多數(shù)存儲(chǔ)運(yùn)維和升級(jí)工作。

總的來說,存儲(chǔ)虛擬化的優(yōu)勢(shì)在于上層應(yīng)用不用再考慮底層硬件的細(xì)節(jié),應(yīng)用面對(duì)的只是一個(gè)個(gè)容量和性能不盡相同的存儲(chǔ)資源池,可以說資源利用率能夠提高、存儲(chǔ)成本能夠降低也都是源于存儲(chǔ)虛擬化這個(gè)特點(diǎn)。無疑存儲(chǔ)虛擬化顛覆了依賴于供應(yīng)商的存儲(chǔ)解決方案,而顛覆的結(jié)果就是給數(shù)字檔案館存儲(chǔ)的成本和資源利用率確定了一個(gè)新的標(biāo)準(zhǔn)。

存儲(chǔ)虛擬化也面臨著各種挑戰(zhàn),從它能解決的問題來看,異構(gòu)存儲(chǔ)意味著有大量的數(shù)據(jù)已經(jīng)存放在這些異構(gòu)存儲(chǔ)平臺(tái)上,而且多年的積累意味著使用存儲(chǔ)虛擬化雖然能夠管理不同品牌的硬件,但是首先需要將原有數(shù)據(jù)進(jìn)行整理和部署,改變意味著風(fēng)險(xiǎn),如果原有系統(tǒng)尚能滿足需求,相信存儲(chǔ)虛擬化對(duì)其并沒有多少吸引力。存儲(chǔ)虛擬化要取代傳統(tǒng)的存儲(chǔ)解決方案必須保證數(shù)據(jù)能安全地完成從傳統(tǒng)系統(tǒng)向新系統(tǒng)的遷移。

2.2 分布式并行檔案文件存儲(chǔ)

在基礎(chǔ)存儲(chǔ)架構(gòu)實(shí)現(xiàn)虛擬化的基礎(chǔ)上,為保證高可用、高可靠和經(jīng)濟(jì)性,檔案大數(shù)據(jù)存儲(chǔ)平臺(tái)可采用分布式存儲(chǔ)的方式來存儲(chǔ)數(shù)據(jù),分布式存儲(chǔ)系統(tǒng)本身采用冗余存儲(chǔ)的方式來保證存儲(chǔ)數(shù)據(jù)的可靠性,即為同一份數(shù)據(jù)存儲(chǔ)多個(gè)副本。

分布式存儲(chǔ)與傳統(tǒng)的存儲(chǔ)設(shè)備相比不僅僅是一個(gè)硬件,而是一個(gè)網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備、服務(wù)器、應(yīng)用軟件、公用訪問接口、接入網(wǎng)、客戶端程序等多個(gè)部分組成的復(fù)雜系統(tǒng)。各部分以存儲(chǔ)設(shè)備為核心,通過應(yīng)用軟件來對(duì)外提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問服務(wù)。

分布式存儲(chǔ)不但有效地解決了存儲(chǔ)系統(tǒng)性能的問題,大大地降低了大型存儲(chǔ)系統(tǒng)的成本,還將存儲(chǔ)可靠性提升到系統(tǒng)設(shè)計(jì)層面;同時(shí),還將實(shí)際的物理存儲(chǔ)設(shè)備與存儲(chǔ)的邏輯表示分離開來,實(shí)現(xiàn)了事實(shí)的存儲(chǔ)虛擬化。

分布式存儲(chǔ)系統(tǒng)具有以下特點(diǎn):

(1)并行存儲(chǔ)系統(tǒng)中存儲(chǔ)虛擬化,能夠支持無縫的海量擴(kuò)展;

(2)并行存儲(chǔ)系統(tǒng)的性能擴(kuò)展能夠隨著容量的擴(kuò)展而擴(kuò)展;

(3)并行存儲(chǔ)中數(shù)據(jù)保護(hù)技術(shù)保障用戶數(shù)據(jù)的安全;

(4)非結(jié)構(gòu)化并行存儲(chǔ)的可靠性和安全性。

分布式非結(jié)構(gòu)化并行存儲(chǔ)系統(tǒng)是目前海量信息處理環(huán)境下理想的存儲(chǔ)解決方案,它從架構(gòu)設(shè)計(jì)上很好地解決了存儲(chǔ)系統(tǒng)的容量擴(kuò)展和性能擴(kuò)展問題。分布式非結(jié)構(gòu)化并行存儲(chǔ)系統(tǒng)采用新型的副本技術(shù)替代了原有的RAID技術(shù),不但保證了數(shù)據(jù)的安全,還提高了數(shù)據(jù)恢復(fù)的效率,將可靠性和可維護(hù)性有機(jī)地結(jié)合在一起。

非結(jié)構(gòu)化并行存儲(chǔ)系統(tǒng)主要由索引服務(wù)器集群和存儲(chǔ)服務(wù)器集群組成,其軟件部件對(duì)應(yīng)用表現(xiàn)為一個(gè)文件系統(tǒng),圖1給出了非結(jié)構(gòu)化并行存儲(chǔ)系統(tǒng)的架構(gòu),它采用業(yè)界主流的控制路徑和數(shù)據(jù)路徑分離的設(shè)計(jì)理念。

圖1非結(jié)構(gòu)化并行存儲(chǔ)系統(tǒng)

非結(jié)構(gòu)化并行存儲(chǔ)系統(tǒng)具備高可用和快速恢復(fù)能力。本著“將磁盤、服務(wù)器和網(wǎng)絡(luò)等設(shè)備失效作為常態(tài)考慮”的理念,系統(tǒng)中所有部件都有冗余配置,并通過數(shù)據(jù)冗余提供高可靠性。每一份元數(shù)據(jù)都有其副本數(shù)據(jù),主從數(shù)據(jù)之間通過分布式日志系統(tǒng)保證它們之間的一致性。平時(shí)只有主副本數(shù)據(jù)提供訪問,當(dāng)主副本數(shù)據(jù)所在節(jié)點(diǎn)失效后,訪問自動(dòng)切換到從副本數(shù)據(jù)上。索引服務(wù)器分組使用的模式可以避免擴(kuò)大了的系統(tǒng)帶來的開銷增長(zhǎng)。數(shù)據(jù)同樣提供多副本,只要有一個(gè)副本可以提供服務(wù),系統(tǒng)即可用。

根據(jù)部件失效造成的影響范圍,圖2給出了存儲(chǔ)系統(tǒng)可能面臨失效的示意圖。網(wǎng)絡(luò)多通道技術(shù)自動(dòng)屏蔽單一網(wǎng)絡(luò)通道的故障。當(dāng)磁盤失效時(shí),某些數(shù)據(jù)副本受損,降低了數(shù)據(jù)的可用性。系統(tǒng)自動(dòng)偵測(cè)到故障后,自動(dòng)進(jìn)行數(shù)據(jù)修復(fù),將受損數(shù)據(jù)系統(tǒng)中剩余空間進(jìn)行重建。索引服務(wù)器能提供所有文件的分布信息,使修復(fù)并行化,大大減少了修復(fù)的時(shí)間,降低了修復(fù)期間受損數(shù)據(jù)進(jìn)一步丟失副本的可能。

采用上述技術(shù)路線,可以構(gòu)建可擴(kuò)展、高可靠、有效處理海量元數(shù)據(jù)和數(shù)據(jù)的存儲(chǔ)系統(tǒng)。

2.3 檔案數(shù)據(jù)冷存儲(chǔ)

數(shù)字檔案館現(xiàn)在的存儲(chǔ)系統(tǒng)多以熱數(shù)據(jù)為目標(biāo)進(jìn)行設(shè)計(jì),一般采用高速磁盤及磁盤陣列作為存儲(chǔ)介質(zhì)。雖然磁介質(zhì)能夠保持?jǐn)?shù)據(jù)一直在線,且提高數(shù)據(jù)響應(yīng)速度,但同時(shí)也帶來能耗巨大、電磁敏感、存儲(chǔ)壽命短等諸多問題,難以適應(yīng)檔案大數(shù)據(jù)長(zhǎng)期、安全穩(wěn)定保存的要求。

圖2存儲(chǔ)系統(tǒng)故障分類

隨著大數(shù)據(jù)時(shí)代的到來,冷存儲(chǔ)成為現(xiàn)如今的熱門課題。冷存儲(chǔ)是指大容量、低功耗、低成本的數(shù)據(jù)存儲(chǔ),需要解決關(guān)鍵設(shè)備、工藝、數(shù)據(jù)存儲(chǔ)中心管理和數(shù)據(jù)傳輸?shù)群诵募夹g(shù)難題。

與磁電存儲(chǔ)介質(zhì)相比,光存儲(chǔ)介質(zhì)具有低能耗、抵抗海嘯颶風(fēng)等自然災(zāi)害、抗電磁干擾、抗人為數(shù)據(jù)刪改的優(yōu)點(diǎn),特別適合作為冷數(shù)據(jù)的存儲(chǔ)介質(zhì)。由于檔案數(shù)據(jù)價(jià)值密度低的特點(diǎn),檔案部門應(yīng)特別注重安全、節(jié)能和長(zhǎng)壽命信息存儲(chǔ)技術(shù)的研發(fā)和應(yīng)用。

3 檔案大數(shù)據(jù)挖掘利用支撐平臺(tái)

數(shù)字檔案館除了保證檔案大數(shù)據(jù)的長(zhǎng)期保存外,實(shí)現(xiàn)檔案大數(shù)據(jù)的快速、“智慧”利用也是一個(gè)重要的任務(wù)。所謂的“智慧”利用,就是在浩瀚的數(shù)據(jù)之海中挖掘出有用的信息,改變目前“數(shù)據(jù)十分豐富,而信息相當(dāng)貧乏”的現(xiàn)狀。要實(shí)現(xiàn)“智慧”的檔案利用就必須建立強(qiáng)有力的數(shù)據(jù)分析工具,對(duì)檔案大數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘、分析和推薦。沒有強(qiáng)有力的檔案大數(shù)據(jù)挖掘利用平臺(tái),大數(shù)據(jù)就可能成為一堆無價(jià)值的數(shù)據(jù)“垃圾”。

對(duì)非結(jié)構(gòu)化大數(shù)據(jù)進(jìn)行深度數(shù)據(jù)挖掘及分析處理,涉及大量、復(fù)雜、長(zhǎng)時(shí)間的計(jì)算過程,并且會(huì)涉及到與結(jié)構(gòu)化數(shù)據(jù)的組合分析,需要建立專門的數(shù)據(jù)挖掘利用系統(tǒng)來實(shí)現(xiàn)。對(duì)于檔案大數(shù)據(jù)挖掘利用系統(tǒng)而言,要能夠像百度那樣高效、快速地給出人們想要的結(jié)果。要做到這一點(diǎn),除了研制高效的數(shù)據(jù)挖掘算法外,還需要建立專門的檔案大數(shù)據(jù)挖掘利用支撐平臺(tái)。

目前,數(shù)據(jù)挖掘的一個(gè)成熟、高性能、高可靠、高性價(jià)比的支持平臺(tái)是通過對(duì)開源的Hadoop架構(gòu)進(jìn)行針對(duì)性的優(yōu)化來實(shí)現(xiàn)的。Hadoop主要有以下幾個(gè)優(yōu)點(diǎn):

高可靠性:Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。

高擴(kuò)展性:Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。

高效性:Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此其處理速度非常快。

高容錯(cuò)性:Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。

通過對(duì)開源的Hadoop進(jìn)行優(yōu)化,使其作為海量數(shù)據(jù)存儲(chǔ)分析平臺(tái)的數(shù)據(jù)挖掘子系統(tǒng),能夠很好地與結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)處理子系統(tǒng)結(jié)合,形成面對(duì)海量結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)檢索、分析處理與深度挖掘的一體化解決方案。

Hadoop系統(tǒng)主要部分是模擬Google的GFS和MapReduce框架完成的,圖3顯示了Hadoop的體系結(jié)構(gòu)。

圖4給出了基于Hadoop技術(shù)的非結(jié)構(gòu)化數(shù)據(jù)處理子系統(tǒng)架構(gòu)。它從邏輯上分為硬件層、存儲(chǔ)層和計(jì)算層,對(duì)上支持各種業(yè)務(wù)模型。

存儲(chǔ)層解決各種類型數(shù)據(jù)的存儲(chǔ)問題。上層業(yè)務(wù)的數(shù)據(jù)可以分解為:結(jié)構(gòu)化數(shù)據(jù)、文本(包括網(wǎng)頁)、圖片、影像、XML文件以及索引文件等。結(jié)構(gòu)化程度高、事務(wù)性強(qiáng)、需要反復(fù)操作的數(shù)據(jù)仍然保存在關(guān)系數(shù)據(jù)庫里,網(wǎng)頁信息等可以保存在NoSQL存儲(chǔ)系統(tǒng)中。大量小圖片、XML文件等可以保存在分布式存儲(chǔ)系統(tǒng)中。為了提高檢索效率,各種索引以特有的格式分散保存。

計(jì)算層負(fù)責(zé)將存儲(chǔ)層中管理的數(shù)據(jù)轉(zhuǎn)化成上層應(yīng)用所需要的數(shù)據(jù)集。這些轉(zhuǎn)化包括基本的數(shù)據(jù)存取,如基于唯一性的關(guān)鍵字獲取屬性值或內(nèi)容;通過關(guān)鍵字快速檢索某一應(yīng)用的數(shù)據(jù),或者整合多個(gè)系統(tǒng)的檢索結(jié)果呈現(xiàn)給用戶;分別快速從大規(guī)模的文件數(shù)據(jù)或數(shù)據(jù)庫中分析出感興趣的信息。

基于Hadoop技術(shù)的非結(jié)構(gòu)化數(shù)據(jù)處理子系統(tǒng)還提供通過統(tǒng)計(jì)分析,不斷改進(jìn)業(yè)務(wù)水平的能力。通過用戶行為統(tǒng)計(jì)分析,可以得到用戶的使用喜好,向某些人群推送特定內(nèi)容,提高用戶粘性。另外對(duì)系統(tǒng)負(fù)載、不同區(qū)域的特征分析,都可以改進(jìn)服務(wù)質(zhì)量,也可以對(duì)系統(tǒng)的升級(jí)、維護(hù)提出預(yù)警。

4 檔案大數(shù)據(jù)信息平臺(tái)的安全管理

4.1 用戶安全管理

安全管理的基礎(chǔ)是一套完善的用戶管理流程,通過組織—項(xiàng)目—用戶不同層次的管理,滿足檔案信息平臺(tái)對(duì)用戶實(shí)行有效管理的需求。對(duì)用戶進(jìn)行分類,并分別賦予不同的系統(tǒng)角色,通過用戶角色與系統(tǒng)權(quán)限的關(guān)聯(lián),使不同的用戶擁有不同的系統(tǒng)權(quán)限,進(jìn)而保證滿足各種用戶的需求的同時(shí),使用戶之間不會(huì)相互干擾,也不會(huì)對(duì)系統(tǒng)進(jìn)行越權(quán)訪問,以保證系統(tǒng)及用戶的安全。提供超級(jí)運(yùn)營(yíng)管理員、運(yùn)營(yíng)管理員、超級(jí)運(yùn)維管理員、運(yùn)維管理員、組織管理員、項(xiàng)目成員共六種不同的角色,并分別提供不同的訪問Portal及權(quán)限。

實(shí)現(xiàn)對(duì)用戶的多狀態(tài)管理功能,以滿足系統(tǒng)對(duì)大規(guī)模用戶生命周期管理的需求。組織管理員生命周期如圖5所示。

用戶管理定義了注冊(cè)、注銷、退出、登錄、凍結(jié)共5種狀態(tài)屬性,為管理員定義了注冊(cè)、注銷、退出、登錄、凍結(jié)、激活共6種管理操作功能。其中項(xiàng)目成員沒有凍結(jié)狀態(tài)。

注冊(cè)狀態(tài):新注冊(cè)、未被管理員激活的系統(tǒng)用戶處于注冊(cè)狀態(tài)。

退出狀態(tài):被管理員激活的系統(tǒng)用戶默認(rèn)處于退出狀態(tài);系統(tǒng)用戶在登錄狀態(tài)下選擇退出后處于退出狀態(tài)。

登錄狀態(tài):被管理員激活的系統(tǒng)用戶選擇登錄后處于登錄狀態(tài)。

凍結(jié)狀態(tài):被管理員暫時(shí)性凍結(jié)的系統(tǒng)用戶處于凍結(jié)狀態(tài)。

注銷狀態(tài):被管理員注銷的系統(tǒng)用戶處于注銷狀態(tài)。

運(yùn)維管理員、運(yùn)營(yíng)管理員有權(quán)限管理屬于自己的管理對(duì)象。組織管理員有權(quán)限管理屬于自己的項(xiàng)目、項(xiàng)目資產(chǎn)、項(xiàng)目成員。項(xiàng)目成員有權(quán)限使用分配給自己的項(xiàng)目資產(chǎn)。

只有超級(jí)運(yùn)維管理員有權(quán)限管理其他的運(yùn)維管理員生命周期;只有超級(jí)運(yùn)營(yíng)管理員有權(quán)限管理其他的運(yùn)營(yíng)管理員生命周期;運(yùn)營(yíng)管理員有權(quán)限管理(由系統(tǒng))分配給自己的組織管理員。

對(duì)用戶身份的管理需要基于硬件設(shè)備實(shí)現(xiàn),防止口令泄露、遺忘等造成的安全隱患,同時(shí)提供用戶身份認(rèn)證、操作系統(tǒng)用戶身份認(rèn)證、LDAP(輕量目錄訪問協(xié)議)用戶身份認(rèn)證等多種認(rèn)證方式。這些方式可靈活設(shè)置,自由組合,以滿足管理員對(duì)用戶管理的多種需求。管理員可以對(duì)合法注冊(cè)的系統(tǒng)用戶進(jìn)行多種管理設(shè)置,如用戶角色修改、用戶密碼修改、用戶認(rèn)證方式修改、用戶有效性設(shè)置等操作。

圖3 Hadoop的體系結(jié)構(gòu)

圖4基于Hadoop技術(shù)的非結(jié)構(gòu)化數(shù)據(jù)處理子系統(tǒng)架構(gòu)

圖5用戶管理

圖6 OSGi模塊化規(guī)范

系統(tǒng)提供對(duì)所有系統(tǒng)用戶的統(tǒng)計(jì)信息,包括用戶數(shù)量、用戶狀態(tài)、用戶行為等統(tǒng)計(jì)信息。

4.2 系統(tǒng)安全管理

檔案信息平臺(tái)管理系統(tǒng)基于模塊化的系統(tǒng)架構(gòu),針對(duì)不同用戶的需求,靈活組合各種功能模塊以提供不同的功能?;诙ㄖ频挠脩羧肟冢≒ortal)為不同的用戶提供豐富的系統(tǒng)訪問體驗(yàn)。模塊化的系統(tǒng)架構(gòu)也方便對(duì)系統(tǒng)進(jìn)行升級(jí)。當(dāng)系統(tǒng)添加新功能時(shí),只需將新的功能模塊添加到系統(tǒng)中,而無需對(duì)系統(tǒng)已有功能進(jìn)行改動(dòng)。當(dāng)系統(tǒng)改進(jìn)某項(xiàng)功能時(shí),也只需將相應(yīng)的功能模塊進(jìn)行升級(jí)即可。這些過程對(duì)用戶是透明的,因此不會(huì)影響用戶對(duì)系統(tǒng)的正常訪問,或只會(huì)造成系統(tǒng)相關(guān)服務(wù)秒級(jí)的短暫中斷。系統(tǒng)的模塊化架構(gòu)應(yīng)遵循動(dòng)態(tài)模型系統(tǒng)技術(shù)規(guī)范OSGi。如圖6所示。

管理系統(tǒng)基于分區(qū)共享存儲(chǔ),可提供系統(tǒng)級(jí)的存儲(chǔ)災(zāi)備方案。遠(yuǎn)程或本地災(zāi)難備份/恢復(fù)解決方案支持在檔案數(shù)據(jù)中心與災(zāi)備中心之間通過IP網(wǎng)絡(luò)對(duì)關(guān)鍵業(yè)務(wù)數(shù)據(jù)進(jìn)行策略性增量復(fù)制,實(shí)現(xiàn)數(shù)據(jù)的異地備份,并在發(fā)生意外災(zāi)難時(shí)對(duì)數(shù)據(jù)進(jìn)行快速恢復(fù),確保業(yè)務(wù)持續(xù)性。結(jié)合快照和遠(yuǎn)程復(fù)制技術(shù),實(shí)現(xiàn)連續(xù)的數(shù)據(jù)復(fù)制和快速的數(shù)據(jù)恢復(fù),確保最優(yōu)的復(fù)原時(shí)間目標(biāo)(RTO)和復(fù)原點(diǎn)目標(biāo)(RPO)?;谠隽總浞菁夹g(shù)有效地減少對(duì)廣域網(wǎng)帶寬的占用,同時(shí)結(jié)合快照技術(shù),實(shí)現(xiàn)數(shù)據(jù)的連續(xù)保護(hù),避免各種軟錯(cuò)誤導(dǎo)致的系統(tǒng)故障。分布式數(shù)據(jù)庫技術(shù)保障系統(tǒng)關(guān)鍵數(shù)據(jù)不丟失,提高系統(tǒng)響應(yīng)用戶請(qǐng)求的速度,支持多用戶并發(fā),并發(fā)用戶數(shù)不少于10000個(gè)。

采用基于可信平臺(tái)的個(gè)人密鑰、加密卡、基于國(guó)產(chǎn)可控平臺(tái)的防火墻系統(tǒng)等產(chǎn)品與技術(shù),構(gòu)成信息平臺(tái)的云安全方案,可以實(shí)現(xiàn)從網(wǎng)絡(luò)層到數(shù)據(jù)層的真正安全?;趥€(gè)人密鑰實(shí)現(xiàn)用戶身份認(rèn)證管理,使用戶身份與設(shè)備關(guān)聯(lián),提供多種不同安全級(jí)別的管理,為系統(tǒng)提供了更高的用戶身份有效性保障,同時(shí)對(duì)系統(tǒng)中的各種資源與用戶進(jìn)行加密綁定,滿足用戶對(duì)資源訪問不同安全級(jí)別的需求。基于加密卡實(shí)現(xiàn)用戶數(shù)據(jù)與系統(tǒng)數(shù)據(jù)的加密功能,設(shè)置不同級(jí)別、多種類型的安全策略,最大程度的保證數(shù)據(jù)安全性?;谶^程可控平臺(tái)的防火墻系統(tǒng),從系統(tǒng)入口處抵御系統(tǒng)外的各種風(fēng)險(xiǎn),為系統(tǒng)整體性安全保駕護(hù)航。

4.3 大數(shù)據(jù)應(yīng)用的全程審計(jì)

作為大數(shù)據(jù)應(yīng)用工具的Hadoop,在數(shù)據(jù)安全設(shè)計(jì)和防護(hù)功能上存在著訪問控制較弱、無合規(guī)性設(shè)計(jì)、無數(shù)據(jù)加密、策略管理較弱等一系列的安全問題。

構(gòu)建Hadoop的安全模型可采用分層方式進(jìn)行。在最外層必須進(jìn)行良好的訪問控制,確保只有相關(guān)權(quán)限的人才可訪問Hadoop數(shù)據(jù);第二層是網(wǎng)絡(luò)威脅防御,設(shè)定相關(guān)機(jī)制,防止網(wǎng)絡(luò)受到入侵;第三層是應(yīng)用層程序升級(jí),確保沒有漏洞;第四層是數(shù)據(jù)保密,防止數(shù)據(jù)被竊??;第五層是保證數(shù)據(jù)的完整性,使數(shù)據(jù)不會(huì)受到篡改。

[1]謝波,齊麗華.江蘇省數(shù)字檔案館建設(shè)理論與實(shí)踐[M].河海大學(xué)出版社,2014.

[2]范承工,周寶曜,劉偉.大數(shù)據(jù):戰(zhàn)略·技術(shù)·實(shí)踐[M].電子工業(yè)出版社,2013.

[3]石峻峰,周俐霞,付雙雙.大數(shù)據(jù)時(shí)代數(shù)字檔案資源管理研究現(xiàn)狀與趨勢(shì)分析[J].信息安全與通訊保密,2014(09).

[4]李小平.終端安全風(fēng)險(xiǎn)管理[M].機(jī)械工業(yè)出版社,2012.

猜你喜歡
存儲(chǔ)系統(tǒng)結(jié)構(gòu)化管理員
我是小小午餐管理員
促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
我是圖書管理員
我是圖書管理員
分布式存儲(chǔ)系統(tǒng)在企業(yè)檔案管理中的應(yīng)用
哈爾濱軸承(2020年2期)2020-11-06 09:22:36
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
可疑的管理員
天河超算存儲(chǔ)系統(tǒng)在美創(chuàng)佳績(jī)
華為震撼發(fā)布新一代OceanStor 18000 V3系列高端存儲(chǔ)系統(tǒng)
基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
莎车县| 大埔县| 饶阳县| 灌云县| 阿尔山市| 高平市| 商洛市| 崇左市| 南皮县| 北海市| 嘉义市| 富阳市| 资源县| 怀柔区| 汶川县| 沭阳县| 南京市| 定南县| 钟山县| 内江市| 青神县| 黎平县| 贵港市| 红河县| 若尔盖县| 泸定县| 秭归县| 铅山县| 綦江县| 美姑县| 博爱县| 黎川县| 手游| 德州市| 山西省| 渝北区| 库车县| 新安县| 自治县| 静宁县| 裕民县|