毛文彬
摘 要:隨著云計算、物聯(lián)網(wǎng)等信息技術(shù)的飛速發(fā)展,異構(gòu)數(shù)據(jù)源越來越多,數(shù)據(jù)信息量在飛速增長,數(shù)據(jù)的類型也復(fù)雜多樣,不僅使得信息系統(tǒng)規(guī)模日益龐大,也導(dǎo)致海量非結(jié)構(gòu)化數(shù)據(jù)管理復(fù)雜、異構(gòu)數(shù)據(jù)存儲利用率低下、資源不易擴展等問題。
關(guān)鍵詞:大數(shù)據(jù);云存儲
1 大數(shù)據(jù)的特點及存儲要求
海量非確定性異構(gòu)數(shù)據(jù)產(chǎn)生的原因復(fù)雜多樣,在應(yīng)用中也具有新的特點:隨著各種應(yīng)用規(guī)模及領(lǐng)域的擴大,數(shù)據(jù)量會呈現(xiàn)爆炸性增長及海量數(shù)據(jù)存儲的趨勢和特點;在非確定數(shù)據(jù)的典型應(yīng)用中數(shù)據(jù)源很多,數(shù)據(jù)種類也繁多,數(shù)據(jù)資源具有異構(gòu)性特點;數(shù)據(jù)還呈現(xiàn)數(shù)據(jù)塊大小、數(shù)據(jù)類型和數(shù)據(jù)訪問方式等不確定的特點;云計算、物聯(lián)網(wǎng)等應(yīng)用的不斷豐富,數(shù)據(jù)產(chǎn)生、應(yīng)用、訪問方式十分復(fù)雜,還使得數(shù)據(jù)具有時效性和空間性,高頻度訪問和高并發(fā)的特點。
非確定數(shù)據(jù)應(yīng)用中的海量數(shù)據(jù)對數(shù)據(jù)的存儲體系結(jié)構(gòu)帶來了很大的挑戰(zhàn)。首先,海量數(shù)據(jù)的組織必然采用分布式數(shù)據(jù)組織與管理策略,這需要實現(xiàn)適合于非確定數(shù)據(jù)應(yīng)用的(元)數(shù)據(jù)和數(shù)據(jù)組織方式;其次,由于海量數(shù)據(jù)是通過持續(xù)增長積累而成,而積累的過程需要很長的時間,因此需要存儲支持可保證規(guī)模與性能同時擴展的存儲組織模式以及相應(yīng)的索引機制。
針對海量不確定性數(shù)據(jù),使用基于傳統(tǒng)的信息存儲結(jié)構(gòu)和對象查詢方法的實際運行效率呈現(xiàn)下降趨勢,因此必須采用新的元數(shù)據(jù)組織結(jié)構(gòu)和查詢方法來提高效率,為用戶提供高性能的多并發(fā)數(shù)據(jù)查詢服務(wù)。
由于在分布式環(huán)境中,數(shù)據(jù)源分布在不同的網(wǎng)絡(luò)結(jié)點,這就存在網(wǎng)絡(luò)傳輸性能低的問題。而各個數(shù)據(jù)源有很強的自治性,它們可以自治地改變自身的結(jié)構(gòu)和更新數(shù)據(jù),這就會給數(shù)據(jù)集成系統(tǒng)的一致性帶來了困難。由于數(shù)據(jù)存在非確定性,針對海量非確定性異構(gòu)數(shù)據(jù)的集成工作將變得更為復(fù)雜,可以采用分布式并行處理技術(shù)實現(xiàn)計算資源和存儲資源的全局最優(yōu)化的管理。
數(shù)據(jù)的海量性、非確定性以及異構(gòu)性為傳統(tǒng)的數(shù)據(jù)挖掘算法提出了挑戰(zhàn)。由于數(shù)據(jù)的異構(gòu)、海量、分布性和決策控制的實時性,需要調(diào)整數(shù)據(jù)挖掘引擎的布局及多引擎的調(diào)度策略。結(jié)構(gòu)化或者非結(jié)構(gòu)化數(shù)據(jù)都涉及數(shù)據(jù)的存儲、管理(索引、并發(fā)、一致性、查詢等)等,這是因為用戶對大數(shù)據(jù)使用方面的要求(對海量非結(jié)構(gòu)化數(shù)據(jù)查詢?nèi)匀灰獪?zhǔn)確和快速),導(dǎo)致對數(shù)據(jù)邏輯結(jié)構(gòu)和物理存儲方式的新要求。
2 面向大數(shù)據(jù)的分布式系統(tǒng)關(guān)鍵技術(shù)
2.1 分布式文件管理技術(shù)
在大數(shù)據(jù)應(yīng)用過程中,傳統(tǒng)的數(shù)據(jù)存儲和管理技術(shù)已經(jīng)無法滿足需求,因此,諸多科學(xué)工作者對其文件管理技術(shù)進行了研究。2010年,馮幼樂等人在文件管理系統(tǒng)中提出了CEPH動態(tài)元數(shù)據(jù)管理技術(shù),該方法可以有效地改進異構(gòu)元數(shù)據(jù)服務(wù)器和網(wǎng)絡(luò)延遲較大時存在的問題,提高文件管理系統(tǒng)的使用范圍和性能。方君等人詳細(xì)的分析了國外分布式文件系統(tǒng)的研究和應(yīng)用現(xiàn)狀,開發(fā)設(shè)計了一個較好的分布式文件系統(tǒng)K-DFS,該系統(tǒng)可以解決大數(shù)據(jù)中多存儲節(jié)點訪問和同步的問題,實現(xiàn)負(fù)載均衡,避免部分?jǐn)?shù)據(jù)集中于少量存儲服務(wù)器中,使用冗余存儲技術(shù),保障遠(yuǎn)程文件的安全性,防止存儲節(jié)點因宕機導(dǎo)致文件丟失,更好的提高了文件系統(tǒng)的高安全性,并且該系統(tǒng)已經(jīng)在金融數(shù)據(jù)分析、電信數(shù)據(jù)分析和網(wǎng)絡(luò)電商數(shù)據(jù)分析中得到了廣泛的使用。目前,文件系統(tǒng)已經(jīng)在實際應(yīng)用中得到了廣泛的發(fā)展和進步,尤其是具有海量用戶和數(shù)據(jù)存儲訪問的互聯(lián)網(wǎng)企業(yè)中,比如Google提出了GFS文件管理系統(tǒng),該系統(tǒng)集成數(shù)據(jù)文件地管理、存儲和應(yīng)用,并且構(gòu)建過程中服務(wù)器較為廉價,同時具有極強的可擴展性,數(shù)據(jù)被存儲于不同的服務(wù)器中,通過關(guān)聯(lián)鏈接、分塊存儲、追加更新等技術(shù)保障文件管理系統(tǒng)的正常運行和傳輸,同時引入了緩沖層、內(nèi)存加載部分元數(shù)據(jù)等新理念,提升了文件管理系統(tǒng)存儲和讀取的效率,促進大數(shù)據(jù)文件管理步入集群管理階段,有效的提高了分布式文件管理系統(tǒng)的應(yīng)用效能。
2.2 分布式數(shù)據(jù)處理技術(shù)
大數(shù)據(jù)應(yīng)用系統(tǒng)中,信息處理方式包括兩種,分別是批處理方式和流處理方式。批處理方式是指將待處理的邏輯事務(wù)執(zhí)行存儲操作之后,再對其實施業(yè)務(wù)處理操作,因此批處理方式可以使用某種分割方式,將數(shù)據(jù)分割為不同的數(shù)據(jù)塊,這些數(shù)據(jù)庫邏輯獨立,其可以在不同的終端上操作執(zhí)行,增強了大數(shù)據(jù)系統(tǒng)中共享服務(wù)資源的優(yōu)勢,淡化了數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,有效的提升了數(shù)據(jù)的集群性、可調(diào)度性,目前,批處理方式應(yīng)用的難點和關(guān)鍵是數(shù)據(jù)的分割、分發(fā)和實時處理。流處理方式將用戶需要的海量數(shù)據(jù)看做是一個不間斷的數(shù)據(jù)流,數(shù)據(jù)流可以實時的進入大數(shù)據(jù)應(yīng)用系統(tǒng)中,并且能夠得到快速的響應(yīng)和反饋,獲得數(shù)據(jù)處理的結(jié)果,該分布式數(shù)據(jù)處理方式極大的提高了系統(tǒng)的實時性,已經(jīng)在許多金融數(shù)據(jù)挖掘、電信數(shù)據(jù)挖掘過程中得到了廣泛的應(yīng)用。
2.3 分布式數(shù)據(jù)庫技術(shù)
傳統(tǒng)的數(shù)據(jù)庫技術(shù)通常采用關(guān)系型數(shù)據(jù)庫管理系統(tǒng),該數(shù)據(jù)庫在大數(shù)據(jù)處理過程中存在多樣性弱、規(guī)模性小、處理過程邏輯關(guān)聯(lián)性強等弱點,提出在大數(shù)據(jù)應(yīng)用系統(tǒng)中采用分布式數(shù)據(jù)庫管理技術(shù),實現(xiàn)大數(shù)據(jù)的易用性和易擴充性,同時增強分布式數(shù)據(jù)庫管理能力。目前,分布式數(shù)據(jù)庫管理技術(shù)已經(jīng)得到了廣泛的研究和應(yīng)用,Bigtable技術(shù)在實施操作和管理過程中,將數(shù)據(jù)訪問信息作為字符串進行管理,并且其不直接解釋字符串的含義,使得分布式數(shù)據(jù)具有半結(jié)構(gòu)化或者結(jié)構(gòu)化特征,可以提高數(shù)據(jù)庫存儲類型,比如視頻數(shù)據(jù)、圖像數(shù)據(jù)、文本數(shù)據(jù)等,同樣大大地簡化了數(shù)據(jù)庫管理系統(tǒng)操作方法。
Dynamo技術(shù)在分布式數(shù)據(jù)庫應(yīng)用過程中,采用分布式哈希表、鍵值存儲和向量時鐘等關(guān)鍵技術(shù),實現(xiàn)大數(shù)據(jù)庫管理系統(tǒng)的高效運行和管理,推動了關(guān)系型數(shù)據(jù)庫的前進和發(fā)展。隨著智能技術(shù)的發(fā)展,分布式數(shù)據(jù)庫引入了模式識別、機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等算法,有效的促進了數(shù)據(jù)一致性、業(yè)務(wù)處理快速化。
3 云存儲在大數(shù)據(jù)存儲中的應(yīng)用
針對數(shù)據(jù)的飛速發(fā)展和數(shù)據(jù)安全要求的不斷提高,如何建立安全、性價比高的存儲成為業(yè)界的普遍需求。云存儲成為首要選擇,因為它能夠根據(jù)所需容量大小對用戶進行定制,用戶不需要進行硬件的管理維護,縮減了用戶成本和人力投入。而且云存儲具有易擴容、易管理、價格低、數(shù)據(jù)安全、服務(wù)不中斷等優(yōu)點。
3.1 大規(guī)模級別存儲系統(tǒng)的構(gòu)建
大規(guī)模的存儲需要跨數(shù)據(jù)中心,跨城市、省、甚至國家進行存儲設(shè)備、存儲數(shù)據(jù)、存儲服務(wù)的組織和管理,并支持跨域的訪問、備份、容災(zāi)等功能。同時大規(guī)模的存儲要求存儲提供不同等級的管理和服務(wù)權(quán)限,并按照區(qū)域、級別分配不同的權(quán)限。系統(tǒng)對資源的訪問必須經(jīng)過嚴(yán)格的權(quán)限控制。只有用戶確認(rèn)共享的資源才能被其他用戶或業(yè)務(wù)進行訪問,即使是被授權(quán)的訪問也會根據(jù)不同的權(quán)限控制方式受到訪問權(quán)限控制。
云存儲就是將不同種類的存儲設(shè)備協(xié)調(diào)起來進行工作。這些存儲設(shè)備使用的存儲介質(zhì)也是多種多樣的,而且隨著技術(shù)的發(fā)展,設(shè)備種類和存儲介質(zhì)種類會越來越多,如何調(diào)度這些設(shè)備和存儲介質(zhì)協(xié)調(diào)工作,需要在云存儲管理軟件上考慮和優(yōu)化,以保證組織好的資源被高效利用。
3.2 存儲設(shè)備在線擴展和收縮
在存儲設(shè)備的使用過程中,會遇到調(diào)整存儲資源池的需求,要求存儲資源池根據(jù)業(yè)務(wù)的需求增加或者減少存儲設(shè)備。在調(diào)整的過程中,業(yè)務(wù)不能被中斷,也不能使上層業(yè)務(wù)感受存儲資源池的變化,同時被裁剪設(shè)備的數(shù)據(jù)要在較短的時間內(nèi)在其他設(shè)備上恢復(fù)、備份,并在較短的時間內(nèi)完成增加存儲設(shè)備和原有存儲你設(shè)備的數(shù)據(jù)均衡。
云存儲系統(tǒng)要優(yōu)化和調(diào)整數(shù)據(jù)組織和管理方法,即使存儲規(guī)模增加后,性能要隨之線性增加。數(shù)據(jù)變得龐大后,元數(shù)據(jù)管理要考慮中心化或多節(jié)點方式,以降低元數(shù)據(jù)管理對整個系統(tǒng)讀寫性能的影響。對于熱點數(shù)據(jù)支持自動的多副本復(fù)制,則會在多個存儲節(jié)點提供讀能力,以降低硬盤、網(wǎng)口、處理器對性能能力的限制。采用多級緩存技術(shù),熱點數(shù)據(jù)則會先讀入智能加速卡,并由智能加速卡對外提供讀服務(wù),在寫數(shù)據(jù)時,也是先寫入到智能加速卡,由加速卡組織分發(fā)到存儲設(shè)備上。
4 結(jié)語
隨著互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的發(fā)展,“大數(shù)據(jù)”逐漸成為發(fā)展的趨勢,數(shù)據(jù)產(chǎn)生的原因復(fù)雜多樣,在應(yīng)用中也具有新的特點。隨著各種應(yīng)用規(guī)模的擴大,數(shù)據(jù)量會呈現(xiàn)爆炸性增長的趨勢及海量數(shù)據(jù)存儲的特點。新業(yè)務(wù)環(huán)境和應(yīng)用場景對海量云存儲需求越來越迫切,這需要海量存儲平臺打破原有的框架,改變組網(wǎng)和管理方式,滿足業(yè)務(wù)需求。
[參考文獻]
[1]王珊,王會舉,覃雄派,周烜.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計算機學(xué)報.2011(10).
[2]覃雄派,王會舉,杜小勇,王珊.大數(shù)據(jù)分析——RDBMS與MapReduce的競爭與共生[J].軟件學(xué)報.2012(01).
[3]姜奇平.大數(shù)據(jù)與信息社會的意義結(jié)構(gòu)[J].互聯(lián)網(wǎng)周刊.2012(12).