高尚建 魏國 楊功
摘? 要:大數(shù)據(jù)時(shí)代數(shù)據(jù)成為了企業(yè)非常有價(jià)值的資源,對(duì)實(shí)時(shí)產(chǎn)生的海量大數(shù)據(jù)進(jìn)行價(jià)值最大化挖掘成為了企業(yè)當(dāng)前非常重要的一項(xiàng)工作和追求目標(biāo)。而針對(duì)如此海量的數(shù)據(jù),首先要解決的一個(gè)問題就是采取何種方式進(jìn)行存儲(chǔ)?;诖?,文章結(jié)合當(dāng)前大數(shù)據(jù)時(shí)代企業(yè)經(jīng)營數(shù)據(jù)信息的實(shí)際,就如何管理好這些海量大數(shù)據(jù)進(jìn)行了分布式文件存儲(chǔ)系統(tǒng)的應(yīng)用研究,以期通過充分發(fā)揮分布式文件存儲(chǔ)系統(tǒng)的優(yōu)勢實(shí)現(xiàn)對(duì)海量數(shù)據(jù)資源處理的水平和能力,讓企業(yè)數(shù)據(jù)資源發(fā)揮了最有效的價(jià)值。
關(guān)鍵詞:海量數(shù)據(jù);分布式文件存儲(chǔ);優(yōu)化管理
中圖分類號(hào):TP311.1? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? ? ?文章編號(hào):2095-2945(2020)18-0181-02
Abstract: The data of big data era has become a very valuable resource for enterprises, and it has become a very important work and goal for enterprises to maximize the value of the massive big data generated in real time. In view of such a large amount of data, the first problem to be solved is how to store it. Based on this, combined with the reality of enterprise management data information in big data era, this paper makes a research on the application of distributed file storage system on how to manage these massive big data well. In order to achieve the level and ability to deal with massive data resources by giving full play to the advantages of distributed file storage system, so that enterprise data resources play the most effective value.
Keywords: massive data; distributed file storage; optimal management
前言
對(duì)于企業(yè)信息化數(shù)據(jù)的存儲(chǔ)來說,以往由于企業(yè)的數(shù)據(jù)量不是很大,傳統(tǒng)的集中式存儲(chǔ)以其功能豐富、穩(wěn)定可靠性高優(yōu)勢就可以很好的實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ),然而隨著數(shù)字化時(shí)代的到來,企業(yè)每天都實(shí)時(shí)產(chǎn)生了相當(dāng)?shù)臄?shù)據(jù),這些數(shù)據(jù)海量冗雜且實(shí)時(shí)更新,數(shù)據(jù)量也從GB級(jí)一直往ZB級(jí)上飆升,再用傳統(tǒng)的集中式存儲(chǔ)就出現(xiàn)了各種問題,主要表現(xiàn)為存儲(chǔ)系統(tǒng)難以橫向擴(kuò)展、硬件成本居高不下、數(shù)據(jù)有效連通性不足等,導(dǎo)致企業(yè)數(shù)據(jù)存在諸多孤島,難以有效實(shí)現(xiàn)數(shù)據(jù)管理。而以云存儲(chǔ)為代表的分部署存儲(chǔ)則有效避免了因?yàn)槌R?guī)集中式存儲(chǔ)難以高效的處理海量數(shù)據(jù)所出現(xiàn)的問題,不僅實(shí)現(xiàn)了數(shù)據(jù)管理的高效化,也大大降低了企業(yè)數(shù)據(jù)管理運(yùn)行成本。因此,針對(duì)當(dāng)前大數(shù)據(jù)時(shí)代企業(yè)的數(shù)據(jù)管理應(yīng)用分布式文件存儲(chǔ)系統(tǒng)非常合適且必要。
1 分布式存儲(chǔ)的定義
數(shù)據(jù)的存儲(chǔ)按照物理存儲(chǔ)形態(tài)的分類來說在應(yīng)用中最多的就是集中式存儲(chǔ)以及分布式存儲(chǔ)。作為一種數(shù)據(jù)存儲(chǔ)的技術(shù),兩種存儲(chǔ)的實(shí)現(xiàn)方式完全不同,傳統(tǒng)的集中式存儲(chǔ)主要是通過設(shè)備的增加來增大數(shù)據(jù)容量,而分布式存儲(chǔ)則主要以軟件服務(wù)的方式來完成,是服務(wù)器、服務(wù)、軟件的綜合體,它是通過非標(biāo)準(zhǔn)協(xié)議的方式整合企業(yè)各類服務(wù)器上的存儲(chǔ)資源,并進(jìn)行存儲(chǔ)資源池化和虛擬化處理,最后呈現(xiàn)給用戶某種形式(塊存儲(chǔ)或者文件存儲(chǔ))的存儲(chǔ)空間。具體來說就是將企業(yè)中分散在每臺(tái)機(jī)器設(shè)備上的磁盤空間數(shù)據(jù)通過網(wǎng)絡(luò)和運(yùn)行存儲(chǔ)軟件的形式整合起來形成一個(gè)可以擴(kuò)展的結(jié)構(gòu)系統(tǒng)在進(jìn)行的一種存儲(chǔ)服務(wù),其可以讓這些服務(wù)器都可以對(duì)數(shù)據(jù)存儲(chǔ)進(jìn)行負(fù)荷承擔(dān),這樣不僅對(duì)數(shù)據(jù)的處理能力大大提高,而且更加高效更加實(shí)用更加節(jié)約成本。
2 分布式文件存儲(chǔ)系統(tǒng)的主要特征分析
傳統(tǒng)的集中式存儲(chǔ)主要是通過存儲(chǔ)矩陣來實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)管理,其雖然功能豐富,穩(wěn)定性和可靠性也都很不錯(cuò),但是在應(yīng)對(duì)海量數(shù)據(jù)時(shí)卻缺陷明顯,不僅無法針對(duì)各類數(shù)據(jù)進(jìn)行有機(jī)銜接,同時(shí)需要花更多的成本來進(jìn)行硬件存儲(chǔ)設(shè)備的購置,這些都導(dǎo)致了數(shù)據(jù)處理的效率低下和成本居高不小。然而分布式文件存儲(chǔ)系統(tǒng)就很好的避免了這些問題的出現(xiàn),因?yàn)榉植际轿募鎯?chǔ)系統(tǒng)并不是完全靠存儲(chǔ)設(shè)備來實(shí)現(xiàn)對(duì)數(shù)據(jù)的管理的,它主要是以非標(biāo)準(zhǔn)協(xié)議的方式來對(duì)企業(yè)各類設(shè)備上的數(shù)據(jù)進(jìn)行有效的資源整合,并通過專業(yè)的存儲(chǔ)軟件來實(shí)現(xiàn)數(shù)據(jù)的有效存儲(chǔ)和管理,徹底解決了數(shù)據(jù)孤島和設(shè)備硬件成本高的問題。
總結(jié)起來說,分布式文件存儲(chǔ)系統(tǒng)具有以下幾個(gè)方面的特性:
2.1 可拓展性
分布式文件存儲(chǔ)系統(tǒng)的一個(gè)顯著特點(diǎn)就是可拓展,這是傳統(tǒng)集中式存儲(chǔ)系統(tǒng)無法比擬的,它通過將企業(yè)內(nèi)所有的存儲(chǔ)有數(shù)據(jù)的設(shè)備有機(jī)連接起來,其可以通過擴(kuò)展性將數(shù)據(jù)存儲(chǔ)資源擴(kuò)展形成數(shù)百臺(tái)甚至幾千臺(tái)的設(shè)備存儲(chǔ)集群,并且通過擴(kuò)展性讓存儲(chǔ)系統(tǒng)性能呈線性增長。
2.2 成本較低
一般的常規(guī)服務(wù)器就可以滿足分布式文件存儲(chǔ)系統(tǒng)的需要,存儲(chǔ)設(shè)備要求比較低,常規(guī)的就能有效利用,這也是分布式存儲(chǔ)系統(tǒng)優(yōu)勢的具體體現(xiàn),那就是具有的自動(dòng)負(fù)載均衡、自動(dòng)容錯(cuò)機(jī)制。由于在常規(guī)的普通服務(wù)器上既可有效的運(yùn)行分布式存儲(chǔ)系統(tǒng),那么數(shù)據(jù)存儲(chǔ)運(yùn)行成本就大大降低了。此外,擴(kuò)展性的優(yōu)勢也降低了分布式存儲(chǔ)系統(tǒng)對(duì)設(shè)備服務(wù)器的需求,進(jìn)一步降低了成本。
2.3 性能優(yōu)越
分布式文件存儲(chǔ)系統(tǒng)高性能是其運(yùn)行的一個(gè)顯著特點(diǎn),在企業(yè)數(shù)據(jù)管理中,無論是單一的服務(wù)器應(yīng)用還是整個(gè)企業(yè)數(shù)據(jù)集群存儲(chǔ)應(yīng)用,分布式文件存儲(chǔ)系統(tǒng)數(shù)據(jù)存儲(chǔ)能力及效果都非常明顯。
2.4 實(shí)用性強(qiáng)
對(duì)于用戶來說,實(shí)現(xiàn)分布式存儲(chǔ)系統(tǒng)的應(yīng)用簡單便捷是其性能發(fā)揮的又一特點(diǎn),但是要想使這個(gè)系統(tǒng)使用起來非常實(shí)用便捷高效,對(duì)外接口的設(shè)計(jì)非常重要,在進(jìn)行分布式存儲(chǔ)系統(tǒng)選擇使用時(shí)需要對(duì)用戶提供簡單好用的接口。此外,為了更好的與其它系統(tǒng)進(jìn)行集成,可以提前設(shè)置好監(jiān)控、運(yùn)維等工具系統(tǒng)。
2.5 容錯(cuò)性
對(duì)服務(wù)器故障能夠?qū)崿F(xiàn)快速的檢測,并且能夠?qū)崿F(xiàn)對(duì)發(fā)生故障服務(wù)器上的數(shù)據(jù)進(jìn)行自動(dòng)化遷移。
分布式文件存儲(chǔ)系統(tǒng)雖然具有諸多的優(yōu)勢,但是在文件數(shù)據(jù)存儲(chǔ)管理過程中也面臨著一定調(diào)整,那就是持久化的保持?jǐn)?shù)據(jù)和數(shù)據(jù)信息狀態(tài),這是因?yàn)榉植际酱鎯?chǔ)系統(tǒng)比較復(fù)雜的存儲(chǔ)拓?fù)浣Y(jié)構(gòu),這樣就會(huì)增加系統(tǒng)出現(xiàn)故障的機(jī)率。要避免這樣的問題發(fā)生,數(shù)據(jù)一致性是首先要解決的問題,而要確保數(shù)據(jù)的一致性,需要系統(tǒng)在自動(dòng)容錯(cuò)、自動(dòng)遷移以及并發(fā)讀寫的過程中來實(shí)現(xiàn),并且要提前實(shí)現(xiàn)基于網(wǎng)絡(luò)控制下的數(shù)據(jù)保護(hù)、數(shù)據(jù)冗雜、數(shù)據(jù)容錯(cuò)等功能,這就可以確保在企業(yè)設(shè)備各種服務(wù)器、磁盤或者交換機(jī)等出現(xiàn)故障或者某些異常情況時(shí)存儲(chǔ)系統(tǒng)仍能保持非常好的可靠性和可用性。
3 常用的分布式文件存儲(chǔ)系統(tǒng)
目前在用的分布式文件存儲(chǔ)系統(tǒng)比較多,它們?cè)诟鱾€(gè)領(lǐng)域的應(yīng)用中其側(cè)重的點(diǎn)不盡相同,在市場中應(yīng)用中較多的為企業(yè)應(yīng)用級(jí),系統(tǒng)級(jí)的相對(duì)不多,主要的有GFS、HDFS、Lustre、Ceph、GridFS、mogileFS、TFS、FastDFS等等。
4 典型的分布式文件存儲(chǔ)的架構(gòu)
在眾多的分布式文件存儲(chǔ)系統(tǒng)的應(yīng)用中,開源的應(yīng)用最為廣泛,本文以hadoop的HDFS為例,就其系統(tǒng)結(jié)構(gòu)的設(shè)計(jì)進(jìn)行了詳細(xì)闡述。
Hadoop是當(dāng)前應(yīng)用非常廣泛的一種文本搜索庫系統(tǒng)之一,它的來源是Apache Nutch,由Doug Cutting開發(fā),其是Doug Cutting開發(fā)的Apache Lucene項(xiàng)目中的一部分,作為Google系統(tǒng)的重要組成部分,其實(shí)現(xiàn)的是網(wǎng)絡(luò)搜索引擎開源化。其中的Aapche Hadoop架構(gòu)作為一種開源應(yīng)用,其根本算法是MapReduce。Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(Hadoop Distributed File System),簡稱HDFS。作為一個(gè)容錯(cuò)性非常高的分布式文件系統(tǒng),其一般會(huì)被優(yōu)化設(shè)計(jì)而在常規(guī)的機(jī)器設(shè)備上就可以運(yùn)行的,特別是一些同樣的硬件設(shè)備都可以高效的運(yùn)行,其性能的發(fā)揮主要體現(xiàn)在通過應(yīng)用在規(guī)模龐大的數(shù)據(jù)集上而表現(xiàn)出訪問吞吐量非常高的價(jià)值體現(xiàn)。
4.1 大規(guī)模數(shù)據(jù)集
在HDFS系統(tǒng)上進(jìn)行文件存儲(chǔ)系統(tǒng)的運(yùn)行,數(shù)據(jù)集規(guī)模龐大是最顯著的特點(diǎn),特別是對(duì)于大文件的存儲(chǔ)尤其為特點(diǎn),并且能有效實(shí)現(xiàn)高數(shù)據(jù)帶寬的功能。一個(gè)單一的HDFS就可以支持以千萬量級(jí)計(jì)的文件,這些文件的大小通常都在G字節(jié)至T字節(jié)。
4.2 簡單的一致性模型
為確保HDFS系統(tǒng)進(jìn)行文件存儲(chǔ)時(shí)進(jìn)行海量數(shù)據(jù)的訪問,文件訪問模型的建立非常關(guān)鍵,模型形式具體是“一次寫入多次讀取”,而且這個(gè)模型通常在進(jìn)行了創(chuàng)建、寫入和關(guān)閉操作之后就不需要進(jìn)行改變了,同時(shí)這個(gè)模型是一個(gè)相對(duì)簡化的模型?,F(xiàn)在各分布式文件存儲(chǔ)系統(tǒng)都進(jìn)一步提升了這個(gè)模型的實(shí)用性,可以在此基礎(chǔ)上對(duì)模型進(jìn)行優(yōu)化,使之可以對(duì)支持的文件進(jìn)行寫操作處理。
4.3 異構(gòu)軟硬件平臺(tái)間的可移植性
文件存儲(chǔ)系統(tǒng)對(duì)文件數(shù)據(jù)進(jìn)行存儲(chǔ)時(shí)就對(duì)平臺(tái)的可移植性進(jìn)行了結(jié)構(gòu)設(shè)計(jì),這樣的功能就對(duì)于提高HDFS系統(tǒng)的應(yīng)用具有明顯的優(yōu)勢,特別是在海量大數(shù)據(jù)的存儲(chǔ)方面具有突出的優(yōu)勢。
5 結(jié)束語
通過分布式文件存儲(chǔ)系統(tǒng)的應(yīng)用,有效的實(shí)現(xiàn)了企業(yè)海量數(shù)據(jù)的管理和利用,避免了數(shù)據(jù)孤島及數(shù)據(jù)分散的問題,同時(shí)由于可以彈性擴(kuò)展使數(shù)據(jù)儲(chǔ)存空間的利用率大大提高,大大降低了軟硬件運(yùn)行成本,非常適合數(shù)字化時(shí)代企業(yè)大數(shù)據(jù)存儲(chǔ)。
參考文獻(xiàn):
[1]王梅,張四平.基于分布式系統(tǒng)的大數(shù)據(jù)管理平臺(tái)技術(shù)架構(gòu)研究[J].電腦與電信,2019(10):10-13.
[2]喬萌萌.基于Hadoop的云存儲(chǔ)技術(shù)在檔案館的應(yīng)用研究[J].信息與電腦,2019(24):163.
[3]王大志.基于HDFS的跨集群分布式文件系統(tǒng)研究[J].信息技術(shù)與信息化,2018(08):230.