戴平
摘 要:根據(jù)目前大數(shù)據(jù)在各個領域使用的特點進行分析,分析大數(shù)據(jù)在發(fā)展中面臨的挑戰(zhàn),主要針對云計算中大數(shù)據(jù)平臺的構建進行分析.構建云計算大數(shù)據(jù)平臺,包括大數(shù)據(jù)整個架構、分析平臺軟件架構、平臺的網(wǎng)絡架構、統(tǒng)一分析大數(shù)據(jù)平臺構建方案.為云計算大數(shù)據(jù)平臺的市場競爭提供參考,這里將會針對云計算建立統(tǒng)一大數(shù)據(jù)平臺.
關鍵詞:云計算;大數(shù)據(jù);Segment服務器;平臺構建
中圖分類號:TP311.13? 文獻標識碼:A? 文章編號:1673-260X(2020)03-0019-03
隨著信息化時代的到來,大數(shù)據(jù)技術發(fā)展逐漸成熟,而各種網(wǎng)絡數(shù)據(jù)也呈現(xiàn)爆炸式的增長.面對競爭激烈的市場,怎樣對這龐大的數(shù)據(jù)進行整個成為了各大運營商關注的問題.這些數(shù)據(jù)包括交通信息、生活訊息等,都是來自網(wǎng)絡或是其他渠道,數(shù)據(jù)信息復雜冗長,只有建立一個集分析和儲存于一體的管理平臺,才能更好的利用這些數(shù)據(jù),挖掘能對自身利益有幫助的數(shù)據(jù),從而提高運營商的市場競爭力.大數(shù)據(jù)的出現(xiàn)為各個運營商提供了便利,它是在物聯(lián)網(wǎng)、云計算、IT行業(yè)發(fā)展后又一次重大技術變革,大數(shù)據(jù)為企業(yè)的業(yè)務流程、組織、企業(yè)決策帶來了很大影響.
1 云計算中大數(shù)據(jù)分析平臺關鍵問題
1.1 數(shù)據(jù)的收集和儲存
處于互聯(lián)網(wǎng)模式下,數(shù)據(jù)集會不斷增多,所以,需要不斷完善數(shù)據(jù)收集和儲存效率.目前,使用的數(shù)據(jù)收集技術完全滿足不了互聯(lián)網(wǎng)用戶的需求,而且這對內(nèi)存消耗較大.使用遠程內(nèi)存訪問協(xié)議可以提供更加快速的數(shù)據(jù)測量視乎,同時也能降低內(nèi)存消耗.對于大數(shù)據(jù)處理技術而言,可以采取多種數(shù)據(jù)收集儲存方式,建立一個數(shù)據(jù)流處理系統(tǒng),這也可以提高數(shù)據(jù)收集的效率,同時節(jié)省更多的成本,而且能夠挖掘更具有價值的信息.
1.2 云計算架構
基于云計算、分布式、儲存功能的大數(shù)據(jù)分析平臺,具有很強的數(shù)據(jù)處理能力.構建云計算數(shù)據(jù)分析統(tǒng)一平臺,主要可以分為三個部分:頂層、中間層、數(shù)據(jù)層.其中頂層包括用戶接口子系統(tǒng)、工作流;中間層包括:數(shù)據(jù)預處理、并行數(shù)據(jù)子系統(tǒng);數(shù)據(jù)中心層屬于云計算中中心數(shù)據(jù)儲存模塊.
2 云計算的大數(shù)據(jù)平臺構建
2.1 大數(shù)據(jù)分析平臺設計思路
基于云計算技術的大數(shù)據(jù)平臺可以為用戶提供擴展性很高、性價比高的硬件支持PB級別的體系,甚至包含半結(jié)構化、海量結(jié)構化、非結(jié)構化ZB級別數(shù)據(jù)儲存.而且建立統(tǒng)一大數(shù)據(jù)分析平臺,可以更加快速的提高數(shù)據(jù)挖掘速度,挖掘數(shù)據(jù)的支架,為用戶帶來更大的經(jīng)濟價值.
構建云計算大數(shù)據(jù)平臺思路包括:(1)企業(yè)管理者可以直接對數(shù)據(jù)實例進行控制.(2)在企業(yè)內(nèi)部建立數(shù)據(jù)運算統(tǒng)一平臺.(3)通過數(shù)據(jù)統(tǒng)一處理平臺,為企業(yè)提供自身需要的訪問功能.(4)加強大數(shù)據(jù)處理的科學性,提高平臺靈活配置和擴展功能,從而減少企業(yè)投資風險.
建立基于云計算的大數(shù)據(jù)分析平臺,主要利用Map Reduce架構、數(shù)據(jù)庫儲存技術為數(shù)據(jù)的快速處理提供了半結(jié)構化、結(jié)構化或是非機構化的數(shù)據(jù)分析平臺.這樣也能將客戶以成本為中心的數(shù)據(jù)資產(chǎn)轉(zhuǎn)變成以利潤為主,通過數(shù)據(jù)來拉動企業(yè)業(yè)務.
2.2 大數(shù)據(jù)統(tǒng)一平臺軟件架構
2.2.1 軟件架構
這個模塊是通過互聯(lián)網(wǎng)將Segment多節(jié)點主機、Master主機、數(shù)據(jù)庫進行連接構成的.其中應用程序使用利用Master主機進行數(shù)據(jù)訪問,在該系統(tǒng)中每個儲存節(jié)點都有自己的數(shù)據(jù)庫,數(shù)據(jù)庫之間沒有實現(xiàn)相互連接.而Master主機和多儲存節(jié)點之間是相互連接,可以進行數(shù)據(jù)交換.
Segment服務器在網(wǎng)絡環(huán)境下將每個節(jié)點進行連接,從而完成同一個任務,對于用戶而言,它是一個服務器系統(tǒng).Segment服務器是在互聯(lián)網(wǎng)基礎上進行連接的,每個節(jié)點只能對本地資源進行儲存和訪問,不具備信息共享的功能,從理論上分析,該系統(tǒng)具有一定的擴展能力.目前,大數(shù)據(jù)軟件技術可以實現(xiàn)512個節(jié)點進行連接,提供數(shù)千個CPU.每個節(jié)點都有自己的操作系統(tǒng)、數(shù)據(jù)庫,但是節(jié)點之間不能相互訪問內(nèi)存,利用互聯(lián)網(wǎng)進行節(jié)點信息交互是關鍵,這個過程屬于數(shù)據(jù)重新分配.關于具體的軟件架構見圖1.
2.2.2 使用習慣較高的方案設計
Master備主機和Master主機之間的進程是主-備方式,在GE網(wǎng)絡條件下,Master連接多個節(jié)點中的Segment主機,每個Segment節(jié)點主機都有具有鏡像兩份網(wǎng)段數(shù)據(jù)、主網(wǎng)段,它能提高整個系統(tǒng)架構的可用性.詳細見圖2.
2.3 大數(shù)據(jù)統(tǒng)一平臺網(wǎng)絡架構
2.3.1 大數(shù)據(jù)平臺架構共享方案
實現(xiàn)“完全共享”的大數(shù)據(jù)平臺,主要受到單一服務器的限制,目前市場上能夠滿足數(shù)據(jù)完全共享需求的服務器是SMP,這種服務器價格比較昂貴(見圖3),多數(shù)企業(yè)會因為成本問題而不去考慮這種服務器.
企業(yè)為了實現(xiàn)大數(shù)據(jù)平臺信息共享功能,一般是建立“磁盤共享”體系,將多個服務器構成一個系統(tǒng),同時將這些服務器和SAN進行連接,從而實現(xiàn)儲存和共享數(shù)據(jù)的功能.該系統(tǒng)需要一個狹窄數(shù)據(jù)管道來過濾所有的I/O信息,之后在共享磁盤中進行儲存.見圖4.
從結(jié)構角度分析,“磁盤共享”“完全共享”體系,在性能和擴展性都存在不足,而且通用的共享磁盤體系比較脆弱且復雜,對于數(shù)以萬字節(jié)的數(shù)據(jù)無法準確及時處理.
2.4 大數(shù)據(jù)統(tǒng)一平臺方案特點
2.4.1 節(jié)點鏡像-數(shù)據(jù)保護
在大數(shù)據(jù)平臺中,負責儲存系統(tǒng)元數(shù)據(jù)的是Master,而主機Segment節(jié)點是儲存用戶相關數(shù)據(jù),在鏡像的作用下,鏡像數(shù)據(jù)可以儲存在不同的Segment主機上.比如:圖6中,Segment主機1版本1數(shù)據(jù)儲存在Segment主機1,而它的鏡像數(shù)據(jù)在Segment主機n上儲存;Segment主機2的鏡像數(shù)據(jù)是保存在Segment主機1等等.
通過分析這種鏡像配置,總結(jié)到如果Segment主機down機了,還可以在別的Segment主機中找到相關數(shù)據(jù),并儲存在Segment主機數(shù)據(jù)庫中.
2.4.2 加載外部表高速數(shù)據(jù)
這個部分具有的優(yōu)勢體現(xiàn)在:首先,數(shù)據(jù)流并行引擎技術,使用SQL直接對外部表進行操作;其次,完全并行加載,速度可以達到4.5TB/小時.
SQL&MapReduce一體環(huán)境
相比傳統(tǒng)的RDBMS系統(tǒng),大數(shù)據(jù)的編程環(huán)境是屬于SQL語句和MapReduce一體的系統(tǒng)環(huán)境.本文分析的云計算平臺是利用X86開放架構服務器PC構建的硬件系統(tǒng),它具有大規(guī)模數(shù)據(jù)計算和分布式儲存數(shù)據(jù)的功能,能夠解決I/O存在的問題,具有很高的保障性,擴展性能比較好,各種數(shù)據(jù)資源可以按需制定.
2.5 大數(shù)據(jù)統(tǒng)一分析平臺的優(yōu)勢
建立在云計算基礎上的大數(shù)據(jù)平臺,可以實現(xiàn)大幅度數(shù)據(jù)容量處理,同時能夠使用細粒度數(shù)據(jù)集,完成數(shù)據(jù)緊密倉庫、低延遲數(shù)據(jù)訪問、集成分析等任務,為企業(yè)或是公司提供具有可操行的具體數(shù)據(jù)參考.大數(shù)據(jù)統(tǒng)一平臺具有的優(yōu)勢包括:(1)可以實現(xiàn)多元化、細化性的低延遲數(shù)據(jù)集分析,同時將數(shù)據(jù)之間細微的區(qū)別和關系進行保留,這樣可以更好指導企業(yè)業(yè)務,為優(yōu)化業(yè)務績效提供參考依據(jù).(2)允許根據(jù)再分配、按需分配、優(yōu)先級對業(yè)務相關資源進行快速計算.(3)根據(jù)關鍵性業(yè)務開展組織活動,提供最佳的傳播方法,同時組織分析結(jié)果.(4)成本方面具有一定的優(yōu)勢,可以通過商品化組間結(jié)合大數(shù)據(jù),挖掘?qū)ζ髽I(yè)有利益的數(shù)據(jù),從而提高企業(yè)的經(jīng)濟效益.
3 結(jié)語
建立在云計算基礎上的數(shù)據(jù)分析平臺,可以對復雜的數(shù)據(jù)結(jié)構、關聯(lián)度較高的數(shù)據(jù)進行處理,同時也能及時響應用戶請求.該平臺可以實現(xiàn)對大量數(shù)據(jù)的管理和處理,實現(xiàn)智能、高速的數(shù)據(jù)分析,為企業(yè)業(yè)務處理提供一定的幫助,從而挖掘更具有價值的數(shù)據(jù).
參考文獻:
〔1〕王偉,凌煥然,李響.基于云計算與大數(shù)據(jù)架構的工業(yè)水處理工藝流程智能感知運營平臺建設[J].江蘇交通科技,2016(1):22-25.
〔2〕江凱,蘇謙,白皓,等.大數(shù)據(jù)環(huán)境下高速鐵路線下結(jié)構檢測數(shù)據(jù)管理平臺設計與分析[J].鐵道標準設計,2016(3):24-28.
〔3〕陳敏,肖志強.關于云計算大數(shù)據(jù)處理技術在智能電網(wǎng)中分析與應用淺析[J].數(shù)字技術與應用,2016(12):250-250.
〔4〕周效章.“在線教育平臺+學習中心”融合教學模式構建研究——基于滬江教學模式的分析與思考[J].現(xiàn)代教育技術,2017,27(10).
〔5〕丁臘春,王譯,魏浩文,等.基于云計算的區(qū)域O2O孕產(chǎn)婦醫(yī)療保健服務平臺的研究[J].中國數(shù)字醫(yī)學,2016,11(12):79-80.
〔6〕李霞.大數(shù)據(jù)背景下的智慧檢務之建構——以“檢立方C-139”大數(shù)據(jù)輔助決策平臺為例[J].渤海大學學報(哲學社會科學版),2017,39(4):45-48.
〔7〕唐卓,陳建國,李肯立,等.Spark云服務環(huán)境下面向大數(shù)據(jù)的隨機森林并行機器學習方法.CN105550374A[P].2016.
〔8〕汪旭光,王尹軍.構建“互聯(lián)網(wǎng)+大數(shù)據(jù)”模式 大力提升危險化學品管控和應急救援能力(二)[J].中國消防,2017(4):53-57.