熊俊
摘要:隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)不斷升級(jí),以大數(shù)據(jù)、云計(jì)算為主要代表的現(xiàn)代信息技術(shù)得以廣泛應(yīng)用?;谠朴?jì)算的大數(shù)據(jù)分析體系已經(jīng)成為解決大數(shù)據(jù)技術(shù)應(yīng)用和運(yùn)行方面問(wèn)題的主要支撐。云計(jì)算環(huán)境下大數(shù)據(jù)平臺(tái)建設(shè)需要考慮各類要素的集成,并要對(duì)數(shù)據(jù)進(jìn)行不斷整合和高效處理,才能切實(shí)發(fā)揮云計(jì)算應(yīng)有的性能。本文基于云計(jì)算對(duì)大數(shù)據(jù)分析流程優(yōu)化路徑進(jìn)行了深入研究,提出了具體的對(duì)策,以供參考。
關(guān)鍵詞:云計(jì)算;大數(shù)據(jù);分析;流程優(yōu)化;路徑;技術(shù);發(fā)展
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)08-0181-02
近年來(lái)隨著科技時(shí)代到來(lái),大數(shù)據(jù)、云計(jì)算已成為全球關(guān)注的熱點(diǎn),云計(jì)算正處于高速發(fā)展的信息時(shí)代,數(shù)據(jù)也成為重要的資源備受關(guān)注。在大數(shù)據(jù)分析流程中,逐漸引入了云計(jì)算技術(shù)對(duì)其進(jìn)行不斷優(yōu)化升級(jí),從而進(jìn)一步提升數(shù)據(jù)分析效率和質(zhì)量,減少海量數(shù)據(jù)處理時(shí)間,提升系統(tǒng)響應(yīng)能力。加強(qiáng)基于云計(jì)算的發(fā)數(shù)據(jù)分析流程優(yōu)化路徑探析,具有深遠(yuǎn)的現(xiàn)實(shí)意義。
1 大數(shù)據(jù)基本內(nèi)涵及基本處理流程分析
大數(shù)據(jù)是指通過(guò)常規(guī)的手段和方法難以對(duì)海量數(shù)據(jù)進(jìn)行處理,只能依靠高端信息處理技術(shù)和方法對(duì)海量的數(shù)據(jù)在有限的時(shí)間內(nèi)進(jìn)行感知、獲取、加工、管理、處理和共享應(yīng)用的數(shù)據(jù)體系。大數(shù)據(jù)通常具有四個(gè)顯著的特點(diǎn),分別為體量大、模態(tài)多樣、生成快速以及價(jià)值大密切低。大數(shù)據(jù)技術(shù)是對(duì)傳統(tǒng)數(shù)據(jù)處理技術(shù)和方法的進(jìn)一步升級(jí),隨著云計(jì)算理念的提出,以及相關(guān)體系內(nèi)部系列技術(shù)的出現(xiàn),越來(lái)越多的云計(jì)算技術(shù)平臺(tái)產(chǎn)生,為大數(shù)據(jù)處理提供了更好的技術(shù)服務(wù)平臺(tái),對(duì)大數(shù)據(jù)處理流程優(yōu)化也帶來(lái)了很大的便利。
大數(shù)據(jù)整體處理流程通??梢苑殖伤膫€(gè)部分,分別為數(shù)據(jù)采集、數(shù)據(jù)處理和集成、數(shù)據(jù)分析、數(shù)據(jù)解釋。第一步是進(jìn)行數(shù)據(jù)采集,對(duì)數(shù)據(jù)各個(gè)端口來(lái)源的信息進(jìn)行全面采集,并實(shí)現(xiàn)預(yù)處理,從而為后續(xù)數(shù)據(jù)計(jì)算和分析奠定基礎(chǔ),提供可靠統(tǒng)一的數(shù)據(jù)格式。隨后按照既定的數(shù)據(jù)算法對(duì)數(shù)據(jù)進(jìn)行計(jì)算分析,最后利用可視化手段將分析完成的數(shù)據(jù)結(jié)果傳遞至用戶端。
在數(shù)據(jù)采集階段,隨著計(jì)算機(jī)互聯(lián)網(wǎng)技術(shù)不斷發(fā)展和廣泛應(yīng)用,數(shù)據(jù)來(lái)源也日益龐大,生產(chǎn)數(shù)據(jù)的環(huán)節(jié)也在不斷增多,從而大大提高了數(shù)據(jù)的產(chǎn)量,數(shù)據(jù)之間的關(guān)聯(lián)度等也越來(lái)越復(fù)雜,對(duì)數(shù)據(jù)采集提出了更高的速度和精度要求。所以需要對(duì)傳統(tǒng)的數(shù)據(jù)整合處理技術(shù)進(jìn)行不斷優(yōu)化升級(jí),才能夠在最短的時(shí)間內(nèi)將海量復(fù)雜的數(shù)據(jù)通過(guò)一定的技術(shù)和方法實(shí)現(xiàn)快速簡(jiǎn)化處理,提高數(shù)據(jù)整合、處理和利用分享水平,更好地為用戶服務(wù)。如果單純地依靠傳統(tǒng)的大數(shù)據(jù)處理技術(shù),隨著信息量不斷增大,將難以應(yīng)對(duì)未來(lái)高產(chǎn)量數(shù)據(jù)信息變化帶來(lái)的挑戰(zhàn)。所以需要對(duì)數(shù)據(jù)處理流程進(jìn)行全面整合,并探索更加有效的優(yōu)化處理技術(shù),才能更好地提升數(shù)據(jù)資源的利用價(jià)值和服務(wù)效能。
在大數(shù)據(jù)處理基本流程體系中,根據(jù)四個(gè)不同的運(yùn)行階段,有不同的要求。在數(shù)據(jù)處理與集成階段,主要是對(duì)前一階段采集到的各類數(shù)據(jù)通過(guò)格式化、去噪等方式進(jìn)行預(yù)處理,并占華為統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)。在這個(gè)過(guò)程中由于數(shù)據(jù)類型比較復(fù)雜,還有很多的無(wú)效數(shù)據(jù)需要去除,轉(zhuǎn)化為統(tǒng)一的數(shù)據(jù)格式才能更好地加以利用,所以通常需要設(shè)計(jì)過(guò)濾器等方式來(lái)將無(wú)效數(shù)據(jù)去除,轉(zhuǎn)化為統(tǒng)一格式的有效數(shù)據(jù)。在數(shù)據(jù)分析階段,主要是對(duì)完成采集和整理的數(shù)據(jù)進(jìn)行進(jìn)一步分析,根據(jù)數(shù)據(jù)應(yīng)用需求以及價(jià)值功能方向,對(duì)原始采集的數(shù)據(jù)進(jìn)行進(jìn)一步的處理,通常應(yīng)用數(shù)據(jù)挖掘工具或者數(shù)據(jù)倉(cāng)庫(kù)工具等進(jìn)行集中信息處理和分析,目前在數(shù)據(jù)分析方面,有很多的大數(shù)據(jù)分析服務(wù)商提供了專業(yè)的服務(wù)軟件和支撐產(chǎn)品,從而有助于更好地對(duì)數(shù)據(jù)進(jìn)行全面深度分析。數(shù)據(jù)解釋主要是對(duì)數(shù)據(jù)分析結(jié)果進(jìn)行進(jìn)一步展現(xiàn)的過(guò)程。隨著數(shù)據(jù)信息量不斷增大,傳統(tǒng)的數(shù)據(jù)顯示或展現(xiàn)模式已經(jīng)不能滿足數(shù)據(jù)分析結(jié)果輸出的要求,數(shù)據(jù)可視化技術(shù)的出現(xiàn)和應(yīng)用為數(shù)據(jù)解釋和直觀展現(xiàn)提供了重要的技術(shù)支持,通過(guò)應(yīng)用可視化技術(shù),可以對(duì)數(shù)據(jù)分析結(jié)果直觀形象地向用戶展現(xiàn),從而提高數(shù)據(jù)深度利用價(jià)值。
2 云計(jì)算與大數(shù)據(jù)分析關(guān)系研究
云計(jì)算是為了更好地為互聯(lián)網(wǎng)提供服務(wù),而設(shè)置的一種增加、使用以及交付模式,借助互聯(lián)網(wǎng)可以提供動(dòng)態(tài)且易擴(kuò)展的虛擬化資源,是屬于按使用量付費(fèi)的一種模式。這種模式下用戶可以根據(jù)自己的需求進(jìn)行便捷訪問(wèn),并獲取相應(yīng)的資源,從而更好地加以利用。數(shù)據(jù)分析作為大數(shù)據(jù)處理流程中最重要的部分,體現(xiàn)了數(shù)據(jù)的價(jià)值,基于大數(shù)據(jù)的數(shù)據(jù)分析是指對(duì)獲取的海量的數(shù)據(jù)通過(guò)一定的技術(shù)和方法來(lái)進(jìn)行快速整合和深度處理的過(guò)程。作為大數(shù)據(jù)分析的重要支撐平臺(tái),云計(jì)算技術(shù)可以為大數(shù)據(jù)分析提供更加靈活和迅速的部署方案,從而提高大數(shù)據(jù)分析結(jié)果的精準(zhǔn)度,同時(shí)云計(jì)算技術(shù)為大數(shù)據(jù)分析提供了擴(kuò)展性更強(qiáng)和更具經(jīng)濟(jì)性的存儲(chǔ)于計(jì)算資源,為深度應(yīng)用奠定了技術(shù)。總體上看,大數(shù)據(jù)技術(shù)屬于云計(jì)算計(jì)算的延伸和拓展,大數(shù)據(jù)技術(shù)從數(shù)據(jù)采集獲取到儲(chǔ)存處理與應(yīng)用,整個(gè)過(guò)程中需要應(yīng)用大量的技術(shù),未來(lái)隨著數(shù)據(jù)變化速度越來(lái)越快,信息量日益龐雜,大數(shù)據(jù)分析走向云計(jì)算還需要依靠不斷提高數(shù)據(jù)通信寬帶,加強(qiáng)云資源建設(shè),才能確保數(shù)據(jù)整合體系功能不斷強(qiáng)大,滿足社會(huì)發(fā)展要求?;谠朴?jì)算的大數(shù)據(jù)分析,具有獨(dú)特的優(yōu)勢(shì)。一方面可以借助云計(jì)算虛擬化環(huán)境,結(jié)合用戶的業(yè)務(wù)需求,對(duì)各類資源進(jìn)行深度優(yōu)化配置,從而提升大數(shù)據(jù)的可擴(kuò)展性。另一方面數(shù)據(jù)分析力度進(jìn)一步細(xì)化,能夠進(jìn)一步提升數(shù)據(jù)本身的挖掘價(jià)值,此外也有助于降低數(shù)據(jù)分析成本,全面提升硬軟件設(shè)施利用率。這些都是云計(jì)算與大數(shù)據(jù)融合的優(yōu)勢(shì),從而為服務(wù)用戶提供性價(jià)比更好的數(shù)據(jù)分析服務(wù)。
3 基于云計(jì)算的大數(shù)據(jù)分析流程優(yōu)化路徑分析
基于云計(jì)算的大數(shù)據(jù)分析流程優(yōu)化路徑可以從三個(gè)方面進(jìn)行具體分析,分別為存儲(chǔ)與訪問(wèn)技術(shù)、并行處理技術(shù)、組織與管理技術(shù),具體分析如下:
3.1 基于云計(jì)算的大數(shù)據(jù)分析流程中存儲(chǔ)與訪問(wèn)技術(shù)優(yōu)化路徑研究
在大數(shù)據(jù)分析流程中存儲(chǔ)與訪問(wèn)技術(shù)優(yōu)化程序可以分成實(shí)現(xiàn)數(shù)據(jù)流與控制流分離以及不緩存數(shù)據(jù)優(yōu)化兩個(gè)方面。針對(duì)數(shù)據(jù)流與控制流分離方面,在進(jìn)行存儲(chǔ)與訪問(wèn)技術(shù)優(yōu)化處理過(guò)程中,主要是借助云計(jì)算技術(shù)來(lái)構(gòu)建一種GFS文件系統(tǒng),從而分流數(shù)據(jù)流和控制流。在整個(gè)文件系統(tǒng)節(jié)點(diǎn)中涉及很多的集群,每一個(gè)集群都配置了主控服務(wù)器,主控服務(wù)器可以對(duì)系統(tǒng)元數(shù)據(jù)進(jìn)行有效處理,客戶端作為以庫(kù)文件形式提供應(yīng)用程序的訪問(wèn)接口進(jìn)行處理,GFS各個(gè)幾點(diǎn)數(shù)據(jù)會(huì)借助數(shù)據(jù)塊服務(wù)器,從而將數(shù)據(jù)通過(guò)文件的形式進(jìn)行儲(chǔ)存,進(jìn)行訪問(wèn)。數(shù)據(jù)塊服務(wù)器配置數(shù)量需要根據(jù)集群系統(tǒng)的規(guī)模來(lái)確定。在整個(gè)GFS文件體系中,分塊存儲(chǔ)的數(shù)據(jù)大小控制在64MB,并建立與數(shù)據(jù)庫(kù)相對(duì)應(yīng)的索引號(hào),這樣便于及時(shí)進(jìn)行查找,并進(jìn)行信息定位有效傳送,將最準(zhǔn)確的信息按照既定的服務(wù)模塊傳輸至客戶端,用戶可以根據(jù)自己的需求進(jìn)行信息讀取等,這樣就可以將主控服務(wù)器與客戶端的數(shù)據(jù)進(jìn)行遠(yuǎn)程有效傳輸,進(jìn)一步降低了主控服務(wù)器承載負(fù)荷,并可以實(shí)現(xiàn)多個(gè)數(shù)據(jù)塊服務(wù)器的同步訪問(wèn)。針對(duì)不換存數(shù)據(jù)優(yōu)化方面,傳統(tǒng)的模式下,用戶在訪問(wèn)文件過(guò)程中會(huì)受到磁盤(pán)本身性能約束,從而產(chǎn)生訪問(wèn)過(guò)程中大量的緩存數(shù)據(jù),不能及時(shí)進(jìn)行有效疏導(dǎo),將對(duì)訪問(wèn)速度等產(chǎn)生很大的影響。通過(guò)借助云計(jì)算技術(shù),構(gòu)建不緩存數(shù)據(jù)操作系統(tǒng)的GFS文件體系,將需要操作的文件存儲(chǔ)到系統(tǒng)內(nèi)存中,如果文件塊被用戶首次訪問(wèn),系統(tǒng)會(huì)直接進(jìn)行此盤(pán)文件讀取,如果再次訪問(wèn)同一路徑,可以進(jìn)行直接緩存讀取,進(jìn)一步提升了系統(tǒng)操作性能和寫(xiě)操作水平,這也是大數(shù)據(jù)分析流程優(yōu)化的直接反映與體現(xiàn)。
3.2 基于云計(jì)算的大數(shù)據(jù)分析流程中并行處理技術(shù)的優(yōu)化路徑研究
并行處理技術(shù)還可以分成邏輯分析技術(shù)與資源配置優(yōu)化兩個(gè)方面。整個(gè)大數(shù)據(jù)分析過(guò)程中,通常需要根據(jù)數(shù)據(jù)的邏輯關(guān)系進(jìn)行要素分解,進(jìn)而通過(guò)對(duì)比的方式來(lái)總結(jié)規(guī)律,并對(duì)主次關(guān)系進(jìn)行研究,進(jìn)一步推理,尋找內(nèi)在聯(lián)系和運(yùn)行規(guī)律。想要不斷提升邏輯分析水平,需要對(duì)問(wèn)題從分解處理到整合應(yīng)用方面進(jìn)行流程整合與優(yōu)化??梢越柚朴?jì)算技術(shù)構(gòu)建數(shù)據(jù)處理模型,對(duì)各類數(shù)據(jù)進(jìn)行并行處理,對(duì)任務(wù)按照既定的程序進(jìn)行分解,劃分為不同的數(shù)據(jù)塊單元,隨后進(jìn)行分支并行處理,集約化計(jì)算,這樣將數(shù)據(jù)結(jié)果自動(dòng)生成,完整地體現(xiàn)。與計(jì)算技術(shù)服務(wù)體系在大數(shù)據(jù)問(wèn)題邏輯分析方面提供強(qiáng)大的技術(shù)保障和服務(wù)支持。在數(shù)據(jù)資源優(yōu)化配置方面,由于數(shù)據(jù)系統(tǒng)比較龐雜,需要對(duì)海量信息進(jìn)行集中處理和優(yōu)化,才能提高資源最大化利用水平,提升使用價(jià)值。云計(jì)算技術(shù)通過(guò)為系統(tǒng)進(jìn)行默認(rèn)或用戶自行定制的方式對(duì)海量數(shù)據(jù)進(jìn)行若干微階段優(yōu)化處理,借助最優(yōu)執(zhí)行性能要求實(shí)現(xiàn)數(shù)據(jù)分解任務(wù)的同步數(shù)據(jù),并對(duì)每一個(gè)微階段數(shù)據(jù)分析人物執(zhí)行情況進(jìn)行動(dòng)態(tài)監(jiān)督和測(cè)量,找出各個(gè)階段處理過(guò)程中存在的影響因素,逐一突破,提高資源優(yōu)化配置整合效率。
3.3 基于云計(jì)算的大數(shù)據(jù)分析流程中組織與管理技術(shù)優(yōu)化路徑研究
在組織與管理技術(shù)優(yōu)化方面,云計(jì)算的優(yōu)勢(shì)主要體現(xiàn)在以下方面:一方面云計(jì)算可以通過(guò)對(duì)數(shù)據(jù)模型組織結(jié)構(gòu)進(jìn)行優(yōu)化,設(shè)計(jì)一種基于云計(jì)算技術(shù)的以Bigtable為載體的分布式多維映射表,這樣可以對(duì)數(shù)據(jù)模型中的行、列關(guān)鍵字和時(shí)間戳實(shí)現(xiàn)索引,從而提高數(shù)據(jù)優(yōu)化處理效果。通常情況下Bigtable的最大行關(guān)鍵字為64KB的字符串,列設(shè)計(jì)中引入列族方式減少多樣列關(guān)鍵字的干涉,從而有效提升集中處理效率。在引入時(shí)間戳改進(jìn)體系中,借助Bigtable在數(shù)據(jù)模型中引入非順序處理的時(shí)間戳,從而提高了數(shù)據(jù)項(xiàng)間的價(jià)值關(guān)聯(lián)度,進(jìn)一步提升了數(shù)據(jù)分類整合和處理效率。另一方面借助云計(jì)算技術(shù),通過(guò)設(shè)計(jì)GFS文件系統(tǒng),對(duì)海量數(shù)據(jù)進(jìn)行存儲(chǔ),通過(guò)引入分布式調(diào)度器與鎖服務(wù),從而實(shí)現(xiàn)對(duì)服務(wù)器信息和元數(shù)據(jù)的有效管理和隊(duì)列任務(wù)分配與調(diào)度,進(jìn)而整體上提高主服務(wù)器監(jiān)控水平,不斷優(yōu)化子表服務(wù)器存儲(chǔ)操作系統(tǒng)。借助Bigtable,將有效提升分布式存儲(chǔ)系統(tǒng)的擴(kuò)展性,實(shí)現(xiàn)對(duì)各個(gè)端口信息負(fù)載的均衡處理。并且還可以通過(guò)壓縮SSTable文件的方式提高資源最優(yōu)化配置與儲(chǔ)存水平,提升系統(tǒng)整體運(yùn)行性能和效率。
總之,基于云計(jì)算技術(shù)對(duì)大數(shù)據(jù)分析流程進(jìn)行優(yōu)化,需要立足實(shí)際,結(jié)合大數(shù)據(jù)分析整體處理程序的具體要求,總結(jié)基本的運(yùn)行規(guī)律,并在數(shù)據(jù)存儲(chǔ)與訪問(wèn)、并行處理、組織與管理方面進(jìn)行不斷探索創(chuàng)新,結(jié)合用戶需求和未來(lái)發(fā)展需要,將海量的信息通過(guò)有效的系統(tǒng)來(lái)進(jìn)行快速整合處理,才能有助于不斷提升大數(shù)據(jù)信息儲(chǔ)存與利用價(jià)值,更好地發(fā)揮數(shù)據(jù)資源應(yīng)有的功能。當(dāng)然在具體優(yōu)化設(shè)計(jì)過(guò)程中還需要考慮運(yùn)行環(huán)境、現(xiàn)實(shí)需要以及資金、技術(shù)等各方面的因素,加強(qiáng)對(duì)操作人員的培訓(xùn),不斷學(xué)習(xí)和引進(jìn)新技術(shù)、新方法,才能更好地實(shí)現(xiàn)理念和技術(shù)的有效融合,全面提升云計(jì)算與大數(shù)據(jù)技術(shù)的有效融合水平,提高數(shù)據(jù)深度高效處理與利用價(jià)值。
參考文獻(xiàn):
[1] 陳清金,張巖,陳存香.云計(jì)算環(huán)境下的大數(shù)據(jù)分析[J].郵電設(shè)計(jì)技術(shù),2015(5).
[2] 趙明哲.基于云計(jì)算的大數(shù)據(jù)分析流程的優(yōu)化路徑[J].中國(guó)新通信,2018(11).
[3] 宋杰,郭朝鵬,王智,等.Jean-MarcPIERSON.大數(shù)據(jù)分析的分布式MOLAP技術(shù)[J].軟件學(xué)報(bào),2014(4).
[4] 孫仕亮,陳俊宇.大數(shù)據(jù)分析的硬件與系統(tǒng)支持綜述[J].小型微型計(jì)算機(jī)系統(tǒng),2017(1).
[5] 王偉鈞.基于云計(jì)算的大數(shù)據(jù)分析流程的優(yōu)化路徑[J].電子技術(shù)與軟件工程,2017(11).
[6] 成靜靜,喻朝新.基于云計(jì)算的大數(shù)據(jù)統(tǒng)一分析平臺(tái)研究與設(shè)計(jì)[J].廣東通信技術(shù),2013(1).
【通聯(lián)編輯:唐一東】