国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于PaaS平臺(tái)的數(shù)據(jù)可視化研究

2021-11-07 09:17趙艷平
關(guān)鍵詞:海量插件聚類

趙艷平

(安徽水利水電職業(yè)技術(shù)學(xué)院,安徽 合肥 230001)

0 引言

信息化時(shí)代背景下,數(shù)據(jù)產(chǎn)品分析加工至關(guān)重要。傳統(tǒng)數(shù)據(jù)產(chǎn)品分析加工周期長(zhǎng),業(yè)務(wù)部門(mén)和技術(shù)部門(mén)之間溝通不暢,導(dǎo)致數(shù)據(jù)加工的實(shí)效性和質(zhì)量較差,不利于企業(yè)市場(chǎng)競(jìng)爭(zhēng)力的提升。PaaS平臺(tái)數(shù)據(jù)管控技術(shù)具有結(jié)合企業(yè)業(yè)務(wù)需求進(jìn)行數(shù)據(jù)模型設(shè)計(jì)的優(yōu)勢(shì),通過(guò)對(duì)企業(yè)經(jīng)營(yíng)和發(fā)展過(guò)程中產(chǎn)生的海量大數(shù)據(jù)分析,實(shí)現(xiàn)數(shù)據(jù)產(chǎn)品的可視化,從而達(dá)到提升企業(yè)市場(chǎng)競(jìng)爭(zhēng)力的目的。數(shù)據(jù)可視化是當(dāng)前學(xué)術(shù)界研究的熱點(diǎn),侯雪等設(shè)計(jì)了用電行為數(shù)據(jù)可視化分析系統(tǒng),該系統(tǒng)將數(shù)據(jù)挖掘和可視化分析有機(jī)結(jié)合起來(lái),能夠有效地幫助專家分析和理解數(shù)據(jù),發(fā)現(xiàn)用電行為數(shù)據(jù)中未知的趨勢(shì),得到更有價(jià)值的結(jié)論[1]。符曉洪等借助PaaS技術(shù)構(gòu)建了大數(shù)據(jù)云化平臺(tái),該平臺(tái)不僅可以滿足技術(shù)需求,同時(shí)也大大提升了資源的利用率[2]。數(shù)據(jù)可視化在快速的發(fā)展過(guò)程中積累了大量數(shù)據(jù)處理、存儲(chǔ)、組織模型,但是依舊存在可視化環(huán)境下分布式轉(zhuǎn)換的難題?;陂_(kāi)源技術(shù),構(gòu)建基于PaaS平臺(tái)的數(shù)據(jù)可視化系統(tǒng)框架,對(duì)地理空間海量大數(shù)據(jù)可視化進(jìn)行研究。

1 數(shù)據(jù)可視化系統(tǒng)架構(gòu)

平臺(tái)即服務(wù)(Platform as a Service,PaaS)是一種將服務(wù)器平臺(tái)作為一種服務(wù)提供的商業(yè)化模式,屬于云計(jì)算的三種服務(wù)模式之一。借助PaaS技術(shù)構(gòu)建海量大數(shù)據(jù)分析平臺(tái),能夠?qū)崿F(xiàn)資源的充分利用,在海量大數(shù)據(jù)中找出事物內(nèi)在的發(fā)展規(guī)律。基于PaaS平臺(tái)的數(shù)據(jù)可視化為用戶提供了大數(shù)據(jù)分析的平臺(tái),使得企業(yè)大數(shù)據(jù)部署成本大大降低[3]。圖1為基于PaaS平臺(tái)的數(shù)據(jù)可視化系統(tǒng)架構(gòu)。

圖1 基于PaaS平臺(tái)的數(shù)據(jù)可視化系統(tǒng)架構(gòu)

2 數(shù)據(jù)可視化系統(tǒng)技術(shù)

2.1 應(yīng)用類型調(diào)度

應(yīng)用類型不僅包含框架類的應(yīng)用,還包含普通交易類的應(yīng)用,對(duì)于不同的應(yīng)用類型可以采用不同的調(diào)度方式。應(yīng)用類型調(diào)度方式有獨(dú)立調(diào)度方式和兩層調(diào)度方式,其中獨(dú)立調(diào)度方式是Hadoop集群對(duì)自身資源進(jìn)行的調(diào)度,對(duì)框架類的應(yīng)用調(diào)度提供支持。兩層調(diào)度方式需要先對(duì)兩種類型的應(yīng)用進(jìn)行疊加,不僅能夠?qū)Y源進(jìn)行共享,還能夠?qū)?yīng)用進(jìn)行統(tǒng)一化的管理。YARN/Mesos是海量大數(shù)據(jù)應(yīng)用下的兩層調(diào)度器,具體如圖2所示[4]。

圖2 兩層調(diào)度器應(yīng)用

2.2 數(shù)據(jù)聚類分析

聚類分析是將物理對(duì)象或抽象對(duì)象集合進(jìn)行分類的過(guò)程,是重要的人類行為,在數(shù)學(xué)、統(tǒng)計(jì)學(xué)、經(jīng)濟(jì)學(xué)、人文社科等領(lǐng)域具有廣泛的應(yīng)用。K均值算法是經(jīng)典的聚類分析算法,通過(guò)計(jì)算距離來(lái)衡量對(duì)象之間的相似性[5]。設(shè)定待分類集合的聚類數(shù)目為k,將距離函數(shù)進(jìn)行反復(fù)迭代可以將集合分為k類。K均值算法的目標(biāo)是使得誤差平方和函數(shù)J最小,即

(1)

式中:nj、mj、xi(j)分別為第j類樣本的樣本數(shù)、樣本均值以及第i個(gè)樣本。

采用K均值算法對(duì)樣本進(jìn)行分類,設(shè)定聚類數(shù)目,同時(shí)初始化聚類中心,計(jì)算集合中每一個(gè)樣本數(shù)據(jù)到聚類中心的距離。根據(jù)距離的大小來(lái)將樣本進(jìn)行分類,同時(shí)對(duì)聚類中心進(jìn)行更新,判斷聚類中心是否發(fā)生變化。如果聚類中心發(fā)生變化,重新計(jì)算數(shù)據(jù)到更新后聚類中心的距離;如果聚類中心未發(fā)生變化,那么輸出聚類中心,從而完成對(duì)樣本的分類。K均值算法的流程如圖3所示。

圖3 K均值算法流程

2.3 分布式計(jì)算框架

在當(dāng)前信息化、網(wǎng)絡(luò)化時(shí)代背景下,數(shù)據(jù)量快速增加,傳統(tǒng)的計(jì)算框架在處理海量大數(shù)據(jù)方面明顯不足,單機(jī)計(jì)算模式無(wú)法支撐海量數(shù)據(jù),必須采取分布式計(jì)算處理模式。分布式計(jì)算框架主要有三種模式,分別為Hadoop、Storm和Spark[6],其中Hadoop分布式計(jì)算框架具有強(qiáng)大的計(jì)算功能,是基于Google提出的MapReduce開(kāi)發(fā)模式,研究采用Hadoop模式。

Hadoop模式對(duì)海量大數(shù)據(jù)處理采用的是函數(shù)式編程思想,數(shù)據(jù)處理包括map和reduce兩個(gè)過(guò)程。通過(guò)函數(shù)式編程思想,龐大的計(jì)算任務(wù)轉(zhuǎn)變?yōu)樵S多較小的計(jì)算任務(wù),同時(shí)每一個(gè)較小的計(jì)算任務(wù)將分配到整個(gè)集群的每一個(gè)計(jì)算節(jié)點(diǎn)上。對(duì)每一個(gè)計(jì)算節(jié)點(diǎn)的計(jì)算結(jié)果進(jìn)行收集整理,從而得到海量大數(shù)據(jù)的計(jì)算結(jié)果。圖4為Hadoop分布式計(jì)算處理流程。

圖4 Hadoop分布式計(jì)算處理流程

2.4 PaaS作業(yè)管理

通過(guò)瀏覽器,使用者將作業(yè)文件上傳到云端,同時(shí)云端將使用者上傳的文件讀取到HDFS中,終端使用者借助瀏覽器下載可視化的分析結(jié)果文件。PaaS作業(yè)管理架構(gòu)如圖5所示。

圖5 PaaS作業(yè)管理架構(gòu)

由圖5可知,PaaS作業(yè)框架是使用者將腳本文件Browser提交到API Server,API Server將任務(wù)信息存儲(chǔ)在數(shù)據(jù)庫(kù)Database中,同時(shí)選擇與之對(duì)應(yīng)的文件服務(wù)Cloudware Instance。Docker啟動(dòng)運(yùn)行相應(yīng)的作業(yè)腳本,同時(shí)和API Server之間保持心跳通信。Cloudware Instance任務(wù)處理完畢之后會(huì)給API Server發(fā)送異步消息,同時(shí)API Server將異步數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中。終端用戶可以在NFS(網(wǎng)絡(luò)文件系統(tǒng))下載可視化的作業(yè)分析結(jié)果,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)的可視化分析。

3 地理空間數(shù)據(jù)可視化實(shí)例分析

3.1 可視化相關(guān)軟件

ArcGIS是用于地圖繪制的基礎(chǔ)架構(gòu),使用ArcGIS能夠科學(xué)合理地利用資源,更好地做出決策,同時(shí)提升團(tuán)隊(duì)與團(tuán)隊(duì)之間、團(tuán)隊(duì)成員內(nèi)部之間的溝通效率。ArcGIS具有強(qiáng)大的功能,具體如圖6所示。

圖6 ArcGIS功能示意圖

Spatial Database,即空間數(shù)據(jù)庫(kù),可以存儲(chǔ)和查詢空間對(duì)象,如點(diǎn)、線、面等。空間數(shù)據(jù)庫(kù)提供了SQL模式與函數(shù),能夠?qū)臻g對(duì)象集合進(jìn)行更新、檢索、查詢等。GEOSS,即全球地球觀測(cè)系統(tǒng),該系統(tǒng)可以提供對(duì)地觀測(cè)信息,實(shí)現(xiàn)對(duì)各種信息的處理,基于可視化相關(guān)軟件與PaaS平臺(tái)來(lái)實(shí)現(xiàn)對(duì)各種地理空間數(shù)據(jù)的可視化。

3.2 數(shù)據(jù)可視化結(jié)果

GIS引擎實(shí)現(xiàn)對(duì)PaaS平臺(tái)中的各種地圖信息進(jìn)行整理并實(shí)現(xiàn)可視化,桌面以及服務(wù)器通過(guò)GIS引擎實(shí)現(xiàn)訪問(wèn)GIS地圖的目的。圖7為GIS引擎示例,即將GIS引擎嵌入到桌面的應(yīng)用程序中,可以快速顯示該地區(qū)的水系統(tǒng)數(shù)據(jù),從而為防洪救災(zāi)、興修水利提供參考。

圖7 GIS引擎示例

桌面可視化應(yīng)用程序包含數(shù)據(jù)存儲(chǔ)、分析以及顯示等功能,通過(guò)使用插件設(shè)計(jì)模式使各種軟件的功能被剝離,降低了軟件框架的復(fù)雜性。桌面可視化程序包括插件框架、插件契約和插件組件,其中插件框架主要進(jìn)行插件的下載、加載等操作,實(shí)現(xiàn)接口和框架之間的通信;插件契約主要以接口形式存在,確保接口規(guī)范統(tǒng)一,同時(shí)有效地對(duì)插件進(jìn)行組織和管理;插件組件主要是功能的實(shí)現(xiàn),包含格式的轉(zhuǎn)換、數(shù)據(jù)的基礎(chǔ)統(tǒng)計(jì)等。圖8為桌面主界面。

圖8 桌面主界面

桌面主界面實(shí)現(xiàn)了數(shù)據(jù)分析的可視化,通過(guò)菜單欄、工具欄、狀態(tài)欄等顯示地理位置信息,同時(shí)還可以使用插件來(lái)進(jìn)行二次開(kāi)發(fā),完成特定的地理空間信息大數(shù)據(jù)分析功能。

為了說(shuō)明基于PaaS平臺(tái)數(shù)據(jù)可視化模式的優(yōu)勢(shì),將其和傳統(tǒng)的模式進(jìn)行對(duì)比,結(jié)果如表1所示。

表1 不同模式對(duì)比

由表1可知,基于PaaS平臺(tái)的數(shù)據(jù)可視化開(kāi)發(fā)模式的硬件準(zhǔn)備、開(kāi)發(fā)準(zhǔn)備、數(shù)據(jù)準(zhǔn)備以及應(yīng)用部署的時(shí)長(zhǎng)遠(yuǎn)遠(yuǎn)小于傳統(tǒng)的開(kāi)發(fā)模式,同時(shí)PaaS平臺(tái)實(shí)現(xiàn)了對(duì)資源的共享利用,這使得資源的利用率大大提升,具有十分顯著的優(yōu)勢(shì)。

4 結(jié)論

網(wǎng)絡(luò)化、信息化產(chǎn)生了海量大數(shù)據(jù),對(duì)海量大數(shù)據(jù)的可視化分析研究能夠充分地挖掘數(shù)據(jù)潛在價(jià)值?;陂_(kāi)源技術(shù),構(gòu)建了PaaS平臺(tái)數(shù)據(jù)可視化系統(tǒng)架構(gòu),對(duì)應(yīng)用類型調(diào)度、數(shù)據(jù)聚類分析、分布式計(jì)算框架等數(shù)據(jù)可視化技術(shù)進(jìn)行了研究,并應(yīng)用于地理空間數(shù)據(jù)可視化分析實(shí)例中。結(jié)果表明,基于PaaS平臺(tái)的數(shù)據(jù)可視化能夠更好地實(shí)現(xiàn)對(duì)各種地理海量大數(shù)據(jù)的共享,提高數(shù)據(jù)資源的利用率,這對(duì)有效挖掘地理海量空間大數(shù)據(jù)的潛在價(jià)值具有一定的參考價(jià)值。

猜你喜歡
海量插件聚類
一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
海量GNSS數(shù)據(jù)產(chǎn)品的一站式快速獲取方法
基于知識(shí)圖譜的k-modes文本聚類研究
一種改進(jìn)K-means聚類的近鄰傳播最大最小距離算法
用好插件瀏覽器標(biāo)簽頁(yè)管理更輕松
基于模糊聚類和支持向量回歸的成績(jī)預(yù)測(cè)
海量快遞垃圾正在“圍城”——“綠色快遞”勢(shì)在必行
請(qǐng)個(gè)瀏覽器插件全能管家
基于jQUerY的自定義插件開(kāi)發(fā)
一個(gè)圖形所蘊(yùn)含的“海量”巧題
青河县| 高台县| 寿阳县| 长葛市| 壶关县| 宜昌市| 页游| 金乡县| 洮南市| 平远县| 商洛市| 辛集市| 牡丹江市| 迁西县| 玉山县| 商丘市| 社旗县| 林州市| 广丰县| 通许县| 遂昌县| 启东市| 民和| 广东省| 隆回县| 朔州市| 高清| 遵义市| 富顺县| 眉山市| 阿拉善左旗| 汽车| 海丰县| 察隅县| 西青区| 黑河市| 武定县| 页游| 黄大仙区| 渭源县| 大新县|