劉加伶,程春游,陳 莊,朱艷蓉
(重慶理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 重慶 400054)
基于K-Means和網(wǎng)格化聚類的云數(shù)據(jù)管理模型研究
劉加伶,程春游,陳 莊,朱艷蓉
(重慶理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 重慶 400054)
針對(duì)云數(shù)據(jù)的分類具有模糊性、不確定性等特點(diǎn),將K-Means聚類與網(wǎng)格化互聯(lián)互通的思想運(yùn)用到云數(shù)據(jù)管理的模型中,提出了一種“K-Means網(wǎng)格化的云數(shù)據(jù)管理模型”方法。通過(guò)隨機(jī)產(chǎn)生的高斯分布數(shù)據(jù)表明:所提出模型不僅能高效地解決數(shù)據(jù)在分類、模糊性等方面存在的問(wèn)題,而且在提高數(shù)據(jù)分布區(qū)域化精度的同時(shí)減少了數(shù)據(jù)管理的個(gè)數(shù)。利用Matlab工具對(duì)數(shù)據(jù)進(jìn)行了K-Means網(wǎng)格化驗(yàn)證分析,分析結(jié)果能為企業(yè)的數(shù)據(jù)管理提供有益的借鑒。
K-Means;云數(shù)據(jù)管理;網(wǎng)格化;模型;仿真
Abstract: According to that the cloud data classification has the characteristics of fuzziness and uncertainty, and K-Means clustering and grid interconnection thought is introduced into the Cloud Data Management (CDM) model, and a new method “Cloud Data Management model based on K-Means Grid” is proposed in this paper. The demonstration shows that the present model not only is the more efficient solution to classification data, fuzzy and other characteristics, but also can improve the accuracy of regional data distribution while reducing the number of data management. Using MATLAB tools to verify and analyze data into K-Means grid, and the results of the analysis results can provide useful reference for company data management.
Keywords: K-Means; cloud data management; gridding; model;simulation
21世紀(jì)是一個(gè)信息化高速發(fā)展的時(shí)代,數(shù)據(jù)驅(qū)動(dòng)發(fā)展已成為全球發(fā)展的新趨勢(shì)[1],大數(shù)據(jù)[2](big data)成為現(xiàn)階段研究熱點(diǎn)。同時(shí),各行業(yè)對(duì)數(shù)據(jù)的依賴性有增無(wú)減,現(xiàn)云數(shù)據(jù)管理技術(shù)[3]正在替代傳統(tǒng)的內(nèi)部部署軟件,云數(shù)據(jù)庫(kù)和數(shù)據(jù)庫(kù)即服務(wù)(database as a service,DaaS)平臺(tái)成為企業(yè)不可缺少的工具。比如,Oracle Cloud[5]數(shù)據(jù)管理云服務(wù)提供了一個(gè)完整的功能集合構(gòu)建、部署和管理數(shù)據(jù)驅(qū)動(dòng)的應(yīng)用程序。
根據(jù)預(yù)測(cè)[4],平均每18個(gè)月企業(yè)的數(shù)據(jù)就會(huì)翻一番,而很多企業(yè)對(duì)用戶數(shù)據(jù)的管理有待改進(jìn)。同時(shí)新的研究對(duì)象也提出了新的數(shù)據(jù)管理要求,傳統(tǒng)數(shù)據(jù)挖掘方法(關(guān)聯(lián)分析、聚類分析、預(yù)測(cè)、時(shí)序模式分析和偏差分析)在數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析和可視化等諸多方面存在不足[5]?;谝陨锨闆r,本文設(shè)計(jì)了一種K-Means網(wǎng)格化的云數(shù)據(jù)管理模型以提高云數(shù)據(jù)處理效率。
1.1 云計(jì)算
目前,云計(jì)算(cloud computing)仍然是IT范圍里最熱門的技術(shù)之一。NIST SP 800-145[6]與UC Berkeley RAD Lab[7]定義云計(jì)算是指在硬件和系統(tǒng)軟件的數(shù)據(jù)中心通過(guò)互聯(lián)網(wǎng)提供服務(wù),即云計(jì)算就是提供服務(wù)。云計(jì)算[8-9]是由網(wǎng)格計(jì)算(grid computing)、并行處理(parallel computing)、分布式處理(distributed computing)、效用計(jì)算網(wǎng)絡(luò)存儲(chǔ)、虛擬化(virtualization)、負(fù)載均衡(load ba-lance)等傳統(tǒng)的計(jì)算機(jī)技術(shù)與網(wǎng)絡(luò)技術(shù)相結(jié)合并發(fā)展融合的產(chǎn)物。
1.2 云數(shù)據(jù)管理
云數(shù)據(jù)管理(cloud data management,CDM)[10-12]是為了解決云計(jì)算中大量數(shù)據(jù)的高效管理以及特定數(shù)據(jù)的快速定位問(wèn)題,即以云計(jì)算技術(shù)為基礎(chǔ),針對(duì)大規(guī)模數(shù)據(jù)的分布式、可擴(kuò)展的數(shù)據(jù)管理進(jìn)行管理。目前,云計(jì)算、云存儲(chǔ)將是增長(zhǎng)最快的服務(wù)。數(shù)據(jù)的云存儲(chǔ)[13]存在著一定的安全悖論:數(shù)據(jù)加密的情況下無(wú)法處理;數(shù)據(jù)不加密情況下安全性和隱私性出現(xiàn)一定的問(wèn)題;數(shù)據(jù)加密對(duì)應(yīng)云計(jì)算服務(wù)模型SaaS、PaaS、IaaS。相比傳統(tǒng)的數(shù)據(jù)管理(人工管理、文件系統(tǒng)、數(shù)據(jù)庫(kù)系統(tǒng)),云數(shù)據(jù)管理除了關(guān)注以上內(nèi)容外,還需注意數(shù)據(jù)模型的無(wú)明確性、數(shù)據(jù)規(guī)模的巨大性、數(shù)據(jù)類型的無(wú)規(guī)則性、云數(shù)據(jù)管理技術(shù)的多樣性。目前云數(shù)據(jù)管理沒(méi)有統(tǒng)一的國(guó)家標(biāo)準(zhǔn),但是根據(jù)[14-19]可知,云數(shù)據(jù)管理模型實(shí)施流程如圖1所示。
圖1 云數(shù)據(jù)管理模型實(shí)施流程
1.3 K-Means的云數(shù)據(jù)管理
K-Means[20]給出原始數(shù)據(jù),根據(jù)算法將其中具有相似特征的數(shù)據(jù)聚為一類,假設(shè)原始數(shù)據(jù){x1,x2,…,xn}為沒(méi)有被標(biāo)記的數(shù)據(jù),初始化后為k個(gè)隨機(jī)數(shù)據(jù){u1,u2,…,un},其中xn和un都是向量。普通K-means算法在初始化k個(gè)中心點(diǎn)時(shí)使用數(shù)據(jù)集前k個(gè)點(diǎn)作為中心點(diǎn)或使用默認(rèn)的隨機(jī)化方法初始化中心點(diǎn)。本文采用高斯隨機(jī)化方法從數(shù)據(jù)集中取k個(gè)點(diǎn)作為中心點(diǎn),其步驟是不斷迭代公式(1)(2),直到所有的u都不變化,完成了聚類的計(jì)算。
(1)
(2)
1.4 網(wǎng)格化下的云數(shù)據(jù)管理模型
據(jù) Foster和Kesselman[21]定義:“網(wǎng)格”(或 “計(jì)算網(wǎng)格”)是構(gòu)筑在互聯(lián)網(wǎng)上的一種新興技術(shù),通過(guò)互聯(lián)網(wǎng)(Internet)把分散在不同地理位置的電腦組織成一臺(tái)“虛擬的超級(jí)計(jì)算機(jī)(virtual supercomputer)”,將高性能計(jì)算機(jī)、大型數(shù)據(jù)庫(kù)、傳感器、遠(yuǎn)程設(shè)備等融為一體,實(shí)現(xiàn)計(jì)算、存儲(chǔ)、通信、軟件、信息、知識(shí)資源的全面共享[13],網(wǎng)格化的提出也為打開(kāi)計(jì)算機(jī)虛擬化大門奠基了基礎(chǔ)。目前眾多學(xué)者在分析將PB(petabytes)級(jí)數(shù)據(jù)進(jìn)行網(wǎng)格化[22],云計(jì)算作為網(wǎng)格計(jì)算、并行處理和分布式處理的發(fā)展,已成為產(chǎn)業(yè)界、學(xué)術(shù)界、政府等各界都極度重視的焦點(diǎn)[14],這就更加突出了網(wǎng)格化式的云數(shù)據(jù)管理在研究中越來(lái)越重要的地位。
網(wǎng)格化的云數(shù)據(jù)管理是對(duì)數(shù)據(jù)業(yè)務(wù)進(jìn)行統(tǒng)一化管理,但是分塊類的數(shù)據(jù)繁多,不能實(shí)現(xiàn)數(shù)據(jù)點(diǎn)對(duì)點(diǎn)的思想。本文將“數(shù)據(jù)的監(jiān)控、數(shù)據(jù)模糊統(tǒng)計(jì)分析、數(shù)據(jù)的預(yù)警提醒”統(tǒng)一納入云數(shù)據(jù)管理模型,最終實(shí)現(xiàn)了數(shù)據(jù)的監(jiān)控、管理、調(diào)度指揮“一張網(wǎng)”。
K-Means聚類有助于數(shù)據(jù)的聚類分析,網(wǎng)格化有助于數(shù)據(jù)的區(qū)域化,將兩者進(jìn)行統(tǒng)一結(jié)合建立統(tǒng)計(jì)分析的云數(shù)據(jù)管理模型將有助于企事業(yè)的決策分析,實(shí)現(xiàn)云數(shù)據(jù)更加高效的管理與運(yùn)用,為企業(yè)決策者提供有益的借鑒。如圖2[15-16]所示為本論文構(gòu)建的模糊網(wǎng)格化的云數(shù)據(jù)管理流程。
2.1基于K-Means聚類的云數(shù)據(jù)管理建模
K-Means聚類[17]的云數(shù)據(jù)管理主要步驟如下所述:
Step1在數(shù)據(jù)集中隨機(jī)選取k個(gè)對(duì)象作為初始聚類中心c1,c2,…,ck;
Step2計(jì)算數(shù)據(jù)集中每個(gè)對(duì)象到聚類中心的距離,選取最小距離min|V|,分配到聚類中心,其中V={v1,v2,…,vn},j=1,2,…,k;
Step4當(dāng)每個(gè)簇的聚類中心不再發(fā)生變化,聚類準(zhǔn)則函數(shù)=收斂,則算法結(jié)束。否則,返回Step 2繼續(xù)迭代。
此方法為數(shù)據(jù)的管理提供了K-Means聚類的方式,但其管理僅達(dá)到了分類的效果,還未具體到某一個(gè)數(shù)據(jù)塊上。
圖2 K-Means網(wǎng)格化的云數(shù)據(jù)管理流程
2.2 基于網(wǎng)格化的云數(shù)據(jù)管理建模
網(wǎng)格化的云數(shù)據(jù)管理[18-19]主要步驟如圖5所述。
Step1數(shù)據(jù)收集。通過(guò)數(shù)據(jù)控制中心收集用戶需要存儲(chǔ)的數(shù)據(jù);
Step2數(shù)據(jù)分割。數(shù)據(jù)控制中心按設(shè)定的分割規(guī)則將步驟Step1中所收集的數(shù)據(jù)進(jìn)行分割;
Step3數(shù)據(jù)重組。將數(shù)據(jù)進(jìn)行二次重組,并將每份數(shù)據(jù)進(jìn)行編號(hào);
Step4數(shù)據(jù)存儲(chǔ)。將步驟Step 3中重組后的數(shù)據(jù)分發(fā)到子電腦中存儲(chǔ);
Step5數(shù)據(jù)獲取。通過(guò)數(shù)據(jù)控制中心收集需要存儲(chǔ)的數(shù)據(jù),管理器對(duì)數(shù)據(jù)進(jìn)行分割,使用哈西算法對(duì)數(shù)據(jù)進(jìn)行二次重組,最后分發(fā)給注冊(cè)的子電腦,由子電腦進(jìn)行數(shù)據(jù)存儲(chǔ),實(shí)現(xiàn)了數(shù)據(jù)自能高效地管理,解決了數(shù)據(jù)因?yàn)檫^(guò)于集中存儲(chǔ)而導(dǎo)致的容易丟失的問(wèn)題。
2.3基于K-Means網(wǎng)格化的云數(shù)據(jù)管理建模
本文設(shè)計(jì)了一種K-Means網(wǎng)格化的云數(shù)據(jù)管理方法,主要通過(guò)以下幾個(gè)步驟完成:
Step1數(shù)據(jù)匯總
① 首先,將各企事業(yè)單位的信息數(shù)據(jù)進(jìn)行本地匯總;
② 其次,利用移動(dòng)通信網(wǎng)絡(luò)集中上傳至公司調(diào)度指揮中心;
③ 最后,在相關(guān)部門的大力支持與協(xié)調(diào)下,大數(shù)據(jù)中心免費(fèi)為平臺(tái)提供所需的服務(wù)器、存儲(chǔ)空間、數(shù)據(jù)備份等硬件資源,實(shí)現(xiàn)數(shù)據(jù)的集中存儲(chǔ)與管理。
Step2網(wǎng)格數(shù)據(jù)分析決策
① 首先,進(jìn)行信息傳輸。依托通信3G/4G網(wǎng)絡(luò)將數(shù)據(jù)信息傳至大數(shù)據(jù)中心;利用通信網(wǎng)絡(luò)專線將各企事業(yè)單位的信息數(shù)據(jù)傳輸至數(shù)據(jù)網(wǎng)格化中心,進(jìn)行大屏集中顯示與調(diào)度;
② 其次,將網(wǎng)格化數(shù)據(jù)傳輸至數(shù)據(jù)模糊分析中心;
③ 最后,通過(guò)網(wǎng)格化數(shù)據(jù)傳輸與數(shù)據(jù)模糊分析中心的集中數(shù)據(jù)處理,實(shí)時(shí)分析作業(yè)相關(guān)數(shù)據(jù),確定評(píng)價(jià),反饋給責(zé)任部門,為決策提出有益的建議;左部分小面積顯示數(shù)據(jù)的網(wǎng)格化劃分視頻,右部分大視角直觀展現(xiàn)各個(gè)數(shù)據(jù)的實(shí)時(shí)消息。
K-Means網(wǎng)格化的云數(shù)據(jù)管理思想是通過(guò)求解建立的組合閾值模型,確定模糊、網(wǎng)格化聚類各自的賦值比重,使得最終確定的組合賦值更好地反映被評(píng)價(jià)系統(tǒng)的真實(shí)情況。
(3)
i=1,2,…,n
(4)
使綜合評(píng)價(jià)值盡可能集中并體現(xiàn)不同評(píng)價(jià)對(duì)象之間的差異是綜合評(píng)價(jià)的原則,這樣能更好地體現(xiàn)數(shù)據(jù)的管理。
本文實(shí)驗(yàn)數(shù)據(jù)是通過(guò)Matlab R2012b開(kāi)發(fā)環(huán)境,在Windows 7操作系統(tǒng)的計(jì)算機(jī)上運(yùn)行實(shí)現(xiàn)的。通過(guò)mvnrnd函數(shù)產(chǎn)生3組高斯分布數(shù)據(jù)data1、data2和data3,并將其作為本研究實(shí)驗(yàn)數(shù)據(jù)。其中圖3、5、7分別是數(shù)據(jù)100組、1 000組、10 000 組時(shí)進(jìn)行的K-Means聚類分析,其圖像的生成是利用式(1)和式(2)進(jìn)行圖像的聚類;而圖4、6、8分別是數(shù)據(jù)100組、1 000組、10 000組時(shí)的K-Means網(wǎng)格化聚類分析,圖像的生成是利用式(3)和(4)進(jìn)行圖像的聚類。表1為兩種聚類算法隨機(jī)分類正確率和效率比較。
從圖3~8可以看出:K-Means網(wǎng)格化聚類較K-Means更加清晰,能更好地展現(xiàn)聚類的效果。通過(guò)圖3與圖4中100組數(shù)據(jù)對(duì)比可以看出:K-Means網(wǎng)格化聚類效果比較個(gè)體,個(gè)別群體可以實(shí)現(xiàn)1對(duì)1的效果; 通過(guò)圖5與圖6中1 000組數(shù)據(jù)對(duì)比可以看出:K-Means網(wǎng)格化聚類能具體地表達(dá)出各個(gè)分類的效果,并且能對(duì)個(gè)別的群體進(jìn)行詳細(xì)的研究;通過(guò)圖7與圖8中10 000組數(shù)據(jù)對(duì)比可以看出:K-Means網(wǎng)格化聚類在區(qū)域化處理過(guò)程中已能完全地實(shí)現(xiàn)個(gè)體化服務(wù),更加快捷地實(shí)現(xiàn)群體與個(gè)體服務(wù)。
圖3 100行的K-Means聚類
圖4 100行K-Means網(wǎng)格化聚類
圖5 1 000行的K-Means聚類
圖6 1 000行K-Means網(wǎng)格化聚類
圖8 10 000行K-Means網(wǎng)格化聚類
方法數(shù)據(jù)集運(yùn)行時(shí)間/s數(shù)據(jù)集運(yùn)行時(shí)間/s數(shù)據(jù)集運(yùn)行時(shí)間/sK-Means1000.152110000.2282100000.3423K-Means網(wǎng)格聚類1000.062010000.0744100000.0892
從表1可以看出:在兩種聚類算法準(zhǔn)確率相同的情況下,K-Means網(wǎng)格的聚類算法運(yùn)行時(shí)間低于 K-Means。由此看出本文的算法運(yùn)行效率高于 K-Means,并能達(dá)到較好的聚類效果,證明本文算法具有較強(qiáng)的可行性和實(shí)際參考價(jià)值。
本文通過(guò)分析現(xiàn)有的K-Means聚類和網(wǎng)格化聚類的方法,將兩種數(shù)據(jù)分析方法相結(jié)合引入到云數(shù)據(jù)的管理過(guò)程中。對(duì)現(xiàn)有的云數(shù)據(jù)管理模型進(jìn)行了適當(dāng)?shù)母倪M(jìn),提出了一種基于K-Means網(wǎng)格化的云數(shù)據(jù)管理模型。此模型的主要特點(diǎn)是能夠進(jìn)行模糊聚類劃分、網(wǎng)格化自動(dòng)擬合數(shù)據(jù)分布函數(shù),既能提高聚類的劃分,實(shí)現(xiàn)個(gè)性化服務(wù),又能減少網(wǎng)格數(shù)量的個(gè)數(shù)。
基于K-Means和網(wǎng)格化聚類的云數(shù)據(jù)管理模型充分考慮原有數(shù)據(jù)的分布情況,較好地表現(xiàn)了數(shù)據(jù)的不確定性,而且能隨著數(shù)據(jù)庫(kù)的數(shù)據(jù)誤差閾值不斷進(jìn)行相應(yīng)的網(wǎng)格化調(diào)整,為高質(zhì)量地進(jìn)行高層決策提供管理參考意見(jiàn)。
[1] 王世偉.論大數(shù)據(jù)時(shí)代信息安全的新特點(diǎn)與新要求[J].圖書(shū)情報(bào)工作,2016(6):5-14.
[2] 馮登國(guó),張敏,李昊.大數(shù)據(jù)安全與隱私保護(hù)[J].計(jì)算機(jī)學(xué)報(bào),2014,37(1):246-258.
[3] LE GOALLER J P,CONDE C,LANGHA S.RDBMS in the Cloud:Oracle Database on AWS[Z].2013.
[4] HAITIAN F.A book to read large data commercial marketing[M].Beijing:Tsinghua University Press,2015:308-314.
[5] 朱東華,張嶷,汪雪鋒,等.大數(shù)據(jù)環(huán)境下技術(shù)創(chuàng)新管理方法研究[J].科學(xué)學(xué)與科學(xué)技術(shù)管理,2013,34(4):172-180.
[6] Verizon.Verizon’s 2016 Data Breach investigations Report[R].Verizon Company,2016.
[7] MELL P M,GRANCE T.SP 800-145.The NIST Definition of Cloud Computing[M].USA:National Institute of Standards & Technology,2011.
[8] ARMBRUST,MICHAEL,FOX,et al.Above the Clouds:A Berkeley View of Cloud Computing[J].Eecs Department University of California Berkeley,2015,53(4):50-58.
[9] ABADI B D J.Data management in the cloud:Limitation and Opportunities[J].Institutt for Teknisk Kybernetikk,2010,32(1):3-12.
[10] CHOI D,SONG S.Concurrency Control Method to Provide Transactional Processing for Cloud Data Management System[J].International Journal of Contents,2016,12(1):60-64.
[11] VIET-DINH T.Cloud data management[J].ENS de Cachan,IFSIC,IRISA,KerData Project-Team,2010:1-5.
[12] HUSSEIN N H,KHALID A,KHANFAR K.A Survey of Cryptography Cloud Storage Techniques[J].Int.journal of computer science & mobile computing,2016,5(2):186-191.
[13] FOSTER,KESSELMAN C.The Grid:Blueprint for a new Computing Infrastructure[M].USA:Morgan Kaufmann Publishers,1998,34-37.
[14] 馮登國(guó),張敏,張妍,等.云計(jì)算安全研究[J].軟件學(xué)報(bào),2011,22(1):71-83.
[15] 李海倫,黎榮,丁國(guó)富,等.應(yīng)用遺傳模糊聚類實(shí)現(xiàn)點(diǎn)云數(shù)據(jù)區(qū)域分割[J].計(jì)算機(jī)應(yīng)用研究,2012,29(5):1974-1976.
[16] 吳偉.基于大聯(lián)動(dòng)網(wǎng)格化模式社區(qū)管理服務(wù)平臺(tái)建設(shè)方案研究[D].廈門:廈門大學(xué),2014.
[17] 王勇,唐靖,饒勤菲,等.高效率的K-means最佳聚類數(shù)確定算法[J].計(jì)算機(jī)應(yīng)用,2014,34(5):1331-1335.
[18] 康暖.一種云計(jì)算基于網(wǎng)格化的設(shè)備管理方法[P].中國(guó):CN103581319A.2014.
[19] 張新鵬,許春香,張新顏,等.基于代理重簽名的支持用戶可撤銷的云存儲(chǔ)數(shù)據(jù)公共審計(jì)方案[J].計(jì)算機(jī)應(yīng)用,2016,36(7):1816-1821.
[20] 王志春.初始中心點(diǎn)優(yōu)化的K-means聚類模型[J].電腦迷,2016(9):50-51.
[21] FOSTER,IAN,CARL KESSELMAN,et al.The Grid 2:Blueprint for a new computing[J].Infrastructure,2003,34(2):18-102.
[22] 楊海濤.城市社區(qū)網(wǎng)格化管理研究與展望[M].北京:經(jīng)濟(jì)管理出版社,2013:2-30.
(責(zé)任編輯陳 艷)
ResearchonCloudDataManagementModelBasedK-MeansandGriddingClustering
LIU Jialing, CHENG Chunyou, CHEN Zhuang, ZHU Yanrong
(College of Computer Science and Engineering, Chongqing University of Technology, Chongqing 400054, China)
2017-05-13
國(guó)家自然科學(xué)基金資助項(xiàng)目(71573026);重慶市研究生科研創(chuàng)新項(xiàng)目(CYS16222);重慶理工大學(xué)研究生創(chuàng)新基金資助項(xiàng)目(YCX2016252)
劉加伶(1963—),女,教授,碩士生導(dǎo)師,主要從事信息管理、數(shù)據(jù)庫(kù)技術(shù)與應(yīng)用研究;通訊作者 程春游(1992—),女,碩士研究生,主要從事信息管理與信息系統(tǒng)研究,E-mail:865565305@qq.com。
劉加伶,程春游,陳莊,等.基于K-Means和網(wǎng)格化聚類的云數(shù)據(jù)管理模型研究[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)),2017(9):119-124.
formatLIU Jialing, CHENG Chunyou, CHEN Zhuang, et al.Research on Cloud Data Management Model Based K-Means and Gridding Clustering[J].Journal of Chongqing University of Technology(Natural Science),2017(9):119-124.
10.3969/j.issn.1674-8425(z).2017.09.019
TP391.9
A
1674-8425(2017)09-0119-06