王東強,王曉霞
(青島農(nóng)業(yè)大學(xué) 理學(xué)與信息科學(xué)學(xué)院,山東 青島 266109)
云存儲中大數(shù)據(jù)優(yōu)化粒子群聚類算法
王東強,王曉霞
(青島農(nóng)業(yè)大學(xué) 理學(xué)與信息科學(xué)學(xué)院,山東 青島 266109)
對云存儲系統(tǒng)中的大數(shù)據(jù)進行優(yōu)化聚類設(shè)計,降低存儲開銷,提高數(shù)據(jù)管理和調(diào)度能力,傳統(tǒng)方法中對云存儲大數(shù)據(jù)聚類方法采用量子進化方法,當(dāng)量子群個體存在非線性偏移時,數(shù)據(jù)聚類存在局部收斂,導(dǎo)致聚類準(zhǔn)確度降低。提出一種基于優(yōu)化粒子群算法的云存儲中大數(shù)據(jù)優(yōu)化聚類算法,進行了云存儲大數(shù)據(jù)聚類的原理分析,在傳統(tǒng)的模糊C均值聚類的基礎(chǔ)上,采用粒子群聚類算法進行大數(shù)據(jù)聚類算法改進設(shè)計,把數(shù)據(jù)的分割轉(zhuǎn)化為對空間的分割,得到云存儲系統(tǒng)中海量數(shù)據(jù)的模糊聚類中心矢量,采用粒子群聚類方法對聚類數(shù)據(jù)的離散樣本進行動態(tài)分配,得到數(shù)據(jù)聚類的信息素濃度,結(jié)合粒子群優(yōu)化聚類的約束條件,求得云存儲中大數(shù)據(jù)聚類的中心最優(yōu)解。仿真結(jié)果表明,采用該算法進行云存儲中大數(shù)據(jù)優(yōu)化粒子群聚類,數(shù)據(jù)聚類的聚類準(zhǔn)確度高,收斂性能較好,能在較短的迭代步數(shù)下計算得到最優(yōu)解,在模式識別等領(lǐng)域展示了較好的應(yīng)用價值。
云存儲;粒子群;大數(shù)據(jù);聚類算法
隨著云計算的出現(xiàn),云存儲服務(wù)的誕生與發(fā)展,基于云存儲系統(tǒng)的大數(shù)據(jù)云計算為云用戶提供了廉價的存儲空間[1]。從分配與數(shù)據(jù)管制形式來看,云存儲能夠劃分成公共云、私有云及混合云等類別。經(jīng)過云計算,將云存儲系統(tǒng)里的資源數(shù)據(jù)實行統(tǒng)一調(diào)度與信息處置,經(jīng)過資源融合,使用云網(wǎng)格估算,將一個須要相當(dāng)大的估算問題劃分為很多小的部分,然后將這些局部一個一個分散到很多低性能的計算機來處置,達成以虛擬化為關(guān)鍵的云平臺架構(gòu),通過云存儲實現(xiàn)大數(shù)據(jù)的調(diào)度和管理,大數(shù)據(jù)調(diào)度的重要基礎(chǔ)是進行數(shù)據(jù)聚類,數(shù)據(jù)聚類是實現(xiàn)模式識別的根本。
傳統(tǒng)方法中對云存儲系統(tǒng)中的數(shù)據(jù)聚類方法主要有基于FCM的數(shù)據(jù)聚類算法、基于支持向量機SVM分解的數(shù)據(jù)聚類算法和基于BP神經(jīng)網(wǎng)絡(luò)控制的數(shù)據(jù)聚類算法等[2-3],但是傳統(tǒng)方法在數(shù)據(jù)聚類過程中容易陷入局部收斂,導(dǎo)致聚類的準(zhǔn)確度降低,對此,有關(guān)文獻實行了算法改進,當(dāng)中,文獻[4]提出基于混沌差分進化的云存儲系統(tǒng)大數(shù)據(jù)聚類算法,采用層次聚類進行大數(shù)據(jù)的特征提取,在層次聚類過程中隨著類別層次的變化導(dǎo)致聚類中心矢量偏移,性能不好。文獻[5]中,對云存儲大數(shù)據(jù)聚類方法采用量子進化方法,當(dāng)量子群個體存在非線性偏移時,數(shù)據(jù)聚類存在局部收斂,導(dǎo)致聚類準(zhǔn)確度降低[6-7]。文中提出一種基于優(yōu)化粒子群算法的云存儲中大數(shù)據(jù)優(yōu)化聚類算法,首先進行了云存儲大數(shù)據(jù)聚類的原理分析,在傳統(tǒng)的模糊C均值聚類的基礎(chǔ)上,采用粒子群聚類算法實行大數(shù)據(jù)聚類算法改革設(shè)計,最后經(jīng)過仿真實驗實行了性能檢驗及證明,展現(xiàn)出了文中算法在實際大數(shù)據(jù)聚類里的優(yōu)越性能,得出有效性結(jié)論,在模式識別等領(lǐng)域展示了較好的應(yīng)用價值[8]。
1.1 云存儲及大數(shù)據(jù)聚類問題描述
云存儲系統(tǒng)是云計算的核心問題之一,構(gòu)建云存儲及大數(shù)據(jù)聚類算法,將資源多源性簡化為單一資源進行重構(gòu),提高云計算中多源信息資源的高效分配[9-11]。在云計算大數(shù)據(jù)管理中,需要對大數(shù)據(jù)進行數(shù)據(jù)聚類,通過數(shù)據(jù)聚類,提高數(shù)據(jù)的調(diào)度和擴展能力,在云存儲系統(tǒng)中,需要構(gòu)建云存儲系統(tǒng),典型的大數(shù)據(jù)云儲存系統(tǒng)模型設(shè)計如圖1所示。
圖1 典型大數(shù)據(jù)云存儲結(jié)構(gòu)模型構(gòu)建
其中,云存儲的樣本集x={x1,x2,…,xn}數(shù)據(jù)分析的聚類中心{a1,a2,…,ak},在第k+1次迭代過程中的粒子群的聚類中心矢量為:
其中ws和we表示云存儲系統(tǒng)的慣性權(quán)值,取值分別為0.95和0.4,在上述模型設(shè)計的基礎(chǔ)上,進行云存儲中大數(shù)據(jù)聚類算法研究,提高數(shù)據(jù)的聚類性能。
1.2 云存儲系統(tǒng)中的大數(shù)據(jù)聚類原理分析
在大數(shù)據(jù)環(huán)境下,對信任節(jié)點的數(shù)據(jù)種類進行區(qū)分治理,數(shù)量非常少的一類被叫作少數(shù)類,而另一類就被叫作多數(shù)類,具備這樣特點的兩區(qū)分數(shù)據(jù)集則被叫作是不平衡的[12-15]。文中在傳統(tǒng)的模糊C均值聚類的根本上,使用粒子群聚類算法實行大數(shù)據(jù)聚類算法改進設(shè)計,首先給出傳統(tǒng)的模糊C均值聚類算法設(shè)計模型,算法具體描述如下:
在云計算存儲系統(tǒng)中,假設(shè)有限特征解的海量數(shù)據(jù)集:
用基于M-Learning學(xué)習(xí)網(wǎng)絡(luò)局部性交叉性信息鏈模型,得到云存儲系統(tǒng)中的海量數(shù)據(jù)集合中含有n個樣本,數(shù)據(jù)的分割成均勻分布的粒子群,得到聚類樣本xi,i=1,2,…n的特征矢量為:
采用解析排隊模型進行數(shù)據(jù)聚類的信道補償,把有限數(shù)據(jù)集合X分為c類,其中1<c<n,通過上述處理,把數(shù)據(jù)的分割轉(zhuǎn)化為對空間的分割,得到云存儲系統(tǒng)中海量數(shù)據(jù)的模糊聚類中心矢量為:
其中vi為存儲結(jié)構(gòu)中心的第i個特征向量,(第i個聚類中心矢量)。大數(shù)據(jù)特征聚類中心VMi的聚類劃分矩陣表示為:
通過定義,得到模糊C均值聚類算法,在大數(shù)據(jù)調(diào)度環(huán)境下,采用粒子群聚類方法對聚類數(shù)據(jù)的離散樣本進行動態(tài)分配,得到數(shù)據(jù)聚類的信息素濃度為:
式中,m為權(quán)重指數(shù),(dik)2為樣本xk與Vi的大數(shù)據(jù)的存儲結(jié)構(gòu)中心矢量,用歐式距離表示,為:
數(shù)據(jù)聚類中心的粒子最優(yōu)解為:
結(jié)合約束條件,采用李雅普諾夫極限定理,求云存儲中大數(shù)據(jù)聚類的中心極值為:
對上述求最優(yōu)解,得到數(shù)據(jù)聚類中心,進行數(shù)據(jù)聚類。
在上述進行云存儲系統(tǒng)結(jié)構(gòu)模型構(gòu)建和模糊C均值聚類算法描述的基礎(chǔ)上,進行粒子群聚類算法改進設(shè)計,對云存儲系統(tǒng)中的大數(shù)據(jù)進行優(yōu)化聚類設(shè)計,降低存儲開銷,提高數(shù)據(jù)管理和調(diào)度能力,傳統(tǒng)方法中對云存儲大數(shù)據(jù)聚類方法采用量子進化方法,當(dāng)量子群個體存在非線性偏移時,數(shù)據(jù)聚類存在局部收斂,導(dǎo)致聚類準(zhǔn)確度降低。為了克服傳統(tǒng)方法的弊端,文中提出一種基于優(yōu)化粒子群算法的云存儲中大數(shù)據(jù)優(yōu)化聚類算法。
假設(shè)在D維大數(shù)據(jù)云存儲聚類特征空間中,有m個粒子組成一個種群,當(dāng)擾動序列加入種群中,影響了聚類精度,對此,文中把數(shù)據(jù)聚類問題轉(zhuǎn)化為一個多目標(biāo)優(yōu)化問題,云存儲中大數(shù)據(jù)聚類的數(shù)學(xué)描述如下:
其中,fi(x)(i=1,2,…,n)為目標(biāo)函數(shù),gi(x)系統(tǒng)有兩個不穩(wěn)定的1周期點x=0和x=1-1/μ,hj(x)為等式約束。這里,引入混沌粒子群擾動概念,得到?jīng)Q策變量x*支配的聚類中心的特征解為:
為了避免粒子陷入局部最優(yōu),對于每個大數(shù)據(jù)信息特征矢量Xi進行存檔,為:
其中,fi是Pareto最優(yōu)解,Pij(k)表示 k時刻第i個決策變量,不等式fi(X*)≤fi(X)成立,其中i=1,2,…,n,設(shè)置聚類的閾值Nth,當(dāng)Neff<Nth時,搜索區(qū)域的Oα和Oβ兩個區(qū)間的聚類正確的概率為:
采用粒子群跳數(shù)改進機制進行存儲庫中的粒子更新,粒子群跳數(shù)改進機制原理如圖2所示。
圖2 粒子群跳數(shù)改進機制原理
更新粒子群中每個粒子的空間位置
其中,xk為搜索該區(qū)域內(nèi)的慣性權(quán)重,a為聚類中心的非劣解,de為極值點到非劣解的距離,在評估解集分布的均勻程度時,計算按最優(yōu)聚類中心矢量函數(shù),根據(jù)模因組中的更新迭代順序,得到:
由此得到云存儲中大數(shù)據(jù)聚類的粒子適應(yīng)度函數(shù)為:
其中,{α,β}為分集聚斂目標(biāo)函數(shù),通過優(yōu)化PSO聚類方法實現(xiàn)對云存儲中大數(shù)據(jù)聚類,由此實現(xiàn)算法改進。算法改進實現(xiàn)流程如圖3所示。
最后通過仿真實驗對本文設(shè)計的數(shù)據(jù)聚類算法進行性能測試和驗證,實驗的計算機硬件環(huán)境為:處理器Intel(R)Core(TM)2 Duo CPU主頻2.93 GHz,內(nèi)存2 GB。操作系統(tǒng):Windows 7。采用Matlab數(shù)學(xué)仿真軟件進行算法編程實現(xiàn),云存儲系統(tǒng)設(shè)計中,通過粒子群重采樣策略實現(xiàn)對DOM函數(shù)的修改,采用eval()、setTimeout()、setInterval()等直接執(zhí)行腳本函數(shù)進行粒子的多樣性濾波,仿真實驗中,粒子群的額種群規(guī)模為300,進化次數(shù)為1024,跳數(shù)機制為100,云存儲中的干擾向量的擾動率為0.2,分別取粒子數(shù)Ns=200,500,700,1000,以n=30K,m={20,50,100}和n=100K,m=100四種情況為例在進行云存儲大數(shù)據(jù)聚類仿真,在云存儲環(huán)境下,進行數(shù)據(jù)聚類測試,首先進行原始大數(shù)據(jù)采樣,得到原始數(shù)據(jù)結(jié)果如圖4所示。
圖3 大數(shù)據(jù)聚類算法實現(xiàn)流程
圖4 云存儲中的原始大數(shù)據(jù)采樣結(jié)果
上述數(shù)據(jù)由于相互特征差異不明顯,難以有效區(qū)分,采用文中算法進行數(shù)據(jù)聚類,實現(xiàn)模式識別,得到數(shù)據(jù)聚類結(jié)果如圖5所示。
從圖可見,采用文中算法進行數(shù)據(jù)聚類,具有較大的特征差異性,各類數(shù)據(jù)之間得到有效區(qū)分,對云存儲系統(tǒng)中的數(shù)據(jù)聚類性能較好,為了對比算法性能,以數(shù)據(jù)聚類的收斂度為測試指標(biāo),獲得仿真后果像圖6所示,由圖可知,使用文中算法,可以在限制的迭代步數(shù)下實現(xiàn)最優(yōu)化聚類,收斂性能較好,展示了較好的應(yīng)用價值。
圖5 數(shù)據(jù)聚類結(jié)果
圖6 大數(shù)據(jù)聚類收斂性能對比
對云存儲系統(tǒng)中的大數(shù)據(jù)進行優(yōu)化聚類設(shè)計,降低存儲開銷,提高數(shù)據(jù)管理和調(diào)度能力,傳統(tǒng)方法中對云存儲大數(shù)據(jù)聚類方法采用量子進化方法,當(dāng)量子群個體存在非線性偏移時,數(shù)據(jù)聚類存在局部收斂,導(dǎo)致聚類準(zhǔn)確度降低。提出一種基于優(yōu)化粒子群算法的云存儲中大數(shù)據(jù)優(yōu)化聚類算法、首先進行了云存儲大數(shù)據(jù)聚類的原理分析,在傳統(tǒng)的模糊C均值聚類的基礎(chǔ)上,采用粒子群聚類算法實行大數(shù)據(jù)聚類算法改革設(shè)計,最后經(jīng)過仿真實驗實行了性能檢測及證明,展現(xiàn)出了文中算法在實際大數(shù)據(jù)聚類里的優(yōu)越性能,實驗后果證明,使用文中算法實行數(shù)據(jù)聚類的聚斂性能較好,能在較短的迭代步數(shù)下計算得到最優(yōu)解,在模式識別等領(lǐng)域展示了較好的應(yīng)用價值。
[1]譚鵬許,陳越,蘭巨龍,等.用于云存儲的安全容錯編碼[J].通信學(xué)報,2014,35(3):109-114.
[2]魏理豪,王甜,陳飛,等.基于層次分析法的信息系統(tǒng)實用化評價研究 [J].科技通報,2014,30(2): 142-148.
[3]吳濤陳黎飛郭躬德.優(yōu)化子空間的高維聚類算法[J].計算機應(yīng)用,2014,34(8):2279-2284.
[4]辛宇,楊靜,湯楚蘅,等.基于局部語義聚類的語義重疊社區(qū)發(fā)現(xiàn)算法 [J].計算機研究與發(fā)展,2015,52(7):1510-1521.
[5]徐向平,魯海燕,徐迅.基于環(huán)形鄰域的混沌粒子群聚類算法[J].計算機工程與應(yīng)用,2016,52(2): 54-60.
[6]LIAO Lü-chao,JIANG Xin-hua,ZOU Fu-min,HE Wen-wu,QIU Huai.A Spectral Clustering Method for Big Trajectory Data Mining with Latent Semantic Correlation [J].Chinese JournalofElectronics,2015,43(5):956-964.
[7]余曉東,雷英杰,岳韶華,等.基于粒子群優(yōu)化的直覺模糊核聚類算法研究 [J].通信學(xué)報,2015(5): 2015099.
[8]熊眾望,羅可.基于改進的簡化粒子群聚類算法[J].計算機應(yīng)用研究,2014,31(12):115-123.
[9]茍杰,馬自堂.基于MapReduce的并行SFLA-FCM聚類算法[J].計算機工程與應(yīng)用,2016,52(1):66-70.
[10]WANG Yong-gui,LIN Lin,LIU Xian-guo.結(jié)合雙粒子群和K-means的混合文本聚類算法[J].計算機應(yīng)用研究,2014,31(2):364-368.
[11]馬艷英.基于遺傳算法的Web文檔聚類算法[J].現(xiàn)代電子技術(shù),2016,39(1):148-152.
[12]沈艷,余冬華,王昊雷.粒子群K-means聚類算法的改進[J].計算機工程與應(yīng)用,2014,50(21):125-128.
[13]王楊.基于改進的粒子群優(yōu)化的模糊C-均值聚類算法[J].計算機與數(shù)字工程,2014,42(9):1610-1612.
[14]錢潮愷,黃德才.基于維度頻率相異度和強連通融合的混合數(shù)據(jù)聚類算法[J].模式識別與人工智能,2016,29(1):82-89.
[15]許成鵬,朱志祥.一種基于云計算平臺的數(shù)據(jù)庫加密保護系統(tǒng)[J].電子設(shè)計工程,2015(19):97-100.
Large data optimization particle swarm clustering algorithm based on cloud storage
WANG Dong-qiang,WANG Xiao-xia
(Science and Information College,Qingdao Agricultural University,Qingdao 266109,China)
The large data of cloud storage system is optimized for clustering design,reducing storage overhead,improving data management and scheduling ability.The traditional method uses quantum evolutionary algorithm to cluster large data clustering method.When the quantum group has a nonlinear shift,data clustering has local convergence,which leads to the decrease of clustering accuracy.A large data clustering algorithm based on particle swarm optimization is proposed,which is based on the traditional fuzzy C means clustering.The clustering algorithm is used to improve the design.The data is transformed into the spatial segmentation.The clustering algorithm is used to obtain the data concentration.The optimal solution is obtained.The simulation results show that this algorithm is used to optimize the particle swarm optimization in cloud storage.The clustering accuracy is high,and the convergence performance is better,and the optimal solution can be obtained in the short iterative step.
cloud storage;particle swarm;large data;clustering algorithm
TP391
:A
:1674-6236(2017)02-0026-05
2016-05-17稿件編號:201605165
山東省自然科學(xué)基金(20015CAZ185);校級課題(SYJK13-26)
王東強(1974—),男,山東招遠人,碩士研究生,實驗師。研究方向:計算機工程,網(wǎng)絡(luò)安全。