程 寧,李 超
(1.湖北輕工職業(yè)技術(shù)學(xué)院信息工程學(xué)院,湖北 武漢 430070;2.湖北大學(xué)信息化建設(shè)與管理處,湖北 武漢 430062)
無線傳感網(wǎng)絡(luò)[1]隨著IT(Information Technology)技術(shù)和通訊科技的不斷發(fā)展,其結(jié)構(gòu)復(fù)雜度逐漸提升,規(guī)模不斷擴(kuò)大,網(wǎng)絡(luò)中的大數(shù)據(jù)隨之增加。無線傳感網(wǎng)絡(luò)中的大數(shù)據(jù)具異質(zhì)性、多樣性和復(fù)雜性等特點(diǎn)。 大數(shù)據(jù)的價值較高,在科學(xué)研究、經(jīng)濟(jì)和社會等領(lǐng)域中發(fā)揮著重要作用。 大數(shù)據(jù)聚類是分析大數(shù)據(jù)的基礎(chǔ)內(nèi)容與關(guān)鍵點(diǎn)[2],在數(shù)據(jù)挖掘領(lǐng)域中,大數(shù)據(jù)聚類成為國內(nèi)外研究的重要課題,可以為人們認(rèn)識和了解事物提供依據(jù),在此背景下研究無線傳感網(wǎng)絡(luò)大數(shù)據(jù)聚類優(yōu)化方法具有重要的現(xiàn)實(shí)意義。
文獻(xiàn)[3]方法將大數(shù)據(jù)輸入卷積神經(jīng)網(wǎng)絡(luò)中,獲得數(shù)據(jù)粗特征,通過孔洞卷積訓(xùn)練數(shù)據(jù)粗特征,得到數(shù)據(jù)的精細(xì)特征,并將其輸入膠囊網(wǎng)絡(luò)中完成大數(shù)據(jù)聚類。 該方法的聚類結(jié)果Jaccard 系數(shù)較低,數(shù)據(jù)聚類效果不佳。 文獻(xiàn)[4]方法在支持k離群度概念的基礎(chǔ)上獲取網(wǎng)絡(luò)大數(shù)據(jù)的非邊界點(diǎn)集和邊界點(diǎn)集,分別采用SMOTE 算法和基于距離的欠采樣算法對上述點(diǎn)集展開聚類處理,實(shí)現(xiàn)大數(shù)據(jù)分類,但是該方法的平均熵較高,聚類精度低。 文獻(xiàn)[5]方法在基于移動機(jī)器學(xué)習(xí)的分布式方案中高效運(yùn)行k均值聚類,處理網(wǎng)絡(luò)上的大數(shù)據(jù)聚類,通過神經(jīng)處理器的k均值聚類技術(shù),構(gòu)建了大數(shù)據(jù)聚類方法,但是該方法的聚類效果較差。
為了解決上述方法中存在的問題,提出基于粒子群算法的無線傳感網(wǎng)絡(luò)大數(shù)據(jù)聚類優(yōu)化方法。 該方法主要引入了粒子群算法,并且結(jié)合了主成分分析和信息熵等方法,進(jìn)一步優(yōu)化了大數(shù)據(jù)聚類效果,實(shí)現(xiàn)無線傳感網(wǎng)絡(luò)大數(shù)據(jù)高效聚類。
無線傳感網(wǎng)絡(luò)中的大數(shù)據(jù)維度較高,增加了聚類的難度,為此,須預(yù)處理無線傳感網(wǎng)絡(luò)大數(shù)據(jù),即降維處理數(shù)據(jù)。 該降維處理過程為基于粒子群算法的無線傳感網(wǎng)絡(luò)大數(shù)據(jù)聚類優(yōu)化方法,在主成分分析方法中引入信息熵概念[6-7],對無線傳感網(wǎng)絡(luò)大數(shù)據(jù)展開降維處理。
無線傳感網(wǎng)絡(luò)中數(shù)據(jù)源傳輸?shù)臄?shù)據(jù)存在m種取值X={s1,s2,…,sm},每種取值的概率用a1,a2,…,am表示,同時存在。 信息熵J描述的是數(shù)據(jù)不確定性-logai的平均值,其表達(dá)式如下:
信息熵越小,表明數(shù)據(jù)中存在的信息量越小,相反,信息熵越大,表明數(shù)據(jù)中存在的信息量越多,因此在數(shù)據(jù)降維過程中,應(yīng)該保留信息熵大的數(shù)據(jù)。
主成分分析處理數(shù)據(jù)的過程如下:
①在無線傳感網(wǎng)絡(luò)中,對m條樣本數(shù)據(jù)展開n次觀測,根據(jù)觀測值xij建立觀測矩陣X:
②通過下式計(jì)算數(shù)據(jù)的均值ˉxj和標(biāo)準(zhǔn)差sj:
③建立數(shù)據(jù)的相關(guān)陣E:
式中:eij表示相關(guān)陣中存在的元素。
④通過下述過程分解矩陣E:
A.設(shè)μ1≥μ2≥…≥μm≥0 表示矩陣E的特征值,通過下述公式計(jì)算特征值的貢獻(xiàn)率Vj:
B.選取Vj>80%的特征值作為無線傳感網(wǎng)絡(luò)大數(shù)據(jù)的主成分,用r1,r2,…,rm表示特征值的特征向量。
C.選取r1,r2,…,rm中的前a個特征向量建立無線傳感網(wǎng)絡(luò)的主成分載荷陣Im×a=(r1,r2,…,ra);
⑤獲得無線傳感網(wǎng)絡(luò)數(shù)據(jù)的主成分。
結(jié)合信息熵和主成分分析法[8-9]對無線傳感網(wǎng)絡(luò)展開降維處理,具體過程如下:
①設(shè)定信息熵閾值ε,將數(shù)據(jù)的J與ε對比,篩選數(shù)據(jù)特征,計(jì)算屬性ri對應(yīng)的信息熵J(ri),當(dāng)J(ri)>ri,在集合S中存入ri;
③計(jì)算數(shù)據(jù)之間的協(xié)方差矩陣Cov;
④獲取Cov 對應(yīng)的特征向量和特征值;
⑤選取無線傳感網(wǎng)絡(luò)數(shù)據(jù)前l(fā)個特征值較大的特征向量,以此建立數(shù)據(jù)的特征向量矩陣Bn×l;
⑥獲得無線傳感網(wǎng)絡(luò)的降維結(jié)果U:
至此通過式(8)輸出降維結(jié)果,完成大數(shù)據(jù)降維處理,為引入粒子群算法,構(gòu)建無線傳感網(wǎng)絡(luò)大數(shù)據(jù)聚類奠定基礎(chǔ)。
在大數(shù)據(jù)降維處理后,基于粒子群算法的無線傳感網(wǎng)絡(luò)大數(shù)據(jù)聚類優(yōu)化算法采用粒子群優(yōu)化算法優(yōu)化直覺模糊核聚類算法[10-11]的聚類中心,利用優(yōu)化后的算法完成無線傳感網(wǎng)絡(luò)大數(shù)據(jù)的聚類優(yōu)化。
設(shè)X={x1,x2,…,xn}表示粒子種群,由m維空間中存在的n個粒子組成,在粒子群算法中,設(shè)xid(t)表示當(dāng)前時刻種群對應(yīng)的位置,vid(t)表示當(dāng)前時刻種群對應(yīng)的速度,設(shè)置慣性因子ξ,通過式(9)更新種群中存在的第i個粒子在優(yōu)化過程中的位置xi={xi1,xi2,…,xin}和速度vi={vi1,vi2,…,vin}:
工程項(xiàng)目作為一個臨時的組織體系而獨(dú)立存在,為了實(shí)現(xiàn)企業(yè)的項(xiàng)目規(guī)劃目標(biāo),只有提升物資采購的管理水平,才能全面有效地保證工程項(xiàng)目建造的物資資源的精準(zhǔn)供給。規(guī)范物資的采購機(jī)制,應(yīng)用計(jì)算機(jī)、網(wǎng)絡(luò)技術(shù)及電商平臺等手段,縮短物資采購周期,降低采購成本;將工程建造過程與物資供應(yīng)過程無縫對接,盡可能地減少庫存、消除二次搬運(yùn),避免停工待料的情況發(fā)生,避免物資延誤生產(chǎn)的事件發(fā)生,進(jìn)而達(dá)到精準(zhǔn)物資供應(yīng)管理。
式中:t表示種群的迭代次數(shù);c1、c2表示加速常數(shù);xid(t+1)、vid(t+1)表示經(jīng)過上式更新后,粒子獲得的新位置和新速度;r1、r2為隨機(jī)數(shù),于[0,1]區(qū)間內(nèi)取值。
粒子群優(yōu)化算法的收斂速度和全局搜索能力較強(qiáng)[12-13],基于粒子群算法的無線傳感網(wǎng)絡(luò)大數(shù)據(jù)聚類優(yōu)化方法利用這一特點(diǎn),優(yōu)化直覺模糊核聚類算法,提高基于粒子群算法的無線傳感網(wǎng)絡(luò)大數(shù)據(jù)聚類優(yōu)化方法的聚類效率。
用X={x1,x2,…,xn}表示數(shù)據(jù)樣本空間,數(shù)據(jù)聚類中心用粒子表示,構(gòu)成的集合V={v1,v2,…,vn},設(shè)置粒子群優(yōu)化算法的適應(yīng)度函數(shù)g(xi):
式中:Kkm(Ikν,Ikη,A)表示直覺模糊核,Ikν表示隸屬矩陣,Ikη表示非隸屬矩陣,A表示輸出最優(yōu)解時的聚類結(jié)果。
無線傳感網(wǎng)絡(luò)大數(shù)據(jù)聚類優(yōu)化的具體過程如下:
①初始化參數(shù),具體包括速度最大值vmax、終止閾值φ、慣性因子ξ、最大迭代次數(shù)Ymax、常數(shù)c1、c2、種群規(guī)模z;
②對粒子群展開初始化處理,選取算法的初始種群V1,V2,…,Vz,數(shù)據(jù)的聚類中心構(gòu)成的集合{v1,v2,…,vv}可用粒子Vi表示;
③劃分無線傳感網(wǎng)絡(luò)大數(shù)據(jù)的非隸屬矩陣Ikη和隸屬矩陣Ikν,設(shè)FGK(xj,ai)表示數(shù)據(jù)聚類中心ai與數(shù)據(jù)xj之間存在的直覺模糊歐氏距離[14-16]。 當(dāng)FGK(xj,ai)的值不為零時,存在下式:
式中:ν(b)ij、η(b)ij分別表示高斯核和模糊核。
令FGK(xj,ai)的值為零,存在下式:
④在式(10)的基礎(chǔ)上計(jì)算粒子的g(xi)。
⑤設(shè)Aid(t)表示粒子在尋優(yōu)過程中獲得的最優(yōu)值,對Aid(t)、g(xi)展開判斷:當(dāng)最優(yōu)值A(chǔ)id(t)優(yōu)于g(xi)時,將Aid(t)作為粒子在種群中的新位置;設(shè)Vgd(t)表示粒子群在尋優(yōu)過程中獲得的最優(yōu)值時的速度,對Vgd(t)、g(xi)展開判斷:當(dāng)Vgd(t)優(yōu)于g(xi)時,將Vgd(t)作為粒子群的新速度。
⑥對粒子在種群中的速度和位置展開更新,利用更新后的粒子構(gòu)成算法的下一代種群。
⑦在迭代更新次數(shù)為t=t+1 時,判斷算法是否符合終止條件,如果滿足,輸出算法此時的最優(yōu)解,獲得無線傳感網(wǎng)絡(luò)大數(shù)據(jù)聚類結(jié)果A;如果不符合終止條件,則返回步驟③中;
⑧重新劃分無線傳感網(wǎng)絡(luò)大數(shù)據(jù)的非隸屬矩陣Ikη和隸屬矩陣Ikν;
⑨設(shè)置參數(shù)aνij、aηij、aπi,利用上述參數(shù)更新無線傳感網(wǎng)絡(luò)大數(shù)據(jù)的聚類結(jié)果A:
式中:K(·,·)表示高斯核函數(shù),aνij為具有a個特征的數(shù)據(jù)高斯核聚類速度,xνj為粒子種群x到j(luò)點(diǎn)的聚類速度,aνj為具有a個特征的數(shù)據(jù)聚類到j(luò)點(diǎn)聚類速度,aνi為具有a個特征的數(shù)據(jù)聚類到i點(diǎn)的速度,aηij為具有a個特征的數(shù)據(jù)高斯聚類成功概率,xηj為粒子種群x到j(luò)點(diǎn)的聚類成功概率,aηj為具有a個特征的數(shù)據(jù)聚類到j(luò)點(diǎn)的概率,aηi為具有a個特征的數(shù)據(jù)聚類到i點(diǎn)的概率,aπj為具有a個特征的數(shù)據(jù)高斯核聚類距離。。
⑩設(shè)置粒子群算法的終止閾值φ,當(dāng)?shù)麓螖?shù)為t=t+1 時,如果‖A(t+1)-A(t)‖≥φ,返回步驟⑧中,如果‖A(t+1)-A(t)‖<φ,輸出無線傳感網(wǎng)絡(luò)大數(shù)據(jù)的聚類優(yōu)化結(jié)果A。
至此完成無線傳感網(wǎng)絡(luò)大數(shù)據(jù)聚類優(yōu)化方法設(shè)計(jì),通過結(jié)合信息熵和主成分分析法實(shí)現(xiàn)對無線傳感網(wǎng)絡(luò)展開降維處理,最終引入粒子群算法,實(shí)現(xiàn)大數(shù)據(jù)聚類。
為了有效分析設(shè)計(jì)方法的性能,仿真分析過程以Wine Quality Dataset 數(shù)據(jù)集為研究對象,該數(shù)據(jù)集具備大量的數(shù)據(jù),符合研究的無線傳感網(wǎng)絡(luò)大數(shù)據(jù)的特點(diǎn),具體的數(shù)據(jù)設(shè)置如表1 所示。
表1 數(shù)據(jù)設(shè)置
上述的數(shù)據(jù)均采用數(shù)據(jù)集中的白葡萄酒樣品,其樣本數(shù)量為4 898 個,數(shù)據(jù)集預(yù)測平均值基準(zhǔn)性能的均方根誤差(Root Mean Square Error,RMSE)為0.148 的質(zhì)量分?jǐn)?shù)。
在仿真分析過程中,隨機(jī)選擇上述數(shù)據(jù)集中的1 000 個數(shù)據(jù)(包含12 類數(shù)據(jù)),并且隨機(jī)分布,其數(shù)據(jù)分布如圖1 所示。
圖1 數(shù)據(jù)分布圖
在完成仿真分析對象的選擇后,配置仿真設(shè)備,在仿真分析的過程中,主要涉及計(jì)算機(jī)主機(jī)和部分軟件,具體如表2 所示。
表2 仿真設(shè)備
按照上述配置設(shè)置仿真環(huán)境。
在驗(yàn)證設(shè)計(jì)方法性能前,需要設(shè)置仿真參數(shù),為仿真分析做準(zhǔn)備,具體仿真參數(shù)設(shè)置如表3 所示。
表3 仿真參數(shù)設(shè)置
在仿真開始前,按照上述參數(shù)值設(shè)置仿真參數(shù)。
為了有效分析基于粒子群算法的無線傳感網(wǎng)絡(luò)大數(shù)據(jù)聚類優(yōu)化算法的性能,需要選擇具體的性能指標(biāo),通過性能指標(biāo)驗(yàn)證方法,考慮全面性和有效性,該仿真分析以數(shù)據(jù)聚類效果、Jaccard 系數(shù)、數(shù)據(jù)平均熵和時間復(fù)雜度為性能指標(biāo),其中Jaccard 系數(shù)可以用于數(shù)據(jù)聚類精度的評價,Jaccard 系數(shù)Ja的計(jì)算公式如下:
式中:ci表示數(shù)據(jù)聚類結(jié)果;函數(shù)Nu(·,·)的主要目的是獲取符合條件的數(shù)據(jù)對數(shù)量;函數(shù)sa(·,·)的主要作用是判斷數(shù)據(jù)的類別。
數(shù)據(jù)平均熵性能指標(biāo)的計(jì)算如下:
數(shù)據(jù)熵J(ci)的表達(dá)式如下:
式中:Ah表示在類別ci中數(shù)據(jù)h所占的比例。 為了有效反映方法的性能,取數(shù)據(jù)熵的平均值,公式為:
時間復(fù)雜度性能指標(biāo)的計(jì)算公式為:
式中:R表示數(shù)據(jù)屬性的總和,Y表示屬性數(shù),p表示迭代次數(shù),k表示聚類數(shù),s表示Y個屬性的取值種數(shù)的平均值。
四個性能指標(biāo)中,Jaccard 系數(shù)的數(shù)值越大,則表明聚類方法的性能越好,而數(shù)據(jù)平均熵和時間復(fù)雜度的數(shù)值越低,則表明聚類方法的聚類效果越好,而數(shù)據(jù)聚類效果通過直觀地展示數(shù)據(jù)聚類情況,直接分析聚類效果,數(shù)據(jù)越聚堆,并且聚集的類別數(shù)量與實(shí)際數(shù)據(jù)一致,則表明方法的聚類效果越好。
仿真分析采用對比分析的形式,對比方法分別為基于粒子群算法的無線傳感網(wǎng)絡(luò)大數(shù)據(jù)聚類優(yōu)化方法、文獻(xiàn)[3]中的膠囊網(wǎng)絡(luò)數(shù)據(jù)聚類方法和文獻(xiàn)[5]中的k均值聚類方法。
3.5.1 數(shù)據(jù)聚類效果
應(yīng)用三種方法聚類數(shù)據(jù),將隨機(jī)分布的數(shù)據(jù)進(jìn)行聚類,驗(yàn)證不同方法的數(shù)據(jù)聚類效果,其結(jié)果如圖2所示。
圖2 不同方法的數(shù)據(jù)聚類效果
根據(jù)圖2 所示的數(shù)據(jù)聚類效果可知,所提出的基于粒子群算法的無線傳感網(wǎng)絡(luò)大數(shù)據(jù)聚類優(yōu)化方法有效聚類了樣本數(shù)據(jù),聚類的數(shù)據(jù)類別與實(shí)際樣本數(shù)據(jù)一致,均為12 類,并且數(shù)據(jù)經(jīng)過本文方法聚類后,聚類效果較好,沒有數(shù)據(jù)未被聚類;而膠囊網(wǎng)絡(luò)數(shù)據(jù)聚類方法的聚類效果較差,該方法雖然將數(shù)據(jù)聚類了12 類,但是同類別的數(shù)據(jù)相對分散,聚類效果弱于本文方法;k均值聚類方法僅聚類了10 類數(shù)據(jù),樣本數(shù)據(jù)中的2 類數(shù)據(jù)未被聚類,表明該方法將其中的2 類數(shù)據(jù)誤聚類成其他類型數(shù)據(jù),由此可知,本文方法的數(shù)據(jù)聚類效果最好。
3.5.2 Jaccard 系數(shù)分析
為了驗(yàn)證基于粒子群算法的無線傳感網(wǎng)絡(luò)大數(shù)據(jù)聚類優(yōu)化方法的整體有效性,需要對其展開分析。首先采用Jaccard 系數(shù)對基于粒子群算法的無線傳感網(wǎng)絡(luò)大數(shù)據(jù)聚類優(yōu)化方法、膠囊網(wǎng)絡(luò)數(shù)據(jù)聚類方法和k均值聚類方法的聚類效果展開評價,其結(jié)果如圖3 所示。
圖3 不同方法的Jaccard 系數(shù)
結(jié)合圖3 中的數(shù)據(jù)可知,Jaccard 系數(shù)與數(shù)據(jù)量之間呈線性關(guān)系,隨著數(shù)據(jù)量的增加,三種方法的Jaccard 系數(shù)不斷減小,Jaccard 系數(shù)越低,數(shù)據(jù)聚類精度越低,但是本文方法在數(shù)據(jù)量達(dá)到1 000 個時,Jaccard 系數(shù)仍在0.70 以上,而膠囊網(wǎng)絡(luò)數(shù)據(jù)聚類方法和k均值聚類方法的Jaccard 系數(shù)僅為0.41 和0.38,三種方法相比,本文方法的Jaccard 系數(shù)高出另兩種方法0.29 和0.32,因此,本文方法的Jaccard系數(shù)最高,表明所提方法的數(shù)據(jù)精度高,具備了一定的可行性。
3.5.3 數(shù)據(jù)平均熵分析
為了進(jìn)一步驗(yàn)證上述方法的聚類精度,引入熵方法對數(shù)據(jù)聚類效果展開分析,分別分析本文方法、膠囊網(wǎng)絡(luò)數(shù)據(jù)聚類方法和k均值聚類方法的數(shù)據(jù)平均熵,其結(jié)果如圖4 所示。
圖4 不同方法的數(shù)據(jù)平均熵
數(shù)據(jù)平均熵越大,數(shù)據(jù)聚類精度越低,相反平均熵越小,數(shù)據(jù)聚類精度越高。 分析圖4 中的數(shù)據(jù)可知,平均熵與Jaccard 系數(shù)相反,隨著數(shù)據(jù)量的增多而增大,本文方法在數(shù)據(jù)量達(dá)到1 000個時,其數(shù)據(jù)平均熵達(dá)到了0.36,而膠囊網(wǎng)絡(luò)數(shù)據(jù)聚類方法和k均值聚類方法的數(shù)據(jù)平均熵分別達(dá)到了0.63 和0.64,數(shù)值均超過了0.60,三種方法相比,本文方法的數(shù)據(jù)平均熵降低了0.27 和0.28,該結(jié)果表明本文方法的數(shù)據(jù)平均熵最低,驗(yàn)證了本文方法的聚類性能更佳。
3.5.4 時間復(fù)雜度
在上述仿真分析中,通過Jaccard 系數(shù)和平均熵分析了三種方法的聚類精度,在此基礎(chǔ)上分析方法在聚類過程中的時間復(fù)雜度,三種方法的時間復(fù)雜度如圖5 所示。
圖5 不同方法的時間復(fù)雜度
分析圖5 中的數(shù)據(jù)可知,在無線傳感網(wǎng)絡(luò)大數(shù)據(jù)聚類過程中,本文方法、膠囊網(wǎng)絡(luò)數(shù)據(jù)聚類方法和k均值聚類方法的時間復(fù)雜度隨著數(shù)據(jù)量的增大逐漸增大,表明數(shù)據(jù)量的增加,會增加三種方法聚類所需的時間,通過對比發(fā)現(xiàn),本文方法的時間復(fù)雜度增加幅度最低,在數(shù)據(jù)量達(dá)到1 000 個時,時間復(fù)雜度僅為26.3%,而膠囊網(wǎng)絡(luò)數(shù)據(jù)聚類方法和k均值聚類方法的時間復(fù)雜度均達(dá)到了50.0%左右,其中膠囊網(wǎng)絡(luò)數(shù)據(jù)聚類方法的時間復(fù)雜度達(dá)到了51.9%,三種方法相比,本文方法的時間復(fù)雜度降低了23.0%以上,因此,本文方法具有較低的時間復(fù)雜度,具備了更高的應(yīng)用價值。
針對目前聚類方法面對無線傳感網(wǎng)絡(luò)中大量數(shù)據(jù)表現(xiàn)出的聚類精度低和時間復(fù)雜度高等問題。 提出基于粒子群算法的無線傳感網(wǎng)絡(luò)大數(shù)據(jù)聚類優(yōu)化方法,該方法首先對高維的無線傳感網(wǎng)絡(luò)大數(shù)據(jù)展開降維處理,其次結(jié)合粒子群算法和直覺模糊核聚類算法,實(shí)現(xiàn)數(shù)據(jù)的聚類處理。 同時通過仿真分析驗(yàn)證了該方法可在短時間內(nèi)精準(zhǔn)地完成無線傳感網(wǎng)絡(luò)大數(shù)據(jù)的聚類,聚類的數(shù)據(jù)類別與實(shí)際樣本數(shù)據(jù)一致,均為12 類,并且聚類效果較好,其Jaccard 系數(shù)達(dá)到了0.70 以上,數(shù)據(jù)平均熵僅為0.36,時間復(fù)雜度僅為26.3%,驗(yàn)證了該方法的可行性和有效性,其具備更高的應(yīng)用價值。