楊倩倩,王 龍
(晉中信息學院大數(shù)據(jù)學院,山西 太谷 030800)
大數(shù)據(jù)技術(shù)的發(fā)展與進步提高了數(shù)據(jù)處理的效率[1],增加了人們在日常生活和工作中的認知盈余,開拓了眼界,拓寬了視野。 但隨著大數(shù)據(jù)網(wǎng)絡時代信息的不斷發(fā)展[2],數(shù)據(jù)積攢越來越多,造成可使用數(shù)據(jù)被海量冗余數(shù)據(jù)覆蓋,長此以往將會導致諸多不良影響,因此需智能采集移動數(shù)據(jù),以提高數(shù)據(jù)采集效果。
史兵麗等[3]設計了基于ZigBee 無線網(wǎng)絡的應變數(shù)據(jù)采集系統(tǒng),并結(jié)合調(diào)制協(xié)調(diào)器和FPGA 陣列完成數(shù)據(jù)采集。 Karthikeyan A 等[4]指出由于信號覆蓋的環(huán)形范圍導致三維無線傳感器網(wǎng)絡數(shù)據(jù)重復,為此,制定了三維分散分組(3D-SG)方案,根據(jù)該方案實現(xiàn)了數(shù)據(jù)采集與評估。 陳琪等[5]將所有節(jié)點均勻劃分成簇,然后在簇內(nèi)采用節(jié)點分級的思想進行數(shù)據(jù)的多跳傳輸,最后使用移動采集器沿著最短路徑訪問簇頭節(jié)點完成數(shù)據(jù)采集。 上述三種方法雖然都實現(xiàn)了數(shù)據(jù)采集,但是由于移動節(jié)點具有較高的隨機性,因此在采集過程中無法對其進行較為準確的對比,導致數(shù)據(jù)采集效果有待進一步提升。
在上述分析的基礎(chǔ)上,本文在利用已有的LEACH 分簇算法完成移動數(shù)據(jù)節(jié)點分類采集的基礎(chǔ)上,利用最小生成樹方法分配移動數(shù)據(jù)采集時隙,以降低無線傳感網(wǎng)中的節(jié)點能量消耗,提升移動數(shù)據(jù)采集效果。
首先,將未完成聚類[7]的節(jié)點數(shù)據(jù)對象的數(shù)目設為N,且所有未完成聚類對象的屬性采用G+P維來表示,結(jié)合變化不定的數(shù)據(jù)信息,構(gòu)建如下信息數(shù)據(jù)集U:
由于量綱的不同,WSN 中節(jié)點數(shù)據(jù)信息具有一定的隨機性,因此無法對其進行較為準確的對比。要使不同量綱的數(shù)據(jù)對象能夠相互比較,就必須采用正規(guī)的無量綱化預處理方法,具體為先使用無量綱化法對節(jié)點數(shù)據(jù)進行處理,再將處理結(jié)果投影到[0,1]區(qū)間內(nèi),計算方法如下式:
式中:xit代表在處理前的某維屬性,而x′it則代表處理后的某維屬性,min 代表這一維屬性數(shù)據(jù)中的最小值極限,max 代表這一維屬性數(shù)據(jù)中的最大值極限。
式中:Ht代表在所有維的屬性中節(jié)點數(shù)據(jù)的熵值。如果xit相對于預先指定的t的值完全相等,則有
1.2.1 計算勢值
當WSN 是由雙重屬性數(shù)據(jù)對象組成時,任意一個WSN 中節(jié)點xi對于節(jié)點xj處所產(chǎn)生的勢值可表示為:
1.2.2 查找空勢心
一般空間位勢中心位于同一類簇的中心,類簇的空間中心是該類節(jié)點數(shù)據(jù)對數(shù)據(jù)空間中某一概念的附屬中心,也是該概念特征的節(jié)點數(shù)據(jù)聚集中心。此外,在無線傳感網(wǎng)絡數(shù)據(jù)場中,空間勢心是一種用物體來表示的客觀實體節(jié)點數(shù)據(jù),即由傳感器節(jié)點在物理空間的位置屬性和感知屬性構(gòu)成。
采用LEACH 分簇算法將整個無線傳感器網(wǎng)絡節(jié)點劃分為K個聚類范圍,作為聚類核心的LEACH分簇算法實現(xiàn)了移動Sink 數(shù)據(jù)采集方案[9]的空間分布均衡。
以確定的無線傳感網(wǎng)絡節(jié)點的物理位置質(zhì)心坐標為基礎(chǔ),依據(jù)質(zhì)心點之間的最小歐氏距離原理和剩余能量不低于平均能量原則,確定各個聚類中移動數(shù)據(jù)采集點。
勢能函數(shù)[10]是指在整個力場中,勢能依賴于位置和距離的函數(shù)。 在一個由雙重屬性數(shù)據(jù)對象組成的WSN中,決定在節(jié)點數(shù)據(jù)空間U中進行聚類,劃分為K個類{Π1,Π2,…,Πk},此簇內(nèi)所有對象的勢能相加之和與該簇內(nèi)對象總數(shù)量之間的比值就是劃分簇的平均位值ˉφ(K),以上述確定的空勢心為基礎(chǔ),將ˉφ(K)表示為:
式中:NumK代表進行K個聚類劃分后該簇內(nèi)對象總數(shù)量,Φ(xi)代表任意一個WSN 在xi處的位值和其他WSN 節(jié)點在xi處產(chǎn)生的位值的乘積。
WSN 數(shù)據(jù)場中的等勢線被認為是空間勢心所環(huán)繞。 即在疊加過程中點數(shù)較大的節(jié)點數(shù)據(jù)形成的勢心是一種接近目標數(shù)值的節(jié)點數(shù)據(jù),而節(jié)點的數(shù)據(jù)在疊加時比疊加之前較小數(shù)值的節(jié)點數(shù)據(jù)起到了更大的作用。 因此根據(jù)上述計算結(jié)果繪制等勢線,為無線傳感網(wǎng)絡數(shù)據(jù)采集奠定了良好基礎(chǔ)。
使用LEACH 分簇算法[11]劃分無線傳感網(wǎng)絡區(qū)間后,網(wǎng)絡中所有傳感器節(jié)點的聚集節(jié)點即為聚類中的數(shù)據(jù)采集點,因此本文選取二維Dubins 曲線[12]實現(xiàn)所有采集點的連線。
其中,RSL 型Dubins 曲線主要包括三段,即:
式中:φ0代表聚類區(qū)間的切線內(nèi)夾角,φ1代表聚類區(qū)間的切線外夾角,d代表各個聚類區(qū)間之間的距離,sinφ0代表聚類區(qū)間的切線內(nèi)夾角的正弦值,cosφ0代表聚類區(qū)間的切線內(nèi)夾角的余弦值,sinφ1代表聚類區(qū)間的切線外夾角的正弦值,cosφ1代表聚類區(qū)間的切線外夾角的余弦值,arctan 代表反正切函數(shù),mod 代表求余函數(shù),|L|、|S|和|R|分別表示RSL 的三段曲線長度,相加可獲得完整的Dubins曲線的長度,即:∮LRS=|L|+|S|+|R|。
在分簇數(shù)據(jù)的基礎(chǔ)上采用Sink 數(shù)據(jù)對節(jié)點再進行細分,其細分后節(jié)點構(gòu)成了Dubins 曲線,從而有序快速地采集數(shù)據(jù)。
綜合上述分析,本文移動數(shù)據(jù)采集流程如圖1所示。
圖1 無線傳感網(wǎng)移動數(shù)據(jù)采集流程圖
至此完成無線傳感網(wǎng)絡移動數(shù)據(jù)采集。
為了進一步優(yōu)化無線傳感網(wǎng)數(shù)據(jù)效果,本文利用節(jié)點剩余能量作為邊權(quán)重,再利用克魯斯卡爾(Kruskal)算法構(gòu)建最小生成樹[13-14]。
假設無線傳感網(wǎng)數(shù)據(jù)連通網(wǎng)N=(V,E),將N中的邊按權(quán)值從小到大的順序排列:
①初始狀態(tài)為只有n個頂點而無邊的非連通圖T=(V,{}),圖中每個頂點自成一個連通分量。
②在節(jié)點能量E中選擇權(quán)值最小的邊,若該邊依附的頂點落在T中不同的連通分量上(即不形成回路),則將此邊將入到T中,否則舍去此邊而選擇下一條權(quán)值最小的邊。
③重復步驟②,直到T中所有的頂點都在同一連通分量上為止。 由此得到最小生成樹示意圖,如圖2 所示。
圖2 最小生成樹示意圖
圖2 中數(shù)字為節(jié)點剩余能量。 如節(jié)點2 的剩余能量為30。 依據(jù)節(jié)點剩余能量計算邊權(quán)重,每條邊權(quán)重等于邊的兩端節(jié)點剩余能量之和。 如由節(jié)點5和節(jié)點2 構(gòu)成的邊,其邊權(quán)重為20 與30 的和,即50。
先利用Kruskal 算法構(gòu)成生成樹,然后給樹中的每個節(jié)點分配時隙,分配過程的偽代碼如下:
①把原圖中所有邊按權(quán)值排序
②初始化最小生成樹為空,以及初始化連通分量
③for(intn=?;n<N;n++)
④if(E[n]?T=(V,{ }){
⑤把邊E[n]加入最小生成樹
⑥合并E[n]所在的連通分量
⑦}
至此完成無線傳感網(wǎng)移動數(shù)據(jù)采集效果提升。
為了驗證無線傳感網(wǎng)移動數(shù)據(jù)采集效果提升方法的整體有效性。 分別用本文方法、文獻[3]方法和文獻[4]方法進行如下測試。
使用MATLAB 軟件建立仿真平臺。 考慮200個無線傳感網(wǎng)絡節(jié)點隨機分布于500 m×500 m 區(qū)域。 每個節(jié)點的通信半徑為50 m。 200 個節(jié)點內(nèi)只有部分節(jié)點在每輪產(chǎn)生數(shù)據(jù)包,即產(chǎn)生數(shù)據(jù)包的概率從0~1 變化。 具體參數(shù)設置如表1 所示。每當移動節(jié)點移動到終點并返回起點時,稱其完成一“輪”移動。 根據(jù)移動節(jié)點的通信范圍,可以將全部區(qū)域劃分為直接通信區(qū)域和多跳通信區(qū)域。
表1 仿真參數(shù)設置
圖3 中,L1 和L2 兩條曲線之間的區(qū)域即為直接通信區(qū)域,該區(qū)域內(nèi)的節(jié)點距離軌道較近,因而能夠向移動節(jié)點直接傳送數(shù)據(jù)。 而無線傳感網(wǎng)中的其他節(jié)點需要采用多跳中繼方式將數(shù)據(jù)傳送給區(qū)域內(nèi)節(jié)點。
圖3 應用場景示例圖
3.2.1 質(zhì)心坐標查找準確性測試
根據(jù)上述參數(shù)設定,考慮到不同方法適用場景不同,因此利用式(3)計算信息熵權(quán)重,并以0.85 作為固定值,設置移動節(jié)點坐標為(118,89),測試三種方法查找節(jié)點的物理位置質(zhì)心坐標的準確性。 其測試結(jié)果如圖4 所示。
圖4 不同方法質(zhì)心坐標查找準確性對比
由圖4 可知,采用所提方法、文獻[3]方法和文獻[4]方法的質(zhì)心坐標查找準確性相差均較小,所提方法和文獻[3]方法最高差值均為0.10%,文獻[4]方法最高差值為0.16%。 整體來看,所提方法整體質(zhì)心坐標查找準確性曲線波動幅度較小,表明所提方法的質(zhì)心坐標查找誤差是三種方法中最低的。 這是因為所提方法結(jié)合了信息熵權(quán)重,使用勢能函數(shù)對節(jié)點數(shù)據(jù)對象進行分簇,提高了方法的質(zhì)心坐標查找準確性。
3.2.2 能耗測試
假設本文所研究的無線傳感網(wǎng)中節(jié)點的初始能量設置為30 J,結(jié)合Kruskal 最小生成樹算法流程,構(gòu)建能耗模型如下:
由圖5 可知,在相同的有效測試次數(shù)下,所提方法的能耗量均在0.06 ~0.07 的最佳區(qū)間內(nèi),且隨著測試次數(shù)的增多,數(shù)據(jù)采集的能耗量也在隨之下降。雖然文獻[3]方法的數(shù)據(jù)采集能耗量和文獻[4]方法的數(shù)據(jù)采集能耗量也在隨之下降,但能耗區(qū)間與所提方法的最佳能耗區(qū)間相比過高,這是因為所提方法利用Kruskal 算法構(gòu)成最小生成樹,然后給樹中的每個節(jié)點分配時隙,促使每個節(jié)點得到的實時能耗量最低,較低的能耗量進一步增強了采集的穩(wěn)定性,這充分驗證了所提方法的有效性。
圖5 不同方法數(shù)據(jù)采集能耗量對比
3.2.3 延時率測試
對比三種方法在發(fā)送采集移動數(shù)據(jù)時產(chǎn)生的延時率,延時率等于數(shù)據(jù)幀長度和發(fā)送速率的比值,延時率越低,數(shù)據(jù)采集后的傳輸效果越好。 對比結(jié)果如表2 所示。
表2 不同方法數(shù)據(jù)采集的延時率
由表2 可知,在多次有效測試后,所提方法的延時率均在20%以下,而文獻[3]方法和文獻[4]方法的延時率都在25%以上,這是因為所提方法首先對無線傳感網(wǎng)絡數(shù)據(jù)進行聚類處理,將需要采集的數(shù)據(jù)提前聚類,提高了采集效率,降低了延時率。 通過上述對比,驗證了所提方法的有效性。
近年來,由于可循環(huán)有效數(shù)據(jù)資料的流失對日常生活造成了許多不便,因此需要對聚類移動數(shù)據(jù)進行智能采集。 目前無線傳感網(wǎng)數(shù)據(jù)采集方法的采集效果有待進一步提升,所以提出無線傳感網(wǎng)移動數(shù)據(jù)采集效果提升方法。 利用無線傳感網(wǎng)絡構(gòu)成勢值等勢線,采用LEACH 算法聚類,然后將聚類后的節(jié)點數(shù)據(jù)構(gòu)成Dubins 曲線完成數(shù)據(jù)采集,最后通過構(gòu)建最小生成樹分配數(shù)據(jù)收集時隙。 由仿真結(jié)果可知,所提方法解決了數(shù)據(jù)采集誤差大、數(shù)據(jù)采集效率低、數(shù)據(jù)采集所用能耗大、數(shù)據(jù)采集的延時率高的問題,為將來數(shù)據(jù)智能化采集奠定了基礎(chǔ)。