陳坤定,林木輝
(1.閩西職業(yè)技術(shù)學(xué)院信息工程學(xué)院,福建 龍巖 364000;2.福建師范大學(xué)教育學(xué)院,福建 福州 350007)
多源異質(zhì)傳感器數(shù)據(jù)[1]是一種通過傳感器采集的不同來源、不同介質(zhì)的數(shù)據(jù)。因數(shù)據(jù)的來源廣、數(shù)量龐大,在對數(shù)據(jù)進(jìn)行分析時,采集難度較大[2]。而數(shù)據(jù)匯聚可將多源異質(zhì)數(shù)據(jù)進(jìn)行統(tǒng)一收集和管理,提高數(shù)據(jù)的傳輸效率。但數(shù)據(jù)在匯聚過程中易受不同類型節(jié)點(diǎn)的干擾,導(dǎo)致數(shù)據(jù)在傳輸過程中的保密性較差、匯聚精度低、能耗大、增大了數(shù)據(jù)匯聚的難度。為此,研究多源異質(zhì)傳感器數(shù)據(jù)動態(tài)匯聚算法具有重要意義。
孫澤宇等[3]首先采用數(shù)據(jù)匯聚增益算法得到數(shù)據(jù)的極大值與極小值,進(jìn)而獲得兩者之間的比例關(guān)系;然后通過數(shù)據(jù)壓縮技術(shù)處理相關(guān)比例得到所有數(shù)據(jù)的能量消耗;最后將能量消耗輸入到能量轉(zhuǎn)換模型中,完成數(shù)據(jù)的動態(tài)匯聚。但是在匯聚數(shù)據(jù)過程中,受算法自身計算量的影響,導(dǎo)致其通信開銷大。郭慶等[4]首先利用半同步式分級架構(gòu)采集數(shù)據(jù)信息,然后將分布式處理技術(shù)和屬性劃分技術(shù)融入到數(shù)據(jù)中,得到數(shù)據(jù)的實時傳輸狀態(tài),最后在抽象驅(qū)動的基礎(chǔ)上對數(shù)據(jù)傳輸狀態(tài)集中管理,完成動態(tài)匯聚。但是該算法沒有對采集到的數(shù)據(jù)做降維處理,導(dǎo)致算法匯聚的數(shù)據(jù)正確率較低。Jin 等[5]首先將時間序列數(shù)據(jù)劃分成不同場景,并使用集成聚類方法對劃分的場景進(jìn)行聚類。然后采用Davies-Bouldin 指數(shù)選擇最佳簇數(shù)。最后,基于馬爾可夫鏈,構(gòu)建各種組合典型的狀態(tài)轉(zhuǎn)移概率矩陣,生成聚合狀態(tài)序列,完成數(shù)據(jù)的動態(tài)匯聚。但是該算法在數(shù)據(jù)匯聚過程中容易泄露隱私。
為了更好地傳輸多源異質(zhì)數(shù)據(jù),保證無線傳感網(wǎng)絡(luò)通信質(zhì)量。此次提出能耗均衡約束下的多源異質(zhì)傳感器數(shù)據(jù)動態(tài)匯聚算法。在構(gòu)建能耗均衡約束模型的基礎(chǔ)上,利用監(jiān)督判別投影算法對數(shù)據(jù)進(jìn)行預(yù)處理。通過檢測節(jié)點(diǎn)距離與構(gòu)建匯聚鏈路,完成多源異質(zhì)傳感器數(shù)據(jù)的動態(tài)匯聚。
根據(jù)邊賦權(quán)圖構(gòu)建能耗均衡約束模型,采用監(jiān)督判別投影算法構(gòu)建局部分散函數(shù),利用線性約束和正交分解輸出高維度數(shù)據(jù)在低維度空間上的投影,實現(xiàn)多源異質(zhì)數(shù)據(jù)的降維。
構(gòu)建能耗均衡約束模型,可以保證多源異質(zhì)數(shù)據(jù)節(jié)點(diǎn)在匯聚過程中所消耗的能量趨于平均值,具體步驟如下:
①多源異質(zhì)傳感器中主要包含多源異質(zhì)數(shù)據(jù)節(jié)點(diǎn)、節(jié)點(diǎn)之間的相連鏈路,可以采用邊賦權(quán)圖[6-7]表示多源異質(zhì)傳感器數(shù)據(jù)的數(shù)學(xué)模型,如式(1)所示:
式中:U表示傳感器中的所有多源異質(zhì)數(shù)據(jù)節(jié)點(diǎn)集合;H表示邊賦權(quán)圖;D表示節(jié)點(diǎn)之間的鏈路;n表示多源異質(zhì)數(shù)據(jù)節(jié)點(diǎn)的個數(shù);D1表示路徑擇優(yōu)時的數(shù)據(jù)節(jié)點(diǎn)集合;D2表示數(shù)據(jù)節(jié)點(diǎn)下一步的可選擇項。
②傳感器中的多源異質(zhì)數(shù)據(jù)節(jié)點(diǎn)之間是否可以完全用于數(shù)據(jù)間的通信,如式(2)所示:
式中:i、j均表示多源異質(zhì)數(shù)據(jù)節(jié)點(diǎn);?表示完全連接;≠表示不完全連接。
③當(dāng)多源異質(zhì)傳感器數(shù)據(jù)節(jié)點(diǎn)之間完全用于通信時,能量消耗主要由多源異質(zhì)數(shù)據(jù)的傳輸與接收引起。數(shù)據(jù)傳輸和接收的能耗均衡約束模型如式(3)所示:
式中:e1、e2分別表示多源異質(zhì)數(shù)據(jù)的傳輸與接收所耗能量;l表示一般參數(shù);c表示多源異質(zhì)數(shù)據(jù)之間的距離;αfs、αmp均表示通信能量參數(shù);c'表示距離閾值。
④在能耗均衡約束模型中設(shè)立一個距離閾值[8],如式(4)所示:
當(dāng)多源異質(zhì)數(shù)據(jù)節(jié)點(diǎn)之間的距離小于式(4)得到的閾值時,模型使用空閑空間完成數(shù)據(jù)節(jié)點(diǎn)的傳播;當(dāng)多源異質(zhì)數(shù)據(jù)節(jié)點(diǎn)之間的距離大于等于式(4)得到的閾值時,模型使用多路徑衰減信道實現(xiàn)數(shù)據(jù)之間的傳播,完成能耗均衡約束。
在能耗均衡約束模型中采用監(jiān)督判別投影算法[9]對多源異質(zhì)傳感器數(shù)據(jù)實行降維處理,可以有效地降低數(shù)據(jù)的冗余度,為數(shù)據(jù)的匯聚打下基礎(chǔ),具體步驟如下:
步驟1 在多源異質(zhì)數(shù)據(jù)中構(gòu)建局部近鄰圖,利用監(jiān)督判別投影算法在局部近鄰圖中構(gòu)建局部分散函數(shù),如式(5)所示:
式中:K表示引入的拉普拉斯函數(shù);R表示局部分散函數(shù);z表示函數(shù)中的近鄰點(diǎn);C表示局部模型;I表示近鄰函數(shù)。
步驟2 根據(jù)局部分散函數(shù)推算出全局散化函數(shù),如式(6)所示:
步驟3 在多源異質(zhì)傳感器數(shù)據(jù)中引入變換函數(shù)[10],變換函數(shù)的函數(shù)模型用如下公式表示。
式中:E表示引入的變換函數(shù)。
步驟4 將線性約束[11]投入到變換函數(shù)的函數(shù)模型中,然后通過正交基向量獲取多源異質(zhì)傳感器數(shù)據(jù)的最小向量值,并利用正交分解[12]獲得線性約束的解,輸出高維度數(shù)據(jù)在低維度空間上的投影,完成多源異質(zhì)傳感器數(shù)據(jù)的降維。如式(8)所示:
式中:β表示線性約束條件;min(i,j)表示多源異質(zhì)數(shù)據(jù)的最小值;Y表示廣義特征方程式。
通過上述內(nèi)容,在構(gòu)建能耗均衡約束模型的基礎(chǔ)上,建立局部分散函數(shù),采用線性約束和正交分解方法獲取數(shù)據(jù)在低維度空間上的投影,得到降維后的數(shù)據(jù),為多源異質(zhì)數(shù)據(jù)的動態(tài)匯聚奠定基礎(chǔ)。
基于上述獲取降維后的多源異質(zhì)傳感器數(shù)據(jù),采用基于模糊分簇閾值篩選機(jī)制對數(shù)據(jù)做匯聚處理,具體步驟如下:
步驟1 傳感器中所有多源異質(zhì)數(shù)據(jù)的數(shù)量是固定的,并且隨機(jī)分布在矩形區(qū)域[13]中,所對應(yīng)的模糊數(shù)據(jù)集最佳中心節(jié)點(diǎn)的數(shù)量可用下式表示:
式中:χ表示最佳中心數(shù)據(jù)節(jié)點(diǎn);P表示節(jié)點(diǎn)傳輸數(shù)據(jù)的功率;N表示傳感器中多源異質(zhì)數(shù)據(jù)的總數(shù)量;O表示矩形區(qū)域的邊長;s表示數(shù)據(jù)節(jié)點(diǎn)之間的通信半徑。
步驟2 隨機(jī)從多源異質(zhì)傳感器數(shù)據(jù)集中抽取i個節(jié)點(diǎn)作為初始化的中心點(diǎn)集合,如式(10)所示:
式中:T表示初始化中心點(diǎn)集合;g表示集合中的點(diǎn)。
步驟3 從模糊數(shù)據(jù)集中任意選取一個不同于初始化中心點(diǎn)的節(jié)點(diǎn),設(shè)其為y,然后計算出節(jié)點(diǎn)y與中心點(diǎn)集合中其余節(jié)點(diǎn)的相似度[14],如式(11)所示:
式中:x表示節(jié)點(diǎn)i、j之間的物理距離;u表示相似度。
步驟4 根據(jù)相似度更新中心點(diǎn)集合中所有節(jié)點(diǎn)坐標(biāo),然后計算y與模糊數(shù)據(jù)集中所有節(jié)點(diǎn)的相似度,若相似度處于區(qū)間[0,1]中,則將其劃分到中心點(diǎn)集合中,進(jìn)而得到簇區(qū)域。流程如圖1所示。
圖1 簇區(qū)域獲取流程
簇區(qū)域更新過程如式(12)所示:
步驟5 在得到的簇區(qū)域中選取出承擔(dān)區(qū)域內(nèi)數(shù)據(jù)匯聚任務(wù)的節(jié)點(diǎn)a,其余節(jié)點(diǎn)則負(fù)責(zé)數(shù)據(jù)信息的采集,并通過節(jié)點(diǎn)a匯聚上傳。假設(shè)簇區(qū)域中節(jié)點(diǎn)的數(shù)量為B,計算出該區(qū)域的簇頭閾值,如式(13)所示:
式中:Q表示簇頭閾值;δ表示融合系數(shù);ε表示修正系數(shù)。
步驟6 根據(jù)式(13)得到簇頭閾值后,多源異質(zhì)傳感器數(shù)據(jù)節(jié)點(diǎn)通過節(jié)點(diǎn)a將閾值上傳,根據(jù)能耗均衡約束模型可知,節(jié)點(diǎn)a與其余節(jié)點(diǎn)之間的距離處于最佳通信半徑[15]中時,節(jié)點(diǎn)a會直接將簇區(qū)域內(nèi)的所有節(jié)點(diǎn)采集的數(shù)據(jù)匯聚到傳感器中。
步驟7 當(dāng)節(jié)點(diǎn)a與其余節(jié)點(diǎn)之間的距離不處于最佳通信半徑中時,計算其余節(jié)點(diǎn)與節(jié)點(diǎn)a之間的距離,反復(fù)執(zhí)行步驟6 可以建立匯聚鏈路[16],完成多源異質(zhì)傳感器數(shù)據(jù)的動態(tài)匯聚。流程如圖2所示。
圖2 數(shù)據(jù)匯聚流程
根據(jù)式(9)得到最佳中心數(shù)據(jù)節(jié)點(diǎn)的數(shù)量,計算節(jié)點(diǎn)與中心點(diǎn)集合中其余節(jié)點(diǎn)的相似度,獲取所有節(jié)點(diǎn)坐標(biāo),將相似度處于[0,1]區(qū)間中的節(jié)點(diǎn)劃分到中心點(diǎn)集合中,計算該區(qū)域的簇頭閾值,將簇區(qū)域內(nèi)數(shù)據(jù)匯聚到傳感器中,實現(xiàn)能耗均衡約束下的多源異質(zhì)傳感器數(shù)據(jù)動態(tài)匯聚。
為了驗證能耗均衡約束下的多源異質(zhì)傳感器數(shù)據(jù)動態(tài)匯聚算法的整體有效性,以隱私保護(hù)效果、通信開銷和匯聚數(shù)據(jù)正確率為評價指標(biāo),將自適應(yīng)匯聚路由判定算法(文獻(xiàn)[3]算法)、網(wǎng)絡(luò)流量數(shù)據(jù)實時匯聚算法(文獻(xiàn)[4]算法)和基于集合聚類與ECMC 的數(shù)據(jù)匯聚方法(文獻(xiàn)[5]算法)作為對比算法,進(jìn)行仿真。
在無線傳感網(wǎng)絡(luò)中完成此次無線傳感網(wǎng)絡(luò)的分簇及匯聚情況,如圖3 所示。
圖3 分簇網(wǎng)及匯聚情況
由圖3 可知,無線傳感網(wǎng)絡(luò)為250 m×250 m 的平面區(qū)域,內(nèi)部隨機(jī)分布5 萬個節(jié)點(diǎn)。中繼節(jié)點(diǎn)分布密度<0.005 個/m,節(jié)點(diǎn)信號接收精度低于1 dB。
根據(jù)上述環(huán)境和參數(shù)設(shè)置進(jìn)行仿真,具體仿真結(jié)果如下:
3.2.1 隱私保護(hù)效果
數(shù)據(jù)在匯聚過程中需具備一定的保密性,采用所提算法、自適應(yīng)匯聚路由判定算法、網(wǎng)絡(luò)流量數(shù)據(jù)實時匯聚算法和基于集合聚類與ECMC 的數(shù)據(jù)匯聚方法匯聚10 組多源異質(zhì)傳感器數(shù)據(jù),10 組多源異質(zhì)傳感器數(shù)據(jù)隊列轉(zhuǎn)換時間和服務(wù)時間分別為1個和2 個時隙,每組簇內(nèi)數(shù)據(jù)包發(fā)送量為20 個,仿真不同算法在匯聚過程中數(shù)據(jù)節(jié)點(diǎn)的隱私泄露率。隱私泄露率越高,表明數(shù)據(jù)在匯聚過程中的隱私保護(hù)效果越差;隱私泄露率越低,表明數(shù)據(jù)在匯聚過程中的隱私保護(hù)效果越強(qiáng)。其計算如式(14)所示:
式中:k表示節(jié)點(diǎn)之間的鏈接;V表示多源異質(zhì)數(shù)據(jù)的隱私泄露率;r表示節(jié)點(diǎn)被破解的概率。
不同算法的隱私保護(hù)效果如圖4 所示。
圖4 不同算法的隱私泄露率
分析圖4 中的數(shù)據(jù)可知,針對多源異質(zhì)傳感器數(shù)據(jù)的動態(tài)匯聚,自適應(yīng)匯聚路由判定算法、網(wǎng)絡(luò)流量數(shù)據(jù)實時匯聚算法和基于集合聚類與ECMC 的數(shù)據(jù)匯聚方法的隱私泄露率分別在31%、38%和27%附近波動,而所提算法的隱私泄露率在25%附近波動,通過對比發(fā)現(xiàn),在不同組中所提算法的隱私泄露率均小于對比算法的隱私泄露率,表明針對多源異質(zhì)傳感器數(shù)據(jù)的動態(tài)匯聚,所提算法的隱私保護(hù)效果好于對比算法。因為所提算法構(gòu)建了能耗均衡約束模型,使用多路徑衰減信道實現(xiàn)數(shù)據(jù)之間的傳播,有效提高所提算法的隱私保護(hù)效果。
3.2.2 通信開銷
為了仿真三種算法的多源異質(zhì)傳感器數(shù)據(jù)匯聚性能,將通信開銷作為仿真指標(biāo),進(jìn)行仿真分析。通信開銷是指各個算法在多源異質(zhì)傳感器數(shù)據(jù)的動態(tài)匯聚過程中所消耗的能量。通信開銷數(shù)值越大,表明算法的性能越差;通信開銷數(shù)值越小,表明算法的性能越好。通信開銷的計算公式如下:
本文采用802.15.4 標(biāo)準(zhǔn)對多源異質(zhì)數(shù)據(jù)進(jìn)行封裝,該標(biāo)準(zhǔn)數(shù)據(jù)包有效載荷為100 byte,允許數(shù)據(jù)總長度最大為128 byte。仿真5 萬個節(jié)點(diǎn)在所提算法、自適應(yīng)匯聚路由判定算法、網(wǎng)絡(luò)流量數(shù)據(jù)實時匯聚算法和基于集合聚類與ECMC 的數(shù)據(jù)匯聚方法中的通信開銷,結(jié)果如圖5 所示。
圖5 不同算法的通信開銷
分析圖5 可知,隨著節(jié)點(diǎn)數(shù)量的增多,三種算法的通信開銷也有所增加。自適應(yīng)匯聚路由判定算法、網(wǎng)絡(luò)流量數(shù)據(jù)實時匯聚算法和基于集合聚類與ECMC 的數(shù)據(jù)匯聚方法的通信開銷范圍分別為16 MB~57 MB、18 MB~66 MB 和19 MB~61 MB,而所提算法的通信開銷在9 MB~46 MB 之間,低于對比算法。因為所提算法采用監(jiān)督判別投影算法對多源異質(zhì)傳感器數(shù)據(jù)實行降維處理,降低了數(shù)據(jù)的冗余度,減少了通信開銷,提高了數(shù)據(jù)匯聚性能。
3.2.3 匯聚數(shù)據(jù)正確率
匯聚數(shù)據(jù)正確率是指各個算法對多源異質(zhì)傳感器數(shù)據(jù)動態(tài)匯聚的結(jié)果中,最終匯聚正確數(shù)據(jù)占原始數(shù)據(jù)的比例。匯聚數(shù)據(jù)正確率越高,表明算法的匯聚精度越高;匯聚數(shù)據(jù)正確率越低,表明算法的匯聚精度越低,結(jié)果如圖6 所示。
圖6 不同算法的匯聚數(shù)據(jù)正確率
由圖6 可知,在所有的匯聚結(jié)果中,所提算法的匯聚數(shù)據(jù)正確率始終在90%以上,均高于自適應(yīng)匯聚路由判定算法、網(wǎng)絡(luò)流量數(shù)據(jù)實時匯聚算法和基于集合聚類與ECMC 的數(shù)據(jù)匯聚方法,表明所提算法的匯聚精度高。因為所提算法通過模糊分簇閾值篩選機(jī)制,獲取匯聚區(qū)域的簇頭閾值,使節(jié)點(diǎn)處于最佳通信半徑中,有效提高了多源異質(zhì)傳感器數(shù)據(jù)匯聚精度。
此次提出能耗均衡約束下的多源異質(zhì)傳感器數(shù)據(jù)動態(tài)匯聚算法。該算法首先構(gòu)建能耗均衡約束模型,其次采用監(jiān)督判別投影算法對多源異質(zhì)數(shù)據(jù)進(jìn)行降維處理,最后采用模糊分簇閾值篩選算法對數(shù)據(jù)實行匯聚處理,完成多源異質(zhì)傳感器數(shù)據(jù)的動態(tài)匯聚。仿真結(jié)果表明,所提算法的隱私泄露率在25%左右,通信開銷始終低于46 MB,匯聚數(shù)據(jù)正確率在90%以上,該算法在提高多源異質(zhì)傳感器數(shù)據(jù)隱私保護(hù)效果與數(shù)據(jù)正確率的同時,一定程度上也降低了算法的通信開銷,為數(shù)據(jù)匯聚技術(shù)研究提供了參考。