孔貴琴, 李 智
(四川大學(xué) 電子與信息學(xué)院,四川 成都 610041)
基于卡方擬合度的無線傳感器網(wǎng)絡(luò)數(shù)據(jù)復(fù)原匯聚方法
孔貴琴, 李 智
(四川大學(xué) 電子與信息學(xué)院,四川 成都 610041)
在無線傳感器網(wǎng)絡(luò)(WSNs)中,現(xiàn)有的數(shù)據(jù)復(fù)原匯聚算法不能準(zhǔn)確判斷節(jié)點(diǎn)感知數(shù)據(jù)的受攻擊程度,數(shù)據(jù)復(fù)原精度偏低,故提出了一種基于卡方擬合度的分布式數(shù)據(jù)復(fù)原匯聚算法。該算法根據(jù)不同時(shí)刻節(jié)點(diǎn)感知數(shù)據(jù)的時(shí)間相關(guān)性特點(diǎn)來構(gòu)造各節(jié)點(diǎn)信任權(quán)值計(jì)算當(dāng)前時(shí)刻各簇?cái)?shù)據(jù)樣本的估計(jì)值,并利用卡方擬合度來衡量此時(shí)各個(gè)簇的受攻擊程度,最后通過加權(quán)運(yùn)算提高了算法的數(shù)據(jù)復(fù)原精度。另外,由于卡方擬合度能夠準(zhǔn)確感知數(shù)據(jù)的細(xì)微波動(dòng),該方法對(duì)網(wǎng)絡(luò)噪聲干擾的穩(wěn)健性有很大提高。仿真結(jié)果表明:該算法的數(shù)據(jù)復(fù)原匯聚精度大幅度提高,優(yōu)于現(xiàn)有數(shù)據(jù)復(fù)原匯聚算法。
無線傳感器網(wǎng)絡(luò); 數(shù)據(jù)復(fù)原匯聚; 卡方擬合度; 時(shí)間相關(guān)性
在無線傳感器網(wǎng)絡(luò)(WSNs)中,數(shù)據(jù)匯聚是各種應(yīng)用的基礎(chǔ),能有效減少冗余數(shù)據(jù)的傳輸,延長(zhǎng)網(wǎng)絡(luò)壽命。目前數(shù)據(jù)匯聚面臨的一個(gè)難題是節(jié)點(diǎn)感知數(shù)據(jù)容易遭到惡意的篡改。這種攻擊主要分為兩類,一類是節(jié)點(diǎn)感知數(shù)據(jù)在傳輸過程中被修改,此種情況可以通過加密技術(shù)檢測(cè)出來,另一類是節(jié)點(diǎn)感知數(shù)據(jù)在匯聚之前被篡改,這種攻擊無法利用加密技術(shù)檢測(cè)并阻止[1]。因此,數(shù)據(jù)匯聚算法主要用來解決這種問題,在感知數(shù)據(jù)輸入到聚合函數(shù)之前對(duì)其進(jìn)行檢測(cè)。然而在檢測(cè)到攻擊時(shí),傳統(tǒng)的方法會(huì)直接丟棄此次采集的數(shù)據(jù)[2,3],這種處理結(jié)果會(huì)導(dǎo)致大量的資源浪費(fèi),降低網(wǎng)絡(luò)能量利用率。
針對(duì)此問題,Wagner David提出了幾種簡(jiǎn)單的數(shù)據(jù)復(fù)原匯聚方法[4],如截?cái)喾?、剪切法等。在此工作基礎(chǔ)上,數(shù)據(jù)匯聚復(fù)原方法得到很大的改進(jìn)和提高。但是這些方法在實(shí)際中有很大的局限性。Buttyan L等人[1]提出了基于隨機(jī)取樣一致性檢驗(yàn)法(RANSAC-based resilient aggregation,RANBRA),該方法通過隨機(jī)取樣將模型與樣本進(jìn)行一致性檢驗(yàn),不斷地剔除異常節(jié)點(diǎn)數(shù)據(jù),重復(fù)實(shí)驗(yàn)后,將最終剩下的數(shù)據(jù)集合作為聚合函數(shù)的輸入。但是這種方法采用的是集中式數(shù)據(jù)處理方式,節(jié)點(diǎn)能耗較高,而且當(dāng)網(wǎng)絡(luò)中不存在攻擊時(shí)仍然有大量的數(shù)據(jù)被剔除掉,因此,匯聚精度較低。文獻(xiàn)[5]提出一種基于灰色關(guān)聯(lián)度和概率密度距離的數(shù)據(jù)復(fù)原匯聚方法[5](gray relationship degree and probability density parallel distance-based resilient data aggregation,GPDRDA),該方法采用分布式匯聚的模型,用灰色關(guān)聯(lián)度和概率密度距離共同衡量各簇節(jié)點(diǎn)的受攻擊程度,并賦予權(quán)值,然后進(jìn)行加權(quán)聚合運(yùn)算,匯聚精度得到一定提升,但其抗噪聲性能較差?;诖?,文獻(xiàn)[6]提出一種基于相似度的WSNs數(shù)據(jù)復(fù)原匯聚方法[6](similarity-based resilient data aggregation,SIMRDA),該方法的復(fù)原匯聚精度較高,且對(duì)網(wǎng)絡(luò)噪聲干擾的穩(wěn)健性較強(qiáng),但是當(dāng)敵方對(duì)俘獲節(jié)點(diǎn)感知數(shù)據(jù)施加的攻擊量較小時(shí),此方法不能準(zhǔn)確選取未受攻擊或受攻擊較弱的期望模型,致使匯聚復(fù)原精度得不到較大的提高。
本文提出一種基于卡方擬合度的WSNs數(shù)據(jù)復(fù)原算法(Chi-square goodness of fitting based resilient data aggregation,CSFRDA)。
本文中采用分簇方式將網(wǎng)絡(luò)均分成若干個(gè)簇,每個(gè)簇選出自己的簇頭。簇內(nèi)的節(jié)點(diǎn)將數(shù)據(jù)傳給簇頭,然后在簇頭處進(jìn)行匯聚,最后簇頭將匯聚結(jié)果通過無線多跳路由傳遞給基站[7]。
基于實(shí)現(xiàn),本文做如下假設(shè):
2)受攻擊節(jié)點(diǎn)比例k≤0.5:實(shí)際中由于攻擊者能量有限,網(wǎng)絡(luò)中受攻擊的節(jié)點(diǎn)數(shù)量不會(huì)很大,本文中設(shè)最大的比例為0.5。如果攻擊者攻擊的范圍覆蓋了整個(gè)網(wǎng)絡(luò),那么,數(shù)據(jù)復(fù)原匯聚將失去意義。
3)受攻擊節(jié)點(diǎn)集中于網(wǎng)絡(luò)中的某些簇:現(xiàn)實(shí)中,攻擊者往往是在其操作方便的范圍內(nèi)進(jìn)行工作,因而,可合理假設(shè)受攻擊的節(jié)點(diǎn)比較集中。
根據(jù)數(shù)據(jù)復(fù)原匯聚模型,統(tǒng)一假設(shè)變量,n表示網(wǎng)絡(luò)中節(jié)點(diǎn)總數(shù);r表示分簇的數(shù)目;Ci表示第i個(gè)簇;m表示簇Ci所含節(jié)點(diǎn)數(shù);Xij表示簇Ci中第j個(gè)節(jié)點(diǎn)的讀數(shù),假設(shè)網(wǎng)絡(luò)中不存在攻擊,則節(jié)點(diǎn)讀數(shù)Xij服從獨(dú)立同分布,且期望u未知,σ2已知;k表示受攻擊節(jié)點(diǎn)比例。
本文中聚合函數(shù)f(·)為求均值,X為聚合函數(shù)要得到的目標(biāo)變量,為X的估計(jì)量,i為簇Ci的目標(biāo)變量Xi的估計(jì)值。distortion為估計(jì)值與真值之間的絕對(duì)偏差,有
distortion=|-X|.
(1)
2.1 時(shí)間相關(guān)性
Mehmet C Vuran 等人在WSNs領(lǐng)域明確提出了時(shí)間相關(guān)性和空間相關(guān)性的概念[8],WSNs中傳感器節(jié)點(diǎn)由于分布比較密集所采集到的數(shù)據(jù)具有一定的空間相關(guān)性,如果采樣間隔足夠小,相鄰間隔之間的采樣數(shù)據(jù)同時(shí)具有時(shí)間相關(guān)性。
首先利用節(jié)點(diǎn)存儲(chǔ)的前t個(gè)時(shí)刻的歷史數(shù)據(jù)來判斷當(dāng)前時(shí)刻感知數(shù)據(jù)的信任度。當(dāng)攻擊量較大時(shí),采用卡方擬合檢驗(yàn)法[9]選取一個(gè)未遭受攻擊或受攻擊最弱的簇作為期望模型Cz,通過比較Ci與Cz中數(shù)據(jù)的差異來判斷Ci中數(shù)據(jù)的受攻擊程度。
定義1Aij表示當(dāng)前時(shí)刻網(wǎng)絡(luò)受攻擊后Ci中第j個(gè)節(jié)點(diǎn)的讀數(shù),Bij表示Ci中第j個(gè)節(jié)點(diǎn)的前N個(gè)時(shí)刻歷史數(shù)據(jù)均值,則Ci中第j個(gè)節(jié)點(diǎn)的信任度為
(2)
其中
(3)
對(duì)每個(gè)節(jié)點(diǎn)的信任度歸一化
(4)
則第i個(gè)簇的估計(jì)值
(5)
di=|i-z|.
(6)
2.2 卡方擬合度
當(dāng)攻擊量較小時(shí)采用卡方統(tǒng)計(jì)量[10]作為各個(gè)簇在匯聚時(shí)的測(cè)度。
(7)
定義4 第i個(gè)簇中節(jié)點(diǎn)感知數(shù)據(jù)的卡方擬合度為
(8)
2.3 基于卡方擬合度的數(shù)據(jù)復(fù)原算法的基本原理
當(dāng)敵方對(duì)俘獲節(jié)點(diǎn)感知數(shù)據(jù)所施加的攻擊量較大時(shí),受攻擊的簇內(nèi)節(jié)點(diǎn)數(shù)據(jù)與未受攻擊的簇內(nèi)節(jié)點(diǎn)數(shù)據(jù)差異較為明顯,因此,可選取期望簇Cz,利用各個(gè)簇與期望簇之間的重心距離來反映簇中節(jié)點(diǎn)數(shù)據(jù)受攻擊的程度,如式(6)。
此時(shí)簇Ci數(shù)據(jù)復(fù)原匯聚權(quán)值wi,wi為Ci重心距離所對(duì)應(yīng)的權(quán)值。
將wi與另外r-1個(gè)非期望簇的估計(jì)值進(jìn)行如下加權(quán)運(yùn)算
(9)
將由式(9)求得的值與期望模型的估計(jì)值再進(jìn)行一次聚合,得到最終的聚合結(jié)果
(10)
但是當(dāng)攻擊量較小時(shí),網(wǎng)絡(luò)中節(jié)點(diǎn)的感知數(shù)據(jù)波動(dòng)不大 ,此時(shí),利用SIMRDA方法無法準(zhǔn)確選取網(wǎng)絡(luò)中未受攻擊或受攻擊最弱的簇為期望模型,導(dǎo)致匯聚復(fù)原的結(jié)果不準(zhǔn)確(第三部分會(huì)給予證明)。因此,本文中為避免選取期望模型造成的誤差,采用卡方擬合度直接判斷攻擊量較小時(shí)各個(gè)簇受攻擊的程度。
由式(7)可知,卡方值反映了實(shí)際頻數(shù)與理論頻數(shù)的吻合程度,如果假設(shè)樣本服從理論分布成立,則實(shí)際頻數(shù)和理論頻數(shù)之差一般不會(huì)很大;反之,實(shí)際頻數(shù)和理論頻數(shù)之差會(huì)很大。由此可知,χi越小,實(shí)際樣本與理論樣本越接近。
此時(shí)簇Ci數(shù)據(jù)復(fù)原匯聚權(quán)值vi,vi為Ci卡方擬合度對(duì)應(yīng)的權(quán)值。
將各簇的估計(jì)值與對(duì)應(yīng)的權(quán)值進(jìn)行加權(quán)運(yùn)算得到最終的聚合結(jié)果
(11)
式(9)和式(11)中wi和vi可根據(jù)拉格朗日極值法求得[7]
(12)
(13)
將1000個(gè)傳感器節(jié)點(diǎn)隨機(jī)部署在100 m×100 m的區(qū)域內(nèi),并將它們均勻劃分10個(gè)簇,每個(gè)簇包含100個(gè)傳感器節(jié)點(diǎn)。假設(shè)當(dāng)網(wǎng)絡(luò)中不存在攻擊時(shí),節(jié)點(diǎn)感知數(shù)據(jù)服從N(0,σ2),顯著性水平α=0.05。攻擊方式為常量攻擊,聚合函數(shù)f(·)為求均值,傳感器節(jié)點(diǎn)可存儲(chǔ)前100個(gè)時(shí)刻的感知數(shù)據(jù)。針對(duì)不同的k值,每次試驗(yàn)重復(fù)進(jìn)行50次。仿真圖中橫坐標(biāo)表示受攻擊節(jié)點(diǎn)所占比例,縱坐標(biāo)表示真值與聚合結(jié)果之間的絕對(duì)偏差。
3.1 CSFRDA與RANBRA的性能比較
圖1是CSFRDA與RANBRA的性能比較,橫軸表示受攻擊節(jié)點(diǎn)比例k取不同的值,縱軸表示對(duì)每個(gè)k值匯聚算法得到的結(jié)果與真實(shí)值之間的絕對(duì)偏差。此時(shí)σ2=5,d=10,CSFRDA采用重心距離做測(cè)度。從圖中可以看出,CSFRDA的性能要好于RANBRA,這是由于CSFRDA合理利用了所有節(jié)點(diǎn)的感知數(shù)據(jù),而RANBRA通過樣本數(shù)據(jù)與隨機(jī)抽取的期望模型進(jìn)行一致性檢驗(yàn),丟棄了一些異常數(shù)據(jù),造成信息量的損失。另外,CSFRDA中的的分簇方法使得受攻擊節(jié)點(diǎn)集中于某些簇內(nèi),并且受攻擊節(jié)點(diǎn)越集中,匯聚復(fù)原誤差越小。
圖1 CSFRDA與RANBRA的性能比較
3.2 CSFRDA和GPDRDA與SIMRDA的比較
3.2.1 復(fù)原匯聚性能比較
圖2和圖3分別表示當(dāng)攻擊量較小時(shí),SIMRDA和CSFRDA各個(gè)簇在匯聚時(shí)所占的權(quán)重w(攻擊集中在第1~8簇中)。
圖2 SIMRDA中d=0.5時(shí)各個(gè)簇匯聚時(shí)的權(quán)值
圖3 CSFRDA中d=0.5時(shí)各個(gè)簇匯聚時(shí)的權(quán)值
圖2中,SIMRDA方法中選出第10個(gè)簇為期望簇,攻擊集中在第1~8簇中,由圖可以看出:在SIMRDA方法中,當(dāng)節(jié)點(diǎn)受攻擊程度不同時(shí),各個(gè)簇與期望簇的相似度差異無明顯區(qū)別,匯聚權(quán)值均保持在0.1~0.12,該方法無法準(zhǔn)確判斷出各個(gè)簇的受攻擊程度;而圖3中,CSFRDA方法不用選出期望簇,未受攻擊的第9,10兩個(gè)簇和受攻擊的8個(gè)簇之間的權(quán)值相差很大,隨著攻擊節(jié)點(diǎn)比例k越大,這個(gè)特點(diǎn)越明顯。這表明:CSFRDA方法可以明顯判斷出網(wǎng)絡(luò)中各簇的受攻擊程度,并準(zhǔn)確地賦予其匯聚權(quán)值。
圖4和圖5分別表示攻擊增量為0.5和10時(shí)CSFRDA,GPDRDA和SIMRDA的復(fù)原匯聚效果對(duì)比。從這兩幅圖中可以看出:CSFRDA的性能優(yōu)于GPDRDA和SIMRDA。
圖4 d=0.5時(shí)三種方法的性能比較
圖5 d=10時(shí)三種方法的性能比較
由圖4可知,當(dāng)d=0.5時(shí),SIMRDA采用相關(guān)系數(shù)作為匯聚加權(quán)系數(shù),但是從圖2中可以看出:相關(guān)系數(shù)并不能很好地表示各個(gè)簇的權(quán)重;GPDRDA采用灰色關(guān)聯(lián)度做測(cè)度,同樣需要選出期望簇,而當(dāng)節(jié)點(diǎn)數(shù)據(jù)波動(dòng)較小時(shí)選擇期望模型會(huì)產(chǎn)生很大的誤差。圖3表明:CSFRDA利用卡方擬合度可以準(zhǔn)確地表示各個(gè)簇在數(shù)據(jù)匯聚時(shí)所占的權(quán)重。從圖4中可以看出:GPDRDA數(shù)據(jù)復(fù)原誤差區(qū)間為0.1~0.2;SIMRDA保持在0.075~0.15;而CSFRDA數(shù)據(jù)復(fù)原誤差為0.05~0.1,較前兩種方法分別降低了50 %和33.33 %。
由圖5可知,當(dāng)d=10時(shí), GPDRDA和SIMRDA采用均值表示簇的目標(biāo)變量的估計(jì)值,而CSFRDA在匯聚時(shí)用到的各簇目標(biāo)變量的估計(jì)值是利用節(jié)點(diǎn)數(shù)據(jù)時(shí)間相關(guān)性融合簇內(nèi)數(shù)據(jù)得到的,精確度較高,故最終利用各個(gè)簇與期望模型之間的差異來復(fù)原的誤差也較小。從圖5中可以看出,GPDRDA數(shù)據(jù)復(fù)原誤差開始在0.25~0.5波動(dòng),最后保持在0.2~0.25;SIMRDA的誤差為0.15~0.2,最后保持在0.15不變;而CSFRDA的數(shù)據(jù)復(fù)原誤差開始在0.075~0.125波動(dòng),最后保持在0.1不變,較前兩種方法分別降低了63.75 %和38.54 %。
3.2.2 抗噪聲性能比較
圖6 SNR=-5 dB時(shí)三種方法的抗噪聲性能比較
圖7 SNR=0 dB時(shí)三種方法的抗噪聲性能比較
從圖6和圖7中可以看出:當(dāng)信噪比為-5,0dB時(shí),CSFRDA的抗噪聲性能約是SIMRDA的2倍、GPDRDA的3倍(k≤0.3),當(dāng)k>0.3以后隨著k取值增大,CSFRDA的抗噪性能減弱,但仍優(yōu)于GPDRDA和SIMRDA。這是因?yàn)樵诠袅枯^小時(shí),各個(gè)簇的數(shù)據(jù)之間的差異不大,無法正確的選出期望簇,而CSFRDA利用卡方擬合度可以準(zhǔn)確地表示各個(gè)簇在匯聚中所占的權(quán)重,避免了GPDRDA和SIMRDA中由于選期望模型造成的誤差,所以,CSFRDA對(duì)噪聲干擾的穩(wěn)健性更強(qiáng)。
基于現(xiàn)有的復(fù)原匯聚算法精度較低和對(duì)網(wǎng)絡(luò)噪聲干擾的穩(wěn)健性較差等方面的不足,本文提出了一種基于卡方擬合度的WSNs數(shù)據(jù)復(fù)原方法,利用卡方擬合度和重心距離分別表示在攻擊者施加的攻擊量不同時(shí)各個(gè)簇的受攻擊程度,提高了數(shù)據(jù)復(fù)原匯聚的精度,且增強(qiáng)了對(duì)網(wǎng)絡(luò)噪聲干擾的穩(wěn)健性。理論分析和仿真結(jié)果表明:本文中提出的方法整體性能優(yōu)于現(xiàn)有的復(fù)原匯聚方法。
[1]ButtyanL,SchafferP,VajdaI.RANBAR:RANSAC-basedresi-lientaggregationinsensornetworks[C]∥ProceedingsofthefourthACMWorkshoponSecurityofAdHocandSensorNetworks:ACM,2006:83-90.
[2]RenShuqin,ParkJS.Densityminingbasedresilientdataaggregationforwirelesssensornetworks[C]∥FourthInternationalConferenceon2008NetworkedComputingandAdvancedInformationManagement,NCM’08,IEEE,2008,1:261-266.
[3] Buttyan L,Schaffer P,Vajjda I.Resilient aggregation with attack detection in sensor networks[C]∥2006 Fourth Annual IEEE International Conference on Pervasive Computing and Communications Workshops 2006,PerCom Workshops, IEEE,2006:336.
[4] Wagfer D.Resilient aggregation in sensor networks[C]∥Proc of the 2nd ACM Workshop on Security of Ad Hoc and Sensor Networks:ACM,2004:78-87.
[5] 羅永健,丁小勇,羅相根,等.一種有效的無線傳感器網(wǎng)絡(luò)數(shù)據(jù)復(fù)原匯聚方法[J].數(shù)據(jù)采集與處理,2011(1):90-94.
[6] 羅永健,史德陽(yáng),侯銀濤,等.基于相似度的無線傳感器網(wǎng)絡(luò)數(shù)據(jù)復(fù)原匯聚方法[J].計(jì)算機(jī)應(yīng)用研究,2012(9):3405-3407.
[7] 楊 軍,張德運(yùn),張?jiān)埔?等.基于分簇的無線傳感器網(wǎng)絡(luò)數(shù)據(jù)匯聚傳送協(xié)議[J].軟件學(xué)報(bào),2010(5):1127-1137.
[8] Vuran M C,Akan ? B,AkyildizI F.Spatio-temporal correlation:Theory and applications for wireless sensor networks[J].Compu-ter Networks,2004,45(3):245-259.
[9] 楊 鑫.無線傳感器網(wǎng)絡(luò)中的數(shù)據(jù)復(fù)原匯聚方法 [D].西安:西安通信學(xué)院,2008.
[10] 亓民勇,董金新.基于卡方擬合優(yōu)度檢驗(yàn)的序列等概性測(cè)試組[J].計(jì)算機(jī)工程與設(shè)計(jì),2012(5):1757-1760.
Resilient data aggregation method for WSNs based on
Chi-square goodness of fitting KONG Gui-qin, LI Zhi
(College of Electronics and Information Engineering,Sichuan University,Chengdu 610041,China)
The existing resilient data aggregation algorithm doesn’t accurately judge under-attack level of each node in wireless sensor networks(WSNs),resulting in a low precision,propose a distributed resilient data aggregation algorithm based on Chi-square goodness of fitting.The algorithm firstly construct weights of trust of each node,calculates current estimation value of data sample of each cluster by exploiting time correlation of a sensor node at different time,to evaluate attack level using Chi-square goodness of fitting.Finally,through weighted arithmetic,increase precision of data recovery.In addition,Chi-square goodness of fitting can sense to slight data fluctuations,accurately thus the presented algorithm can better improve robust of network noise.Simulation result shows that data aggregation precision of the presented algorithm is greatly improved,which is better than existing data resilient aggregation algorithm.
wireless sensor networks(WSNs); data resilient aggregation; Chi-square goodness of fitting; time correlation
2014—08—01
10.13873/J.1000—9787(2015)04—0130—04
TP 274
A
1000—9787(2015)04—0130—04
孔貴琴(1988-),女,湖北黃岡人,碩士研究生,主要研究方向?yàn)闊o線傳感器網(wǎng)絡(luò)技術(shù)。