陳園園,袁煥麗
(周口師范學院 物理與電信工程學院,河南 周口 466001)
?
WSN中基于線性回歸和最大似然的缺失值估計模型
陳園園,袁煥麗
(周口師范學院 物理與電信工程學院,河南 周口 466001)
為了解決無線傳感器網(wǎng)絡中感知數(shù)據(jù)缺失問題,筆者結合基于時間相關性的多元線性回歸模型和最大似然估計模型的兩種參數(shù)估計算法,提出了一種新的缺失值估計算法.該算法不僅可以準確地估算出某時刻缺失對象的信息,而且在時間序列不滿足線性模型的情況下仍可以對缺失值進行估計,實驗表明該算法有很好的可靠性和穩(wěn)定性.
無線傳感器網(wǎng)絡;缺失值估計;線性回歸模型;EM算法
無線傳感器網(wǎng)絡(WSN)早已被列為十大改變未來世界的新興技術之首[1].但由于無線傳感器網(wǎng)絡中節(jié)點的通信能力有限,同時又受到高山、河流等地勢的影響[2],部分節(jié)點可能監(jiān)測不到信息或脫離網(wǎng)絡,導致這些節(jié)點的感知數(shù)據(jù)信息無法正常傳送給匯聚節(jié)點,客戶終端也無法得到應有的信息.傳感器節(jié)點的能量有限,當傳感器節(jié)點不穩(wěn)定的時候也會采集到異常的數(shù)據(jù)信息,這些信息無法正?;仞伣o客戶端.當節(jié)點能量耗盡時,也會丟失監(jiān)測數(shù)據(jù).另外,傳感器節(jié)點的存儲能力有限,當感知數(shù)據(jù)量超過緩沖存儲器的容量閥值時,同樣會造成數(shù)據(jù)丟失.WSN節(jié)點的體積小、構造簡單、易損壞,采集的感知數(shù)據(jù)受到周圍環(huán)境影響時容易缺損.所以,難免在WSN中出現(xiàn)感知數(shù)據(jù)缺損的現(xiàn)象.
在采集的過程中,感知數(shù)據(jù)的缺損嚴重影響了信息的可用性和利用率,不僅降低了工作效果,而且很可能帶來嚴重的后果.若不對這些缺損的數(shù)據(jù)集進行有效的處理,研究工作和應用將無法正常進行,若僅對部分缺損數(shù)據(jù)單元作刪除處理,將丟失大量的原始監(jiān)測數(shù)據(jù)信息,更會造成網(wǎng)絡資源的浪費.因此解決無線網(wǎng)絡中數(shù)據(jù)缺損是許多研究者面臨的難題.綜上所述,WSN中對缺損數(shù)據(jù)處理的研究有著重要現(xiàn)實意義和應用前景.
WSN中的感知數(shù)據(jù)是連續(xù)變量,對連續(xù)變量的缺失機制的處理方法有EM法、回歸法、成組刪除法、均值法、MI填充法[3].對于二分類變量有成組刪除法和MI/Logistic回歸法對缺失值進行處理.Gruenwald L[4]利用數(shù)據(jù)挖掘技術提出了一種WARM算法,該算法用相關聯(lián)的節(jié)點數(shù)據(jù)來估計缺失的數(shù)據(jù),主要是針對離散數(shù)據(jù)進行的處理,而不是連續(xù)變化的感知數(shù)據(jù).Li等[5]為了實現(xiàn)最少數(shù)據(jù)以建立數(shù)據(jù)估計模型的目的,犧牲了對缺失值估計的精度.潘立強等[6-7]采用多元回歸模型,提出了一種基于時空相關性的缺失值估計算法.何麗娟等[8]基于Hermite和DESM模型提出了一種基于時空相關性的HD算法,該算法能夠自適應的調(diào)整估計方程中的權值參數(shù).焉曉貞等[9]提出了基于多變量主元素分析(multiple variable principal Component analysis, MVPCA ) 的不確定性傳感數(shù)據(jù)預測方法,該方法通過MVPCA的特征提取這一預處理手段獲得不確定性傳感數(shù)據(jù)的本質(zhì)特征,然后采用基于相關分析的多元回歸方法對這些數(shù)據(jù)進行建模和預測.目前雖然有許多缺失值估計算法,但在WSN中應用的較少.因此筆者設計了一種新的估計算法,該算法使EM算法和多元線性回歸法相結合,可以在缺失率符合WSN數(shù)據(jù)特點的情況下實現(xiàn)很好的估計效果.
1.1最大似然估計模型
EM算法是一種改進的求參數(shù)的極大似然估計的方法,該算法在概率模型中尋找參數(shù)最大似然估計,可以廣泛應用于各種環(huán)境下的不完全數(shù)據(jù).
EM算法的基本思想是:首先對隱藏變量賦初值,計算其最大似然估計值(E步);再最大化在 E 步上求得的最大似然值,計算參數(shù)的值(M步).在M 步中得到的參數(shù)估計值被用于下一個 E 步計算中,這兩個過程循環(huán)交替進行,直到最后一個參數(shù)估計值和上一個參數(shù)估計值相等,停止迭代[10].E步先估計出期望值,M步是在插補的基礎上重新估計,改進系數(shù)的最大似然估計.混合模型的估計結果比線性模型下的估計結果更接近真實值,且在缺失率小于30%時,估計結果最理想.
1.2多元線性回歸模型的建立
在一個監(jiān)測區(qū)域內(nèi)每個節(jié)點上的大量監(jiān)測數(shù)據(jù)都有時間上的相關性,若某一時刻的感知數(shù)據(jù)缺失,可以基于多元線性回歸模型[11]利用相鄰時刻的感知數(shù)據(jù)來估計缺失值.
假設某一節(jié)點在ti時刻的感知數(shù)據(jù)缺失,且在這一時刻有m個相鄰時刻的感知數(shù)據(jù)是已知的,這些時刻分別記作t1,t2,…,tm.采用多元線性回歸模型刻畫節(jié)點在ti時刻的感知數(shù)據(jù)缺失值,公式如下:
yti=β0+β1yt1+β2yt2+…+βmytm+μi
(1)
定義:隨機誤差項μi服從均值為0,方差為σ2的高斯分布,即μi~N(0,σ2)βj.
(2)
模型設計
由于WSN節(jié)點的監(jiān)測通常是連續(xù)的,即有時間上的相關性,本文采用基于極大似然估計的EM參數(shù)估計算法和多元線性回歸模型,設計了一種新的TEM算法對缺失值進行估計.該算法首先對數(shù)據(jù)集進行多元回歸建模,用EM算法對系數(shù)矩陣進行最大似然估計,然后把估計值作為觀測值再進行期望最大化,最后直到收斂結束迭代,把系數(shù)矩陣代入多元回歸模型中,最終求得缺失值.該算法在缺失率符合WSN數(shù)據(jù)特點的情況下有很好的估計效果.
當采集的感知數(shù)據(jù)缺失或壞損時,基于時間相關性,可以利用多元線性回歸模型對其進行估計.主要步驟是對相關系數(shù)的估計,利用回歸模型求得最終估計值.一般的相關系數(shù)估計算法采用普通的最小二乘法,這種方法容易發(fā)生偏離,而且實際數(shù)據(jù)的隨機性大,并不一定每個數(shù)據(jù)都滿足線性關系,采集的數(shù)據(jù)也可能存在噪聲,使得估計效果不準確.為此采用EM參數(shù)估計算法,利用該算法基于最大似然估計模型對相關系數(shù)進行估計,EM算法主要用于求后驗分布的眾數(shù),其主要思想是:首先假定參數(shù)值來估計缺失值,然后用這些估計值來更新參數(shù)值,反復迭代直到參數(shù)值不再發(fā)生變化.
問題定義:
假定要預測(xn+1,xn+2,…,xn+m)下的(yn+1,yn+2,…,yn+m)的值.
令Y=(Yobs,Ymis).其中Yobs是已知的感知數(shù)據(jù)部分(y1,y2,…,yn), Ymis是缺失數(shù)據(jù)即待估計的數(shù)據(jù)部分(yn+1,…,yn+k),與之對應的X=(Xobs,Xmis)=(x1,x2,…,xn+k).
感知數(shù)據(jù)集Y的分布可以表示為Y=Xβ+ε,ε~Nn(0,σ2In),所以Y~Nn(Xβ,σ2In).
可得:
f(Y|β)=
(3)
對數(shù)似然函數(shù)為:
(4)
在上式中僅最后一項含有β,所以似然函數(shù)可以簡化為:
(5)
EM算法模型的迭代:
E步:對關于Z的條件分布求期望.
(6)
M步:將Q(β|β(i),Yobs)極大化,即找到一個β(i+1)使得
(7)
對上式求導,得
(8)
3.1實驗環(huán)境及數(shù)據(jù)
本文針對缺失值估計模型算法進行仿真,開發(fā)工具為C++,采用Inter酷睿i5雙核處理器,CPU 2.0 GHz,2.0 GB DDR3內(nèi)存.實驗數(shù)據(jù)采用兩個數(shù)據(jù)集,分別是英特爾伯克利實驗室采集的各屬性監(jiān)測值和韓伯電子開發(fā)的ZigbeX無線傳感器采集的真實數(shù)據(jù)集.
圖1所示為模型的運行結果圖,分別顯示了數(shù)據(jù)源部分和參數(shù)顯示區(qū),數(shù)據(jù)源可以包括像溫度、噪聲和頻率等屬性的數(shù)據(jù),參數(shù)顯示區(qū)則顯示了在模型迭代過程中每一步計算出的均值和方差,最終由EM模型估計出缺失數(shù)據(jù).
圖1 運行結果圖
3.2TEM算法仿真結果與分析
為了測試本文中設計的缺失值估計模型的準確性,在完備數(shù)據(jù)集中,先剔除部分觀測值,用算法對感知數(shù)據(jù)集中的完備數(shù)據(jù)進行估計,并用估計出來的值與原真實值進行對比.
圖2和圖3中給出了溫度傳感器在一段時間內(nèi)的室內(nèi)溫度實際監(jiān)測值,同時分別給出了多元線性回歸模型的估計結果和TEM模型的估計結果.可以看出多元線性回歸的估計值與實際值有很多偏差,而本文中的TEM算法偏差不大,臨近的取值也非常接近實際值.
圖2 多元線性回歸模型室內(nèi)溫度數(shù)據(jù)估計結果分析圖
圖3 TEM算法室內(nèi)溫度數(shù)據(jù)估計結果分析圖
圖4和圖5中給出了溫度傳感器在一段時間內(nèi)的室外溫度實際監(jiān)測值,同時分別給出了多元線性回歸模型的估計結果和TEM模型的估計結果.可以看出多元線性回歸的估計值與實際值有較大偏差,而本文中的TEM算法的偏差很小,取得了很好的估計效果.
圖4 多元線性回歸模型室外溫度數(shù)據(jù)估計結果分析圖
圖5 TEM算法室外溫度數(shù)據(jù)估計結果分析圖
針對WSN中數(shù)據(jù)缺失的問題,本文介紹了一種基于最大似然估計的EM算法和基于時間相關性的多元回歸模型,結合兩種模型提出了一種新的WSN中缺失值估計算法.與原來的多元回歸模型進行比較,TEM算法有很好的估計效果.
[1] 司海飛,楊忠,王珺.無線傳感器網(wǎng)絡研究現(xiàn)狀與應用[J]. 機電工程, 2011,28(1):16-20,37.
[2] 蘇葉健. 無線傳感網(wǎng)技術綜述[J]. 信息通信, 2012(6): 275.
[3] 花琳琳. 不同缺失值處理技術的模擬比較[D]. 鄭州: 鄭州大學, 2012.
[4] Halatchev M, Gruenwald L.Estimating missing values in related sensor data streams[A]. Proceedings of the 11thInternational Conference on Management of Data. Hyderabad, 2005:83-94.
[5] Li Ying-shu, Ai Chun-yu, Deshmukh W P, et al.Data estimation in sensor networks using physical and statistical methodologies[A]. Proceedings of the 28thIEEE International Conference on Distributed Computing Systems. Beijing, 2008:538-545.
[6] 潘立強, 李建中, 駱吉洲.傳感器網(wǎng)絡中一種基于時空相關性的缺失值估計算法[J]. 計算機學報, 2010, 33(1): 1-11.
[7] 潘立強, 李建中.傳感器網(wǎng)絡中一種基于多元線性回歸模型的缺失值估計算法[J]. 計算機研究與發(fā)展, 2009, 46(12): 2101-2110.
[8] 何麗娟, 周鳴爭, 陶皖, 等. WSN中不確定數(shù)據(jù)的估計算法[J]. 計算機工程與應用, 2011, 47(28): 100-102.
[9]焉曉貞, 謝紅, 王桐.WSN的不確定傳感數(shù)據(jù)預測[J]. 應用科學學報, 2012, 30(6): 567-572.
[10] Ephraim Y, William J. An EM algorithm for markov modulated markov processes[J]. IEEE Transactions on Signal Processing, 2009, 57(2): 463-470.
[11] 李慶陽, 王能超, 易大義. 數(shù)值分析[M]. 北京: 清華大學出版社, 2008: 25-28.
A missing value estimation model based on linear regression and maximum likelihood for WSN
CHEN Yuanyuan , YUAN Huanli
(School of Physics and Telecomunication Engineering,Zhoukou Normal University, Zhoukou 466001,China)
In order to solve the wireless sensor networks perceived problem of missing data, the author parameter estimation algorithm based on two temporal correlation of multiple linear regression model and maximum likelihood estimation model, we propose a new estimation of missing values. The algorithm not only can accurately estimate the time of a lack of information about the object, and in the case of time series does not satisfy the linear model is still able to estimate missing values, experiments show that the algorithm has good reliability and stability.
wireless sensor network; missing value estimation; linear regression model; EM algorithm
2016-03-17;
2016-04-20
河南省高等學校重點科研項目(No.16B510009);河南省科技廳科技攻關項目(No.162102310607);河南省教育廳項目(No.2016-JSJYYB-096)
陳園園(1986-),女,河南周口人,碩士,主要研究方向:通信和信息處理.
TP393
A
1671-9476(2016)05-0071-04
10.13450/j.cnki.jzknu.2016.05.018