段青玲 肖曉琰 劉怡然 張 璐
(1.中國農業(yè)大學信息與電氣工程學院, 北京 100083; 2.北京市農業(yè)物聯網工程技術研究中心, 北京 100097)
基于SW-SVR的畜禽養(yǎng)殖物聯網異常數據實時檢測方法
段青玲1,2肖曉琰1劉怡然1張 璐1
(1.中國農業(yè)大學信息與電氣工程學院, 北京 100083; 2.北京市農業(yè)物聯網工程技術研究中心, 北京 100097)
畜禽養(yǎng)殖物聯網由于工作環(huán)境惡劣、網絡傳輸故障等因素容易產生異常感知數據,為保證數據質量,根據畜禽養(yǎng)殖物聯網數據流周期性、時序性等特點,提出了一種基于滑動窗口與支持向量回歸(Sliding window and support vector machines for regression,SW-SVR)的異常數據實時檢測方法。首先根據畜禽物聯網數據流特征周期以及采樣頻率確定滑動窗口尺寸;然后通過SVR模型預測畜禽養(yǎng)殖物聯網數據流中某一時刻傳感器測量值;最后計算預測區(qū)間,根據實際測量值是否落入該區(qū)間判斷是否異常并對異常數據進行置換處理。采用畜禽養(yǎng)殖物聯網環(huán)境數據進行試驗,結果表明:所提滑動窗口計算方法得到的窗口尺寸預測的MAPE為0.188 4,畜禽養(yǎng)殖物聯網異常數據檢測率達98%,能夠有效檢測和處理畜禽養(yǎng)殖物聯網數據流中的異常數據。
異常數據檢測; 畜禽養(yǎng)殖物聯網; 滑動窗口; 支持向量回歸
當前物聯網已經成為畜禽養(yǎng)殖生產獲取數據的重要手段之一。在畜禽養(yǎng)殖物聯網中,傳感器按照時間序列連續(xù)不斷地采集溫濕度、光照、有害氣體濃度等畜禽生長環(huán)境數據,并以數據流的形式傳輸至數據處理系統,具有顯著周期性、實時性、無窮性等特征[1-3]。畜禽物聯網的工作環(huán)境通常較惡劣,由于傳感器設備的暫時性故障、數據傳輸錯誤等原因產生異常數據[4-6],使得數據質量急劇下降,無法保證設備的自動控制和數據的有效分析。
異常值的概念由Edgeworth首次定義,是指“顯然嚴重偏離樣本集合中其他觀測值的觀測值”[7]。異常數據檢測是指從數據集中找出明顯區(qū)別于其他數據的數據[8]。根據異常檢測的數據來源,異常數據檢測技術可分為離線檢測和在線檢測。離線異常數據檢測主要采用最近鄰、聚類、神經網絡分類器、支持向量機分類器等機器學習[9-13]和統計方法[14-16]對靜態(tài)樣本數據進行異常檢測,離線異常數據檢測的對象是收集的靜態(tài)數據,不適用于畜禽物聯網中實時數據流異常檢測。在線異常數據實時檢測主要基于預測對實時數據流進行異常檢測,何歡[17]采用遞歸神經網絡檢測概念漂移方法進行異常數據檢測,著重于檢測數據中的隱藏狀態(tài)變化;HILL等[18]利用BP神經網絡模型計算預測值及置信區(qū)間,與實際測量值比較進行異常分類。苑進等[19]通過自回歸高斯模型計算大棚內溫濕度預測誤差帶進行異常分類,但高斯過程回歸模型受初值和協方差函數影響較大。SVR算法以其訓練樣本小、泛化能力強的特點在數據預測領域廣受關注[20],并成功應用在時間序列預測研究中[21-24],目前在異常檢測領域也有所研究[25-29],但應用較少?;陬A測的異常數據實時檢測方法,一般選取固定滑動窗口確定預測模型的輸入項,是預測準確性和運行效率的重要影響因子,而滑動窗口尺寸選擇因素復雜,物聯網中數據采集頻率、特征周期各不相同,如畜禽物聯網中氨氣、溫度采集時間間隔分別為3 min和5 min,目前的研究中多是人為確定滑動窗口尺寸,預測結果具有隨機性。本文提出基于SW-SVR的畜禽養(yǎng)殖物聯網異常數據實時檢測方法,選擇窗口尺寸并根據滑動窗口內歷史數據預測傳感器測量值,計算預測區(qū)間,并與實際值對比進行異常數據分類與替換處理,以期滿足畜禽養(yǎng)殖物聯網數據流異常檢測對準確度和運算效率的要求。
根據畜禽物聯網中數據流周期性、實時性、無窮性的特點構建基于SW-SVR的畜禽養(yǎng)殖物聯網異常數據檢測方法,以有效保證數據的實時性和準確率,為設備的自動控制和有效的數據分析提供數據支持。
1.1 總體流程
圖1 基于SW-SVR模型的異常數據檢測方法Fig.1 Anomaly data detection method based on SW-SVR
畜禽養(yǎng)殖物聯網異常數據實時檢測處理流程包括以下步驟:
(1)基于采樣頻率和數據周期確定滑動窗口q。
(2)根據滑動窗口尺寸q,選擇窗口內歷史數據(即t時刻其所在時間序列之前q個測量值)組成滑動窗口數據集。
(3)采用SVR算法進行預測,即計算數據流中t時刻的預測值。
(4)計算t時刻預測區(qū)間PI,與實際測量值對比判斷是否異常,并對異常數據進行置換處理,剔除異常數據。
(5)更新滑動窗口,重復步驟(2)~(4)。
1.2 滑動窗口構建
畜禽養(yǎng)殖物聯網數據流與靜態(tài)數據不同,具有實時性、無窮性等特點,不可能用所有的數據集作為數據源,因此需要創(chuàng)建滑動窗口,以窗口內的歷史數據作為預測模型的輸入值。假設窗口尺寸為q,則保存最近一段時間的q個數據,也稱之為滑動窗口數據集。
滑動窗口尺寸的選擇會影響預測模型的準確性與時間效率,窗口尺寸越大,說明基于越多的歷史數據來預測當前值,準確度越高,但同時耗費時間越長;因此選擇滑動窗口需要均衡以上2個因素,選擇合適的窗口尺寸。
根據畜禽物聯網數據流中采集數據的特征周期以及數據采集的時間間隔,提出了滑動窗口尺寸q的計算方法,公式為
q=ceil(Q)
(1)
其中
式中T——畜禽養(yǎng)殖物聯網數據流規(guī)律分布的特征周期
Δt——畜禽物聯網傳感器采集數據時間間隔
ceil(Q)——上取整數函數,取不小于Q的最小整數
特征周期指對畜禽養(yǎng)殖物聯網數據流進行分布規(guī)律分析得到的周期,如環(huán)境檢測數據特征周期為1 d;滑動窗口尺寸對預測準確性影響較大,與運行效率成反比;基于一個特征周期的樣本預測效果最好,但樣本量過大,耗時嚴重;窗口最小取1時,運行時間最短,但準確率較低。式(1)中一個特征周期的樣本數量T/Δt同時控制滑動窗口選擇函數上升幅度和衰減速度,滿足預測準確度和運行效率需求。
1.3 基于SVR的單步預測
采用SVR算法對畜禽養(yǎng)殖物聯網數據流中的測量值進行預測[30-31]?;赟VR的單步預測模型取t時刻之前長度為q滑動窗口內歷史數據作為輸入數據源,利用SVR模型對t時刻物聯網傳感器的測量值進行預估計算,輸出第t個序列值。因此,SVR模型輸入結點的個數為q,輸出結點個數為1。公式為
(2)
式中M(Dt)——SVR模型R——經驗風險,可以用不同損失函數來描述,本試驗中采用e不敏感函數
SVR模型中的主要參數包括復雜度參數C、學習算法以及核函數[19],設置復雜度參數C為1.0;核函數用于將原始數據映射到高維空間中進行非線性回歸,一定程度上受數據集的影響,其中應用最廣的為徑向基核函數[30],本文選取徑向基函數和多項式函數作為回歸預測的核函數進行對比。
1.4 異常數據識別與處理
在對滑動窗口內的歷史數據進行單步預測后,需要利用模型殘差確定概率為p(也稱置信水平)的預測區(qū)間(Prediction interval,PI)。假定新近的測量值落入預測區(qū)間的概率為p=100(1-α),且模型殘差符合均值為零的高斯分布,則預測區(qū)間表示為
(3)
式中Pt——t時刻的預測區(qū)間tα/2,n-1——p百分位數自由度為n-1的符合學生t分布概率分布函數
S——n個樣本的標準偏差
采用該預測區(qū)間的優(yōu)勢在于區(qū)間寬度受經驗模型誤差影響,不受人為干預,保證了預測模型的客觀性。
計算得到預測區(qū)間后,將t時刻畜禽物聯網的實際測量值與預測區(qū)間進行比較,若t時刻的實際測量值落入對應的預測區(qū)間內,判定該實際測量值正常,否則判斷該時刻實際測量值為異常數據。
針對判斷為異常數據的實際測量值,需要將該測量值標識為異常數據,并且用SVR模型回歸計算的預測值代替被識別為異常數據的實際測量值,作為計算下一時刻預測值的輸入數據,更新滑動窗口。
式中Dt——預測t時刻測量值的數據源Dt+1——更新滑動窗口后預測t+1時刻測量值的數據源
基于滑動窗口的SVR算法以歷史數據建立模型計算得到預測值,直接替代異常數據在算法實現方面更為簡練,并且作為下一時刻預測模型的輸入值預測準確度更高。
試驗采用科爾諾公司的MOT300-NH3型氨氣檢測儀根據電化學原理采集氨氣數據,并且配合信號發(fā)射器和接收器進行遠距離無線傳輸。以2016年4月8日00時00分至11日23時53分在天津惠康種豬養(yǎng)殖場采集的氨氣數據作為樣本集,氨氣傳感器節(jié)點每隔3 min采集一次數據,持續(xù)96 h,共采集到1 920個數據,其中包括噪聲數據60個。
在確定滑動窗口尺寸和單步預測畜禽物聯網傳感器測量值階段,采用模型評估參數平均絕對誤差(MAE)、均方誤差(MSE)、平均絕對百分比誤差(MAPE)對基于徑向基核函數的SVR模型(SVR-RBF)、基于多項式核函數的SVR模型(SVR-Poly)以及BP神經網絡(BP neural network,BPNN)模型的預測效果進行分析,公式為
(4)
(5)
(6)
在畜禽物聯網異常數據分類處理階段,通過計算評估參數檢測率(True positive rate,TPR)、誤檢率(Flase positive rate,FPR)對SVR模型以及BP神經網絡模型在不同置信水平下的異常數據檢測效果評估,公式為
(7)
(8)
式中Tpr——檢測率,%Fpr——誤檢率,%Tp——判斷為異常實際上是異常值的個數Fp——判斷為異常實際是正常值的個數Fn——判斷為正常實際上是異常值的個數Tn——判斷為正常實際上也是正常值的個數
2.1 滑動窗口選擇
對連續(xù)一個月的氨氣數據進行分析,氨氣濃度具有明顯周期性分布規(guī)律,且以天為周期,則單步預測時取特征周期T為1 440 min;β一般取值為0.5、1、2[2],本試驗中取0.5;樣本采集時間間隔為3 min。
根據試驗采集數據的特征周期、采集間隔等參數,按照式(1)計算得到窗口尺寸為24?;瑒哟翱诘某叽缛≈狄话阍?0~30之間[18],本文分別采用滑動窗口尺寸為10、15、20、25、30、35、40進行試驗;采用基于徑向基核函數的SVR模型分別在不同的窗口尺寸下對畜禽養(yǎng)殖物聯網中氨氣樣本數據預測,模型評估結果如圖2所示。
圖2 不同窗口尺寸模型評估結果Fig.2 Model evaluation results in different window sizes
由圖2中不同窗口尺寸下SVR模型預測效果來看,隨著窗口尺寸增大,MAE、MSE、MAPE逐漸減小;平均運行時間呈遞增趨勢;MAE、MSE、MAPE分別低于0.4、0.35、0.2時,窗口尺寸q為25時,平均運行時間最低,為2.5 ms,為最佳窗口尺寸,與根據滑動窗口算法計算得到的窗口尺寸為24時的誤差以及運行時間相差甚微,可視為結果基本一致,本文提出的滑動窗口選擇算法能夠滿足畜禽養(yǎng)殖物聯網單步預測的準確性與時間效率要求。
2.2 基于SVR的單步預測結果分析
SVR模型中滯后步長由滑動窗口尺寸確定,核函數分別選取徑向基核函數和多項式核函數;BP神經網絡預測模型[17]中學習率為0.01,動量因子為0.1,隱藏層個數為1,每個隱藏層節(jié)點數設為50。
試驗中分別采用基于徑向基核函數的SVR模型、基于多項式核函數的SVR模型、BP神經網絡模型對畜禽物聯網中氨氣樣本數據進行預測,采用MAE、MSE、MAPE、平均運行時間參數對3種預測模型進行效果評估,結果如表1所示。
表1 不同預測模型評估結果Tab.1 Model evaluation results with different prediction models
表1中針對種豬場氨氣濃度單步預測評估結果可以看出,SVR模型中多項式核函數的MAE、MSE、MAPE都比較高,平均用時過長,明顯不適用于試驗樣本數據集的預測;與BP神經網絡模型相比較,基于徑向基核函數的SVR模型的MAE、MSE、MAPE相對較低,耗時較少,預測效果更好。
SVR模型中多項式核函數平均運行時間明顯較長,預測均方誤差較高,在后續(xù)試驗中主要分析SVR-RBF模型和BP神經網絡模型對畜禽物聯網中氨氣樣本數據的預測效果以及擬合度,其部分結果如圖3所示。
圖3中針對種豬場內氨氣的單步預測結果中,基于BP神經網絡模型的預測結果波動較大,明顯受異常數據影響,容易出現過擬合效果;基于徑向基核函數的SVR算法的單步預測結果相對平穩(wěn),受異常數據的影響較小,單步預測效果更好。
2.3 異常檢測結果分析
采用基于徑向基核函數的SVR模型和BP神經網絡模型對畜禽物聯網中的氨氣數據進行預測,并設置置信水平,計算其置信區(qū)間,置信水平p為95%和99%時2種模型的部分預測結果如圖4所示。
圖3 2種預測模型單步預測氨氣結果Fig.3 One-step-ahead prediction results for NH3 based on SVR-RBF model and BP neural network model
圖4 置信水平分別為95%、99%時2種模型預測氨氣結果Fig.4 Predicted results for NH3 based on SVR-RBF model and BP neural network model in different confidence levels of 95% and 99%
分別采用基于徑向基核函數的SVR模型和BP神經網絡模型對種豬場內氨氣樣本數據進行異常檢測,采用TPR、FPR參數對2種預測模型進行效果評估,結果如表2所示。
表2 不同預測區(qū)間下檢測率和誤檢率Tab.2 TPR and FPR with different PIs %
由圖4中針對畜禽養(yǎng)殖中氨氣數據預測結果以及表2中異常數據檢測效果可以看出,置信水平由95%增長到99%,檢測率和誤檢率都有所下降,為防止出現過擬合現象,取置信水平為95%較為合理;基于SVR模型的數據檢測率達98.33%,同時誤檢率低于BP神經網絡,檢測效果較好。
依據滑動窗口計算方法,采用置信水平為95%,核函數為徑向基核函數的SVR模型對溫度、粉塵、硫化氫等其他畜禽養(yǎng)殖環(huán)境因子進行異常檢測試驗,其中溫度、粉塵采集間隔為5 min,硫化氫采集間隔為3 min,窗口尺寸分別選取15、15、24,異常檢測率和誤檢率均在98%和3%左右,能夠滿足畜禽養(yǎng)殖物聯網數據準確度的要求。
綜上所述,基于SW-SVR模型的異常數據檢測方法針對畜禽養(yǎng)殖物聯網中不同環(huán)境因子的數據特征周期和采集頻率不同的情況,獲取最為適合的窗口尺寸,并且訓練所需樣本較少,預測擬合效果較好,適用于畜禽養(yǎng)殖物聯網數據流中的實時異常數據檢測。
(1)提出了一種基于SW-SVR的異常數據檢測方法,利用滑動窗口內的歷史數據預測當前時刻數據,并計算預測區(qū)間,與實際測量值進行比對從而檢測異常數據,實現在線檢測畜禽養(yǎng)殖物聯網數據流中的異常數據,有效地保證了物聯網傳感器中的數據質量;通過對SVR算法中兩種核函數進行比較,確定最為適合的核函數,達到較理想的預測效果;通過與BP神經網絡算法比較,預測效果較好,達98.33%,且耗時較短。
(2)提出了滑動窗口選擇方法,依據畜禽物聯網采集數據的特征周期以及采集數據頻率,計算滑動窗口尺寸,符合預測準確性以及時間效率的要求。
1 熊本海,楊振剛,楊亮,等.中國畜牧業(yè)物聯網技術應用研究進展[J].農業(yè)工程學報,2015,31(增刊1):237-246. XIONG Benhai, YANG Zhengang, YANG Liang, et al. Review on application of Internet of Things technology in animal husbandry in China [J]. Transactions of the CSAE,2015,31(Supp.1): 237-246. (in Chinese)
2 熊迎軍,沈明霞,陸明洲,等.溫室無線傳感器網絡系統實時數據融合算法[J].農業(yè)工程學報,2012,28(23):160-166. XIONG Yingjun, SHEN Mingxia, LU Mingzhou, et al. Algorithm of real time data fusion for greenhouse WSN system[J]. Transactions of the CSAE, 2012, 28(23): 160-166. (in Chinese)
3 魏芳芳,段青玲,肖曉琰,等.基于支持向量機的中文農業(yè)文本分類技術研究[J/OL].農業(yè)機械學報,2015,46(增刊):174-179.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=2015S029&journal_id=jcsam.DOI:10.6041/j.issn.1000-1298.2015.S0.029. WEI Fangfang, DUAN Qingling, XIAO Xiaoyan, et al. Classification technique of chinese agricultural text information based on SVM[J/OL].Transactions of the Chinese Society for Agricultural Machinery,2015,46(Supp.):174-179. (in Chinese)
4 CHEN N, DUAN Q, WANG J, et al. Development of early-warning model for intensive pig breeding[M].Computer and Computing Technologies in Agriculture VIII, Berlin: Springer International Publishing, 2014.
5 BRANCH J W, GIANNELLA C, SZYMANSKI B, et al. In-network outlier detection in wireless sensor networks[J]. Knowledge and Information Systems, 2013, 34(1): 23-55.
6 ZHANG Y, MERATNIA N, HAVINGA P J M. Distributed online outlier detection in wireless sensor networks using ellipsoidal support vector machine[J]. Ad Hoc Networks, 2013, 11(3):1062-1074.
7 ANSCOMBE F J, GUTTMAN I. Rejection of outliers[J].Technometrics,1960,2(2):123-146.
8 FREEMAN J. Outliers in statistical data(3rd edition)[J]. Journal of the Operational Research Society, 1995, 46(8):1034-1035.
9 TANG J, CHEN Z, FU W C, et al. A robust outlier detection scheme for large data sets[C]∥Pacific-Asia Conference on Knowledge Discovery & Data Mining, 2002:6-8.
10 孟靜,吳錫生.一種基于聚類和快速計算的異常數據挖掘算法[J].計算機工程,2013,39(8): 60-63,68. MENG Jing,WU Xisheng. An outlier data mining algorithm based on clustering and rapid calculation[J]. Computer Engineering, 2013, 39(8):60-63, 68. (in Chinese)
11 費歡,李光輝.基于K-means聚類的WSN異常數據檢測算法[J].計算機工程, 2015, 41(7): 124-128. FEI Huan, LI Guanghui. Abnormal data detection algorithm for WSN based on K-means clustering[J]. Computer Engineering, 2015,41(7):124-128. (in Chinese)
12 HUANG X, ZHAI G, SUI L, et al. Study on the detection of abnormal sounding data based on LS-SVM[J]. Acta Oceanol, 2010, 29(6):115-120.
13 NI Z, WANG F, HU X. Hypercube KNN-based adaptive anomaly detection for wireless sensor networks[C]∥Wireless communication and sensor network: Proceedings of the International Conference on Wireless Communication and Sensor Network(WCSN),2015: 649-657.
14 ZHANG R, ZHOU M, GONG X, et al. Detecting anomaly in data streams by fractal model[J]. World Wide Web, 2015, 18(5):1419-1441.
15 PAN D, LIU D, ZHOU J, et al. Anomaly detection for satellite power subsystem with associated rules based on kernel principal component analysis[J]. Microelectronics Reliability, 2015, 55(9):2082-2086.
16 O’REILLY C, GLUHAK A, IMRAN M A, et al. Anomaly detection in wireless sensor networks in a non-stationary environment[J]. IEEE Communications Surveys & Tutorials, 2014,6(3):1613-1432.
17 何歡.基于概念漂移的異常檢測技術研究[D].成都:電子科技大學,2015.
18 HILL D J, MINSKER B S. Anomaly detection in streaming environmental sensor data: a data-driven modeling approach[J]. Environmental Modelling & Software, 2010,25(9):1014-1022.
19 苑進,胡敏,WANG Kesheng,等.基于高斯過程建模的物聯網數據不確定性度量與預測[J/OL].農業(yè)機械學報,2015,46(5):265-272.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20150538&journal_id=jcsam. DOI:10.6041/j.issn.1000-1298.2015.05.038. YUAN Jin, HU Min, WANG Kesheng, et al. Uncertainty measurement and prediction of iot data based on Gaussian process modeling[J/OL].Transactions of the Chinese Society for Agricultural Machinery,2015,46(5):265-272. (in Chinese)
20 NELLO C, JOHN S T. Support vector machines[M].Cambridge: Cambridge University Press, 2000.
21 WANG X, PARDALOS P M. A survey of support vector machines with uncertainties[J]. Annals of Data Science, 2014, 1(3):293-309.
22 SUJAY R N, DEKA P C. Support vector machine applications in the field of hydrology: a review[J]. Applied Soft Computing, 2014, 19(6):372-386.
23 YUKIMASA K, HIROSHI M. Sliding window-based support vector regression for predicting micrometeorological data[J]. Expert Systems with Applications 2016,59: 217-225.
24 曾紹華,魏延,唐遠炎.剔除支持向量回歸中異常數據算法[J].重慶大學學報:自然科學版,2012,35(12):120-132. ZENG Shaohua, WEI Yan, TANG Yuanyan. Algorithm of removing outliers in SVR[J]. Journal of Chongqing University:Natural Science Edition, 2012,35(12):120-132. (in Chinese)
25 李丹玲,陳平雁,周鳳麒. 基于線性ν-支持向量回歸機的異常數據檢測[J].數理統計與管理,2011,30(1):59-63. LI Danling, CHEN Pingyan, ZHOU Fengqi.Outlier detection based on linear ν-SVRM[J]. Journal of Applied Statistics and Management,2011,30(1):59-63.(in Chinese)
26 汪旭穎. 基于支持向量回歸機的油田異常井預警模型研究[D].大慶:東北石油大學,2015.
27 SONG S X, ZHANG A Q, WANG J M, et al. SCREEN: stream data cleaning under speed constraints[C]∥Proceedings of the 2015 ACM SIGMOD Conference, 2015:827-841.
28 CAO L, YANG D, WANG Q, et al. Scalable distance-based outlier detection over high-volume data streams[C]∥2014 IEEE 30th International Conference on Data Engineering (ICDE), 2014:76-87.
29 劉京,常慶瑞,劉淼,等.基于SVR算法的蘋果葉片葉綠素含量高光譜反演[J/OL]. 農業(yè)機械學報,2016,47(8):260-265,272.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20160834&journal_id=jcsam. DOI:10.6041/j.issn.1000-1298.2016.08.034. LIU Jing, CHANG Qingrui, LIU Miao, et al. Chlorophyll content inversion with hyperspectral technology for apple leaves based on support vector regression algorithm[J/OL].Transactions of the Chinese Society for Agricultural Machinery,2016,47(8):260-265,272. (in Chinese)
30 孫德山.支持向量機分類與回歸方法研究[D].長沙:中南大學, 2004.
31 郭虎升,王文劍.動態(tài)粒度支持向量回歸機[J].軟件學報,2013,24(11):2535-2547. GUO Husheng, WANG Wenjian. Dynamical granular support vector regression machine[J]. Journal of Software,2013,24(11): 2535-2547. (in Chinese)
Anomaly Data Real-time Detection Method of Livestock Breeding Internet of Things Based on SW-SVR
DUAN Qingling1,2XIAO Xiaoyan1LIU Yiran1ZHANG Lu1
(1.CollegeofInformationandElectricalEngineering,ChinaAgriculturalUniversity,Beijing100083,China2.BeijingEngineeringResearchCenterofAgriculturalInternetofThings,Beijing100097,China)
Due to bad work environment and network transmission failure, it is easy to generate abnormal sensory data in livestock breeding Internet of things system. In order to ensure the quality of sensory data, according to the characteristics of sensory data flow such as periodicity, temporality, infinity, etc., a method was proposed based on sliding window and support vector machines regression (SW-SVR) for livestock breeding Internet of things abnormal sensory data detection in real time. Firstly, the sliding window size was decided according to the characteristic period and sampling frequency of data flow from livestock breeding Internet of things system, and the history data within sliding window was selected as the input value of prediction model. Then, the sensor estimated measurement value at certain moment in livestock breeding Internet of things system was predicted by using SVR model. Finally, the prediction interval (PI) was calculated, and the abnormal sensory data was identified if the sensor actual measurement data fell out of the PI. The abnormal data would be replaced by the predictive data. The abnormal sensory data detection method was tested by data flow from real livestock breeding Internet of things system. Experiment results showed that the mean absolute percent error value of prediction with window size calculated by the sliding window method was 0.188 4. The correct detection rate of abnormal data based on SVR model with radial basis function kernel (RBF kernel) achieved 98%, which had higher accuracy compared with BP neural network (BPNN) method. Abnormal data can be effectively detected and treated in livestock breeding Internet of things system.
anomaly data detection; livestock breeding internet of things; sliding window; support vector machines for regression
10.6041/j.issn.1000-1298.2017.08.017
2016-12-14
2017-01-16
國家高技術研究發(fā)展計劃(863計劃)項目(2013AA102306)和山東省自主創(chuàng)新項目(2014XGA13054)
段青玲(1967—),女,教授,博士,主要從事智能信息處理研究,E-mail: dqling@cau.edu.cn
TP274+.2; TP393.03
A
1000-1298(2017)08-0159-07