国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

農(nóng)業(yè)機(jī)械作業(yè)大數(shù)據(jù)清洗方法與試驗(yàn)優(yōu)化

2021-06-29 10:07苑嚴(yán)偉冀福華郭大方
關(guān)鍵詞:階數(shù)方根閾值

苑嚴(yán)偉 徐 玲 冀福華 郭大方 安 颯 牛 康

(中國農(nóng)業(yè)機(jī)械化科學(xué)研究院土壤植物機(jī)器系統(tǒng)技術(shù)國家重點(diǎn)實(shí)驗(yàn)室, 北京 100083)

0 引言

農(nóng)機(jī)大數(shù)據(jù)平臺建設(shè)是推進(jìn)現(xiàn)代農(nóng)業(yè)生產(chǎn)信息化、智能化、精準(zhǔn)化的重要環(huán)節(jié)[1-7]。隨著北斗系統(tǒng)、5G通信、物聯(lián)網(wǎng)等技術(shù)迅速發(fā)展,大數(shù)據(jù)平臺不斷完善,入網(wǎng)農(nóng)機(jī)數(shù)量猛增,數(shù)據(jù)規(guī)模不足問題得到緩解,但數(shù)據(jù)質(zhì)量問題成為阻礙平臺發(fā)展的新瓶頸。據(jù)統(tǒng)計(jì),大型數(shù)據(jù)集中的錯(cuò)誤率約為5%[8]。數(shù)據(jù)清洗能夠減少“Garbage in, garbage out”現(xiàn)象,但所需時(shí)間很長,一般約占數(shù)據(jù)分析總時(shí)間的60%~80%[9-10]。準(zhǔn)確高效的數(shù)據(jù)清洗方法能夠提高平臺分析決策的可靠性和時(shí)效性,是農(nóng)機(jī)大數(shù)據(jù)平臺發(fā)展的重要基石。

國內(nèi)外關(guān)于數(shù)據(jù)清洗的研究主要集中在異常數(shù)據(jù)檢測[11-17]方面,對異常數(shù)據(jù)修復(fù)的研究較少。處理異常數(shù)據(jù)的傳統(tǒng)方式有直接保留、刪除和人工填充等,其效果不夠理想。ETL(Extract transform load)工具雖然能夠?qū)崿F(xiàn)數(shù)據(jù)抽取、轉(zhuǎn)換和加載,但是修復(fù)能力較弱,不能滿足應(yīng)用需求。文獻(xiàn)[18]針對工業(yè)大數(shù)據(jù)中的高維時(shí)間序列數(shù)據(jù),基于領(lǐng)域知識支持,開發(fā)了在線與離線相結(jié)合的數(shù)據(jù)清洗系統(tǒng)Cleanits。文獻(xiàn)[19]針對時(shí)間序列異常數(shù)據(jù)修復(fù)問題,提出將時(shí)間相關(guān)特性與最小變動原理相結(jié)合的IMR(Iterative minimum repairing)框架。文獻(xiàn)[20]針對平滑過濾方法嚴(yán)重更改原始數(shù)據(jù)、且已有算法不支持流數(shù)據(jù)計(jì)算的問題,提出利用數(shù)據(jù)浮動速度函數(shù)修復(fù)高度異常數(shù)據(jù)的方法。文獻(xiàn)[21-23]利用Spark分布式計(jì)算框架加快了大數(shù)據(jù)清洗流程。目前,已有數(shù)據(jù)清洗算法均未充分利用數(shù)據(jù)間的相互關(guān)系,對原始數(shù)據(jù)改動大,不適用于具有大規(guī)模、多源異構(gòu)、高維度、強(qiáng)時(shí)空相關(guān)等特點(diǎn)的農(nóng)機(jī)實(shí)時(shí)流數(shù)據(jù)。

為此,本文分析數(shù)據(jù)異常出現(xiàn)的主要場景及原因,根據(jù)農(nóng)機(jī)作業(yè)數(shù)據(jù)的時(shí)間相關(guān)性和最小變動原則,提出一種數(shù)據(jù)清洗方法,依托Flink流計(jì)算平臺實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)分析,通過試驗(yàn)驗(yàn)證算法的有效性,并對算法進(jìn)行試驗(yàn)優(yōu)化。

1 復(fù)雜作業(yè)條件下數(shù)據(jù)異常分析

由于應(yīng)用領(lǐng)域存在差異,數(shù)據(jù)異常的概念缺乏統(tǒng)一定義。本文將數(shù)據(jù)異常定義為:在某一瞬時(shí),服務(wù)器接收到的數(shù)據(jù)(或數(shù)據(jù)的某一部分)出現(xiàn)不完整、不準(zhǔn)確、不合法等現(xiàn)象。

田間作業(yè)條件復(fù)雜,增加了數(shù)據(jù)異常發(fā)生的概率。在實(shí)際工作中,易發(fā)生數(shù)據(jù)異常的主要場景如下:

(1)田間環(huán)境影響傳感器檢測精度。例如,地塊周圍存在高大樹木或建筑物等,會遮擋一些傳感器(如衛(wèi)星定位傳感器)的信號,導(dǎo)致數(shù)據(jù)出現(xiàn)跳變、離散或缺失。

(2)作業(yè)工況影響傳感器檢測精度。例如,作業(yè)過程中土壤或谷物產(chǎn)生的粉塵會干擾傳感器(如光學(xué)傳感器)的敏感元件;地面不平整或機(jī)器運(yùn)轉(zhuǎn)產(chǎn)生的振動也會影響傳感器(如沖量式測產(chǎn)傳感器)的檢測精度,導(dǎo)致數(shù)據(jù)出現(xiàn)異常。該類型數(shù)據(jù)異常具體表現(xiàn)為數(shù)據(jù)出現(xiàn)零散、漂移或抖動。

(3)農(nóng)機(jī)自身因素影響傳感器檢測精度。例如,機(jī)器的發(fā)動機(jī)或供電系統(tǒng)工作不穩(wěn)定,引起電壓波動,導(dǎo)致傳感器(如電容式傳感器)的檢測性能隨電壓波動。該類型數(shù)據(jù)異常具體表現(xiàn)為數(shù)據(jù)出現(xiàn)漂移、丟失或抖動。

(4)田間環(huán)境影響信息上傳質(zhì)量。例如,田間網(wǎng)絡(luò)信號差或存在電磁干擾,會影響數(shù)據(jù)傳送的時(shí)效性和準(zhǔn)確性,導(dǎo)致數(shù)據(jù)出現(xiàn)延時(shí)或缺失。

本文所討論的數(shù)據(jù)異常不包括作業(yè)環(huán)境合理變化導(dǎo)致的數(shù)據(jù)波動。例如:在同一地塊中,由于土壤肥力不同導(dǎo)致農(nóng)作物產(chǎn)量變化,盡管數(shù)據(jù)看起來比較反常,但是并不屬于異常數(shù)據(jù)。

2 基于滑動窗口的數(shù)據(jù)在線清洗算法

為實(shí)現(xiàn)數(shù)據(jù)在線清洗,提出基于滑動窗口實(shí)現(xiàn)的流數(shù)據(jù)異常識別和修復(fù)算法。針對農(nóng)機(jī)作業(yè)數(shù)據(jù)以數(shù)值型為主的特點(diǎn),基于方差約束原則識別異常數(shù)據(jù);基于最小變動原則,對異常數(shù)據(jù)的原始值進(jìn)行初步估算,生成候選數(shù)據(jù);根據(jù)數(shù)據(jù)時(shí)間相關(guān)性,基于AR(Autoregressive model)、ARX(Autoregressive model with exogenous input)模型得到最優(yōu)修復(fù)值。因此,算法分為識別異常數(shù)據(jù)、生成候選修正數(shù)據(jù)、數(shù)據(jù)迭代修正3個(gè)步驟,如圖1所示。

2.1 異常數(shù)據(jù)動態(tài)識別

在每個(gè)數(shù)據(jù)對應(yīng)的窗口區(qū)間內(nèi),進(jìn)行方差檢驗(yàn),評估其是否為異常。通過窗口的滑動,可以依次評估每個(gè)數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)流的動態(tài)異常識別。

假設(shè)原始數(shù)據(jù)集Γ內(nèi)前w個(gè)數(shù)據(jù)可靠,對于Γ內(nèi)第i(i=w,w+1,w+2,…)個(gè)數(shù)據(jù)γi,選取大小為w的窗口Di={di1,di2,…,diw},其中dij=γi-w+j,則Di的方差為

(1)

式中dij—— 窗口Di中第j個(gè)數(shù)據(jù)

依據(jù)以往所采集的同類數(shù)據(jù)的方差v′,選取方差閾值v作為評判基準(zhǔn),v的取值應(yīng)略大于v′,即v=λv′,其中λ為按經(jīng)驗(yàn)選取的大于1的常數(shù)。當(dāng)δ(Di)≤v時(shí),則γi為正常數(shù)據(jù);當(dāng)δ(Di)>v時(shí),則γi為異常數(shù)據(jù)。

若γi為正常數(shù)據(jù),則窗口向后滑動,對第i+1個(gè)數(shù)據(jù)γi+1進(jìn)行評估。若γi為異常數(shù)據(jù),則修復(fù)該數(shù)據(jù)后,再向后滑動窗口。

2.2 異常數(shù)據(jù)候選修正集生成

若確定γi為異常數(shù)據(jù),則設(shè)其為x,并令δ(Di)=v,2個(gè)原始解x1和x2求解公式為

(2)

假設(shè)x1≤x2,對于異常數(shù)據(jù)γi,必然有γix2。當(dāng)γix2時(shí),γ′i取x2。候選數(shù)據(jù)γ′i,即

(3)

通過此方法,依次將所有異常數(shù)據(jù)替換為候選數(shù)據(jù),生成候選數(shù)據(jù)集?!?。

2.3 候選修正集迭代優(yōu)化

由于生成候選數(shù)據(jù)集的方法較為粗放,因此引入AR和ARX模型,利用異常數(shù)據(jù)γi前面m個(gè)數(shù)據(jù),對γi的候選值γ′i進(jìn)行優(yōu)化,保證數(shù)據(jù)修正準(zhǔn)確可靠。

若m個(gè)數(shù)據(jù)均為正常數(shù)據(jù),則使用AR模型更新候選數(shù)據(jù)γ′i,得到最終修復(fù)值為

(4)

C——常量m——階數(shù)

φk——AR、ARX模型參數(shù)

εi——白噪聲點(diǎn)

否則,使用ARX模型對第i-m個(gè)至第i-1個(gè)數(shù)據(jù)的原始值與候選值的差加權(quán)求和,更新候選數(shù)據(jù)γ′i,得到最終修復(fù)值為

(5)

其中φk、m可利用數(shù)學(xué)統(tǒng)計(jì)進(jìn)行估算。樣本數(shù)據(jù)集Γ的協(xié)方差函數(shù)符合Yule-Walker方程,可以得到

(6)

式中β0、β1、…、βp——Γ的協(xié)方差函數(shù)

轉(zhuǎn)換為矩陣形式

Apφ(p)=Bp

(7)

由于矩陣Ap對稱且可逆,因此可得

(8)

此時(shí),可以求出φk,其中φ(p)的第p個(gè)分量φpp,即為偏相關(guān)函數(shù)。

根據(jù)AR(m)的特性可知,其偏自相函數(shù)m步截尾(在大于某個(gè)常數(shù)后快速趨于0),因此可以將點(diǎn)(p,φpp)在笛卡爾坐標(biāo)系中標(biāo)出。當(dāng)存在某個(gè)p之后,φpp無限接近0,此時(shí)的p即為所求的階數(shù)m。執(zhí)行迭代,直至前后2次迭代的γ′i小于閾值τ時(shí),停止迭代。

數(shù)據(jù)異常清洗算法步驟如下:

(1)輸入Γ、v、w、τ

(2)處理γi

γi→Di

ifδ(Di)≤v

else

forlto …

δ(Di)=v→x1,x2(x1≤x2)

ifγi≤x1

γ′i,0=x1

else

γ′i,0=x2

end

ifγi-m,…,γi-1do not have abnomal data

else

break

end

end

end

end

(3)輸出Γ*

3 試驗(yàn)與分析

3.1 試驗(yàn)材料

在現(xiàn)有農(nóng)機(jī)大數(shù)據(jù)平臺中,選取2016—2019年某省農(nóng)機(jī)深松、保護(hù)性耕作等8種類型的作業(yè)數(shù)據(jù),規(guī)模大于1×109條,代表性字段如表1所示。

表1 農(nóng)機(jī)數(shù)據(jù)基本信息

為適應(yīng)農(nóng)機(jī)作業(yè)數(shù)據(jù)吞吐量大、并發(fā)度高的特點(diǎn),將算法遷移至大數(shù)據(jù)流計(jì)算平臺Flink上,依托Flink集群的分布式特性,保證算法快速準(zhǔn)確執(zhí)行。傳感器通過TCP/IP協(xié)議將海量數(shù)據(jù)傳輸至Kafka集群進(jìn)行分組管理。然后,F(xiàn)link消費(fèi)者集群接收數(shù)據(jù)并運(yùn)行算法,實(shí)現(xiàn)流數(shù)據(jù)清洗。系統(tǒng)部署在阿里云服務(wù)器上,相關(guān)配置如表2所示。

表2 試驗(yàn)環(huán)境

3.2 算法有效性驗(yàn)證

3.2.1驗(yàn)證方法

算法有效性包括異常數(shù)據(jù)識別有效性和修復(fù)有效性。使用精確率P1、召回率R和綜合性指標(biāo)F1評價(jià)異常數(shù)據(jù)識別有效性。使用均方根誤差ERMSE評價(jià)數(shù)據(jù)修復(fù)有效性,計(jì)算式為

(9)

式中n——異常數(shù)據(jù)個(gè)數(shù)

算法有效性驗(yàn)證方案流程如圖2所示。首先,選取一定規(guī)模的正常數(shù)據(jù),并人工對其進(jìn)行預(yù)處理,將一定比例的正常數(shù)據(jù)修改至異常,同時(shí)標(biāo)記正常數(shù)據(jù)為1,異常數(shù)據(jù)為0。將預(yù)處理后的數(shù)據(jù)作為試驗(yàn)集,使用算法完成數(shù)據(jù)清洗。進(jìn)行多次清洗后,取各評價(jià)指標(biāo)的平均值進(jìn)行分析。

為更加具體地展現(xiàn)本算法的修復(fù)效果,采用基于平滑的清洗算法SWAB[24]和基于否定約束的全局清洗算法Holistic[25]與本算法進(jìn)行橫向?qū)Ρ取?/p>

3.2.2驗(yàn)證結(jié)果

(1)選取不同規(guī)模的試驗(yàn)集,在數(shù)據(jù)預(yù)處理時(shí)將5%的數(shù)據(jù)修改至異常,取窗口大小為100,階數(shù)取值為4,閾值取值為0.1。在每一規(guī)模水平下進(jìn)行3次試驗(yàn),分別對P1、R、F1和ERMSE取平均值。

如圖3所示,P1、F1隨數(shù)據(jù)量增加而增大。當(dāng)數(shù)據(jù)規(guī)模達(dá)到1×105條,P1在0.94附近趨于穩(wěn)定;R一直處于0.9~0.95區(qū)間內(nèi);F1大于0.92。說明算法在大規(guī)模數(shù)據(jù)集中具有較高的異常識別率。

均方根誤差隨數(shù)據(jù)規(guī)模的變化如圖4所示。隨著數(shù)據(jù)規(guī)模的增大,3種算法的均方根誤差均減小,且在數(shù)據(jù)達(dá)到一定規(guī)模后,均方根誤差的變化趨緩。SWAB算法均方根誤差始終較高。在數(shù)據(jù)規(guī)模小于1×105條時(shí),Holistic與本文算法表現(xiàn)相近,但在數(shù)據(jù)規(guī)模大于等于1×105條時(shí),后者的均方根誤差明顯更小,表明本文算法修復(fù)效果較好。

(2)選取規(guī)模為1×105條的試驗(yàn)集,在窗口大小為100、階數(shù)為4、閾值為0.1時(shí),選取不同數(shù)據(jù)異常率進(jìn)行試驗(yàn)。試驗(yàn)結(jié)果如圖5所示,同一數(shù)據(jù)規(guī)模下,3種算法的均方根誤差均隨數(shù)據(jù)異常率的增大而增大,SWAB算法最高,Holistic算法次高,本文算法始終最低,說明所提出的算法在修復(fù)準(zhǔn)確性方面有效,且數(shù)據(jù)異常率越低表現(xiàn)越好。

3.3 算法試驗(yàn)優(yōu)化

由前述分析,數(shù)據(jù)規(guī)模處于較高水平、錯(cuò)誤率處于較低水平時(shí),二者對均方根誤差的影響很小,并且實(shí)際情況中數(shù)據(jù)規(guī)模與錯(cuò)誤率不可控。因此,對算法的優(yōu)化主要考慮階數(shù)、閾值、窗口大小對均方根誤差ERMSE和算法運(yùn)行時(shí)間T的影響。采用Box-Behnken原理設(shè)計(jì)試驗(yàn),各試驗(yàn)因素編碼如表3所示,試驗(yàn)設(shè)計(jì)與結(jié)果如表4所示,A、B、C為因素m、τ、w編碼值。

表3 因素編碼

對試驗(yàn)結(jié)果進(jìn)行分析,選擇回歸模型進(jìn)行擬合。均方根誤差和算法運(yùn)行時(shí)間的方差分析結(jié)果如表5、6所示,所建立的模型均顯著(P≤0.05),且失擬項(xiàng)不顯著,證明模型所擬合的回歸方程與實(shí)際相符,能準(zhǔn)確反映均方根誤差、時(shí)間與階數(shù)、閾值、窗口大小之間的關(guān)系。在保證模型可靠的前提下,為使回歸模型更好地對試驗(yàn)結(jié)果進(jìn)行預(yù)測,剔除不顯著項(xiàng),對回歸模型做優(yōu)化調(diào)整,分別得到ERMSE和T的回歸模型為

表5 均方根誤差ERMSE方差分析

表6 算法運(yùn)行時(shí)間T方差分析

ERMSE=11.28-24.85A-13.89B+17.16A2+23.46B2(A,B∈[0,1])

(10)

T=17.22-12.64A-38.57B+25.52A2+23.90B2(A,B∈[0,1])

(11)

將回歸模型映射回原空間可得

ERMSE=11.28-2.76m-55.56τ+0.21m2+375.36τ2(m∈[0,9],τ∈[0,0.25])

(12)

T=17.22-1.4m-154.28τ+0.32m2+382.4τ2(m∈[0,9],τ∈[0,0.25])

(13)

由圖6可以看出,當(dāng)閾值τ一定時(shí),隨著階數(shù)m的增大,均方根誤差先減少后增大。這說明過大的階數(shù)并不會持續(xù)增加算法的準(zhǔn)確度。當(dāng)階數(shù)一定時(shí),均方根誤差隨閾值增大而增大,這說明選取較小的閾值能提高算法準(zhǔn)確性。

由圖7可以看出,當(dāng)階數(shù)一定時(shí),隨著閾值逐漸變大,算法運(yùn)行時(shí)間逐漸減少;當(dāng)閾值較小時(shí),需要較高的時(shí)間成本。當(dāng)閾值一定時(shí),算法運(yùn)行時(shí)間隨階數(shù)增大而增大,結(jié)合階數(shù)對均方根誤差的影響,說明選取過大的階數(shù)導(dǎo)致算法準(zhǔn)確性差且效率低。

云服務(wù)平臺使用目的不同,所要求的性能指標(biāo)不同,有些注重?cái)?shù)據(jù)準(zhǔn)確性,有些更關(guān)注實(shí)時(shí)性。為此,本文采用二進(jìn)制編碼的混合遺傳算法,分別對式(12)、(13)所示的模型進(jìn)行優(yōu)化求解,確定不同性能指標(biāo)下的參數(shù)組合,優(yōu)化過程如圖8、9所示。設(shè)定種群個(gè)體數(shù)目為15,交叉概率為0.8,變異概率為0.08。迭代求解得到,當(dāng)階數(shù)為6.6,閾值為0.07時(shí),均方根誤差最小為0.16;當(dāng)階數(shù)為2,閾值為0.2,算法運(yùn)行時(shí)間最小為0.13 s。

4 結(jié)論

(1)研究異常數(shù)據(jù)檢測及修正技術(shù),提出一種基于滑動窗口機(jī)制的數(shù)據(jù)在線清洗算法,并依托Flink分布式計(jì)算平臺,加速數(shù)據(jù)的實(shí)時(shí)清洗,以適應(yīng)農(nóng)機(jī)大數(shù)據(jù)高并發(fā)、吞吐量大的特點(diǎn)。

(2)試驗(yàn)表明,針對規(guī)模為1×105條、異常率為5%的數(shù)據(jù)集,算法窗口大小取100、階數(shù)取4、閾值取0.1時(shí),精確率、召回率和綜合性指標(biāo)均滿足數(shù)據(jù)清洗要求。與SWAB算法和Holistic算法修復(fù)后的均方根誤差的對比表明,本文算法的均方根誤差更小,從而證明了本文算法的有效性。本文算法的均方根誤差隨數(shù)據(jù)規(guī)模的增大而減小,隨數(shù)據(jù)異常率的增大而增大,說明該算法適用于異常率較低的大規(guī)模數(shù)據(jù)集。

(3)基于Box-Behnken原理設(shè)計(jì)試驗(yàn),分別建立均方根誤差、算法運(yùn)行時(shí)間與階數(shù)、閾值、窗口大小之間的響應(yīng)曲面回歸模型。利用基于二進(jìn)制編碼的混合遺傳算法求出滿足各性能指標(biāo)的多參數(shù)最優(yōu)組合,當(dāng)階數(shù)為6.6、閾值為0.07時(shí),均方根誤差最小為0.16,當(dāng)階數(shù)為2、閾值為0.2時(shí),算法運(yùn)行時(shí)間最短為0.13 s。

猜你喜歡
階數(shù)方根閾值
XIO 優(yōu)化階數(shù)對宮頸癌術(shù)后靜態(tài)調(diào)強(qiáng)放射治療計(jì)劃的影響
土石壩壩體失穩(wěn)破壞降水閾值的確定方法
基于小波變換閾值去噪算法的改進(jìn)
基于非線性動力學(xué)的分?jǐn)?shù)階直驅(qū)式永磁同步發(fā)電機(jī)建模與性能分析
確定有限級數(shù)解的階數(shù)上界的一種n階展開方法
采用紅細(xì)胞沉降率和C-反應(yīng)蛋白作為假體周圍感染的閾值
改進(jìn)小波閾值對熱泵電機(jī)振動信號的去噪研究
我們愛把馬鮫魚叫鰆鯃
復(fù)變函數(shù)中孤立奇點(diǎn)的判別
數(shù)學(xué)魔術(shù)——神奇的速算