◆王志剛 毛亞瓊 徐 越 梁永春
生態(tài)環(huán)境監(jiān)測(cè)的數(shù)據(jù)清洗研究
◆王志剛1毛亞瓊1徐 越2梁永春2
(1.青海師范大學(xué) 青海 810008;2.華北科技學(xué)院 河北 101601)
作為對(duì)生態(tài)監(jiān)測(cè)數(shù)據(jù)質(zhì)量的提高方法,數(shù)據(jù)清洗是一種有效的處理方法,本文對(duì)其的應(yīng)用現(xiàn)狀與前景進(jìn)行了概述。首先對(duì)物聯(lián)網(wǎng)在生態(tài)監(jiān)測(cè)數(shù)據(jù)的數(shù)據(jù)清洗的研究背景和特點(diǎn)進(jìn)行說明。針對(duì)監(jiān)測(cè)數(shù)據(jù)清洗問題處理方法進(jìn)行分類,對(duì)這幾類問題的解決途徑進(jìn)行分析介紹。最后根據(jù)現(xiàn)有的處理方法的優(yōu)缺點(diǎn)并結(jié)合生態(tài)監(jiān)測(cè)采集數(shù)據(jù)特點(diǎn)提出了進(jìn)一步數(shù)據(jù)修正改進(jìn)的方案,對(duì)該領(lǐng)域的數(shù)據(jù)清洗研究作出展望。
生態(tài)監(jiān)測(cè);數(shù)據(jù)清洗
生態(tài)環(huán)境監(jiān)測(cè)數(shù)據(jù)依然遵從一條針對(duì)數(shù)據(jù)質(zhì)量保障的原理,即“進(jìn)去的是垃圾,出來的也是垃圾”。數(shù)據(jù)清洗作為提高數(shù)據(jù)質(zhì)量的重要手段,已有很多研究對(duì)數(shù)據(jù)質(zhì)量定義有過深度探討[1],生態(tài)監(jiān)測(cè)數(shù)據(jù)的清洗根據(jù)其自身特點(diǎn),旨在解決其中的正確性(correctness)、完整性(correctness)以及最小性(minimatality)。
物聯(lián)網(wǎng)數(shù)據(jù)清洗的方法隨著機(jī)器學(xué)習(xí)等技術(shù)的發(fā)展,也在逐漸應(yīng)用到數(shù)據(jù)清洗領(lǐng)域,本文在數(shù)據(jù)清洗方法分類上提出將數(shù)據(jù)清洗方法分為基于統(tǒng)計(jì)方法與數(shù)據(jù)挖掘方法,并依據(jù)監(jiān)測(cè)數(shù)據(jù)特點(diǎn)對(duì)數(shù)據(jù)修正填補(bǔ)進(jìn)一步制定了清洗方案。
新一代的數(shù)據(jù)采集,主要來源為傳感器數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)以及行業(yè)數(shù)據(jù)三種數(shù)據(jù)來源方式。采集的數(shù)據(jù)可分為線上的行為數(shù)據(jù)與內(nèi)容數(shù)據(jù)兩大類。線上行為數(shù)據(jù)主要包括網(wǎng)頁(yè)數(shù)據(jù)、提交表單數(shù)據(jù)、交互型數(shù)據(jù)以及會(huì)話數(shù)據(jù)等,而內(nèi)容數(shù)據(jù)包括了電子文檔數(shù)據(jù)、應(yīng)用及操作日志數(shù)據(jù)、音頻視頻數(shù)據(jù)、社交媒體數(shù)據(jù)以及機(jī)器數(shù)據(jù)。生態(tài)監(jiān)測(cè)數(shù)據(jù)的采集,屬于機(jī)器數(shù)據(jù)屬內(nèi)容數(shù)據(jù)的范疇,因此具有自身的一些特點(diǎn):
(1)生態(tài)監(jiān)測(cè)數(shù)據(jù)類型固定,是由傳感器轉(zhuǎn)換為電信號(hào)的物理量或數(shù)字量與模擬量,與互聯(lián)網(wǎng)等直接獲取的文字性等行為數(shù)據(jù)不同,具有本質(zhì)區(qū)別。
(2)數(shù)據(jù)采集方式具有周期性,通常對(duì)某一點(diǎn)的監(jiān)測(cè)為固定時(shí)間點(diǎn)的瞬時(shí)數(shù)據(jù)。
(3)數(shù)據(jù)具有較強(qiáng)關(guān)聯(lián)性,在生態(tài)環(huán)境中同一地點(diǎn)不同氣象參數(shù)之間或不同地點(diǎn)同一參數(shù)的相關(guān)性大,通過數(shù)據(jù)分析方法得到的相關(guān)系數(shù)高,因此不容忽略,具有較強(qiáng)研究?jī)r(jià)值。
根據(jù)生態(tài)檢測(cè)數(shù)據(jù)的特點(diǎn),數(shù)據(jù)清洗主要處于數(shù)據(jù)傳輸?shù)膶?shí)例層,通過對(duì)重復(fù)對(duì)象檢測(cè)、異常數(shù)據(jù)處理以及缺失數(shù)據(jù)處理來實(shí)現(xiàn)數(shù)據(jù)質(zhì)量的提高。本文將從三種異常處理數(shù)據(jù)的相關(guān)方法進(jìn)行介紹。
對(duì)多節(jié)點(diǎn)采集數(shù)據(jù)源的情況下,必然在數(shù)據(jù)集成整理時(shí)產(chǎn)生多個(gè)記錄代表同一對(duì)象的情況,或者是同一區(qū)域非常相近的記錄,這樣的數(shù)據(jù)被稱為重復(fù)記錄。針對(duì)重復(fù)記錄,在國(guó)內(nèi)外大多數(shù)研究者均采用重復(fù)記錄的相似度作為 判別指標(biāo)。采用最多的方法是基于特征相似度(feature based similarity,FBS)[2],最終文獻(xiàn)[3]的國(guó)內(nèi)學(xué)者又采用聚集與FBS的方法得到良好的檢測(cè)結(jié)果。
監(jiān)測(cè)數(shù)據(jù)的異常,通常由設(shè)備故障、人為制造不合理環(huán)境、自然災(zāi)害等特殊情況造成數(shù)據(jù)產(chǎn)生異常值,最多的便是離群點(diǎn)數(shù)據(jù)。對(duì)異常值的判定主要分為基于統(tǒng)計(jì)計(jì)算的方法以及數(shù)據(jù)挖掘的異常偏離點(diǎn)。數(shù)據(jù)中最明顯的就是不符合業(yè)務(wù)規(guī)則的數(shù)據(jù),違反生態(tài)環(huán)境規(guī)則,文獻(xiàn)[4]在70年代就提出過較為嚴(yán)格的形式化模型Fellegi-Hot。
電網(wǎng)行業(yè)對(duì)監(jiān)測(cè)數(shù)據(jù)異常做了大量工作,文獻(xiàn)[5]在廣域測(cè)量系統(tǒng)(wide area measurement system,WAMS)的基礎(chǔ)上,采用高位隨機(jī)矩陣模型的構(gòu)建,對(duì)異常數(shù)據(jù)進(jìn)行檢測(cè)。最新的傳感器監(jiān)測(cè)數(shù)據(jù)采集方面檢測(cè)方法是文獻(xiàn)[6]提出的詳細(xì)K-均值聚類的方法對(duì)異常數(shù)據(jù)檢測(cè),計(jì)算出樣本中的異常因子,與回歸模型結(jié)合并將其中異常樣本剔除。
數(shù)據(jù)采集時(shí)發(fā)生數(shù)據(jù)缺失,產(chǎn)生原因有機(jī)器損壞造成數(shù)據(jù)存儲(chǔ)缺失、人為疏忽會(huì)刻意篡改以及環(huán)境客觀條件造成信息無法獲取[8]。處理缺失值的方法分為三種,即刪除整條記錄、填充缺失數(shù)據(jù)與不處理數(shù)據(jù)[8]。刪除元組的方法與不處理的方法雖然簡(jiǎn)單易行,但僅僅適用于極少量數(shù)據(jù)缺失的情況下,不然對(duì)信息的浪費(fèi)以及數(shù)據(jù)質(zhì)量影響較大。而缺失數(shù)據(jù)填充是大多數(shù)據(jù)應(yīng)用領(lǐng)域會(huì)采取的方法,可以保證數(shù)據(jù)清洗后數(shù)據(jù)較高的可用性,一方面可由人為設(shè)置固定值取代,另一方面是采用數(shù)學(xué)統(tǒng)計(jì)模型以及機(jī)器學(xué)習(xí)等方法進(jìn)行缺失值的預(yù)測(cè)填充。設(shè)置缺失值為固定某個(gè)值或篩選值往往以對(duì)行業(yè)數(shù)據(jù)了解為前提[9]。利用模型構(gòu)建與機(jī)器算法實(shí)現(xiàn)雖然更接近真是數(shù)據(jù),但針對(duì)不用數(shù)據(jù),不同填充方法也會(huì)出現(xiàn)不一樣的效果。宏觀角度,文獻(xiàn)[10]采用高位隨機(jī)矩陣模型,在時(shí)空特性分析的基礎(chǔ)上推導(dǎo)出異常檢測(cè)的理論和方法。
本文針對(duì)生態(tài)監(jiān)測(cè)數(shù)據(jù)的特點(diǎn)并結(jié)合上述清洗方法,提出了監(jiān)測(cè)異常數(shù)據(jù)的處理方案,側(cè)重處理數(shù)據(jù)的修正及填充。具體步驟如下:
第一步,對(duì)采集數(shù)據(jù)的重復(fù)及異常鑒別;
第二步,進(jìn)行異常處理,首先計(jì)算數(shù)據(jù)相關(guān)性。然后對(duì)數(shù)據(jù)進(jìn)行分類,分為了分類變量與連續(xù)型變量,對(duì)連續(xù)型變量采取離散化處理;
第三步,對(duì)分類變量與離散化后的數(shù)據(jù)利用數(shù)據(jù)間的關(guān)聯(lián)關(guān)系進(jìn)行模式挖掘與查詢,利用挖掘出的規(guī)則與相關(guān)性得到的閾值篩選并填補(bǔ)缺失值或修正異常值;
第四步,對(duì)連續(xù)型變量進(jìn)一步采用同規(guī)則的向量回歸計(jì)算精確的缺失或異常值。
采用此方法的優(yōu)勢(shì)在于適應(yīng)監(jiān)測(cè)數(shù)據(jù)的特點(diǎn),尤其處理連續(xù)型數(shù)據(jù),利用有限的同規(guī)則數(shù)據(jù)對(duì)缺失數(shù)據(jù)進(jìn)行填補(bǔ)或異常修正,將具有與滑動(dòng)窗口等效的占用率低以及實(shí)時(shí)性。另一方面,對(duì)數(shù)據(jù)利用統(tǒng)計(jì)的方法將生態(tài)監(jiān)測(cè)數(shù)據(jù)的相關(guān)性作為規(guī)則挖掘的輔助信息。那么,本節(jié)清洗結(jié)構(gòu)的設(shè)計(jì)在時(shí)空占用上必然略高于統(tǒng)計(jì)方法但低于機(jī)器學(xué)習(xí)方法,以此換來更高的數(shù)據(jù)修正精準(zhǔn)度是可接受的。
在生態(tài)數(shù)據(jù)監(jiān)測(cè)領(lǐng)域雖然目前很少有專門的數(shù)據(jù)清洗方法研究,但從上述研究分析可以看出,大多數(shù)數(shù)據(jù)清洗的方法適用于監(jiān)測(cè)數(shù)據(jù)的清洗。且在很多應(yīng)用研究中對(duì)監(jiān)測(cè)數(shù)據(jù)的清洗已廣泛應(yīng)用。精準(zhǔn)的數(shù)據(jù)清洗能夠提高生態(tài)環(huán)境下監(jiān)測(cè)數(shù)據(jù)的準(zhǔn)確性;提高傳感器設(shè)備的工作效率;能夠及時(shí)地發(fā)現(xiàn)數(shù)據(jù)采集環(huán)境的異常狀況或設(shè)備狀態(tài);為監(jiān)測(cè)數(shù)據(jù)的進(jìn)一步研究提供了可靠的數(shù)據(jù)。但是,數(shù)據(jù)異常的識(shí)別與處理,仍然在生態(tài)監(jiān)測(cè)數(shù)據(jù)領(lǐng)域有很大的研究前景,在后續(xù)的研究中,將實(shí)現(xiàn)與已經(jīng)非常成熟的行業(yè)同等效率的數(shù)據(jù)清洗。
綜合以上不同數(shù)據(jù)清洗方法的特點(diǎn),本文在生態(tài)環(huán)境數(shù)據(jù)監(jiān)測(cè)的適用性方面進(jìn)行進(jìn)一步研究,對(duì)環(huán)境以及社會(huì)都具有深遠(yuǎn)的價(jià)值和意義。本文提出采用基礎(chǔ)的統(tǒng)計(jì)方法與基于數(shù)據(jù)挖掘關(guān)聯(lián)方法結(jié)合的理論,克服了統(tǒng)計(jì)方法的不確定性與機(jī)器學(xué)習(xí)方法的復(fù)雜度較高的缺陷。有望在采集數(shù)據(jù)領(lǐng)域獲得更高質(zhì)量的數(shù)據(jù),在今后的研究以及應(yīng)用中將進(jìn)一步探索和證明。
[1]宋敏,覃正.國(guó)外數(shù)據(jù)質(zhì)量管理研究綜述[J].情報(bào)雜志,2007.
[2]曹建軍,刁興春,汪挺,王芳瀟.領(lǐng)域無關(guān)數(shù)據(jù)清洗研究綜述[J].計(jì)算機(jī)科學(xué),2010.
[3]俞榮華,田增平,周傲英.一種檢測(cè)多語言文本相似重復(fù)記錄的綜合方法[J].計(jì)算機(jī)科學(xué),2002.
[4]陳偉,陳耿,朱文明.基于業(yè)務(wù)規(guī)則的錯(cuò)誤數(shù)據(jù)清理方法[J].計(jì)算機(jī)工程與應(yīng)用,2005.
[5]魏大千,王波,劉滌塵,羅金號(hào),冀星沛.高維隨機(jī)矩陣描述下的量測(cè)大數(shù)據(jù)建模與異常數(shù)據(jù)檢測(cè)方法[J].中國(guó)電機(jī)工程學(xué)報(bào),2015.
[6]張仁斌,許輔昊,劉飛,李思嫻.基于K-均值聚類的工業(yè)異常數(shù)據(jù)檢測(cè)[J].計(jì)算機(jī)應(yīng)用研究,2018.
[7]王雷,張瑞青,盛偉,徐治皋.基于支持向量機(jī)的回歸預(yù)測(cè)和異常數(shù)據(jù)檢測(cè)[J].中國(guó)電機(jī)工程學(xué)報(bào),2009.
[8]曄沙.數(shù)據(jù)缺失及其處理方法綜述[J].電子測(cè)試,2017.
[9]唐菱,方若晨,李芙玲,李永飛.大氣環(huán)境監(jiān)測(cè)數(shù)據(jù)審核和分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].華北科技學(xué)院學(xué)報(bào),2016.
[10]魏大千,王波,劉滌塵,羅金號(hào),冀星沛.高維隨機(jī)矩陣描述下的量測(cè)大數(shù)據(jù)建模與異常數(shù)據(jù)檢測(cè)方法[J].中國(guó)電機(jī)工程學(xué)報(bào),2015.
本文受到國(guó)家自然科學(xué)基金(No.61472137),國(guó)家重點(diǎn)研發(fā)計(jì)劃(No.2017YFC0804108),青海省重點(diǎn)實(shí)驗(yàn)室、重點(diǎn)研發(fā)項(xiàng)目(No.2017-ZJ-752,2017-ZJ-Y21)和河北省物聯(lián)網(wǎng)監(jiān)控工程技術(shù)研究中心項(xiàng)目的資助(No.3142016020)。