,, ,
(1.浙江大學(xué)城市學(xué)院 杭州市物聯(lián)網(wǎng)技術(shù)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,杭州 310015;2.浙江大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,杭州 310015)
數(shù)據(jù)挖掘在溫室大棚上的應(yīng)用研究
鄭增威1,陳漢群1,2,孫霖1,蔡建平1
(1.浙江大學(xué)城市學(xué)院杭州市物聯(lián)網(wǎng)技術(shù)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,杭州310015;2.浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,杭州310015)
隨著物聯(lián)網(wǎng)的興起,數(shù)據(jù)的積累速度、維度以及體積等也越來(lái)越大,成了真正的大數(shù)據(jù)范疇;在農(nóng)業(yè)溫室大棚中部署的大量各種各樣的傳感器產(chǎn)生了大量多源異構(gòu)的傳感數(shù)據(jù),而且這些數(shù)據(jù)中存在需要清洗的各種臟亂數(shù)據(jù);文章按照數(shù)據(jù)清洗,模型構(gòu)建和模型應(yīng)用3個(gè)部分進(jìn)行詳述,首先介紹數(shù)據(jù)清洗技術(shù)和多源異構(gòu)數(shù)據(jù)的融合技術(shù),然后列舉了常見(jiàn)的預(yù)測(cè)模型構(gòu)建方法并分別指出了每種方法的適用情況,最后對(duì)常見(jiàn)的應(yīng)用領(lǐng)域進(jìn)行了綜述和總結(jié),并提出了目前還存在的問(wèn)題,以及對(duì)未來(lái)的展望。
數(shù)據(jù)挖掘;溫室大棚;數(shù)據(jù)清洗;異構(gòu)數(shù)據(jù)
在云計(jì)算和大數(shù)據(jù)等新興技術(shù)的興起和完善,在農(nóng)業(yè)培育領(lǐng)域也出現(xiàn)了相應(yīng)的新技術(shù),其中基于物聯(lián)網(wǎng)技術(shù)的溫室大棚栽培技術(shù)也開始在不斷的發(fā)展。就實(shí)際的應(yīng)用來(lái)看,物聯(lián)網(wǎng)溫室大棚技術(shù)主要是在溫室里面布設(shè)多種傳感器件、控制執(zhí)行器以及由它們構(gòu)成的滴管系統(tǒng)、變溫系統(tǒng)、加濕系統(tǒng)和通風(fēng)系統(tǒng)等。通過(guò)各種各樣的傳感器件將農(nóng)業(yè)栽培活動(dòng)過(guò)程中的海量環(huán)境信息和作物生長(zhǎng)數(shù)據(jù)通過(guò)已有的互聯(lián)網(wǎng)絡(luò)傳輸至云端服務(wù)器進(jìn)行處理、加工,然后再通過(guò)互聯(lián)網(wǎng)傳輸?shù)街悄芙K端系統(tǒng)進(jìn)行展示、智能化管理、電子化交易,對(duì)作物生長(zhǎng)進(jìn)行更加細(xì)粒度的控制。從而改變以往低效、粗放的農(nóng)業(yè)行為,實(shí)現(xiàn)更加高效、節(jié)能、生態(tài)和安全的生產(chǎn)行為。
正由于物聯(lián)網(wǎng)和各種傳感信息獲取技術(shù)的不斷延伸和普及應(yīng)用,使得溫室栽培領(lǐng)域積累的數(shù)據(jù)爆發(fā)式的增長(zhǎng):數(shù)據(jù)增長(zhǎng)速度越來(lái)越快、數(shù)據(jù)體積越來(lái)越大、數(shù)據(jù)結(jié)構(gòu)和維度越來(lái)越復(fù)雜、數(shù)據(jù)的冗余量越來(lái)越多、數(shù)據(jù)處理和應(yīng)用面臨著越來(lái)越大的考驗(yàn)等[1]。各類格式的傳感器無(wú)時(shí)無(wú)刻不在產(chǎn)生著大量的數(shù)據(jù),空氣溫濕度、土壤溫濕度、農(nóng)作物的葉綠素值及其病害情況等數(shù)據(jù)持續(xù)不斷的送往服務(wù)器并被存儲(chǔ)在云端的數(shù)據(jù)倉(cāng)庫(kù)[2]中。如同互聯(lián)網(wǎng)[3]一樣,如今的溫室大棚研究領(lǐng)域也已經(jīng)積累了來(lái)自傳感器的海量數(shù)據(jù),這些數(shù)據(jù)的體積之大和結(jié)構(gòu)之復(fù)雜單靠人工是無(wú)法進(jìn)行全面而透徹的進(jìn)行分析的,所以就需要引入數(shù)據(jù)挖掘相關(guān)的研究算法。
本文首先介紹了數(shù)據(jù)預(yù)處理的常見(jiàn)方法,包含數(shù)據(jù)清洗和多源異構(gòu)數(shù)據(jù)的融合技術(shù),然后對(duì)比了常見(jiàn)的模型構(gòu)建的方法,最后簡(jiǎn)要列舉了數(shù)據(jù)挖掘算法在溫室大棚領(lǐng)域中比較常見(jiàn)的應(yīng)用以及總結(jié),并對(duì)后續(xù)算法研究中面臨的問(wèn)題進(jìn)行了簡(jiǎn)要分析總結(jié)。
數(shù)據(jù)清洗是數(shù)據(jù)預(yù)處理的主要工作,它的目的是提高數(shù)據(jù)的質(zhì)量,以便下一步模型建立。一般來(lái)說(shuō),在實(shí)際傳感器中收集而來(lái)的原始數(shù)據(jù)很可能會(huì)含有很多的缺失值,也有可能包含各種數(shù)據(jù)噪音。這可能是因?yàn)閭鞲衅鞅旧韺?duì)一些異常值的處理方式不同,也有可能是在收集和錄入數(shù)據(jù)時(shí)人為操作失誤導(dǎo)致異常值的產(chǎn)生。這些情況都會(huì)導(dǎo)致數(shù)據(jù)出現(xiàn)不穩(wěn)定性,模糊性,出現(xiàn)殘缺數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)和重復(fù)數(shù)據(jù)等“臟數(shù)據(jù)”,對(duì)之后使用算法模型挖掘出有效的信息產(chǎn)生很大的困擾。因此,在進(jìn)行模型建立之前,我們必須使用一些措施來(lái)對(duì)這些不符合要求的數(shù)據(jù)進(jìn)行清洗,以便提高數(shù)據(jù)的質(zhì)量。
正常情況數(shù)據(jù)清洗的第一個(gè)步驟就是對(duì)數(shù)據(jù)使用一些數(shù)學(xué)方法進(jìn)行統(tǒng)計(jì)分析,通過(guò)一些圖表來(lái)了解哪些數(shù)據(jù)是不合理的,同時(shí)也能夠明白數(shù)據(jù)的基本情況。在分析完數(shù)據(jù)之后,需要對(duì)數(shù)據(jù)的缺失值進(jìn)行處理。缺失值的產(chǎn)生有很多原因,可能是設(shè)備在收集的時(shí)候處理不當(dāng)產(chǎn)生的,也有可能是人工錄入數(shù)據(jù)的時(shí)候不小心看錯(cuò)或者是漏掉導(dǎo)致的。在處理的缺失值的時(shí)候首先應(yīng)該判斷缺失值的分布情況,然后根據(jù)不同的數(shù)據(jù)場(chǎng)景應(yīng)用不同的處理方法。比較常用的缺失值處理方法有以下幾種[4]。
使用均值來(lái)替代,這種方法的好處是:不會(huì)導(dǎo)致樣本信息變少,而且操作起來(lái)也比較簡(jiǎn)單。但是有個(gè)缺點(diǎn)就是當(dāng)缺失數(shù)據(jù)不是隨機(jī)數(shù)據(jù)時(shí)會(huì)產(chǎn)生偏差。對(duì)于正常分布的數(shù)據(jù)可以使用均值代替,如果數(shù)據(jù)是傾斜的,使用中位數(shù)可能更好。
常見(jiàn)的插補(bǔ)法主要以以下幾種:隨機(jī)插補(bǔ)法,從總體中隨機(jī)抽取某個(gè)樣本代替缺失樣本;多重插補(bǔ)法,通過(guò)變量之間的關(guān)系對(duì)缺失數(shù)據(jù)進(jìn)行預(yù)測(cè),利用蒙特卡洛方法生成多個(gè)完整的數(shù)據(jù)集,在對(duì)這些數(shù)據(jù)集進(jìn)行分析,最后對(duì)分析結(jié)果進(jìn)行匯總處理;熱平臺(tái)插補(bǔ),指在非缺失數(shù)據(jù)集中找到一個(gè)與缺失值所在樣本相似的樣本(匹配樣本),利用其中的觀測(cè)值對(duì)缺失值進(jìn)行插補(bǔ),優(yōu)點(diǎn):簡(jiǎn)單易行,準(zhǔn)確率較高,缺點(diǎn):變量數(shù)量較多時(shí),通常很難找到與需要插補(bǔ)樣本完全相同的樣本。但我們可以按照某些變量將數(shù)據(jù)分層,在層中對(duì)缺失值實(shí)用均值插補(bǔ)。
可以用回歸、使用貝葉斯形式化方法的基于推理的工具或決策樹歸納確定。例如,利用數(shù)據(jù)集中其他數(shù)據(jù)的屬性,可以構(gòu)造一棵判定樹,來(lái)預(yù)測(cè)缺失值的值。
以上各種缺失值處理的方法各有優(yōu)劣,在實(shí)際使用的時(shí)候需要根據(jù)具體情況,如數(shù)據(jù)的傾斜度、缺失值所占的比例和分布情況等來(lái)進(jìn)行選取。正常來(lái)說(shuō),建模法由于是根據(jù)已有的值來(lái)預(yù)測(cè)缺失值,準(zhǔn)確率更高,所以是比較常見(jiàn)的方法。
處理完缺失值后,數(shù)據(jù)中往往還會(huì)存在著異常值。從統(tǒng)計(jì)圖形上來(lái)看,異常值通常也稱為“離群點(diǎn)”。在處理異常值的時(shí)候,可以視算法特性而定,有些算法可能對(duì)異常值并不是很敏感,那么就可以不需要對(duì)其進(jìn)行處理,而有的算法對(duì)這些“離群點(diǎn)”比較敏感,比如K-Means,KNN之類的算法,那么就需要對(duì)異常值進(jìn)行處理了。當(dāng)數(shù)據(jù)中可以明顯觀察出異常數(shù)據(jù)量比較少的時(shí)候是可以直接將它們刪除掉,否則可以使用平均值替代法來(lái)進(jìn)行操作,這種方法均有損失小,簡(jiǎn)單高效的優(yōu)點(diǎn)。還有一種方式就是將異常值當(dāng)做缺失值來(lái)進(jìn)行處理,使用以上處理缺失值的方法來(lái)進(jìn)行。
由于一些感知信息如大棚室溫、土壤溫度、空氣濕度等并不是時(shí)刻在發(fā)生著變化,它們更多的是以小時(shí)為時(shí)間單位而發(fā)生變化,而傳感器的數(shù)據(jù)采集頻率正常是遠(yuǎn)沒(méi)有這么久,這就導(dǎo)致了一個(gè)問(wèn)題:數(shù)據(jù)存在極大的冗余性[2]。數(shù)據(jù)冗余性除了會(huì)增加模型的訓(xùn)練時(shí)間之外,還有會(huì)加大數(shù)據(jù)的傳輸量和帶寬延遲。
在消除冗余數(shù)據(jù)方面,Jeffrey提出了基于管道的算法,根據(jù)原始數(shù)據(jù)的特性使用了兩種不同的步驟進(jìn)行處理,這種算法可以很好的處理數(shù)據(jù)的重復(fù)讀取,降低冗余性[6]。Jeffrey在他的另一篇論文中提出一個(gè)基于時(shí)間相關(guān)的數(shù)據(jù)清洗策略,該策略使用一個(gè)可能性模型和來(lái)解決數(shù)據(jù)的泄露問(wèn)題[4]。另外,Sarma 也介紹了一個(gè)管道算法來(lái)提高7去除冗余之后數(shù)據(jù)流的質(zhì)量[8]。
雖然我們?cè)谇拔膶?duì)數(shù)據(jù)進(jìn)行過(guò)清洗,不過(guò)仍然存在問(wèn)題就是數(shù)據(jù)的多源異構(gòu)性。由于數(shù)據(jù)是來(lái)自各種各樣的傳感器,包括環(huán)境感知數(shù)據(jù)、作物生長(zhǎng)數(shù)據(jù)等,這些數(shù)據(jù)從內(nèi)容、格式上來(lái)分析都是不同的,因此如果想對(duì)這些數(shù)據(jù)進(jìn)行下一個(gè)的加工就需要先對(duì)其進(jìn)行融合,將數(shù)據(jù)格式融合統(tǒng)一之后才可以執(zhí)行下一步的加工操作。由布設(shè)于溫室環(huán)境中大量的傳感器和執(zhí)行器所構(gòu)成的環(huán)境數(shù)據(jù)信息感知系統(tǒng)、作物生長(zhǎng)信息感知系統(tǒng)以及滴管系統(tǒng)、變溫系統(tǒng)和通風(fēng)系統(tǒng),將所采集的大量的農(nóng)業(yè)信息數(shù)據(jù)通過(guò)網(wǎng)絡(luò)傳輸?shù)皆贫朔?wù)器進(jìn)行加工處理,以幫助農(nóng)民智能化農(nóng)業(yè)生產(chǎn)活動(dòng),通過(guò)預(yù)警機(jī)制及時(shí)發(fā)現(xiàn)問(wèn)題,準(zhǔn)確知道發(fā)生問(wèn)題的具體位置。實(shí)現(xiàn)以大量傳感設(shè)備和執(zhí)行設(shè)備為中心的智能化生產(chǎn)模式,通過(guò)各種自動(dòng)化、智能化、遠(yuǎn)程控制的生產(chǎn)設(shè)備使得人從繁重的農(nóng)務(wù)中解放出來(lái)。在上述系統(tǒng)中,主要的傳感器設(shè)備包括溫濕度傳感器、酸堿性傳感器、二氧化碳傳感器和光照傳感器等設(shè)備,運(yùn)用這些傳感器對(duì)溫室環(huán)境進(jìn)行偵測(cè),所得結(jié)果數(shù)據(jù)類似如表1所示。將傳感器傳回來(lái)的各種數(shù)據(jù)通過(guò)儀表和各類顯示走勢(shì)圖實(shí)時(shí)展示溫室情況,對(duì)作物的生長(zhǎng)環(huán)境進(jìn)行實(shí)時(shí)監(jiān)控以保證作物的健壯成長(zhǎng)。
產(chǎn)生于不同種類的傳感器件的各種各樣的數(shù)據(jù)信息,對(duì)之后的數(shù)據(jù)加工有著很大的干擾,直接利用它們進(jìn)行分析預(yù)測(cè)會(huì)導(dǎo)致結(jié)果模型不穩(wěn)定,模型不夠魯棒,而且數(shù)據(jù)處理過(guò)程中由于要判斷不一樣的數(shù)據(jù)也會(huì)導(dǎo)致梳處理速度變慢。因此,可以使用數(shù)據(jù)融合技術(shù)對(duì)這些異構(gòu)數(shù)據(jù)進(jìn)行預(yù)處理,使其形成完整統(tǒng)一的數(shù)據(jù),這樣才可以繼續(xù)下一步的預(yù)測(cè)模型構(gòu)建,數(shù)據(jù)融合技術(shù)是數(shù)據(jù)預(yù)處理過(guò)程中的主要工作。
1991年,由美國(guó)(joint directors of laboratories, JDL)提出了一種數(shù)據(jù)融合模型[10],業(yè)界的大部分研究者都接受這個(gè)融合模型。當(dāng)前,由于已有的大多數(shù)融合系統(tǒng)在實(shí)現(xiàn)的細(xì)節(jié)上還存在著諸多的不一致,所以很多學(xué)者還在尋求一種新的理想的模型框架。不過(guò),幸運(yùn)的是現(xiàn)有的一些工具或者方案可以符合一些功能上的要求,比如FLAMES系統(tǒng)、SceneGen[11]工具、MRS[12]工具等系統(tǒng)和工具。數(shù)據(jù)信息融合的研究設(shè)計(jì)到很多理論知識(shí),從數(shù)據(jù)結(jié)構(gòu)算法的角度來(lái)看,大概可以分為:人工智能方法和概率統(tǒng)計(jì)方法兩個(gè)大類。其中人工智能方法中模糊理論神經(jīng)網(wǎng)絡(luò)、D-S 證據(jù)推理、Bayes 估計(jì)這3個(gè)占了融合算法的85%,另外粗糙集等機(jī)器、遺傳算法、支持向量機(jī)學(xué)習(xí)方法也已經(jīng)開始在信息融合中深入應(yīng)用。常見(jiàn)的機(jī)器學(xué)習(xí)融合算法主要有表2所描述的幾種。
除了從算法的角度進(jìn)行分類之外,還可以從異構(gòu)數(shù)據(jù)集成技術(shù)的角度來(lái)對(duì)數(shù)據(jù)融合方法進(jìn)行分類,分為模式集成方法和數(shù)據(jù)復(fù)制方法。其中,模式集成方法主要思路是通過(guò)將所有的數(shù)據(jù)源集中成一個(gè)全局模式,用戶在使用的時(shí)候可以基于全局模式來(lái)透明的訪問(wèn)每一個(gè)數(shù)據(jù)集里面的數(shù)據(jù),中間件集成方法和聯(lián)邦數(shù)據(jù)庫(kù)是當(dāng)下兩種比較典型的模式集成方法[15],如表3所示。而數(shù)據(jù)復(fù)制方法的主要思想是通過(guò)將異構(gòu)的數(shù)據(jù)集統(tǒng)一存放在中央數(shù)據(jù)庫(kù)里面,其中,數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)復(fù)制方法中比較受歡迎的一種方法。Hadley通過(guò)定義對(duì)數(shù)據(jù)語(yǔ)義的理解和映射,使用典型的關(guān)系型數(shù)據(jù)庫(kù)對(duì)其做了新的定義[16],使用變量名作為數(shù)據(jù)表的列,具體的數(shù)據(jù)存放在二維表關(guān)系表的行里面,從而將多遠(yuǎn)異構(gòu)數(shù)據(jù)融合存放在一個(gè)新的統(tǒng)一數(shù)據(jù)庫(kù)里面[17]。
表2 常見(jiàn)的機(jī)器學(xué)習(xí)數(shù)據(jù)融合算法
表3 傳統(tǒng)的異構(gòu)數(shù)據(jù)集成工程技術(shù)
在處理完大量異構(gòu)數(shù)據(jù)的預(yù)處理和信息融合等工作之后,接下來(lái)的任務(wù)就是進(jìn)行植物生長(zhǎng)預(yù)測(cè)模型的構(gòu)建工作。模型構(gòu)建的主要過(guò)程是在缺失的、海量的、隨機(jī)和有雜音的數(shù)據(jù)中,通過(guò)一些數(shù)據(jù)挖掘算法分析出這些傳感數(shù)據(jù)信息里面所包含的、潛在有價(jià)值的信息和知識(shí)的過(guò)程。由于溫室作物栽培過(guò)程的一些特性:作物類型繁多,土壤種類復(fù)雜且不易檢測(cè),密度、水分和氣候等多種因素之間相互影響影響,作物病害頻繁發(fā)生且不斷出現(xiàn)新的癥象,這樣就使得關(guān)于數(shù)據(jù)庫(kù)與知識(shí)庫(kù)具有多個(gè)維度、數(shù)據(jù)不完整、矩陣稀疏性高、數(shù)據(jù)量大、數(shù)據(jù)不確定、動(dòng)態(tài)等特征,使得本來(lái)就復(fù)雜的傳感數(shù)據(jù)變得更加的模糊不清。所以,在選擇模型構(gòu)建方法的時(shí)候,所選擇的方法應(yīng)該要適合與處理溫室農(nóng)業(yè)領(lǐng)域的相關(guān)數(shù)據(jù)特征。此外前面所提及的數(shù)據(jù)有領(lǐng)一個(gè)重要的特征,那就是它的測(cè)量方式往往是和當(dāng)前時(shí)間互相掛鉤的,因此在進(jìn)行數(shù)據(jù)分析的時(shí)候,應(yīng)該要盡量考慮時(shí)間方面的因素。模型構(gòu)建的主要步驟如下所示[20](圖1):
表4 智慧農(nóng)業(yè)上常用的模型構(gòu)建方法
1)數(shù)據(jù)定義:創(chuàng)建元數(shù)據(jù),定義相關(guān)專業(yè)領(lǐng)域的情況,了解基礎(chǔ)知識(shí)背景,理清用戶的需求。這是創(chuàng)建數(shù)據(jù)質(zhì)量改善方法和數(shù)據(jù)倉(cāng)庫(kù)的首要步驟。
2)數(shù)據(jù)準(zhǔn)備:這一步是數(shù)據(jù)分析挖掘過(guò)程中的重要環(huán)節(jié),需要對(duì)原始數(shù)據(jù)進(jìn)行清洗和過(guò)濾操作,然后檢驗(yàn)數(shù)據(jù)的一致性和完備性,其中,主要的工作是處理噪音數(shù)據(jù),以及對(duì)缺失的數(shù)據(jù)進(jìn)行填充。
3)模型構(gòu)建:通過(guò)對(duì)比多種數(shù)據(jù)挖掘算法,選出符合要求的算法,然后確定最終的預(yù)測(cè)算法。
4)數(shù)據(jù)挖掘:利用前一步驟所選擇的預(yù)測(cè)算法,從經(jīng)過(guò)預(yù)處理的數(shù)據(jù)中分析出用戶想要的信息,將這些信息提煉成某種特定的規(guī)則表達(dá)式,然后持久化存儲(chǔ)。
5)知識(shí)評(píng)估:知識(shí)評(píng)估包含知識(shí)的解釋、知識(shí)外推和預(yù)測(cè)模型的優(yōu)化等等。將挖掘得到的知識(shí)以用戶可以容易理解的方式展示出來(lái),根據(jù)用戶的需求對(duì)數(shù)據(jù)挖掘過(guò)程中的繆寫步驟進(jìn)行修改優(yōu)化,直到符合用戶的要求為止。
在智慧農(nóng)業(yè)發(fā)展過(guò)程中,主要有以下表4所述的幾種模型構(gòu)建方法比較常見(jiàn)。
圖1 數(shù)據(jù)挖掘過(guò)程
在大棚農(nóng)業(yè)系統(tǒng)中,由于土壤類型眾多,作物品種復(fù)雜,病蟲害發(fā)生頻繁且病發(fā)癥狀不斷變化,土壤營(yíng)養(yǎng)成分、溫濕度以及氣候相互之間的關(guān)系和影響,仍然還有許多未知的規(guī)律還未被人類所發(fā)現(xiàn)。在前面介紹完數(shù)據(jù)清洗和數(shù)據(jù)融合技術(shù)等預(yù)處理技術(shù)以及常見(jiàn)的模型構(gòu)建方法之后,本節(jié)主要介紹數(shù)據(jù)挖掘技術(shù)在大棚農(nóng)業(yè)系統(tǒng)上的常見(jiàn)應(yīng)用場(chǎng)景,主要有圖2所示的幾個(gè)應(yīng)用。
圖2 數(shù)據(jù)挖掘在大棚農(nóng)業(yè)上的應(yīng)用
預(yù)測(cè)模型在大棚栽培的作物病害應(yīng)用,歸納起來(lái)有這幾種:發(fā)生趨勢(shì)預(yù)測(cè)、風(fēng)險(xiǎn)評(píng)估病及其蟲害動(dòng)態(tài)監(jiān)測(cè)等應(yīng)用。溫室作物里病害的發(fā)生條件受到了栽培耕作條件、農(nóng)作物布局、氣象條件和品種抗性等多種因素的作用,另外由于氣候溫度等的原因,所以病害的發(fā)生也與地理空間有一定的關(guān)聯(lián)。預(yù)測(cè)模型能夠用來(lái)預(yù)測(cè)在某個(gè)時(shí)間段內(nèi)發(fā)生病害的概率,以及所發(fā)生的病害的樂(lè)行,從而為病害的預(yù)防治理決策提供參考支持。病蟲害導(dǎo)致我國(guó)每年的經(jīng)濟(jì)損失達(dá)到了15~25%,因此研究病蟲害的預(yù)測(cè)結(jié)果對(duì)農(nóng)業(yè)的發(fā)展具有很大的意義。
關(guān)聯(lián)規(guī)則挖掘(Association Rule Mining)最早是為了發(fā)現(xiàn)超市交易數(shù)據(jù)庫(kù)中不同的商品之間的關(guān)系。它用于挖掘數(shù)據(jù)中隱含的練習(xí),通過(guò)關(guān)聯(lián)規(guī)則形式表示。Apriori算法是最有影響的挖掘關(guān)聯(lián)規(guī)則的算法之一,該算法目前已應(yīng)用于農(nóng)業(yè)、商業(yè)、林業(yè)和教育等方面。Apriori算法通過(guò)分析事物之間的相互依賴關(guān)系,能發(fā)現(xiàn)和提取隱藏在在數(shù)據(jù)背后的有效知識(shí),有助于人們認(rèn)識(shí)和理解其中存在著的客觀規(guī)律,具有很大的實(shí)用價(jià)值。Perrizo et al.通過(guò)使用Apriori算法,在支持度仍然比較低的情況下,通過(guò)尋找較高的置信度規(guī)則來(lái)預(yù)測(cè)溫室中作物蟲害的數(shù)量規(guī)模[25]。Wang et al.利用已收集的溫室環(huán)境信息和Apriori算法提出了一個(gè)預(yù)測(cè)模型來(lái)構(gòu)建實(shí)時(shí)的溫室環(huán)境參數(shù)監(jiān)測(cè)和植大棚作物蟲害疾病監(jiān)控系統(tǒng)[26]。Tripathy et al.使用關(guān)聯(lián)規(guī)則挖掘技術(shù)發(fā)現(xiàn)了在溫室環(huán)境溫度18-20攝氏度,作物葉面濕度在7~10%,以及濕度處于70%或更高的時(shí)候是容易產(chǎn)生蟲害的一個(gè)影響條件[27]。另外,Pratheepa et al.也發(fā)現(xiàn)了當(dāng)溫室環(huán)境最高溫度處于28.3~33.1攝氏度,而最低溫度處于 16.5~22.07 攝氏度并且相關(guān)濕度是在45.5~60%范圍的時(shí)候,作物蟲害事件的出現(xiàn)概率大大提高[28]。
大多數(shù)決策支持系統(tǒng)中的專家知識(shí)庫(kù)是建立在相應(yīng)領(lǐng)域的專家只是的基礎(chǔ)上的,并且大棚農(nóng)業(yè)領(lǐng)域中的專家只是多事經(jīng)驗(yàn)性和描述性的,這就導(dǎo)致了很難使用數(shù)學(xué)模型對(duì)這些知識(shí)進(jìn)行描述,所以專家決策支持系統(tǒng)存在著知識(shí)庫(kù)中知識(shí)獲取難度大、知識(shí)量少等難題。大棚農(nóng)業(yè)生產(chǎn)支持決策系統(tǒng)是指以區(qū)域農(nóng)業(yè)經(jīng)濟(jì)為研究對(duì)象,以農(nóng)業(yè)可持續(xù)發(fā)展為決策目標(biāo),對(duì)大棚生產(chǎn)中的非結(jié)構(gòu)化決策問(wèn)題,通過(guò)提供溫室環(huán)境和社會(huì)環(huán)境的背景資料協(xié)助明確問(wèn)題、模型計(jì)算和列舉可能發(fā)案等方式,為大棚生產(chǎn)的管理者做出正確決策提供幫助。
M.G.Hill et al.使用2008-2011年來(lái)自新西蘭的四年的農(nóng)場(chǎng)大棚數(shù)據(jù),分別使用決策樹、素樸貝葉斯、隨機(jī)森林、支持向量機(jī)以及邏輯回歸等數(shù)據(jù)挖掘技術(shù)在2008-2010三年的數(shù)據(jù)上構(gòu)建了5個(gè)預(yù)測(cè)模型,然后預(yù)測(cè)2011年該年是否需要對(duì)獼猴桃作物進(jìn)行農(nóng)藥噴灑。得出了每個(gè)模型各不一樣的預(yù)測(cè)效果,其中決策樹的準(zhǔn)確率為49%,隨機(jī)森林的準(zhǔn)確率為98%,而樸素貝葉斯的準(zhǔn)確率則為95%[29]。Sadok et al.提出了一個(gè)基于決策樹算法的MASC模型,該模型將比較大而復(fù)雜的決策問(wèn)題分解為一個(gè)個(gè)簡(jiǎn)單的以經(jīng)濟(jì)、社會(huì)和環(huán)境3個(gè)變量為維度的單元問(wèn)題,產(chǎn)生32個(gè)重要的全局向量元素來(lái)評(píng)價(jià)作物系統(tǒng)[30]。Ellis et al.提出了包含數(shù)據(jù)庫(kù),地理信息系統(tǒng),預(yù)測(cè)模型,知識(shí)庫(kù)或?qū)<蚁到y(tǒng),以及“混合”決策支持系統(tǒng)等元素的基于數(shù)據(jù)挖掘技術(shù)的決策支持工具,促進(jìn)指導(dǎo)農(nóng)林業(yè)發(fā)展,建議采納和管理方面的決策過(guò)程,提高農(nóng)林業(yè)同時(shí)實(shí)現(xiàn)環(huán)境保護(hù)和農(nóng)業(yè)生產(chǎn)目標(biāo)的能力[31]。Latika et al.使用數(shù)據(jù)挖掘技術(shù)構(gòu)建了知識(shí)管理系統(tǒng)和OLAP在線分析系統(tǒng)[32]。
在我國(guó)傳統(tǒng)農(nóng)業(yè)的發(fā)展過(guò)程中,對(duì)于作物產(chǎn)量和果實(shí)質(zhì)量的預(yù)測(cè)都是靠著果農(nóng)的過(guò)往經(jīng)驗(yàn)來(lái)進(jìn)行預(yù)測(cè)的,特別是在環(huán)境氣候因素與常年的情況偏離比較大的時(shí)候,這種人為預(yù)測(cè)的效果與實(shí)際值的偏差就更大了。當(dāng)前在預(yù)測(cè)領(lǐng)域中,已經(jīng)有不少的數(shù)據(jù)挖掘技術(shù)被付諸實(shí)踐,如神經(jīng)網(wǎng)絡(luò)、遺傳算法和高斯過(guò)程等技術(shù),在各種預(yù)測(cè)領(lǐng)域中發(fā)揮著重要作用。其中使用數(shù)據(jù)挖掘進(jìn)行預(yù)測(cè)的思路主要是從已有的各種數(shù)據(jù)中尋找潛在的模式和趨勢(shì)的過(guò)程,目標(biāo)是對(duì)大量的數(shù)據(jù)進(jìn)行分類,從而發(fā)現(xiàn)新的信息。目前已有不少研究人員用相應(yīng)的挖掘技術(shù)對(duì)大棚作物的成長(zhǎng)過(guò)程進(jìn)行了預(yù)測(cè)。
Georg et al.使用人工神經(jīng)網(wǎng)絡(luò)技術(shù)對(duì)小麥的產(chǎn)量進(jìn)行預(yù)測(cè),根據(jù)季節(jié)環(huán)境信息,土壤肥沃程度等數(shù)據(jù)預(yù)測(cè)的結(jié)果在誤差允許的范圍內(nèi),并且從環(huán)境和經(jīng)濟(jì)的角度實(shí)現(xiàn)了肥料的優(yōu)化用法,提高了經(jīng)濟(jì)效益[33]。Cortet et al.根據(jù)法國(guó)東北部10年以來(lái)土壤中的生物肥料和礦物質(zhì)等數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)生物尸體堆土壤中的磷成分有很大的影響,該論文使用數(shù)據(jù)挖掘技術(shù)驗(yàn)證了生物尸體對(duì)于維持土壤中的磷成分的方法是比較穩(wěn)妥的[34]。貝葉斯分類技術(shù)是一種統(tǒng)計(jì)學(xué)分類方法,利用概率論統(tǒng)計(jì)知識(shí)進(jìn)行分類的算法,具有分類簡(jiǎn)單、準(zhǔn)確率高和速度快等優(yōu)點(diǎn)。Shahinfar et al.使用樸素貝葉斯算法結(jié)合26個(gè)農(nóng)場(chǎng)數(shù)據(jù),對(duì)產(chǎn)量進(jìn)行了精準(zhǔn)的預(yù)測(cè)[35]。
綜合以上的概述來(lái)看,數(shù)據(jù)挖掘技術(shù)對(duì)該領(lǐng)域的數(shù)據(jù)分析主要還是停留在對(duì)經(jīng)驗(yàn)數(shù)據(jù)的概率統(tǒng)計(jì)上,大部分的預(yù)測(cè)模型的預(yù)測(cè)準(zhǔn)確性并不是很高,使用的預(yù)測(cè)算法主要是來(lái)自其他領(lǐng)域較為成熟的應(yīng)用算法,各種算法的研發(fā)和應(yīng)用仍然有待提高,缺少大棚農(nóng)業(yè)上的特色算法的創(chuàng)新和研制,研究人員應(yīng)該利用溫室培植的獨(dú)有特點(diǎn),然后結(jié)合已有的成熟算法進(jìn)一步改造或者創(chuàng)造出適合溫室作物生產(chǎn)生長(zhǎng)預(yù)測(cè)的模型算法。
由于信息科學(xué)技術(shù)的高速發(fā)展,使得大棚農(nóng)業(yè)也快速走上了信息化和智能化的道路。本文分別從數(shù)據(jù)預(yù)處理,模型構(gòu)建和預(yù)測(cè)模型的應(yīng)用。數(shù)據(jù)預(yù)處理主要包含了數(shù)據(jù)清洗和多源異構(gòu)數(shù)據(jù)的融合兩部分,然后分析比較了數(shù)據(jù)挖掘在溫室大棚上常用的模型預(yù)測(cè)方法,最后對(duì)這些模型構(gòu)建方法在農(nóng)業(yè)大棚上的應(yīng)用情況進(jìn)行了分析了舉例,闡述當(dāng)前的研究狀況。另外,從溫室大棚和智慧農(nóng)業(yè)的角度來(lái)說(shuō),目前仍然存在以下幾個(gè)問(wèn)題。
第一個(gè)問(wèn)題體現(xiàn)在數(shù)據(jù)預(yù)處理方面的數(shù)據(jù)缺失,模糊問(wèn)題。所以在未來(lái),應(yīng)該克服傳感器在收集數(shù)據(jù)時(shí)候出現(xiàn)的數(shù)據(jù)丟失和模糊等問(wèn)題,可以在保存數(shù)據(jù)的時(shí)候?qū)ζ溥M(jìn)行格式的驗(yàn)證等;第二個(gè)問(wèn)題是數(shù)據(jù)異構(gòu)性仍然是當(dāng)前需要面對(duì)的一個(gè)問(wèn)題,如果能夠統(tǒng)一數(shù)據(jù)格式和傳輸協(xié)議,相信這個(gè)問(wèn)題也是能夠得到很好的解決;最后一個(gè)問(wèn)題是預(yù)測(cè)模型的創(chuàng)新,研究人員應(yīng)該著重于農(nóng)業(yè)培植的獨(dú)有特點(diǎn),結(jié)合已有的成熟算法進(jìn)一步改造或者創(chuàng)造出適合大棚農(nóng)業(yè)作物生產(chǎn)生長(zhǎng)預(yù)測(cè)的模型算法。
因此,我們應(yīng)當(dāng)在互聯(lián)網(wǎng)+的時(shí)代下,把握機(jī)會(huì)努力發(fā)展智慧農(nóng)業(yè),克服以上的問(wèn)題[36-38],讓智慧農(nóng)業(yè)變得更加的智慧,更加自動(dòng)化,以便減少人力和物力等資源的耗費(fèi)。
[1] 王元卓, 靳小龍, 程學(xué)旗. 網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J]. 計(jì)算機(jī)學(xué)報(bào), 2013, 36(6):1125-1138.
[2] Abdullah A, Hussain A. Data mining a new pilot agriculture extension data warehouse[J]. Journal of Research & Practice in Information Technology, 2006, 38(3):229-249.
[3] Brin S, Page L. The anatomy of a large-scale hypertextual Web search engine[A]. International Conference on World Wide Web[C]. Elsevier Science Publishers B. V. 1998:107-117.
[4] Bertossi L, Kolahi S, Lakshmanan L V S. Data Cleaning and Query Answering with Matching Dependencies and Matching Functions[J]. Theory of Computing Systems, 2013, 52(3):441-482.
[5] Wang L, Xu L D, Bi Z, et al. Data Cleaning for RFID and WSN Integration[J]. IEEE Transactions on Industrial Informatics, 2014, 10(1):408-418.
[6] Jeffery S R, Alonso G, Franklin M J, et al. A Pipelined Framework for Online Cleaning of Sensor Data Streams[A]. International Conference on Data Engineering. DBLP[C]. 2006:140-140.
[7] Jeffery S R, Garofalakis M, Franklin M J. Adaptive cleaning for RFID data streams[A]. International Conference on Very Large Data Bases[C]. Seoul, Korea, 2006:163-174.
[8] Sarma A D, Jeffery S R, Franklin M J, et al. Estimating data stream quality for object-detection applications[J]. Technical Report, 2006.
[9] 李治強(qiáng), 苗放. 多源異構(gòu)數(shù)據(jù)整合在信用系統(tǒng)中的應(yīng)用研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2007, 17(2):172-174.
[10] Dasarathy B V. Revisions to the JDL data fusion model[J]. Proceedings of SPIE - The International Society for Optical Engineering, 1999, 3719:430-441.
[11] Mehta C, Srimathveeravalli G, Kesavadas T. An approach to design and development of decentralized data fusion simulator[A]. Winter Simulation Conference[C]. IEEE, 2005:7 pp.
[12] Vanhamme L, Van d B A, Van H S. Improved method for accurate and efficient quantification of MRS data with use of prior knowledge[J]. 1997, 129(1):35-43.
[13] Zhang J, Kang D K, Silvescu A, et al. Learning accurate and concise naive Bayes classifiers from attribute value taxonomies and data[J]. Knowledge and Information Systems, 2006, 9(2):157-179.
[14] Shevade S K, Keerthi S S, Bhattacharyya C, et al. Improvements to the SMO algorithm for SVM regression[J]. IEEE Transactions on Neural Networks, 2000, 11(5):1188-93.
[15] 李曉麗. 異構(gòu)數(shù)據(jù)集成技術(shù)在物聯(lián)網(wǎng)中的研究與應(yīng)用[D]. 北京:北京郵電大學(xué), 2013.
[16] Grolemund G, Wickham H. A Cognitive Interpretation of Data Analysis[J]. International Statistical Review, 2014, 82(2):184-204.
[17] Wickham H. Tidy data[J]. Journal of Statistical Software, 2014, 059.
[18] 朱好好. 異構(gòu)數(shù)據(jù)融合中間件的研究與應(yīng)用[D]. 武漢:華中科技大學(xué), 2012.
[19] Delgado G, Aranda V, Calero J, et al. Using fuzzy data mining to evaluate survey data from olive grove cultivation.[J]. Computers & Electronics in Agriculture, 2009, 65(1):99-113.
[20] Fernandez Martinez R,Martinez-de-Pison Ascacibar F J, Pernia Espinoza A V, et al. Predictive modelling in grape berry weight during maturation process: comparison of data mining, statistical and artificial intelligence techniques[J]. Spanish Journal of Agricultural Research 2011 9(4), 1156-1167.
[21] Wu X, Kumar V, Ross Quinlan J, et al. Top 10 algorithms in data mining[J]. Knowledge and Information Systems, 2008, 14(1):1-37.
[22] Tsang I W, Kwok J T, Cheung P M. Core Vector Machines: Fast SVM Training on Very Large Data Sets[J]. Journal of Machine Learning Research, 2005, 6(1):363-392.
[23] Ahmed S, Coenen F, Leng P. Tree-based partitioning of date for association rule mining[J]. Knowledge and Information Systems, 2006, 10(3):315-331.
[24] Caruana R, Niculescu-Mizil A. An empirical comparison of supervised learning algorithms[A]. International Conference on Machine Learning[C]. ACM, 2006:161-168.
[25] Perrizo W, Ding Q, Ding Q, et al. Deriving High Confidence Rules from Spatial Data Using Peano Count Trees.[J]. Lecture Notes in Computer Science, 2001, 2118:91-102.
[26] Wang X F, Wang Z, Zhang S W, et al. Monitoring and Discrimination of Plant Disease and Insect Pests based on agricultural IOT[A]. International Conference on Information Technology and Management Innovation[C]. 2015.
[27] Tripathy A K, Adinarayana J, Vijayalakshmi K, et al. Knowledge discovery and Leaf Spot dynamics of groundnut crop through wireless sensor network and data mining techniques[J]. Computers & Electronics in Agriculture, 2014, 107(107):104-114.
[28] Pratheepa M, Verghese, Abraham, Bheemanna, H. Weighted Association rule mining for the occurrence of the insect pest Helicoverpa armigera(Hubner) related with abiotic factors on cotton[A]. International Conference on Computing For Sustainable Global Development[C]. 2016.
[29] Hill M G, Connolly P G, Reutemann P, et al. The use of data mining to assist crop protection decisions on kiwifruit in New Zealand[J]. Computers & Electronics in Agriculture, 2014, 108:250-257.
[30] Sadok W, Angevin F, Bergez J E, et al. MASC, a qualitative multi-attribute decision model for ex ante assessment of the sustainability of cropping systems.[J]. Agronomy for Sustainable Development, 2009, 29(3):447-461.
[31] Ellis E A, Bentrup G, Schoeneberger M M. Computer-based tools for decision support in agroforestry: Current state and future needs[J]. Agroforestry Systems, 2004, 61(1):401-421.
[32] Latika Sharma, Nitu Mehta. Data Mining Techniques: A Tool For Knowledge Management System In Agriculture[J]. International Journal of Scientific & Technology Research, 2012, 1(5):67-73.
[33] Rub G, Kruse R, Schneider M, et al. Data Mining with Neural Networks for Wheat Yield Prediction[J]. Lecture Notes in Computer Science, 2008, 5077:47-56.
[34] Cortet J, Kocev D, Ducobu C, et al. Using data mining to predict soil quality after application of biosolids in agriculture.[J]. Journal of Environmental Quality, 2011, 40(6):1972-1982.
[35] Shahinfar S, Page D, Guenther J, et al. Prediction of insemination outcomes in Holstein dairy cattle using alternative machine learning algorithms[J]. Journal of Dairy Science, 2014, 97(2):731-42.
[36] Qiang Y, Xindong W. 10 challenging problems in data mining research[J]. International Journal of Information Technology & Decision Making, 2006,5(4):597-604.
[37] Ojha T, Misra S, Raghuwanshi N S. Wireless sensor networks for agriculture: The state-of-the-art in practice and future challenges[J]. Computers & Electronics in Agriculture, 2015, 118(3):66-84.
ApplicationofDataMininginGreenhouse
Zheng Zengwei1, Chen Hanqun1,2, Sun Lin1, Cai Jianping1
(1.Hangzhou Key Laboratory for IoT Technology &Application, Zhejiang University City College, Hangzhou 310015,China;2.School of Computer Science and Technology, Zhejiang University, Hangzhou 310015,China)
With the rise of the Internet of Things, data accumulation speed, dimension and volume are also growing, and has become a real big data category. The large variety of sensors deployed in agricultural greenhouses produces a large number of multi-source heterogeneous sensing data, and there are various types of dirty data that need to be cleaned. In this paper, data cleaning, model building and model application are described in detail. Firstly, data cleaning technology and multi-source heterogeneous data fusion technology are introduced. Then, common forecasting model construction methods are listed. Finally, common application fields are introduced. Summarizes and puts forward the existing problems, as well as the prospect of the future.
data mining; greenhouse; data clean; heterogeneous data
2017-04-08;
2017-05-23。
杭州市農(nóng)業(yè)科研主動(dòng)設(shè)計(jì)項(xiàng)目(20162012A06);杭州市農(nóng)業(yè)科研自主申報(bào)項(xiàng)目(20170432B30);杭州市物聯(lián)網(wǎng)技術(shù)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室及杭州市農(nóng)業(yè)科研主動(dòng)設(shè)計(jì)項(xiàng)目(20162012A06)。
鄭增威(1969-),男,教授,主要從事數(shù)據(jù)挖掘、普適計(jì)算、物聯(lián)網(wǎng)技術(shù)等方向的研究。
孫 霖(1979-),男,博士,主要從事數(shù)據(jù)挖掘、普適計(jì)算、物聯(lián)網(wǎng)技術(shù)等方向的研究。
1671-4598(2017)11-0123-06
10.16526/j.cnki.11-4762/tp.2017.11.032
TP312
A