蘇圣陽,張壽明
(1.昆明理工大學(xué)信息工程與自動化學(xué)院,云南昆明650000;2.昆明理工大學(xué),云南昆明650000)
馬鈴薯晚疫病是由疫霉(Phytophthora spp.)引起的嚴(yán)重的真菌病。馬鈴薯晚疫菌因?qū)е埋R鈴薯莖葉死亡和塊莖腐爛而成為馬鈴薯病害中危害最大的病原菌。由于云南地區(qū)獨特的氣候條件、夏秋多雨、氣候濕潤冷涼為馬鈴薯晚疫病的發(fā)生傳播提供了有利條件,馬鈴薯晚疫病在云南發(fā)生普遍,危害呈上升趨勢,已嚴(yán)重制約著馬鈴薯產(chǎn)業(yè)的發(fā)展[1]。研究馬鈴薯晚疫病發(fā)生流行規(guī)律與氣象條件的關(guān)系,建立馬鈴薯晚疫病短期預(yù)報模型,可為種植者提供預(yù)報信息,對馬鈴薯產(chǎn)業(yè)發(fā)展有著重要意義。
馬鈴薯晚疫病預(yù)報常用方法有回歸分析、聚類分析等。張壽明等[2]將神經(jīng)網(wǎng)絡(luò)用于馬鈴薯晚疫病長期預(yù)報中,取得了較好的效果;謝成君等[3]提出用灰色系統(tǒng)理論建立預(yù)報模型,及時對病害年度間消長動態(tài)進行預(yù)報,可作出較正確的長期預(yù)報;馬旭潔等[4]采用回歸分析法建立短期預(yù)報模型,為適時指導(dǎo)馬鈴薯晚疫病田間藥劑防治提供了參考?;貧w分析法具有方法簡單、預(yù)報速度快、比較容易推廣應(yīng)用等優(yōu)點,但很難建立合適的方程使其殘差滿足互不相關(guān)性、平穩(wěn)性、正態(tài)分布性等條件,導(dǎo)致擬合率低或者預(yù)報不準(zhǔn)確。鑒于此,筆者首先采用回歸分析法建立模型,然后再運用時間序列對回歸模型的殘差進行建模,充分提出信息,避免了上述問題,分別建立了單一的回歸分析模型和混合模型,并利用歷史數(shù)據(jù)資料的回代對模型進行了精度檢驗,旨在為馬鈴薯晚疫病的預(yù)報及防控提供借鑒。
1.1 回歸分析模型 回歸分析是建立在對客觀事物進行大量實驗和觀察的基礎(chǔ)上,用來尋找隱藏在那些看上去是不確定的現(xiàn)象中的統(tǒng)計規(guī)律性的統(tǒng)計方法[5]。假設(shè)因變量y與自變量x1,x2,…,xn之間存在線性關(guān)系,則可以用線型回歸模型來擬合因變量和自變量的數(shù)據(jù),并通過確定模型參數(shù)得到回歸方程:
式中,α0,α1,…,αn是 n+1 個未知參數(shù),α0為回歸常數(shù),α1,…,αn為回歸系數(shù);y為因變量;x1,x2,…,xn為自變量;ε為隨機誤差。
1.2 時間序列模型 時間序列分析是通過研究數(shù)據(jù)的內(nèi)在規(guī)律,利用過去的資料預(yù)測未來的變化趨勢。時間序列不僅與以前時刻的自身值有關(guān),而且還與以前進入系統(tǒng)的隨機干擾存在一定的關(guān)系,它就是自回歸移動平均模型,記為ARMA(p,q),模型的形式如下[6]:
式中,εt~WN(0,σ2ε)。用滯后算子B可以將ARMA(p,q)模型進一步寫為:
馬鈴薯晚疫病的發(fā)展流行是受到同時期和不同時期因素綜合影響的結(jié)果。針對晚疫病的上述特點,該研究提出一種混合模型:先用回歸分析法來提取晚疫病在同時期的影響信息,再用時間序列分析法提取晚疫病不同時期的影響信息。
假定運用回歸分析法在t時期的晚疫病感染度值yt與t時期的N個主要影響因素xit之間建立模型:
式中,α0+∑Ni=1αixit為回歸方程;εt是隨機誤差項,也就是晚疫病感染度值yt與回歸方程擬合值之間的殘差。
利用回歸分析模型(4)可以給出晚疫病病情的預(yù)報值,而預(yù)報的誤差來源于隨機誤差項,它的未來是不可預(yù)測的。為了避免回歸模型的有偏估計,采用最小二乘法估計回歸模型的參數(shù)時要求殘差是互不相關(guān),呈正態(tài)分布的。對于像晚疫病預(yù)報等很多實際系統(tǒng)中,往往由于研究者認(rèn)識水平的局限性,很難找到全部影響因素來建立完美的回歸方程,所以該殘差的互不相關(guān)性、平穩(wěn)性、正態(tài)分布性等條件很難滿足。在建立馬鈴薯晚疫病預(yù)報模型的實際過程中,只能盡量提高回歸模型的擬合精確度和殘差的平穩(wěn)性。對于殘差中存在的相關(guān)性和非正態(tài)性,采用時間序列分析法發(fā)揮其在平穩(wěn)數(shù)據(jù)中建模的優(yōu)點,以提取殘差中的相關(guān)性、非正態(tài)性的信息。也就是運用時間序列分析對回歸模型的殘差序列建立ARIMA模型,然后利用ARIMA模型得到殘差項εt的預(yù)測,以進一步提取晚疫病感染度yt的信息,構(gòu)建回歸分析和時間序列混合預(yù)報模型如下:
式中,ηt是服從正態(tài)分布的誤差項,它的方差與εt的方差可能不同,顯然它既包含了可由回歸模型描述部分的殘差,又包含了回歸模型描述不了的那部分yt的時間序列模型的殘差。
選取云南省馬龍地區(qū)2003~2012年連續(xù)10年的馬鈴薯晚疫病病情資料,建立馬鈴薯晚疫病短期預(yù)報模型,并用歷史資料回代來檢驗?zāi)P偷木取?/p>
3.1 回歸模型分析 按式(1),將實例中的數(shù)據(jù)代入回歸模型中,采用最小二乘法進行參數(shù)估計,運用逐步回歸法篩選出最優(yōu)回歸方程,經(jīng)過顯著性F檢驗和t檢驗的方程如下:
式中,y為馬鈴薯晚疫病感染度值;x1為短濕潤期內(nèi)溫度在10℃≤T<12℃的小時數(shù);x2為短濕潤期內(nèi)溫度在14℃≤T<16℃的小時數(shù);x3為短濕潤期內(nèi)溫度在16℃≤T<18℃的小時數(shù);x4為短濕潤期內(nèi)溫度在18℃≤T<20℃的小時數(shù);x5為短濕潤期內(nèi)溫度在20℃≤T<22℃的小時數(shù);x6為短濕潤期內(nèi)溫度在22℃≤T<24℃的小時數(shù);x7為一天內(nèi)溫度在15℃≤T<20℃的小時數(shù);x8~x13為長濕潤期內(nèi)各個溫度段的小時數(shù)。
回歸方程(6)的殘差分布(圖1)顯示,散點大致在一個以橫軸為中心線的帶狀區(qū)域內(nèi),但不符合正態(tài)分布的要求,表明回歸模型還不能很好地滿足基本假設(shè)。
3.2 混合模型分析 回歸模型中的殘差按順序排列成殘差序列{εt},將殘差序列{εt}作為建立時間序列模型的樣本序列。對殘差序列進行平穩(wěn)化、模型識別、參數(shù)估計、檢驗等操作后得到的方程為:
式中,ηt為白噪聲序列。
將方程(6)進行時序轉(zhuǎn)化后與方程(7)合并得到混合模型的方程:
3.3 模型檢驗 分別用單一回歸模型和混合模型,計算馬鈴薯晚疫病的疫情情況。與單一回歸模型的計算曲線相比,混合模型計算值更接近于實測值(圖2),這與對殘差項的信息提取有關(guān),單一回歸模型的殘差信息提取不完全,而混合模型進一步提取了殘差信息,從而提高了擬合精度。
單一回歸模型計算值與實測值的擬合曲線大體上一致,說明晚疫病病情與同時期的氣象因素有很強的相關(guān)關(guān)系,回歸模型可以抓住晚疫病病情變化的實質(zhì)原因。但單一回歸模型只提取了強勁的確定性信息,對弱的隨機信息浪費嚴(yán)重,存在著殘差不能很好滿足通常的正態(tài)假設(shè)現(xiàn)象。
混合模型考慮到了馬鈴薯晚疫病發(fā)展流行是受到同時期和不同時期因素綜合影響的結(jié)果。在運用回歸分析提取強勁的確定性信息的同時,兼顧采用時間序列分析提取弱的隨機信息,避免了單一回歸模型的信息浪費問題,提高了擬合精度,適用于馬鈴薯晚疫病的短期預(yù)報。
該研究應(yīng)用的方法只是初步嘗試,加之試驗區(qū)域較少,有待進一步在實踐中預(yù)報驗證,更新資料,不斷修訂預(yù)報方程,從中篩選最佳方程投入應(yīng)用。
[1]孫茂林,趙永昌,李樹蓮.云南馬鈴薯晚疫病的流行及預(yù)警系統(tǒng)研究[J].云南大學(xué)學(xué)報,2008,30(S1):47 -52.
[2]張壽明,李燦輝,何慧龍.神經(jīng)網(wǎng)絡(luò)在馬鈴薯晚疫病長期預(yù)報中的應(yīng)用研究[J].昆明理工大學(xué)學(xué)報(理工版),2004,29(4):139 -142.
[3]謝成君,宋杰.馬鈴薯晚疫病流行程度的灰色預(yù)測初探[J].馬鈴薯雜志,1996,10(3):162 -164.
[4]馬旭潔,張文解,楊海玲.臨夏州馬鈴薯晚疫病始發(fā)期的預(yù)測預(yù)報[J].中國農(nóng)業(yè)氣象,2011,32(4):627 -631.
[5]LATTINJM,DOUGLASCARROLL J,GREENPE.Analyzingmultivariate data[M].北京:機械工業(yè)出版社,2003:38 -56.
[6]史代敏,謝小燕.應(yīng)用時間序列分析[M].北京:高等教育出版社,2011:168-170.
[7]朱黎,蘇鵬.一種馬鈴薯晚疫病小型檢測預(yù)警系統(tǒng)的研究[J].湖北民族學(xué)院學(xué)報(自然科學(xué)版),2014(1):115-117.