馬亮亮
(攀枝花學(xué)院 數(shù)學(xué)與計(jì)算機(jī)學(xué)院,四川 攀枝花617000)
氣象因素是影響甘肅省天水市膽囊炎發(fā)病率的一種非線性、多變量時(shí)間序列。對于非線性系統(tǒng),一般采用基于非線性自回歸移動(dòng)平均模型進(jìn)行預(yù)測,但很難為這種模型找到恰當(dāng)?shù)膮?shù)估計(jì)方法,因此傳統(tǒng)的非線性系統(tǒng)的識別,在理論研究和實(shí)際應(yīng)用方面均存在極大的困難[1-8]。為了有效利用各種時(shí)間序列預(yù)測模型的優(yōu)點(diǎn),克服單一模型的缺陷,一些學(xué)者基于著名的M-競爭理論提出了時(shí)間序列組合預(yù)測模型,而且實(shí)證結(jié)果表明,相對于單一模型,組合預(yù)測模型能夠較大程度地利用預(yù)測樣本的各種信息,大幅度地提高時(shí)間序列的預(yù)測精度,比單一模型考慮的問題更系統(tǒng)、更全面[9-10]。
為了提高時(shí)間序列的預(yù)測精度,文中考慮了時(shí)間序列的環(huán)境影響因子,將主成分分析(Principal Components Analysis,PCA)和最小二乘支持向量機(jī)(LSSVM)相融合,給出了一種新的時(shí)間序列組合預(yù)測模型(PCA-LSSVM),并通過甘肅省天水市膽囊炎發(fā)病率對此模型預(yù)測性能進(jìn)行驗(yàn)證。
主成分分析是考察多個(gè)變量間相關(guān)性的一種多元統(tǒng)計(jì)方法。它的基本思想是通過降維過程,將多個(gè)相互關(guān)聯(lián)的數(shù)值指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)互不相關(guān)的綜合指標(biāo),即用較少的指標(biāo)來代替和綜合反映原來較多的信息,這些綜合后的指標(biāo)就是原來多指標(biāo)的主要成分[11-12]。
假設(shè)有n個(gè)樣本,每個(gè)樣本測得p項(xiàng)指標(biāo)(p<n)。當(dāng)p個(gè)指標(biāo)之間存在相關(guān)關(guān)系時(shí),可以通過線性變換方法找到一組新指標(biāo)z1,z2,…,zm,且它們滿足下列條件:
(1)各zi是原指標(biāo)的線性函數(shù),且它們相互垂直;
(2)各zi之間相互獨(dú)立;
(3)這些zi提供原指標(biāo)所含有的全部信息,且z1提供的信息量最多,z2次之,…,zm最少;
其中zi為原指標(biāo)x1,x2,…,xp的第i主成分(i=1,2,…,p)。
設(shè)x=(x1,x2,…,xp)是一個(gè)p維隨機(jī)向量,且E(x)=μ,協(xié)方差D(x)=V。考慮它的線性變換:
則有:
如果z1=r1′x 滿足:(1)r1′r1=1;(2)Var(z1)=Mar
r′r=1Var(r′x),則稱z1是在x的所有線性組合中最能綜合p個(gè)變量信息的一個(gè)特殊的線性組合。如果一個(gè)主成分不足以代表p個(gè)變量所包含的信息,就考慮z2。為了能有效地代表原變量的信息,z1已有的信息在z2中不再出現(xiàn),即滿足Cov(z1,z2)=0,類似可求z2以及其它的主成分。
主成分分析的目的是為了減少變量的個(gè)數(shù),故一般不用p個(gè)主成分,而用m<p個(gè)主成分。m的選取則要看累計(jì)貢獻(xiàn)率[13-14]。
SVM是對一個(gè)凸二次規(guī)劃進(jìn)行求解,所得的解唯一且最優(yōu),不存在像神經(jīng)網(wǎng)絡(luò)的局部最優(yōu)問題,但當(dāng)訓(xùn)練樣本較大時(shí),所需計(jì)算資源很大。最小二乘支持向量機(jī)(Least Squares Support Vector Machine,LSSVM)是SVM的一種變體,它將問題轉(zhuǎn)化成對一個(gè)線性方程求解,所需計(jì)算資源少,具有較高的準(zhǔn)確率[15-19]。由于本文主要進(jìn)行回歸預(yù)測,因此只介紹LSSVM的回歸算法。
給定樣本數(shù)據(jù)為(x1,y1),…,(xm,ym),xi∈Rk表示輸入向量,yi∈Rk表示輸出向量,f(x)為待估計(jì)的未知函數(shù),進(jìn)行非線性映射:
式中H為特征空間。那么被估計(jì)函數(shù)f(x)可以表示為
因此,LSSVM回歸問題可以表示為
式中ei∈Rk為誤差變量,i=1,2,…,m。
PCA-LSSVM模型的預(yù)測原理為:首先利用PCA對時(shí)間序列的影響因子進(jìn)行篩選降維,只保留對系統(tǒng)影響較大的變量,然后采用LSSVM模型對保留變量進(jìn)行建模和預(yù)測。PCA-LSSVM具體的預(yù)測流程如圖1所示。
圖1 PCA-LSSVM模型的預(yù)測流程
為了評價(jià)PCA-LSSVM模型性能的優(yōu)劣,選擇PCAMLR,ARIMA,LSSVM 作為參比模型,其中PCA-MLR表示先采用PCA進(jìn)行影響因子篩選,然后再采用多元線性回歸(Multiple Linear Regression,MLR)進(jìn)行建模和預(yù)測;ARIMA表示直接采用ARIMA模型進(jìn)行建模和預(yù)測;LSSVM表示直接采用LSSVM模型進(jìn)行建模和預(yù)測,并使用均方誤差(Mean Square Error,MSE)和平均相對誤差(Mean Absolute Percentage Error,MAPE)作為模型的評價(jià)指標(biāo)。MSE和MAPE分別定義為
其中yi表示時(shí)間序列的實(shí)際值,yi表示模型的預(yù)測值,n表示測試樣本數(shù)。
數(shù)據(jù)資料來源于甘肅省天水市疾病預(yù)防控制中心提供的2000年1月至2005年12月膽囊炎發(fā)病率(y)。膽囊炎發(fā)病率的氣象影響因子有:月平均氣壓x1(pha),月平均氣溫x2(℃),月平均相對濕度x3(%),月平均風(fēng)速x4(m/s),月降水量x5(mm)。
利用氣象影響因子月平均氣壓x1,月平均氣溫x2,月平均相對濕度x3,月平均風(fēng)速x4,月降水量x5作主成分分析,得特征根和主成分貢獻(xiàn)率,如表1所示。
表1 主成分統(tǒng)計(jì)分析
從主成分分析結(jié)果可知,第一主成分的特征根為2.598,它解釋了總變異的51.969%;第二主成分的特征根為1.539,它解釋了總變異的30.771%。前兩個(gè)特征根均大于1,累計(jì)貢獻(xiàn)率82.740%。為了得到一個(gè)可靠的預(yù)測模型,需要從眾多影響因子中挑選出對膽囊炎發(fā)病率變化貢獻(xiàn)率大的影響因子。由于第3個(gè)主成分的特征根較接近于1,故宜取前3個(gè)主成分,此時(shí)累計(jì)貢獻(xiàn)率達(dá)94.586%,即采用前3個(gè)主成分(z1,z2,z3)代替原有的5個(gè)變量(x1,x2,x3,x4,x5)進(jìn)行建模和預(yù)測。
前3個(gè)主成分與各個(gè)變量 x1,x2,x3,x4,x5的 關(guān) 系如下:
其中stdxi(i=1,2,3,4,5)表示標(biāo)準(zhǔn)指標(biāo)變量:
4.3.1 MLR擬合
運(yùn)用PCA篩選的對膽囊炎發(fā)病率影響顯著的前3個(gè)主成分z1,z2,z3,采用 MLR進(jìn)行預(yù)測,借助于SPSS11.5實(shí)現(xiàn),得到的線性回歸方程為:
將式(8)至式(10)的z1,z2,z3表達(dá)式代入式(16),得到因變量y與標(biāo)準(zhǔn)自變量stdx1,…,stdx5的線性回歸方程:
將標(biāo)準(zhǔn)自變量還原為原自變量,得到因變量y與原自變量x1至x5的線性回歸方程為:
模型主要參數(shù)為:相關(guān)系數(shù)R=0.924;F=1.579;顯著水平p=0.0421<0.05,表明建立的線性方程達(dá)到顯著性要求,該方程可以進(jìn)行預(yù)測應(yīng)用。
4.3.2 ARIMA擬合
利用膽囊炎發(fā)病率(y)繪制該序列的樣本自相關(guān)分析圖(圖2),可知p=1,d=1,q=2,此時(shí) ARIMA(1,1,2)模型對應(yīng)的方程為:
式中隨機(jī)項(xiàng)εt是相互獨(dú)立的白噪聲序列,且服從均值為0,方差為σ2的正態(tài)分布;B為后移算子。
圖2 膽囊炎發(fā)病率序列樣本自相關(guān)分析圖
4.3.3 LSSVM 擬合
一般情況下,w可能為無限維,對式(4)直接進(jìn)行求解相當(dāng)困難,因此通過引入拉格朗日乘子將該問題轉(zhuǎn)化為對偶問題進(jìn)行求解,于是有
通過求L對w,b,ei,αi的偏導(dǎo)數(shù)等于0的解,可得到最優(yōu)解的約束條件為
與SVM的最優(yōu)條件相比,只有αi=rei不同,因此αi=rei使LSSVM不再具有SVM所具有的稀疏性。利用式(20)消去w與ei得到式(4)的解方程為
式中向量lm=(l,l,…,l)T,α=(α1,α2,…,αm),Y=(y1,y2,…,ym),Ω 為矩陣,其定義為 Ω=φ(xi)Tφ(xj),i,j=1,2,…,m。
通過式(21)轉(zhuǎn)換成為線性方程組,并求式(21)就可以求得α與b的值,于是得到被估計(jì)函數(shù)的表達(dá)式,即式(4)變?yōu)?/p>
4.3.4 PCA-LSSVM 擬合
運(yùn)用經(jīng)過PCA篩選的3個(gè)主成分z1,z2,z3建立LSSVM模型,再采用GA算法對模型參數(shù)進(jìn)行優(yōu)化。
將膽囊炎發(fā)病率數(shù)據(jù)分成兩部分:2000年1月至2004年12月的數(shù)據(jù)作為訓(xùn)練集,2005年1月至12月的數(shù)據(jù)作為測試集,以便獲得實(shí)際膽囊炎發(fā)病率建模精度與擬合能力、預(yù)測能力的評定。
擬合后各模型的MSE(均方誤差)和MAPE(平均相對誤差)如表2所示。
表2 各模型的擬合性能比較
從表2的對比結(jié)果可知,在所有模型中,PCA-LSSVM模型擬合精度最高,誤差最小,表明,采用PCA對膽囊炎發(fā)病率的影響因子進(jìn)行主成分分析,然后采用LSSVM進(jìn)行建模,能更加準(zhǔn)確描述膽囊炎發(fā)病率的變化規(guī)律,有效提高膽囊炎發(fā)病率的擬合精度。
由于評價(jià)一個(gè)預(yù)測模型的好壞,主要考察其預(yù)測能力而非回代擬合結(jié)果,因此,再分別采用PCA-MLR,ARIMA,LSSVM,PCA-LSSVM模型進(jìn)行獨(dú)立預(yù)測,預(yù)測結(jié)果如表3所示。
表3 幾種模型對2005年膽囊炎發(fā)病率的預(yù)測結(jié)果 %
從表3可知,線性MLR模型、ARIMA模型和LSSVM模型的預(yù)測效果較差,主要是因?yàn)樗鼈兙荒芊从衬懩已装l(fā)病率的片段信息,不能全面捕捉到膽囊炎發(fā)病率的動(dòng)態(tài)變化規(guī)律;而組合預(yù)測模型PCA-LSSVM與這些模型相比,預(yù)測精度較高。這是由于組合預(yù)測模型能夠充分利用時(shí)間序列數(shù)據(jù)中的信息,并對膽囊炎發(fā)病率變化規(guī)律進(jìn)行深入挖掘,避免了單一模型的局限性,其預(yù)測結(jié)果才有了較為明顯的提高。同時(shí),由表2可知,PCA-LSSVM的MSE和MAPE 值小于PCA-MLR,ARIMA和LSSVM的相應(yīng)值。這是由于PCA-LSSVM模型的預(yù)測算法采用LSSVM,而LSSVM是一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小準(zhǔn)則的機(jī)器學(xué)習(xí)方法,對于小樣本、非線性系統(tǒng)其泛化能力比MLR和ARIMA更強(qiáng),因此預(yù)測結(jié)果與實(shí)際情況更加吻合,從而可獲得比PCA-MLR,ARIMA更高的預(yù)測精度。對比結(jié)果表明PCA-LSSVM為膽囊炎發(fā)病率的最佳預(yù)測模型。
時(shí)間序列受到眾多因子的影響,呈現(xiàn)高度非線性變化規(guī)律,難以建立精確的數(shù)學(xué)模型,利用LSSVM模型本身的優(yōu)點(diǎn),將PCA引入到時(shí)間序列建模中,建立了一種時(shí)間序列組合模型(PCA-LSSVM模型),并應(yīng)用于膽囊炎的預(yù)測中。實(shí)例結(jié)果表明,PCA-LSSVM模型簡單、容易實(shí)現(xiàn),提高了膽囊炎發(fā)病率預(yù)測準(zhǔn)確率,較好地揭示了膽囊炎發(fā)病率的變化規(guī)律。
[1] 馬亮亮,田富鵬.基于非對稱ARCH模型的海西州地區(qū)膽結(jié)石發(fā)病情況研究[J].科技導(dǎo)報(bào),2009,27(24):51-55.
[2] 馬亮亮,田富鵬.ARMA模型在膽結(jié)石發(fā)病率預(yù)測中的應(yīng)用[J].軍事醫(yī)學(xué)科學(xué)院院刊,2010,34(5):1-4.
[3] 馬亮亮,田富鵬.時(shí)間序列分析方法在膽囊炎發(fā)病率預(yù)測中的應(yīng)用[J].中華實(shí)驗(yàn)外科雜志,2010,27(6):779.
[4] 馬亮亮,田富鵬.不同時(shí)間序列分析方法在膽結(jié)石發(fā)病率預(yù)測中的應(yīng)用[J].中國老年學(xué)雜志,2010,30(13):1777-1780.
[5] 向昌盛.基于支持向量機(jī)的時(shí)間序列組合預(yù)測模型[D].長沙:湖南農(nóng)業(yè)大學(xué),2011:23-32.
[6] 馬亮亮.基于非線性分類和回歸問題中的支持向量機(jī)算法[J].天水師范學(xué)院學(xué)報(bào),2009,29(5):44-47.
[7] 黃東遠(yuǎn),陳曉云.一種新的支持向量回歸機(jī)的模型選擇方法[J].福州大學(xué)學(xué)報(bào):自然科學(xué)版,2011,39(4):527-532.
[8] 鄧乃揚(yáng),田英杰.?dāng)?shù)據(jù)挖掘中的新方法——支持向量機(jī)[M].北京:科學(xué)出版社,2004.
[9] 馬亮亮,田富鵬.基于因子RBF神經(jīng)網(wǎng)絡(luò)預(yù)測模型的腦梗塞發(fā)病率預(yù)測[J].統(tǒng)計(jì)與決策,2010(10):200-201.
[10] 馬亮亮,田富鵬.基于人工神經(jīng)網(wǎng)絡(luò)的非穩(wěn)態(tài)心肌病發(fā)病率預(yù)測模型研究[J].中國老年學(xué)雜志,2011,31(24):4877-4878.
[11] 羅盛健.基于人工神經(jīng)網(wǎng)絡(luò)的剛竹毒蛾發(fā)生面積的預(yù)測模型[J].華東昆蟲學(xué)報(bào),2006,15(1):37-39.
[12] Salgdo R M,Pereira J J F,Ohishi T,et al.A hybrid ensemble model applied to the short-term load forecasting problem[C].Vancouver:International Joint Conference on Neural Networks,2006:2627-2634.
[13] Vila J P,Wagner V,Neveu P.Bayesian nonlinear model selection and neural network:A conjugate prior approach[J].IEEE Trans on Neural Networks,2000,11(2):265-278.
[14] 向東進(jìn).實(shí)用多元統(tǒng)計(jì)分析[M].武漢:中國地質(zhì)大學(xué)出版社,2005:120-184.
[15] 朱建平,殷瑞飛.SPSS在統(tǒng)計(jì)分析中的應(yīng)用[M].北京:清華大學(xué)出版社,2007:171-178.
[16] 馬亮亮,田富鵬.主成分分析與因子分析在肺心病發(fā)病情況分析中的應(yīng)用[J].四川文理學(xué)院學(xué)報(bào),2010,20(2):65-69.
[17] 馬亮亮,田富鵬.基于糖尿病相關(guān)因素的主成分分析[J].長春大學(xué)學(xué)報(bào),2009,19(4):61-63.
[18] Dong J X,Krzyzak A,Suen C Y.An improved handwritten Chinese character recognition system using support vector machine[J].Pattern Recognition Letters,2005,26(12):1849-1856.
[19] Wan V,Renals S.Speaker verification using sequence discriminate support vector machines[J].IEEE Transactions on Speech and Audio Processing,2005,13(2):203-210.