王棟
【摘要】時(shí)間序列分析中經(jīng)常出現(xiàn)的非高斯性質(zhì),使得傳統(tǒng)的時(shí)間序列分析建模方法無法適用,所得到的預(yù)測(cè)值出現(xiàn)偏差,預(yù)測(cè)精度受到影響.本文推廣了一維時(shí)間序列混合模型到多維高斯混合轉(zhuǎn)移分布模型(MGMTD模型),證明了該多維時(shí)間序列混合模型下的一階平穩(wěn)性條件,并給出了該多維模型下的EM估計(jì)算法.本文將MGMTD模型應(yīng)用于對(duì)我國(guó)煉焦煤炭和天然原油的價(jià)格預(yù)測(cè)分析中,實(shí)證結(jié)果顯示,MGMTD模型可以得到較好的預(yù)測(cè)結(jié)果.
【關(guān)鍵詞】混合模型;多元正態(tài)分布;MGMTD模型; EM算法;預(yù)測(cè)
1.引 言
在生產(chǎn)實(shí)踐、科學(xué)實(shí)驗(yàn)與自然科學(xué)的研究中,常常需要我們?nèi)シ治鲆幌盗械碾S時(shí)間變化的前后相互關(guān)聯(lián)的觀測(cè)數(shù)據(jù),也就是我們所說的時(shí)間序列,對(duì)時(shí)間序列數(shù)據(jù)的精確處理可以使我們對(duì)未來的情況做到較好的預(yù)報(bào)和控制,對(duì)數(shù)據(jù)進(jìn)行正確的建模,從而使我們發(fā)現(xiàn)數(shù)據(jù)中隱藏的內(nèi)在規(guī)律.時(shí)間序列的例子在一些領(lǐng)域中是極豐富的,諸如經(jīng)濟(jì)、商業(yè)、工程、自然科學(xué)(特別是地球物理學(xué)和氣象學(xué))和社會(huì)科學(xué),從Bax和Jenkins所普及的ARIMA類模型到現(xiàn)在,處理時(shí)間序列的問題一直是被人們所廣泛研究的,在使用線性和非線性的方法上都取得了很大的發(fā)展.
在通常處理實(shí)際的時(shí)間序列問題時(shí),為了便于計(jì)算和得到一些較好的性質(zhì),我們總是假定時(shí)間序列的誤差項(xiàng)是服從高斯分布的白噪聲,但實(shí)際情況并非如此簡(jiǎn)單,很多時(shí)間序列表現(xiàn)出非高斯性,例如:序列的平坦趨勢(shì)、突變性、異常值點(diǎn)和變點(diǎn)等,當(dāng)我們想要找到數(shù)據(jù)本身的特性對(duì)其進(jìn)行預(yù)測(cè)和擬合時(shí),根據(jù)數(shù)據(jù)所表現(xiàn)的特性準(zhǔn)確建模就顯得非常重要.
1996年LE等人根據(jù)Raftery(1985)的MTD模型提出了一種新的非線性時(shí)間序列模型——GMTD模型:
即給定過去的值后Yt的條件分布是混合正態(tài)分布.這個(gè)模型的特點(diǎn)在于它能表現(xiàn)出像平坦趨勢(shì)、異常值、變點(diǎn)等實(shí)際時(shí)間序列數(shù)據(jù)常表現(xiàn)出來的非高斯性.并且GMTD模型的形式簡(jiǎn)單,容易處理,可以利用EM算法進(jìn)行參數(shù)的估計(jì)和擬合.近年來,為了使模型具有更廣泛的應(yīng)用范圍,很多人對(duì)這個(gè)模型做了推廣,例如:2000年Wong和Li將GMTD模型推廣為MAR模型,在2001年又推廣為logisticMAR模型和異方差情形,Wong和Chan(2003)將模型應(yīng)用到市場(chǎng)收益上.
混合模型是統(tǒng)計(jì)模式識(shí)別非常重要的方法之一,它是描述真實(shí)數(shù)據(jù)復(fù)雜性的常用方法,也是解決分類或者聚類問題的常用方法之一,在最近興起的數(shù)據(jù)挖掘研究中也常用到它.混合模型的參數(shù)估計(jì)方法有很多,通常人們所熟知的是EM算法,在用它來做模型參數(shù)的估計(jì)時(shí),混合的權(quán)重及成分參數(shù)是通過數(shù)據(jù)似然的局部最大化來一起估計(jì)的.
2.GMTD模型的矩陣推廣
在現(xiàn)實(shí)世界里,很多的時(shí)間序列數(shù)據(jù)并不是僅僅用一維的模型就能夠得到很好的建模,有些時(shí)候我們需要的是多維的模型.例如在股票數(shù)據(jù)里,某一只股票當(dāng)前的價(jià)格可能不僅僅是和這只股票過去的價(jià)格有關(guān),也許還同另外的其他股票的過去價(jià)格有關(guān),為此,為了更好的對(duì)數(shù)據(jù)有更加準(zhǔn)確的描述,我們對(duì)GMTD模型進(jìn)行了推廣,將它由一維的混合正態(tài)分布轉(zhuǎn)化為多維的混合正態(tài)分布,即:
在時(shí)間序列分析中,序列的平穩(wěn)性在模型建立和序列信息提取中具有非常重要的意義,為此我們給出多元混合轉(zhuǎn)移正態(tài)分布(MGMTD)的一階矩平穩(wěn)性條件.
為了將該模型應(yīng)用于實(shí)際問題的時(shí)間序列建模分析中,我們需要給出分布模型參數(shù)估計(jì)的方法.由(2)我們給出了多元混合正態(tài)的密度函數(shù)表達(dá)式,因此我們可以采用EM算法來對(duì)其進(jìn)行參數(shù)估計(jì),為此在下面內(nèi)容我們推導(dǎo)該模型參數(shù)估計(jì)的EM算法遞推公式.
首先引入潛在變量ztk,t表示第t個(gè)觀測(cè)值,k表示混合模型的第k個(gè)成分,于是有:
以上兩步重復(fù)進(jìn)行,直到某一個(gè)特定的收斂準(zhǔn)則滿足.
在E-step通過對(duì)函數(shù)求導(dǎo)數(shù)并利用權(quán)重的性質(zhì)∑pk=1αk=1,我們可以得到權(quán)重的估計(jì)式:
這樣我們就得到了關(guān)于多元混合正態(tài)分布參數(shù)的極大似然估計(jì)的EM算法迭代表達(dá)式,可以通過該算法來計(jì)算模型中參數(shù)的估計(jì)值.
3.MGMTD模型在能源價(jià)格預(yù)測(cè)中的應(yīng)用
為應(yīng)對(duì)國(guó)際金融危機(jī)的影響,及時(shí)、準(zhǔn)確反映我國(guó)主要能源產(chǎn)品的價(jià)格變動(dòng)情況,國(guó)家統(tǒng)計(jì)局啟動(dòng)“價(jià)格調(diào)查應(yīng)急機(jī)制”,對(duì)主要的能源產(chǎn)品進(jìn)行了價(jià)格調(diào)查.由于煤炭和石油都是不可再生的重要能源資源,對(duì)其的開采和買賣對(duì)國(guó)家的發(fā)展具有重要的戰(zhàn)略意義.為此,本文通過由國(guó)家統(tǒng)計(jì)局從2009年11月到2011年12月的煉焦煤炭和天然原油的半月度價(jià)格數(shù)據(jù),數(shù)據(jù)的序列長(zhǎng)度為50.對(duì)該二維時(shí)間序列數(shù)據(jù)進(jìn)行建模,一方面研究這兩種主要的能源產(chǎn)品的價(jià)格波動(dòng)模型,另一方面希望通過數(shù)據(jù)驅(qū)動(dòng)的方式研究它們之間是否存在相互的關(guān)聯(lián)作用,彼此之間的價(jià)格是否存在顯著的影響.對(duì)該問題的研究,將有助于對(duì)這兩種重要資源的調(diào)控.
將該數(shù)據(jù)集從2009年11月到2011年12月的50個(gè)二維時(shí)間序列進(jìn)行標(biāo)準(zhǔn)化預(yù)處理后,序列圖形可參見圖1.從圖1中可以發(fā)現(xiàn)這兩種能源產(chǎn)品的價(jià)格整體都呈現(xiàn)上升趨勢(shì),并且通過對(duì)煉焦煤炭和原油的價(jià)格序列分別進(jìn)行單位根檢驗(yàn),發(fā)現(xiàn)兩者都是顯著的非平穩(wěn)序列.此外,對(duì)圖1中的兩個(gè)價(jià)格序列做相關(guān)檢驗(yàn),發(fā)現(xiàn)兩者之間存在顯著的相關(guān)關(guān)系,從圖1也可以發(fā)現(xiàn),可能存在由于價(jià)格的變化導(dǎo)致兩種能源產(chǎn)品需求的變化或供應(yīng)量的變量,從而影響到其能源產(chǎn)品的價(jià)格.為了通過數(shù)據(jù)驅(qū)動(dòng)的方式,挖掘出數(shù)據(jù)本身所隱藏的規(guī)律,本文采用高斯混合模型的矩陣形式對(duì)該二維時(shí)間序列進(jìn)行建模分析.
【參考文獻(xiàn)】
[1]Box,G.E.P.Jenkins,G.M.&Reinsel,G.C.著.顧嵐,等譯.中國(guó)統(tǒng)計(jì)出版社,1997.
[2]Le,N.D.Martin,R.D.&Raftery,A.E.Modeling flat stretches,bursts,and outliers in timeseries using mixture transition distribution models.Journal of the American Statistical Association,1996,91,1504-1514.
[3]Raftery,A.E.Model for highorder Markov chains.Journal of Royal Statistical Society,Ser.B,1985,47,528-539.
[4]Wong,G.S.&Li,W.K.On a Mixture Autoregressive Model.Journal of the royal Statistical Society,Ser.B,2000,62,95-115.
[5]Wong,G.S.&Li,W.K.On a logistic mixture autoregressive model.Bionmetrika,2001,88,3,833-846.
[6]Wong,G.S.&Li,W.K.On a Mixture Autoregressive Conditional Heteroscedastic Model.Journal of American Statistical Association,2001,96,982-995.
[7]Wong,C.S.&Chan,W.S.Mixture Gaussian Time Series Modeling of LongTerm Markrting Returns.Prepared for the 2003 Stochastic Modeling Symposium 4-5 september,2003,Toronto,Canada.
[8]Hamilton,J.D.著.劉明志,譯.時(shí)間序列分析.中國(guó)社會(huì)科學(xué)出版社,1999.
[9]Benes,V.E.Existence of Finite Invariant Measures for Markov Process.Proceedings of the American Mathemstical Socirty,1967,18,1058-1061.