張 云,鞏在武
(南京信息工程大學(xué)經(jīng)濟(jì)管理學(xué)院,江蘇南京210044)
基于灰關(guān)聯(lián)分析的時間序列改變點(diǎn)搜索研究*
——以華東地區(qū)農(nóng)業(yè)受災(zāi)面積序列為例
張 云,鞏在武
(南京信息工程大學(xué)經(jīng)濟(jì)管理學(xué)院,江蘇南京210044)
采用灰關(guān)聯(lián)分析方法,構(gòu)建了短時間序列中的改變點(diǎn)搜索算法,有效地解決了短時間序列改變點(diǎn)尋找的缺陷。首次將灰關(guān)聯(lián)度算法應(yīng)用到氣象災(zāi)害時間序列改變點(diǎn)的搜索中,利用華東地區(qū)農(nóng)業(yè)受災(zāi)面積時間序列實(shí)例來驗(yàn)證灰關(guān)聯(lián)度算法的實(shí)用性和有效性。結(jié)果表明,用灰關(guān)聯(lián)方法可以有效地獲得改變點(diǎn),并以此對時間序列的發(fā)展規(guī)律進(jìn)行趨勢與規(guī)律分析。
改變點(diǎn);時間序列;灰關(guān)聯(lián)分析;農(nóng)業(yè)受災(zāi)面積
在一組隨機(jī)時間序列中,受某種因素的影響,從某一點(diǎn)開始出現(xiàn)一個明顯的改變趨勢或表現(xiàn)為跳躍趨勢,這個點(diǎn)就是改變點(diǎn)。改變點(diǎn)的分析有助于從隨機(jī)獨(dú)立序列中發(fā)現(xiàn)規(guī)律并應(yīng)用到生活生產(chǎn)中,以便提前采取相關(guān)應(yīng)對措施,迄今為止,許多學(xué)者在改變點(diǎn)的尋找和測驗(yàn)方面取得了顯著成果。Hurst于1951年提出了對改變點(diǎn)的研究[1],其后 Hinkley[2],Brown 等[3]學(xué)者在此基礎(chǔ)上做出了更深一步的探索。
Smith[4]在1975年較早提出用貝葉斯法去分析隨機(jī)變量序列的改變點(diǎn)問題,Carlin等[5]在此方面又做出了進(jìn)一步研究。Lee和 Heghinian[6]在1977年提出的新貝葉斯方法被Bernier[7]等人用到水文氣象、氣候變異等研究中;Rao和Tirtotjondro[8]在1996年用貝葉斯方法描述一個變量發(fā)生在水文隨機(jī)序列中的時間及其變化多少;Perreault[9-10]等人在2000年首次從貝葉斯角度來尋找水文序列中的改變點(diǎn),建立了簡單的改變點(diǎn)模型并進(jìn)行對比及檢測。在改變點(diǎn)尋找方面,上述學(xué)者基本上采用了統(tǒng)計(jì)學(xué)的方法。然而,數(shù)理統(tǒng)計(jì)方法對大樣本數(shù)據(jù)量要求較高,無法解決小數(shù)據(jù)量時間序列改變點(diǎn)的搜尋問題。此外用數(shù)理統(tǒng)計(jì)方法處理數(shù)據(jù)的過程復(fù)雜繁瑣,很難有效地獲得改變點(diǎn)。
灰色系統(tǒng)強(qiáng)調(diào)用少量的數(shù)據(jù)分析發(fā)現(xiàn)問題的實(shí)質(zhì),解決了統(tǒng)計(jì)學(xué)方法尋找改變點(diǎn)帶來的一些缺陷[11]?;疑P(guān)聯(lián)分析是通過灰色關(guān)聯(lián)度來分析和確定系統(tǒng)諸因素間的影響程度或因素對系統(tǒng)主行為的貢獻(xiàn)程度的一種方法,已經(jīng)被廣泛地應(yīng)用到預(yù)測、決策、評估、經(jīng)濟(jì)計(jì)量、模式識別、聚類分析、系統(tǒng)指標(biāo)權(quán)重確定等領(lǐng)域[12]。氣象災(zāi)害改變點(diǎn)的研究對了解氣象災(zāi)害的發(fā)生、發(fā)展以及應(yīng)對措施的選取具有重大意義。迄今為止,灰關(guān)聯(lián)方法尚未被用到災(zāi)害時間序列改變點(diǎn)的選擇中。由于灰關(guān)聯(lián)分析方法對數(shù)據(jù)樣本容量大小無特殊要求,本文擬采用灰關(guān)聯(lián)分析方法研究災(zāi)變時間序列的改變點(diǎn)的搜索問題,并以華東地區(qū)農(nóng)業(yè)受災(zāi)面積為案例,采用灰關(guān)聯(lián)算法確定農(nóng)業(yè)受災(zāi)面積時間序列的改變點(diǎn)。
1.1.1 灰關(guān)聯(lián)理論介紹
灰色關(guān)聯(lián)分析的基本思想是根據(jù)序列曲線幾何形狀的相似程度來判斷其聯(lián)系的緊密程度。曲線之間的相似性程度越大,則相應(yīng)數(shù)據(jù)列之間的關(guān)聯(lián)度也就越大,反之就越小。灰色關(guān)聯(lián)分析方法彌補(bǔ)了常規(guī)多元統(tǒng)計(jì)分析方法的上述缺陷,即它對樣本量的多少和樣本有無規(guī)律都同樣適用,而且計(jì)算量小,十分方便,更不會出現(xiàn)量化結(jié)果與定性分析結(jié)果不符的情況[12]?;谊P(guān)聯(lián)度已經(jīng)在經(jīng)濟(jì)、管理、模式識別、聚類分析及控制理論中得到廣泛應(yīng)用。根據(jù)文獻(xiàn)[11]的研究結(jié)果,有:
定義1 設(shè)X0=(x0(1),x0(2),…,x0(n))為系統(tǒng)特征序列,Xi=(xi(1),xi(2),…,xi(n)),i=1…m為相關(guān)因素序列。給定實(shí)數(shù)γ(x0(k),xi(k)),若實(shí)數(shù) γ(X0,Xi)=(k),xi(k))滿足規(guī)范性、整體性、偶對稱性和接近性,則稱γ(x0(k),xi(k))為Xi與X0的灰色關(guān)聯(lián)度,γ(x0(k),xi(k))為Xi與X0在k點(diǎn)的關(guān)聯(lián)系數(shù)。
定理1 設(shè)系統(tǒng)行為序列Xi={xi(1),xi(2),…,xi(n)},i=1,2,…,m為相應(yīng)固定序列。對于ξ∈(0,1),令
ξ∈(0,1)稱為分辨系數(shù),γ(X0,Xi)稱為 X0與Xi,i=1,2,…,m的灰色關(guān)聯(lián)度。灰色關(guān)聯(lián)度γ(X0,Xi)常簡記為 γ0i,k點(diǎn)關(guān)聯(lián)系數(shù) γ(x0(k),xi(k))簡記為 γ0i(k)。γ0i,i=1,2,…,m 也稱為鄧氏關(guān)聯(lián)度,鄧氏關(guān)聯(lián)度滿足規(guī)范性、整體性、偶對稱性、接近性。
下面,我們將灰關(guān)聯(lián)度用在時間序列改變點(diǎn)的確定中。
1.1.2 改變點(diǎn)的灰關(guān)聯(lián)度搜索算法
用灰關(guān)聯(lián)來尋找改變點(diǎn)的算法總結(jié)如下。
步驟1:構(gòu)建參考序列 從時間序列X=(x(1),x(2),…,x(n)),x≥10的前半列(或者后半列)中選取X0=(x(1),x(2),…,x(T)),5≤Ts≤T≤Te≤[n/2]作為參考序列,其中Ts≤Te并且Ts,T和Te都為整數(shù)。
步驟2:構(gòu)建比較序列 在參考序列X0=(x(1),x(2),…,x(T)),5≤Ts≤T≤Te≤[n/2]的基礎(chǔ)上,比較序列如下:
將式(3)定義為階數(shù)為n-2T+1的比較序列集。
步驟3:計(jì)算整體關(guān)聯(lián)程度 分別計(jì)算X0和X1,X2,…,Xn-2T+1的關(guān)聯(lián)度 r1(T),r2(T),…,rn-2T+1(T)。然后求這些關(guān)聯(lián)度的算術(shù)平均值:
我們不妨稱r(T),5≤Ts≤T≤Te≤[n/2]為 T-整體關(guān)聯(lián)度。
步驟4:確定改變點(diǎn)
需要注意的有以下幾點(diǎn)。
(1)如果改變點(diǎn)出現(xiàn)在時間序列S=(s(1),s(2),…,s(n))的后半部分,則做如下變化:
x(k)=s(n-k+1),k=1,2,…,n。
(2)如果關(guān)聯(lián)度r(T)=0,式(5)可改寫為:
(3)從理論上考慮,Ts可以取1,但是當(dāng)Ts取非常小的值時,本文的方法將失去意義。所以,在數(shù)值應(yīng)用中,我們應(yīng)該合理地選擇Ts,例如Ts應(yīng)大于等于5。
1.1.3 特殊序列(非規(guī)則的單增和單減數(shù)列)改變點(diǎn)的確定
下面我們將研究不規(guī)則的單增和單減序列中改變點(diǎn)的確定問題。
設(shè)單調(diào)序列為X=(x(1),x(2),…,x(n)),n≥10。通過大量的數(shù)據(jù)實(shí)驗(yàn)仿真,我們發(fā)現(xiàn)在運(yùn)用灰關(guān)聯(lián)算法求改變點(diǎn)的過程中,無論序列X是一個單調(diào)遞增數(shù)列還是一個單調(diào)遞減序列(即使序列中存在極度異常點(diǎn),比如某些急速上升或者下降),改變點(diǎn)始終是序列中第[n/2]-1個數(shù)。
灰關(guān)聯(lián)算法為尋找改變點(diǎn)提供了一種新的方法,但是必須指出的是,這種算法也存在一些缺陷。例如序列 S1(2,4,8,16,32)和 S2(64,128,256,512,1024),這兩組數(shù)列用 COS余弦函數(shù)求出的關(guān)聯(lián)度是1,但是用灰關(guān)聯(lián)算法得出的兩組數(shù)列的關(guān)聯(lián)度則是0.637 8。從多維空間角度分析,這兩組數(shù)列在空間里是平行的,所以它們的關(guān)聯(lián)度是1是合理的。從這個意義上講,灰關(guān)聯(lián)算法實(shí)質(zhì)上是基于二維平面時間序列算法,其在求空間時間序列時存在一定的缺陷。
雖然灰關(guān)聯(lián)算法在多維空間時間序列的尋找上存在缺陷,但并不影響我們在平面時間序列上尋找改變點(diǎn)。下面我們將用灰關(guān)聯(lián)的算法,尋找華東地區(qū)(山東省、江蘇省、江西省、浙江省、安徽省、福建省和上海市)1970-2009年農(nóng)業(yè)受災(zāi)面積時間序列的改變點(diǎn),也以此驗(yàn)證本文的灰關(guān)聯(lián)算法的有效性。這里我們分別選取文獻(xiàn)[13]中1970-2009年華東地區(qū)農(nóng)業(yè)雨澇災(zāi)害面積、干旱災(zāi)害面積和農(nóng)業(yè)受災(zāi)總面積三個時間序列來進(jìn)行分析。
1.2.1 華東地區(qū)農(nóng)業(yè)雨澇災(zāi)害改變點(diǎn)的選擇
1970-2009年華東地區(qū)農(nóng)業(yè)遭受雨澇災(zāi)害的面積如圖1所示。表1中給出了基于灰關(guān)聯(lián)算法的華東地區(qū)農(nóng)業(yè)雨澇災(zāi)害面積的相對T-整體關(guān)聯(lián)度的數(shù)值結(jié)果。
圖1 華東地區(qū)1970-2009年遭受雨澇的農(nóng)業(yè)受災(zāi)面積
表1 華東地區(qū)雨澇受災(zāi)面積序列相對各種比例的關(guān)聯(lián)度和各種程度的的數(shù)值結(jié)果
從表1中我們可以發(fā)現(xiàn)T*=19,即相對T-整體關(guān)聯(lián)度中的最大值是η(19),因?yàn)樵摳淖凕c(diǎn)位于數(shù)列的后半部分,我們是從后半列選取參考序列,所以改變點(diǎn)位于該時間序列的22個,也就是1991年。從圖1中我們可以明顯地看出1991年的數(shù)據(jù)峰值最大,這一年遭受雨澇災(zāi)害的農(nóng)業(yè)面積遠(yuǎn)大于其它年份,而這正和我們用灰關(guān)聯(lián)算法得出的結(jié)果一致。
1.2.2 華東地區(qū)農(nóng)業(yè)干旱災(zāi)害改變點(diǎn)的選擇
圖2是1970-2009年華東地區(qū)農(nóng)業(yè)干旱災(zāi)害面積示意圖。
經(jīng)過計(jì)算我們發(fā)現(xiàn)T*=9,即相對T-整體關(guān)聯(lián)度中的最大值是η(9),因?yàn)楦淖凕c(diǎn)位于數(shù)列的后半段,我們是從后半列選取參考序列,所以可知改變點(diǎn)位于該時間序列的第32個,也就是2001年。從圖2我們可以明顯的看出從1970年到2000年華東地區(qū)農(nóng)業(yè)遭受干旱災(zāi)害一直很頻繁,并且農(nóng)業(yè)受災(zāi)面積的峰值很高,而從2001年開始農(nóng)業(yè)受災(zāi)面積呈遞減趨勢,遞減幅度很大,遭受旱災(zāi)的農(nóng)業(yè)面積呈現(xiàn)低幅度發(fā)生的趨勢。而前面我們用灰關(guān)聯(lián)算法找到的改變點(diǎn)正是2001年,與分析所得的實(shí)際情況相符合。
圖2 華東地區(qū)1970-2009年遭受干旱災(zāi)害的農(nóng)業(yè)受災(zāi)面積
1.2.3 華東地區(qū)農(nóng)業(yè)災(zāi)害總面積改變點(diǎn)的選擇
圖3是1970-2009年華東地區(qū)農(nóng)業(yè)災(zāi)害總面積示意圖。表2表3給出了基于灰關(guān)聯(lián)算法的華東地區(qū)農(nóng)業(yè)災(zāi)害總面積的相對T-整體關(guān)聯(lián)度的數(shù)值結(jié)果。
圖3 華東地區(qū)1970-2009年遭受的農(nóng)業(yè)受災(zāi)總面積
表2 相對各種比例的關(guān)聯(lián)度和各種程度的農(nóng)業(yè)受災(zāi)總面積序列的數(shù)值結(jié)果
表3 相對各種比例的關(guān)聯(lián)度和農(nóng)業(yè)受災(zāi)的總面積的各種程度的數(shù)值結(jié)果
從表2我們可以發(fā)現(xiàn)T*=17,即相對T-整體關(guān)聯(lián)度中的最大值是η(17),因?yàn)樵摳淖凕c(diǎn)位于數(shù)列的前半段,我們是從前半列選取參考序列,所以此改變點(diǎn)位于該時間序列第17個,也就是1986年;從表3中我們得出T*=11,即相對T-整體關(guān)聯(lián)度中的最大值是η(11),因?yàn)樵摳淖凕c(diǎn)位于數(shù)列的后半部分,我們是從后半列選取參考序列,所以改變點(diǎn)位于該時間序列第30個,也就是1999年。首先我們將圖3的時間序列分成兩部分,即從1970-1998年和從1999-2009年,通過分別對這兩部分添加趨勢線(圖4)。我們發(fā)現(xiàn):從1970-1998年華東地區(qū)農(nóng)業(yè)受災(zāi)總面積呈遞增趨勢;而從1999-2009年該地區(qū)的農(nóng)業(yè)受災(zāi)總面積則呈現(xiàn)遞減趨勢。從分析可知1999年是這個時間序列的改變點(diǎn),這和我們用灰關(guān)聯(lián)算法得出的結(jié)果相同。
圖4 華東地區(qū)1970-2009年農(nóng)業(yè)受災(zāi)總面積趨勢
如果將圖3的時間序列分成三部分,即分為1970-1986年,1987-1999年,2000-2009年三個時間段。通過對這三部分的圖分別添加趨勢線(圖5),我們發(fā)現(xiàn):從1970年到1986年,時間序列呈低增長趨勢,華東地區(qū)農(nóng)業(yè)受災(zāi)總面積每年緩慢增長;從1987年到1999年,時間序列雖然有緩慢遞增趨勢,但遞增趨勢很小,而且從圖5中我們可以看出這一時間段的數(shù)值明顯高于其它兩個時間段的數(shù)值,近乎呈現(xiàn)高位、平穩(wěn)狀,即該地區(qū)在這些年里頻繁遭受災(zāi)害,并且農(nóng)業(yè)受災(zāi)總面積峰值在這一段時間里一直很高;2000-2009年,時間序列呈遞減趨勢,華東地區(qū)的農(nóng)業(yè)受災(zāi)面積逐漸減少。通過分析我們得到的兩個分界點(diǎn)1986年和1999年正好是表2和表3中我們用灰關(guān)聯(lián)算法得出的改變點(diǎn)。
圖5 華東地區(qū)1970~2009年農(nóng)業(yè)受災(zāi)總面積趨勢
此外,通過查閱我國GDP的發(fā)展情況[13],我們發(fā)現(xiàn)在1987-1999年華東地區(qū)受災(zāi)面積一直處于高位。這段時間正是我國改革開放后經(jīng)濟(jì)迅猛發(fā)展的時期,很多地區(qū)都以破壞自然環(huán)境為代價來獲取GDP的高速發(fā)展。從2000年以后,隨著我國GDP增長的減緩,國家對自然環(huán)境大力治理,加強(qiáng)了對自然災(zāi)害的防御措施,華東地區(qū)的農(nóng)業(yè)受災(zāi)面積開始逐漸減少。這一歷史情況恰好和我們用灰關(guān)聯(lián)算出的改變點(diǎn)相符合。
本文利用灰色關(guān)聯(lián)分析,研究了改變點(diǎn)搜索的灰關(guān)聯(lián)算法問題。針對短時間序列中的改變點(diǎn)搜索問題,統(tǒng)計(jì)學(xué)方法要求大數(shù)據(jù)量,無法解決小數(shù)據(jù)量時間序列改變點(diǎn)的搜尋問題,此外用數(shù)理統(tǒng)計(jì)的方法處理數(shù)據(jù)的過程復(fù)雜繁瑣,很難有效地獲得改變點(diǎn)。本文采用灰關(guān)聯(lián)分析方法,構(gòu)建了短時間序列中的改變點(diǎn)搜索算法,該算法的優(yōu)點(diǎn)是計(jì)算速度快且改變點(diǎn)尋找方便,有效地解決了統(tǒng)計(jì)學(xué)方法在短時間序列改變點(diǎn)尋找中的缺陷。本文首次將灰關(guān)聯(lián)度算法應(yīng)用到氣象災(zāi)害時間序列改變點(diǎn)的搜索中:利用華東地區(qū)農(nóng)業(yè)受災(zāi)面積序列為實(shí)例,驗(yàn)證了灰關(guān)聯(lián)度算法的實(shí)用性和有效性,實(shí)際分析表明,用灰關(guān)聯(lián)方法可以有效地獲得改變點(diǎn),并在此基礎(chǔ)上對時間序列的發(fā)展規(guī)律進(jìn)行趨勢與規(guī)律分析。
本文還初步研究了特殊時間序列中的改變點(diǎn)確定問題,在未來研究中,我們將從理論層面探討基于灰關(guān)聯(lián)的特殊序列改變點(diǎn)選擇問題;同時探索基于灰關(guān)聯(lián)的改變點(diǎn)搜索算法在時間序列周期劃分及在社會經(jīng)濟(jì)領(lǐng)域的應(yīng)用問題。
[1]HE Hurst.Long-term storage capacity of reservoirs[J].Trans.Am.Soc.Eng,1951,116:770-808.
[2]DV Hinkley.Inference about the change-point in a sequence of random variables[J].Biometrika,1970,57(1):1 -17.
[3]RL Brown,JDurbin,JM Evans.Techniques for testing the constancy of regression relationshipsover time(with discussion) [J].Journal of the Royal Statistical Society,1975,B37(2):149-192.
[4]AFM Smith.Bayesian approach to inference about change-point in sequence of random variables[J].Biometrika,1975,62(2):407-416.
[5]BPCarlin,AE Gelfand,AFM Smith.Hierarchical Bayesian analysis of change-point problems[J].The Applied Statistics,1992,41(2):389-405.
[6]Lee ASF,Heghinian SM.A shift of themean level in a sequence of independent normal random variables-a Bayesian approach[J].Technometrics,1977,19(4):503-506.
[7]Bernier J.Statistics detection of changes in geophysical series[C]//Duckstein L,Parent E.Engineering risk in Natural Resources Management.NATO Advanced Studies Institute Series Kluwer,Dordrecht,1994:159 -176.
[8]AR Rao,Tirtotjondro W.Investigation of changes in characteristics of hydrological time series by Bayesianmethod[J].Stochastic Hydrology and Hydraulics,1996,10(4):295-317.
[9]Perreault L,Bernier J,Bobee B,et al.Bayesian change-point analysis in hydrometeorological time series.Part 1,The normal model revisited[J].Journal of Hydrology,2000,235(3/4):221-241.
[10]L Perreault,JBernier,B Bobee,et al.Bayesian change-point analysis in hydrometerorological time series.Part 2,Comparison of change-pointmodes and forecasting[J].Journal of Hydrology,2000,235(3-4):242-263.
[11]劉思峰,黨耀國,方志耕.灰色系統(tǒng)理論及其應(yīng)用[M].北京:科學(xué)出版社,2004.
[12]孫玉剛.灰色關(guān)聯(lián)分析及其應(yīng)用的研究[D].南京:南京航空航天大學(xué),2009.
[13]中國統(tǒng)計(jì)局.中國統(tǒng)計(jì)年鑒[M].北京:中國統(tǒng)計(jì)出版社,1970-2009.
Change-point Searching of Time Series based on Grey Relational Analysis——Taking Sequences of Agricultural Disaster Area in East China as an Example
Zhang Yun and Gong Zaiwu
(College of Economics and Management,Nanjing University of Information Science and Technology,Nanjing 210044,China)
An algorithm is constructed with grey relational analysis to detect change-points in short time series,which effectively overcomes shortages of the existing statisticalmethods.The grey relational algorithm is firstly applied to the change-point searching of time series in meteorological disasters.Sequences of agricultural disaster area in East China are used to show validity and practicability of the algorithm of new grey relational method.The results indicate that the grey relational algorithm can effectively get the change-point.And in this case,the trends and laws of time series characters can be developed.
change point;time series;grey relational analysis;agricultural disaster-stricken area
S42
A
1000-811X(2012)03-0064-05
2011-12-22
2012-02-27
國家自然科學(xué)基金資助項(xiàng)目(70901043,71171115);教育部人文社科基金(09YJC630130)
張?jiān)?1991-),女,江蘇宿遷人,大學(xué)本科,主要從事氣象風(fēng)險(xiǎn)評價研究.E-mail:821965313@qq.com
鞏在武(1975-),男,山東臨沂人,副教授,碩士生導(dǎo)師,主要從事氣象風(fēng)險(xiǎn)評價、灰色系統(tǒng)理論.E-mail:zwgong26@163.com