成守堯,陳占壽*,娘毛措,汪肖陽
(1.青海師范大學數(shù)學與統(tǒng)計學院,青海 西寧 810008;2.藏語智能信息處理及應用國家重點實驗室,青海 西寧 810008)
變點是指隨機序列或過程中的某個位置或時刻,變點前、后的觀測值或數(shù)據(jù)服從不同的模型。變點問題早期應用于工業(yè)質量控制,后在其他領域中有所發(fā)展,如金融、經(jīng)濟、計算機、氣象學、流行病學等,引起廣泛關注。近年來,各種統(tǒng)計模型中的變點問題得到了較為深入的研究,主要變點類型有均值變點、方差變點、趨勢項變點等。本文主要研究時間序列模型趨勢項變點的檢驗問題,其早期研究可參見文獻[1]。HU?KOVá等[2]基于極大似然方法構造了檢驗趨勢項變點的統(tǒng)計量,并采用Bootstrap方法近似計算了統(tǒng)計量的臨界值。秦瑞兵等[3]基于最小二乘估計殘差構造了累積和(cumulative sum,CUSUM)型統(tǒng)計量檢驗趨勢項變點。JIANG等[4]提出了同時檢驗和估計趨勢項變點的SN-NOT方法,將自正則化方法與NOT算法[5]相結合,不僅顯著提升了檢驗效率和估計精度,而且將其成功應用于多個國家新冠病毒感染確診人數(shù)趨勢變化分析。TAN等[6]提出了一種基于加權經(jīng)驗特征函數(shù)的方法,將其用于估計分布函數(shù)變點,并提出了一種參數(shù)自適應驅動選擇方法,以選取合適的參數(shù)。上述均在獨立或短記憶模型的假設下研究變點,而有關長記憶時間序列模型變點的研究較少。
分數(shù)布朗運動[7]具有長記憶性,其長記憶性由Hurst指數(shù)刻畫。分數(shù)布朗運動可近似擬合具有長記憶性的數(shù)據(jù),如水文數(shù)據(jù)、金融數(shù)據(jù)等,故其在水文[8]、金融[9-10]等領域應用廣泛。WENGER 等[11]提出了固定帶寬的CUSUM檢驗并將其用于長記憶時間序列均值變點。長記憶時間序列模型變點檢驗方法與最新研究成果可參見文獻[12]?;赪ilcoxon 秩檢驗方法的穩(wěn)健性,WANG[13]研究了長記憶時間序列模型分布函數(shù)變點的檢驗問題,DEHLING等[14]提出了檢驗長記憶時間序列均值變點的 Wilcoxon秩方法,BETKEN[15]進一步提出了自正則化的Wilcoxon秩方法檢驗長記憶時間序列均值變點,由于自正則化方法避免了長期方差估計,在使用時更簡便。WENGER等[16]通過改進長期方差的估計提出了一種修正的Wilcoxon秩檢驗方法。
本文先對觀測序列做一階差分,再基于差分序列構造Wilcoxon秩統(tǒng)計量,以檢驗分數(shù)布朗運動趨勢項變點,在原假設下推導檢驗統(tǒng)計量的極限分布,并用數(shù)值模擬方法得到檢驗統(tǒng)計量的臨界值。模擬結果表明,除Hurst指數(shù)較大情況外,給出的臨界值均能很好地控制經(jīng)驗水平,且經(jīng)驗勢隨樣本量的增大逐漸趨近于1,說明本文提出的檢驗分數(shù)布朗運動趨勢項變點的統(tǒng)計量是一致統(tǒng)計量。此外,模擬研究發(fā)現(xiàn),當樣本量較大時,本文方法對截距項變點和方差變點是穩(wěn)健的,即當趨勢項不存在變點時,截距項變點和方差變點對檢驗幾乎無影響,經(jīng)驗水平仍接近檢驗水平;當趨勢項存在變點時,截距項變點對經(jīng)驗勢的影響很小,而當樣本量較小時,經(jīng)驗勢隨方差變點的增加而降低,但隨樣本量的增多,經(jīng)驗勢仍可趨于1。這意味著用本文方法做趨勢項變點檢驗時,當數(shù)據(jù)中不存在趨勢項變點但存在截距項或方差變點時,不會拒絕不存在趨勢項變點的原假設,而當數(shù)據(jù)中存在趨勢項變點時,不論是否存在截距項或方差變點,只要樣本量足夠大均能檢測到趨勢項變點。在實例分析中,對1854—1989年北半球經(jīng)季節(jié)調整后的1632個月均氣溫數(shù)據(jù)進行了分析,檢驗結果表明,數(shù)據(jù)中不存在趨勢項變點,這進一步驗證了已有研究結論。
表1 極限分布的上α分位數(shù)Table 1 Upper α quantile of the limit distribution
然后,研究統(tǒng)計量W n的有限樣本性質。在式(1)中,由于假設截距項β0t是不變的,不失一般性,假設β0t=0,β1=1,即在無變點原假設下考慮數(shù)據(jù):
的生成過程。在備擇假設下,數(shù)據(jù)生成過程為
取樣本容量n=50,100,300,500,趨勢項跳躍度Δ=0.05,0.10,考慮變點出現(xiàn)在靠前位置、中間位置、靠后位置3種情況,即取趨勢項變點位置參數(shù)λ=0.25,0.50,0.75。表2和表3分別為經(jīng)驗水平值和經(jīng)驗勢的模擬結果,所有模擬結果均在α=0.05檢驗水平下經(jīng)1000次循環(huán)得到。
表2 統(tǒng)計量Wn的經(jīng)驗水平值Table 2 The empirical size of statisticWn
表3 統(tǒng)計量Wn的經(jīng)驗勢Table 3 The empirical power of statisticWn
由表2知,當Hurst指數(shù)較小時,經(jīng)驗水平值能被較好地控制,且樣本量越大,經(jīng)驗水平值越接近于0.05,這是因為隨著樣本量的增加,檢驗統(tǒng)計量Wn的經(jīng)驗分布越接近于其極限分布。然而,當H=0.9時,經(jīng)驗水平值出現(xiàn)了較明顯的失真,幾乎達α的2倍,這是因為此時數(shù)據(jù)有很強的長記憶性,需要更大的樣本量才能較好地控制經(jīng)驗水平。
由表3知,隨著樣本量的增加,經(jīng)驗勢增大,且除了樣本量較少的情況外,經(jīng)驗勢幾乎能達到1。這說明統(tǒng)計量Wn是檢驗趨勢項變點的一致統(tǒng)計量。隨著Hurst指數(shù)增加,經(jīng)驗勢也增大。變點出現(xiàn)在中間位置λ=0.50的經(jīng)驗勢較變點出現(xiàn)在靠前位置λ=0.25或靠后位置λ=0.75的經(jīng)驗勢大,即變點越靠近中間位置越容易被檢驗到,這符合大部分后驗檢驗統(tǒng)計量的特點。隨著趨勢項跳躍度Δ的增加,經(jīng)驗勢也隨之增大,這符合直觀邏輯,因為趨勢項跳躍度越大,兩組數(shù)據(jù)的差異越明顯,越容易檢驗出趨勢項變點。
上述模擬均假設截距項β0t與誤差項的方差是固定不變的,但在實際問題中可能存在截距項變點和誤差項方差變點,此時可通過數(shù)值模擬分析截距項變點或誤差項方差變點對檢驗統(tǒng)計量的影響??紤]數(shù)據(jù):
的生成過程。假設截距項β0t在改變前、后的值分別為 0和β0,取β0=0.5,2.0;誤差項的方差變化由σ控制,σ在改變前、后的值分別為1和σ′,取σ′=0.5,2.0。同樣,模擬結果均在α=0.05檢驗水平下經(jīng)1000次循環(huán)得到,進一步假設變點出現(xiàn)在[0.5n]處,討論以下4種情況。
情況1在無趨勢項變點原假設下,β0t在[0.5n]處由 0變?yōu)棣?;
情況2在無趨勢項變點原假設下,σ在[0.5n]處由 1變?yōu)棣摇洌?/p>
情況3在有趨勢項變點備擇假設下,β0t在[0.5n]處由 0變?yōu)棣?;
情況4在有趨勢項變點備擇假設下,σ在[0.5n]處由 1變?yōu)棣摇洹?/p>
由于情況3和情況4假設存在趨勢項變點,因此考慮取趨勢項變點位置參數(shù)λ=0.50,趨勢項跳躍度Δ=0.10。
情況1的模擬結果見表4,由表4知,該結果與表2中的模擬結果很接近,說明截距項β0t變點對經(jīng)驗水平值基本無影響。由于統(tǒng)計量Wn是基于一階差分數(shù)據(jù)構造的,而截距項變點對一階差分數(shù)據(jù)的影響僅體現(xiàn)在變點上,因此統(tǒng)計量Wn對截距項變點穩(wěn)健是預期結果。
表4 情況1統(tǒng)計量Wn的經(jīng)驗水平值Table 4 The empirical size of statistic Wnin case 1
情況2的模擬結果見表5,由表5知,當樣本量較大時,σ的改變對經(jīng)驗水平值的影響較小;當H較大時,σ的改變會使得經(jīng)驗水平值略微增加,但除了H=0.9的情況外,基本上在可接受范圍內(nèi)。因此可以認為,在樣本量較大時,本文方法對方差變點也是穩(wěn)健的。
表5 情況2統(tǒng)計量Wn的經(jīng)驗水平值Table 5 The empirical size of statistic Wnin case 2
由表6知,情況3的模擬結果與表3中Δ=0.10,λ=0.50的模擬結果很接近,表明截距項β0t變點對經(jīng)驗勢基本無影響。這亦是因為統(tǒng)計量Wn是基于一階差分數(shù)據(jù)所構造的,而截距項變點對一階差分數(shù)據(jù)的影響只體現(xiàn)在變點上,所以統(tǒng)計量Wn對截距項變點是穩(wěn)健的。情況4的模擬結果見表7,由表3中 Δ=0.10,λ=0.50的模擬結果知,當樣本量較小時,隨著方差的增加,經(jīng)驗勢明顯減小。這是因為方差增加,使得誤差項在數(shù)據(jù)中的占比增加,導致趨勢項的改變對數(shù)據(jù)的影響降低。在樣本量足夠大時,經(jīng)驗勢仍趨于1,因此可以認為,在較大樣本量下,本文方法對方差變點同樣是穩(wěn)健的。
表6 情況3統(tǒng)計量Wn的經(jīng)驗勢Table 6 The empirical power of statistic Wnin case 3
表7 情況4統(tǒng)計量Wn的經(jīng)驗勢Table 7 The empirical power of statistic Wnin case 4
將本文方法用于分析1854—1989年北半球經(jīng)季節(jié)調整的月均氣溫,共1632個觀測值,結果如圖1所示。
圖1 1854—1989年北半球經(jīng)季節(jié)調整的月均氣溫Fig.1 Seasonally adjusted monthly deviations of the northern hemisphere temperature from 1854 to 1989
首先,對原始序列Yt使用局部whittle估計法,得到其Hurst指數(shù)的估計值=0.6939,接近于0.7,此時在α=0.05處的臨界值約為0.247。然后,對原始數(shù)據(jù)Yt做一階差分得到序列Xt,基于序列Xt計算得到的檢驗統(tǒng)計量為0.0374,小于臨界值0.247,因此認為該組數(shù)據(jù)中不存在趨勢項變點。
此前已有不少研究對該數(shù)據(jù)集進行了分析,并得到不同結論,如DEO等[23]認為數(shù)據(jù)存在趨勢項變點,WANG[24]則認為沒有足夠的證據(jù)證明序列中存在趨勢項變點,SHAO[25]通過檢驗認為序列存在均值變點。
關于趨勢項變點的檢驗問題,在獨立或短記憶模型假設下的研究較多,而在長記憶模型下的研究較少。本文研究了分數(shù)布朗運動趨勢項變點的檢驗問題,提出了一種Wilcoxon秩檢驗方法,基于觀測數(shù)據(jù)的一階差分序列構造了Wilcoxon秩統(tǒng)計量。在原假設下推導了檢驗統(tǒng)計量的極限分布。數(shù)值模擬結果驗證了本文方法在有限樣本下的有效性,且在樣本量足夠大的情況下對截距項變點和方差變點穩(wěn)健。