周江娥,胡 堯,2*,商明菊
(1.貴州大學 數(shù)學與統(tǒng)計學院,貴州 貴陽 550025;2.貴州省公共大數(shù)據(jù)重點實驗室,貴州 貴陽 550025)
通常,我們將樣本用一個分布或者模型進行刻畫,變點則是指其分布、模型或其參數(shù)突然發(fā)生改變之點稱為變點,通過變點檢測可以分析出造成該變點的原因,從而找到有效的解決辦法。自Page以來,大量的研究都致力于變點分析這一理論及其在各個領域中的應用[1]。在現(xiàn)有的方法中,Cusum檢驗因其在實際應用中的易用性而長期流行,與似然法相比,原序列真實分布未知情況可使用Cusum方法。例如文獻[2,3]。在金融和生物統(tǒng)計中,數(shù)據(jù)常具有尖峰厚尾的性質(zhì),尾指數(shù)是描述此特征的一個重要指標。實際應用中,大多數(shù)文獻關(guān)注的是導致極端事件發(fā)生變化的均值或方差,但尾部的變化(即尾指數(shù)變化)會導致更多的極端事件。
極端現(xiàn)象的統(tǒng)計建模和分析是非常關(guān)鍵的,因為災害和恐慌事件(如洪水、大地震和股市崩盤)的潛在風險可以事先確定,從而使它們得到充分的管理或預防。在此基礎上,研究極值理論中的變點檢驗問題,特別是由于尾指數(shù)代表分布的肥胖程度,并確定了樣本最大值等極值漸近分布的形狀,因此本文重點研究分布尾指數(shù)的變點檢測。尾指數(shù)估計問題是幾十年來統(tǒng)計、金融、水文[4]、可靠性和通信工程中的一個核心問題。Quintos et al.和Kim et al.發(fā)展了一種檢測分布尾指數(shù)參數(shù)變點的方法,這兩種方法都是基于Hill的尾指標估計,都是針對厚尾分布而進行的[5,6]。根據(jù)Lee et al.提出的檢驗程序,考慮尾序過程,構(gòu)造Cusum檢驗并證明尾序列過程在假設尾指數(shù)保持為常數(shù)的原假設下弱收斂于布朗運動[7]。
本文將根據(jù)Oka et al.提出的變點估計修正單分位數(shù)方法進行樣本尾指數(shù)變點檢測,利用Cusum檢驗思想,主要是針對多元時間序列尾指數(shù)變點檢測[8]。采用單分位數(shù)方法對多元時間序列進行樣本尾指數(shù)變點檢測。文章主要從以下方面進行:首先,進行模型基本假設介紹、檢驗統(tǒng)計量的構(gòu)造和統(tǒng)計量極限分布的證明;其次,變點存在性檢驗及臨界值的模擬計算;然后,針對三個經(jīng)典厚尾分布類型模擬數(shù)據(jù)進行模擬研究,最后,利用本文提出的方法對深圳市香蜜湖路市委黨校南行路段車流量數(shù)據(jù)進行變點存在性研究分析。
利用變點檢測模型檢測多元時間序列中樣本尾指數(shù)的變化,我們假設所有隨機變量都被定義在概率空間(Ω,P)中。假設樣本觀測值為{Zit,i=1,…,n,t=1,…,T}是一個非負隨機變量序列,其i是指某個個體(如:年),t是指時間(如:天)。設m是將樣本劃分為m+1段的m個未知變點,及T1,…,Tm為對應未知變點。對于每個i,假設Zit~fj,對于t∈[Tj-1,Tj),j=1,…,m+1,其中T0=1,Tm+1=T+1,fj是其分布函數(shù),使得fj在實際應用中不同于fj-1和fj+1。為了避免估計的序列樣本量過少,進行變點檢測時默認對原序列存在以下可能的劃分:Λε={(T1,…,Tm):Tj-Tj-1≥εT,T1≥εT,Tm≤(1-ε)T},其中ε>0是個較小的常數(shù)。Kim et al.提出的基于累積和檢測時間序列尾指數(shù)變化的模型,將其應用到多元時間序列尾指數(shù)變點檢測中。尾指數(shù)是衡量樣本尾部分布的肥胖程度的指標[9]。對于該變點檢測問題,有如下假設:
H0∶{Zit}尾指數(shù)無變點 vsHa∶尾指數(shù)存在變點。
設τ是樣本的一個高分位點,則構(gòu)造如下檢驗統(tǒng)計量,定義
(1)
假設3
以上四個假設成立且在一定的正則條件下有:
(2)
其中s=t*/T。
根據(jù)式(1)和式(2)對該部分有:
=(τ(1-τ))1/2[W(s)-sW(1)]。
其中W(·)是一個維納(WIENER)過程,則有
對于變點問題,由變點檢驗統(tǒng)計量的極限分布得到變點檢測法則,具體檢測過程可分為三個步驟:
步驟1根據(jù)式子(1)可得到統(tǒng)計量SQτ,1的檢驗法則,如果SQτ,1 H0∶存在j個變點 vsHa∶存在j+1個變點。 步驟3重復步驟2,直到檢測原假設失敗或者當j=M時終止該檢驗程序,M是預先指定的變點個數(shù)的最大值。 利用數(shù)據(jù)模擬研究說明該方法的有效性。在模擬研究中,我們采用了分位數(shù)水平τ=0.95。為了不失一般性,考慮三個分布類型的數(shù)據(jù),即Beta-,GP-和t-分布??偣伯a(chǎn)生了50年×365天的獨立隨機變量,設置變點位置為T1=182,在變點T1前數(shù)據(jù)的分布為f0,變點T1后數(shù)據(jù)的分布為f1,根據(jù)Dupuis D J.所定義數(shù)據(jù)的尾指數(shù)τ(F)理論計算公式如下[10], (3) 在不同分布下根據(jù)公式(3)得到尾指數(shù)τ(F)如表1所示。 表1 根據(jù)公式(3)計算得到樣本尾指數(shù) 由尾指數(shù)計算公式得出的各樣本尾指數(shù)情況如表1所示,可以看出在樣本的參數(shù)變化時其尾指數(shù)也隨之變化。 但在實際情況下,我們是無法從散亂的數(shù)據(jù)中觀測到該變化。下面的模擬研究中我們將針對上述三個類型分布數(shù)據(jù)中檢測其尾指數(shù)的變化,即尾指數(shù)變點存在性檢驗。 檢驗統(tǒng)計量的極限分布性質(zhì)檢測尾指數(shù)變點存在情況,由于臨界值通過其極限分布不容易計算,所以通過蒙特卡洛模擬(Monte Carlo simulation)方式獲得檢驗法則中的臨界值,即在給定顯著性水平為α的條件下,分別產(chǎn)生隨機數(shù)εi,且εi~N(0,1)樣本量為1000,模擬10000次,α分別取0.1,0.05,0.01,計算μn,1,得到10000次模擬最大值的(1-α)分位數(shù)即為對應α水平下的臨界值,其結(jié)果展示如表2。 表2 給定顯著性水平下的臨界值 在得到給定顯著性水平下的臨界值之后,根據(jù)檢驗統(tǒng)計量對序列進行單變點檢測,其實驗模擬500次,其模擬結(jié)果如表3,其中TP表示真實變點數(shù),TPR(%)表示500次模擬中檢測出真實變點所占比例。 表3 模擬500次變點檢測結(jié)果 由上表可以看出單分位數(shù)方法對多元時間序列尾指數(shù)變點檢測在顯著性水平α=0.05下準確度相對最高,且針對三個分布類型數(shù)據(jù)當分布從正態(tài)分布變化到t分布時檢測正確率很高,說明該方法針對分布變化導致尾指數(shù)變化情形的變點識別更加精確,且運算速度較快,尤其對于t分布的檢測時間比其他兩種分布都少。 本實例分析數(shù)據(jù)源于深圳市局部區(qū)域道路的流量監(jiān)測數(shù)據(jù),主要選取深圳市香蜜湖路市委黨校南行路段2018年3月27號(星期二)、2018年3月30號(星期五)和2018年3月31號(星期六)三天的數(shù)據(jù)為例,數(shù)據(jù)結(jié)構(gòu)為每兩分鐘記錄一次該路段車流量總數(shù)(一天共720個數(shù)據(jù)),根據(jù)實際數(shù)據(jù)得到過車量的時序圖1所示。 圖1 兩分鐘過車量時序圖Fig.1 Two-minute traffic volumes sequence charts 分別以深圳市香蜜湖路市委黨校南行路段2018年3月27號(星期二)、2018年3月30號(星期五)和2018年3月31號(星期六)三天的數(shù)據(jù)為例,利用本文的單分位數(shù)方法根據(jù)二分法原理將多變點轉(zhuǎn)化為單變點問題進行變點檢測,得到結(jié)果如圖2、圖3所示。 圖2 2018.3.27(星期二)和2018.3.30(星期五)兩天車流量變點檢測結(jié)果Fig.2 Detection results of two-day change point of traffic flow on Tuesday and Friday, 2018.3.27 and 2018.30(Friday) 由圖2(左)顯示深圳市香蜜湖路市委黨校南行路段2018年3月27號(星期二)車流量變點檢測情況,檢測結(jié)果顯示存在三個變點,對應的位置分別是205、274、555,相對應的時間為 06∶46,09∶04、18∶26,2018年3月30號(星期五)車流量變點檢測情況如圖2(右)所示,檢測結(jié)果顯示存在四個變點,對應的位置分別是199、217、512、550且相對應的時間為 06∶34,07∶10、17∶00、18∶16,從檢測結(jié)果容易看出工作日星期二和星期五有著類似的交通流變化規(guī)律,檢測出早高峰7∶00~9∶00和晚高峰17∶00~19∶00都存在交通流變點,對于星期五而言變化情況更為復雜,這是因為星期五是一周中工作日的最后一天,人們都有各自的周末安排,在結(jié)束一周的工作后將出行旅游或者和朋友聚餐等活動,這就造成交通流變化規(guī)律有一定的變化,本文的檢測結(jié)果和人們平時的出行規(guī)律相符合,證明了此方法的有效性。 2018年3月31號(星期六)車流量變點檢測結(jié)果如圖3所示。 從圖3中2018年3月31號(星期六)車流量變點檢測結(jié)果得到,在周末變點存在的時間為8∶22,15∶50,17∶56和上述工作日車流量變點檢測結(jié)果相比,周末的早高峰要比工作日來得晚,而晚高峰變點存在情況和工作日相差不大,這是因為周末是人們在經(jīng)過辛苦的一周工作后放松的時間,人們的生活習慣傾向于更加隨意和散漫,人們都更愿意睡個舒服的懶覺再整理出門,這就導致了路段交通流變點的延遲,說明本文變點檢測方法能有效地檢測出交通流變點存在情況。 圖3 2018.3.31(星期六)車流量變點檢測結(jié)果Fig.3 2018.31(Saturday) traffic change point detection results 本文通過單分位數(shù)方法對多元時間序列尾指數(shù)變化進行變點檢測。通過模擬研究證明了該方法的有效性,通過對交通數(shù)據(jù)的實例分析,得到該方法能準確檢測到交通流中存在的變點,進而對于出行者而言了解該信息可以避免出行高峰期,提高出行效率,對于相關(guān)交管部門而言可根據(jù)該信息有效且快速地采取解決方案,一定程度上舒緩交通壓力。2.2 臨界值的確定
3 模擬研究
3.1 模擬數(shù)據(jù)介紹
3.2 臨界值的確定
3.3 變點檢測
4 實例分析
5 總結(jié)