張立強(qiáng) 遲明雨 于梅菊
摘要:本文針對(duì)美國(guó)匹茲堡市每月的盜竊犯罪數(shù)據(jù),利用幾類常見的一階整值時(shí)間序列模型對(duì)數(shù)據(jù)進(jìn)行擬合,根據(jù)AIC和BIC標(biāo)準(zhǔn),結(jié)果表明負(fù)二項(xiàng)的INAR(1)模型擬合效果是最優(yōu)的,最后基于負(fù)二項(xiàng)的INAR(1)模型給出了該組數(shù)據(jù)的預(yù)測(cè)。
關(guān)鍵詞:整值時(shí)間序列;INAR(1)模型;擬合;預(yù)測(cè)
在現(xiàn)實(shí)生活中,我們經(jīng)常能夠遇到有關(guān)計(jì)數(shù)的數(shù)據(jù),例如某地區(qū)某種傳染病每月的患病人數(shù),商場(chǎng)中某種產(chǎn)品每天的銷售件數(shù),某種珍稀物種每年的存活數(shù),某轄區(qū)每月發(fā)生的犯罪數(shù)等等。此類數(shù)據(jù)的共同特點(diǎn)是均取非負(fù)整數(shù)值,因此,建模的方法與通常取連續(xù)值的時(shí)間序列有很大的不同,研究的過程中也存在著更多的困難.關(guān)于整值時(shí)間序列的研究最早始于上世紀(jì)的80年代,發(fā)展至今,大致上分為稀疏模型和狀態(tài)空間模型兩大類,其中尤以稀疏模型的研究最為普遍。最早的也是應(yīng)用最廣的稀疏模型是INAR(1)模型,它是在傳統(tǒng)的一階自回歸模型AR(1)的基礎(chǔ)上將所有的乘法運(yùn)算替換為二項(xiàng)稀疏運(yùn)算“°”而得到的。近些年來,有關(guān)二項(xiàng)稀疏算子推廣的研究從未間斷過,隨著各種各樣新的稀疏算子的出現(xiàn),越來越多的稀疏模型被提出來,更多的關(guān)于利用稀疏算子建模的問題可以參考文獻(xiàn)Weiβ(2008)[1]和Scotto et al. (2015)[2]。本文以美國(guó)匹茲堡市第28區(qū)每月的盜竊犯罪數(shù)據(jù)為例,擬用三種常用的一階整值自回歸模型對(duì)數(shù)據(jù)進(jìn)行擬合,通過分析比較,選取擬合效果最好的模型對(duì)該數(shù)據(jù)進(jìn)行預(yù)測(cè)。
1 廣義INAR(1)模型的定義及性質(zhì)
2 美國(guó)匹茲堡市盜竊數(shù)據(jù)的分析與預(yù)測(cè)
在本節(jié)中,我們利用上面的三種模型去分析一組關(guān)于盜竊的數(shù)據(jù)(http://www.forecastingprinciples.com/Crime/crime%20data.htmalHYPERLINK"http://www.forecastingprinciples.com/Crime/crime%20data.htmal"),該數(shù)據(jù)記錄了從1990年1月至2001年12月美國(guó)匹茲堡市第28區(qū)每月的盜竊數(shù)量,其樣本均值為5.889,樣本方差為9.148,圖1給出了該組數(shù)據(jù)的樣本路徑圖、自相關(guān)函數(shù)(ACF)圖和偏自相關(guān)函數(shù)(PACF)圖。從圖中可以發(fā)現(xiàn)延遲為1的自相關(guān)系數(shù)是0.332,且自相關(guān)圖大致呈現(xiàn)出一種指數(shù)衰減趨勢(shì),因此我們判斷這組數(shù)據(jù)可能來自于一個(gè)INAR(1) 過程。
首先,我們分別利用上面的三種模型去擬合該組數(shù)據(jù),然后用條件極大似然(CML)的方法去估計(jì)模型中的未知參數(shù)(α,λ)′。為了評(píng)價(jià)擬合的效果,我們選用赤池信息準(zhǔn)則(AIC)、貝葉斯信息準(zhǔn)則(BIC)和觀察值與預(yù)測(cè)值之差的均方根(RMS)來進(jìn)行衡量,具體結(jié)果總結(jié)在下表中。從表下我們發(fā)現(xiàn)模型Ⅱ的AIC值、BIC值和RMS值均最小,因此得到模型Ⅱ?qū)υ摻M數(shù)據(jù)的擬合效果是最好的。在時(shí)間序列里一個(gè)通常的構(gòu)造預(yù)測(cè)的方法是利用條件期望,因?yàn)閺臈l件期望出發(fā)構(gòu)造出的預(yù)測(cè)具有最小的均方誤差[4]。最后我們基于模型Ⅱ?qū)l件期望的取整作為犯罪數(shù)據(jù)的預(yù)測(cè),預(yù)測(cè)結(jié)果如圖2所示。從圖2中我們可以看出,利用模型Ⅱ?qū)υ摻M犯罪數(shù)據(jù)的擬合效果是比較好的,基本上能夠刻畫數(shù)據(jù)的變化的趨勢(shì)。
3 結(jié)語(yǔ)
在大數(shù)據(jù)的背景下,科學(xué)的犯罪預(yù)測(cè)方法可以高效地幫助公安機(jī)關(guān)利用歷史的數(shù)據(jù)及時(shí)地預(yù)測(cè)犯罪活動(dòng)的趨勢(shì)和社會(huì)治安的走向。本文以美國(guó)匹茲堡市每月的盜竊數(shù)據(jù)為例,給出了基于一階整值時(shí)間序列的犯罪數(shù)據(jù)的分析與預(yù)測(cè).為大數(shù)據(jù)下,利用數(shù)據(jù)分析和建模技術(shù)來預(yù)測(cè)犯罪提供了一種可行的思想和方法。
參考文獻(xiàn):
[1]Wei,C H. Thinning operations for modeling time series of countsa survey [J].Asta Advances in Statistical Analysis,2008,92,319343.
[2]Scotto, M.G, Wei, C H, Gouveia, S. Thinningbased models in the analysis of integervalued time series: a review [J].Statistical Modelling,2015,15,590618.
[3]Gauthier, G and Latour, A. Convergence forte des estimateurs des paramètres d'un processus GENAR(p) [J].Annales des Sciences Mathematiques du Quebec,1994,18,4971.
[4]何書元,應(yīng)用時(shí)間序列分析[M].北京:北京大學(xué)出版社,2003.
基金項(xiàng)目:吉林省大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃(項(xiàng)目編號(hào):201710202013)
*通訊作者:于梅菊,通化師范學(xué)院數(shù)學(xué)學(xué)院講師。