郭益敏, 楊煒明
(重慶工商大學 數學與統(tǒng)計學院,重慶 400067)
基于Pair-Copula函數的空間預測模型及其應用*
郭益敏, 楊煒明**
(重慶工商大學 數學與統(tǒng)計學院,重慶 400067)
對于空間數據的插值預測,大多采用傳統(tǒng)的空間插值方法如反距離加權插值法和克里金插值法,這2種方法在邊緣分布或存在異常值的情況下會導致預測精度相對較低;采用基于Copula理論的方法克服了這一問題。通過Pair-Copula函數描述了空間相依結構并利用MCMC方法(貝葉斯估計法)估計參數,討論基于空間數據對未觀測位置相關數據進行了空間插值預測;結合重慶市霧霾數據對該方法與反距離加權插值法、普通克里金和泛克里金插值法進行比較,結果發(fā)現基于Pair-Copula函數的空間預測模型具有更高的精度。
Pair-Copula函數;空間相依結構;空間預測
Copula理論自1959年Sklar[1]首次提出以來即得到廣泛應用[2-4],隨后考慮到兩兩變量間相關結構的差異性,Bedford和Cooke[5-6]在Joe[7]的研究基礎上,引入Vine這一圖解模型,將多元Copula函數分解為多個條件或非條件二元Copula函數的乘積,即Pair-Copula結構(PCC)。Pair-Copula模型能更好地反映復雜事物之間的相關關系,許多學者在這方面做了大量應用研究[8-9]。近年來快速發(fā)展的Pair-Copula理論在空間領域的應用越來越多,也驗證了結合空間信息的方法較非空間方法更準確省時[10]。
隨著信息技術的高速發(fā)展和空間數據結構的日益豐富,如何利用Copula理論構造空間相依結構以達到空間插值預測的目的成為空間數據分析建模的難點。空間統(tǒng)計分析中,通常利用變差函數描述空間相關性并用Kriging插值法進行預測,但這兩種方法對相距較遠的觀測點(即異常值)比較敏感且易受到隨機場邊緣分布的影響。因此,本文利用Pair- Copula函數描述插值的空間依賴性結構并將其與邊緣信息結合建立聯合分布,運用MCMC(貝葉斯)法估計參數,結合重慶市霧霾觀測站的實際數據進行空間插值預測,并與傳統(tǒng)插值方法,如反距離加權插值法(IDW)、普通克里金(OK)和泛克里金(UK)插值法進行比較。
假設所有聯合、邊緣和條件分布連續(xù)且有相應的密度函數,Pair-Copula結構可將d維聯合密度分解為d個邊緣密度與d(d-1)/2個二元Copula密度的乘積,是一種靈活的工具。Bedford和Cooke定義的Vine包括兩類常用形式,即D-Vine和C-Vine,本文使用C-Vine對聯合分布進行分解。
1.1 C-Vine Copula
C-Vine呈輻射狀結構,每棵樹有一個根節(jié)點與其他節(jié)點相連。以5維C-Vine為例,它包含4棵樹Tj,j=1,2,3,4,樹Tj有6-j個節(jié)點和5-j條邊,樹Tj的節(jié)點是Tj+1的邊,每條邊及其標記對應一個Pair-Copula函數和該函數的下標,例如,邊14|23對應Pair-Copula密度c14|23。
考慮d維隨機向量(Y1,…,Yd),其聯合分布和密度分別為F1:d和f1:d,1:d={1,…,d},則基于C-Vine的PCC結構為
(1)
1.2 空間Pair-Copula模型
在隨機場{Z(x),x∈S}中,S是研究區(qū)域,x=(x1,…,xd)′表示研究區(qū)域中不同的觀測位置,Z(x)是在位置x處的隨機變量,其取值是隨機變量在該點處的一個隨機實現。在一定空間范圍內,不同空間位置的研究主體都存在著一定的相關性,但當兩監(jiān)測站間相距超過一定距離時,則認為它們是獨立的。本文選擇式(2)來描述空間相依結構[11]:
(2)
其中,h為滯后距,a為變程。
多數情況下,邊緣分布函數的均值函數存在空間趨勢和自相關,因而本文選擇經緯度和滯后變量作為其解釋變量,建立下面的自回歸模型:
(3)
考慮邊緣分布連續(xù)情況下的Gassian copula函數。將式(2)、式(3)代入(將空間相關函數和空間趨勢引入)似然函數有:
(4)
1.3 空間插值預測
2.1 實證分析
利用重慶市17個霧霾監(jiān)測站的經緯度等地理信息和霧霾PM 2.5數據,整理樣本,構成樣本點數據集合。運用R軟件中的SP程序包計算各觀測站間的距離(觀測站與自身的距離為0),并根據每個觀測站與其余所有站點的距離平均值排序確定C-Vine的根節(jié)點,即平均距離最小的作為每棵樹的根節(jié)點。為了檢驗空間Pair-Copula模型的預測精度,從17個觀測站中隨機抽取5個點作為檢驗點,共抽取50組,利用交叉驗證法對邊緣分布為正態(tài)分布或截斷正態(tài)分布的剩余12個觀測點的樣本數據進行建模,計算檢驗點的真實值與預測值間的均方根誤差,并與反距離加權插值法、普通克里金和泛克里金插值法進行比較。這里選取其中的兩天進行交叉驗證對比分析。
其中,2016-07-11與2016-07-15兩天的均方根誤差值相差較大,這是由于2016-07-15的樣本數據中含有缺失值。由表1知,包含缺失值或不含缺失值的50組交叉驗證中,Pair-Copula空間模型插值預測結果的均方根誤差均小于其余3種傳統(tǒng)空間插值方法,說明該模型在預測精度上更優(yōu)。此外,反距離加權插值法與普通克里金法的精度相差不大,泛克里金法精度相對最低,其中普通克里金插值法的精度在總體上較反距離插值法和泛克里金插值法更優(yōu)。交叉驗證結果表明,基于Pair-Copula函數構建空間模型對重慶市主城區(qū)觀測站的霧霾數據進行空間插值預測,較傳統(tǒng)插值方法(IDW、OK、UK)相比能夠達到更高的精度。
表1 模型預測精度交叉驗證結果(均方根誤差值)
2.2 結 論
在空間數據分析中,研究樣本如霧霾濃度受多方面因素影響且存在異常值,因此傳統(tǒng)克里金插值法并不適用??臻gPair-Copula模型利用PCC靈活地描述空間依賴性關系與空間相依結構,進而通過構造聯合分布函數進行建模,克服了利用變差函數表述空間相關結構的不足,并且將邊緣信息與影響因素有效地結合在一起,使得空間插值結果更加準確。本文僅對正態(tài)數據進行建模分析,而對非正態(tài)數據建模時更為復雜,這種情況還有待進一步研究。
[1] SKLAR A. Fonctions De RéPartition à N Dimensions Et Leurs Marges[J]. Publication de L’Institut de Statistique de L’Universit de Paris,1959(8):229-231
[2] 張堯庭.連接函數(Copula)技術與金融風險分析[J].統(tǒng)計研究,2002(4):48-51
ZHANG Y T.Copula Technique and Financial Risk Analysis[J].Statistical Research,2002(4):48-51
[3] BEATRIZ V,RAFAEL M.Measuring Financial Risks with Copulas[J].International Review of Financial Analysis,2004,13(1):27-45
[4] SHIAU J T.Fitting Drought and Severity with Two-Dimensional Copulas[J].Water Resources Management,2006,20(5):795-815
[5] BEDFORD T,COOKE R.Probability Density Decomposition for Conditionally Dependent Random Variables Modeled by Vines[J].Annals of Mathematics and Artificial Intell-igence,2001,32(1):245-268
[6] BEDFORD T,Cooke R.Vines:A New Graphical Model for Dependent Random Variables[J].Annals of Statistics,2002,30(4):1031-1068
[7] JOE H.Families of M-variate Distributions with Given Margins and M(M-1)/2 Bivariate Dependence Parameters[J].Distributions with Fixed Marginals and Related Topics:Lecture Notes—Monograph Series,1996(28):120-141
[8] BERG D,AAS K.Models for Construction of Higher-Dimensional Dependence:A Comparison Study[J].European Journal of Finance,2009,15(7-8):639-659
[9] 楊茂靈,王龍,余航,等.基于Pair-Copula函數和標準化徑流指數的水文干旱頻率分析:以南盤江流域為例[J].長江流域資源與環(huán)境,2014,23(9):1315-1321
YANG M L,WANG L,YU H,et al.Analysis of Hydrological Drought Frequency Based on the Pair-Copula and Standardized Streamflow Index:Using NaPan River Basin as An Example[J].Resources and Environment in the Yangtze Basin,2014,23(9):1315-1321
[10] ERHARDT T M,CZADO C,SCHEPSMEIER U.Spatial Composite Likelihood Inference Using Local C-Vines[J].Journal of Multivariate Analysis,2015(138):74-88
[11] DIGGLE P,Ribeiro P.Model-based Geostatistics[M].New York:Springer,2007
責任編輯:李翠薇
Spatial Prediction Model and Its Application Based on Pair-Copula Functions
GUO Yi-min, YANG Wei-ming
(School of Mathematics and Statistics, Chongqing Technology and Business University, Chongqing 400067, China)
The interpolation prediction of spatial data usually uses traditional spatial interpolation methods such as inverse distance weighted interpolation and Kriging interpolation, whose prediction accuracy is relatively low under the impact of marginal distribution or outlier, as a result, the method based on copula overcomes the problem. Spatial correlation structures are described by Pair-Copula function and the parameters are estimated, and spatial interpolation prediction method is discussed in corresponding values of none-observation stations based on spatial data. This model is compared with inverse distance weighted interpolation, original Kriging interpolation and universal Kriging interpolation based on the data of fog in Chongqing, and the results show that the spatial prediction model based on Pair-Copula function posses the higher accuracy.
Pair-Copula function; spatial correlation structure; spatial prediction
10.16055/j.issn.1672-058X.2017.0003.004
2016-11-10;
2016-12-10. * 基金項目:國家社會科學基金(13CTJ016); 重慶市教委科學技術研究項目(KJ1600610).
郭益敏(1993-),女,重慶人,碩士研究生,從事空間統(tǒng)計和空間計量研究.
**通訊作者:楊煒明(1981-),男,湖南人,副教授,博士,從事縱向數據建模和空間統(tǒng)計研究.E-mail:ywmctbu@hotmail.com.
F224
A
1672-058X(2017)03-0017-04