褚云通
基于Cholesky分解的協(xié)方差矩陣估計
褚云通
(遼寧師范大學 數(shù)學學院,遼寧 大連 116029)
重復測量數(shù)據(jù)經(jīng)常在心理學、社會科學、經(jīng)濟學和醫(yī)學研究等領域出現(xiàn).對于重復測量數(shù)據(jù),高維(HD)和正定(PD)約束是協(xié)方差和相關矩陣建模的2個主要障礙.基于Cholesky型分解的方法在處理HD和PD問題上是有效的.基于修正的Cholesky分解(MCD)、替代Cholesky分解(ACD)和Cholesky因子參數(shù)化(HPC)3種方法,對遵循高斯分布的重復測量數(shù)據(jù)擬合聯(lián)合均值和方差模型,然后對參數(shù)估計的協(xié)方差矩陣進行了比較.
Cholesky分解;協(xié)方差矩陣估計;重復測量數(shù)據(jù)
由于在同一研究對象內(nèi)收集的測量數(shù)據(jù)的組成部分不是獨立的,所以協(xié)方差矩陣在分析縱向研究數(shù)據(jù)中起著重要的作用.一個好的協(xié)方差建模方法可以改進對均值的統(tǒng)計推斷,并且協(xié)方差結構本身在某些情況下也具有科學意義[1].然而,由于協(xié)方差矩陣的估計通常是正定的,并且協(xié)方差矩陣中有許多參數(shù),因此對協(xié)方差結構的建模具有挑戰(zhàn)性.為了克服這個障礙,Pourahmadi[2]提出了一種基于修正的協(xié)方差矩陣Cholesky分解(MCD)的數(shù)據(jù)驅(qū)動聯(lián)合均值協(xié)方差建模方法.雖然分解會導致重新參數(shù)化,但是其中的元素可以根據(jù)重新參數(shù)化后的方差和自回歸系數(shù)進行解釋[3].文獻[4]提出了一種替代Cholesky分解(ACD),可以理解為對某些參數(shù)化后的方差和平均參數(shù)進行建模,并與文獻[5]提出的MCD進行了詳細的比較.這2種Cholesky類型的方法顯示了簡潔有效的特點,但它們相應的方差不能直接解釋為重復觀測的方差.文獻[6]考慮了基于相關矩陣的標準Cholesky分解和其Cholesky因子的參數(shù)化(HPC)回歸方法,其中參數(shù)可直接解釋方差和相關性.基于修正的Cholesky分解(MCD)、替代Cholesky分解(ACD)和Cholesky因子參數(shù)化(HPC)3種方法,對遵循高斯分布的重復測量數(shù)據(jù)擬合聯(lián)合均值和方差模型,然后對參數(shù)估計的協(xié)方差矩陣進行了比較.
高維性(HD)和正定性(PD)是對協(xié)方差矩陣建模的主要障礙.引入回歸技術可以減少HD問題,在協(xié)方差結構建模中使用Cholesky分解可以潛在地消除PD約束.
設正定協(xié)方差矩陣的標準Cholesky分解形式為
或者另一種更常用的形式
可以證明
在式(17)中的模型下,得出除了常數(shù)外對數(shù)似然函數(shù)的-2倍為
盡管修正的Cholesky分解和替代的Cholesky分解對于協(xié)方差矩陣具有簡潔、無約束的優(yōu)點,但是參數(shù)化后的方差不等同于被觀察者重復測量的邊際方差.
方差相關分解的一般形式為
利用牛體質(zhì)量增長數(shù)據(jù)[10]進行實例分析.牛被隨機分配到A和B2個實驗,并記錄它們的體質(zhì)量.30只動物接受處理A,另外30只接受處理B.每只動物的前10次測量間隔為2周,最后一次測量間隔為1周.由于沒有觀測數(shù)據(jù)丟失,因此它是一個平衡的縱向數(shù)據(jù)集.為解決過擬合問題,根據(jù)貝葉斯信息準則(BIC)得出
圖1 MCD方法的擬合效果
由圖1a可以看出,擬合的多項式函數(shù)曲線很好地揭示了曲率模式;由圖1b可以看出,自回歸系數(shù)的擬合良好.
圖2 ACD方法的擬合效果
由圖2a可以看出,擬合的多項式函數(shù)曲線很好地捕捉到了曲率模式;由圖2b可以看出,自回歸系數(shù)的擬合良好.
圖3 HPC方法的擬合效果
由圖3a可以看出,擬合的多項式函數(shù)曲線很好地捕捉到了曲率模式;由圖3b可以看出,自回歸系數(shù)的擬合良好.
比較基于MCD,ACD,HPC方法的牛體質(zhì)量數(shù)據(jù)聯(lián)合均值協(xié)方差模型,對擬合模型測量了不同的三元組選擇和執(zhí)行時間(/s),結果見表1.
表1 MCD,ACD,HPC方法的執(zhí)行時間及相關結果比較
由表1可以看出,MCD方法和ACD方法在似然值和BIC值方面會產(chǎn)生非常接近的結果,而基于MCD的模型是這3種方法中時間效率最高的.與MCD方法和ACD方法相比,HPC方法在大多數(shù)情況下具有更大的對數(shù)似然性和更小的BIC值,但代價是執(zhí)行時間更長.
對于協(xié)方差和相關結構的建模,3種基于Cholesky型分解的方法是有效的,因為估計的協(xié)方差和相關矩陣是(半)正定的,并且通過回歸技術大大減少了參數(shù)的數(shù)量.顯然,MCD方法和ACD方法都是通過Cholesky因子標準化以相似的方式構造的,所以它們之間的關系更為密切.這2種方法的主要缺點是很難找到合理的統(tǒng)計解釋,在實踐中需要額外的工作來解釋相應的方差和相關函數(shù).HPC的參數(shù)化由于得到的參數(shù)是無約束的,并且可以直接解釋方差和相關性,而且相關矩陣的Cholesky因子中的角度與相關性有幾何關系,所以它有效解決了協(xié)方差矩陣計算中存在的問題.但是,因為估計Cholesky因子的問題被轉(zhuǎn)化為估計由角度組成的矩陣問題,所以使用HPC方法對協(xié)方差和相關性進行建模在計算上存在較大困難.
[1] Diggle P J,Verbyla A P.Nonparametric Estimation of Covariance Structure in Lon-gitudinal Data[J].Biometrics,1998,52(2):
401-415
[2] Pourahmadi M.Joint Mean-Covariance Models with Applications to Longitudinal Data: Unconstrained Parameterisation[J].Bio-
metrika,1999,86(3):677-690
[3] Pan J,Mackenzie G.On Modelling Mean-Covariance Structures in Longitudinal Studies[J].Biometrika,2003,90(1):239-244
[4] Chen Z,Dunson DB.Random Effects Selection in Linear Mixed Models[J].Biometrics,2003,59(4):762-769
[5] Pourahmadi M.Cholesky Decompositions and Estimation of a Covariance Matrix:Orthogonality of Variance-Correlation Parameters[J].Biometrika,2007,94(4):1006-1013
[6] Zhang W,Leng C,Tang C Y.A Joint Modelling Approach for Longitudinal Studies[J].Journal of the Royal Statistical Society B,2015,77(1):219-238
[7] Zhang W,Leng C.A Moving Average Cholesky Factor Model in Covariance Modelling for Longitudinal Data[J].Biometrika,2012,99(1):141-150
[8] Maadooliat M,Pourahmadi M,Huang J Z.Robust Estimation of the Correlation Matrix of Longitudinal Data[J].Statistics and Computing,2013,23(1):17-28
[9] Rapisarda F,Brigo D,Mercurio F.Parameterizing Correlations:A Geometric Interpretation[J].IMA Journal of Management Mathematics,2007,18(1):55-73
[10] Kenward M G.A Method for Comparing Profiles of Repeated Measurements[J].Journal of the Royal Statistical Society C,1987,36(3):296-308
Covariance matrix estimation based on Cholesky decomposition
CHU Yuntong
(School of Mathematics,Liaoning Normal University,Dalian 116029,China)
Longitudinal data are often used in fields such as psychology,social science,economics and medical research,etc.For longitudinal data,high dimensional(HD) and positive definite(PD) constraints are two major obstacles to covariance and correlation matrix modeling.It is evident that Cholesky-type decomposition based methods are effective in dealing with HD and PD problems.Based on the modified Cholesky decomposition (MCD), alternating Cholesky decomposition (ACD) and hyperspherical parameterization of Cholesky factor (HPC) methods.The joint mean and variance models was fitted to the repeated measurement data following Gaussian distribution,and then the covariance matrices of parameter estimation was compared.
Cholesky decomposition;covariance matrix estimator;longitudinal data
O212
A
10.3969/j.issn.1007-9831.2020.09.004
1007-9831(2020)09-0011-06
2020-06-03
褚云通(1996—),男,遼寧沈陽人,在讀碩士研究生,從事應用統(tǒng)計研究.E-mail:1731796876@qq.com