楊艷秋, 王德輝
(1.吉林大學(xué) 數(shù)學(xué)學(xué)院, 長春 130012; 2.吉林師范大學(xué) 數(shù)學(xué)學(xué)院, 吉林 四平 136000)
在實際應(yīng)用中, 一些隨機事件會以一定的概率在一個觀察周期內(nèi)滯留或消失, 但又會在另一段時間內(nèi)變得非?;钴S, 可能引發(fā)更多的隨機事件.例如: 某些犯罪案件, 通常具有衍生新的隨機案件的可能, 其特征是能立即引起一個或多個其他案件的能力相對較小, 但相同情況一段時間后則會較明顯.為了解決此類問題, 許多統(tǒng)計學(xué)者進行了相關(guān)研究[1-3].文獻[1]提出了p階混合整值自回歸模型, 將兩種主流算子二項稀疏算子和負二項稀疏算子以一定概率混合, 相比單一算子可以更好地擬合具有上述特征的數(shù)據(jù).此外, 研究時間序列模型下缺失數(shù)據(jù)的參數(shù)估計方法有一定的應(yīng)用價值.文獻[4]給出了3種數(shù)據(jù)缺失機制, 分別為完全隨機缺失、隨機缺失和非隨機缺失.本文在完全隨機缺失機制下, 給出p階混合整值自回歸模型缺失數(shù)據(jù)的4種處理方法, 并給出每種方法下參數(shù)的條件最小二乘估計.
文獻[1]提出了二項稀疏算子與負二項稀疏算子以一定概率混合的p階混合整值自回歸模型(MGINAR(p)):
其中a2 缺失數(shù)據(jù)處理方法
考慮來自MGINAR(p)模型的樣本X1,X2,…,Xn, 其完全樣本容量為n.該樣本中觀測到的數(shù)據(jù)為{Xs}, 其中s∈S?; 未搜集到的數(shù)據(jù)為{Xg},g∈G?(-S), 即為缺失數(shù)據(jù).其中Xk1為第一個非缺失數(shù)據(jù),Xkm為最后一個非缺失數(shù)據(jù),Xk1與Xk2之間存在j個缺失數(shù)據(jù), 共有m個非缺失數(shù)據(jù), 共有(n-m)個缺失數(shù)據(jù).
關(guān)于缺失數(shù)據(jù)的研究目前已得到廣泛關(guān)注[5-7], 其中最簡單直接處理缺失數(shù)據(jù)的方法是個案剔除法, 即將含有缺失數(shù)據(jù)的變量直接從數(shù)據(jù)中剔除.該方法是常用統(tǒng)計軟件SAS(statistical analysis system)和SPSS(statistical product and service solutions)默認的處理方法, 本文基于p階混合整值自回歸模型研究該方法的可行性.采用個案剔除法, 將缺失數(shù)據(jù)剔除.但將個案剔除時, 會導(dǎo)致樣本量的減少, 從而丟失部分數(shù)據(jù)信息, 進而在推斷時會導(dǎo)致偏差較大, 使研究者忽略缺失數(shù)據(jù)前后數(shù)據(jù)間的相關(guān)結(jié)構(gòu).
考慮具有缺失數(shù)據(jù)時間序列模型的處理, 可通過最小二乘估計的思想求解缺失數(shù)據(jù)下時間序列模型的參數(shù)估計問題, 即可通過非插補條件最小二乘估計法, 最小化如下的完全平方和Q(θ)得到參數(shù)估計, 其中
(1)
基于MGINAR(p)模型, 有
且
通過迭代可求出式(1)中的E(Xki|Xki-1).
非插補條件最小二乘估計法與個案剔除法的差別在于非插補條件最小二乘法考慮非缺失數(shù)據(jù)間的缺失數(shù)據(jù)個數(shù), 因為這里用的是非缺失數(shù)據(jù)間的條件期望, 而個案剔除法則不考慮非缺失數(shù)據(jù)間的缺失數(shù)據(jù)個數(shù), 直接將非缺失數(shù)據(jù)放在一起視為完整數(shù)據(jù).
若需要剔除的個案比例龐大, 則統(tǒng)計結(jié)果會有偏離, 此時需用均值插補法.該方法建立在完全隨機缺失(指目標變量X的缺失概率與任何變量的取值均無關(guān))的假設(shè)下, 用所有非缺失數(shù)據(jù)值的期望值對缺失單元進行填補.實際應(yīng)用中這類缺失數(shù)據(jù)集很常見, 如對某地區(qū)環(huán)境質(zhì)量的某個指標進行檢測, 由于檢測儀器的隨機不工作, 可能會產(chǎn)生不完整的監(jiān)測數(shù)據(jù), 是一種完全隨機缺失數(shù)據(jù)集, 適用于該方法進行缺失數(shù)據(jù)的填補.該方法不改變變量的均值估計, 是一種簡便處理缺失數(shù)據(jù)的方法.本文在完全隨機缺失機制下, 給出MGINAR(p)模型缺失數(shù)據(jù)的均值插補方法, 將其與完全數(shù)據(jù)統(tǒng)計推斷方法相結(jié)合得到參數(shù)估計.算法步驟如下:
1) 觀察數(shù)據(jù)的缺失情況, 將觀測到的非缺失數(shù)據(jù)Xk1,Xk2,…,Xkm作為研究對象, 求數(shù)據(jù)期望;
2) 若所求期望為非整數(shù)值, 則將所求期望值四舍五入, 得到整數(shù)值, 并將其作為缺失數(shù)據(jù)的插補值;
3) 將插補后的數(shù)據(jù)作為完全數(shù)據(jù)X1,X2,…,Xn, 利用標準統(tǒng)計推斷方法進行模型的參數(shù)估計.
如果缺失數(shù)據(jù)是非數(shù)值型的, 則可采用非缺失數(shù)據(jù)中取值次數(shù)最多的值插補缺失的數(shù)據(jù), 但可能會產(chǎn)生有偏估計.
橋式插補法插補原理是通過比較估計值與真實觀測值是否相等選取最終插補值[8].該插補方法適應(yīng)于非缺失數(shù)據(jù)Xk1與Xk2之間存在j個缺失數(shù)據(jù), 采用迭代方法, 生成預(yù)備候選插補值.在實際應(yīng)用中, 這類數(shù)據(jù)集較常見, 如某醫(yī)院收集特定疾病的患者進行醫(yī)療研究, 得到的數(shù)據(jù)一般會存在缺失的情況[9-12].缺失數(shù)據(jù)的橋式插補法算法步驟如下:
1) 基于MGINAR(p)模型, 從參數(shù)空間Θ中選取初值θ0;
4) 利用步驟2)插補所有缺失數(shù)據(jù), 生成插補后新的完整數(shù)據(jù)集;
5) 進行參數(shù)估計, 如果估計達到事先約定的收斂標準則停止, 否則重復(fù)步驟2)~步驟4).
注1參數(shù)初值的選取方法, 利用剔除法將缺失數(shù)據(jù)剔除, 將非缺失數(shù)據(jù)視為等間隔完全數(shù)據(jù), 得到的參數(shù)估計值作為參數(shù)初值.
注2橋插補法最終生成的數(shù)據(jù)如果與真實數(shù)據(jù)相差較大, 則需要多次操作, 才能達到預(yù)期效果.
注3在實際操作中, 由于模擬過程的收斂速度較慢, 因此要得到精確度高的估計結(jié)果較難.
下面通過數(shù)值模擬考察上述4種方法在處理缺失數(shù)據(jù)情況時一階混合自回歸模型的參數(shù)估計問題.考慮基于MGINAR(1)模型, 生成來自MGINAR(1)模型的100個隨機樣本, 對每組數(shù)據(jù)重復(fù)實現(xiàn)500次(舍棄前2 000次后), 記作X1,X2,…,X100, 其中參數(shù)(μ,α,p)真值分別取(2,0.3,0.4),(6,0.7,0.6).設(shè)缺失概率分別為5%,10%和15%.
1) 個案剔除法.將(n-m)個缺失數(shù)據(jù)剔除, 剔除后的樣本視為完全樣本, 可得到參數(shù)的條件最小二乘估計, 結(jié)果列于表1.
2) 非插補條件最小二乘估計法.基于MGINAR(1)模型, 可知
E(Xt+k|Xt)=αkXt+μ(1-αk)(k=1,2,…),
Q(θ)的表達式為
3) 均值插補法.以均值插補法為例, 下面給出參數(shù)(μ,α,p)真值取(2,0.3,0.4)時完全隨機樣本的樣本路徑圖.缺失概率分別為5%,10%和15%的樣本路徑和均值插補法插補后的樣本路徑, 分別如圖1和圖2所示.通過對均值四舍五入, 將缺失數(shù)據(jù)填補完整, 并得到參數(shù)的最小二乘估計, 模擬結(jié)果列于表1.
圖1 完全樣本路徑和缺失樣本路徑Fig.1 Complete sample path and missing sample path
表1 不同缺失概率下參數(shù)估計的偏差和均方誤差
Table 1 Bias and MSE of parameter estimation with different missing probabilities
條件參數(shù)估計個案剔除法非插補條件最小二乘估計法均值插補法橋式插補法A^μ(0.227 0, 0.095 9)(0.265 3, 0.149 4)(-0.220 8, 0.003 4)(0.343 6, 0.078 5)^α(0.096 7, 0.009 0)(-0.111 9, 0.027 8)(0.047 3, 0.001 2)(0.047 0, 0.006 4)^p(0.176 3, 0.062 6)(-0.035 3, 0.110 7)(-0.024 4, 0.005 1)(-0.209 7, 0.034 2)B^μ(0.790 0, 0.741 2)(-0.485 7, 0.569 3)(0.760 4, 0.003 2)(-0.432 9, 0.029 7)^α(0.012 0, 0.118 0)(-0.083 4, 0.228 1)(0.210 1, 0.020 6)(0.045 7, 0.011 2)^p(0.167 9, 0.067 4)(0.153 4, 0.031 2)(0.362 2, 0.001 9)(0.032 0, 0.003 3)C^μ(0.787 1, 0.296 2)(0.507 7, 0.291 5)(0.067 2, 0.001 5)(0.242 4, 0.061 4)^α(0.024 1, 0.013 9)(-0.044 6, 0.006 2)(0.010 4, 0.022 5)(0.043 0, 0.002 2)^p(-0.331 0, 0.038 0)(-0.173 4, 0.024 6)(0.001 7, 0.002 5)(0.021 5, 0.010 2)D^μ(-0.301 2, 0.806 2)(0.109 5, 0.022 1)(0.485 8, 0.004 2)(-0.090 3, 0.443 1)^α(0.072 2, 0.013 3)(-0.114 1, 0.007 9)(0.025 6, 0.009 8)(-0.007 0, 0.012 5)^p(-0.044 4, 0.020 2)(-0.005 4, 0.016 8)(0.019 1, 0.011 9)(0.154 6, 0.013 8)E^μ(-0.101 0, 0.055 2)(0.580 7, 0.286 6)(0.206 6, 0.055 2)(-0.148 9, 0.216 1)^α(-0.042 1, 0.005 9)(0.094 4, 0.011 4)(0.102 6, 0.002 9)(-0.066 0, 0.004 3)^p(-0.223 8, 0.028 2)(-0.086 4, 0.019 3)(0.021 1, 0.003 1)(-0.045 6, 0.013 1)F^μ(-0.786 4, 0.632 7)(-0.478 7, 0.034 4)(0.411 5, 0.013 5)(-0.245 3, 0.062 1)^α(0.049 9, 0.138 8)(0.234 2, 0.015 2)(0.106 5, 0.005 0)(0.095 5, 0.004 5)^p(0.135 7, 0.132 3)(0.300 9, 0.049 6)(0.221 4, 0.007 9)(0.108 3, 0.007 4)
注: A.(μ,α,p)=(2,0.3,0.4), 缺失概率為5%; B.(μ,α,p)=(6,0.7,0.6), 缺失概率為5%; C.(μ,α,p)=(2,0.3,0.4), 缺失概率為10%; D.(μ,α,p)=(6,0.7,0.6), 缺失概率為10%; E.(μ,α,p)=(2,0.3,0.4), 缺失概率為15%; F.(μ,α,p)=(6,0.7,0.6), 缺失概率為15%.
4) 橋式插補法.通過將非缺失數(shù)據(jù)集作為完全數(shù)據(jù)進行MGINAR(1)模型的參數(shù)估計, 得到參數(shù)(μ,α,p)的初值.若Xki與Xki+1為相鄰兩個非缺失數(shù)據(jù),Xki與Xki+1之間有j個數(shù)據(jù)缺失, 則在參數(shù)初值和已知Xki的情況下, 通過模型的迭代可得到插補值.以缺失概率5%為例, 在模擬過程中可知X49,X54,X56,X93,X97為缺失的數(shù)據(jù), 其中X53=2,X55=0, 通過參數(shù)初值和X53=2, 迭代出X54=2, 使得通過其迭代出的X55=0, 此時可將X54=2作為橋插補值.以此類推, 全部缺失值可插補完畢, 從而得出參數(shù)的最小二乘估計.
由表1可見, 當(dāng)缺失概率較大時, 插補法效果優(yōu)于非插補法.只有在缺失概率較小時, 非插補方法的偏差(Bias)和均方誤差(MSE)與插補法差不多, 但隨著缺失概率增大, 非插補方法的偏差和均方誤差均有所增大.因此, 當(dāng)缺失概率較大時, 建議不要直接刪除缺失數(shù)據(jù), 這樣會導(dǎo)致樣本量減少, 偏差增大, 估計效率也會降低.當(dāng)缺失概率較小時, 均值插補法與橋插補法的偏差和均方誤差沒有太大差別.但當(dāng)缺失概率增大時, 橋插補法的偏差和均方誤差小于均值插補法, 也是因為橋插補法在插補要求上更精于均值插補法.當(dāng)缺失概率較小時, 可使用簡便的個案剔除法, 也可以使用均值四舍五入進行插補, 當(dāng)缺失概率較大時, 建議使用橋插補法, 降低估計偏差.