摘要:本文提出了一種針對高維刪失數(shù)據(jù)下線性模型問題變量選擇問題的方法,即利用Buckley-James方法對刪失部分進行差補,運用SCAD方法懲罰因子進行變量選擇。
關鍵字:刪失數(shù)據(jù);BJ法;變量選擇
0引言
在生存數(shù)據(jù)分析中,數(shù)據(jù)缺失的現(xiàn)象是非常普遍的。例如在對某項藥物對某種疾病的作用對進行預測時,患者由于某種原因沒有能夠繼續(xù)觀測,造成數(shù)據(jù)的缺失。對于缺失數(shù)據(jù)下線性模型的統(tǒng)計推斷,目前已有大量的文獻進行研究(參見文獻[1-3])。但是關于生存數(shù)據(jù)下線性模型的變量選擇問題,目前研究的文獻不是太多。而在實際的回歸建模過程中往往會遇到大量的變量,因此在高維數(shù)據(jù)中這些變量中選出較為重要的變量成為回歸分析研究中一個重要的課題?;诖?,本文研究高維數(shù)據(jù)生存分析的變量選擇問題。經(jīng)典的變量選擇方法,比如向前法、向后法以及逐步回歸等,是通過構造一系列的子模型,然后利用假設檢驗來選擇最優(yōu)的子模型,從而達到變量選擇的目的(參見文獻[4-6])。但是這些方法往往會計算量較大,并且很難得出所得估計的漸近性質(zhì)。為了克服這兩個弱點,本文利用,得到了一個迭代算法。我們的方法可以同時給出參數(shù)分量以及非參數(shù)函數(shù)的估計,并且變量選擇與系數(shù)估計同時進行,因此大大降低了計算量并且很容易得到估計的漸近性質(zhì),利用Buckley-James方法對刪失部分進行差補,并且SCAD中的懲罰因子,進行迭代計算,改進了傳統(tǒng)的變量選擇方法,通過模擬分析,得到了較好的效果。
1方法論和主要結果
1.1 生存分析中刪失數(shù)據(jù)的Buckley-James方法[1-3]
假設Ti為第i個觀測者的生存時間,協(xié)變量為x,其中x=[x1,x2,...,xn],則有線性模型如下
式(1)
當Ti為右刪失時,我們假設 ,其中 ,其中 ,如果沒有刪失數(shù)據(jù),則模型1為線性回歸模型,當出現(xiàn)刪失時,Buckley-James提出了利用條件期望對刪失部分進行差補的方法,即令Y*i定下如下
式(2)
其中利用模型1中的α及εi,則新的隨機誤差為
則有
式(3)
其中F(t)為分布函數(shù)。經(jīng)過差補后的模型1可以轉(zhuǎn)化為以下模型
式(4)
其中ε*i為均值為0的隨機誤差。利用最小二乘法即可得到差補后模型的參數(shù)估計。
1.2 SCAD變量選擇方法[4]
在一般的生存分析數(shù)據(jù)中,遇到的問題一般為n>p的情況,當出現(xiàn) p>n時,一般的變量選擇方法不再適用,當前,基于懲罰因子的變量選擇方法得到廣泛的應用。學者Fan提出了SCAD的方法,考慮一個最小化問題,即
,其中 為懲罰項,F(xiàn)an和Li給出了
懲罰項的一階導數(shù)
可以求出
其中α=3.7,而λ采用交叉驗證的方法求解。
1.3 基于Buckley-James的SCAD迭代算法
(1)取β0為β的初始值
(2)利用式(3)計算Y*i
(3)通過 計算
(4)當 ,d為給定的數(shù),停止計算[]
(5)通過 ,計算出α
2 總結
通過Buckley-James的算法對缺失數(shù)據(jù)進行差補,并且利用懲罰因子SCAD方法進行變量選擇,可以對高維數(shù)據(jù)生存分析進行變量選擇問題,當然此方法的理論證明還需要進一步完善和通過模擬進行進一步驗證。
參考文獻:
[1]Wang Q H,Linton O, HardleW.Semiparametric Regression Analysis with Missing Response at Random[J].Journal of the AmericanStatistical Association,2004,99.
[2]Wang Q H, Sun Z H.Estimation in Partially Linear Models with Missing Responses at Random[J].Journal of Multivariate Analysis,2007,98.
[3]Buckley, J. and James, I. (1979). Linear regression with censored data[J]. Biometrika66,429–436.
[4]Fan,J.and Li,R.(2002)Variable selection via Nonconcave Penalized Likelihoodand its Oracle Properties[J]. Journal 01 the American Statistical Association,1348-1360.
[5]趙培信,薛留根.變系數(shù)部分線性模型的擬合優(yōu)度檢驗 [J].應用數(shù)學,2008,21(4).
作者簡介:江建明,廣西恭城人,講師,研究方向:應用統(tǒng)計
基金項目:本文為2016年度廣西高校中青年教師基礎能力提升項目
(項目編號:KY2016Lx343)研究成果endprint