覃 婷 王 彤
當(dāng)用基因表達(dá)數(shù)據(jù)預(yù)測生存情況時(shí),基因數(shù)遠(yuǎn)遠(yuǎn)超過了樣本例數(shù)。除了高維度以外,基因表達(dá)之間通常存在著某種未知的相關(guān),其增加了解釋變量之間的共線性。基因表達(dá)數(shù)據(jù)存在的小樣本、高維度、強(qiáng)相關(guān)的特點(diǎn)給生存預(yù)測帶來了困難。因此根據(jù)基因數(shù)據(jù)做生存預(yù)測時(shí),首先需要對(duì)基因表達(dá)數(shù)據(jù)進(jìn)行降維或者調(diào)整,從而更加有效而準(zhǔn)確的進(jìn)行參數(shù)估計(jì)。有監(jiān)督的主成分分析(supervised principal component analysis,SuperPC)和偏 Cox回歸(partial least squares Cox regression)是其中的兩種降維方法。本文將通過模擬研究和對(duì)國際上公開的三個(gè)基因數(shù)據(jù)集進(jìn)行分析,以探討這兩種方法用于高維數(shù)據(jù)生存預(yù)測表現(xiàn)的優(yōu)劣,為得到更精確的預(yù)后估計(jì)和改進(jìn)治療策略提供依據(jù)。
1.基因微陣列數(shù)據(jù)的標(biāo)識(shí)與比例風(fēng)險(xiǎn)模型
假設(shè)有一組包含著截尾數(shù)據(jù)的基因微陣列生存數(shù)據(jù)有 n 個(gè)個(gè)體,(yi,δi,xi);i=1,…,n。其中 yi為個(gè)體i的失效時(shí)間,yi可以是完全數(shù)據(jù),也可是截尾數(shù)據(jù);δi是一個(gè)指示變量,當(dāng)δi=1時(shí)為完全數(shù)據(jù),而當(dāng)δi=0為截尾數(shù)據(jù);xi=(xi1,…,xip)T為個(gè)體i的自變量向量。
令Y為生存時(shí)間。生存函數(shù)定義為S(y)=P(Y>y),是某個(gè)體在時(shí)間y時(shí)刻依然存活的概率。風(fēng)險(xiǎn)函數(shù)測量在y時(shí)刻存活的個(gè)體,在下個(gè)很小的時(shí)間段內(nèi)死亡的瞬時(shí)風(fēng)險(xiǎn)。比例風(fēng)險(xiǎn)模型表示為
h(y,X)=h0(y)exp(XTβ) (1)其中h0(y)是一個(gè)非指定的基準(zhǔn)風(fēng)險(xiǎn)函數(shù)。
模型的參數(shù)向量^β通常可以取最大偏對(duì)數(shù)似然得到,基準(zhǔn)生存函數(shù)H0(y)可用Breslow估計(jì),表示為 ^H0(y)。對(duì)于一個(gè)表達(dá)譜為~X的新樣本,根據(jù)已知的參數(shù)和基線風(fēng)險(xiǎn)估計(jì)求出其風(fēng)險(xiǎn)函數(shù)和生存函數(shù),
2.有監(jiān)督的主成分分析
SuperPC 是由 Bair和 Tibshirani等人提出的〔1-2〕,它改進(jìn)常規(guī)主成分分析無法保證所選擇的主成分與病人的生存相關(guān)的缺點(diǎn),在降維的時(shí)候考慮了生存時(shí)間,其核心思想就是只對(duì)與生存時(shí)間密切相關(guān)的基因進(jìn)行主成分分析。
該方法首先將每一個(gè)基因分別代入單變量Cox模型h(t|x)=h0(t)exp(βx),以檢驗(yàn)它們對(duì)生存的影響。然后對(duì)其進(jìn)行基于偏似然函數(shù)的參數(shù)估計(jì)與假設(shè)檢驗(yàn),檢驗(yàn)方法為似然比檢驗(yàn)。將基因按照檢驗(yàn)所得到的P值從小到大排序,然后根據(jù)交叉驗(yàn)證法挑選出前λ1百分比的基因組成一個(gè)簡化矩陣Xθ。采用奇異值分解法(singular value decomposition,SVD)對(duì)這個(gè)簡化矩陣進(jìn)行主成分分析。
假設(shè)X矩陣的列已經(jīng)被中心化,均數(shù)為0。那么n×p矩陣X的奇異值分解寫作:
其中U是一個(gè)n×n的正交陣,V是p×p正交陣,D是一個(gè)以奇異值dj為對(duì)角元素的n×p對(duì)角陣,r=min(n,p)是X的秩,非零奇異值的數(shù)目與X矩陣的秩相等,d1≥d2≥…≥dr>0。
那么,簡化矩陣Xθ的奇異值分解寫作:
令 Uθ=(uθ,1,uθ,2,…,uθ,r),稱 uθ,1為 X 的第一有監(jiān)督的主成分,依此類推。如果僅取一個(gè)成分,即擬合一個(gè)應(yīng)變量為y和自變量為uθ,1的Cox比例風(fēng)險(xiǎn)模型,得
從公式(3)變換得到(注意到正交陣V'V=I),
因?yàn)?uθ,1是 Xθ的一個(gè)線性組合:uθ,1=Xθwθ,1,所以模型(4)可以看作是一個(gè)利用了Xθ中的所有自變量的受限模型:
假如有一個(gè)新的基因數(shù)據(jù)集x*,對(duì)其進(jìn)行生存預(yù)測,步驟如下:
3.偏Cox回歸
在基因數(shù)據(jù)的生存預(yù)測方法中,基于偏最小二乘的生存分析是一個(gè)重要的家系。利用偏最小二乘方法進(jìn)行降維,即從原始變量中提取偏最小二乘成分,然后將提取的這些線性成分應(yīng)用于標(biāo)準(zhǔn)的Cox回歸進(jìn)行生存預(yù)測的方法,就稱之為偏Cox回歸。
偏Cox回歸算法有很多種,這里采用的是Nyg?rd提出的算法〔3〕。該算法主要是通過將生存問題轉(zhuǎn)換為廣義線性回歸問題,然后依照廣義線性模型的迭代再加權(quán)偏最小二乘算法提取PLS成分,從而實(shí)現(xiàn)高維數(shù)據(jù)的降維,然后將所得到的參數(shù)估計(jì)以及提取的PLS成分代入Cox比例風(fēng)險(xiǎn)模型中,進(jìn)行生存預(yù)測。由于這種算法將基準(zhǔn)風(fēng)險(xiǎn)增量的估計(jì)與PLS降維分開,使得PLS的成分僅為基因表達(dá)譜的線性組合,更符合生物解釋。
由于該算法只是對(duì)^η進(jìn)行了部分更新,可解決收斂速度過慢的問題。且分開估計(jì)協(xié)方差效應(yīng)和基線風(fēng)險(xiǎn)增量避免了數(shù)據(jù)維度的擴(kuò)張,加上提取的PLS成分?jǐn)?shù)量小,所以計(jì)算速度通常很快,節(jié)約了計(jì)算時(shí)間。
4.根據(jù)交叉驗(yàn)證法選擇模型調(diào)整參數(shù)
預(yù)測方法的模型復(fù)雜程度是由估計(jì)調(diào)整參數(shù)來決定的。調(diào)整參數(shù)的估計(jì)方法有很多種,最經(jīng)常使用的就是交叉驗(yàn)證。在本文中,我們采用Verweij和van-Houwelingen提出的交叉驗(yàn)證準(zhǔn)則〔4〕,這種準(zhǔn)則是建立在Cox偏對(duì)數(shù)似然的基礎(chǔ)上的。
首先將數(shù)據(jù)分成等大小的K個(gè)部分(1<K≤n),每個(gè)第i(1≤i≤K)次的交叉驗(yàn)證都會(huì)將第i個(gè)層剔除,只用剩下的層來訓(xùn)練模型,根據(jù)訓(xùn)練好的模型來估計(jì)被剔除的第i個(gè)層的預(yù)測信息,重復(fù)K次,這樣每一個(gè)部分都做了并且只做了一次驗(yàn)證組。令l(β)表示全部數(shù)據(jù)的Cox對(duì)數(shù)似然,l(-i)(β)表示剔除第i個(gè)層數(shù)據(jù)的對(duì)數(shù)似然,將第i個(gè)部分對(duì)似然的貢獻(xiàn)定義為li(β)=l(β) - l(-i)(β),使得 l(-i)(β)最大化的 β 估計(jì)值表示為β^(-i)。假設(shè)似然成分是獨(dú)立的,那么li(β)就簡單的等于第i個(gè)部分的貢獻(xiàn),并且l(β),K折交叉驗(yàn)證的最大對(duì)數(shù)似然為 CVL =,隨著λ的變化,每個(gè)最大對(duì)數(shù)似然CVL也在變化,其中最大的CVL所對(duì)應(yīng)的λ為最優(yōu)調(diào)整參數(shù)。
在實(shí)踐中,通常會(huì)給出調(diào)整參數(shù)的范圍,在給定的范圍內(nèi)找最優(yōu)調(diào)整參數(shù)。SuperPC的調(diào)整參數(shù)λ=(λ1,λ2)是雙變量的,λ1代表單變量分析中與生存時(shí)間有關(guān)的基因子集占基因全集的百分比,λ2代表將要選擇的主成分?jǐn)?shù)的范圍。
5.模型評(píng)價(jià)
一般來說,預(yù)報(bào)因子的真正性能評(píng)價(jià)應(yīng)該用一個(gè)獨(dú)立的數(shù)據(jù)來完成。但是在缺乏獨(dú)立數(shù)據(jù)的情況下,可以通過交叉驗(yàn)證來進(jìn)行模型評(píng)價(jià),即將每一個(gè)數(shù)據(jù)集按2:1的比例隨機(jī)分成訓(xùn)練數(shù)據(jù)集和驗(yàn)證集。訓(xùn)練組樣本的基因表達(dá)和生存數(shù)據(jù)被用來構(gòu)建預(yù)測模型,驗(yàn)證集用來評(píng)估模型的性能。為了避免依賴于訓(xùn)練集和驗(yàn)證集的選擇,需進(jìn)行重復(fù)分組,以所有評(píng)價(jià)標(biāo)準(zhǔn)的結(jié)果的中位數(shù)和四分位數(shù)間距來估計(jì)預(yù)測模型的性能。本論文主要的評(píng)價(jià)標(biāo)準(zhǔn)為決定系數(shù)R2。
決定系數(shù)是驗(yàn)證組中的生存數(shù)據(jù)可以被預(yù)報(bào)因子解釋的那部分變異所占的百分比。預(yù)測性能良好的預(yù)報(bào)因子可以解釋驗(yàn)證組生存數(shù)據(jù)的絕大部分變異。在傳統(tǒng)的回歸背景下,R2=1-殘差平方和/總平方和,因此它的取值范圍在0到1之間。然而這個(gè)定義在數(shù)據(jù)存在刪失的情況下不能使用,因此,Nagelkerke給出了一個(gè)可以用在Cox比例風(fēng)險(xiǎn)模型中R2統(tǒng)計(jì)量〔5〕
其中l(wèi)(.)表示對(duì)數(shù)似然函數(shù)。R2越大,預(yù)報(bào)器的預(yù)測性能越好。
為了進(jìn)一步驗(yàn)證上述模型的預(yù)測性能,我們根據(jù)基因數(shù)據(jù)的特點(diǎn)設(shè)計(jì)了模擬實(shí)驗(yàn),用上述方法對(duì)模擬實(shí)驗(yàn)產(chǎn)生的數(shù)據(jù)進(jìn)行分析,根據(jù)模型預(yù)測評(píng)價(jià)標(biāo)準(zhǔn)對(duì)它們的預(yù)測性能進(jìn)行比較。模擬條件設(shè)定如下:
(1)協(xié)變量矩陣X:
生成100×1000的基因協(xié)變量矩陣,每一行表示一個(gè)病人,每一列表示一個(gè)基因。這些協(xié)變量服從多元正態(tài)分布,均數(shù)向量為0。將數(shù)據(jù)分成十塊等大小的基因塊∑b,令它們的方差協(xié)方差矩陣的對(duì)角元素為,非對(duì)角元素為。因此∑對(duì)應(yīng)于基因表達(dá)的類別,這樣不同類別的基因表達(dá)是獨(dú)立的,但是在同一個(gè)類別中的基因表達(dá)有同樣的兩兩相關(guān)。在模擬中,我們令ρ分別等于0.3,0.6,0.9以觀察不同相關(guān)程度對(duì)結(jié)果的影響,同時(shí)評(píng)判三種不同方案的方差:(a)=…==1,即所有的基因表達(dá)的方差相等,(b)==2,=…==1,即前兩塊的基因表達(dá)的變異更大,(c)==1/2=…==1,即前兩塊的基因變異比其他塊的要少。
我們首先產(chǎn)生服從(0,1)均勻分布的隨機(jī)數(shù)S,令生存函數(shù)S(t)=S,利用用產(chǎn)生相應(yīng)的生存時(shí)間t。
(4)生成刪失指示變量:
產(chǎn)生一組隨機(jī)數(shù),服從二項(xiàng)分布,發(fā)生1的概率為0.8,也就是截尾為20%,為了觀察截尾比例是否對(duì)降維方法產(chǎn)生影響,我們改變了截尾比例,截尾比例分別為20%,50%。
按照上述的實(shí)驗(yàn)設(shè)計(jì)產(chǎn)生訓(xùn)練組數(shù)據(jù),然后以同樣的條件產(chǎn)生驗(yàn)證組數(shù)據(jù)。分別應(yīng)用SuperPC和偏
(2)參數(shù)的設(shè)定:
每個(gè)回歸系數(shù)對(duì)應(yīng)于它對(duì)應(yīng)變量的影響。在本文中,參數(shù)的設(shè)定如下:當(dāng) 1≤j≤100,βj=0.01,當(dāng) 101≤j≤200,βj從0.01 到0.1,每0.01 為一個(gè)步長。201≤j≤1000,βj=0,表示在基因矩陣中只有少數(shù)一些相關(guān)的協(xié)變量,大部分的協(xié)變量都是無關(guān)的。
(3)生成生存時(shí)間:Cox回歸方法對(duì)訓(xùn)練組進(jìn)行建模,然后用驗(yàn)證組數(shù)據(jù)進(jìn)行預(yù)測評(píng)價(jià),在最優(yōu)調(diào)整參數(shù)的條件下評(píng)價(jià)模型的預(yù)測性能,評(píng)價(jià)標(biāo)準(zhǔn)為R2,從評(píng)價(jià)標(biāo)準(zhǔn)的中位數(shù)以及離散程度來對(duì)模型進(jìn)行評(píng)價(jià)。以上過程重復(fù)200次。模擬結(jié)果以箱式圖矩陣表示。
箱式圖矩陣的行代表影響生存的前兩塊基因的方差,列代表3個(gè)不同的相關(guān)系數(shù)。spcr為SuperPC方法,pls為偏Cox回歸方法。censored=0.2和censored=0.5分別表示刪失比例為20%和50%的模擬數(shù)據(jù)的結(jié)果。
由圖1可見,根據(jù)模型評(píng)價(jià)標(biāo)準(zhǔn),SuperPC的預(yù)測性要優(yōu)于偏Cox;當(dāng)相關(guān)系數(shù)相同時(shí),兩種方法得到的R2都是隨著方差的增大而增大,提示基因的方差越大的時(shí)候,基因塊越容易被識(shí)別。方差相同時(shí),相關(guān)系數(shù)越大,得到的R2越大。隨著截尾比例的增大,模型的預(yù)測性能會(huì)變差,說明模型的預(yù)測能力會(huì)受到刪失比例的影響。
用上述兩種方法對(duì)國際上三個(gè)公開的基因數(shù)據(jù)集進(jìn)行了分析,它們分別是Van't Veer等的乳腺癌數(shù)據(jù)〔6〕,78個(gè)病人,4 751個(gè)基因,觀察事件的結(jié)局是乳腺癌是否轉(zhuǎn)移,截尾比例為56.4%;Beer等人的肺癌數(shù)據(jù)集〔7〕有86個(gè)病人和7 129個(gè)基因,觀察事件結(jié)局為死亡,截尾比例為72.6%;Bullinger等人急性髓系白血病(acute myeloid leukemia)的數(shù)據(jù)〔8〕,116 個(gè)病人,6 283個(gè)基因,觀察事件結(jié)局為死亡,截尾比例為42.24%。
因?yàn)閷?duì)于每個(gè)數(shù)據(jù)集,采用不同的評(píng)價(jià)標(biāo)準(zhǔn),最佳的預(yù)測方法有可能是不同的〔9〕。因此,對(duì)于一個(gè)實(shí)例數(shù)據(jù),首先要看用這兩種方法進(jìn)行分析的預(yù)測性能如何,然后根據(jù)預(yù)測結(jié)果挑選合適的預(yù)測模型。
首先按2:1的比例將數(shù)據(jù)隨機(jī)分成訓(xùn)練組和驗(yàn)證組:訓(xùn)練組用于構(gòu)造模型,而驗(yàn)證組用來對(duì)模型的預(yù)測性能進(jìn)行評(píng)價(jià)。為了保證預(yù)測結(jié)果評(píng)價(jià)的客觀性,避免數(shù)據(jù)任意分割導(dǎo)致的預(yù)測偏差,按上述方法重復(fù)將數(shù)據(jù)集隨機(jī)分割200次。結(jié)果見圖2。
圖中bc代表乳腺癌數(shù)據(jù),lc代表肺癌數(shù)據(jù),aml代表急性髓系白血病數(shù)據(jù),spcr為是SuperPC方法的分析結(jié)果,pls為偏Cox方法的分析結(jié)果。
R2值越大,模型可以解釋數(shù)據(jù)的變異部分越大,模型的預(yù)測性能越好。從圖2中我們可以看到,對(duì)于乳腺癌數(shù)據(jù),SuperPC方法的表現(xiàn)要優(yōu)于偏Cox回歸。而對(duì)于肺癌數(shù)據(jù)和急性髓系白血病數(shù)據(jù),則偏Cox回歸的表現(xiàn)要優(yōu)于SuperPC方法。
圖1 模擬數(shù)據(jù)分析結(jié)果矩陣圖
圖2 實(shí)際數(shù)據(jù)分析結(jié)果圖
因?yàn)槲覀儗?duì)這3個(gè)數(shù)據(jù)進(jìn)行了隨機(jī)分割(分割成訓(xùn)練集和驗(yàn)證集),分割了200次,每次分割得到的最優(yōu)調(diào)整參數(shù)的取值是不一樣的。因此,這里我們給出了三個(gè)實(shí)例數(shù)據(jù)分析中,兩種方法各自所選擇的最優(yōu)調(diào)整參數(shù)的分位數(shù)的表。
從表1中我們可以看到,SuperPC提取的成分?jǐn)?shù)大于等于偏Cox回歸,并且提取的成分?jǐn)?shù)不穩(wěn)定。SuperPC提取的基因子集占原基因集的比例很小,即簡化矩陣遠(yuǎn)小于原始矩陣。所以雖然SuperPC引入的成分?jǐn)?shù)多,但每個(gè)成分中包含的自變量數(shù)目要少于全基因集。偏Cox方法提取的成分?jǐn)?shù)穩(wěn)定,用很少的成分就可以解釋原始變量的大部分變異。
表1 實(shí)際數(shù)據(jù)分析中選擇的最優(yōu)調(diào)整參數(shù)的分位數(shù)
根據(jù)上面的模型預(yù)測性能評(píng)價(jià),挑選各個(gè)數(shù)據(jù)對(duì)應(yīng)的最適方法來對(duì)整個(gè)數(shù)據(jù)集進(jìn)行了模型擬合就得到了預(yù)測方程。可以計(jì)算預(yù)后指數(shù)來估計(jì)病人的預(yù)后情況,預(yù)后指數(shù)的公式為PI=X^β。當(dāng)?shù)玫叫碌牟∪说幕驍?shù)據(jù)~X的時(shí)候,就可以根據(jù)預(yù)后指數(shù)PI=~X^β來對(duì)其分類:按照預(yù)后指數(shù)的中位數(shù),將病人分成兩組,預(yù)后指數(shù)超過中位數(shù)的,為高危組,可考慮相對(duì)積極的治療策略;低于中位數(shù)的,為低危組,可以采用相對(duì)保守的治療方案。
有監(jiān)督的主成分分析和偏Cox回歸都是將Cox比例風(fēng)險(xiǎn)模型與降維技術(shù)結(jié)合起來,適用于基因數(shù)據(jù)的生存預(yù)測。這兩種方法都對(duì)主成分回歸進(jìn)行了改進(jìn),利用了應(yīng)變量的信息。它們的區(qū)別在于有監(jiān)督的主成分分析是對(duì)基因子集進(jìn)行特征提取,而偏Cox回歸則是對(duì)基因的全集進(jìn)行特征提取。
從模擬實(shí)驗(yàn)中可見:(1)隨著影響生存的基因塊的方差的增大,兩種方法的預(yù)測性能變好,這是因?yàn)楫?dāng)自變量的變異更大的時(shí)候,被提取的信息也更多,可提高回歸估計(jì)的精度和穩(wěn)定性,故而當(dāng)影響生存的基因塊的方差大的時(shí)候較容易被識(shí)別出來。(2)隨著組內(nèi)相關(guān)系數(shù)ρ的增高,兩種方法的預(yù)測性能都變好。因?yàn)橹挥写嬖谥嚓P(guān),才能夠把維度降下來,特征值會(huì)隨著相關(guān)的增高而增大,那么前幾個(gè)主成分的方差就會(huì)很大,這樣只需要幾個(gè)主成分,就能夠很好的解釋原始變量的變異。隨組內(nèi)相關(guān)系數(shù)的增高,預(yù)測方法性能變好的同時(shí)還應(yīng)注意到,當(dāng)基因的相關(guān)度較高的時(shí)候,預(yù)測方法對(duì)選擇正確的基因比較不敏感,對(duì)生存沒有影響卻與對(duì)生存有影響的基因高度相關(guān)的基因也可能被納入。(3)隨著刪失比例的增加,兩種方法的預(yù)測性能變差,說明預(yù)測方法會(huì)受到刪失比例的影響。
在實(shí)例分析中,根據(jù)判斷標(biāo)準(zhǔn),不同的數(shù)據(jù)集最優(yōu)預(yù)測方法不同。模擬研究和實(shí)例分析中,有監(jiān)督的主成分分析提取的成分?jǐn)?shù)要大于等于偏Cox回歸。然而我們也應(yīng)該注意到,因?yàn)檫@種主成分是有監(jiān)督的,所以雖然引入的成分?jǐn)?shù)多,但每個(gè)成分中包含的自變量數(shù)目要少于全基因集。
在我們的模擬研究中,這兩種方法的預(yù)測性能很好,用我們的模型能夠解釋原始變量的變異比例較大,決定系數(shù)甚至達(dá)到了0.9的情況。但是,實(shí)例分析中可以看到,決定系數(shù)沒有那么大。造成這種差異的原因可能是因?yàn)槟M實(shí)驗(yàn)設(shè)計(jì)的時(shí)候,基因塊之間設(shè)定了相關(guān)系數(shù),各個(gè)基因塊中的基因兩兩相關(guān),而基因塊之間不相關(guān),并且對(duì)回歸參數(shù)也進(jìn)行了設(shè)定,只是前兩塊基因與生存有關(guān),數(shù)據(jù)生成具有一定的規(guī)律。而實(shí)際的微陣列數(shù)據(jù)遠(yuǎn)比模擬數(shù)據(jù)要復(fù)雜得多,基因之間以未知的方式相關(guān),并且微陣列數(shù)據(jù)中的協(xié)變量數(shù)千至數(shù)萬個(gè),簡單的模擬不能夠捕獲這種復(fù)雜的關(guān)系。并且模擬中為了計(jì)算的方便,只是模擬了1 000個(gè)協(xié)變量,樣本含量固定取100個(gè),這與實(shí)際微陣列數(shù)據(jù)的樣本含量和自變量個(gè)數(shù)相比,樣本含量的比例要大得多。實(shí)例數(shù)據(jù)分析,因?yàn)槭请S機(jī)拆分?jǐn)?shù)據(jù),最后得到的訓(xùn)練組數(shù)據(jù)和驗(yàn)證組數(shù)據(jù)的截尾比例可能會(huì)比原來的數(shù)據(jù)要高,這也是影響結(jié)果的一個(gè)原因之一。
在模擬研究中,有監(jiān)督的主成分分析的預(yù)測性能要優(yōu)于偏Cox回歸。但本文介紹的偏Cox回歸算法因其在收斂性上進(jìn)行了改進(jìn),從而計(jì)算速度很快,比有監(jiān)督的主成分分析方法節(jié)約了很多時(shí)間。對(duì)于高維數(shù)據(jù)的分析來說,計(jì)算時(shí)間短也是個(gè)很重要的優(yōu)點(diǎn)。
1.Bair E,Tibshirani R.Semi-supervised methods to predict patient survival from gene expression data.PLoS Biology,2004,2:511-522.
2.Bair E,Hastie T,Paul D,et al.Prediction by supervised principal components.Journal of the American Statistical Association,2006,101:119-137.
3.Nyg?rd S,Borgan O,Lingiaerde OC,et al.Partial least squares Cox regression for genome-wide data.Lifetime Data Anal,2008,14:179-195.
4.Verweij PJMvan,Houwelingen HC,Cross-validation in survival analysis.Stat Med,1993,12:2305-2314.
5.Nagelkerke NJS.A note on a general definition of the coefficient of determination.Biometrika,1991,78:691-692.
6.Van't Veer LJ,Dai H,Van de Vijver.Gene expression profiling predicts clinical outcome of breast cancer.Nature,2002,415:530-536.
7.Beer DG,Kardia SL,Huang CC,et al.Gene-expression profiles predict survival of patients with lung adenocarcinoma,2002,Nat Med 8:816-824.8.Lars Bullinger MD,Konstanze D?hner MD,Eric Bair,et al.Use of geneexpression profiling to identify prognostic subclasses in adult acute myeloid leukemia.Massachusetts Medical Society,2004,350 16:1605-1616.
9.W.van Wieringen,D.Kun,R.Hampel,et al.Survival prediction using gene expression data:a review and comparison.Computational Statistics and Data Analysis,2009,53:1590-1603.