基于遍歷基因組合的特征基因選取方法

2015-03-23 07:41:08李杰

大理大學學報 2015年6期

李杰

（大理學院數(shù)學與計算機學院，云南大理 671003）

隨著DNA基因芯片技術(shù)的提高，人們研究癌癥的方法也得到了快速發(fā)展。DNA 微陣列技術(shù)使得人們可以在基因水平上了解癌癥發(fā)生、癌變的機理。通常生物學上認為癌癥是由于一個或者某幾個基因變異導致的。科學家們正致力于尋找產(chǎn)生癌變的基因或基因組合，近年來各種有效方法如雨后春筍般的涌現(xiàn)出來。

自1999年Golub〔1〕發(fā)表了關(guān)于急性白血病亞型基因芯片起，從基因芯片的角度研究各類疾病的人越來越多。由于基因芯片數(shù)據(jù)大部分是高維甚至超高維數(shù)據(jù)，而樣本量卻遠遠少于基因的維數(shù)。在統(tǒng)計學上，這樣的數(shù)據(jù)會導致“Curse of Dimensionality”和“Over-Fitting”問題，統(tǒng)計學上解決這一問題的方法通常有兩種：數(shù)據(jù)降維和變量選擇。數(shù)據(jù)降維方法是把高維矩陣在不損失信息或損失少量信息的情況下，把高維矩陣投影到一個低維矩陣的方法，進而可以利用經(jīng)典的統(tǒng)計模型進行分析，如 PCA〔2〕、SIR〔3〕、MAVE〔4〕等方法；變量選擇方法是通過對回歸系數(shù)的限制，在回歸過程中不斷把系數(shù)變?yōu)? 的變量剔除掉，直到達到所需要的變量個數(shù)為止，常用的方法有LASSO〔5〕、LAR〔6〕、ALASSO〔7〕、SCAD〔8〕、GLASSO〔9〕等。分類器可以用Logistic 回歸、支持向量機、決策樹C4.5和隨機森林的方法。

從可查的文獻顯示，選擇基因芯片中可能引發(fā)癌癥的基因，主要思路〔10〕如下：首先剔除無用和冗余基因，其次對剩下的基因進行數(shù)據(jù)降維或者變量選擇，然后把選擇出的基因放到分類器中進行分類，最后根據(jù)分類器的預測精度進行修正和評價。但是第二步進行變量選擇和數(shù)據(jù)降維時，并沒有考慮到基因之間的關(guān)系。很可能會出現(xiàn)這樣的情況：兩個基因單獨分析，對癌癥并沒有影響，但是合在一起對癌癥的產(chǎn)生卻有很大影響。就如雞蛋和糖精只能分開吃，不能一起吃的道理一樣。本文嘗試從這個角度出發(fā)，考慮存在此關(guān)系的基因?qū)Π┌Y的分類影響。

這方面的文獻不是很多。原因大概有3 點：①計算量大，基因個數(shù)通常以萬計，不同的組合會呈幾何級數(shù)增長；②計算受到了計算機內(nèi)存和計算速度的限制；③這種方法比較笨，效率低。但隨著計算機多核、多線程、分布式計算和云計算的快速發(fā)展，這類的問題似乎可以嘗試運行一下。

文章主要對結(jié)腸癌數(shù)據(jù)從考慮成對的基因的相互作用出發(fā)，用Logistic分類器對正常人和結(jié)腸癌患者進行區(qū)分。結(jié)腸癌數(shù)據(jù)共包含62個樣本，其中22人為正常人的基因水平，40人為結(jié)腸癌的基因水平，共2 000 個基因?？紤]成對基因，則有199.9 萬個不同的基因組合，遍歷所有可能的情況，根據(jù)預測精度和AIC準則選擇最優(yōu)的基因組合并與已有的文獻進行比較研究，最后根據(jù)前1 000個結(jié)果，畫出基因關(guān)系圖譜。

1 數(shù)據(jù)結(jié)構(gòu)及預處理

1.1 數(shù)據(jù)結(jié)構(gòu)結(jié)腸癌數(shù)據(jù)共包含62 個案例，其中22 個正常人，40 個癌癥患者；對每個患者運用DNA 微陣列測得了2 000 個基因的表達水平。用Yi=1 表示第i個人是癌癥患者，Yi=0 表示第i個人是正常人，i=1,…,62，則Y是一個二元變量，每一個基因看成一個變量，分別用G1,G2,…,G2000表示。數(shù)學模型可以抽象為表1。

表1 結(jié)腸癌數(shù)據(jù)結(jié)構(gòu)

其中Xij，i=1,…,62,j=1,…,2 000 是第i個人第j個基因表達的對數(shù)值，該數(shù)據(jù)可以在BRB-Array-Tools主頁上下載。

1.2 預處理由于數(shù)據(jù)取對數(shù)后各個基因的表達水平還是有很大差距，因此需要按基因?qū)?shù)據(jù)進行標準化，因此表1中的列需要做標準化變化，以便更好比較。一般在用分類器進行分類之前，需要對冗余基因進行處理，值得注意的是這2 000 個基因的表達水平都是非零，為了能準確反映結(jié)果，沒有再剔除冗余基因。從2 000 個基因中任意選取2 個基因，不同的組合共有1 999 000 種，任意選擇3 個基因，不同的組合共有種。由于選擇3 個基因不同的情況達到了13.3 億，本文暫時不予考慮，而只考慮2個基因共同作用的情形。

2 模型方法

由于Y是一個分類的二元變量，在統(tǒng)計學中，二元離散變量的經(jīng)典模型是Logistic 模型，假設(shè)Y是因變量，x1,x2是自變量，Y取值為1 的概率為p，則Logistic模型為：

其中ε是隨機誤差項，β0，β1，β2是未知參數(shù)，可以通過迭代極大似然估計得到。由于只考慮2個基因聯(lián)合作用的情形，自變量的個數(shù)定位2 個。把上式進行變換可以得到Y(jié)取1的概率為：

當β0，β1，β2估計出來后，根據(jù)上式就可以計算第i個樣本取1的概率pi，當pi＞0.5 時，把第i個樣本判定為癌癥患者，pi≤0.5 時判為正常人。根據(jù)預測值和實際值的比較，可以得到表2。

表2 預測值和實際值

其中n11表示實際為癌癥患者并且預測成癌癥患者的人數(shù)，n10表示實際為正常人但預測成癌癥患者的人數(shù)，n01表示實際為癌癥患者但預測成正常的人數(shù)，n00表示實際為正常人并且預測成正常的人數(shù)，n11+n10+n01+n00=n=62，預測精度可以表示為：

預測精度越大，效果越好。

3 評價標準

模型評價標準主要有兩部分組成：預測精度和統(tǒng)計指標。第一部分主要看預測精度，預測精度越高越好，但是預測精度單個指標并不能反映真實情況，甚至可能會出現(xiàn)錯誤，例如有100個人，90個正常人，10 個病人，但是預測的結(jié)果把這100 個人全部預測成正常人，預測精度也達到了90%，但是它把病人全部預測成正常人，沒有一個預測正確，這種方法就沒有區(qū)分度，需要結(jié)合統(tǒng)計指標。統(tǒng)計指標本文采用了AIC準則和β0，β1，β2的顯著性水平作為評價標準，在重要性排序上文獻中沒有統(tǒng)一說法，根據(jù)需要擬定重要性大小按照預測精度，AIC信息和β0，β1，β2的顯著性水平依次遞減。

4 計算流程

計算流程共分為以下幾步：①標準化各個基因；②產(chǎn)生2個基因組合的所有可能結(jié)果；③遍歷所有可能的組合，在每一次遍歷過程中計算預測精度、AIC 和未知參數(shù)的檢驗P值，并保存在txt 文檔中；④讀取最后的數(shù)據(jù)，按照重要性標準進行排序，找出最合理的模型。流程圖見圖1。

圖1 計算流程圖

5 實驗結(jié)果

本文采用的實驗環(huán)境配置：Intel（R）Core（TM）i5-3470 CPU@3.20Hz，4GB 內(nèi)存，Windows 8.1 操作系統(tǒng)，Rstudio 平臺，用R 語言進行編程。實驗過程中對每個計算過程中的中間結(jié)果進行保存，共得到了1 999 000行17列的數(shù)據(jù)文件，約225.3 MB。用R進行分析得到的主要結(jié)果如下。

首先按照預測精確度對所有的數(shù)據(jù)進行排序，在此基礎(chǔ)上再對AIC 從小到大進行排序，同時檢驗未知參數(shù)的t檢驗P值是否小于0.05，結(jié)果顯示編號為X55187 和D14812 的基因組合得到最滿意的結(jié)果，預測精度為0.935 5，預測表格見表3。

表3 實驗結(jié)果

AIC 為 29.671，在所有 199.9 萬中 AIC 中排在第二位，最小的AIC為26.198。實際的模擬結(jié)果見表4。

表4 Logistic回歸結(jié)果

從表4中最后一列可以看出，包括截距項在內(nèi)，未知參數(shù)在置信水平0.01下都通過了檢驗，參數(shù)值都是非零，具有統(tǒng)計學意義。根據(jù)表4，回歸方程可以寫為：

其中x1表示編號為X55187 的基因，x2表示編號為D14812 的基因。零假設(shè)下的離差為80.648 4，殘差為 23.671 1，廣義R2為：（80.6484-23.6711）/80.6484=0.7065。為了進一步說明該回歸結(jié)果的穩(wěn)定性，采用交叉留一檢驗，即依次刪除掉62個樣本的1個樣本，剩下的61 樣本作為測試集，統(tǒng)計測試集的預測精度。見圖2。

圖2 交叉留一檢驗預測精度趨勢圖

圖2顯示，預測精度大部分是0.934，其中有4次試驗的預測精度達到了0.951，這說明選擇出的基因組合具有較好的穩(wěn)健性。不會因為樣本的變化，而對預測精度產(chǎn)生較大波動。綜上所述，編號為X55187和D14812的基因組合是比較適合區(qū)分結(jié)腸癌患者和正常人的。

因為遍歷了所有可能情況，得到的結(jié)果豐富，為了進一步展示其它結(jié)果，我們截取了199.9萬中預測精度大于0.9的所有基因組合，共有640對基因組合，對這些基因組合進行頻數(shù)分析，得到結(jié)果見表5。

表5 基因頻率分析結(jié)果

張靖等〔11〕研究結(jié)果顯示，基因R87126，H08393，M63391，X12671是引起結(jié)腸癌的可疑基因，跟本文中頻率分析結(jié)果相同的有兩個基因R87126，M63391，注意這里考察的是成對基因的頻率分析，也就是說本文只是統(tǒng)計了各個基因出現(xiàn)的頻率，并沒有考慮成對基因之間內(nèi)部的關(guān)系。雖然R87126，M63391 在統(tǒng)計結(jié)果中出現(xiàn)的頻率最高，但是這兩者組合成的基因?qū)Σ]有出現(xiàn)在640 對當中，重新考察R87126，M63391組成的基因?qū)?，結(jié)果顯示預測精度僅為87.10%，AIC為43.234，廣義R2為0.538 3，并且M63391基因的系數(shù)在0.05的置信水平下沒有通過檢驗。因此并不是基因出現(xiàn)頻率越大，分類的預測精度就越高。

6 結(jié)論

本文在癌癥是由某個或者某幾個基因共同變異導致的假設(shè)下，采用遍歷所有基因組的方法，運用Logistic 分類器，對結(jié)腸癌的基因進行了篩選，按照預測精度和AIC 準則得到了最優(yōu)的基因組合（X55187，D14812），并與已有文獻結(jié)果進行比較，得出頻率高的基因組合預測精度并不一定高的結(jié)論。由于實驗條件限制，本文中并沒有考察3 個以及3個以上基因組合對分類的影響。

〔1〕Alon U，Barkai N，Notterman D A，et al. Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays〔J〕.Proc Natl Acad Sci，1999，96：6745-6750.

〔2〕Pearson K. On lines and planes of closest fit to systems of points in space〔J〕. Philosophical Magazine，1901，2（6）：559-572.

〔3〕Li K C. Sliced inverse regression for dimension reduction〔J〕. Journal of the American Statistical Association，1991，86：316-327.

〔4〕Xia Yingcun，Tong Howell，Li W K.An adaptive estimation of dimension reduction space〔J〕. Journal of the Royal Statistical Society：Series B（Statistical Methodology），2002，64（3）：363-410.

〔5〕Tibshirani R. Regression shrinkage and selection via the lasso〔J〕.J Royal Statist Soc B，1996，58（1）：267-288.

〔6〕Zhou Hui. The Adaptive Lasso and Its Oracle Properties〔J〕. Journal of the American Statistical Association，2006，101（476）：1418-1429.

〔7〕Fan J，Li R. Variable selection via nonconcave penalized likelihood and its oracle properties〔J〕.J Amer Statist Assoc，2001，96：1348-1360.

〔8〕Noah S，Jerome F，Trevor H，et al.A sparse-group lass〔J〕.Journal of Computational and Graphical Statistics，2013，22（2）：231-245.

〔9〕Efron B，Hastie T J，Johnstone I，et al. Least Angle Regression〔J〕.Annals of Statistics，2004，32（2）：407-499.

〔10〕李杰，鄧麗君，唐勝男.基于BB—SIR方法的結(jié)腸癌特征基因提取〔J〕.世界科技研究與發(fā)展，2011，33（4）：588-591.

〔11〕張靖，胡學鋼，李培培，等.基于迭代Lasso 的腫瘤分類信息基因選擇方法研究〔J〕. 模式識別與人工智能，2014，27（1）：49-59.