国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Logistic回歸懲罰函數(shù)的遺傳位點分析

2021-11-20 00:32莊虹莉
計算機時代 2021年11期

DOI:10.16644/j.cnki.cn33-1094/tp.2021.11.003

摘? 要: 探討將基于懲罰函數(shù)的變量選擇方法應用到遺傳位點分析。以2016年9月16日的全國研究生數(shù)學建模競賽B題的數(shù)據(jù)為例,首先對每個位點的堿基對(A、T、C、G)編碼方式數(shù)值化處理,最后用數(shù)值化后的數(shù)據(jù)進行建模,并將單變量選擇Logistic SCAD、組變量選擇Logistic Group SCAD模型和雙層變量選擇Logistic cMCP模型定位到與遺傳性疾病顯著相關的遺傳位點,分別與出題者提供的標準答案進行對比,結果顯示雙層變量選擇Logistic cMCP模型能夠準確的定位到與遺傳性疾病顯著相關的遺傳位點。因此將其運用到具有遺傳性疾病和性狀的遺傳位點分析是值得研究的。

關鍵詞: Logistic回歸; 懲罰函數(shù); cMCP; 遺傳位點

中圖分類號:O? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2021)11-09-03

Genetic locus analysis based on penalty function in Logistic regression

Zhuang Hongli

(JINSHAN College of? Fujian Agriculture and Forestry University, Fuzhou, Fujian 350002, China)

Abstract: Discuss the application of the penalty function based variable selection method in genetic locus analysis. Taking the data of question B of the National Graduate Mathematical Modeling Competition on September 16, 2016 as an example, the base pair (A, T, C, G) coding method of each site is numerically processed, and modeling with final numerically processed data, the univariate selection Logistic SCAD, the group variable selection Logistic Group SCAD model, and the two-layer variable selection Logistic cMCP model are located to genetic sites that are significantly related to genetic diseases, and compare with the standard answers provided by the questioner. The results show that the two-layer variable selection Logistic cMCP model can accurately locate genetic sites that are significantly related to genetic diseases. Therefore, applying it to the analysis of genetic locus with genetic diseases and traits is worth studying.

Key words: Logistic regression; penalty function; cMCP; genetic locus

0 引言

人體中攜帶的DNA是人的遺傳密碼的載體。DNA由分別帶有A,T,C,G四種堿基的脫氧核苷酸鏈接組成的雙螺旋長鏈分子,基因則是DNA長鏈中有遺傳效應的一些片段,在這些片段中有一些特定位置的單個核苷酸經(jīng)常發(fā)生變異引起DNA的多態(tài)性,我們稱之為位點[1]。通過大量研究表明,人體的許多表現(xiàn)型性狀差異以及對藥物或者是否患病等都可能與某些位點相關聯(lián)或多個位點的基因相關聯(lián)。常用的統(tǒng)計方法多要求樣本量要遠大于變量數(shù),而在基因數(shù)據(jù)中解釋變量的維數(shù)往往遠大于樣本量即“大[p]小[n]”數(shù)據(jù),導致傳統(tǒng)的統(tǒng)計方法不再適用。

基于懲罰函數(shù)的變量選擇是在線性回歸模型的參數(shù)估計中,在原有的最小二乘或極大似然函數(shù)的基礎上加入懲罰函數(shù)項得到新的懲罰目標函數(shù)[2],從而實現(xiàn)變量選擇和參數(shù)估計。懲罰函數(shù)的變量選擇方法的優(yōu)點在于:能同時實現(xiàn)變量選擇和參數(shù)估計,從而計算效率高,而且當[p?n]時,均保持優(yōu)良的性質。目前已有成青(2014)在“大[p]小[n]”的基因數(shù)據(jù)上應用嶺回歸、LASSO以及彈性網(wǎng)分析了數(shù)據(jù)的稀疏性[3]。本文將懲罰函數(shù)的單變量選擇Logistic SCAD、組變量選擇Logistic Group SCAD模型和雙層變量選擇Logistic cMCP模型定位到與遺傳性疾病顯著相關的遺傳位點。

1 懲罰函數(shù)的變量選擇[2]

1.1 Logistic回歸模型

對于普通線性回歸的Logistic模型,條件概率可表示為:

其中[X]為解釋變量;[y]為響應變量;成功概率[p=p1,p2,…,pnT],[pi]是指取第[i]次觀測值時因變量為1的概率;[β0]為截距,[β]為解釋變量的系數(shù)向量。

Logistic回歸分析通常通過最大似然法實現(xiàn)參數(shù)估計,最大似然函數(shù):

在似然函數(shù)中加入不同懲罰項,就得到不同的懲罰函數(shù)的變量選擇方法。

1.2 單變量選擇LogisticSCAD

SCAD是由Fan和Li[4]提出的一種在Lasso基礎上發(fā)展的非凹的懲罰函數(shù),是實現(xiàn)單個變量選擇方法。將SCAD加載到Logistic模型中,就得到LogisticSCAD。

其中[ptβj]是SCAD的懲罰項,定義如下:

其中[t>0]為罰參數(shù),[α>2]為調(diào)整參數(shù)。

1.3 組變量選擇Logistic Group SCAD

Wang等[5]提出了Group SCAD懲罰的方法,將Group SCAD加載到Logistic模型中,就得到Logistic Group SCAD。

其中[pt]是SCAD的懲罰項。這里提到的懲罰項都是[L2]的懲罰項,組間可以進行變量選擇,組內(nèi)不可以進行變量選擇。

1.4 雙層變量選擇Logistic cMCP

組變量選擇的時候具有“All-In, All-Out”的特點。而雙層變量選擇方法對其進行改進,使之既能在選擇組變量的同時對組內(nèi)變量進行選擇。

在Huang等[6]和Liu等[7]中提出了復合MCP (composite MCP,cMCP)懲罰的方法,將cMCP加載到Logistic模型中,就得到Logistic cMCP。

2 數(shù)據(jù)預處理

本文數(shù)據(jù)來源于2016年9月16日的全國研究生數(shù)學建模競賽B題。數(shù)據(jù)是針對某種遺傳疾病,提供了1000個樣本信息,包括是否患病信息(0表示正常,1表示患?。?,每個樣本均包含9445個位點的編碼信息,以及其對應的基因信息。競賽題目要求:首先對每個位點的堿基(A、T、C、G)編碼方式數(shù)值化處理,最后用數(shù)值化后的數(shù)據(jù)定位到與該疾病最有可能的一個或多個致病位點。

采用堿基(A、T、C、G)的編碼方式獲取每個樣本每個位點的信息,每個位置只有三種編碼方式。如在位點rs100015位置,不同樣本的編碼都是T和C的組合,有三種編碼方式TT、TC和CC,因此采用三個不同的數(shù)字進行數(shù)值化,即將TT數(shù)值化為1,TC數(shù)值化為0,CC數(shù)值化為-1,將9445個位點做同樣的處理。該數(shù)值化方法符合雜合子為0,純合子為1或-1的遺傳生物學的背景,該數(shù)值化方法是合理的。

3 結果分析

由于提供的數(shù)據(jù)集中響應變量是0或1,符合Logistic模型,現(xiàn)對Logistic模型實現(xiàn)變量選擇。數(shù)據(jù)集中包含9445個位點(解釋變量),1000個樣本,典型的“大[p]小[n]”,傳統(tǒng)的方法失效。莊虹莉等人詳細研究了懲罰函數(shù)的變量選擇應用到Logistic模型實現(xiàn)變量選擇的可行性[8],且精度較高。因此,本文直接將懲罰函數(shù)的Logistic模型應用于定位與該疾病最有可能的一個或多個致病位點。

由于Logistic Group SCAD和Logistic cMCP懲罰函數(shù)變量選擇方法是組變量的選擇,因此需對解釋變量進行分組,本文通過位點所在的基因片段進行分組,即將解釋變量分成300組。

將懲罰函數(shù)單變量選擇Logistic SCAD、組變量選擇Logistic Group SCAD模型和雙層變量選擇Logistic cMCP模型定位到與該遺傳性疾病顯著相關的遺傳位點,并得到相應的效應估計值(參數(shù)估計)和顯著性檢驗。詳細見表1。

對表1進行分析,得到Logistic cMCP的效果較Logistic SCAD和Logistic Group SCAD更好。

⑴ Logistic SCAD模型的[p<2.19×10-8],Logistic Group SCAD模型的[p<2.19×10-8],,Logistic cMCP模型的[p<2.2×10-16],均通過檢驗,說明懲罰函數(shù)的變量選擇應用到Logistic模型實現(xiàn)與該疾病最有可能的一個或多個致病位點的定位具有可行性。

⑵ 針對出題者給出的rs2273298位點是該疾病最有可能的一個致病位點,三種方法均定位到了這個位點,但是Logistic SCAD多定位14個位點,Logistic Group SCAD多定位到8個位點,Logistic cMCP多定位到5個位點,而Logistic cMCP將最少的不顯著變量選入模型,模型的復雜度較小,因此cMCP-L是效果最好,而多定位的5個位點可能也是后期研究該疾病致病的可能因素。

4 總結

本文將基于懲罰函數(shù)的變量選擇方法應用到遺傳位點分析。以2016年9月16日的全國研究生數(shù)學建模競賽B題的數(shù)據(jù)為例,考慮到給定的樣本數(shù)據(jù)是典型的“大[p]小[n]”,傳統(tǒng)方法失效,而懲罰函數(shù)的變量選擇可以很好的處理這類數(shù)據(jù),實現(xiàn)SNP致病位點的識別,且結構更加精簡,預測精度和穩(wěn)健性能提升。因此本文將單變量選擇Logistic SCAD、組變量選擇Logistic Group SCAD模型和雙層變量選擇Logistic cMCP模型定位到與遺傳性疾病顯著相關的遺傳位點,均與出題者提供的標準答案進行對比,結果顯示Logistic cMCP模型能夠準確的定位到與遺傳性疾病顯著相關的遺傳位點,模型的復雜度更小,計算效率較高。但本文僅分析建模的數(shù)據(jù),該數(shù)據(jù)噪音較小,下一步將懲罰函數(shù)的變量選擇方法應用于實際實驗數(shù)據(jù)研究。并且基于懲罰函數(shù)的雙層變量選擇方法對于具有組效應的高維問題可以進行有效地處理,這為大數(shù)據(jù)時代下的高維數(shù)據(jù)處理奠定了基礎。

參考文獻(References):

[1] 潘東東,李正幫,張維等.全基因組關聯(lián)研究綜述[J].應用概

率統(tǒng)計,2014.1:84-103

[2] 姜葉飛.懲罰變量選擇方法比較分析及其在信用卡信用風

險中的應用[D].廈門大學,2014.

[3] 成青.高維基因數(shù)據(jù)中的變量選擇[D].西南交通大學,2014.

[4] Fan J, Li R. Variable Selection via Nonconcave Penalized

Likelihood and its Oracle Properties[J]. Journal of the American Statistical Association,2001.96(456)1348-1360

[5] Wang L, Chen G, Li H. Group SCAD regression analysis

for microarray time course gene expression data.[J]. Bioinformatics,2007.23(12):1486-1494

[6] Huang J, Breheny P, Ma S. A Selective Review of Group

Selection in High-Dimensional Models[J]. Statistical Science A Review Journal of the Institute of Mathematical Statistics,2012.27(4):481-499

[7] Liu J, Huang J, Ma S. Integrative Analysis of Multiple

Cancer Prognosis Datasets Under the Heterogeneity Model[M].Topics in Applied Statistics. Springer New York,2013:3509-3521

[8] 莊虹莉,李立婷,林雨婷,溫永仙.基于Logistic回歸懲罰函數(shù)

的疾病診斷[J].中國衛(wèi)生統(tǒng)計,2017.34(1):139-143