山西醫(yī)科大學衛(wèi)生統(tǒng)計教研室(030001) 田雙雙 張海霞 趙俊琴 喬 楠 王 彤
稀疏主成分簡介*
山西醫(yī)科大學衛(wèi)生統(tǒng)計教研室(030001) 田雙雙 張海霞 趙俊琴 喬 楠 王 彤△
主成分分析(principal component analysis,PCA)是一種很受歡迎的統(tǒng)計降維方法,可將多個指標簡化為少數(shù)幾個不相關(guān)的綜合指標。我們可以利用PCA從事物之間錯綜復(fù)雜的關(guān)系中找出一些主要的成分,從而有效地揭示變量之間的內(nèi)在關(guān)系[1]。生物信息學獲取的數(shù)據(jù)往往需要降維處理,這就為PCA的應(yīng)用提供了機會,例如Hastie[2]等2000年提出的“geneshaving”就是利用PCA對基因數(shù)據(jù)進行聚類。然而基因數(shù)據(jù)往往具有“超高維”的性質(zhì),也就是說基因個數(shù)呈樣本量的指數(shù)級增長,由于傳統(tǒng)的主成分都是原始變量的線性組合,線性組合中的回歸系數(shù)(因子載荷)往往是非零的,這些非零的回歸系數(shù)值使得PCA的結(jié)果很難解釋。事實上這也是PCA應(yīng)用于高維生物信息數(shù)據(jù)分析結(jié)果解釋中的一個弊端。
Tibshirani(1996)[3]提出的LASSO(least absolute shrinkage and selection operator)可以得到稀疏解,也就是可以使回歸系數(shù)(因子載荷)的值為零。Jolliffe[4]2003年受LASSO的啟發(fā),直接將LASSO懲罰引入主成分,并在2006年提出了相應(yīng)的算法。Zou[5]等(2006)將主成分的求解問題轉(zhuǎn)化為LASSO回歸問題,這樣稀疏主成分的求解問題就有效地轉(zhuǎn)化為線性模型的變量選擇問題。在此基礎(chǔ)上引入彈性網(wǎng)(elastic net)或其他懲罰結(jié)構(gòu),于是得到了稀疏主成分(sparse principal component analysis,SPCA)。稀疏主成分在降維的同時可以令某些變量對應(yīng)的因子載荷系數(shù)等于零,可以更合理地解釋降維結(jié)果,有效揭示數(shù)據(jù)的內(nèi)在結(jié)構(gòu)[6]。
1.LASSO及其相關(guān)方法
LASSO是一種很受歡迎的降維和參數(shù)估計方法,它是對回歸系數(shù)加以L1懲罰,通過懲罰回歸系數(shù)的數(shù)量來進行降維,可以解決共線性問題[7]。表達式如下:
因此βlasso可以在λ是一個非負值時,通過最小化LASSO準則得到。LASSO不斷地壓縮回歸系數(shù)趨向于0,通過偏方差權(quán)衡增加了預(yù)測精度。因此,LASSO同時提高了模型的精確性和稀疏性。LASSO剛提出時缺乏有效的算法,Efron[8](2004)提出的最小角回歸(least angle regression,LARS)很好地解決了LASSO的計算問題,使得LASSO方法廣為流行。但是,LASSO也存在一些問題,最顯著的缺點是選擇變量會受限于樣本量。
彈性網(wǎng)(elastic net)是L1懲罰和L2懲罰的結(jié)合,克服了LASSO的一些不足,但仍具有LASSO理想的性質(zhì)。對于任意非負的λ1和λ2,彈性網(wǎng)估計值βen可以由下式給出
可以看出,LASSO是當λ2=0時彈性網(wǎng)的一種特殊情況。彈性網(wǎng)懲罰是ridge懲罰和LASSO懲罰的凸組合,給出一個特定的λ2,LARS-EN[9](2003)算法可以算出所有的λ1的彈性網(wǎng)問題,其計算的復(fù)雜度和最小二乘回歸相當。當P>n時,選擇λ2>0,這樣彈性網(wǎng)就可以把所有可能的自變量選入擬合模型,從而克服了LASSO的局限性。彈性網(wǎng)的另一個優(yōu)勢就是它的組效應(yīng),也就是說,一旦一組高度相關(guān)的自變量中的一個自變量被選入模型,那這一組自變量都會被選入模型。而LASSO只能選擇一組相關(guān)自變量中的一個,而且不確定哪個自變量會被選入最終的模型。
SCAD(smoothly clipped absolute deviation)不僅具有LASSO和彈性網(wǎng)的稀疏性和連續(xù)性的優(yōu)良性質(zhì),而且可以有效減小模型參數(shù)估計的偏性,并具有oracle性質(zhì)[10](稀疏性和漸近正態(tài)性)。SCAD的估計值表示為
上式有兩個待估參數(shù)λ和aλ,這是因為自變量很多時,單個壓縮參數(shù)λ不足以同時篩選變量并得到一致的估計。在SCAD中,當效應(yīng)大于aλ時,懲罰項退化為一個常數(shù),從而使得效應(yīng)的估計沒有偏倚。但SCAD懲罰是非凸的,這給處理帶來了很大的困難,Zou和Li(2008)[11]提出局部線性近似(local linear approximation,LLA),然后采用LARS算法求解,可應(yīng)用于凹懲罰函數(shù)的優(yōu)化。
2.基于LASSO的簡化主成分
Jolliffe[4](2003)提出SCoTLASS(simplified component technique LASSO)的想法是為了使主成分得到稀疏解,將L1懲罰結(jié)構(gòu)直接應(yīng)用于主成分的求解,SCoTLASS可表述為如下優(yōu)化問題:
3.稀疏主成分和懲罰回歸的關(guān)系
Zou等[5](2006)給出的SPCA更充分地運用了LASSO和彈性網(wǎng)。PCA中的每一個主成分都是p個自變量的線性組合,因此因子載荷可以通過對每個主成分做回歸分析得到。下面我們系統(tǒng)地介紹一下稀疏主成分和懲罰回歸的關(guān)系。
首先,設(shè)Yi=UiDi為第i個主成分,λ>0,則是由嶺回歸估計值得到,并且設(shè)由此可見將回歸分析與主成分分析聯(lián)系起來具有一定的可行性,這樣主成分的求解就可以轉(zhuǎn)化為線性模型的求解問題。很明顯,當n>p且X是列滿秩矩陣時,該定理中可以取λ=0。但當p>n且λ=0時,普通最小二乘問題的解不唯一,這與n>p且X不是列滿秩的情形類似。然而PCA無論在什么情況下都能給出唯一解,是因為嶺罰項的恒大于零消除了這種矛盾。但是此方法的缺點是依賴PCA的結(jié)果。接下來我們更進一步推廣以上結(jié)論。
Xi是X的第i行向量,對于任意這樣,我們直接根據(jù)回歸知識就得到了第一主成分,可以不依賴PCA的結(jié)果。繼續(xù)推廣,假定我們只考慮前k個主成分令α和β分別為p×k的矩陣,Xi表示X的第i行向量,對任意的其中αTα=Ik,則這樣將主成分問題就有效地轉(zhuǎn)化為一個回歸問題,為了得到稀疏主成分,我們將LASSO懲罰加入到上式中,得到如下的最優(yōu)化問題:
這一優(yōu)化問題被稱為SPCA準則,我們用一種交替最小化算法來最小化SPCA準則
因此,給定α上式等價于解決k個獨立的彈性網(wǎng)問題得到,j=1,2,…,k
另一方面我們也可以得到
因此,給定β,我們需要最大化TrαT(XTX)β,其中αTα=Ik。下面,我們來解決這一優(yōu)化問題:
令α和β為m×k的矩陣并且β的秩為k,考慮如下最大化問題假定β的SVD分解為β=UDVT,則有
由前述可知,稀疏主成分的求解可轉(zhuǎn)化為懲罰回歸問題。而一般的LASSO懲罰回歸問題又可以通過最小角回歸算法來解決。因此,稀疏主成分的計算也可以利用最小角回歸算法方便給出。
由此,得到一般的稀疏主成分算法:
(1)計算一般主成分的前k個主成分對應(yīng)的向量
(2)在給定α=(α1,…,αk)的情況下解決如下的彈性網(wǎng)回歸問題:
(3)對于給定的β=(β1,…,βk),計算XTXβ=UDVT的SVD,并且令α=UVT
(4)重復(fù)步驟2、3至β收斂
為了說明稀疏主成分在降維和變量選擇上的優(yōu)勢,我們用R軟件展示一個模擬的例子。首先,我們定義三個潛在的因子:
V1,V2和ε是獨立的。
假設(shè)有15個變量(X1,X2,…,X15),其中5個變量(X1,X2,X3,X4,X5)由V1生成,5個變量(X6,X7,X8,X9,X10)由V2生成,5個變量(X11,X12,X13,X14,X15)由V3生成。以下是具體的生成方式:
使用傳統(tǒng)PCA和SPCA得到結(jié)果如表1所示。
表1 PCA和SPCA的結(jié)果
從結(jié)果可以看出,PCA前兩個主成分的方差貢獻率達99.9%,SPCA的前兩個主成分的方差貢獻率達98.9%。說明與PCA相比,SPCA在提取主成分的時候存在一定程度的信息缺失,但是可以準確反映數(shù)據(jù)的內(nèi)在結(jié)構(gòu),提取了前兩個主成分,并且產(chǎn)生了稀疏解。
在這個模擬中,SPCA采用彈性網(wǎng)作為懲罰函數(shù),得到的第一主成分(PC1)提取出了V2和V3兩個潛在的因子,驗證了我們前面所說的彈性網(wǎng)的組效應(yīng),因為V3生成時和V2高度相關(guān)。
本文系統(tǒng)地介紹了一種高維數(shù)據(jù)降維的方法——稀疏主成分分析,并采用模擬對該方法進行說明。結(jié)果表明:SPCA不僅達到了有效降維的目的,而且簡化了主成分的解釋,使提取的主成分往往能對應(yīng)于某些變量的實際含義,更具應(yīng)用價值。該方法與LASSO緊密聯(lián)系在一起,所有對LASSO的改進都可以直接應(yīng)用到SPCA。Leng&Wang[12](2009)在“Adaptivelasso”的啟發(fā)下研究了簡單自適應(yīng)稀疏主成分(SASPCA)和一般自適應(yīng)稀疏主成分(GAS-PCA),Lee[13](2010)提出超稀疏主成分(super-sparse principal component analysis,SSPCA)以解決SPCA在基因微陣列數(shù)據(jù)中得到的解不夠稀疏的情況。在應(yīng)用方面,除了金融,SPCA在基因等高通量數(shù)據(jù)的處理上較PCA更有優(yōu)勢,因為它可以降低非零回歸系數(shù)的比例。Lee[14](2012)將SPCA應(yīng)用于全基因組關(guān)聯(lián)性研究(GWAS),從腸炎的基因組SNP信息中識別出血統(tǒng)信息(AIMs)??紤]到主成分方法本身已得到廣泛應(yīng)用,結(jié)合高維數(shù)據(jù)降維結(jié)果解釋稀疏解的優(yōu)勢,稀疏主成分方法有望隨著LASSO等相關(guān)技術(shù)的發(fā)展而得到歡迎。
1.張新波.稀疏主成分及其應(yīng)用.中南大學,2008.
2.Hastie T,Tibshrani R,M icheal BE,et al.′Gene shaving′as a method for identifying distinct sets of genes w ith sim ilar expression patterns. Genome Biology,2000,1(2):0003.1-0003.21.
3.Tibshrani R.Regression Shrinkage and Selection via the LASSO.Journal of the Royal Statistical Society,1996,58(1):267-288.
4.Jolliffe LT,Trendafilov NT,Uddin M.A Modified Principal Component Technique Based on the LASSO.Journal of Computational and Graphical Statistics,2003,12(3):531-547.
5.Zou H,Hastie T,Tibshrani R.Sparse Principal Component Analysis. Journal of Computational and Graphical Statistics,2006,15(1):265-286.
6.劉超,吳丹丹,楊考.一種新的高維數(shù)據(jù)降維方法.統(tǒng)計與咨詢,2012,04:16-17.
7.閆麗娜,覃婷,王彤.LASSO方法在Cox回歸模型中的應(yīng)用.中國衛(wèi)生統(tǒng)計,2012,29(1):58-60,64.
8.Efron B,Tibshirani R,Johnstone L,et al.Least angle regression.The Annals of Statistics,2004,32(2):407-451.
9.Zou H,Hastie T.Regression Shrinkage and Selection via the Elastic Net,w ith Applications to M icroarrays.Technical report,Department of Statistics,Stanford University.Available at http://www-stat.stanford. edu/~hastie/pub.htm,2003.
10.Fan JQ,LiRZ.Variable Selection via Nonconcave Penalized Likelihood and its Oracle Properties.journal of the American Statistical Association,2001,96(456):1348-1360.
11.Zou H,Li R.One-step Sparse Estimates in Nonconcave Penalized Likelihood Models.Ann Stat,2008,36(4):1509-1533.
12.Leng CL,Wang HS.On General Adaptive Sparse Principal Component Analysis.Journal of Computational and Graphical Statistics,2009,18(1):201-215.
13.Lee D,LeeW,Lee Y,et al.Super-sparse principal component analyses for high-throughput genomic data.BMC Bioinformatics,2010,11:296.
14.Lee S,Epstein MP,Duncan R,et al.Sparse principal component analysis for identifying ancestry-informativemarkers in genome-wide association studies.Genet Epidemiol,2012,36(4):293-302.
(責任編輯:郭海強)
*:國家自然科學基金(81072385);全國統(tǒng)計科研計劃重點項目(2009LZ033)
△通信作者:王彤,E-mail:w tstat@21cn.com