張 帆劉 晉侯 艷李 康△
基于偏最小二乘分析的FDR估計研究*
張 帆1劉 晉2侯 艷1李 康1△
目的基于偏最小二乘模型(PLS)提出一種新的FDR估計方法,并對其準(zhǔn)確性進(jìn)行驗證。方法利用偏最小二乘的vip評分篩選變量,結(jié)合permutation方法和后退法對篩選結(jié)果進(jìn)行FDR估計。結(jié)果模擬實驗表明,在變量之間獨立時,PLS-FDR方法和三種單變量估計方法都能準(zhǔn)確估計FDR;在變量之間存在線性關(guān)系時,PLS-FDR方法估計FDR仍然具有無偏性,而三種單變量分析方法則無法準(zhǔn)確地進(jìn)行估計。實例分析表明,PLS-FDR方法對高維數(shù)據(jù)分析能夠提供重要信息。結(jié)論在線性數(shù)據(jù)結(jié)構(gòu)下,使用本文給出的PLS-FDR方法能夠得出多變量FDR估計結(jié)果。
偏最小二乘 陽性錯誤發(fā)現(xiàn)率 代謝組學(xué)
陽性錯誤發(fā)現(xiàn)率(FDR)的概念由Benjamini和Hochberg提出,這一概念的提出,有效地解決了高維組學(xué)數(shù)據(jù)多重比較中假陽性錯誤的控制問題,并且能夠顯著提高假設(shè)檢驗的效能[1]。目前,F(xiàn)DR的估計方法很多,其中最具代表性的有LBE[2]、qvalue[3]和fdrtool[4]等,這些方法都是在貝葉斯公式的框架下進(jìn)行的,使用兩成分模型構(gòu)建p值的分布函數(shù),進(jìn)而求得FDR的估計值。然而,這些方法主要基于單變量分析方法,要求變量間獨立或弱相關(guān),如果變量高度相關(guān),將會導(dǎo)致上述方法失效。實際中,高維組學(xué)數(shù)據(jù)結(jié)構(gòu)復(fù)雜,噪聲變量多且變量間存在復(fù)雜相關(guān),無法滿足上述FDR估計方法的應(yīng)用條件;而且單變量分析無法發(fā)現(xiàn)變量間的聯(lián)合作用和交互作用,不能滿足研究需要。本文擬提出一種基于偏最小二乘(PLS)多變量模型變量篩選結(jié)果的FDR估計方法(PLS-FDR法)[5],通過模擬實驗探討PLS-FDR法的優(yōu)勢,并通過實例分析說明其在實際研究中的意義。
1.FDR的定義
對于m次多重假設(shè)檢驗,表1中列出了四種不同檢驗結(jié)果的頻數(shù)。
表1 多重假設(shè)檢驗四種結(jié)果的頻數(shù)
FDR的定義如下:
其中E(·)為數(shù)學(xué)期望。FDR的含義為在規(guī)定的檢驗水準(zhǔn)下被判定為陽性的結(jié)果中假陽性結(jié)果的比例。
2.FDR控制方法
控制是指給定一個顯著性水平的界值,從而使FDR被限制在某一固定水平,對此可以采用線性向上的控制方法,分兩步進(jìn)行:首先將所有檢驗p的值進(jìn)行排序,即p(1)≤p(2)≤p(3)≤…≤P(m);然后逐步后退比較取第一個滿足條件的p(k)(k≥1),理論上可以證明在此情況下可以將FDR控制在q(0≤q≤1)水平下[6]。
3.FDR估計方法
FDR估計指在設(shè)定檢驗拒絕域下,判定為陽性的結(jié)果中假陽性結(jié)果所占比例的估計值。如果使用假設(shè)檢驗計算出的p值進(jìn)行FDR估計,其計算公式為:
其中,p0為真實無效假設(shè)所占總檢驗次數(shù)的比例,F(xiàn)0(p)為無效假設(shè)下p的右側(cè)分布函數(shù);p1為實際有差異變量在所有變量中所占的比例,F(xiàn)1(p)為備擇假設(shè)成立下p值右側(cè)的分布函數(shù)[7]。
偏最小二乘(PLS)是一種將主成分分析、典型相關(guān)分析和回歸分析結(jié)合在一起的方法,可以在建模的同時通過各變量的重要性評分進(jìn)行變量篩選。算法的基本思想是,以PLS變量重要性評分值(vip)作為統(tǒng)計量計算FDR,通過估計F0(vip)和F(vip)計算FDR的估計值。本研究利用經(jīng)驗分布對F0(vip)和F(vip)進(jìn)行估計,對于F0(vip)的估計,通過多次打亂數(shù)據(jù)的分類標(biāo)簽的方法,充分利用樣本經(jīng)驗信息估計無效假設(shè)下右側(cè)累積概率分布F0(vip)。F(vip)的估計,可以直接利用樣本數(shù)據(jù)的經(jīng)驗分布進(jìn)行估計。由于PLS模型各變量評分vip不獨立、差異變量之間互相影響,為此在估計F(vip)時采用逐步后退的方式,在檢驗水準(zhǔn)α上,根據(jù)F0(vip)的分布進(jìn)行檢驗,記錄一定數(shù)量的差異顯著變量的vip評分。為保持變量數(shù)目不變,需要將這些變量的數(shù)值隨機(jī)置換。上述過程不斷循環(huán),直至進(jìn)行到第s步,當(dāng)F(s)(vip)→F0(vip)時,停止繼續(xù)循環(huán)。若記每一步選擇的差異變量數(shù)目為t,則最后差異變量的個數(shù)為t×s,無效假設(shè)變量在所有變量中所占的比例估計值為
其中,m為數(shù)據(jù)中變量總數(shù),對上述記錄的vip評分排序得vip(1)≤vip(2)≤vip(3)≤…≤vip(i)≤vip(i+1)…≤vip(m),F(xiàn)0(vip(i))為無差異變量假設(shè)下的右側(cè)分布概率,即
F(vip(i))為具有差異變量情況下的右側(cè)分布概率,即
上述估計FDR過程稱為PLS-FDR方法。
1.實驗?zāi)康?/p>
考核在高維數(shù)據(jù)中PLS-FDR方法估計FDR的準(zhǔn)確性,并與目前已有的LBE、fdrtool、qvalue單變量估計方法進(jìn)行比較。
2.實驗條件設(shè)置
設(shè)“疾病組”和“正常組”兩組數(shù)據(jù)樣本含量分別為50例,組間差異變量20個,“疾病組”的差異變量為Xi~N(1.5,1)(i=1,2,…,20),“正常組”的差異變量為Xi~N(0,1)(i=1,2,…,20),同時設(shè)定2000個噪聲變量為Xi~N(0,1)(i=1,2,…,2000)。實驗分為三種情況:①差異變量間獨立,非差異變量間獨立;②差異變量間獨立,非差異變量分為100組,每組20個變量的相關(guān)系數(shù)均等于0.8;③差異變量的相關(guān)系數(shù)均等于0.3,非差異變量分為100組,每組20個變量的相關(guān)系數(shù)均等于0.8。
3.實驗結(jié)果
三種實驗設(shè)置條件下四種方法對p0的估計,真實的p0為0.990099,由此可見PLS-FDR法在三種實驗條件下估計得非常準(zhǔn)確。LBE、qvalue和fdrtool在變量獨立情況下比較準(zhǔn)確,但當(dāng)變量間存在相關(guān)時,LBE和qvalue則完全失效,fdrtool雖沒有完全失效,但仍沒PLS-FDR法估計準(zhǔn)確。三種實驗設(shè)置條件下四種方法對FDR的估計結(jié)果見圖1~圖3,結(jié)果顯示,在差異變量和噪聲變量均獨立的數(shù)據(jù)結(jié)構(gòu)下(圖1),PLSFDR估計方法與經(jīng)典單變量FDR估計方法得到的結(jié)果均較為準(zhǔn)確;在另外兩種相關(guān)數(shù)據(jù)結(jié)構(gòu)情況下(圖2~圖3),經(jīng)典單變量FDR估計方法的FDR估計值與FDR的真實值有較大的偏差,而PLS-FDR法的估計值依然準(zhǔn)確。
上述過程通過R語言編程實現(xiàn)。
數(shù)據(jù)來源:收集經(jīng)冠狀動脈造影診斷的43例動脈粥樣硬化患者和49例社區(qū)人群組的血液樣本,使用超高效液相色譜-質(zhì)譜聯(lián)用儀分別在正離子和負(fù)離子模式下檢測其代謝組成分。對檢測后得到的血液代謝組指紋圖譜數(shù)據(jù)利用R軟件包(XCMS,CAMERA)進(jìn)行數(shù)據(jù)預(yù)處理,正離子模式下得到1936個變量,負(fù)離子模式下得到1515個變量?,F(xiàn)利用PLS-FDR算法估計其中可能具有意義的生物標(biāo)志物數(shù)目。
(1)對p0的估計:正離子模式數(shù)據(jù)p0≈0.8254,說明1936個變量中約有338個生物標(biāo)志物;負(fù)離子模式數(shù)據(jù)p0≈0.8455,說明1515個變量中約有234個生物標(biāo)志物。
圖1 差異變量與噪聲均獨立條件下估計FDR與真實FDR變化趨勢圖
圖2 差異變量獨立且噪聲相關(guān)條件下估計FDR與真實FDR變化趨勢圖
(2)FDR的估計:結(jié)果如圖4所示,對于正離子模式數(shù)據(jù),如果我們選取vip值排序靠前的300個變量作為“差異變量”,其FDR值約為0.02,說明其中可能有294個生物標(biāo)志物;對于負(fù)離子模式數(shù)據(jù),如果我們選取vip值排序靠前的200個變量作為“差異變量”,其FDR值約為0.06,說明其中可能有188個生物標(biāo)志物。
1.三種單變量FDR估計方法在變量獨立的條件下估計值是無偏的,但在變量存在強(qiáng)相關(guān)的條件下,其結(jié)果與真實值偏離較大,已不具有實用性。本文提出的多變量FDR估計方法(PLS-FDR)可以解決單變量分析中出現(xiàn)的問題。
2.模擬實驗結(jié)果表明,使用本文提出的PLS-FDR方法,在變量獨立和相關(guān)兩種情況下,都能夠準(zhǔn)確地估計非差異變量占總變量的比例p0,同時估計出的FDR值具有無偏性。
圖3 差異變量與噪聲均相關(guān)條件下估計FDR與真實FDR變化趨勢圖
圖4 使用PLS-FDR方法對動脈粥樣硬化實際數(shù)據(jù)的FDR估計結(jié)果
3.偏最小二乘模型主要針對的是線性關(guān)系的數(shù)據(jù),因此當(dāng)數(shù)據(jù)結(jié)構(gòu)中存在大量的非線性關(guān)系時,會使估計結(jié)果存在一定的偏差,趨于保守。盡管如此,PLS-FDR算法得到的FDR估計結(jié)果仍然具有一定的實際意義。
4.本研究使用PLS-FDR算法對動脈粥樣硬化實際數(shù)據(jù)進(jìn)行了分析,分析結(jié)果表明,其中含有大量的潛在生物標(biāo)志物。由于PLS-FDR方法使用了多個主成分進(jìn)行回歸,因此可以揭示多變量的聯(lián)合作用,同時也能夠在一定程度上對交互作用的變量進(jìn)行篩選。
5.對于多變量分析,PLS算法中變量的重要性評分vip是一個相對的量,各變量之間互相影響,因此在PLS-FDR算法中使用了后退法,即把有顯著作用的變量逐步地進(jìn)行數(shù)據(jù)置換,移除其對分類的作用,使其他變量的作用顯現(xiàn)出來。本文在每一步中移除的變量數(shù)目為t=2,這一參數(shù)的最優(yōu)取值尚需進(jìn)一步的研究。
1.Benjamini Y,Hochberg Y.Controlling the false discovery rate:a practical and powerful approach to multiple testing.Journal of the Royal Statistical Society Series B(Methodological),1995:289-300.
2.Dalmasso C,Br?et P,Moreau T.A simple procedure for estimating the false discovery rate.Bioinformatics,2005,21(5):660-668.
3.Storey J.The positive false discovery rate:A Bayesian interpretation and the q-value.Ann Stat,2003,31(6):2013-2035.
4.Korbinian S.A unified approach to false discovery rate estimation.BMC bioinformati cs,2008,9:303.
5.Boulesteix AL.PLS dimension reduction for classification with high dimensional microarray data.Statistical Applications in Genetics and Molecular Biology,2004,3:article 33.
6.劉晉,張濤,李康.多重假設(shè)檢驗中FDR的控制與估計方法.中國衛(wèi)生統(tǒng)計,2012,29(2):305-308.
7.Storey JD.A direct approach to false discovery rates.Journal of the Royal Statistical Society:Series B(Statistical Methodology),2002,64(3):479-498.
(責(zé)任編輯:郭海強(qiáng))
The Research of False Discovery Rate Estimation of Statistical Analysis Based on Partial Least Squares
Zhang Fan,Liu Jin,Hou Yan,et al.(Department of Health Statistics,School of Public Heath,Harbin Medical University(150081),Harbin)
ObjectiveTo provide a new FDR estimation method based on Partial Least Squares(PLS)and to validate its correction as well.MethodsWe estimated the FDR of feature selection results based on thevipscores obtained by the Partial Least Squares with the permutation and Step-back technique.ResultsSimulation experiment proved that the PLS-FDR method and three univariate FDR estimation methods have exact estimation results under the independent structure data.But PLSFDR method had higher accuracy than three univariate FDR estimation methods in dealing with data having liner relationships. Case study proved that PLS-FDR method can provide important information for high dimensional data analysis.ConclusionPLS-FDR method can estimate the multivariate FDR accurately in the data having liner relationships.
Partial least squares;FDR;Metabonomics
本研究獲高等學(xué)校博士學(xué)科專項基金(20122307110004);國家自然科學(xué)基金資助(81172767)
1.哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計學(xué)教研室(150081)
2.南京醫(yī)科大學(xué)生物統(tǒng)計學(xué)教研室(211166)
△通信作者:李康,E-mail:likang@ems.hrbmu.edu.cn