孫雨航,許楚楚,徐 闖,李昌盛,吳 凌,夏 成
(黑龍江八一農(nóng)墾大學(xué)動物科技學(xué)院,黑龍江 大慶163319)
近年來,隨著科學(xué)技術(shù)的不斷創(chuàng)新,各種組學(xué)(Omics)技術(shù)應(yīng)運(yùn)而生。1999年Nicholson首次給出了代謝組學(xué)(Metabolomics)的完整定義,是研究在內(nèi)、外因素作用下,生物體所含內(nèi)源性小分子代謝物(相對分子質(zhì)量小于1 000)在種類和數(shù)量上的動態(tài)變化規(guī)律以及生理、病理變化的一門技術(shù)[1]。代謝組學(xué)主要包括3個檢測平臺,分別為氣相色譜質(zhì)譜聯(lián)用,液相色譜質(zhì)譜聯(lián)用和核磁共振技術(shù)(nuclearmagnetic resonance,NMR)。其中,NMR已被廣泛應(yīng)用于生命科學(xué)的各個領(lǐng)域。
從生物學(xué)角度來說,生物種類繁多,內(nèi)源性代謝物濃度差異很大,濃度高的代謝物不一定比濃度低的代謝物更重要,而某些濃度非常低的代謝物在某些生理過程中恰恰不容忽視[2],所以為了保證所有的化合物在無偏性NMR檢測后能夠得到公平的分析,就需要對圖譜數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,主要包括歸一化、中心化和尺度方差規(guī)?;?。
目前常規(guī)使用的數(shù)據(jù)預(yù)處理軟件是Topspin(Bruker GmBH,Karlsruhe,Germany)和MestReNova(Mestrelab Research,Santiago de Compostela,Spain)。在Topspin軟件中,所有原始譜圖自動進(jìn)行分段積分,手動調(diào)零、校正基線和相位;在MestReNova軟件中,原始譜圖被保存為包含所有代謝物化學(xué)位移的“txt”文本,用于后續(xù)統(tǒng)計(jì)分析。
為了從大量的NMR數(shù)據(jù)中得到有價(jià)值的代謝物,需要運(yùn)用降維思想,借助多變量模式識別[3]。目前,常用的模式識別軟件通常是昂貴的商用軟件或者內(nèi)部教學(xué)軟件,主要包括SMICA(Umetrics,Ume?,Sweden)和R語言(www.R-project.org),前者最為常見,操作簡便且智能化,但是分析模式較少;后者指令復(fù)雜,需要專業(yè)人員操做,但是模式識別種類較多。最近,研究學(xué)者又提出了一種新的核磁數(shù)據(jù)處理軟件MVAPACK,它可以完成數(shù)據(jù)預(yù)處理、模式識別和模型驗(yàn)證的整個過程,并已通過實(shí)踐檢驗(yàn),相信不久的將來許多研究學(xué)者可以通過應(yīng)用免費(fèi)軟件親自進(jìn)行數(shù)據(jù)分析。
PCA類似于聚類分析,是一種無師監(jiān)督分析方法。從數(shù)學(xué)角度來說,PCA是一種高緯數(shù)據(jù)降緯的方法,就是將分散在一組變量的信息集中到某幾個綜合指標(biāo)(主要成分)上[3],從而利用主要成分提取數(shù)據(jù)集的特征,形成一個二維或三維的得分圖[4]。從生物學(xué)角度來說,PCA就是在不分組的情況下,從整體上來描述樣品的離散趨勢[5]。
在PCA得分圖中,通常以前兩個主成分(PC1、PC2)為參數(shù)構(gòu)建模型,主成分后的數(shù)值代表此成分對于模型分組的貢獻(xiàn)率,數(shù)值越大表示其對分組的主導(dǎo)作用越大。通常,所有的樣品都將呈現(xiàn)在一個95%的置信區(qū)間中,區(qū)間以外的樣品被視為異常值。需要注意的是,對于異常值的處理,需要進(jìn)行異常值檢測[6],建立離群模型[7],綜合考慮分析結(jié)果及其生物學(xué)意義,再決定是否剔除。因此,當(dāng)樣品組間差異較大,組內(nèi)差異較小時(shí),PCA可以很好地區(qū)分不同組樣品。但是,當(dāng)組間差異較小,組內(nèi)差異較大(組內(nèi)差異變量甚至大于樣本含量)時(shí),樣本含量較大的一組將會主導(dǎo)模型,無法呈現(xiàn)組間差異,需要進(jìn)行有師監(jiān)督的模式識別來凸顯組間差異。
PLS-DA是一種有師監(jiān)督分析方法(可以通過多次練習(xí)達(dá)到最佳效果),通過利用已知樣品分組信息對多變量數(shù)據(jù)進(jìn)行歸類、識別和預(yù)測[8]。從模型構(gòu)建上來說,PLS-DA是對PCA模型的延伸,在PCA模型不分組的基礎(chǔ)上利用虛擬變量分組,人為地將組別定義為Y變量,從而凸顯組間差異。
此外,PLS-DA模型還是一種線性分析法,其優(yōu)勢就在于其可以結(jié)合載荷圖篩選出代謝物差異[9],鑒別生物標(biāo)記物[10]。PLS-DA模型也存在自身局限性,因?yàn)槎嘧兞亢推钕禂?shù)的存在可能使其忽視真正的相關(guān)變量[11]。
OPLS-DA的構(gòu)建就是為了對PLS-DA進(jìn)行修正,通過移除與Y變量(分組)無關(guān)的X變量從而最大化組間差異,也可以將其看做一個純粹的數(shù)據(jù)預(yù)處理過程,或者是一個具有正交變量優(yōu)勢的簡單PLS-DA模型[11]。
與PLS-DA模型相同,在OPLS-DA模型中,參數(shù)R2表示模型的解釋率,Q2表示模型的預(yù)測率,R2和Q2的比值越接近于1表示模型越可靠。
OPLS-DA模型驗(yàn)證包括:內(nèi)部驗(yàn)證,7倍交差驗(yàn)證和1 000次(200次)排列驗(yàn)證;外部驗(yàn)證:應(yīng)用受試者工作特征(ReceiverOperating Characteristic,ROC)曲線確定生物標(biāo)記物的準(zhǔn)確性、敏感性和特異性[12]。
對于篩選生物標(biāo)記物,則需要結(jié)合載荷圖、S圖、皮爾遜相關(guān)系數(shù),單因素方差分析和學(xué)生t檢驗(yàn)的P值等,來確定差異代謝物,然后進(jìn)行代謝物通路分析,最終完成生物標(biāo)記物的鑒定。條件允許的情況下,還可以進(jìn)行生物標(biāo)記物的相關(guān)性分析,甚至計(jì)算臨界值[13]。
OSC被認(rèn)為是一種基于PLS模型的數(shù)據(jù)過濾處理技術(shù),能夠移除與Y響應(yīng)矩陣不相關(guān)的X矩陣,從而使基于相關(guān)性X矩陣的PLS模型能夠更加專一地分析有意義變量。有報(bào)道指出,OSC-PLS-DA就是在PLS-DA[14]或OPLS-DA[15]基礎(chǔ)上結(jié)合正交信號修正過濾器所建立的分析模型,并且OSC還可以對PCA模型[16]或NMR光譜[17]進(jìn)行優(yōu)化。在OSC-PLS-DA模型中,OSC可以等于0,1,2,3···,直到PLS-DA模型最佳為止,通過一次次去掉與模型分組無關(guān)的潛在變量,達(dá)到最大化組間差異的目的。
核磁數(shù)據(jù)預(yù)處理是保證所有數(shù)據(jù)能夠被公平地進(jìn)行多變量模式識別的基礎(chǔ);PCA是首要的,是對所有變量的無偏性呈現(xiàn),能夠使人們從整體上把握樣品水平;而其他3種方法是平行的,互相之間有比較也有優(yōu)化,都能夠直接應(yīng)用于篩選生物標(biāo)記物。在應(yīng)用時(shí)需要根據(jù)樣品組成選擇合適的模式識別,使之既不過于復(fù)雜又能獲得理想效果。
[1]Nicholson J K,Lindon J C,Holmes E.'Metabonomics':understanding themetabolic responses of living systems to pathophysiological stimuli via multivariate statistical analysis of biological NMR spectroscopic data[J].Xenobiotica,1999,29:1181-1189.
[2] 王敏,黃寅,張偉,等.代謝組學(xué)信息獲取與數(shù)據(jù)預(yù)處理瓶頸問題探討[J].藥學(xué)進(jìn)展,2014,38(2):81-88.
[3] O'Connell TM.Recent advances in metabolomics in oncology[J].Bioanalysis,2012,4:431-451.
[4] Solanky K S,Bailey N J,Beckwith-Hall B M,et al.Application of biofluid<sup>1</sup>H nuclear magnetic resonance-based metabonomic techniques for the analysis of the biochemical effects of dietary isoflavones on human plasma profile[J].Analytical biochemistry,2003,323:197-204.
[5] Sun Y,Lian Z,Jiang C,et al.Beneficial Metabolic Effectsof 2′,3′,5′-tri-acetyl-N6-(3-Hydroxylaniline)Adenosine in the Liver and Plasma of Hyperlipidemic Hamsters[J].PloSone,2012,7:e32115.
[6] Rousseeuw P J,Hubert M.Robust statistics for outlier detection[J].Wiley Interdisciplinary Reviews:Data Mining and Knowledge Discovery,2011,1:73-79.
[7]Hubert M,Rousseeuw P J,Vanden Branden K.ROBPCA:a new approach to robustprincipal componentanalysis[J].Technometrics,2005,47:64-79.
[8] Worley B,Halouska S,Powers R.Utilities for quantifying separation in PCA/PLS-DA scores plots[J].Analytical biochemistry,2013,433:102-104.
[9]Li M,Wang J,Lu Z,et al.NMR-based metabolomics approach to study the toxicity of lambda-cyhalothrin to goldfish(<i>Carassius auratus</i>)[J].Aquatic Toxicology,2014,146:82-92.
[10]Madsen R,Lundstedt T,Trygg J.Chemometrics in metabolomicsa review in human disease diagnosis[J].Analytica Chimica Acta,2010,659:23-33.
[11]Sadeghi-Bazargani H,Bangdiwala S I,Mohammad K,et al.Compared application of the new OPLS-DA statistical model versus partial least squares regression to manage large numbers of variables in an injury case-control study[J].Sci Res Essays,2011,6:4369-4377.
[12]Banday K M,Pasikanti K K,Chan E C Y,et al.Use of urine volatile organic compounds to discriminate tuberculosis patients from healthy subjects[J].Analytical chemistry,2011,83:5526-5534.
[13]Zhang A,Sun H,Han Y,etal.Exploratory urinarymetabolic biomarkers and pathways using UPLC-Q-TOF-HDMS coupled with pattern recognition approach[J].Analyst,2012,137:4200-4208.
[14]Lodi A,Tiziani S,Khanim F L,et al.Proton NMR-basedmetabolite analyses of archived serial paired serum and urine samples from myeloma patients at different stages of disease activity identifies acetylcarnitine as a novel marker of active disease[J].PloS one,2013,8:e56422.
[15]Davis V W,Schiller D E,Eurich D,et al.Urinary metabolomic signature of esophageal cancer and Barrett′s esophagus[J].World JSurg Oncol,2012,10:271-283.
[16]Gavaghan C,Wilson I,Nicholson J.Physiological variation in metabolic phenotyping and functional genomic studies:use of orthogonal signal correction and PLS-DA[J].FEBS letters,2002,530:191-196.
[17]Shariff M I,Ladep N G,Cox IJ,et al.Characterization of urinary biomarkers of hepatocellular carcinoma usingmagnetic resonance spectroscopy in a Nigerian population[J].Journal of proteome research,2010,9:1096-1103.