代謝組學(xué)中核磁共振技術(shù)的數(shù)據(jù)分析方法

2014-01-27 10:59孫雨航許楚楚李昌盛

中國獸醫(yī)雜志 2014年12期

孫雨航，許楚楚，徐闖，李昌盛，吳凌，夏成

（黑龍江八一農(nóng)墾大學(xué)動物科技學(xué)院，黑龍江大慶163319）

近年來，隨著科學(xué)技術(shù)的不斷創(chuàng)新，各種組學(xué)（Omics）技術(shù)應(yīng)運(yùn)而生。1999年Nicholson首次給出了代謝組學(xué)（Metabolomics）的完整定義，是研究在內(nèi)、外因素作用下，生物體所含內(nèi)源性小分子代謝物（相對分子質(zhì)量小于1 000）在種類和數(shù)量上的動態(tài)變化規(guī)律以及生理、病理變化的一門技術(shù)[1]。代謝組學(xué)主要包括3個檢測平臺，分別為氣相色譜質(zhì)譜聯(lián)用，液相色譜質(zhì)譜聯(lián)用和核磁共振技術(shù)（nuclearmagnetic resonance，NMR）。其中，NMR已被廣泛應(yīng)用于生命科學(xué)的各個領(lǐng)域。

1 NMR數(shù)據(jù)預(yù)處理

從生物學(xué)角度來說，生物種類繁多，內(nèi)源性代謝物濃度差異很大，濃度高的代謝物不一定比濃度低的代謝物更重要，而某些濃度非常低的代謝物在某些生理過程中恰恰不容忽視[2]，所以為了保證所有的化合物在無偏性NMR檢測后能夠得到公平的分析，就需要對圖譜數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化，主要包括歸一化、中心化和尺度方差規(guī)?；?。

目前常規(guī)使用的數(shù)據(jù)預(yù)處理軟件是Topspin（Bruker GmBH，Karlsruhe，Germany）和MestReNova（Mestrelab Research，Santiago de Compostela，Spain）。在Topspin軟件中，所有原始譜圖自動進(jìn)行分段積分，手動調(diào)零、校正基線和相位；在MestReNova軟件中，原始譜圖被保存為包含所有代謝物化學(xué)位移的“txt”文本，用于后續(xù)統(tǒng)計(jì)分析。

2 多變量模式識別軟件

為了從大量的NMR數(shù)據(jù)中得到有價(jià)值的代謝物，需要運(yùn)用降維思想，借助多變量模式識別[3]。目前，常用的模式識別軟件通常是昂貴的商用軟件或者內(nèi)部教學(xué)軟件，主要包括SMICA（Umetrics，Ume?，Sweden）和R語言（www.R-project.org），前者最為常見，操作簡便且智能化，但是分析模式較少；后者指令復(fù)雜，需要專業(yè)人員操做，但是模式識別種類較多。最近，研究學(xué)者又提出了一種新的核磁數(shù)據(jù)處理軟件MVAPACK，它可以完成數(shù)據(jù)預(yù)處理、模式識別和模型驗(yàn)證的整個過程，并已通過實(shí)踐檢驗(yàn)，相信不久的將來許多研究學(xué)者可以通過應(yīng)用免費(fèi)軟件親自進(jìn)行數(shù)據(jù)分析。

3 主成分分析（Principal component analysis，PCA）

PCA類似于聚類分析，是一種無師監(jiān)督分析方法。從數(shù)學(xué)角度來說，PCA是一種高緯數(shù)據(jù)降緯的方法，就是將分散在一組變量的信息集中到某幾個綜合指標(biāo)（主要成分）上[3]，從而利用主要成分提取數(shù)據(jù)集的特征，形成一個二維或三維的得分圖[4]。從生物學(xué)角度來說，PCA就是在不分組的情況下，從整體上來描述樣品的離散趨勢[5]。

在PCA得分圖中，通常以前兩個主成分（PC1、PC2）為參數(shù)構(gòu)建模型，主成分后的數(shù)值代表此成分對于模型分組的貢獻(xiàn)率，數(shù)值越大表示其對分組的主導(dǎo)作用越大。通常，所有的樣品都將呈現(xiàn)在一個95%的置信區(qū)間中，區(qū)間以外的樣品被視為異常值。需要注意的是，對于異常值的處理，需要進(jìn)行異常值檢測[6]，建立離群模型[7]，綜合考慮分析結(jié)果及其生物學(xué)意義，再決定是否剔除。因此，當(dāng)樣品組間差異較大，組內(nèi)差異較小時(shí)，PCA可以很好地區(qū)分不同組樣品。但是，當(dāng)組間差異較小，組內(nèi)差異較大（組內(nèi)差異變量甚至大于樣本含量）時(shí)，樣本含量較大的一組將會主導(dǎo)模型，無法呈現(xiàn)組間差異，需要進(jìn)行有師監(jiān)督的模式識別來凸顯組間差異。

4 偏最小二乘法判別分析（Partial least squares discrim inant ana lysis，PLS-DA）

PLS-DA是一種有師監(jiān)督分析方法（可以通過多次練習(xí)達(dá)到最佳效果），通過利用已知樣品分組信息對多變量數(shù)據(jù)進(jìn)行歸類、識別和預(yù)測[8]。從模型構(gòu)建上來說，PLS-DA是對PCA模型的延伸，在PCA模型不分組的基礎(chǔ)上利用虛擬變量分組，人為地將組別定義為Y變量，從而凸顯組間差異。

此外，PLS-DA模型還是一種線性分析法，其優(yōu)勢就在于其可以結(jié)合載荷圖篩選出代謝物差異[9]，鑒別生物標(biāo)記物[10]。PLS-DA模型也存在自身局限性，因?yàn)槎嘧兞亢推钕禂?shù)的存在可能使其忽視真正的相關(guān)變量[11]。

5 正交的偏最小二乘法判別分析（Orthogonalpartial least squares discrim inant ana lysis，OPLS-DA）

OPLS-DA的構(gòu)建就是為了對PLS-DA進(jìn)行修正，通過移除與Y變量（分組）無關(guān)的X變量從而最大化組間差異，也可以將其看做一個純粹的數(shù)據(jù)預(yù)處理過程，或者是一個具有正交變量優(yōu)勢的簡單PLS-DA模型[11]。

與PLS-DA模型相同，在OPLS-DA模型中，參數(shù)R2表示模型的解釋率，Q2表示模型的預(yù)測率，R2和Q2的比值越接近于1表示模型越可靠。

OPLS-DA模型驗(yàn)證包括：內(nèi)部驗(yàn)證，7倍交差驗(yàn)證和1 000次（200次）排列驗(yàn)證；外部驗(yàn)證：應(yīng)用受試者工作特征（ReceiverOperating Characteristic，ROC）曲線確定生物標(biāo)記物的準(zhǔn)確性、敏感性和特異性[12]。

對于篩選生物標(biāo)記物，則需要結(jié)合載荷圖、S圖、皮爾遜相關(guān)系數(shù)，單因素方差分析和學(xué)生t檢驗(yàn)的P值等，來確定差異代謝物，然后進(jìn)行代謝物通路分析，最終完成生物標(biāo)記物的鑒定。條件允許的情況下，還可以進(jìn)行生物標(biāo)記物的相關(guān)性分析，甚至計(jì)算臨界值[13]。

6 OSC-PLS-DA

OSC被認(rèn)為是一種基于PLS模型的數(shù)據(jù)過濾處理技術(shù)，能夠移除與Y響應(yīng)矩陣不相關(guān)的X矩陣，從而使基于相關(guān)性X矩陣的PLS模型能夠更加專一地分析有意義變量。有報(bào)道指出，OSC-PLS-DA就是在PLS-DA[14]或OPLS-DA[15]基礎(chǔ)上結(jié)合正交信號修正過濾器所建立的分析模型，并且OSC還可以對PCA模型[16]或NMR光譜[17]進(jìn)行優(yōu)化。在OSC-PLS-DA模型中，OSC可以等于0，1，2，3···，直到PLS-DA模型最佳為止，通過一次次去掉與模型分組無關(guān)的潛在變量，達(dá)到最大化組間差異的目的。

7 結(jié)論

核磁數(shù)據(jù)預(yù)處理是保證所有數(shù)據(jù)能夠被公平地進(jìn)行多變量模式識別的基礎(chǔ)；PCA是首要的，是對所有變量的無偏性呈現(xiàn)，能夠使人們從整體上把握樣品水平；而其他3種方法是平行的，互相之間有比較也有優(yōu)化，都能夠直接應(yīng)用于篩選生物標(biāo)記物。在應(yīng)用時(shí)需要根據(jù)樣品組成選擇合適的模式識別，使之既不過于復(fù)雜又能獲得理想效果。

[1]Nicholson J K，Lindon J C，Holmes E.'Metabonomics'：understanding themetabolic responses of living systems to pathophysiological stimuli via multivariate statistical analysis of biological NMR spectroscopic data[J].Xenobiotica，1999，29：1181-1189.

[2] 王敏，黃寅，張偉，等.代謝組學(xué)信息獲取與數(shù)據(jù)預(yù)處理瓶頸問題探討[J].藥學(xué)進(jìn)展，2014，38（2）：81-88.

[3] O'Connell TM.Recent advances in metabolomics in oncology[J].Bioanalysis，2012，4：431-451.

[4] Solanky K S，Bailey N J，Beckwith-Hall B M，et al.Application of biofluid＜sup＞1＜/sup＞H nuclear magnetic resonance-based metabonomic techniques for the analysis of the biochemical effects of dietary isoflavones on human plasma profile[J].Analytical biochemistry，2003，323：197-204.

[5] Sun Y，Lian Z，Jiang C，et al.Beneficial Metabolic Effectsof 2′，3′，5′-tri-acetyl-N6-（3-Hydroxylaniline）Adenosine in the Liver and Plasma of Hyperlipidemic Hamsters[J].PloSone，2012，7：e32115.

[6] Rousseeuw P J，Hubert M.Robust statistics for outlier detection[J].Wiley Interdisciplinary Reviews：Data Mining and Knowledge Discovery，2011，1：73-79.

[7]Hubert M，Rousseeuw P J，Vanden Branden K.ROBPCA：a new approach to robustprincipal componentanalysis[J].Technometrics，2005，47：64-79.

[8] Worley B，Halouska S，Powers R.Utilities for quantifying separation in PCA/PLS-DA scores plots[J].Analytical biochemistry，2013，433：102-104.

[9]Li M，Wang J，Lu Z，et al.NMR-based metabolomics approach to study the toxicity of lambda-cyhalothrin to goldfish（＜i＞Carassius auratus＜/i＞）[J].Aquatic Toxicology，2014，146：82-92.

[10]Madsen R，Lundstedt T，Trygg J.Chemometrics in metabolomicsa review in human disease diagnosis[J].Analytica Chimica Acta，2010，659：23-33.

[11]Sadeghi-Bazargani H，Bangdiwala S I，Mohammad K，et al.Compared application of the new OPLS-DA statistical model versus partial least squares regression to manage large numbers of variables in an injury case-control study[J].Sci Res Essays，2011，6：4369-4377.

[12]Banday K M，Pasikanti K K，Chan E C Y，et al.Use of urine volatile organic compounds to discriminate tuberculosis patients from healthy subjects[J].Analytical chemistry，2011，83：5526-5534.

[13]Zhang A，Sun H，Han Y，etal.Exploratory urinarymetabolic biomarkers and pathways using UPLC-Q-TOF-HDMS coupled with pattern recognition approach[J].Analyst，2012，137：4200-4208.

[14]Lodi A，Tiziani S，Khanim F L，et al.Proton NMR-basedmetabolite analyses of archived serial paired serum and urine samples from myeloma patients at different stages of disease activity identifies acetylcarnitine as a novel marker of active disease[J].PloS one，2013，8：e56422.

[15]Davis V W，Schiller D E，Eurich D，et al.Urinary metabolomic signature of esophageal cancer and Barrett′s esophagus[J].World JSurg Oncol，2012，10：271-283.

[16]Gavaghan C，Wilson I，Nicholson J.Physiological variation in metabolic phenotyping and functional genomic studies：use of orthogonal signal correction and PLS-DA[J].FEBS letters，2002，530：191-196.

[17]Shariff M I，Ladep N G，Cox IJ，et al.Characterization of urinary biomarkers of hepatocellular carcinoma usingmagnetic resonance spectroscopy in a Nigerian population[J].Journal of proteome research，2010，9：1096-1103.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡