韓明飛,朱云平
Meta-analysis 在多種組學(xué)領(lǐng)域的應(yīng)用
韓明飛,朱云平
軍事醫(yī)學(xué)科學(xué)院放射與輻射醫(yī)學(xué)研究所 蛋白質(zhì)組學(xué)國家重點(diǎn)實(shí)驗(yàn)室 國家蛋白質(zhì)科學(xué)中心 (北京) 北京蛋白質(zhì)組研究中心 蛋白質(zhì)藥物國家工程研究中心,北京 102206
Meta-analysis作為一種整合多特征、多數(shù)據(jù)的統(tǒng)計(jì)方法,上世紀(jì)90年代被引入生命科學(xué)領(lǐng)域。隨著高通量測序技術(shù)的快速發(fā)展,以基因組學(xué)、轉(zhuǎn)錄組學(xué)和蛋白質(zhì)組學(xué)為核心的生命組學(xué)逐漸成為生命科學(xué)研究的新熱點(diǎn)。海量數(shù)據(jù)的快速產(chǎn)出推動(dòng)了組學(xué)研究的發(fā)展,也引發(fā)了數(shù)據(jù)規(guī)模過大、難以系統(tǒng)整合等問題。針對(duì)上述情況,meta-analysis被廣泛地應(yīng)用于分析各組學(xué)數(shù)據(jù),方法也不斷得到改進(jìn)。本文系統(tǒng)總結(jié)了有代表性的meta-analysis方法,考察了目前meta-analysis在多個(gè)組學(xué)領(lǐng)域的應(yīng)用現(xiàn)狀,最后討論了meta-analysis尚待解決的問題并展望未來的發(fā)展方向。
meta-analysis,基因組學(xué),轉(zhuǎn)錄組學(xué),蛋白質(zhì)組學(xué)
Meta-analysis的中文名稱為“元分析”或“薈萃分析”,最早由Glass在1976年提出[1]。Meta即“more comprehensive”,表示更加全面之意。其分析對(duì)象是現(xiàn)有的研究成果,定義為對(duì)先前研究的綜合評(píng)價(jià)和定量合并。Meta-analysis最早用于心理、教育等領(lǐng)域,上世紀(jì)90年代開始在自然科學(xué)領(lǐng)域盛行。時(shí)至今日,meta-analysis已經(jīng)廣泛用于生命科學(xué)的多個(gè)領(lǐng)域,并發(fā)展出一系列整合各類數(shù)據(jù)的方法。
隨著高通量技術(shù)的快速發(fā)展,以基因組、轉(zhuǎn)錄組和蛋白質(zhì)組為核心的生命組學(xué)[2]數(shù)據(jù)大量產(chǎn)出。大規(guī)模組學(xué)數(shù)據(jù)庫,如Gene Expression Omnibus[3]、ArrayExpress[4]、PeptideAtlas[5]、PRIDE[6]、Encode[7]等,開始進(jìn)入人們的視野。要深入完整地解開隱藏在大量實(shí)驗(yàn)數(shù)據(jù)中的生物學(xué)奧秘,高效的數(shù)據(jù)整合和分析方法必不可少,meta-analysis就是其中的典型代表。如今,meta-analysis已經(jīng)被公認(rèn)為科學(xué)有效的數(shù)據(jù)整合方法,廣泛用于各類組學(xué)研究。在基因組學(xué)領(lǐng)域,meta-analysis主要被用于基因組關(guān)聯(lián)分析(Genome wide association studies,GWAS);在轉(zhuǎn)錄組學(xué)領(lǐng)域,meta-analysis被廣泛用于分析基因芯片數(shù)據(jù);在蛋白質(zhì)組學(xué)領(lǐng)域,meta-analysis已經(jīng)開始被用來整合雙向凝膠電泳圖譜和質(zhì)譜數(shù)據(jù)。
我們在PubMed中以相應(yīng)關(guān)鍵詞搜索了應(yīng)用于不同組學(xué)的meta-analysis研究 (截止到2014年1月10日),共搜集了2 032篇論文。經(jīng)過初步篩選,與基因組關(guān)聯(lián)分析相關(guān)的研究 (基因組學(xué)) 有1 092篇,與基因芯片相關(guān)的研究(轉(zhuǎn)錄組學(xué)) 有857篇,與雙向電泳、質(zhì)譜和蛋白數(shù)據(jù)庫 (蛋白質(zhì)組學(xué)) 相關(guān)的研究有83篇。圖1展示了meta-analysis在3種組學(xué)領(lǐng)域相關(guān)研究的論文數(shù)量以及近十年的發(fā)展情況,其中,基因組學(xué)和轉(zhuǎn)錄組學(xué)占主導(dǎo)地位,轉(zhuǎn)錄組學(xué)的相關(guān)研究起步最早,至今一直穩(wěn)步上升,基因組學(xué)相關(guān)研究發(fā)展最快,2009年已經(jīng)超越轉(zhuǎn)錄組并一直保持強(qiáng)勁的發(fā)展勢頭;蛋白質(zhì)組學(xué)相關(guān)的研究起步較晚,正處于逐漸積累的時(shí)期。
圖1 2005–2013年P(guān)ubmed歷年收錄的meta-analysis在三種組學(xué)領(lǐng)域的相關(guān)研究論文數(shù)Fig. 1 The number of studies about meta-analysis in different areas published in Pubmed from 2005 to 2013.
本文首先介紹了meta-analysis有代表性的算法及相應(yīng)改進(jìn),指出每種方法的優(yōu)勢與不足。之后結(jié)合基因組學(xué)、轉(zhuǎn)錄組學(xué)和蛋白質(zhì)組學(xué)的技術(shù)特點(diǎn),考察了meta-analysis在生命組學(xué)各領(lǐng)域的應(yīng)用情況,在此基礎(chǔ)上總結(jié)現(xiàn)有的meta-analysis分析工具。最后結(jié)合自身研究指出meta-analysis存在的問題與相應(yīng)的解決方案,進(jìn)而探討未來meta-analysis的發(fā)展方向。
Ramasamy等在總結(jié)大量研究的基礎(chǔ)上提出了基因芯片數(shù)據(jù)meta分析的7個(gè)基本步驟[8],其中有些步驟涉及到基因芯片的特異性處理,通過進(jìn)一步總結(jié),我們歸納出具有普遍性的meta-analysis基本流程:數(shù)據(jù)收集,數(shù)據(jù)預(yù)處理,特定統(tǒng)計(jì)量整合以及結(jié)果分析、展示和解釋。其中,“特定統(tǒng)計(jì)量整合”是meta-analysis最關(guān)鍵的步驟,我們對(duì)現(xiàn)有的meta-analysis相關(guān)研究進(jìn)行了系統(tǒng)總結(jié)和分類,歸納出4種方法:基于P-value的方法、基于排序 (Rank) 的方法、基于效果量 (Effect size) 的方法以及基于計(jì)數(shù)的方法。本節(jié)將分別介紹4類方法的原理、功能及一些代表性的改進(jìn)。
1.1 基于P-value的方法
P-value是由統(tǒng)計(jì)學(xué)檢驗(yàn) (t檢驗(yàn),卡方檢驗(yàn)等) 得到的表征某條目 (基因、蛋白質(zhì)等) 在兩個(gè)樣本中差異顯著性的統(tǒng)計(jì)量,P值越小代表差異越顯著。整合P-value的meta-analysis方法主要用于整合多數(shù)據(jù)集鑒定差異基因或蛋白質(zhì),其原理是綜合某條目在所有數(shù)據(jù)集的P-value大小計(jì)算它的綜合打分S,以此表征其整合后的差異程度。
計(jì)算綜合打分的方法有很多。Fisher方法[9]是最經(jīng)典的方法之一,它取所有P-value的負(fù)對(duì)數(shù)加和作為打分S越大代表差異表達(dá)的概率越高。另一種經(jīng)典方法是Stouffer方法[10],打分P取P-value的標(biāo)準(zhǔn)正態(tài)分布的反函數(shù)加和。在以上兩種方法的基礎(chǔ)上,研究人員進(jìn)行了許多改進(jìn),Li和Tseng為每個(gè)P-value引入權(quán)值0或1,計(jì)算所有可能的打分,取其中的最大值作為綜合打分,命名為自動(dòng)調(diào)整的加權(quán)Fisher方法[11]。此方法比傳統(tǒng)方法具有更高的靈敏度,但數(shù)據(jù)集較多時(shí)計(jì)算量也大大增加。另一種引入權(quán)值的改進(jìn)是Whitlock提出的加權(quán)Z-score方法[12],它根據(jù)數(shù)據(jù)量的大小為不同數(shù)據(jù)集設(shè)置權(quán)值,計(jì)算加權(quán)打分Z。為檢驗(yàn)其整合效果,Whitlock使用加權(quán)Z-score方法與經(jīng)典Fisher方法整合同一批數(shù)據(jù),發(fā)現(xiàn)兩個(gè)結(jié)果具有相似的第一類錯(cuò)誤率,但加權(quán)Z-score方法的結(jié)果表現(xiàn)出較低的第二類錯(cuò)誤率以及與標(biāo)準(zhǔn)結(jié)果更高的相關(guān)性,證明了其更好的整合效能。
1.2 基于排序的方法
盡管整合P-value的方法已被普遍接受,但離群的極小P-value往往在計(jì)算綜合打分時(shí)占據(jù)主導(dǎo)地位,導(dǎo)致某基因或蛋白質(zhì)僅僅因?yàn)樵谀骋粋€(gè)數(shù)據(jù)集中P-value極小而得到一個(gè)較高打分,最終被判斷為差異。針對(duì)這種情況,人們提出了基于排序的方法,它可以有效地降低離群極值的影響,更適于整合質(zhì)量不一的數(shù)據(jù)。基于排序的方法將各數(shù)據(jù)集中的條目根據(jù)特定規(guī)則 (P-value/Fold-Change) 排序,以位置編號(hào)表征其顯著程度。其原理與基于P-value的方法相似,僅僅在計(jì)算綜合打分時(shí)用條目的位置編號(hào)代替P-value。
Hong等開發(fā)了基于排序的meta-analysis工具“RankProd”[13],之后又比較各種meta-analysis方法,認(rèn)為基于排序的方法相比P-value表現(xiàn)出更好的統(tǒng)計(jì)效果[14]。Amess等在經(jīng)典排序方法的基礎(chǔ)上大膽改進(jìn),針對(duì)蛋白質(zhì)數(shù)據(jù)定量準(zhǔn)確性較低的情況,提出了ψ-ranking和π-ranking3種表征顯著性的新標(biāo)準(zhǔn),以歐幾里德距離作為綜合打分,用以整合蛋白質(zhì)數(shù)據(jù)。證明3種方法克服了僅依靠Fold-Change作為唯一排序標(biāo)準(zhǔn)的弊端,歐幾里德距離的使用也大大降低了整合結(jié)果的假陽性[15]。
1.3 基于效果量的方法
基于效果量的方法是最早提出的meta-analysis方法之一,Glass在1976年命名meta-analysis的同時(shí)就提出了效果量的概念。概括來說,效果量是描述不同數(shù)據(jù)間差異大小的指標(biāo),例如對(duì)于多組不同時(shí)期的癌癥表達(dá)譜,基因表達(dá)量的差異就可以作為一個(gè)效果量指標(biāo),將它標(biāo)準(zhǔn)化后可以衡量生長時(shí)間對(duì)癌癥發(fā)展的影響。
基于效果量的meta-analysis方法除了可用于整合多組數(shù)據(jù)鑒定差異基因或蛋白質(zhì),還可以考察不同數(shù)據(jù)間的異質(zhì)性。其原理是借助特定的效應(yīng)模型來擬合多組數(shù)據(jù)間的差異 (效果量),從而估算效果量大小。固定效應(yīng)模型(Fixed effects models,F(xiàn)EM) 和隨機(jī)效應(yīng)模型(Random effects models,REM) 是兩種最常用的擬合效果量的模型,固定效應(yīng)模型的效果量包括表達(dá)量和抽樣誤差,隨機(jī)效應(yīng)模型進(jìn)一步考慮了不同研究間的差異因此固定效應(yīng)模型只能用于相同實(shí)驗(yàn)條件下的數(shù)據(jù),而隨機(jī)效應(yīng)模型可用于來源于不同實(shí)驗(yàn)的獨(dú)立數(shù)據(jù)[16]。
基于效果量的方法是幾類meta-analysis方法中功能最強(qiáng)大的。Nakaoka等對(duì)用于基因組關(guān)聯(lián)分析的效果量方法進(jìn)行了總結(jié),介紹了其搜索策略、數(shù)據(jù)納入標(biāo)準(zhǔn)和方法具體流程[17]。Choi等嘗試將效果量方法用于基因芯片的meta-analysis,詳細(xì)敘述了鑒定差異基因的具體步驟和算法原理[16]。
1.4 基于計(jì)數(shù)的方法
基于計(jì)數(shù)的方法又稱計(jì)票法(Vote-counting),以某基因或蛋白條目在所有數(shù)據(jù)集的顯著表達(dá)列表中的重復(fù)次數(shù)表征其差異顯著性。對(duì)于重復(fù)多少次為顯著性,一般通過隨機(jī)化方法估算假發(fā)現(xiàn)率(False discover rate, FDR),認(rèn)為使FDR<0.1的重復(fù)次數(shù)是符合標(biāo)準(zhǔn)的重復(fù)次數(shù),重復(fù)這些次的基因即為整合后的差異基因[18]。
計(jì)票法是一種定性方法,靈敏度較低,在數(shù)據(jù)量不足時(shí)很難作出判斷,因此只適用于規(guī)模較大的數(shù)據(jù)。Rhodes等針對(duì)大規(guī)模數(shù)據(jù)整合對(duì)計(jì)票方法進(jìn)行了改進(jìn),并用這種方法整合了包含多于3 700組樣本的40個(gè)癌癥基因芯片數(shù)據(jù),取得了不錯(cuò)的效果[18]。計(jì)票方法盡管靈敏度有限,卻是目前整合大規(guī)模數(shù)據(jù)唯一有效的辦法。
集多種組學(xué)之大成的“生命組學(xué)”研究模式已初現(xiàn)端倪[2],迅速積累的各組學(xué)數(shù)據(jù)對(duì)高效的數(shù)據(jù)整合方法提出了更高要求。如今,meta-analysis不僅被廣泛用于基因組學(xué)、轉(zhuǎn)錄組學(xué)和蛋白質(zhì)組學(xué)研究,還延伸到組學(xué)間的整合分析。
2.1 Meta-analysis在基因組學(xué)中的應(yīng)用
基因組學(xué)主要通過研究不同個(gè)體基因組的相同和差異探索基因的功能,是最早被提出的組學(xué)概念?;蚪M關(guān)聯(lián)分析是meta-analysis方法應(yīng)用于基因組學(xué)研究的典型代表?;蚪M關(guān)聯(lián)分析是通過檢測特定物種不同個(gè)體間的基因序列差異,分析單核苷酸多態(tài)性 (Single nucleotide polymorphisms, SNPs) 的方法[19]。檢測差異信號(hào)往往需要大量樣本,單一的基因組關(guān)聯(lián)分析很難得到準(zhǔn)確的結(jié)果,使用meta-analysis方法整合多個(gè)獨(dú)立研究可以有效降低誤報(bào)、提高統(tǒng)計(jì)能力。Meta-analysis在基因組關(guān)聯(lián)分析中的應(yīng)用分為兩類:第一類是全基因組關(guān)聯(lián)分析,目的是在一個(gè)物種全基因組范圍內(nèi)研究單核苷酸多態(tài)性;第二類是目標(biāo)位點(diǎn)分析,有針對(duì)性地研究某一基因位點(diǎn)的復(fù)制情況[19]。
幾乎目前所有對(duì)人類多基因疾病的遺傳學(xué)認(rèn)識(shí)都來自于借助meta-analysis方法的基因組關(guān)聯(lián)分析[20],meta-analysis已成為一種發(fā)現(xiàn)疾病和表型新基因位點(diǎn)的普遍方法,用于更大規(guī)模樣本的meta-analysis還將繼續(xù)開展,揭示更多基因組層面的生命奧秘[21]。
2.2 Meta-analysis在轉(zhuǎn)錄組學(xué)中的應(yīng)用
轉(zhuǎn)錄過程是基因表達(dá)的第一步,也是基因表達(dá)調(diào)控的關(guān)鍵環(huán)節(jié),轉(zhuǎn)錄組學(xué)是從轉(zhuǎn)錄水平研究基因表達(dá)情況的學(xué)科?;蛐酒寝D(zhuǎn)錄組學(xué)最重要的研究手段,利用meta-analysis整合芯片數(shù)據(jù)不僅大大提高了鑒定差異基因的準(zhǔn)確率,還衍生出整合通路[22]、整合網(wǎng)絡(luò)[23]等一系列后續(xù)研究。
Meta-analysis整合基因芯片可以實(shí)現(xiàn)鑒定差異基因、網(wǎng)絡(luò)和基因共表達(dá)分析[24-27]、預(yù)測分析[28]、評(píng)估芯片的相似性和差異性[29]等功能。其中鑒定差異基因應(yīng)用最為廣泛,除了兩個(gè)樣本的差異,也有針對(duì)連續(xù)、多級(jí)變量等多個(gè)樣本間差異展開的研究[30]。此外,meta-analysis整合多組基因芯片與后續(xù)生物學(xué)研究的結(jié)合也越來越緊密。例如,Shen等開發(fā)的工具M(jìn)APE[31]將meta-analysis和通路富集分析巧妙地結(jié)合在一起。通過鑒定差異基因與通路 (Gene Ontology,KEGG[32]等數(shù)據(jù)庫) 的相關(guān)性,判斷一個(gè)已知的生物過程是否在差異基因列表中富集。Yang等收集了6個(gè)物種的基因芯片數(shù)據(jù)用于鑒定它們?nèi)炕虻木幋a蛋白,與不同條件下的基因表達(dá)數(shù)據(jù)整合分析,研究不同物種及不同條件下的蛋白結(jié)構(gòu)域特點(diǎn)[33]。
基因芯片憑借其方便高效的優(yōu)勢,近年被廣泛用于研究疾病或生物處理前后的基因表達(dá)差異。然而受到技術(shù)限制和實(shí)驗(yàn)偶然因素的影響,單次實(shí)驗(yàn)的準(zhǔn)確性還有待提高。用meta-analysis方法整合多基因芯片可以有效降低各種偶然因素的影響,揭示多次實(shí)驗(yàn)一致的表達(dá)規(guī)律。
2.3 Meta-analysis在蛋白質(zhì)組學(xué)中的應(yīng)用
隨著人類基因組計(jì)劃的實(shí)施和推進(jìn),生命科學(xué)已進(jìn)入了后基因組時(shí)代,蛋白質(zhì)組學(xué)不僅是生命科學(xué)研究進(jìn)入后基因組時(shí)代的里程碑,也是后基因組時(shí)代生命科學(xué)研究的核心內(nèi)容之一。蛋白質(zhì)鑒定是蛋白質(zhì)組學(xué)最重要的研究內(nèi)容之一,凝膠電泳和質(zhì)譜是兩大關(guān)鍵技術(shù),雙向電泳圖譜的meta-analysis出現(xiàn)較早,近年隨著質(zhì)譜技術(shù)的發(fā)展,質(zhì)譜數(shù)據(jù)的meta-analysis也逐漸展開。
整合雙向電泳圖譜有時(shí)可以揭示關(guān)于生物過程的隱藏信息。Natale等通過整合兩個(gè)電泳圖譜研究帕金森癥疾病相關(guān)蛋白DJ-1[34]。多樣本整合也得以應(yīng)用,Rosenberg等通過整合73個(gè)腫瘤樣本的電泳圖譜中2 121個(gè)點(diǎn)研究前列腺和結(jié)腸腫瘤的蛋白表達(dá)[35]。在眾多的高通量技術(shù)中,質(zhì)譜被認(rèn)為是一種同時(shí)具備高特異性和高靈敏度且得到了廣泛應(yīng)用的普適性方法。整合質(zhì)譜數(shù)據(jù)有整合原始數(shù)據(jù)和整合處理后的蛋白質(zhì)列表兩種方式。原始數(shù)據(jù)較為理想,但相對(duì)不容易獲得,相反經(jīng)過預(yù)處理的蛋白質(zhì)列表來源就廣泛得多。整合原始數(shù)據(jù)時(shí)一般對(duì)這些數(shù)據(jù)進(jìn)行統(tǒng)一搜庫,以保證得到標(biāo)準(zhǔn)化的蛋白質(zhì)ID,然后整合各數(shù)據(jù)集內(nèi)蛋白質(zhì)的FDR[36]。整合蛋白質(zhì)列表時(shí)現(xiàn)有的meta-analysis方法基本都可以使用,Amess等改進(jìn)了基于排序的meta-analysis方法,用改進(jìn)方法整合多組蛋白質(zhì)列表,取得了很好的效果[15]。除鑒定蛋白質(zhì)外,meta-analysis還被用于分析蛋白質(zhì)的豐度和結(jié)構(gòu)特點(diǎn)。Zhong等整合分析了6個(gè)物種的蛋白豐度數(shù)據(jù),考察了不同物種間以及不同結(jié)構(gòu)域下蛋白豐度的分布模式[37]。
蛋白質(zhì)是生理功能的執(zhí)行者,是生命現(xiàn)象的直接體現(xiàn)者,對(duì)蛋白質(zhì)結(jié)構(gòu)和功能的研究將直接闡明生命在生理或病理?xiàng)l件下的變化機(jī)制。蛋白質(zhì)的可變性和多樣性等特殊性質(zhì)導(dǎo)致了蛋白質(zhì)研究技術(shù)遠(yuǎn)遠(yuǎn)比核酸技術(shù)要復(fù)雜,meta-analysis整合多次實(shí)驗(yàn)可以有效彌補(bǔ)蛋白質(zhì)技術(shù)目前在準(zhǔn)確性上的不足,推動(dòng)蛋白質(zhì)研究迅速發(fā)展。
2.4 Meta-analysis在多組學(xué)整合中的應(yīng)用
早期組學(xué)間整合的主要目的是通過比較兩組學(xué)數(shù)據(jù),評(píng)估兩類數(shù)據(jù)的相似性,其中最多的是轉(zhuǎn)錄組和蛋白質(zhì)組的比較分析,較普遍的比較方法有Nie等提出的零堆積泊松模型(Zero-inflated Poisson model)[38]和Kislinger等建立的貝葉斯網(wǎng)絡(luò)[39]。后來組學(xué)整合的目的逐漸拓展為探索不同組學(xué)的內(nèi)在關(guān)聯(lián)以揭示生物系統(tǒng)的作用機(jī)制。例如,Lv等通過整合轉(zhuǎn)錄組和毒理基因組數(shù)據(jù)識(shí)別癌癥先導(dǎo)化合物[40],Liu等通過整合轉(zhuǎn)錄組和蛋白質(zhì)組二維凝膠電泳數(shù)據(jù)鑒定先兆子癇的生物標(biāo)志物[41]。最近,Sass等提出了一種基于貝葉斯模型方法——多層次本體分析算法 (Multi-level Ontology Analysis, MONA),可用于綜合分析多組學(xué)數(shù)據(jù)并評(píng)估其生物學(xué)意義[42]。圖2展示了PubMed歷年收錄的多組學(xué)整合相關(guān)研究論文數(shù)。圖中可見,組學(xué)間整合研究總體呈增長趨勢,2013年更是呈現(xiàn)大幅度增長。隨著組學(xué)研究的深入,我們有理由預(yù)測這一領(lǐng)域?qū)⒃谖磥碚紦?jù)重要 地位。
圖2 近十年P(guān)ubmed歷年收錄的多組學(xué)整合相關(guān)論文Fig. 2 The number of studies about integration of multi-omics published in Pubmed for this decade.
前文討論了meta-analysis在基因組、轉(zhuǎn)錄組、蛋白質(zhì)組以及多組學(xué)整合4個(gè)領(lǐng)域的應(yīng)用。針對(duì)不同的研究目的,目前已經(jīng)開發(fā)了一些具備meta-analysis功能的工具。與一般組學(xué)數(shù)據(jù)分析工具以單一數(shù)據(jù)為基本單位不同,meta-analysis工具從不同來源的數(shù)據(jù)入手,以整合分析為基本途徑,一般實(shí)現(xiàn)一種或幾種meta-analysis算法,最終實(shí)現(xiàn)鑒定、預(yù)測以及可視化等功能。
在基因組學(xué)領(lǐng)域,meta-analysis相關(guān)工具發(fā)展較成熟,其中使用最廣泛的是METAL[43],它實(shí)現(xiàn)了加權(quán)Z-score和基于效應(yīng)量的整合方法;PLINK實(shí)現(xiàn)了FEM和REM方法,是一個(gè)免費(fèi)、開源的基因組關(guān)聯(lián)分析工具[44];Comprehensive Meta-analysis (CMA)是一個(gè)商業(yè)軟件,它具有電子表格形式的界面并可以繪制森林圖[45]。此外,基因組學(xué)領(lǐng)域的meta-analysis工具還包括“MAGENTA”[46](利用meta-analysis實(shí)現(xiàn)基因集富集分析)、Metafor[47](實(shí)現(xiàn)多種基于效應(yīng)量的方法并提供多種圖形展示)、Synthesis-view[48](整合多組研究并可視化結(jié)果)、IGG3[49](整合GWAS原始數(shù)據(jù)) 以及GWAMA[50](實(shí)現(xiàn)FEM和REM方法)。
在轉(zhuǎn)錄組學(xué)領(lǐng)域,科研人員同樣開發(fā)了一些針對(duì)基因芯片數(shù)據(jù)的meta-analysis工具和軟件包,其中發(fā)展較成熟的包括:GeneMeta是Bioconductor環(huán)境下的軟件包,實(shí)現(xiàn)了FEM和REM方法, metaMA是R語言環(huán)境下的軟件包,實(shí)現(xiàn)了REM方法和Stouffer方法,metaArray[51]可以整合多組表達(dá)概率 (Probability of expression,POE),而OrderedList[52]、RankProd[13]和RankAggreg[53]三個(gè)軟件包均實(shí)現(xiàn)了基于排序的meta-analysis方法??傮w而言,目前整合基因芯片的meta-analysis工具與流行的芯片處理工具 (如SAM、PAM等) 相比還有待改善,大部分缺乏用戶友好的界面和使用手冊[54],因此優(yōu)化算法并開發(fā)準(zhǔn)確好用的工具在轉(zhuǎn)錄組學(xué)領(lǐng)域仍具有重大價(jià)值。
蛋白質(zhì)組學(xué)起步較晚,數(shù)據(jù)積累有限,且蛋白質(zhì)組數(shù)據(jù)具有特殊性,例如重復(fù)實(shí)驗(yàn)數(shù)目不足,不同蛋白的豐度無法比較等[55],因此單純整合蛋白質(zhì)實(shí)驗(yàn)數(shù)據(jù)的工具或軟件包還很有限,更多的是利用meta-analysis算法整合蛋白質(zhì)數(shù)據(jù)實(shí)現(xiàn)特定功能,例如,PTMeta[56]利用meta-analysis整合質(zhì)譜數(shù)據(jù)不同修飾條件下的搜庫結(jié)果,用于鑒定修飾肽段。Morphinome[57]是一個(gè)蛋白數(shù)據(jù)庫,它利用meta-analysis整合了15組神經(jīng)系統(tǒng)受嗎啡影響后的蛋白表達(dá)數(shù)據(jù),可以進(jìn)行嗎啡影響的預(yù)測;motif-x和scan-x[58]利用meta-analysis整合了不同物種的翻譯后修飾信息,可以用于磷酸化與乙酰化位點(diǎn)預(yù)測。蛋白質(zhì)組學(xué)領(lǐng)域相關(guān)工具的缺乏也為其開發(fā)提出了迫切需求,要更好地分析不斷積累的蛋白質(zhì)組學(xué)數(shù)據(jù),meta-analysis將是重要的研究內(nèi)容。
表1列舉了meta-analysis在不同研究領(lǐng)域有代表性的工具及其功能介紹。
表1 Meta-analysis工具總結(jié)Table 1 Summary of meta-analysis tools
隨著多組學(xué)數(shù)據(jù)的不斷積累,有效地處理數(shù)據(jù)并整合分析將變得越來越重要。與此同時(shí),我們也清醒地認(rèn)識(shí)到meta-analysis尚存在一些待解決的問題。在實(shí)驗(yàn)技術(shù)層面,數(shù)據(jù)質(zhì)量不統(tǒng)一特別是離群數(shù)據(jù)的存在在一定程度上影響了整合結(jié)果,因此在整合數(shù)據(jù)時(shí)不能一味地追求數(shù)據(jù)的完整性,而應(yīng)該建立有效的數(shù)據(jù)評(píng)估機(jī)制,除了在檢索數(shù)據(jù)庫時(shí)選擇準(zhǔn)確有效的關(guān)鍵詞外,還要根據(jù)數(shù)據(jù)的樣本量、實(shí)驗(yàn)平臺(tái)等條件進(jìn)行主觀篩選,并在此基礎(chǔ)上通過求相關(guān)系數(shù)和聚類等方式剔除離群數(shù)據(jù)。Ramasamy等提出整合各數(shù)據(jù)的“可重復(fù)基因” (Reproducible genes)[8]也可以有效緩解數(shù)據(jù)質(zhì)量不一的問題。在方法推廣層面,目前的meta-analysis工具實(shí)用性還很有限,大部分只局限于特定研究,缺乏用戶友好的界面和使用手冊。這對(duì)開發(fā)方便實(shí)用的軟件提出了迫切需求,特別是建立起集成各種方法的通用的meta-analysis整合工作流,不僅利于meta-analysis推廣到更多領(lǐng)域,還能促進(jìn)現(xiàn)有方法的改進(jìn)和新方法的出現(xiàn)。
Meta-analysis正在生命科學(xué)研究中扮演著重要角色。無論是發(fā)展較成熟的基因組學(xué)、轉(zhuǎn)錄組學(xué),還是迅速崛起的蛋白質(zhì)組學(xué),meta-analysis都得到廣泛應(yīng)用并發(fā)揮了巨大價(jià)值。從社會(huì)學(xué)到生物學(xué),從基因組學(xué)到蛋白質(zhì)組學(xué),其發(fā)展經(jīng)歷了一個(gè)不斷推廣到新領(lǐng)域、應(yīng)用于新數(shù)據(jù)的過程。我們有理由預(yù)測,未來要建立集所有組學(xué)的“生命組學(xué)”研究模式,meta-analysis將被推廣到更多新領(lǐng)域,體現(xiàn)越來越大的價(jià)值。
REFERENCES
[1] Smith ML, Glass GV. Meta-analysis of psychotherapy outcome studies. Am Psychol, 1977, 32(9): 752–760.
[2] He F. Lifeomics leads the age of grand discoveries. Sci China Life Sci, 2013, 56(3): 201–212.
[3] Bhargava A, Clabaugh I, To JP, et al. Identification of cytokinin-responsive genes using microarray meta-analysis and RNA-Seq in Arabidopsis. Plant Physiol, 2013, 162(1): 272–294.
[4] Parkinson H, Kapushesky M, Shojatalab M, et al. ArrayExpress--a public database of microarray experiments and gene expression profiles. Nucleic Acids Res, 2007, 35(Database issue): D747–750.
[5] Deutsch EW, Lam H, Aebersold R. PeptideAtlas: a resource for target selection for emerging targeted proteomics workflows. EMBO Rep, 2008, 9(5): 429–434.
[6] Martens L, Hermjakob H, Jones P, et al. PRIDE: the proteomics identifications database. Proteomics, 2005, 5(13): 3537–3545.
[7] Maher B. ENCODE: The human encyclopaedia. Nature, 2012, 489(7414): 46–48.
[8] Ramasamy A, Mondry A, Holmes CC, et al. Key issues in conducting a meta-analysis of gene expression microarray datasets. PLoS Med, 2008, 5(9): e184.
[9] Rhodes DR, Barrette TR, Rubin MA, et al. Meta-analysis of microarrays: interstudy validation of gene expression profiles reveals pathway dysregulation in prostate cancer. Cancer Res, 2002, 62(15): 4427–4433.
[10] Stouffer SA. A study of attitudes. Sci Am, 1949, 180(5): 11–15.
[11] Li J, Tseng GC. An adaptively weighted statistic for detecting differential gene expression when combining multiple transcriptomic studies. Ann App Stat, 2011, 5(2A): 994–1019.
[12] Whitlock MC. Combining probability from independent tests: the weighted Z-method is superior to Fisher's approach. J Evol Biol, 2005, 18(5): 1368–1373.
[13] Hong F, Breitling R, McEntee CW, et al. RankProd: a bioconductor package for detecting differentially expressed genes in meta-analysis. Bioinformatics, 2006, 22(22): 2825–2827.
[14] Hong F, Breitling R. A comparison of meta-analysis methods for detecting differentially expressed genes in microarray experiments. Bioinformatics, 2008, 24(3): 374–382.
[15] Amess B, Kluge W, Schwarz E, et al. Application of meta-analysis methods for identifying proteomic expression level differences. Proteomics, 2013, 13(14): 2072–2076.
[16] Choi JK, Yu U, Kim S, et al. Combining multiple microarray studies and modeling interstudy variation. Bioinformatics, 2003, 19(Suppl 1): i84–90.
[17] Nakaoka H, Inoue I. Meta-analysis of genetic association studies: methodologies, between-study heterogeneity and winner's curse. J Hum Genet, 2009, 54(11): 615–623.
[18] Rhodes DR, Yu J, Shanker K, et al. Large-scale meta-analysis of cancer microarray data identifies common transcriptional profiles of neoplastic transformation and progression. Proc Natl Acad Sci USA, 2004, 101(25): 9309–9314.
[19] Begum F, Ghosh D, Tseng GC, et al. Comprehensive literature review and statistical considerations for GWAS meta-analysis. Nucleic Acids Res, 2012, 40(9): 3777–3784.
[20] Panagiotou OA, Willer CJ, Hirschhorn JN, et al. The power of meta-analysis in genome-wideassociation studies. Annu Rev Genomics Hum Genet, 2013, 14: 441–465.
[21] Thompson JR, Attia J, Minelli C. The meta-analysis of genome-wide association studies. Brief Bioinform, 2011, 12(3): 259–269.
[22] Kaever A, Landesfeind M, Feussner K, et al. Meta-analysis of pathway enrichment: combining independent and dependent omics data sets. PLoS ONE, 2014, 9(2): e89297.
[23] Wang K, Narayanan M, Zhong H, et al. Meta-analysis of inter-species liver co-expression networks elucidates traits associated with common human diseases. PLoS Comput Biol, 2009, 5(12): e1000616.
[24] Mabbott NA, Kenneth Baillie J, Hume DA, et al. Meta-analysis of lineage-specific gene expression signatures in mouse leukocyte populations. Immunobiology, 2010, 215(9/10): 724–736.
[25] Carrera J, Rodrigo G, Jaramillo A, et al. Reverse-engineering the Arabidopsis thaliana transcriptional network under changing environmental conditions. Genome Biol, 2009, 10(9): R96.
[26] Jupiter D, Chen H, VanBuren V. STARNET 2: a web-based tool for accelerating discovery of gene regulatory networks using microarray co-expression data. BMC Bioinformatics, 2009, 10: 332.
[27] Mehan MR, Nunez-Iglesias J, Kalakrishnan M, et al. An integrative network approach to map the transcriptome to the phenome. J Comput Biol, 2009, 16(8): 1023–1034.
[28] Subramanian J, Simon R. Gene expression-based prognostic signatures in lung cancer: ready for clinical use? J Natl Cancer Inst, 2010, 102(7): 464–474.
[29] Nguyen VA, Lio P. Measuring similarity between gene expression profiles: a Bayesian approach. BMC Genomics, 2009, 10(Suppl 3): S14.
[30] Lu S, Li J, Song C, et al. Biomarker detection in the integration of multiple multi-class genomic studies. Bioinformatics, 2010, 26(3): 333–340.
[31] Shen K, Tseng GC. Meta-analysis for pathway enrichment analysis when combining multiple genomic studies. Bioinformatics, 2010, 26(10): 1316–1323.
[32] Subramanian A, Tamayo P, Mootha VK, et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc Natl Acad Sci USA, 2005, 102(43): 15545–15550.
[33] Yang D, Zhong F, Li D, et al. General trends in the utilization of structural factors contributing to biological complexity. Mol Biol Evol, 2012, 29(8): 1957–1968.
[34] Natale M, Bonino D, Consoli P, et al. A meta-analysis of two-dimensional electrophoresis pattern of the Parkinson's disease-related protein DJ-1. Bioinformatics, 2010, 26(7): 946–952.
[35] Rosenberg LH, Franzen B, Auer G, et al. Multivariate meta-analysis of proteomics data from human prostate and colon tumours. BMC Bioinformatics, 2010, 11: 468.
[36] Higdon R, Haynes W, Kolker E. Meta-analysis for protein identification: a case study on yeast data. OMICS, 2010, 14(3): 309–314.
[37] Zhong F, Yang D, Hao Y, et al. Regular patterns for proteome-wide distribution of protein abundance across species. PLoS ONE, 2012, 7(3): e32423.
[38] Nie L, Wu G, Brockman FJ, et al. Integrated analysis of transcriptomic and proteomic data of Desulfovibrio vulgaris: zero-inflated Poisson regression models to predict abundance of undetected proteins. Bioinformatics, 2006, 22(13): 1641–1647.
[39] Kislinger T, Cox B, Kannan A, et al. Global survey of organ and organelle protein expression in mouse: combined proteomic and transcriptomic profiling. Cell, 2006, 125(1): 173–186.
[40] Lv S, Xu Y, Chen X, et al. Prioritizing cancer therapeutic small molecules by integrating multiple OMICS datasets. OMICS, 2012, 16(10): 552–559.
[41] Liu LY, Yang T, Ji J, et al. Integrating multiple'omics' analyses identifies serological protein biomarkers for preeclampsia. BMC Med, 2013, 11(1): 236.
[42] Sass S, Buettner F, Mueller NS, et al. A modular framework for gene set analysis integrating multilevel omics data. Nucleic Acids Res, 2013, 41(21): 9622–9633.
[43] Willer CJ, Li Y, Abecasis GR. METAL: fast and efficient meta-analysis of genomewide association scans. Bioinformatics, 2010, 26(17): 2190–2191.
[44] Purcell S, Neale B, Todd-Brown K, et al. PLINK: a tool set for whole-genome association and population-based linkage analyses. Am J Hum Genet, 2007, 81(3): 559–575.
[45] Qu HQ, Bradfield JP, Li Q, et al. In silico replication of the genome-wide association results of the Type 1 Diabetes Genetics Consortium. Hum Mol Genet, 2010, 19(12): 2534–2538.
[46] Segre AV, Groop L, Mootha VK, et al. Common inherited variation in mitochondrial genes is not enriched for associations with type 2 diabetes or related glycemic traits. PLoS Genet, 2010, 6(8): 264–268.
[47] Viechtbauer W. Conducting Meta-Analyses in R with the metafor Package. J Stat Softw, 2010, 36(3): 1–48.
[48] Pendergrass SA, Dudek SM, Crawford DC, et al. Synthesis-View: visualization and interpretation of SNP association results for multi-cohort, multi-phenotype data and meta-analysis. BioData Min, 2010, 3: 10.
[49] Li MX, Jiang L, Kao PY, et al. IGG3: a tool to rapidly integrate large genotype datasets for whole-genome imputation and individual-level meta-analysis. Bioinformatics, 2009, 25(11): 1449–1450.
[50] Magi R, Morris AP. GWAMA: software for genome-wide association meta-analysis. BMC Bioinformatics, 2010, 11: 288.
[51] Choi H, Shen R, Chinnaiyan AM, et al. A latent variable approach for meta-analysis of gene expression data from multiple microarray experiments. BMC Bioinformatics, 2007, 8: 364.
[52] Lottaz C, Yang X, Scheid S, et al. OrderedList--a bioconductor package for detecting similarity in ordered gene lists. Bioinformatics, 2006, 22(18): 2315–2316.
[53] Pihur V, Datta S. RankAggreg, an R package for weighted rank aggregation. BMC Bioinformatics, 2009, 10: 62.
[54] Tseng GC, Ghosh D, Feingold E. Comprehensive literature review and statistical considerations for microarray meta-analysis. Nucleic Acids Res, 2012, 40(9): 3785–3799.
[55] Cox J, Mann M. MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nat Biotechnol, 2008, 26(12): 1367–1372.
[56] Nahnsen S, Sachsenberg T, Kohlbacher O. PTMeta: increasing identification rates of modified peptides using modification prescanning and meta-analysis. Proteomics, 2013, 13(6): 1042–1051.
[57] Bodzon-Kulakowska A, Kulakowski K, Drabik A, et al. Morphinome--a meta-analysis applied to proteomics studies in morphine dependence. Proteomics, 2011, 11(1): 5–21.
[58] Schwartz D, Chou MF, Church GM. Predicting protein post-translational modifications using meta-analysis of proteome scale data sets. Mol Cell Proteomics, 2009, 8(2): 365–379.
[59] Chen Z, Wang W, Ling XB, et al. GO-Diff: mining functional differentiation between EST-based transcriptomes. BMC Bioinformatics, 2006, 7: 72. [60] Pan F, Kamath K, Zhang K, et al. Integrative Array Analyzer: a software package for analysis of cross-platform and cross-species microarray data. Bioinformatics, 2006, 22(13): 1665–1667.
(本文責(zé)編 郝麗芳)
Applications of meta-analysis in multi-omics
Mingfei Han, and Yunping Zhu
Beijing Proteome Research Center, State Key Lab oratory of Proteomics, National Engineering Res earch Center for Protein Drugs, National Center for Protein Sciences Beijing, Beijing Institute of Radiation Medicine, Beijing 102206, China
As a statistical method integrating multi-features and multi-data, meta-analysis was introduced to the field of life science in the 1990s. With the rapid advances in high-throughput technologies, life omics, the core of which are genomics, transcriptomics and proteomics, is becoming the new hot spot of life science. Although the fast output of massivedata has promoted the development of omics study, it results in excessive data that are difficult to integrate systematically. In this case, meta-analysis is frequently applied to analyze different types of data and is improved continuously. Here, we first summarize the representative meta-analysis methods systematically, and then study the current applications of meta-analysis in various omics fields, finally we discuss the still-existing problems and the future development of meta-analysis.
meta-analysis, genomics, transcriptomics, proteomics
April 2, 2014; Accepted: May 13, 2014
Yunping Zhu. Tel/Fax: +86-10-80705225; E-mail: zhuyunping@gmail.com
韓明飛, 朱云平. Meta-analysis在多種組學(xué)領(lǐng)域的應(yīng)用. 生物工程學(xué)報(bào), 2014, 30(7): 1094?1104.
Han MF, Zhu YP. Applications of meta-analysis in multi-omics. Chin J Biotech, 2014, 30(7): 1094?1104.
Supported by: National Basic Research Program of China (973 Program) (Nos. 2011CB910600, 2010CB912700, 2013CB911200), National High Technology Research and Development Program of China (863 Program) (Nos. 2012AA020409, 2012AA020201), National Natural Science Foundation of China (Nos. 21105121, 21275160), National Natural Science Foundation of Beijing (No. 5122013).
國家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃 (973計(jì)劃) (Nos. 2011CB910600,2010CB912700,2013CB911200),國家高技術(shù)研究發(fā)展計(jì)劃 (863計(jì)劃) (Nos. 2012AA020409, 2012AA020201),國家自然科學(xué)基金 (Nos. 21105121, 21275160),北京市自然科學(xué)基金 (No. 5122013)資助。