張 弛 董浩如 徐 騫 厲秀純 陳馬云
肺動(dòng)脈高壓(pulmonary artery hypertension,PAH)是一種以肺血管收縮和重塑為特征的進(jìn)展性疾病,病死率高[1]。目前PAH的發(fā)病機(jī)制尚未明確,同時(shí),臨床上治療PAH的藥物療效不佳[2]。隨著2001 年人類基因組計(jì)劃的完成、后基因組時(shí)代高通量技術(shù)的快速發(fā)展,生物信息學(xué)技術(shù)已經(jīng)成為研究疾病必不可少的一樣工具[3]。目前生物信息學(xué)技術(shù)在PAH研究中逐漸被應(yīng)用,各種高通量技術(shù)、在線數(shù)據(jù)庫以及相關(guān)軟件是研究過程中必不可少的。其中GEO(Gene Expression Omnibus, http:∥www.ncbi.nlm.nih.gov/geo)數(shù)據(jù)庫是當(dāng)今最大的、最全面的公共基因表達(dá)數(shù)據(jù)庫之一,通過高通量技術(shù)以及公共數(shù)據(jù)庫的挖掘,大量的研究成果被報(bào)道。本文就生物信息學(xué)技術(shù)在PAH研究中的應(yīng)用現(xiàn)狀做一綜述,為今后對(duì)PAH發(fā)病機(jī)制及靶向治療的研究提供新思路。
當(dāng)前,各種高通量組學(xué)和生物信息學(xué)技術(shù)已被廣泛的用于尋找疾病相關(guān)基因。在PAH研究中,研究人員通過挖掘公共數(shù)據(jù)庫,在mRNA、lncRNA、miRNA等水平鑒定出許多的生物學(xué)標(biāo)志物。例如Wang等[4]基于PAH數(shù)據(jù)集(GSE703)進(jìn)行了加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(weighted gene co-expression network analysis,WGCNA),篩選出與PAH相關(guān)性最強(qiáng)的2個(gè)模塊中前10位hub基因,其中變化最大的為YWHAB,其在肺動(dòng)脈高壓患者血清中高表達(dá),并與患者的肺動(dòng)脈壓力呈正比,而后使用RT-PCR進(jìn)行驗(yàn)證,證實(shí)了YWHAB可作為PAH的生物學(xué)標(biāo)志物和治療靶點(diǎn)。Sun等[5]分析了PAH小鼠數(shù)據(jù)集(GSE49114),鑒定出了77個(gè)上調(diào)和520個(gè)下調(diào)的差異表達(dá)基因,而后進(jìn)行了基因本體論和信號(hào)通路富集分析,最后發(fā)現(xiàn)Smad9、BMPR2、Eng和IL-4參與了PAH的發(fā)展,但本研究鑒定出的PAH相關(guān)生物學(xué)標(biāo)志物并未在人類樣本中得到驗(yàn)證。
在lncRNA水平上,Gu等[6]利用隨機(jī)方差模型篩選出PAH患者肺組織內(nèi)的差異表達(dá)基因后,通過構(gòu)建共表達(dá)網(wǎng)絡(luò)發(fā)現(xiàn)NR-036693、NR-027783、NR-033766、NR-001284發(fā)生了明顯改變,從而推斷這4個(gè)lncRNA在肺動(dòng)脈高壓的發(fā)生、發(fā)展過程中起到了重要的作用。Han等[7]聯(lián)合mRNA與lncRNA分析,得出2.511個(gè)差異表達(dá)的lncRNA和1169個(gè)差異表達(dá)的mRNA。其中上調(diào)的lncRNA有2004個(gè),下調(diào)的lncRNA有507個(gè);上調(diào)的mRNA有609個(gè),下調(diào)的mRNA有560個(gè)。進(jìn)一步通過富集分析,推斷下調(diào)的lncRNA可能參與PAH形成,此外差異表達(dá)的lncRNA可作為PAH診斷標(biāo)志物。此外也有miRNA作為PAH生物學(xué)標(biāo)志物的研究被報(bào)道:Zhu等[8]通過公共數(shù)據(jù)挖掘,發(fā)現(xiàn)PAH大鼠模型中miR-140-5p下調(diào),進(jìn)一步實(shí)驗(yàn)證明上調(diào)的miR-140-5p可以通過靶向抑制TNF-α來緩解肺動(dòng)脈高壓的進(jìn)展,因此,miR-140-5p可以作為PAH的診斷及治療靶點(diǎn)。另外有研究通過對(duì)miRNA芯片數(shù)據(jù)進(jìn)行差異分析及功能注釋,發(fā)現(xiàn)miR-1183在風(fēng)濕性心臟病并發(fā)肺動(dòng)脈高壓患者中過表達(dá),并參與了肺動(dòng)脈的重構(gòu)[9]。以上研究結(jié)果表明生物信息學(xué)技術(shù)在尋找疾病標(biāo)志物方面具有極大優(yōu)勢(shì)。
由Salmena等[10]提出的競爭性內(nèi)源性RNA假說闡明了編碼RNA和非編碼RNA的相互作用在疾病的產(chǎn)生和發(fā)展過程中起到了重要作用,并且得到了大量的實(shí)驗(yàn)證明。然而,低通量的實(shí)驗(yàn)方法在構(gòu)建與疾病相關(guān)的ceRNA網(wǎng)絡(luò)時(shí),具有成本高、效率低的缺點(diǎn),而生物信息學(xué)技術(shù)恰好能彌補(bǔ)其不足。目前有許多通過生物信息學(xué)技術(shù)構(gòu)建PAH相關(guān)ceRNA網(wǎng)絡(luò)的研究被報(bào)道。Wang等[11]使用高通量芯片在PAH小鼠肺組織中鑒定出12個(gè)差異表達(dá)的circRNA,選擇其中差異最大的兩個(gè)circRNA(mmu_circRNA_004592 和mmu_circRNA_018351),利用了TargetScan與miRanda在內(nèi)的多種生物信息學(xué)工具預(yù)測(cè)了靶向miRNA與Mrna,使用了Cytoscape軟件構(gòu)建了ceRNA網(wǎng)絡(luò),結(jié)果顯示這些差異circRNA可作為PAH的診斷和治療靶點(diǎn)。
另有研究結(jié)合差異的miRNA與circRNA來構(gòu)建ceRNA網(wǎng)絡(luò),如Miao等[12]應(yīng)用高通量技術(shù),在PAH患者外周血液中檢測(cè)到了212個(gè)差異表達(dá)的miRNA和61個(gè)差異表達(dá)的circRNA,而后構(gòu)建了miRNA-circRNA調(diào)控網(wǎng)絡(luò),發(fā)現(xiàn)hsa_circ_004615可作為miR-1226-3p“海綿”來調(diào)控ATP2A2的表達(dá),進(jìn)而影響肺動(dòng)脈高壓的發(fā)生、發(fā)展。此外,也有研究通過建立PAH相關(guān)的lncRNA-gene-miRNA互作網(wǎng)絡(luò)來闡明PAH發(fā)生、發(fā)展的潛在機(jī)制,研究結(jié)果顯示基于PDGFRB和HIF-1α的ceRNA網(wǎng)絡(luò)(miRNAs-PDGFRB-lncRNAs和miRNAs-HIF-1α-lncRNAs)在PAH發(fā)展過程中起到了關(guān)鍵的作用[13]。Zhuo等[14]通過分析587例PAH患者和736例健康對(duì)照組外周血的單核苷酸多態(tài)性,發(fā)現(xiàn)lncRNA MALAT1中rs619586A>G單核苷酸多態(tài)性與PAH形成的相關(guān)性最高,進(jìn)一步分析表明,變異的MALAT1可作為miR-214的“海綿”進(jìn)而影響XBP1的表達(dá),對(duì)PAH的形成有保護(hù)作用。也有研究通過不同的算法模型來構(gòu)建ceRNA網(wǎng)絡(luò),如Feng等[15]構(gòu)建了一種新的算法模型——ce-Subpathway,在PAH數(shù)據(jù)集(GSE33463)中確定了31個(gè)由ceRNA介導(dǎo)的功能子通路,進(jìn)一步的分析結(jié)果發(fā)現(xiàn)miR-30家族在EP300和JUN、CREBBP和TCF7L2、FBXW11和EP300的ceRNA機(jī)制中有顯著的調(diào)控作用。
綜上所述,研究人員主要是通過生物信息學(xué)工具,預(yù)測(cè)RNA之間的靶向調(diào)控關(guān)系來構(gòu)建ceRNA相關(guān)網(wǎng)絡(luò),而后通過富集分析、生存分析、分子生物學(xué)實(shí)驗(yàn)等驗(yàn)證其在疾病中的調(diào)控作用,生物信息學(xué)技術(shù)在其中發(fā)揮了重要的作用。
網(wǎng)絡(luò)藥理學(xué)是一門用于闡述疾病發(fā)生、發(fā)展,探究藥物機(jī)體相互作用的新興學(xué)科,在闡明疾病發(fā)生機(jī)制與中藥藥理學(xué)機(jī)制發(fā)揮了巨大的作用,現(xiàn)如今也有許多在線數(shù)據(jù)庫被開發(fā)和應(yīng)用,然而,目前網(wǎng)絡(luò)藥理學(xué)主要應(yīng)用于癌癥等領(lǐng)域的研究,在PAH領(lǐng)域只有少數(shù)研究被報(bào)道。如Chen等[16]研究顯示,利用網(wǎng)絡(luò)藥理學(xué)方法,挖掘出染料木黃酮作用的靶點(diǎn),通過構(gòu)建蛋白互作網(wǎng)絡(luò)和富集分析,發(fā)現(xiàn)該藥物的抗PAH作用與凋亡信號(hào)通路和一氧化氮合成過程密切相關(guān),接著通過分子對(duì)接模擬,發(fā)現(xiàn)染料木黃酮可與過氧化物酶體增殖物激活受體γ(PPARγ)直接作用,發(fā)揮抗肺動(dòng)脈高壓的作用。也有研究結(jié)合在線數(shù)據(jù)庫cMap(Connectivity Map)與表達(dá)譜數(shù)據(jù),進(jìn)行差異分析與功能注釋,發(fā)現(xiàn)活性氧的形成可能參與PAH的發(fā)生、發(fā)展,隨后作者將差異基因分為上調(diào)與下調(diào)兩組,通過在線數(shù)據(jù)庫的檢索,鑒定出了許多可抑制活性氧產(chǎn)生的藥物[17]。但是,目前被報(bào)道的研究都缺乏體內(nèi)外實(shí)驗(yàn)的驗(yàn)證,因此通過網(wǎng)絡(luò)藥理學(xué)研究獲得的藥物需要通過進(jìn)一步的細(xì)胞、動(dòng)物實(shí)驗(yàn)以及大規(guī)模人群的隨機(jī)對(duì)照實(shí)驗(yàn)來確定其臨床療效。
蛋白質(zhì)組學(xué)是對(duì)一個(gè)細(xì)胞或一種組織中全部蛋白質(zhì)進(jìn)行大規(guī)模分析的一門新興學(xué)科,在多種疾病的研究中發(fā)揮了較大的作用。蛋白質(zhì)組學(xué)在PAH領(lǐng)域研究已有多年,多種質(zhì)譜(MS)分析方法被開發(fā)用于尋找PAH相關(guān)的生物學(xué)標(biāo)志物,如在2006年便有文章報(bào)道:通過SELDI-TOF MS對(duì)PAH患者血液樣本進(jìn)行分析,鑒定出234個(gè)差異蛋白,進(jìn)一步通過多因素回歸分析發(fā)現(xiàn)質(zhì)荷比為8600的離子是最有效的PAH候選生物學(xué)標(biāo)志物[18]。
近年來蛋白組學(xué)方法在揭示PAH潛在發(fā)病機(jī)制中也得到了廣泛的應(yīng)用,Meyrick等[19]通過2D-DIGE/MS分析PAH患者血清,得到了9個(gè)上調(diào)蛋白,7個(gè)下調(diào)蛋白,進(jìn)一步的分析發(fā)現(xiàn)其中一個(gè)蛋白Grb2參與BMPR2受體的信號(hào)轉(zhuǎn)導(dǎo),進(jìn)而影響家族性肺動(dòng)脈高壓的發(fā)生、發(fā)展。此外,Xu等[20]使用LC-MS/MS,取4例PAH患者及5例健康對(duì)照的肺組織,進(jìn)行了全局蛋白組學(xué)及磷蛋白組學(xué)分析,結(jié)果顯示有170個(gè)蛋白和240個(gè)磷酸肽差異表達(dá),其中45個(gè)蛋白和18個(gè)磷酸肽位于線粒體中,表明線粒體相關(guān)代謝途徑的改變參與PAH的發(fā)生、發(fā)展。至于評(píng)價(jià)藥物的治療效果,Yao等[21]通過檢測(cè)加藥動(dòng)物模型相關(guān)蛋白表達(dá),結(jié)合進(jìn)一步的表型實(shí)驗(yàn),證明了osthole具有治療PAH的作用。YEAGER等[22]研究了8例經(jīng)擴(kuò)血管治療后預(yù)后良好患者和7例預(yù)后不良患者的血漿蛋白的差異水平,發(fā)現(xiàn)SAA-4在預(yù)后良好的患者中降低了4倍,在預(yù)后不良的患者中升高了2倍;paraoxonase/arylesterase-1在預(yù)后良好的患者中升高了2倍;在預(yù)后良好的患者中,SAP比治療前降低了1.3倍;預(yù)后不良患者治療后,結(jié)合珠蛋白和血凝蛋白分別降低了1.45和1.80倍。這些結(jié)果表明這些血漿蛋白可以作為評(píng)價(jià)PAH擴(kuò)血管治療預(yù)后的指標(biāo)??傊鞍踪|(zhì)組學(xué)在PAH研究中較早便得到了應(yīng)用,近年來發(fā)表的研究較少,但其涉及了PAH相關(guān)生物學(xué)標(biāo)志物、PAH發(fā)病機(jī)制以及藥物療效評(píng)價(jià)等各個(gè)方面,應(yīng)用較為廣泛。
當(dāng)前針對(duì)表觀遺傳學(xué)的研究包括了DNA甲基化、組蛋白修飾以及染色質(zhì)重塑等,在已發(fā)表的研究中,利用生物信息學(xué)技術(shù)研究PAH的表觀遺傳學(xué)主要體現(xiàn)在DNA甲基化。如Wang等[23]利用高通量技術(shù)在肺動(dòng)脈平滑肌細(xì)胞中檢測(cè)到6829個(gè)DNA甲基化差異位點(diǎn),其中高甲基化位點(diǎn)4246個(gè),低甲基化位點(diǎn)2583個(gè),將差異的甲基化位點(diǎn)進(jìn)行基因功能與信號(hào)通路的富集分析,發(fā)現(xiàn)這些基因參與了細(xì)胞增殖、凋亡與遷移等生物學(xué)過程。篩選未被報(bào)道的3個(gè)基因(PIK3CA、HRAS和HIC1),使用焦磷酸測(cè)序來驗(yàn)證其上游啟動(dòng)子區(qū)甲基化水平,發(fā)現(xiàn)HIC1甲基化水平顯著升高,而PIK3CA和HRAS甲基化水平顯著降低,而后通過RT-PCR進(jìn)一步驗(yàn)證了相對(duì)應(yīng)的mRNA的表達(dá)。
有研究通過檢測(cè)啟動(dòng)子區(qū)CpG島,發(fā)現(xiàn)在不同病因PAH患者的肺動(dòng)脈內(nèi)皮細(xì)胞中部分基因的甲基化程度不同,通過主成分分析驗(yàn)證了不同病因PAH甲基化基因譜的差別,而后作者通過對(duì)編碼轉(zhuǎn)運(yùn)蛋白的46個(gè)基因進(jìn)行Meta分析與富集分析,發(fā)現(xiàn)ABCA1甲基化水平差異最明顯,其參與調(diào)控了脂代謝,最后qPCR的結(jié)果證實(shí)了PAH患者肺組織中相應(yīng)mRNA表達(dá)下調(diào)[24]。除此之外,有研究僅通過人類甲基化芯片,鑒定出風(fēng)濕性心臟病并發(fā)肺動(dòng)脈高壓患者血液中共有40個(gè)低甲基化位點(diǎn)與64個(gè)高甲基化位點(diǎn),但缺少了進(jìn)一步實(shí)驗(yàn)的驗(yàn)證,而后此研究進(jìn)行了富集分析,結(jié)果顯示蛋白激酶/轉(zhuǎn)移酶活性發(fā)生了變化,這些發(fā)現(xiàn)可以給相關(guān)基礎(chǔ)研究人員提供新的思考方向[25]??傮w而言,利用生物信息學(xué)對(duì)PAH表觀遺傳學(xué)研究主要集中于DNA甲基化,其他方面如乙?;?,主要通過細(xì)胞動(dòng)物實(shí)驗(yàn)直接探究其在PAH發(fā)生、發(fā)展中的作用,生物信息學(xué)技術(shù)應(yīng)用較少。
隨著各種高通量技術(shù)的快速發(fā)展,疾病研究已經(jīng)進(jìn)入了大數(shù)據(jù)整合分析的時(shí)代。通過利用各種芯片技術(shù)、測(cè)序技術(shù)以及各種在線數(shù)據(jù)庫,研究人員完成了許多關(guān)于PAH發(fā)生、發(fā)展機(jī)制的研究,也鑒定出大量PAH相關(guān)的生物學(xué)標(biāo)志物。然而,目前針對(duì)PAH的分析主要集中在某一特定組學(xué)以及單個(gè)數(shù)據(jù),存在樣本量少、可重復(fù)性差的問題,而整合多組學(xué)數(shù)據(jù)以及聯(lián)合多數(shù)據(jù)集分析在癌癥領(lǐng)域已經(jīng)得到了廣泛的應(yīng)用,雖然已經(jīng)開發(fā)出許多相關(guān)的算法、工具,但是多組學(xué)數(shù)據(jù)與多數(shù)據(jù)集的集成仍存在一定的誤差。在未來,不斷優(yōu)化的算法以及不斷更新的生物信息學(xué)技術(shù)可以幫助科研人員整合多維度的數(shù)據(jù),尋找更加可靠的生物學(xué)標(biāo)志物,推動(dòng)相關(guān)分子機(jī)制的研究,最后可以更好地實(shí)現(xiàn)對(duì)PAH患者進(jìn)行準(zhǔn)確的診斷和個(gè)體化的靶向治療。