李召水,王光靜,喬友進,生偉,黃強,池一凡
(1 青島大學附屬青島市海慈醫(yī)院心外科,山東 青島 266033;2 青島大學附屬青島市市立醫(yī)院心外科)
心血管疾病是目前世界上人類死亡的主要原因之一。冠心病(CHD)是最常見的一種心血管疾病,在全球范圍內(nèi)每年導致超過700萬人死亡[1]。2014年的一項研究顯示,近1/5的男性和1/10的女性死于CHD[2-4]。據(jù)估計,未來20年CHD患病率將增加約10%[5]。CHD已成為威脅人類健康的重要疾病之一,對CHD發(fā)病機制及有效療法的研究和探索從未停止。CHD的主要危險因素包括血脂異常、糖尿病、動脈硬化、肥胖、吸煙、久坐的生活方式、壓力、年齡、男性和家族病史等[6],但其具體發(fā)病機制尚不完全清楚。既往研究顯示,遺傳因素在心血管疾病的發(fā)生過程中發(fā)揮了極大的作用[7]。CHD發(fā)生的生物學機制有多種,其中研究較為清楚的為炎癥反應,炎癥反應失調(diào)是CHD發(fā)生的一種潛在的生物學機制[8]。相關研究表明,基因表達差異,尤其是炎癥調(diào)控相關基因表達異常與CHD的發(fā)生緊密關聯(lián)[9]。除了炎癥異常調(diào)控外,還有其他因素的變化參與CHD的發(fā)生。本研究旨在通過對GEO數(shù)據(jù)庫中CHD發(fā)生的基因表達譜進行生物信息學分析,揭示與CHD疾病發(fā)生相關的生物學過程及信號通路,為進一步闡明CHD的發(fā)病機制提供有價值的信息,并為CHD的診斷、治療提供新的思路。
CHD樣本的基因表達芯片來自GEO數(shù)據(jù)庫(http://www.ncbi.nlm.nih.gov/geo/)[10-12]。以“Coronary Heart Disease”為關鍵詞在GEO數(shù)據(jù)庫中進行檢索,最終在210個相關數(shù)據(jù)集中選取2個來自Affymetrix Human Genome U133 Plus 2.0 Array分析平臺的基因集GSE71226及GSE19339,共包含7個CHD樣本和7個正常樣本的表達矩陣。
下載原始數(shù)據(jù),采用R語言(affy,limma包)對其進行噪聲去除、分位數(shù)歸一化等處理,然后篩選CHD組和正常對照組的DEGs。篩選DEGs的閾值設定為P值<0.05,且|log2(Fold change)|≥1。最后,采用R語言(pheatmap包)對基于mRNA表達水平的組樣本進行可視化層次聚類分析。
通過Draw Venn Diagram線上數(shù)據(jù)庫(http://bioinformatics.psb.ugent.be/webtools/Venn/)對GSE71226和GSE19339數(shù)據(jù)集中的co-DEGs進行分析[13-15]。將待分析基因列表上傳到數(shù)據(jù)庫,即可顯示維恩圖及相關共有基因列表。
GO注釋分析通常用于大規(guī)模轉(zhuǎn)錄組數(shù)據(jù)的功能研究。KEGG(Kyoto Encyclopedia of Genes and Genomes)包含了多種生物化學通路。將待分析基因列表上傳至DAVID生物信息學資源6.8數(shù)據(jù)庫(https://david.ncifcrf.gov/)[16-17],即可顯示GO及 KEGG分析結(jié)果,將其下載為文本文件。最后,通過R語言(ggplot2包)可視化GO結(jié)果。
將特定規(guī)格的矩陣表格加載到GSEA_4.0.2軟件,通過GSEA online進行可視化即可完成GSEA分析[18-19]。DEGs途徑富集的閾值為P值<0.01。
DEGs的蛋白質(zhì)相互作用(PPI)網(wǎng)絡分析通過STRING (https://string-db.org/)在線分析軟件完成[19-20]。將基因列表上傳到多個蛋白質(zhì)分析菜單欄,稍后即可顯示PPI結(jié)果。最后用Cytoscape軟件將具體的網(wǎng)絡圖可視化。
取青島市市立醫(yī)院心臟外科10例50~80歲CHD病人和10例同齡健康人的外周血樣本,使用高效血液總RNA提取試劑盒(天根生化科技(北京)有限公司,Lot#DP443)提取總RNA。用Oligo(dT)引物(Takara,cat#3806,Lot#T2301AA)在65 ℃條件下退火5 min得到mRNA,用RevertAid逆轉(zhuǎn)錄酶(Thermo Scientific,#EP0441)和dNTP混合物(Takara,Cat#4019,Lot#AI11312A)進行逆轉(zhuǎn)錄得到cDNA模板。最后使用PowerTrack SYBR Green Master Mix(Thermo Scientific,#4367659)及基因特異性引物進行RT-qPCR,檢測目的基因的相對mRNA水平。引物序列見表1。
表1 RT-qPCR引物序列
從GEO數(shù)據(jù)庫中收集了7例CHD病人和7例正常對照者的mRNA表達譜。根據(jù)|log2(Foldchange)|≥1、P值<0.05的篩選條件,GSE71226數(shù)據(jù)集中共鑒定出2 262個DEGs,其中包含上調(diào)基因694個及下調(diào)基因1 568個(圖1A);GSE19339數(shù)據(jù)集中共鑒定出537個DEGs,其中包含上調(diào)基因263個及下調(diào)基因274個(圖1B)。對這些DEGs進行熱圖聚類分析結(jié)果顯示,CHD組和正常對照組的基因表達模式差異顯著(圖1C、D)。
由于樣本來源不同(GSE71226數(shù)據(jù)集中樣本來自CHD病人和正常人的外周血;GSE19339數(shù)據(jù)集中樣本分別來自經(jīng)皮冠狀動脈介入治療的CHD病人冠狀動脈閉塞部位的血管和正常人外周血),兩個數(shù)據(jù)集中分析得到的DEGs具有一定差別。而且,兩個數(shù)據(jù)集中病人信息極少,故無法分析年齡、性別和病史對CHD DEGs的影響。
A、B分別為火山圖顯示GSE71226和GSE19339數(shù)據(jù)集中CHD的DEGs。紅色的點代表表達上調(diào)基因,綠色的點代表表達下調(diào)基因;垂直黑線分別為上下2.0倍,水平黑線表示P值為0.05(雙尾不配對t檢驗)。C、D分別為熱圖顯示GSE71226和GSE19339數(shù)據(jù)集中CHD病人與正常人的DEGs分布。紅色條碼代表CHD病人表達上調(diào)的基因,藍色條碼代表CHD病人表達下調(diào)的基因;右側(cè)統(tǒng)計圖為上調(diào)基因(上)和下調(diào)基因(下)的平均相對表達水平,經(jīng)t檢驗顯示差異有統(tǒng)計學意義。
為了較為精確地研究CHD的DEGs,本研究分析了GSE71226和GSE19339兩個數(shù)據(jù)集中的co-DEGs。結(jié)果篩選得到兩個數(shù)據(jù)集中共同上調(diào)基因8個及共同下調(diào)基因114個,共計122個co-DEGs。見圖2。兩個數(shù)據(jù)集中大部分co-DEGs均為表達下調(diào)基因,提示這些共同下調(diào)基因可能是CHD發(fā)病的關鍵基因。
GSE71226和GSE19339數(shù)據(jù)集中共同上調(diào)基因(左)與共同下調(diào)基因(右)的Venn重疊圖,二者交集中的數(shù)字即為co-DEGs數(shù)目。UG:上調(diào)基因;DG:下調(diào)基因。
為了闡明DEGs的生物學功能,對以上122個co-DEGs進行了GO富集分析。結(jié)果顯示,CHD中大多數(shù)的co-DEGs參與的生物學過程(biological process)為mRNA加工和剪接調(diào)控、細胞內(nèi)轉(zhuǎn)錄調(diào)控(圖3A);co-DEGs所屬的細胞成分(cell components)為核質(zhì)、細胞核和細胞質(zhì)(圖3B);其分子功能(molecular functions)主要為poly(A)RNA結(jié)合、蛋白結(jié)合、DNA結(jié)合(圖3C)。KEGG富集分析顯示,大多數(shù)co-DEGs顯著富集的信號通路為剪接體(圖3D)。以上分析結(jié)果表明,CHD的發(fā)生與細胞整體蛋白質(zhì)表達調(diào)控紊亂或RNA剪接紊亂具有重要關聯(lián)。
為了進一步分析CHD DEGs可能參與的信號通路,本研究對其進行了GSEA分析。結(jié)果顯示,兩個GEO數(shù)據(jù)集中DEGs共同低表達的基因富集的信號通路為mRNA過程的調(diào)節(jié)及DNA損傷修復(DNA damage repair)(圖4)。表明CHD發(fā)生過程中,涉及mRNA調(diào)節(jié)過程及DNA損傷修復途徑的相關基因表達水平下降。GSEA分析結(jié)果與GO分析結(jié)果相一致。
為了篩選CHD的關鍵DEGs,本研究對122個co-DEGs進行了PPI分析。結(jié)果顯示,兩個數(shù)據(jù)集共同下調(diào)的基因大部分處于PPI網(wǎng)絡中間,而共同上調(diào)的基因則處于網(wǎng)絡邊緣。其中,位于PPI網(wǎng)絡中心的基因分別為LUC7L3、HNRNPA1、SF3B1、ARGLU1、SRSF5、SRSF11、SREK1、PNISR、DIDO1、ZRSR2及NKTR(圖5)。提示這些基因的異常低表達可能在CHD的發(fā)生過程中發(fā)揮了重要作用。
A、B、C分別為GO分析的biological process、cell components和molecular function;D為KEGG分析。條形圖右邊的數(shù)字表示每一項的基因數(shù)量。
GSE19339(A)和GSE71226(B)數(shù)據(jù)集中共同低表達的基因富集的信號通路。
篩選出的11個關鍵DEGs在CHD中均顯著低表達(圖6)。GO分析結(jié)果顯示,這些關鍵DEGs涉及的生物學過程為DNA轉(zhuǎn)錄和RNA剪接體調(diào)控(表2)。表明CHD的發(fā)生與RNA剪接異常調(diào)控具有重要關系。
表2 CHD關鍵DEGs參與的生物學過程
分別收集10例CHD病人及10例正常人的外周血,對篩選出的關鍵DEGs的表達水平進行了RT-qPCR驗證。結(jié)果顯示,CHD病人外周血中這些DEGs的表達水平均較正常人顯著下調(diào)。見表3。
表3 RT-qPCR驗證CHD關鍵DEGs的表達
盡管對CHD進行了40多年的基礎和臨床研究,但其具體發(fā)病機制仍不完全清楚。通過分析CHD發(fā)生過程中涉及的生物學途徑,增加對CHD發(fā)病機制的了解,可為CHD的臨床治療及預后判斷提供新思路。
剪接體被證明是一種蛋白質(zhì)定向金屬酶[21]。作為真核細胞中最復雜的調(diào)控機制之一,剪接體從初級轉(zhuǎn)錄本中去除內(nèi)含子序列,生成功能性mRNA和長鏈非編碼RNA(lncRNA)[22],這一過程稱為選擇性剪接。選擇性剪接是一個動態(tài)且受調(diào)控的生物學過程,受到一系列變量的影響,如順式調(diào)控序列和反式作用因子、轉(zhuǎn)錄過程和DNA/RNA的甲基化等[23-24]。多項研究表明,異常可變剪接與人類疾病有關,它既可能是疾病的發(fā)生原因,也可能是疾病造成的結(jié)果[25]。有研究結(jié)果表明,參與剪接體正常功能的基因突變被認為是脊髓性肌萎縮、色素性視網(wǎng)膜炎和普瑞德-威利綜合征等的關鍵因素[26-28]。然而,剪接因子中導致人類心臟病變的突變并不多見。到目前為止,只有剪接因子RNA結(jié)合基序蛋白20(RBM20)的突變被證實與心臟病有因果關系[29-31]。此外,相關研究結(jié)果表明,與RNA剪接相關基因在心臟病中異常表達。例如,剪切因子SF3B1在患病的人和小鼠心臟中均表達上調(diào)[32],Rbfox1基因在人類和小鼠心臟中表達下調(diào)[33]。然而,CHD病人中DEGs一直未被明確闡述。
本研究分析了GEO數(shù)據(jù)庫的GSE71226和GSE19339數(shù)據(jù)集中CHD病人的基因表達數(shù)據(jù),擬篩選與CHD發(fā)生密切相關的DEGs,探討CHD基因水平的發(fā)病機制。結(jié)果顯示,1.118%~2.954%(GSE71226:2.954%;GSE19339:1.118%)的基因表達水平上調(diào),同時有1.165%~6.667%(GSE71226:6.667%;GSE19339:1.165%)的基因表達水平下調(diào),表明CHD的發(fā)生與細胞中基因表達的變化密切相關。由于樣本來源和各微陣列平臺研究都存在差別,綜合分析各種微陣列數(shù)據(jù)集可以獲得更為準確的結(jié)果,故選擇了兩個數(shù)據(jù)集中8個共同表達上調(diào)基因及114個共同表達下調(diào)基因進行進一步分析。GO注釋分析結(jié)果表明,這些DEGs參與了DNA轉(zhuǎn)錄和mRNA剪接調(diào)控,提示CHD的發(fā)生與細胞中RNA剪接紊亂有關。選擇性剪接是一種可實質(zhì)上改變基因表達模式的轉(zhuǎn)錄后機制。高達95%的人類基因具有多外顯子可變剪接形式,表明可變剪接是人類基因組功能復雜性的最重要組成部分之一。本研究結(jié)果表明,大部分的CHD DEGs是可變剪接相關的基因,提示可變剪接調(diào)控在心臟病的研究中應受到更多的重視。
紅圈表示上調(diào)的基因,藍圈表示下調(diào)的基因。
GSE71226(A)和GSE19339(B)數(shù)據(jù)集中關鍵DEGs相對于正常人的表達水平,P值顯示在相應的條形圖上面。
在DEGs調(diào)控網(wǎng)絡中,表達下調(diào)的LUC7L3、HNRNPA1、SF3B1、ARGLU1、SRSF5、SRSF11、SREK1、PNISR、DIDO1、ZRSR2和NKTR位于網(wǎng)絡控制中心,且均為DNA轉(zhuǎn)錄和RNA剪接調(diào)控相關基因。既往研究表明,LUC7L3通過RE和RS域參與了剪接體的形成,在心臟鈉通道剪接調(diào)節(jié)人類心力衰竭中發(fā)揮作用[34-35]。HNRNPA1為異質(zhì)性核糖核蛋白(hnRNP)復合體中含量最豐富的核心蛋白之一,在選擇性剪接的調(diào)控中發(fā)揮關鍵作用。SF3B1為一種重要的pre-mRNA剪接因子,與癌癥突變相關,并可以作為靶向藥物治療靶點[36-40]。在剪接體裝配的早期階段,SF3B1在pre-mRNA剪接位點的小核核糖核酸蛋白(snRNP)之間促發(fā)了一系列依賴ATP的結(jié)構(gòu)和成分重排,最終完成pre-mRNA剪接的行為[36,41-42],但其在CHD中的作用尚未得到證實。據(jù)報道,ARGLU1為一種轉(zhuǎn)錄共激活因子和剪接調(diào)節(jié)因子,對應激性激素信號轉(zhuǎn)導和發(fā)育以及多種癌癥調(diào)控非常重要[43-44]。SRSF5是pre-mRNA剪接因子中SR的家族成員,是剪接體的一部分[45]。已有研究結(jié)果表明,SRSF5作為一種新型的致癌剪接因子,在多種癌癥和免疫調(diào)節(jié)中發(fā)揮關鍵作用[46-51],但其在CHD中的作用未見報道。SRSF11為一種在可變剪接過程中發(fā)揮作用的剪接因子[52]。SREK1為富含SR剪接蛋白家族的一個成員[53]。PNISR,又被稱為SFRS18,使用公開交互數(shù)據(jù)庫的數(shù)據(jù)挖掘也支持了LUC7L3和SFRS18在RNA剪接中的相互作用[54]。GARCIA-DOMINGO等[55-56]研究表明,DIDO1通過上調(diào)procaspase 3和9參與細胞凋亡的激活。此外,F(xiàn)üTTERER等[57]觀察到,小鼠中DIDO的缺失與骨髓增生異常綜合征相關。FLEISCHMAN等[58]的研究則表明,ZRSR2突變病人的常見臨床特征為白細胞減少、血小板減少或骨髓母細胞百分比增加的大細胞性貧血。本研究中篩選到的CHD DEGs大部分都是mRNA剪接相關基因,這些基因通過RNA剪接功能調(diào)控不同的人類疾病。但是,這些基因與CHD之間的關系目前尚未被報道。
綜上所述,本文結(jié)果顯示,CHD病人RNA剪接相關基因的表達水平發(fā)生顯著改變,表明RNA剪接調(diào)控在CHD的發(fā)生過程中可能發(fā)揮了重要作用,但其在CHD中的具體作用機制仍有待進一步研究。本研究結(jié)果為CHD的進一步研究及高危人群的篩查提供了新的思路。