藍樹金,饒紹奇
523808廣東 東莞,廣東醫(yī)科大學 公共衛(wèi)生學院
消化道癌癥包含食管癌、胃癌、結腸癌和直腸癌,這幾種消化道癌癥對人體健康造成巨大威脅,這幾種癌癥病因及發(fā)病機制復雜[1]。國內學者對上消化道癌癥的研究指出中國上消化道惡性腫瘤新發(fā)病例占全球的44.60%,這一數(shù)據(jù)表明消化道癌癌癥對醫(yī)療衛(wèi)生系統(tǒng)的及人民健康造成巨大的負擔[2-3]。但受限于當前醫(yī)療水平的發(fā)展,對于這些癌癥的常規(guī)治療方案主要是外科手術切除和化療,但是癌癥的高復發(fā)率會影響常規(guī)治療方案的最終效果并有可能造成手術失敗,影響醫(yī)療效果。隨著測序技術的快速發(fā)展,利用生物信息學可以分析疾病的分子機制及識別重要的分子機制以及重要分子功能。
癌癥患者的預后往往是由疾病的分型決定的,而腫瘤的最終的分型是由多種基因調節(jié)網(wǎng)絡以及不同組學之間的相互影響最終決定的[4]。轉錄調控因子(transcription factor,TF),亦稱為反式作用因子,是有序結合在目標基因啟動子序列中的特殊位點,其通過結合基因的特定序列motif,亦稱作模序,在轉錄前水平調節(jié)下游基因的表達水平[5-6]。已有大量相關研究指出TF在轉錄調控網(wǎng)絡中起重要作用,如Farhan等[7]發(fā)現(xiàn)FOXO轉錄因子在癌癥代謝及血管生成中起作用,Lan等[8]發(fā)現(xiàn)CIN-like TCP作為植物特定的轉錄因子在植物的形態(tài)發(fā)育起重要作用,針對植物形態(tài)諸如植物枝葉的發(fā)育等對調控信息。所列舉的研究均表明了轉錄因子在細胞乃至形態(tài)學上都起到重要的作用。通過構建疾病相關的TF-mRNA調控網(wǎng)絡,識別在調控網(wǎng)絡中起重要作用的TF及其靶基因,并探究TF對其調控的靶基因的作用參與的生物學過程以及疾病相關的致病機制有助進一步在疾病發(fā)生發(fā)展轉錄前水平轉錄調控模式。有研究指出轉錄因子在癌癥的成因、發(fā)展以及惡化都起了重要作用,Zacksenhaus等[5]的研究指出在乳腺癌中,影響調節(jié)因子或染色體形態(tài)關鍵基因的變異在基因的增強子和促進子中形成了新的TF結合位點,并間接促進了癌癥的發(fā)生。
消化道癌癥包括食管癌、胃癌、結腸癌以及直腸癌,這幾種癌癥具有一些共同的背景特點,首先在組織胚胎學上,消化道如食管,胃及結直腸具有相似的生長發(fā)育背景,均起源于內胚層,其次,盡管食管、胃、結腸及直腸在消化功能各異,但在解剖結構上,其解剖結構大體都是管狀結構[9]。通過系統(tǒng)分析消化道癌癥的共享分子并構建TF-mRNA調節(jié)網(wǎng)絡可分析出重要的分子以及重要的功能。
本研究旨在通過TF-mRNA調控網(wǎng)絡系統(tǒng)分析消化道癌癥,即包含食管癌、胃癌、結腸癌及直腸癌之間共享的轉錄調控模式及其所調控基因的參與的生物學功能,結合轉錄調節(jié)網(wǎng)絡及蛋白互作網(wǎng)絡,識別重要消化道癌癥共享轉錄因子及其靶基因并為消化道癌癥治療方法提供研究方向。
消化道癌癥(食管癌、胃癌、結腸癌及直腸癌)RNAseq數(shù)據(jù)都是由TCGA公共數(shù)據(jù)網(wǎng)站下載。分別選取了STAD,ESCA, COAD及READ四種癌癥項目,其分別對應胃癌、食管癌、結腸癌及直腸癌,本研究下載了對應每種癌癥的實驗策略為RNAseq,工作類型為HTSeq-Counts數(shù)據(jù),癌癥基本信息如表1所示。
表1 消化道癌癥RNAseq數(shù)據(jù)基本信息
首先,本研究分別構建每個消化道癌癥RNAseq表達譜,利用R軟件包里的DESeq2軟件包(1.34.0版)[10]在R軟件上進行差異分析。其次,以|log2FC|>1.5和P<0.05作為篩選差異基因的閾值選取差異基因,分別得到每種消化道癌癥的差異基因。最后,通過對這三類癌癥的差異結果取交集,獲得共享差異基因,并區(qū)分共同上調和共同下調的基因?;鹕綀D及韋恩圖分別用于展示差異結果及共享的差異基因。
利用R軟件包里的clusterProfiler軟件包(4.2.0版)分別對差異基因、共同上調基因及共同下調基因進行GO功能富集及通路富集分析[11]。GO富集分析基于超幾何分布,應用超幾何檢驗進行富集分析,利用Benjamini-Hochberg方法對富集結果進行P值校正,以校正后的P<0.05作為標準選擇差異顯著的富集結果。
STRING[12]數(shù)據(jù)庫(八版)包含人類蛋白之間的互作信息,本研究通過STRING數(shù)據(jù)庫獲取差異基因蛋白互作信息,并由Cytoscape軟件3.8.0版進行蛋白互作網(wǎng)絡的可視化,并借助軟件Cytoscape中的cytoNCA插件(2.1.6版)進行網(wǎng)絡拓撲屬性分析,設置條件為:Betweenness和degree項均選without weight。以此為基礎篩選蛋白互作網(wǎng)絡中具有高連通度的節(jié)點。
利用Cytoscape軟件里的mCODE插件(1.6.1版)對蛋白互作網(wǎng)絡進行分解,設置條件為:node score cutoff項選0.2;K-Core項選0.2;Degree Cutoff項選2;max.Depth項選100。得到的模塊將被用于進一步的分析,分析這些子模塊里面的節(jié)點及其鄰居節(jié)點,分析密集且重于的互作的模塊的拓撲屬性并對核心節(jié)點進行拓撲學分析。
TRRUST數(shù)據(jù)庫2.0版是一個包含轉錄因子及其調控的靶基因信息的在線數(shù)據(jù)庫,通過在TRRUST在線數(shù)據(jù)庫查詢并識別消化道癌癥共享的差異基因中的轉錄因子及轉錄因子調控的差異基因。
為了更深入的了解這些轉錄因子在轉錄前水平基因轉錄調控的作用及其靶基因到下游的基因表達水平的影響,結合TF-mRNA調控信息及蛋白互作通過繪圖分析TF及TF所調控的基因對下游表達水平的影響。
通過差異分析之后進行取交集本研究識別到食管癌、胃癌,直腸癌及結腸癌之間共享的差異基因共有741個,其中共同上調的基因有333個,共同下調的基因有337個,如圖1所示,四種癌癥之間的差異結果用火山圖進行展示如圖1,其中四個癌癥之間的共享基因則用韋恩圖將來進行展示,如圖2。
圖1 四種消化道癌癥差異基因火山圖
圖2 四種癌癥的共享基因韋恩圖
如圖3所示,差異基因基因功能主要富集在肌肉收縮(muscle contraction)、肌肉系統(tǒng)過程(muscle system process)、胞外基質形成(extracellular matrix organization)、胞外結構形成(extracellular structure organization)等功能。而共同上調基因主要富集的功能有胞外基質的形成(extracellular matrix organization)、胞外結構形成(extracellular structure organization)等功能,下調基因主要富集在肌肉收縮(muscle contraction)、肌肉系統(tǒng)過程(muscle system process)及膜電位的調節(jié)(regulation of membrane potential)。
圖3 功能富集分析圖
如圖4所示,通路富集分析顯示差異基因主要參與的通路有GPCR配體結合(GPCR ligand binding)、類A/1(視紅紫質樣受體)(Class A/1(Rhodopsin-like receptor))等通路。共同上調基因主要參與了肽配體結合受體(Peptide ligand-binding receptors)、膠原降解(collagen degradation)及由胰島樣生長因子結合蛋白介導的胰島樣生長因子的轉運及吸收(regulation of insulin-like growth factor(IGF)transport and uptake by insulin-like growth factor binding proteins(IGFBPs))、轉錄前蛋白磷酸化(post-translational protein phosphorylation)等通路,共同下調基因參與的通路有神經(jīng)系統(tǒng)(neuronal system)、神經(jīng)遞質受體和突觸后信號傳輸(Neurotransmitter receptors and postsynaptic signal transmission)、平滑肌收縮(smooth muscle contraction)、離子穩(wěn)態(tài)(ion homeostasis)。
圖4 通路富集分析圖
借助STRING蛋白互作數(shù)據(jù)庫,獲取741個差異基因的蛋白互作信息,并用Cytoscape進行網(wǎng)絡繪圖,發(fā)現(xiàn)蛋白互作網(wǎng)絡共有731個節(jié)點,3 038條邊。
利用CytoNCA插件針對連通度(Degree),介數(shù)(Betweenness),緊密度(Closeness)對網(wǎng)絡中的核心節(jié)點進行分析,部分網(wǎng)絡節(jié)點屬性如表2。以Degree>25為標準篩選核心節(jié)點,共別到52個基因如CXCL8,SPP1,CXCL12等。
表2 蛋白互作網(wǎng)絡節(jié)點的屬性
利用軟件Cytoscape里的MCODE插件,對蛋白互作網(wǎng)絡進行分解網(wǎng)絡分解,獲得29個模塊,部分模塊分析結果如表3。對結果中前四個Module用R軟件包里的igraph軟件包1.2.11版進行繪圖,如圖5所示。
表3 網(wǎng)絡模塊分析結果
圖5 網(wǎng)絡模塊
本研究借助TRRUST在線數(shù)據(jù)庫,對差異基因中的轉錄因子進行預測。識別在差異基因中起到轉錄因子作用的基因共有13個,最終識別到28對TF-mRNA調控關系及部分調控方式諸如激活和抑制,調控關系預測結果如表4所示。
表4 TF-mRNA 調控關系
結合TF-mRNA調控信息及蛋白互作網(wǎng)絡模塊結果,分析TF所調節(jié)的基因所參與的功能。如圖6 Module 2所示,在所有的上調基因中有TF基因OTX2調控AURKA,AR調控CDC6及MYBL2調控MYBL2。特別指出,AR除了作為轉錄因子調控CDC6之外,也作為基因與CDC6存在蛋白互作關系。結合表4中TF-mRNA調控信息及基因本身表達水平,分析TF及TF所調控的基因的在模塊中起的作用。
圖6 子模塊分析
消化道癌癥包括食管癌、胃癌、結腸癌及直腸癌,這四種癌癥都對人群健康造成了巨大的威脅。從組織胚胎發(fā)育起源的角度分析,消化道癌癥之間有共同的內胚起源,且都暴露于相似的導致癌癥形成的管道環(huán)境致病因素[13]。消化道在消化系統(tǒng)中起著營養(yǎng)消化吸收等重要功能,消化道組織學上的癌變情況影響到原先正常的消化道的組織結構乃至原先的正常功能。癌變的過程是一個復雜的過程,癌癥腫瘤結構的改變到在病理上的改變往往是從功能學上的直至出現(xiàn)器質性改變。出于這兩個立足點出發(fā),分析消化道癌癥之間的共享的分子特點,本文系統(tǒng)分析四種消化癌癥間共享功能,其中結果提示主要富集在肌肉收縮、肌肉系統(tǒng)過程、胞外基質形成、胞外結構形成等功能,這些功能差異最為顯著的是肌肉收縮、平滑肌收縮,其中,肌肉收縮的功能在消化道癌癥中的起著極其重要的功能,本文功能富集分析結果發(fā)現(xiàn)消化道癌癥中下調基因顯著地富集于肌肉收縮等功能,表明癌變的消化道肌肉收縮功能的顯著下降,而在上調基因富集結果表明胞外基質形成、胞外結構形成及膠原代謝等功能,已有Wu等[14]研究指出I型膠原在結腸癌中通過整聯(lián)蛋白α2β1介導PI3K/AKT信號通路增強結腸癌干細胞的特性和強烈的侵襲性。
通過分析蛋白互作網(wǎng)絡的拓撲屬性如連通度等屬性,本研究篩選出52個具有高連通度的基因如CXCL8,SPP1,GNGT1,GRIA2等?;诒磉_水平,發(fā)現(xiàn)CXCL8,CXCL1,CXCL10,CXCL5,PPBP,WT1,PAX2等31個在三個癌癥中表達均上調,而在共同下調的基因中如SPP1,ADCY5,CXCL12,PTGDR2則呈下調。其中發(fā)現(xiàn)在上調基因中存在CXC家族的基因有CXCL1,CXCL5,CXCL6,CXCL8,CXCL10,CXCL11,如CXCL8及CXCL12,均被相關研究指出CXCL基因主要參與趨化因子受體結合趨化因子等功能且都具有可作為胃癌預后的生物標志物[15-17]。結合功能富集分析結果顯示,CXC家族基因主要參與涉及細胞因子信號傳導等功能。除CXC家族基因外,其他上調基因基因如MMP1通過P13K/AKT通路促進食管鱗狀細胞癌的發(fā)生[18]。這些基因在功能上形成一些功能結合體如功能模塊行使特定的功能,這些模塊里面的基因在功能層面上緊密連接,對功能的維持極其重要。
本研究共識別到13個轉錄因子如AR,CBX7,ETV4,HOXC6及HOXC8等,其中存在轉錄調節(jié)關系的共有28對,如AR調節(jié)KISS1R、PEMPA1、UTG2B15及USP26。對蛋白互作網(wǎng)絡的結構在連通度大于25且受到轉錄因子調控的基因有COL1A1,MMP1等。其中在本研究預測結果中的轉錄因子中,其中PAX2和WT1不僅在蛋白互作網(wǎng)路中作為高連通度的節(jié)點,且作為轉錄因子在轉錄前對靶基因進行表達調節(jié)。其中轉錄因子如ETV4已被發(fā)現(xiàn)在消化道基底癌中通過經(jīng)典Wnt/β-catenin通路影響細胞周期[19]。其他轉錄因子如HOXC6亦被報道通過活化劑protein-1通路在消化道癌癥影響腫瘤的生長[20]。其中MYBL2調控COL1A1,其中COL1A1被發(fā)現(xiàn)與腫瘤轉移性質有關,所以MYBL2作為重要轉錄因子在結腸癌中起重要作用[21],但目前并沒有相關實驗證據(jù)證明其他消化道癌癥如胃癌被報道與MYBL2的作用與效應,MYBL2在胃癌及食管癌中的表達作用及參與的重要通路仍需進一步深入分析。
結合模塊分析結果TF-mRNA轉錄調控關系,分析轉錄因子及其所調控的基因起的調節(jié)作用,模塊2中,MYBL2作為轉錄因子調節(jié)MYBL2,MYBL2作為模塊2中的分子又與其他基因存在蛋白互作關系。模塊3中,ETV4對MMP4存在兩種調節(jié)關系,因為模塊本身是由于基因之間緊密的作用形成的一種集合,任何對其中模塊中的節(jié)點的影響都間接地影響到模塊中的其他基因。最終識別重要的轉錄因子AR,CBX7,ETV4,HOXC6及重要的基因CDC6,NCAM1,AGTR1,MMP1,COL1A1。為深入研究消化道癌癥間共享的機制及轉錄前TF調節(jié)機制重要分子提供深入的分子層面的并為消化道癌癥之間的治療提供啟發(fā)。
本研究通過構建TF-mRNA調節(jié)網(wǎng)絡,發(fā)現(xiàn)消化道癌癥之間重要的共享功能有肌肉收縮、肌肉系統(tǒng)過程、細胞外基質的組織、構建細胞外結構,并識別到重要的轉錄因子AR,CBX7,ETV4,WT1, PAX2及基因CDC6,NCAM1,AGTR1,MMP1,COL1A1。為消化道癌癥間識別到重要的共享轉錄因子及靶基因,為開發(fā)更安全更有效的藥物提供更好提供理論支持。
作者聲明:本文全部作者對于研究和撰寫的論文出現(xiàn)的不端行為承擔相應責任;并承諾論文中涉及的原始圖片、數(shù)據(jù)資料等已按照有關規(guī)定保存,可接受核查。
學術不端:本文在初審、返修及出版前均通過中國知網(wǎng)(CNKI)科技期刊學術不端文獻檢測系統(tǒng)的學術不端檢測。
同行評議:經(jīng)同行專家雙盲外審,達到刊發(fā)要求。
利益沖突:所有作者均聲明不存在利益沖突。
文章版權:本文出版前已與全體作者簽署了論文授權書等協(xié)議。