常允建 康冉 薛璇 王韶暢 趙慶文 郭志云
(1. 西南交通大學(xué)生命科學(xué)與工程學(xué)院,成都 610031;2. 大同市第二人民醫(yī)院腫瘤內(nèi)科,大同 037000)
原發(fā)性肝癌的發(fā)病率居全球第5位,致死率排第 3 位,其中以肝細(xì)胞癌(Hepatocellular carcinoma,HCC)最為常見[1]。生物分子間彼此相互作用形成的網(wǎng)絡(luò)體系是生物進(jìn)程運(yùn)行的基礎(chǔ)。網(wǎng)絡(luò)的失調(diào)是導(dǎo)致多種疾病尤其是腫瘤等重大疾病的根本原因。在這些網(wǎng)絡(luò)模體中最為普遍與重要的是前饋環(huán)路(Feed-forward loops,F(xiàn)FLs)[2]。FFL 由兩個輸入調(diào)節(jié)因子P1與P2,以及P1與P2共同調(diào)節(jié)的靶因子P3組成。FFL分連貫FFL(Coherent FFL)與非連貫FFL(Incoherent FFL)兩類[3]。連貫FFL指P1調(diào)控P2、P3和P2調(diào)控P3均為正向(Positive)調(diào)控,而非連貫FFL是指P1調(diào)控P2、P3為正向,而P2調(diào)控P3為負(fù)向(Negative)調(diào)控。
增強(qiáng)子(Enhancer)一般是幾百堿基對長度的DNA片段,并能被多個轉(zhuǎn)錄因子占據(jù),在基因調(diào)控中通過順式調(diào)控原件對靶基因起正調(diào)控作用。已有研究表明肝細(xì)胞癌中的增強(qiáng)子突變會導(dǎo)致增強(qiáng)子失活,進(jìn)而影響靶基因的表達(dá)[4]。MicroRNA(miRNA)是一類長度為18-24 nt的非編碼小RNA,在進(jìn)化過程中高度保守,它通過與靶基因的3'UTR區(qū)特異性結(jié)合從而在轉(zhuǎn)錄后水平抑制靶基因的表達(dá)或直接降解靶mRNA,異常表達(dá)的miRNA在肝癌的發(fā)病機(jī)制中起重要作用。先前研究發(fā)現(xiàn),增強(qiáng)子調(diào)控miRNA參與腫瘤的發(fā)生與發(fā)展,從而使得增強(qiáng)子、miRNA與轉(zhuǎn)錄因子可形成重要的調(diào)控單位FFL[5]。那么增強(qiáng)子與miRNA是否可以形成FFL目前還并不清楚。本課題組通過生物信息學(xué)手段進(jìn)行了增強(qiáng)子調(diào)控miRNA的識別,并篩選了其參與的FFL,對已通過實驗驗證的miRNA靶基因分析,基因注釋后發(fā)現(xiàn)上述的FFL參與多種與肝癌相關(guān)的信號通路或生物進(jìn)程。本研究旨在通過對FFL的識別與分析為以FFL為網(wǎng)絡(luò)模體單元的肝腫瘤調(diào)控機(jī)制以及肝腫瘤標(biāo)志物識別方面奠定前期工作基礎(chǔ)。
從ENCODE[6]數(shù)據(jù)庫下載得到HepG2細(xì)胞系的DNase高敏位點以及H3K4me1、H3K27ac、H3K4me3三類組蛋白修飾信息的ChIP-seq數(shù)據(jù),根據(jù)增強(qiáng)子特征性的組蛋白修飾信號預(yù)測HepG2細(xì)胞系中的增強(qiáng)子。識別增強(qiáng)子區(qū)域基于如下特征[7-8]:(1)增強(qiáng)子區(qū)域中心位置存在DNase高敏位點;(2)在增強(qiáng)子區(qū)域內(nèi)存在明顯的H3K4me1和H3K27ac信號,且呈峰-谷-峰的趨勢;(3)增強(qiáng)子區(qū)域內(nèi)的H3K4me1信號比H3K4me3信號強(qiáng)。
1.2.1 增強(qiáng)子-miRNA調(diào)控關(guān)系的識別 從GENCODE[9]數(shù)據(jù)庫得到蛋白編碼基因的注釋信息,提取得到蛋白編碼基因的轉(zhuǎn)錄起始位點信息。從FANTOM5[10]數(shù)據(jù)庫獲取miRNA的轉(zhuǎn)錄起始位點信息。根據(jù)Suzuki等[5]的識別方法,對每個增強(qiáng)子分別找到其距離最近的miRNA轉(zhuǎn)錄起始位點及同方向(同在增強(qiáng)子上游或下游)的蛋白編碼基因的轉(zhuǎn)錄起始位點。將增強(qiáng)子中心與最近的miRNA轉(zhuǎn)錄起始位點的距離記為M,增強(qiáng)子中心與同方向基因轉(zhuǎn)錄起始位點的距離記為G,根據(jù)公式(1)計算Score值,以0.2為閾值,設(shè)定Score得分在0-0.2范圍內(nèi)的增強(qiáng)子與miRNA為可能存在的調(diào)控關(guān)系。
從ENCODE數(shù)據(jù)庫中下載得到HepG2細(xì)胞系中miRNA的表達(dá)量信息,據(jù)此對上述調(diào)控關(guān)系進(jìn)行篩選,只有涉及在HepG2細(xì)胞系中表達(dá)的miRNA的調(diào)控關(guān)系被采用為最后的結(jié)果。
1.2.2 轉(zhuǎn)錄因子-增強(qiáng)子調(diào)控關(guān)系的識別 從UCSC及CistromeDB[11]數(shù)據(jù)庫中下載得到HepG2細(xì)胞系中65個轉(zhuǎn)錄因子的ChIP-seq數(shù)據(jù),作為轉(zhuǎn)錄因子結(jié)合位點的信息。如果轉(zhuǎn)錄因子結(jié)合位點落在增強(qiáng)子區(qū)間內(nèi),則認(rèn)為該轉(zhuǎn)錄因子與該增強(qiáng)子存在調(diào)控關(guān)系。
1.2.3 轉(zhuǎn)錄因子-miRNA調(diào)控關(guān)系的識別 若1.2.2中得到的轉(zhuǎn)錄因子結(jié)合位點信息落在miRNA轉(zhuǎn)錄起始位點上游10 kb~下游1 kb范圍內(nèi),則認(rèn)為該轉(zhuǎn)錄因子對于該miRNA存在調(diào)控關(guān)系[12]。
1.2.4 轉(zhuǎn)錄因子-增強(qiáng)子-miRNA FFL的識別 根據(jù)1.2.1 1.2.2 1.2.3中的調(diào)控關(guān)系得到轉(zhuǎn)錄因子-增強(qiáng)子-miRNA FFL。對于所得結(jié)果進(jìn)行超幾何檢驗,如公式(2)所示,M、N和k分別代表miRNA總數(shù)、細(xì)胞中所有受到轉(zhuǎn)錄因子調(diào)控的miRNA數(shù)量、細(xì)胞中受某一轉(zhuǎn)錄因子調(diào)控的miRNA數(shù)量,所得p值越小,說明對應(yīng)的轉(zhuǎn)錄因子和增強(qiáng)子共同調(diào)控的miRNA數(shù)量越多。隨后,通過Benjamini-Hochberge[13]方法,根據(jù)p值得到FDR值,設(shè)定q值在0-0.05范圍內(nèi)的為非隨機(jī)出現(xiàn)的FFL,即所得最終結(jié)果。
1.3.1 核心miRNA的篩選 根據(jù)所得的FFL統(tǒng)計涉及的每個miRNA參與的FFL數(shù)目,得到其中參與FFL數(shù)目明顯高于總體平均值的miRNA(參與FFL數(shù)大于上界,在所有miRNA的參與FFL數(shù)中屬于上離群點范圍),定義為FFL中的核心miRNA。
1.3.2 靶基因預(yù)測 從 TarBase[14],mirTarBase[15]數(shù)據(jù)庫下載得到實驗驗證的miRNA的靶基因信息。分別得到2.3.1中核心miRNA的靶基因。
1.3.3 功能富集分析 利用R軟件包clusterProfiler[16],對于上述得到的所有靶基因做Gene Ontology(GO)[17]、KEGG Pathway[18]富集分析。
根據(jù)DNase高敏位點及組蛋白修飾,最終得到5 055個增強(qiáng)子。這些增強(qiáng)子的DNase及3類組蛋白修飾信號分布趨勢,如圖1所示。
從圖1可知增強(qiáng)子中心上下游1 kb存在顯著的DNase活性。另外,在增強(qiáng)子區(qū)域存在高的H3K27ac信號,以及高的H3K4me1信號與低的H3K4me3信號。
通過超幾何檢驗,過濾q值小于0.05的結(jié)果后,我們最終得到2 070個FFL,因增強(qiáng)子調(diào)控miRNA以正調(diào)控為主,因為本文識別的增強(qiáng)子為連貫FFL。這些FFL共涉及57個轉(zhuǎn)錄因子,180個增強(qiáng)子,85個miRNA。
圖1 DNase及組蛋白修飾信號
圖2 參與FFL的核心miRNA靶基因的基因功能注釋結(jié)果
利用R軟件包clusterProfiler[16],我們對識別的2 070個FFL的miRNA涉及的靶基因進(jìn)行了GO[17]與KEGG[18]功能富集分析,結(jié)果(圖2)表明FFL中miRNA的靶基因顯著富集于肝癌相關(guān)的信號通路或生物進(jìn)程。如病毒致癌通路、p53信號通路、細(xì)胞周期相關(guān)的通路、細(xì)胞周期阻滯等。
在2 070個FFL涉及的85個miRNA中,有5個miRNA在腫瘤和正常樣本中存在表達(dá)差異(|log2(FC)|>1,p<=0.05),分別為 hsa-miR-455(|log2(FC)|:2.803),hsa-miR-224(|log2(FC)|:3.615),hsamiR-452(|log2(FC)|:3.111),hsa-miR-10b(|log2(FC)|:2.989),hsa-miR-574(|log2(FC)|:2.799)。此外,從絕對表達(dá)量來講,上述5個miRNA中hsamiR-574和hsa-miR-92a的表達(dá)量(CPM)顯著高于85個總miRNA的表達(dá)量平均值(85個miRNA在肝癌細(xì)胞中CPM平均值7.48,hsa-miR-574的CPM為129.96,hsa-miR-92a的 CPM 為 98.81)。
圖3 涉及hsa-miR-574的FFL構(gòu)成的網(wǎng)絡(luò)圖
結(jié)果顯示hsa-miR-574在HepG2中顯著參與了多的FFL(平均每個miRNA參與24個FFL,hsamiR-574參與的FFL數(shù)量為99個,圖3),這在hsamiR-574參與的99個FFL中共涉及4個增強(qiáng)子(chr4:38160530-38164680,chr4:38162070-38166220,chr4:38179330-38184380,chr4:38223510-38227660)和29個轉(zhuǎn)錄因子。在這些轉(zhuǎn)錄因子中,有 16個 參與了 4個 FFL(NFIC,MAX,HNF4G,RAD21,ARID3A,TAF1,CREB1,HDAC2,MYBL2,F(xiàn)OXA2,HNF4A,RXRA,F(xiàn)OXA1,JUND,F(xiàn)OSL2,SP1),為參與FFL的數(shù)目最多。而在4個增強(qiáng)子中,chr4:38162070-38166220參與的調(diào)控FFL數(shù)量最多,為29個。
為此,我們對這一個miRNA的靶基因進(jìn)行了KEGG通路富集分析,結(jié)果(圖4)顯示hsamiR-574的靶基因顯著與多個腫瘤相關(guān)的信號通路有關(guān)。其中,富集最為顯著的通路——cAMP信號通路被已有文獻(xiàn)證明可以抑制肝癌細(xì)胞增殖而促進(jìn)其分化[19]。
圖4 hsa-miR-574靶基因的KEGG通路富集結(jié)果
根據(jù)我們識別的5 055個增強(qiáng)子的組蛋白修飾信號分布來看,DNase信號顯著富集在增強(qiáng)子中心附近,這與活性增強(qiáng)子的染色體開放特征一致。另外,這些增強(qiáng)子體現(xiàn)出高的H3K27ac信號以及高的H3K4me1/H3K4me3占比,這與先前文獻(xiàn)報道的活性增強(qiáng)子信號特征一致。最終我們識別了2 070個FFL,其中65個轉(zhuǎn)錄因子有57個參與了FFL(占88%),而相比轉(zhuǎn)錄因子而言,增強(qiáng)子和miRNA參與的FFL比例要明顯低于轉(zhuǎn)錄因子,這一結(jié)果說明在FFL中,轉(zhuǎn)錄因子起到廣泛結(jié)合的作用,而增強(qiáng)子與miRNA由于其特異性導(dǎo)致參與的FFL相對較少。在功能富集方面,結(jié)果表明FFL中miRNA的靶基因顯著富集于肝癌相關(guān)的信號通路或生物進(jìn)程中,這些結(jié)果說明我們基于肝癌組學(xué)數(shù)據(jù)識別的FFL顯著與腫瘤相關(guān),這也驗證了我們識別的FFL的有效性。此外,除了從表達(dá)正常與腫瘤組織的表達(dá)差異與絕對表達(dá)量多少來衡量miRNA參與腫瘤的重要性外,對于處于FFL網(wǎng)絡(luò)中的miRNA來說,miRNA參與FFL的頻率是考量miRNA在腫瘤網(wǎng)絡(luò)中是否起關(guān)鍵作用的另一重要因素。因此,我們重點考察了hsa-miR-574在網(wǎng)絡(luò)中的出現(xiàn)頻率,結(jié)果顯示hsamiR-574參與的99個FFL,較平均的24個FFL顯著高,并且功能富集分析也發(fā)現(xiàn)hsa-miR-574的靶基因顯著與多個腫瘤相關(guān)的信號通路有關(guān)。之前已有文獻(xiàn)表明,肝癌患者體細(xì)胞中hsa-miR-574的表達(dá)量顯著高于正常樣本,由此推測該miRNA可以作為肝癌診斷的腫瘤標(biāo)記物,這與我們的結(jié)果相符合[20]。研究結(jié)果初步探討了以增強(qiáng)子-miRNA為核心的FFL在肝細(xì)胞癌中的特征與功能,有望為基于網(wǎng)絡(luò)模體為單位的肝腫瘤標(biāo)志物識別奠定理論與數(shù)據(jù)基礎(chǔ)。
本文基于肝癌細(xì)胞系HepG2中的DNase高敏位點以及H3K4me1、H3K27ac、H3K4me3組蛋白修飾特征這些普遍認(rèn)可的表觀遺傳學(xué)特征為識別活性增強(qiáng)子的理論基礎(chǔ),識別共得到5 055個肝癌特異的增強(qiáng)子。通過處理增強(qiáng)子與miRNA位置信息,以及65個轉(zhuǎn)錄因子的ChIP-seq數(shù)據(jù)獲得轉(zhuǎn)錄因子結(jié)合位點,構(gòu)建了增強(qiáng)子-miRNA、轉(zhuǎn)錄因子-miRNA與轉(zhuǎn)錄因子-miRNA調(diào)控關(guān)系。通過超幾何檢驗篩選了2 070個FFL。其中共涉及57個轉(zhuǎn)錄因子,180個增強(qiáng)子與85個miRNA。GO與KEGG功能富集分析FFL的miRNA靶基因顯示這些靶基因廣泛的參與了與肝癌的發(fā)生發(fā)展相關(guān)的生物學(xué)進(jìn)程與調(diào)控通路。