趙瀟瀟 于秋紅 嵇江淮 王世佳王仁東李冬果*
(1.首都醫(yī)科大學(xué)生物醫(yī)學(xué)工程學(xué)院,北京 100069;2.首都醫(yī)科大學(xué)臨床生物力學(xué)基礎(chǔ)研究北京市重點(diǎn)實(shí)驗(yàn)室,北京 100069;3.首都醫(yī)科大學(xué)附屬北京天壇醫(yī)院高壓氧科,北京 100070;4.浙江腫瘤醫(yī)院放射物理科,杭州 310022;5.浙江省放射腫瘤學(xué)重點(diǎn)實(shí)驗(yàn)室,杭州 310022)
多形性膠質(zhì)母細(xì)胞瘤(glioblastoma,GBM)是最常見(jiàn)且最致命的腫瘤之一,被歸類(lèi)為Ⅳ級(jí)膠質(zhì)瘤[1]。它是一種高度侵襲性腫瘤其特征是腦血管的改變和周?chē)M織沿血管空間的逐漸侵襲[2]。GBM細(xì)胞通常會(huì)侵入距腫瘤塊幾厘米的地方,甚至可以跨入對(duì)側(cè)半球[3]。目前GBM的治療標(biāo)準(zhǔn)[4]包括手術(shù)切除,然后輔以放射治療(以下簡(jiǎn)稱(chēng)放療)和輔助治療。但由于這些腫瘤的彌散性浸潤(rùn)性質(zhì),很少能實(shí)現(xiàn)完全切除,GBM患者在治療結(jié)束后容易復(fù)發(fā),中位生存時(shí)間約15個(gè)月,且預(yù)后較差[5-6]。因此,迫切需要在GBM準(zhǔn)確的分子機(jī)制和可靠的治療靶點(diǎn)的研究中取得新進(jìn)展。
癌癥是異常遺傳和表觀遺傳事件的結(jié)果。表觀遺傳機(jī)制是無(wú)法用DNA序列的變化來(lái)解釋的穩(wěn)定遺傳特征,與組蛋白修飾一樣,DNA甲基化并不影響基因組DNA序列本身[7],而是在CG二核苷酸胞嘧啶上增加一個(gè)甲基(CH3)基團(tuán)。在哺乳動(dòng)物中,5 mC參與了長(zhǎng)期的沉默過(guò)程,如X染色體失活、基因組印記、生殖系基因的體細(xì)胞沉默和重復(fù)DNA元素的沉默[8]。根據(jù)DNA甲基化的異常變化對(duì)腫瘤的診療和預(yù)測(cè)生物標(biāo)志物被認(rèn)為具有廣泛的前景。
近年來(lái),多是對(duì)GBM中啟動(dòng)子異常甲基化動(dòng)力學(xué)進(jìn)行研究[9],也有少量對(duì)增強(qiáng)子甲基化方面的研究[10]。異常甲基化增強(qiáng)子會(huì)導(dǎo)致多種疾病,其中包括多種癌癥的基因表達(dá)異常[11]。研究[12]顯示,與啟動(dòng)子相比,增強(qiáng)子區(qū)域的甲基化狀態(tài)與靶基因表達(dá)的相關(guān)性更強(qiáng)。然而,只有少量研究[13-14]關(guān)注增強(qiáng)子區(qū)域且增強(qiáng)子甲基化模式在GBM中仍不清楚。
本研究從基因表達(dá)綜合數(shù)據(jù)庫(kù)(gene expression omnibus,GEO)數(shù)據(jù)庫(kù)中下載GBM腫瘤樣本(GSE36278)和正常樣本(GSE42861)的甲基化數(shù)據(jù),包括136個(gè)腫瘤樣本和58個(gè)正常樣本。腫瘤樣本和正常樣本的DNA甲基化數(shù)據(jù)是通過(guò)Infinium HM450k平臺(tái)用同樣方法獲得的。從基因組數(shù)據(jù)共享數(shù)據(jù)庫(kù)(genomic data commons,GDC)數(shù)據(jù)門(mén)戶(hù)下載患者臨床數(shù)據(jù)和136例GBM樣本的表達(dá)數(shù)據(jù)。人類(lèi)全基因組的注釋數(shù)據(jù)(V19)收集于GENCODE數(shù)據(jù)庫(kù)[15]。
對(duì)于甲基化數(shù)據(jù),每個(gè)探針的甲基化水平用β值表示。β值=Imeth/(Imeth+Iunmeth),其中Imeth為甲基化強(qiáng)度,Iunmeth為未甲基化強(qiáng)度。為確保甲基化水平的準(zhǔn)確性,移除在所有樣本中的甲基化水平超過(guò)30%為缺失值的探針。然后,本研究使用 “DMwR” R包中的knnImputation函數(shù)[16]對(duì)甲基化數(shù)據(jù)缺失值進(jìn)行處理。將下載的RNA-seq(FPKM)數(shù)據(jù)使用log2轉(zhuǎn)換進(jìn)行標(biāo)準(zhǔn)化,表達(dá)值為0的用數(shù)據(jù)集中的最小正數(shù)代替,最終獲得蛋白編碼基因(protein-coding genes,PCGs)的表達(dá)譜數(shù)據(jù)。
本研究整合已文獻(xiàn)[17]和GPL13534注釋文件,從而獲得了位于增強(qiáng)子的探針。本研究將這兩部分探針合并,并刪除重復(fù)的探針。結(jié)果保留161 708個(gè)增強(qiáng)子探針用于后續(xù)分析。已有研究[18-19]顯示,典型增強(qiáng)子區(qū)域的中位間隔大小約為1 000 bp。因此,本研究以一個(gè)增強(qiáng)子探針坐標(biāo)為基準(zhǔn),分別向其上游和下游擴(kuò)展500 bp的區(qū)間來(lái)構(gòu)建增強(qiáng)子區(qū)域。重疊的增強(qiáng)子區(qū)域被連接,并擴(kuò)展成較大的區(qū)間,然后計(jì)算增強(qiáng)子區(qū)域中CpG探針的平均值,作為增強(qiáng)子區(qū)域的DNA甲基化水平[20]。
由于基因不僅受增強(qiáng)子甲基化的調(diào)控,也受啟動(dòng)子甲基化的調(diào)控。為了獲得只受差異甲基化增強(qiáng)子區(qū)域(differential methylation enhancer regions, DMERs)調(diào)控的基因,本研究需要重新注釋啟動(dòng)子區(qū)域,鑒別出可能受啟動(dòng)子甲基化調(diào)控的基因,然后移除這些基因。本研究定義將基因轉(zhuǎn)錄起始位點(diǎn)(transcription start site, TSS)上游2 kb區(qū)域作為啟動(dòng)子區(qū),基因的DNA甲基化水平為映射到其啟動(dòng)子區(qū)域的探針平均值[21-22]。
本研究利用基于線性模型設(shè)計(jì)的R包“l(fā)imma”[23]來(lái)識(shí)別腫瘤與正常樣本之間的DMERs和差異啟動(dòng)子甲基化基因(differential promoter methylation genes, DPMGs)。采用Benjamini-Hochberg(BH)方法[24]對(duì)P進(jìn)行校正。同樣,本研究也鑒定了DMERs以進(jìn)行進(jìn)一步分析。本研究選擇log2(FC)≥0.2和adjustedP≤0.05 的增強(qiáng)子區(qū)域作為高甲基化增強(qiáng)子區(qū)域,將log2(FC)≤-0.2 和adjustedP≤0.05 的增強(qiáng)子區(qū)域作為低甲基化增強(qiáng)子區(qū)域。為了獲得僅受DMERs調(diào)控的基因,本研究需要重新注釋啟動(dòng)子區(qū)域,移除可能受啟動(dòng)子甲基化調(diào)控的基因。研究[25]顯示,增強(qiáng)子和基因之間已知的最大距離約為1 Mbp。因此,本研究選擇了位于同一染色體上的DMER-PCGs對(duì),基因的TSS與增強(qiáng)子區(qū)域之間的最大線性距離為1 Mbp。本研究用皮爾森相關(guān)系數(shù)(Pearson correlation coefficient, PCC)計(jì)算DMER與基因表達(dá)之間的相關(guān)性?;虮磉_(dá)被增強(qiáng)子甲基化負(fù)調(diào)控,高甲基化增強(qiáng)子區(qū)域可下調(diào)甚至沉默基因表達(dá),而低甲基化增強(qiáng)子區(qū)域則傾向于激活基因表達(dá)[26],因此本研究只保留了PCC<-0.2的DMER-PCGs對(duì),且P≤0.01。
為了預(yù)測(cè)DMERs調(diào)控的PCGs的功能,采用富集分析方法,對(duì)受低甲基化增強(qiáng)子區(qū)域調(diào)控的PCGs進(jìn)行功能和通路的顯著性分析,使用R包“clusterProfiler”[27]來(lái)預(yù)測(cè)PCGs的功能。通過(guò)BH方法校正P,如果校正后的P≤0.05,該生物過(guò)程(biological process, BP)和京都基因與基因組百科全書(shū)(Kyoto Encyclopedia of Genes and Genomes, KEGG)就認(rèn)為是顯著的。通過(guò)R包‘ggplot2 ’進(jìn)行顯示。
為了鑒別挑選出的PCGs是否具有良好的預(yù)后效果,本研究基于152個(gè)GBM患者的表達(dá)譜信息,依據(jù)中值將患者分為兩組。所有的研究均使用R 4.0.2完成。Kaplan-Meier生存分析和log-rank檢測(cè)被用來(lái)評(píng)估兩組患者的生存差異,以P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
為了研究在GBM中增強(qiáng)子的DNA甲基化模式,本研究應(yīng)用計(jì)算策略將增強(qiáng)子探針注釋到Infinium 450K陣列,從而構(gòu)建GBM增強(qiáng)子區(qū)域甲基化譜。在本研究中,增強(qiáng)子探針的收集來(lái)自先前發(fā)表的文獻(xiàn)的[17]補(bǔ)充文件和GPL13534注釋文件。利用上述方法構(gòu)造了113 178個(gè)非重疊增強(qiáng)子區(qū)域。其中增強(qiáng)子區(qū)域長(zhǎng)度為1 000 bp占比79.99%,長(zhǎng)度為>1 000 bp和<2 000 bp占比17.79%,其他占比2.22%(圖1A)。同樣,本研究將Infinium 450K陣列重新注釋到基因的啟動(dòng)子區(qū)域。最終54 477個(gè)探針位于20 386個(gè)基因啟動(dòng)子區(qū)域。雖然每個(gè)基因都有幾個(gè)探針定位到相應(yīng)的啟動(dòng)子區(qū)域,但本研究只計(jì)算該基因啟動(dòng)子中DNA甲基化探針的平均值作為該基因的DNA甲基化水平。
在對(duì)增強(qiáng)子區(qū)域甲基化譜進(jìn)行預(yù)處理后,本研究從136個(gè)GBM樣本和58個(gè)正常組織樣本中識(shí)別出16 287個(gè)DMERs,其中包括2 271個(gè)高甲基化增強(qiáng)子區(qū)域和14 016個(gè)低甲基化的增強(qiáng)子區(qū)域。類(lèi)似地,本研究基于基因啟動(dòng)子甲基化譜共鑒別出4 889個(gè)DPMGs。為了獲得表達(dá)嚴(yán)格受差異啟動(dòng)子甲基化調(diào)控的基因,本研究進(jìn)一步計(jì)算每個(gè)DPMG甲基化值與其對(duì)應(yīng)基因表達(dá)值之間的PCC。結(jié)果顯示,共識(shí)別出167個(gè)可能受啟動(dòng)子甲基化調(diào)控的基因,其中有144個(gè)低甲基化基因和23個(gè)高甲基化基因,這些基因?qū)?huì)被排除在研究之外。為了確定哪些基因受DMERs調(diào)控,本研究結(jié)合多組學(xué)數(shù)據(jù)建立增強(qiáng)子與其靶基因(DMERs-相關(guān)基因)的關(guān)聯(lián)模型(如上方法描述)。
由于已知增強(qiáng)子甲基化水平與染色質(zhì)活性呈負(fù)相關(guān)[28],本研究只保留了PCC<-0.2的DMER-基因?qū)ΑW詈?,本研究得到?95對(duì)DMER-PCGs,其中包含有593個(gè)低甲基化增強(qiáng)子區(qū)域,82個(gè)高甲基化增強(qiáng)子區(qū)域和642個(gè)PCGs。整體來(lái)看,GBM中存在明顯的低甲基化模式(圖1B)。
為了評(píng)估DMERs調(diào)控的靶基因的生物學(xué)特性,本研究對(duì)642個(gè)PCGs進(jìn)行功能富集分析。結(jié)果顯示,PCGs富集在許多與腫瘤進(jìn)程相關(guān)的生物過(guò)程,比如細(xì)胞凋亡、突觸信號(hào)傳送與調(diào)節(jié)、組蛋白H3-K79甲基化的調(diào)控(圖1C)。對(duì)于KEGG通路富集分析,本研究發(fā)現(xiàn) PCGs在 KEGG中富集出多條與 GBM 相關(guān)的通路,比如ErbB(EGFR)、神經(jīng)營(yíng)養(yǎng)因子、黏著斑黏附(圖1D)。
圖1 GBM中增強(qiáng)子區(qū)域的DNA甲基化模式
為了評(píng)估這些表達(dá)受DMERs影響的PCGs是否可以作為GBM的預(yù)后因子,本研究將表達(dá)數(shù)據(jù)與患者臨床信息相結(jié)合,基于生存分析的結(jié)果,獲得了45個(gè)與GBM整體存活相關(guān)的PCGs(P<0.05,表1)。這些基因的異常表達(dá)可能是由于增強(qiáng)子異常甲基化調(diào)控的。它們可能是GBM潛在的診斷和治療的生物標(biāo)志物。在本研究中,DTX1和SLC2A3 在GBM中均屬于表達(dá)上調(diào)的基因。DTX1和SLC2A3 基因高表達(dá)組患者的生存期顯著縮短且預(yù)后差,可作為GBM患者的獨(dú)立預(yù)后因素(圖2)。
圖2 DTX1和SLC2A3基因生存分析
表1 預(yù)后良好的PCGs
研究[12, 29]表明增強(qiáng)子通過(guò)甲基化介導(dǎo)表觀遺傳調(diào)控,對(duì)靶基因的表達(dá)進(jìn)行異常調(diào)節(jié),從而導(dǎo)致人類(lèi)疾病。表觀遺傳調(diào)控已成為DNA甲基化等生物醫(yī)學(xué)研究的熱點(diǎn)[30]。癌癥中DNA甲基化的變化被認(rèn)為是開(kāi)發(fā)有效的診斷、預(yù)后和預(yù)測(cè)標(biāo)志物的靶點(diǎn)。最近的研究[31-33]也報(bào)道了一些基因啟動(dòng)子在GBM中的異常甲基化。然而,到目前為止,使用異常甲基化增強(qiáng)子識(shí)別GBM生物標(biāo)志物的研究很少。
本研究通過(guò)構(gòu)建增強(qiáng)子區(qū)域,對(duì)其進(jìn)行差異甲基化分析并鑒別出可能受DMERs調(diào)控的PCGs,結(jié)果發(fā)現(xiàn)DMERs在GBM中多呈現(xiàn)一種低甲基化的模式。為了評(píng)估PCGs的生物學(xué)功能,對(duì)這些基因進(jìn)行功能富集分析。本研究結(jié)果顯示PCGs參與了許多與腫瘤發(fā)生及進(jìn)程相關(guān)的生物過(guò)程。由此推斷這些受DMERs調(diào)控的PCGs更有可能成為GBM潛在的診斷和治療的生物標(biāo)志物。其中EGFR 在GBM 和膠質(zhì)瘤中所發(fā)揮的作用已被廣泛研究,其可以通過(guò)促進(jìn)血管生成和細(xì)胞侵襲從而促進(jìn)腫瘤的惡化[34]。Neurotrophin 為 GBM 發(fā)展提供了微環(huán)境,并且促進(jìn)腫瘤浸潤(rùn)細(xì)胞的增生[35]。Huber等[36]發(fā)現(xiàn)DTX1的過(guò)表達(dá)增加了細(xì)胞的遷移和侵襲,這與ERK激活、miR-21水平和內(nèi)源性Notch水平相關(guān)。DTX1的Notch通路似乎是膠質(zhì)母細(xì)胞瘤的一種致癌因子,這些發(fā)現(xiàn)提供了新的潛在的治療靶點(diǎn)。研究[37-38]表明SLC2A3 在GBM中高表達(dá),沉默期的表達(dá)可以抑制GBM細(xì)胞的增生和侵襲能力。本研究結(jié)果表明DTX1和SLC2A3 在GBM中表達(dá)的上調(diào)可能是受增強(qiáng)子區(qū)域的低甲基化調(diào)控,從而導(dǎo)致疾病的發(fā)生與發(fā)展。
然而,這項(xiàng)研究有一些需要強(qiáng)調(diào)的局限性。GBM的樣本采集是一個(gè)問(wèn)題,這一缺陷可能會(huì)在一定程度上影響最終的結(jié)果。此外,本研究結(jié)果基于生物信息學(xué)分析。由于技術(shù)和時(shí)間限制,本研究沒(méi)有驗(yàn)證在GBM動(dòng)物模型和GBM患者腦組織中的結(jié)果。未來(lái)的功能研究和分子實(shí)驗(yàn)仍需進(jìn)一步探索其作用機(jī)制。
綜上,本研究通過(guò)構(gòu)建GBM中較為全面的增強(qiáng)子區(qū)域的甲基化譜,鑒定出GBM中表達(dá)可能受DMERs調(diào)控的PCGs,挖掘出與GBM預(yù)后相關(guān)的PCGs并加深對(duì)GBM中差異甲基化增強(qiáng)子調(diào)控模式的理解。同時(shí),本研究為在表觀遺傳方面識(shí)別潛在的GBM生物標(biāo)志物和治療靶點(diǎn)提供了新的思路。