趙 明,陳思禹,王鈺琦
食管癌(esophageal carcinoma, EC)包括腺癌和鱗狀細(xì)胞癌,是世界第八大常見癌癥,也是導(dǎo)致癌癥相關(guān)死亡的第六大原因[1,2]。大多數(shù)食管鱗狀細(xì)胞癌(esophageal squamous cell carcinoma,ESCC)患者是在病情發(fā)展到晚期才被診斷出來的,患者的生存率很低。雖然有改進的治療方案,但大多數(shù)ESCC患者的預(yù)后仍然很差,5年的長期生存率為5%~20%[3]。目前尚缺乏預(yù)測ESCC預(yù)后的有效生物標(biāo)志物,但對ESCC發(fā)生發(fā)展的表觀遺傳學(xué)和遺傳學(xué)機制的進一步了解表明,一種敏感、特異的甲基化生物標(biāo)志物有助于食管癌患者盡早開展臨床治療,從而改善預(yù)后[4]。DNA甲基化是基因沉默的一種機制,在胚胎發(fā)育、轉(zhuǎn)錄、基因組印記和X染色體失活等許多細(xì)胞和發(fā)育過程中發(fā)揮著重要作用[5-7]。據(jù)報道,一些腫瘤抑制基因,如CDKN2A、MGMT、RASSF1A和APC,在癌癥發(fā)展過程中由于啟動子的高甲基化而被沉默,在肺癌(lung cancer, LC)、乳腺癌(breast cancer, BC)和結(jié)直腸癌(colorectal cancer, CRC)中都有重要的作用[8-10]。在ESCC中,19%~88%的病例CDKN2A被甲基化[11,12]。DKK-3、RUNX-3和SFRP-1的高甲基化也會增加ESCC復(fù)發(fā)的風(fēng)險[13]。因此,本研究旨在通過TCGA數(shù)據(jù)庫ESCC甲基化數(shù)據(jù)分析出與生存相關(guān)的甲基化基因作為ESCC患者預(yù)后的生物標(biāo)志物,尋找潛在的治療靶點,為ESCC的治療提供科學(xué)依據(jù)。
1.1 一般資料 在TCGA數(shù)據(jù)庫下載ESCC全基因組甲基化level3數(shù)據(jù)及相應(yīng)的臨床信息。最終,96例ESCC樣本和3例正常樣本甲基化數(shù)據(jù)被納入研究,ESCC樣本臨床信息主要包括生存信息、年齡、性別和TNM分期等。將所有ESCC樣本隨機分為訓(xùn)練組和驗證組。
1.2 構(gòu)建甲基化基因生物標(biāo)志物 在ESCC樣本和正常樣本中進行差異甲基化基因篩選,認(rèn)定甲基化值(beta value)>0.1、差異倍數(shù)在2倍以上(|Fold Change|≥2)并且校正后的P值(FDR)≤0.05為差異甲基化基因。通過單因素Cox比例風(fēng)險回歸分析來篩選出訓(xùn)練組中與生存相關(guān)的差異甲基化基因。一般認(rèn)為,模型的甲基化基因數(shù)量越少,模型越實用,因此筆者采用隨機生存森林(random survival forest-variable hunting, RSFVH)算法和多因素Cox回歸分析篩選出甲基化基因標(biāo)志物。進而采用多因素Cox回歸分析建立模型,該模型能夠根據(jù)如下表達評估預(yù)后風(fēng)險:
其中,N為判斷預(yù)后的DNA甲基化基因數(shù)量,Meth代表基因DNA甲基化值,Coef為單因素Cox回歸系數(shù)。
1.3 統(tǒng)計學(xué)處理 訓(xùn)練組中,風(fēng)險分?jǐn)?shù)平均值作為臨界值將ESCC患者分為高風(fēng)險組與低風(fēng)險組,采用Kaplan-Meier法繪制生存曲線來預(yù)測總生存率,并使用時序檢驗(log- rank test)來檢驗高、低風(fēng)險組生存曲線是否存在差異,P值(FDR)≤0.05為存在差異,P值越小差異越顯著。然后使用時間依賴性ROC曲線來評估該預(yù)后模型的預(yù)測能力。本研究將鑒定的生物標(biāo)志物與其他臨床參數(shù)共同納入多因素Cox回歸分析來評估其獨立預(yù)后價值。在驗證組中使用時間依賴性ROC曲線和Kaplan-Meier生存分析驗證甲基化基因標(biāo)志物的預(yù)測能力。
1.4 DNA甲基化生物標(biāo)志物基因功能注釋 通過基因功能(gene ontology,GO)注釋來研究所有選擇標(biāo)志物基因的功能,以進一步了解所選標(biāo)志物基因的預(yù)測能力,設(shè)定閾值P<0.05。
2.1 樣本情況 數(shù)據(jù)處理后,將96例ESCC樣本隨機分為驗證組32例,訓(xùn)練組64例?;颊叩囊话阗Y料見表1。
表1 96例食管鱗狀細(xì)胞癌患者一般資料 (n;%)
2.2 鑒定ESCC預(yù)后相關(guān)甲基化基因 通過差異甲基化基因篩選,共篩選到差異甲基化基因283個。單因素Cox比例風(fēng)險回歸分析基因甲基化水平與生存時間的關(guān)系,鑒定出51個甲基化基因與患者的總生存時間均有顯著的相關(guān)性(P< 0.05)。通過隨機生存森林和多因素Cox回歸分析,我們鑒定出4個預(yù)后相關(guān)甲基化基因并建立了ESCC預(yù)后標(biāo)志物模型,這4個基因分別是RRAGB、SYP、ERCC6L和RNASEH2CP1。
2.3 甲基化基因生物標(biāo)志物預(yù)測能力驗證 每個ESCC患者的風(fēng)險評分如下:RS=(-0.31×methRRAGB)+(-0.31×methSYP)+(0.30×methERCC6L)+(0.28×methRNASEH2CP1)
每個患者從所選擇的甲基化基因標(biāo)志物中得到一個風(fēng)險評分,以中位風(fēng)險評分作為臨界值,將訓(xùn)練組患者分為低風(fēng)險組(n=32)和高風(fēng)險組(n=32)。Kaplan-Meier生存分析顯示,低風(fēng)險組患者總生存期明顯長于高風(fēng)險組(OS: 1.47年vs0.92年, log-rank testP<0.001,圖1A)。在驗證組中得到相似的結(jié)果,高風(fēng)險組患者的總生存期明顯短于低風(fēng)險組(OS:1.25年vs1.39年,log-rankP=0.03,圖1B)。通常認(rèn)為,ROC曲線下面積(AUC值)越大,預(yù)測模型越好。在訓(xùn)練組中,4個甲基化基因生物標(biāo)志物的AUC值為0.984(圖1C),預(yù)測能力較高。
并在驗證組中得到驗證(AUC標(biāo)志物=0.83,圖1D)。
將鑒定的甲基化基因生物標(biāo)志物和其他臨床特征(性別、年齡、TNM分期等)結(jié)合進行多因素Cox回歸分析,結(jié)果表明,筆者鑒定的甲基化基因生物標(biāo)志物是獨立的預(yù)后因子(高風(fēng)險組與低風(fēng)險組,危險比HR=4.83, 95%CI: 1.74~13.40,P=0,n=64,表2),其他臨床特征無關(guān)。同樣的結(jié)果也在驗證組中出現(xiàn)(高風(fēng)險組vs低風(fēng)險組,HR=1.80,95%CI:0.87~3.70,P=0.03,n=32,表2)。
2.4 甲基化基因生物標(biāo)志物基因功能注釋 GO功能注釋顯示,預(yù)后相關(guān)的甲基化生物標(biāo)志物基因顯著富集在轉(zhuǎn)錄和轉(zhuǎn)錄調(diào)控、DNA結(jié)合、鏈特異性DNA結(jié)合等方面。表明這些預(yù)后相關(guān)基因可能通過調(diào)控轉(zhuǎn)錄和DNA結(jié)合等方面來調(diào)控ESCC的預(yù)后。
圖1 甲基化基因生物標(biāo)志物預(yù)測肺腺癌患者預(yù)后
A.訓(xùn)練組高風(fēng)險組與低風(fēng)險組Kaplan-Meier生存曲線;B.驗證組高風(fēng)險組與低風(fēng)險組Kaplan-Meier生存曲線;C.訓(xùn)練組ROC曲線;D.驗證組ROC曲線
表2 訓(xùn)練組和驗證組4個甲基化基因與ESCC患者生存的單變量和多變量Cox回歸分析
食管癌是消化系統(tǒng)最常見的惡性腫瘤之一,死亡率高,預(yù)后差。盡管有放化療或手術(shù)治療,食管癌的預(yù)后仍然很差,總生存率很低[14]。在ESCC的發(fā)生和發(fā)展過程中,已經(jīng)發(fā)現(xiàn)了表觀遺傳和遺傳畸變在其中的重要作用。隨著基因分析技術(shù)的迅速發(fā)展,我們可以進一步研究ESCC的分子特征,為其預(yù)后和治療分子靶點提供有價值的證據(jù)。
近年來,表觀遺傳學(xué)與腫瘤發(fā)生的關(guān)系研究一直是分子生物學(xué)研究的熱點之一。表觀遺傳學(xué)是核苷酸序列沒有改變,而是通過DNA甲基化、染色體重構(gòu)和組蛋白去乙酰化發(fā)揮作用。并且,越來越多的證據(jù)表明,異常的DNA甲基化與腫瘤的發(fā)生和發(fā)展有關(guān)。例如,Gao等[15]建立了評估肺腺癌患者的預(yù)后風(fēng)險模型,研究了預(yù)后較差的關(guān)鍵基因異常甲基化位點與預(yù)后的關(guān)系。此外,F(xiàn)an等[16]利用GEO數(shù)據(jù)庫研究異常甲基化基因作為肝癌的生物標(biāo)志物[17]。許多研究表明,DNA甲基化與ESCC相關(guān)。因此,研究ESCC進展的表觀遺傳學(xué)變化及其分子機制對ESCC的預(yù)后預(yù)測和治療具有重要意義。異常基因甲基化分析的穩(wěn)定性和獨立性使其成為預(yù)測預(yù)后生物標(biāo)志物的一種可行方法[18]。文獻[19-21]研究表明,DNA異常甲基化會影響基因參與DNA損傷、細(xì)胞周期、Wnt、NF-κB信號通路,這些基因包括P16、DACH1和ZNF382。此外,其他研究表明,甲基化FHIT與早期ESCC預(yù)后不良有關(guān)[22]。因此,對異常甲基化DNA分子功能富集和預(yù)后價值的生物信息學(xué)分析可以為臨床醫(yī)師提供參考有前景的工具來預(yù)測預(yù)后和治療患者。
本研究系統(tǒng)分析了ESCC甲基化數(shù)據(jù),通過差異甲基化基因鑒定,共鑒定了283個差異甲基化基因,然后通過單因素Cox回歸分析,找到了51個與ESCC生存相關(guān)的差異甲基化基因。筆者采用隨機生存森林算法來提取預(yù)后相關(guān)的甲基化基因并縮小基因數(shù)。隨機生存森林算法是基于決策樹集合的多數(shù)投票預(yù)測,利用最大子樹進行有效的變量選擇。利用基因重要性準(zhǔn)則對原始基因集進行迭代過濾,在標(biāo)志物選擇方面取得了較好的效果,實現(xiàn)了更大的穩(wěn)定性和更準(zhǔn)確的預(yù)測。最后,確定了一個由4個甲基化基因組成的新型甲基化基因生物標(biāo)志物。筆者選擇的生物標(biāo)志物可以在訓(xùn)練組和驗證組中將ESCC患者分為生存時間顯著不同的高風(fēng)險組和低風(fēng)險組,表明其具有強大的預(yù)測能力。通過多因素Cox回歸分析,以年齡、TNM分期和性別為協(xié)變量,證實甲基化基因標(biāo)志物的風(fēng)險得分與總生存期保持獨立相關(guān),不受其他臨床因素的影響。ROC曲線訓(xùn)練組中的AUC值是0.984,而驗證組中AUC值是0.83,進一步證明了筆者鑒定的甲基化基因標(biāo)志物是一個高精度的預(yù)后標(biāo)志物,具有重要的臨床價值。
此外,筆者分析了作為生物標(biāo)志物的甲基化基因的功能。GO功能注釋主要集中在轉(zhuǎn)錄、轉(zhuǎn)錄調(diào)控、DNA結(jié)合和鏈特異性DNA結(jié)合等功能。RRAGB可作為各種信號轉(zhuǎn)導(dǎo)通路的分子開關(guān),尤其是調(diào)控mTOR信號通路起著關(guān)鍵作用,而mTOR的激活促進腫瘤生長和轉(zhuǎn)移[23]。SYP可作為神經(jīng)內(nèi)分泌前列腺癌的生物標(biāo)志物[24]。下調(diào)MDA-MB-231細(xì)胞中ERCC6L的表達水平,可顯著抑制乳腺癌細(xì)胞增殖,擾亂細(xì)胞周期分布,誘導(dǎo)細(xì)胞凋亡。這些發(fā)現(xiàn)提示ERCC6L作為癌基因在乳腺癌中表達較高,參與乳腺癌的發(fā)生發(fā)展,可能成為治療乳腺癌的一個新的分子靶點[25]。RNASEH2CP1的報道較少,可能是食管癌中一個新的甲基化標(biāo)志物,需要我們繼續(xù)進行研究。
綜上所述,筆者已經(jīng)識別并成功驗證了ESCC患者的甲基化基因生物標(biāo)志物,并且這個甲基化標(biāo)志物具有很高的預(yù)后預(yù)測準(zhǔn)確率,表明該標(biāo)志物可能具有較好的臨床意義。