彭慧,秦凱,戴宇翃,張孟賢,郭秋云
膠質瘤起源于神經(jīng)外胚層分化而來的膠質細胞,約占顱內原發(fā)腫瘤的70%,是中樞神經(jīng)系統(tǒng)最常見的原發(fā)性腫瘤。世界衛(wèi)生組織(WHO)將膠質瘤分為Ⅰ~Ⅳ級,級別越高,惡性程度越高,其中Ⅳ級膠質母細胞瘤(Glioblastoma, GBM)占所有膠質瘤的50%,惡性程度最高,經(jīng)過手術、放療、化療等綜合治療后,生存期仍僅有12~15月[1]。深入了解膠質母細胞瘤的分子機制是改善患者預后和識別新的預后生物標志物的關鍵。
長非編碼RNA(LncRNA)是長度超過200個核苷酸的轉錄物,這些核苷酸不翻譯成蛋白質,但在基因轉錄和mRNA翻譯中起調節(jié)作用[2-4]。越來越多的與癌癥發(fā)生發(fā)展有關的LncRNA被篩選出來[5]。世界上最大的腫瘤數(shù)據(jù)存儲和分析網(wǎng)站腫瘤基因組圖譜(Cancer Genome Atlas, TCGA)至今收錄了26種組織類型,共計33個癌種的11 000多名患者的腫瘤基因數(shù)據(jù),包括蛋白編碼基因、LncRNA、microRNA以及表觀遺傳學數(shù)據(jù)[6]。
本研究利用TCGA數(shù)據(jù)庫研究膠質母細胞瘤與正常組織的差異表達LncRNA,從中篩選與膠質母細胞瘤預后相關的LncRNA,建立膠質母細胞瘤預后風險評估的LncRNA模型,并在膠質母細胞瘤患者中進行驗證。
2018年12月20 日從TCGA數(shù)據(jù)庫中下載所有膠質母細胞瘤患者的基因表達譜數(shù)據(jù)及相關的臨床數(shù)據(jù)。
對下載的基因表達譜數(shù)據(jù)進行注釋,區(qū)分其中的蛋白編碼基因及LncRNA,使用R語言軟件edgeR包對下載的數(shù)據(jù)進行數(shù)據(jù)標準化,并篩選在膠質母細胞瘤組織和正常組織樣本中差異表達的LncRNA,篩選條件為logFC≥2或≤-2,F(xiàn)DR<0.05。對差異LncRNA采用單因素Cox回歸分析,依據(jù)P<0.001篩選影響患者生存的差異LncRNA,納入多因素Cox回歸分析建立LncRNA預后風險評分模型,并計算每位患者的風險評分(risk score, RS),依據(jù)評分中位值將患者分為高、低風險組,并進一步驗證風險評估模型。
應用R3.5.2軟件進行統(tǒng)計學分析及相應圖形繪制,edgeR包篩選差異基因,Survival包進行單因素和多因素Cox比例回歸模型篩選,并建立多基因預后模型。使用Survival ROC包計算受試者工作特征(ROC)曲線評價模型的有效性,并計算曲線下面積(AUC)。
從TCGA數(shù)據(jù)庫中下載得到膠質母細胞瘤表基因表達譜矩陣,包含腫瘤組織169份、正常組織標本5份,共33 800個基因的表達,其中LncRNA 14 143個。使用R語言edgeR包進行差異基因分析(logFC≥2或≤-2, FDR<0.05)得到差異基因7 978個,其中差異LncRNA 1 643個。根據(jù)FDR值排序前10位差異表達LncRNA,見表1。
表1 FDR排名前10的LncRNATable1 Top 10 LncRNA according to FDR
對篩選出的1 643個膠質母細胞瘤和正常組織的差異LncRNA進行單因素Cox回歸分析,依據(jù)P<0.001篩選得到影響患者生存的5個LncRNA,分別是ZEB1-AS1、AGAP2-AS1、NDUFB2-AS1、AL139385.1和AC022148.1,將上述5個基因納入多因素Cox回歸分析,構建模型得到基于4個LncRNA的多因素預后風險模型:風險得分=0.59×NDUFB2-AS1-0.41×ZEB1-AS1+0.31×AL139385.1+0.21×AGAP2-AS1,見表2、圖1。
K-M生存分析顯示高風險組預后顯著差于低風險組(P=7.707×10-8),見圖2。繪制模型的ROC曲線,見圖3,曲線下面積AUC=0.864,模型具有較好的靈敏度和特異性。多因素Cox模型中RS評分與相關LncRNA表達熱圖及生存時間點圖,見圖4,可見隨著RS值得升高,患者生存時間呈縮短趨勢,且死亡患者(圖中紅點顯示)明顯增多。
表2 差異LncRNA的單因素和多因素Cox回歸分析Table2 Univariate and multivariate Cox regression analyses of differentially-expressed LncRNA
圖1 多因素Cox回歸模型中4個LncRNA森林圖Figure1 Forest maps of four LncRNA in multivariate Cox regression model
圖2 高低風險組的K-M生存分析Figure2 K-M survival analysis of high and low risk groups
圖3 多因素Cox分析模型ROC曲線Figure3 ROC curve of multivariate Cox analysis model
近年來的研究顯示,LncRNA可以通過染色質修飾、轉錄和翻譯過程參與基因調控,在基因調控網(wǎng)絡中具有關鍵性作用。其在各種生理病理過程中,例如上皮-間充質轉化、組織再生和腫瘤發(fā)生等,具有廣泛作用[5,7-9]。研究證實,不受管制的LncRNA表達譜是癌癥的一個新特征,其豐度與腫瘤侵襲性和患者預后有顯著相關性[10-11]。
本研究從TCGA數(shù)據(jù)庫中膠質母細胞瘤表達譜數(shù)據(jù)和臨床生存數(shù)據(jù)進行統(tǒng)計分析得到基于4個LncRNA的多因素預后風險模型:風險得分RS=0.59×NDUFB2-AS1-0.41×ZEB1-AS1+0.31×AL139385.1+0.21×AGAP2-AS1。其中,ZEB1-AS1為保護性LncRNA,其余為危險性LncRNA。這4個LncRNA在其他腫瘤中的研究較少,Tian等[12]研究發(fā)現(xiàn)AGAP2-AS1在膠質母細胞瘤中表達高于鄰近正常腦組織,且高表達者總生存期更短。對膠質母細胞瘤細胞敲降AGAP2-AS1后,細胞的增殖侵襲能力明顯受到抑制。Qi等[13]在胃癌組織和細胞系中得到相似的結論,且研究顯示轉錄因子SP1可以激活AGAP2-AS1的表達,AGAP2-AS1通過與LSD1和EZH2相互作用并抑制CDKN1A(P21)和E-鈣黏蛋白轉錄而發(fā)揮致癌作用。Li等[14]研究顯示AGAP2-AS1在非小細胞肺癌中高表達,可能通過抑制腫瘤抑制因子LATS2和KLF2轉錄而作為癌基因發(fā)揮作用。
本研究經(jīng)過TCGA膠質母細胞瘤表達譜數(shù)據(jù)庫的挖掘,篩選出差異表達LncRNA并成功構建風險預測模型,用于計算膠質母細胞瘤患者的風險評分,可以較好地反應患者的預后,且模型有較好的敏感度和特異性,為膠質母細胞瘤的臨床預后判斷提供幫助,并為基礎研究提供更多可供選擇的生物標志物。然而本研究尚存在許多不足之處,首先模型的預測能力仍需大量多中心的循證醫(yī)學證據(jù)證實,其次納入模型的LncRNA在生物體內的功能尚不明確,其在膠質母細胞瘤發(fā)生發(fā)展中起的作用尚缺乏實驗證據(jù)的支持。