何 心,秦至臻,李 鑫,趙水強(qiáng),程 誠,王 震,封耀輝,邱險(xiǎn)峻,楊書芹,王建禎
膠質(zhì)瘤是中樞神經(jīng)系統(tǒng)常見的惡性腫瘤,占顱內(nèi)惡性腫瘤的30%~50%。其中膠質(zhì)母細(xì)胞瘤(glioblastoma,GBM)的致殘率和死亡率最高。GBM呈高度的侵襲性生長,手術(shù)難以完全切除,術(shù)后易復(fù)發(fā)。對GBM發(fā)生、發(fā)展機(jī)制的研究仍是醫(yī)學(xué)界的一個(gè)重要課題。高通量基因芯片和測序技術(shù)的發(fā)展,為研究GBM的基因表達(dá)譜、發(fā)現(xiàn)GBM組織中基因表達(dá)與正常腦組織的差異、尋找關(guān)鍵基因提供了一種方法。許多學(xué)者已經(jīng)應(yīng)用生物信息學(xué)的方法研究了一些與GBM發(fā)生、發(fā)展相關(guān)基因的特征,并對探索GBM患者的治療方法和改善預(yù)后具有一定的指導(dǎo)作用[1-3]。本研究利用生物信息學(xué)的方法,通過對GBM基因表達(dá)譜芯片數(shù)據(jù)的整理,篩選出與GBM相關(guān)的關(guān)鍵(HUB)基因,以期獲得更多有關(guān)GBM發(fā)生、發(fā)展的生物學(xué)信息及相關(guān)分子機(jī)制,為GBM的基礎(chǔ)研究提供新的思路。
1.1 材料 利用美國國立生物技術(shù)信息中心(NCBI)平臺下的基因表達(dá)綜合數(shù)據(jù)庫(gene expression omnibus,GEO),檢索含有人源GBM樣本的基因表達(dá)譜數(shù)據(jù)芯片,選取含有GBM組織學(xué)標(biāo)本和正常腦組織對照研究的芯片數(shù)據(jù)集:GSE7696、GSE19728、GSE4290、GSE50161作為研究對象。芯片類型為Affymetrix Human Genome U133 Plus 2.0 Array,納入研究芯片共包含 GBM組織194例,正常腦組織44例。
1.2 差異表達(dá)基因篩選 下載GSE7696、GSE19728、GSE4290、GSE50161研究芯片數(shù)據(jù)RAW數(shù)據(jù)集文件,每組研究數(shù)據(jù)應(yīng)用R語言bioconductor包完成數(shù)據(jù)的預(yù)處理,所有研究芯片歸一化方法統(tǒng)一采用Robust Multi-Array Average(RMA)方法,最后獲得每組研究對象的基因表達(dá)矩陣。隨后應(yīng)用limma包計(jì)算每組數(shù)據(jù)集中GBM和正常腦組織的基因表達(dá)差異,差異基因的篩選標(biāo)準(zhǔn)為Pvalue<0.01,|log FC|>2。應(yīng)用affy包將基因探針名稱轉(zhuǎn)化為標(biāo)準(zhǔn)基因名稱。得到4組數(shù)據(jù)集中各自的差異基因后,取4組差異基因的交集作為最終差異表達(dá)基因進(jìn)行后續(xù)研究。
1.3 基因功能富集和注釋 篩選出最終差異表達(dá)基因后,將這些基因通過 DAVID數(shù)據(jù)庫進(jìn)行基因注釋,注釋內(nèi)容包括分子功能、細(xì)胞學(xué)組分、生物學(xué)過程,注釋結(jié)果選擇標(biāo)準(zhǔn)為P<0.05。并利用KEGG(Kyoto Encyclopedia of Genes and Genomes)信號通路數(shù)據(jù)庫進(jìn)行信號通路的富集,尋找差異表達(dá)基因所富集的關(guān)鍵信號通路,篩選標(biāo)準(zhǔn)為P<0.05。
1.4 差異表達(dá)基因的相互作用分析 通過 STRING 10.5 數(shù)據(jù)庫,構(gòu)建GBM差異表達(dá)基因蛋白質(zhì)相互作用 (protein protein interaction, PPI) 網(wǎng)絡(luò),并應(yīng)用 Cytoscape 3.6.1 軟件進(jìn)行可視化分析。使用 Cyto Hubba 插件應(yīng)用Betweenness、 Closeness、DEGREE、EcCentricity、MCC、MNC、Radiality和Stress共8種算法計(jì)算HUB基因。取每種算法中前50個(gè)基因,將各算法得到的基因取交集篩選出最終HUB基因。
1.5 差異表達(dá)基因的預(yù)后價(jià)值分析 利用TCGA在線分析數(shù)據(jù)庫UALCAN,分析TCGA數(shù)據(jù)庫中163例GBM患者在差異表達(dá)基因表達(dá)水平影響下的總生存期(overall survival,OS)的差異情況。在TCGA數(shù)據(jù)庫中將本研究中得到的基因按照基因表達(dá)水平的25%分位值分為高表達(dá)組和低表達(dá)組,應(yīng)用Kaplan-Meier 生存分析方法,逐個(gè)基因分析其對GBM患者OS的影響,計(jì)算危險(xiǎn)比(HR)及其 95%置信區(qū)間,繪制生存曲線,P<0.05視為存在生存期差異。
2.1 差異基因表達(dá)分析 應(yīng)用R軟件對各組芯片數(shù)據(jù)進(jìn)行基因表達(dá)差異分析后,GSE19728數(shù)據(jù)集得到差異表達(dá)基因1458個(gè)、GSE4290數(shù)據(jù)集得到差異表達(dá)基因1628個(gè)、GSE50161數(shù)據(jù)集得到差異表達(dá)基因2417個(gè),GSE7696數(shù)據(jù)集得到差異表達(dá)基因1489個(gè),各組基因數(shù)據(jù)集的臨床信息見表1。各組數(shù)據(jù)集差異表達(dá)基因取交集,最終得到差異表達(dá)基因628個(gè),其中上調(diào)基因87個(gè),下調(diào)基因541個(gè)(圖1)。
圖1 各組數(shù)據(jù)集中GBM芯片差異表達(dá)基因韋恩圖
包含樣本數(shù)量(例)膠質(zhì)母細(xì)胞瘤腦組織對照性別(男/女)膠質(zhì)母細(xì)胞瘤腦組織對照年齡(歲)膠質(zhì)母細(xì)胞瘤腦組織對照GSE769679452/473/156.26±8.8332.2±4.31GSE19728543/22/260.28±10.544.7±6.83GSE4290762333/4315/861.43±5.8155.73±6.83GSE50161341314/209/464.88±7.2231.25±8.37合計(jì)19444102/9229/1560.71±7.3240.97±6.57
2.2 GO 富集分析及KEGG富集分析 通過對628個(gè)差異表達(dá)基因 GO 富集分析發(fā)現(xiàn),差異基因分子功能(molecular function,MF)顯著富集在syntaxin-1綁定、離子通道綁定、鈣離子結(jié)合等方面。細(xì)胞學(xué)組分(cellular components,CC)主要為突觸后膜、突觸、細(xì)胞連接等部位。生物學(xué)過程(biological process,BP)主要富集在神經(jīng)遞質(zhì)分泌、胞外分泌的監(jiān)管、化學(xué)突觸傳遞等方面。進(jìn)一步對差異表達(dá)基因進(jìn)行 KEGG 通路富集分析發(fā)現(xiàn),差異表達(dá)基因主要富集于GABA信號通路、嗎啡相關(guān)信號通路、逆神經(jīng)信號通路(圖2)。
圖2 差異基因表達(dá)GO 富集分析及KEGG富集分析
2.3 蛋白質(zhì)相互作用網(wǎng)絡(luò)的構(gòu)建和HUB基因分析 去除游離于網(wǎng)絡(luò)的蛋白影響后,得到了由510個(gè)點(diǎn),3157 條邊構(gòu)成的PPI網(wǎng)絡(luò)。應(yīng)用 Cyto Hubba 插件分析最終得到了SYNPR、DNM1、RBFOX1、OPCML、GRM5、SYT1、KCNJ9、GABRD、CA10、SLC17A7、PVALB、NEUROD6、GABRB2、CHRM1、SNAP91、SYT4、KCNA1、SNCB和SYN2共19個(gè)HUB基因。KEGG注釋顯示HUB基因富集的主要信號通路集中在逆行神經(jīng)的信號通路、突觸囊泡循環(huán)通路及GABA相關(guān)通路等(表3)。
表3 HUB基因參與的信號通路富集分析
2.4 HUB基因的預(yù)后價(jià)值分析 應(yīng)用TCGA在線分析工具分析163例GBM患者的預(yù)后數(shù)據(jù)和基因表達(dá)數(shù)據(jù)。在得到的19個(gè)HUB基因中篩選出能夠顯著影響患者OS的基因。結(jié)果顯示在19個(gè)HUB基因中,僅GABRD 的低表達(dá)能夠顯著延長GBM患者 OS(P<0.05,圖4)。
圖4 兩組患者生存曲線
惡性腫瘤與正常組織中基因的異常表達(dá)與調(diào)控,對腫瘤的發(fā)生和發(fā)展有重要的意義。將多組惡性腫瘤中的差異表達(dá)基因進(jìn)行比較,尋找共同存在的差異表達(dá)基因,是基因數(shù)據(jù)挖掘中尋找差異表達(dá)基因的經(jīng)典方法。許多差異基因可以作為腫瘤特有的標(biāo)志,以便于臨床上對惡性腫瘤的識別與診斷[4, 5]。GBM患者生存期短,治療方法和藥物有限,病情發(fā)生和發(fā)展一直是顱內(nèi)腫瘤的研究熱點(diǎn)[6],2016年世界衛(wèi)生組織已經(jīng)將膠質(zhì)瘤分子病理正式列入膠質(zhì)瘤的病理診斷[7]。對GBM組織和正常腦組織差異表達(dá)基因的研究有助于在臨床上對GBM病理進(jìn)行精確定性、對患者預(yù)后進(jìn)行判斷和對化療藥物敏感性進(jìn)行初步的評估[8-10]。許多學(xué)者應(yīng)用差異基因比較的方法,尋找到了影響GBM患者預(yù)后的相關(guān)基因[1, 3, 4]。但由于他們在各自的研究中納入的研究數(shù)據(jù)集不同,各數(shù)據(jù)集中芯片平臺存在差異及對芯片數(shù)據(jù)的歸一化處理方法不同,所得到的結(jié)果是存在差異的。在本研究中,筆者選取了GEO數(shù)據(jù)庫中的4組含有GBM組織和正常腦組織的全基因表達(dá)譜芯片作為研究對象。為了減少不同芯片平臺、核苷酸探針設(shè)計(jì)差異對基因表達(dá)檢測的影響,本研究中納入的數(shù)據(jù)集均選用來自GPL570平臺的昂飛人類全基因組表達(dá)譜芯片(Affymetrix U133 Plus2.0)數(shù)據(jù)集作為研究對象。所有芯片研究數(shù)據(jù)在完成質(zhì)控后,應(yīng)用統(tǒng)一的RMA算法進(jìn)行歸一化,最終將各組差異基因取交集得到了628個(gè)差異表達(dá)基因,其中87個(gè)上調(diào)基因,541個(gè)為下調(diào)基因。通過 GO 和 KEGG 富集分析,發(fā)現(xiàn)差異基因與離子通道綁定、鈣離子結(jié)合、神經(jīng)遞質(zhì)分泌、胞外分泌的監(jiān)管、化學(xué)突觸傳遞等方面密切相關(guān)。許多研究證實(shí),在GBM發(fā)生、發(fā)展過程中有細(xì)胞自分泌與旁分泌過程參與,腫瘤細(xì)胞與細(xì)胞外基質(zhì)共同構(gòu)成腫瘤生長的微環(huán)境,在調(diào)節(jié)GBM細(xì)胞增殖、遷移等過程到至關(guān)重要的作用,這與本研究得到的結(jié)果類似[11-14]。在本組研究中,通過對PPI網(wǎng)絡(luò)的分析,發(fā)現(xiàn)了19個(gè)網(wǎng)絡(luò)中的HUB基因,其中DNM1、RBFOX1、GABRD基因等,均參與腫瘤與細(xì)胞外基質(zhì)的作用,且與多種腫瘤的發(fā)生、發(fā)展密切系相關(guān)[15-18]。本研究提示,這些基因可能也在GBM的生物學(xué)過程中發(fā)揮至關(guān)重要的作用。
應(yīng)用TCGA數(shù)據(jù)庫進(jìn)行生存分析發(fā)現(xiàn),在篩選出的19個(gè)HUB基因中GABRD基因的表達(dá)水平會顯著影響GBM患者總生存期。GABRD又名r-氨基丁酸A型受體亞基,其能夠與哺乳動物大腦中主要的抑制性神經(jīng)遞質(zhì)r-氨基丁酸(GABA)結(jié)合調(diào)控的氯離子通道。研究報(bào)道GABA的代謝狀況能夠影響膠質(zhì)瘤的增殖和預(yù)后[19],而且GABA神經(jīng)遞質(zhì)代謝過程的改變能夠顯著影響GBM細(xì)胞的侵襲性表型[20]。本研究中KEGG 通路富集分析發(fā)現(xiàn),差異表達(dá)基因主要富集于GABA信號通路、嗎啡相關(guān)信號通路、逆神經(jīng)信號通路等。這也提示GABA信號在GBM的發(fā)展中起到了關(guān)鍵的作用。本研究中雖然除GABRD基因外的HUB基因在統(tǒng)計(jì)上并不能影響GBM患者的總生存期,但是它們可能會以其他的形式在GBM的發(fā)生、發(fā)展中起到作用。這還有待進(jìn)一步的研究。
綜上所述,本研究應(yīng)用生物信息學(xué)的方法對GBM的多組芯片數(shù)據(jù)進(jìn)行挖掘。利用差異基因的表達(dá)分析,最終尋找出HUB基因。這些基因信息有助于我們對GBM的發(fā)生、發(fā)展和轉(zhuǎn)移的分子過程有進(jìn)一步認(rèn)識,并且可以為研究GBM提供潛在的生物標(biāo)志物及靶點(diǎn)。有助于全面了GBM發(fā)生、發(fā)展的潛在分子機(jī)制,并為后續(xù)的實(shí)驗(yàn)研究提供指導(dǎo)。