毛昀, 李林潞*,薛鵬,徐芃芃,褚雪鐳,姜朋媛,蔡亞芳,朱世杰
肺癌是世界范圍內(nèi)發(fā)病率和死亡率最高的惡性腫瘤之一[1],其中小細(xì)胞肺癌(small cell lung cancer, SCLC)作為神經(jīng)內(nèi)分泌腫瘤,約占全部肺癌的15%,5年生存率<6%,具有侵襲性強(qiáng)、易早期血行和淋巴轉(zhuǎn)移、病死率高等特點[2]。常規(guī)的治療方式包括化療、放療和手術(shù)等,化療是最主要的治療方式,但存在耐藥性、易復(fù)發(fā)等問題。在過去的幾十年中,SCLC患者的生存率沒有得到明顯改善,并且暫無分子靶向藥物被證明能夠明顯延長患者生存期[3]。SCLC相關(guān)基因及信號通路的改變促進(jìn)細(xì)胞增殖和抑制細(xì)胞凋亡,導(dǎo)致腫瘤細(xì)胞的早期轉(zhuǎn)移,如PI3K/AKT/mTOR通路中的PIK3CA、PTEN、Akt、RICTOR等基因的突變、甲基化或表達(dá)水平的變化[4],因此亟需進(jìn)一步探討SCLC分子機(jī)制,以期尋找SCLC早期診斷及靶向治療潛在的生物標(biāo)志物。近年來,基因芯片技術(shù)和生物信息學(xué)分析廣泛應(yīng)用于基因組學(xué)的研究,但由于SCLC侵襲性強(qiáng)、生存期短等特點導(dǎo)致相關(guān)基因芯片數(shù)據(jù)較少,如Rohrbeck等[5]分析肺癌mRNA的表達(dá)情況,發(fā)現(xiàn)CDK、NCAM1、DEK等基因的異常表達(dá)與SCLC的發(fā)生具有相關(guān)性。本研究整合公共基因芯片數(shù)據(jù)庫(Gene Expression Omnibus, GEO)中多個SCLC基因表達(dá)的芯片數(shù)據(jù)集,通過生物信息學(xué)技術(shù)尋找差異表達(dá)基因(differentially expressed genes, DEGs),進(jìn)行功能分析并構(gòu)建蛋白互作網(wǎng)絡(luò),從而更好地了解SCLC的分子機(jī)制。
利用NCBI(National Center for Biotechnology Information)平臺的GEO數(shù)據(jù)庫(http://www.ncbi.nlm.nih.gov/geo/)進(jìn)行基因芯片篩選,GEO是一個公開的基因組數(shù)據(jù)庫,包含了整個基因表達(dá)數(shù)據(jù)、芯片和微陣列。目標(biāo)芯片的準(zhǔn)入標(biāo)準(zhǔn):(1)臨床患者SCLC標(biāo)本,排除細(xì)胞株和動物實驗;(2)入選芯片需含有SCLC癌組織標(biāo)本和正常組織標(biāo)本;(3)僅為mRNA芯片,且已進(jìn)行標(biāo)準(zhǔn)化。
根據(jù)“1.1”納入標(biāo)準(zhǔn),確定目標(biāo)芯片后,利用在線工具GEO2R分析各個芯片數(shù)據(jù),設(shè)置篩選標(biāo)準(zhǔn)為:錯誤發(fā)現(xiàn)率(false discovery rate, FDR)<0.05,|log FC|>1(fold change, FC),并將目標(biāo)基因探針名稱轉(zhuǎn)化為標(biāo)準(zhǔn)基因名稱,對所篩選出的芯片進(jìn)行數(shù)據(jù)下載,并篩選出DEGs。
DAVID(Database for Annotation, Visualization and Integrated Discovery Database)生物信息資源數(shù)據(jù)庫整合了生物數(shù)據(jù)和分析工具,能夠?qū)蚝偷鞍踪|(zhì)進(jìn)行功能注釋。通過DAVID進(jìn)行在線分析,以人源基因為背景進(jìn)行基因本體(Gene Ontology, GO)和基因組百科全書數(shù)據(jù)庫(Kyoto Encyclopedia of Genes and Genomes, KEGG)對DEGs進(jìn)行富集分析,篩選出SCLC組織與正常組織之間有生物特征差異的基因簇和通路,并使用Cytoscape3.6.0軟件的插件BinGO繪制GO富集可視化互交網(wǎng)絡(luò)。
Cytoscape3.6.0作為生物信息學(xué)軟件平臺,通過構(gòu)建蛋白互作網(wǎng)絡(luò)將分子交互網(wǎng)絡(luò)可視化;本研究通過Cytoscape3.6.0軟件構(gòu)建DEGs的蛋白互作網(wǎng)絡(luò)以發(fā)現(xiàn)SCLC的關(guān)鍵基因。MCODE(Molecular Complex Detection Technology)是Cytoscape3.6.0軟件中對構(gòu)建的生物學(xué)網(wǎng)絡(luò)進(jìn)行關(guān)聯(lián)度分析的插件,根據(jù)關(guān)聯(lián)積分值,可獲得整個網(wǎng)絡(luò)中可能形成的蛋白質(zhì)簇和關(guān)鍵節(jié)點蛋白,并在Cytoscape3.6.0軟件中進(jìn)行可視化顯示。通過MCODE插件篩選核心基因的標(biāo)準(zhǔn)如下:degree cutoff=2,node score cutoff=0.2,k-core=2和max.depth=100。
通過GEO數(shù)據(jù)庫的挖掘,明確差異表達(dá)的核心基因,利用Kaplan-Meier在線網(wǎng)站(http://kmplot.com/analysis/)分析核心基因表達(dá)水平與預(yù)后的關(guān)系,并繪制生存曲線。
根據(jù)納入標(biāo)準(zhǔn)的要求,共篩選出2個符合要求的mRNA微陣列數(shù)據(jù)集,分別為GSE6044[5]和GSE40275(https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi)。GSE6044包含9例SCLC組織樣本和5例正常肺組織樣本,GSE40275包含8例SCLC組織樣本和14例正常肺組織樣本。17例SCLC者(男11例,女6例)年齡39~80歲,平均年齡(65.37±10.14)歲;19例正常肺組織樣本提供者(男9例,女10例)年齡38~80歲,平均年齡(67.69±7.23)歲。GEO2R分析發(fā)現(xiàn)2個數(shù)據(jù)集共表達(dá)的差異基因有248個,其中172個為高表達(dá)基因和76個低表達(dá)基因,本文列舉|log FC|最大的20個基因,見表1。
依據(jù)基因編碼的蛋白質(zhì)在細(xì)胞中的作用,GO分析將DEGs功能注釋的結(jié)果分為三類:生物過程、細(xì)胞組分和分子功能。通過Cytoscape3.6.0軟件繪制GO富集可視互作網(wǎng)絡(luò),其中細(xì)胞組分和分子功能部分結(jié)果見圖1。通過DAVID進(jìn)行在線分析,篩選FDR<0.05的結(jié)果,見圖2。在生物過程中,包括細(xì)胞分裂、G1/S有絲分裂細(xì)胞周期的轉(zhuǎn)變、DNA復(fù)制、有絲分裂核分裂、有絲分裂姐妹染色單體分離、DNA復(fù)制啟動、姐妹染色單體粘連、p53信號轉(zhuǎn)導(dǎo)調(diào)控、有絲分裂胞質(zhì)分裂、有絲分裂紡錘體組織、DNA修復(fù)、重組端粒維持、炎性反應(yīng)的調(diào)節(jié);在細(xì)胞組分中,包括核質(zhì)、細(xì)胞質(zhì)、細(xì)胞外泌體、細(xì)胞外空間、主軸、核、著絲粒、染色體、中體、濃縮染色體著絲粒以及微管;在分子功能中,包括與蛋白結(jié)合、與微管結(jié)合、與鈣依賴性蛋白結(jié)合、與受損DNA結(jié)合、與染色質(zhì)結(jié)合、與ATP結(jié)合以及與酶結(jié)合。
表1 |log FC|最大的20個差異表達(dá)基因Table1 Twenty differentially-expressed genes with the highest value of |log FC|
通過對腫瘤組織和正常肺組織的DEGs通路富集分析,結(jié)果表明DEGs主要集中在12條信號轉(zhuǎn)導(dǎo)通路上,包括細(xì)胞周期、卵母細(xì)胞減數(shù)分裂、DNA復(fù)制、錯配修復(fù)、堿基切除修復(fù)、核苷酸切除修復(fù)、補(bǔ)體和凝血級聯(lián)反應(yīng)、小細(xì)胞肺癌、癌癥通路、P53信號通路、HTLV-I感染、病毒致癌作用等,見表2。
通過Cytoscape3.6.0軟件構(gòu)建248個DEGs的蛋白互作網(wǎng)絡(luò),剔除孤立節(jié)點后,篩選出的DEGs共同構(gòu)成結(jié)構(gòu)復(fù)雜的多中心互作網(wǎng)絡(luò)。通過MCODE插件篩選出核心基因,明確核心基因有58個,其中節(jié)點度最高的6個基因如下:TOP2A(degree=95)、PCNA(degree=94)、RFC4(de-gree=83)、FEN1(degree=75)、CCNA2(degree=74)和MCM2(degree=74),見圖3。
圖1 GO分析可視化網(wǎng)絡(luò)Figure1 Visualization network of GO analysis
圖2 DEGs的GO功能富集分析結(jié)果Figure2 GO function enrichment analysis results of differentially-expressed genes
圖3 DEGs的蛋白網(wǎng)絡(luò)互作圖Figure3 Protein network interaction map of DEGs
表2 DEGs的KEGG通路富集分析Table2 KEGG pathway enrichment analysis results of differentially-expressed genes
利用Kaplan-Meier分析6個核心基因與肺癌預(yù)后之間的關(guān)系,結(jié)果顯示TOP2A、RFC4、FEN1、CCNA2、MCM2等基因高表達(dá)組的中位生存時間明顯短于低表達(dá)組,差異有統(tǒng)計學(xué)意義(P<0.5);PCNA高表達(dá)組與低表達(dá)組之間中位生存時間比較差異無統(tǒng)計學(xué)意義(P>0.5),見圖4。
SCLC具有惡性程度高、早期廣泛轉(zhuǎn)移等特點,廣泛期患者的生存時間僅為8至13月,2年生存率約為5%[6]。SCLC的耐藥性及高復(fù)發(fā)率主要是由于基因高突變率和基因組不穩(wěn)定性造成[7],研究表明P53和RB1是SCLC中突變頻率最高的基因,突變頻率分別為85%和57%,P53和RB1的突變預(yù)示著預(yù)后不良[8]。SCLC發(fā)病的分子機(jī)制尚未明確,迫切需要找到可用的潛在生物標(biāo)志物,而生物信息學(xué)能夠幫助我們探索SCLC基因?qū)用姘l(fā)生的變化、識別潛在的生物標(biāo)志物。
圖4 核心基因?qū)Ψ伟┗颊咧形簧鏁r間的影響Figure4 Effect of core gene on prognosis of lung cancer patients analyzed with Kaplan-Meier online tool
本研究通過GEO數(shù)據(jù)庫檢索獲得GSE6044和GSE40275兩個基因芯片數(shù)據(jù)集,原數(shù)據(jù)集均納入肺癌的各個病理類型進(jìn)行研究,但未對SCLC進(jìn)行單獨(dú)討論且樣本量較少。我們將兩個數(shù)據(jù)集進(jìn)行整合分析,擴(kuò)大樣本量,深入探討SCLC發(fā)生、發(fā)展的機(jī)制以及潛在的治療靶點。利用生物信息學(xué)進(jìn)行SCLC差異基因篩選,共獲得248個DEGs,包括172個高表達(dá)基因和76個低表達(dá)基因。在GO和KEGG富集分析中,高表達(dá)基因主要富集在細(xì)胞周期、DNA復(fù)制、卵母細(xì)胞減數(shù)分裂、癌癥途徑等通路,而低表達(dá)基因主要富集在錯配修復(fù)、堿基切除修復(fù)等通路。細(xì)胞損傷的累積常常導(dǎo)致細(xì)胞的異常增殖和基因組不穩(wěn)定[9]。細(xì)胞周期的失控是惡性腫瘤的標(biāo)志,在腫瘤的致癌或進(jìn)展過程中發(fā)揮重要作用[10]。DNA損傷主要通過錯配修復(fù)、堿基切除修復(fù)、核苷酸切除修復(fù)等途徑進(jìn)行修復(fù),相關(guān)基因的異常表達(dá)和甲基化導(dǎo)致DNA損傷的積累和腫瘤的發(fā)生[11]。此外,本研究發(fā)現(xiàn)部分DEGs還富集在補(bǔ)體和凝血級聯(lián)反應(yīng)、p53信號通路、化學(xué)致癌作用等通路。最近研究表明,補(bǔ)體系統(tǒng)是原發(fā)腫瘤和轉(zhuǎn)移靶向器官出現(xiàn)免疫抑制狀態(tài)的重要調(diào)控途徑[12-13]。雖然目前相關(guān)文獻(xiàn)還未明確闡述補(bǔ)體在惡性腫瘤中的作用,但有研究指出補(bǔ)體在腫瘤微環(huán)境中能夠招募及誘導(dǎo)免疫抑制細(xì)胞的聚集[14];此外,在肺癌小鼠模型中抑制補(bǔ)體的表達(dá)和阻斷程序性細(xì)胞死亡因子1具有協(xié)同抗腫瘤作用,可延緩腫瘤進(jìn)展[15]。
通過Cytoscape3.6.0軟件構(gòu)建DEGs的蛋白互作網(wǎng)絡(luò)圖,發(fā)現(xiàn)6個高表達(dá)的核心基因,Kaplan-Meier分析顯示TOP2A、RFC4、FEN1、CCNA2和MCM2的高表達(dá)預(yù)示著患者的預(yù)后不良。TOP2A是一種控制DNA拓?fù)錉顟B(tài)的酶,可催化雙鏈DNA斷裂并促進(jìn)有絲分裂期間的基因轉(zhuǎn)錄[16]。TOP2A通過zeste同源物2的增強(qiáng)子參與表觀遺傳的調(diào)控,TOP2A的異常表達(dá)與腫瘤的惡性特征相關(guān)[17]。在KEGG通路富集分析中MCM2、PCNA和CCNA2富集于細(xì)胞周期相關(guān)通路。MCM2亦稱為微小染色體維持蛋白2,作為惡性腫瘤增殖的生物標(biāo)志物,是ATP酶活性位點之一,其促進(jìn)ATP構(gòu)象變化并驅(qū)動DNA復(fù)制起點處的DNA解旋[18]。PCNA定位于細(xì)胞核,是細(xì)胞增殖過程中關(guān)鍵成分之一,在S1期高表達(dá),是DNA復(fù)制過程中DNA聚合酶的重要輔助因子[19]。EGF、HGFL等細(xì)胞生長因子通過C-Abl激酶提高PCNA的表達(dá)水平從而促進(jìn)細(xì)胞增殖[20]。PCNA在肺癌、乳腺癌等腫瘤中的表達(dá)水平明顯升高,能夠促進(jìn)腫瘤轉(zhuǎn)移并與患者的生存率相關(guān)[21]。CCNA2通過與蛋白激酶CDK2和CDK1的結(jié)合參與有絲分裂G1/S和G2/M期,促進(jìn)細(xì)胞增殖[22]。另外,本研究發(fā)現(xiàn)RFC4和FEN1富集于DNA復(fù)制相關(guān)通路。RFC4是復(fù)制因子C家族成員之一,主要參與DNA復(fù)制和細(xì)胞周期檢查點的調(diào)控,其高表達(dá)與腫瘤分化程度、TNM分期和預(yù)后相關(guān)[23]。FEN1是一種結(jié)構(gòu)特異性多功能核酸酶,在真核細(xì)胞的DNA復(fù)制和DNA代謝途徑中具有重要作用,被認(rèn)為是維持基因組穩(wěn)定性和防止腫瘤發(fā)生的關(guān)鍵基因[24];據(jù)報道FEN1在腫瘤細(xì)胞中突變導(dǎo)致核酸酶活性降低,并且70%的小鼠敲入突變的FEN1后在多個器官中發(fā)生惡性腫瘤[25];同樣,F(xiàn)EN1在肺癌組織中高度過表達(dá)[26]。
綜上所述,本研究通過GEO數(shù)據(jù)庫中的芯片數(shù)據(jù)深入挖掘DEGs及其靶蛋白,結(jié)果表明相關(guān)基因在SCLC的發(fā)生、轉(zhuǎn)移中起著重要作用,在基因?qū)用鏋閷ふ倚碌姆肿影悬c提供了一定的支持,也為實現(xiàn)SCLC的精準(zhǔn)治療提供了一個新思路,但還需進(jìn)一步實驗驗證相關(guān)結(jié)果。