雷昌達,張 靜*,朱云清,許紹嫻,李 妍
(1.延安大學醫(yī)學院,陜西 延安 716000;2.陜西省人民醫(yī)院,陜西 西安 710068;3.陜西省核工業(yè)二一五醫(yī)院,陜西 咸陽 712000)
肝癌是世界范圍內(nèi)常見的惡性腫瘤,也是癌癥相關死亡的第二大原因,男性患者的發(fā)病率高于女性且預后較差,男女發(fā)病率比例約為3~8∶1[1-2]。肝癌在中國更為常見,一直是癌癥死亡的主要原因[3]。慢性乙型肝炎病毒(hepatitis B viral,HBV)和丙型肝炎病毒(hepatitis C viral,HCV)感染是肝癌的主要危險因素[4]。隨著診斷技術的快速發(fā)展,肝癌的早期診斷方法也越來越多。目前,肝癌常用的治療方法有手術切除、放療、化療和靶向治療等,這些方法均與患者的良好預后、延長復發(fā)時間相關[5]。然而,由于其高復發(fā)率、快速進展和較短的總生存期(overall survival,OS),肝癌患者的預后并不令人滿意[6]。在臨床上,甲胎蛋白mRNA已被用作肝癌的潛在預后生物標志物,但是其依賴于腫瘤負荷,臨床診斷應用有一定的局限性,價值評估也不完整[7]。生物信息學分析已廣泛用于篩選有助于疾病進展、治療反應和預后的生物分子。基于微陣列技術的基因表達分析是一種應用廣泛、高通量、功能強大的研究方法,可以在mRNA水平同時檢測數(shù)千個基因的表達變化。通過基因表達譜分析和微陣列技術,一些研究發(fā)現(xiàn)在病灶表達有顯著差異的許多基因在肝癌的發(fā)生和發(fā)展中起著關鍵作用,可以被評估為潛在的分子靶點和診斷標記物[5]。Li等人[8]通過基因表達分析證明CYP2C8是一種潛在的肝癌預后標志物。Tang等[9]利用綜合生物信息學分析鑒定與乙型肝炎病毒相關性肝癌診斷和預后相關的樞紐基因,發(fā)現(xiàn)TOP2A和KIF11是HBV-HCC關鍵預后基因。面對肝癌發(fā)生發(fā)展的復雜分子機制及在男性高發(fā)的特點,有必要進一步發(fā)揮生物信息學優(yōu)勢,篩選和識別新的肝癌預后標志物。
本研究利用生物信息學方法篩選GEO數(shù)據(jù)庫中男性肝癌患者的差異表達基因,進一步進行GO和KEGG功能富集分析,利用Cytoscape軟件對蛋白質-蛋白質相互作用(protein-protein interaction,PPI)網(wǎng)絡進行關鍵基因的獲取,鑒定出男性肝癌患者中的關鍵基因,為肝癌患者的個性化診斷和治療提供新的思路。
男性肝癌患者和健康對照組的GSE19665和GSE84402組織基因表達譜在NCBI-GEO進行下載(https://www.ncbi.nlm.nih.gov/geo)。GSE19665的RNA序列數(shù)據(jù)包含9名男性肝細胞癌患者和9名男性健康對照者。GSE84402的RNA序列數(shù)據(jù)包含9名男性肝細胞癌患者和9名男性健康對照者。納入標準:①被診斷為男性肝癌患者;②數(shù)據(jù)類型為Expression profiling by array。
將樣本分為健康組和男性肝癌組,利用GEO2R在線工具對數(shù)據(jù)集進行差異分析。差異表達基因的篩選標準為:|log2FC|>2且adjP<0.01。用火山圖對差異表達基因進行可視化,Veen圖對兩個數(shù)據(jù)集共有的差異表達基因進行取交集。
DAVID用于注釋、可視化和集成發(fā)現(xiàn)的數(shù)據(jù)庫(DAVID,http://david.abcc.ncifcrf.gov/)是一種經(jīng)常用于功能注釋和通路分析的公共生物資源[10]。為了充分了解DEGs的生物學功能,應用DAVID數(shù)據(jù)庫進行GO和KEGG途徑富集分析。P<0.05和count>5被認為是顯著差異的閾值。
為了進一步研究肝癌的潛在分子機制,利用STRING數(shù)據(jù)庫構建了差異表達基因的PPI網(wǎng)絡(http://www.string-db.org/)(high confidence:0.900),然后由Cytoscape軟件(version 3.5.0)進行可視化。默認參數(shù)設置為:Degree cutoff ≥2, node score cutoff ≥2, Kcore ≥2 and maximum depth=100。
Cytoscape插件CytoHubba為探索生物網(wǎng)絡中的重要節(jié)點提供了一個用戶友好的界面。cytoHubba根據(jù)nodes在網(wǎng)絡中的屬性進行排名,它提供了11種拓撲分析方法。此外,研究人員能夠將cytoHubba和其他插件結合到一個新的分析方案中。這種拓撲分析策略捕獲的網(wǎng)絡和子網(wǎng)絡將為實驗生物學家?guī)黻P于基本調控網(wǎng)絡和蛋白質藥物靶點的新見解[11]。然后通過Cytoscape插件CytoHubba計算所有節(jié)點的度,度>10的基因被認為是關鍵基因。
GEPIA(http://gepia.cancer-pku.cn/)是一個開源癌癥大數(shù)據(jù)分析網(wǎng)站,其數(shù)據(jù)來源主要是癌癥基因組圖譜數(shù)據(jù)庫(TCGA)和基因型正常組織表達數(shù)據(jù)庫(GTEx)。網(wǎng)站可對369例肝癌組織和160例正常組織的差異表達進行分析[12]。本研究使用GEPIA對關鍵基因在TCGA中進行驗證與分析。
Kaplan-Meierplotte(http://kmplot.com/analysis)是一個腫瘤預后分析網(wǎng)站,提供生存生物標志物的在線驗證,并分析某些基因高表達和低表達患者的總體生存率。在該研究中,對關鍵基因進行生存曲線繪制,危險比(hazardratio,HR)>1和LogrankP<0.05作為判斷標準。
本研究利用GEO2R分別對GSE19665和GSE84402兩個數(shù)據(jù)集中的18例男性肝細胞癌患者和18例健康對照者的測序數(shù)據(jù)進行差異分析。在GSE19665中篩出701個差異基因,其中645個表達上調,56個表達下調;GSE19665中篩出321個差異基因,其中212個表達上調,109個表達下調;樣本信息以及差異表達基因結果如圖1A。對兩個數(shù)據(jù)集的差異基因取交集后,共得到162個差異基因,結果如圖1B。
圖1 男性肝癌患者的差異基因的篩選
在DAVID數(shù)據(jù)庫中對162個差異表達基因進行GO和KEGG功能富集分析,結果如圖2所示。差異表達基因的GO功能富集主要從三個方面進行(圖2A):在生物學過程(biological process,BP)分析中,差異表達基因主要參與有絲分裂核分裂(mitotic nuclear division)、細胞分裂(cell division)、有絲分裂細胞周期的G2/M轉換(G2/M transition of mitotic cell cycle)、氧化還原法(oxidation-reduction process)和姐妹染色單體內(nèi)聚性(sister chromatid cohesion);細胞成分(cellular component,CC)分析中,差異表達基因主要組成中間體(midbody)、胞外區(qū)(extracellular region)、著絲粒區(qū)染色體(chromosome, centromeric region)、細胞外間隙(extracellular space)和血液微粒(blood microparticle);分子功能(molecular function,MF)分析中,差異表達基因主要參與了氧化還原酶活性(oxidoreductase activity)、抗原結合(antigen binding)、鐵離子結合(iron ion binding)、免疫球蛋白受體結合(immunoglobulin receptor binding)和血紅素結合(heme binding)。差異表達基因的KEGG富集分析顯示(圖2B),這些基因主要參與了細胞周期(Cell cycle)、卵母細胞減數(shù)分裂(oocyte meiosis)、p53信號通路(p53 signaling pathway)、孕酮介導的卵母細胞成熟(progesterone-mediated oocyte maturation)和視黃醇代謝(retinol metabolism)。
圖2 差異表達基因的GO和KEGG富集分析結果
在STRING數(shù)據(jù)庫進行差異表達基因之間的相互作用分析,應用Cytoscape-MCODE插件進行核心模塊的獲取,結果如圖3A所示;CytoHubba插件對核心模塊進行分析獲取關鍵的候選差異表達基因,結果如圖3B所示。
圖3 差異表達基因的核心模塊和關鍵基因的鑒別
為了更加明確這些關鍵基因表達在男性肝癌患者中的意義,我們應用GEPIA對關鍵基因的表達在TCGA數(shù)據(jù)庫中進行驗證(圖4)。結果顯示,與健康對照組相比,這些關鍵基因在男性肝癌患者中顯著高表達(與健康組比較“*”表示P<0.05)
圖4 關鍵基因在GEPIA數(shù)據(jù)庫中的表達情況
為了尋找表達高低僅影響男性患者預后,而不影響女性患者預后的基因,使用Kaplan-Meierplotter數(shù)據(jù)庫對10個核心基因分別進行了男性患者和女性患者的整體OS分析。結果如圖5所示,僅有CCNB2和ASPM表達高低對男性患者的整體生存期有影響CCNB2(Logrankp=0.00029,HR=2.79),ASPM(Logrankp=0.00012,HR=2.49)),且對女性患者的整體生存期沒有影響CCNB2(Logrankp=0.25,HR=1.4)和ASPM(LogrankP=0.1,HR=1.64)。
圖5 CCNB2和ASPM表達對男性和女性肝細胞癌患者
臨床上,肝癌是一種高死亡率的惡性腫瘤,當前的醫(yī)療手段仍不能較大程度地降低其死亡率。世界范圍內(nèi)男性肝癌發(fā)病率和死亡率均高于女性,且男性患者預后較女性患者差,這種差異一方面是由于肝癌的危險因素,如病毒感染、致癌物作用、癌基因激活、抑癌基因失活、細胞信號通路失活或活化等導致,另一方面也可能是由于體內(nèi)性激素水平的差異而引起的發(fā)病率和預后的不同[13]。根據(jù)相關研究報道,在嚙齒動物和人類中,生理性肝臟基因的表達具有顯著的性別差異[14]。然而,關于人類肝癌中性別依賴性基因表達的知識仍然很少。
本研究中,我們通過生物信息學方法對GEO數(shù)據(jù)庫中男性肝癌患者表達數(shù)據(jù)集進行差異表達基因的篩選,并利用TCGA中肝癌患者的數(shù)據(jù)對男性關鍵基因驗證。本次研究中共有162個差異表達基因被篩選出來,這些差異表達基因主要參與了細胞分化、細胞增殖、細胞周期、免疫反應等多個重要的、與腫瘤發(fā)生發(fā)展關系密切的生物學過程。通過CytoHubba分析從MCODE得到關鍵網(wǎng)絡的核心基因,應用GEPIA對關鍵基因的表達在TCGA數(shù)據(jù)庫中進行驗證,結果發(fā)現(xiàn),ASPM、BIRC5、BUB1、CCNB2、CDC20、CDCA8、CDK1、DLGAP5、KIF20A、TOP2A等關鍵基因在肝癌組織中均顯著高表達,主要作為細胞增殖調節(jié)因子(ASPM、KIF20A),細胞周期調節(jié)因子(CCNB2、CDC20、CDCA8、CDK1),凋亡抑制因子(BIRC5),蛋白編碼基因(BUB1、DLGAP5、TOP2A)的作用調控肝癌細胞的生長及轉移,繼而通過影響Rb信號通路[15]、p53信號通路[16]、經(jīng)典Wnt信號通路[17]等參與肝癌發(fā)生發(fā)展的進程。為了尋找核心基因中,表達高低僅影響男性患者預后,且不影響女性患者預后的基因,我們使用Kaplan-Meierplotter數(shù)據(jù)庫對以上10個核心基因分別進行了男性患者和女性患者的整體生存期分析,發(fā)現(xiàn)CCNB2和ASPM表達高低對男性患者的整體生存期有影響。最近的研究報道,CDK1、CCNB1和CCNB2的mRNA表達水平在幾種類型的癌癥中顯著升高,并與不良預后相關[18]。然而CCNB2在肝癌發(fā)生的性別差異研究尚未見報道,本次研究結果顯示,CCNB2是男性肝癌患者中的關鍵基因且與男性患者不良預后相關。因此,CCNB2可能通過調控細胞周期相關蛋白來參與男性肝癌的發(fā)生發(fā)展。在前列腺癌中,ASPM的表達逐漸上調,并且ASPM表達的增加與腫瘤進展和不良臨床預后相關,而在肝癌中,shRNA介導的ASPM基因敲除抑制肝癌細胞增殖,體外遷移、侵襲和上皮-間充質轉化(epithelial-mesenchymal transition,EMT),并在體內(nèi)抑制肝癌的生長[19]。本研究中,ASPM的表達在肝癌患者的整體生存期中存在顯著的性別差異。
綜上所述,本研究應用生物信息學方法獲取男性肝癌患者中的差異表達基因以及這些基因的生物學功能與信號通路。在TCGA肝癌數(shù)據(jù)庫中對CCNB2和ASPM進行了驗證,結果表明,CCNB2和ASPM的表達與男性和女性肝癌患者的不良預后有顯著的性別差異,可為男性肝癌患者日后的個性化診斷和治療提供新的思路。