吳 佳,吳嫚婷,龍 榮,仇婧玥,喻 昶,熊 萌,曾梅艷,宋厚盼*
1湖南中醫(yī)藥大學中醫(yī)診斷學湖南省重點實驗室;2湖南中醫(yī)藥大學醫(yī)學院;3湖南中醫(yī)藥大學中醫(yī)學院,長沙 410208
原發(fā)性肝癌是全球癌癥致死的第三大原因[1],肝細胞癌(hepatocellular carcinoma,HCC)是原發(fā)性肝癌最主要的類型,其危險因素主要有乙型肝炎病毒(HBV)/丙型肝炎病毒(HCV)感染、長期過度飲酒、食用過多黃曲霉菌污染的食品、多種原因?qū)е碌母斡不案渭毎┘易迨穂2]。肝細胞癌的早期診斷常借助于生物標志物,在臨床上被廣泛運用的生物標志物主要來源于血清、血漿、組織的microRNA、突變的基因、蛋白等[3]。很多確診為肝癌的患者通常處于晚期不可切除階段,采用姑息治療后,中位生存期僅為6~12個月,5年存活率僅為10%[4]。因此,篩選肝癌關鍵致病基因?qū)Ω伟┗颊哌M行早期診斷及分析肝癌預后情況具有重要的臨床意義。
高通量測序技術的迅速發(fā)展改變了生物醫(yī)學的研究模式[5]。基因測序為腫瘤發(fā)病機制等腫瘤生物學問題提供了全新的認識,并且對腫瘤的診斷、預后和治療的選擇具有重要的參考價值[6]。生物信息學算法對于處理高通量組學數(shù)據(jù)至關重要[7]。本研究以高通量基因芯片數(shù)據(jù)挖掘為切入點,引入生物信息學算法知識,從GEO數(shù)據(jù)庫獲取肝癌相關數(shù)據(jù)集,分析肝癌組織與正常肝組織的差異表達基因。進一步從差異表達基因中篩選出肝癌關鍵致病基因,探討關鍵基因的生物學功能及其涉及的信號通路、突變情況、免疫浸潤和對臨床預后的影響,并進一步篩選潛在的治療肝癌的中藥,旨在為肝癌的臨床診斷、治療及預后判斷提供理論參考和科學依據(jù)。
使用美國國家生物技術信息中心(National Center for Biotechnology Information,NCBI)基因表達數(shù)據(jù)庫(gene expression omnibus database,GEO)(https://www.ncbi.nlm.nih.gov/gds/),檢索HCC相關數(shù)據(jù)集,下載得到GSE19665 mRNA表達芯片數(shù)據(jù)[8]。該數(shù)據(jù)集共有樣本20例,其中正常樣本10例,分別為GSM490987、GSM490989、GSM490991、GSM490993、GSM490995、GSM490997、GSM490999、GSM491001、GSM491003、GSM491005;肝癌樣本10例,分別為GSM490988、GSM490990、GSM490992、GSM490994、GSM490996、GSM490998、GSM491000、GSM491002、GSM491004、GSM491006。20例樣本均由GPL570平臺檢測提交,運用R軟件中的affy程序包對下載的數(shù)據(jù)進行背景矯正、均一化處理。
使用在線分析工具GEO 2R設置分組,即正常樣本組和肝癌樣本組,對基因表達譜芯片GSE19665進行分析,保存分析結(jié)果。導出數(shù)據(jù)至Excel中進行兩次篩選,初次篩選條件為-log10P>1.4,|log2FC|≥1,繪制火山圖;再次篩選條件為P<0.01,|log2FC|≥2,繪制層次聚類熱圖,得到肝癌和正常組織顯著性DEGs。
使用富集分析工具Metascape(https://metascape.org/),選擇物種為“homo sapiens”,對篩選得到的顯著性差異表達的mRNA進行基因本體論(gene ontology,GO)功能富集分析;使用OmicShare平臺GSEA動態(tài)工具對差異表達基因進行KEGG通路富集分析,設置篩選條件為|NES|≥1,P<0.05,依次對富集分析后的數(shù)據(jù)進行可視化處理。
在蛋白數(shù)據(jù)庫STRING(the searcher tool for the retrieval of interacting genes)(http://String-db.org/)檢索框中輸入篩選得到的顯著性差異表達基因,將最低要求相互作用分設置為中等置信度(0.04),構建蛋白質(zhì)相互作用網(wǎng)絡(protein-protein interaction,PPI),導出tsv格式數(shù)據(jù)文件。通過Cytoscape對導出的數(shù)據(jù)進行可視化處理,借助Cytohubba插件中的MCC、MNC、DMNC算法,分析出網(wǎng)絡中度值(degree)排名前10位的差異表達基因,即為肝癌致病的關鍵基因。
利用生存分析數(shù)據(jù)庫Kaplan-Meier plotter(http://kmplot.com/analysis/)中肝癌相關的mRNA芯片數(shù)據(jù),將篩選后的關鍵基因依次導入數(shù)據(jù)庫。根據(jù)肝癌組織中關鍵基因表達的中位數(shù)進行分組,選擇“自動選擇最佳截止”(auto select best cutoff)分析關鍵基因表達的高低對肝癌患者總生存率(overall survival,OS)的影響,并以P<0.05為篩選條件,繪制Kaplan-Meier生存曲線。
使用癌癥組學數(shù)據(jù)庫UALCAN(http://ualcan.path.uab.edu/)中TCGA(the cancer genome atlas)分析模塊,輸入關鍵致病基因,TCGA dataset設置為liver hepatocellular carcinoma,選擇Expression表達分析模塊,進一步分析關鍵基因在不同的(sample types)組織樣本和(individual cancer stages)腫瘤分期中的表達情況。運用人類蛋白圖譜數(shù)據(jù)庫(Human Protein Atlas,HPA)(http://www.Proteinatlas.org),輸入關鍵基因,分別選擇Tissue(組織)和Pathology(病理),在Tissue模塊中選擇Liver,在Pathology模塊中選擇Liver cancer,根據(jù)Staining(染色強度)、Intensity(染色密度)、Quantity(定量)、Location(定位)分析關鍵基因的蛋白質(zhì)表達情況。
使用多維癌癥基因組數(shù)據(jù)平臺cBioPortal(http://www.cbioportal.org),選擇癌癥類型為liver hepatocellular carcinoma,數(shù)據(jù)類型為TCGA、Firehose Lagacy,輸入關鍵基因,設置樣本類型為Samples with mRNA data,采用Z-評分法,分析肝癌關鍵致病基因的突變與預后情況。運用R軟件讀取標準化后的關鍵基因數(shù)據(jù),通過corrplot程序包對關鍵基因進行相關性分析,并將分析結(jié)果進一步可視化。
利用癌癥免疫浸潤數(shù)據(jù)庫TIMER(http://cistrome.dfci.harvard.edu/TIMER)中的Gene(基因)板塊,在Gene Symbol中輸入關鍵基因,Cancer Types設置為LIHC(liver hepatocellular carcinoma)。分析肝癌組織中關鍵致病基因的表達與6種免疫細胞浸潤程度的關系,具體包括B細胞、CD4+T細胞、CD8+T細胞、中性粒細胞、巨噬細胞、樹突狀細胞。
Coremine Medical(https://coremine.com/medical/)數(shù)據(jù)庫是一個開放的生物醫(yī)學數(shù)據(jù)分析平臺,記錄了大量生物醫(yī)學術語間的關系。在Coremine Medical數(shù)據(jù)庫中導入肝癌關鍵致病基因,下載traditional Chinese medicine模塊中的數(shù)據(jù),設置篩選條件P<0.05,篩選可用于肝癌治療的中藥。比較毒物基因?qū)W數(shù)據(jù)庫(comparative toxicogenomics database,CTD)(http://ctdbase.org/)綜合整理了來自各個物種的毒理學數(shù)據(jù),具有分析化學-基因/蛋白相互作用、化學-疾病、基因-疾病的功能。在CTD中導入核心基因,篩選具有潛在治療HCC作用的中藥活性成分,通過cytoscape軟件繪制潛在治療中藥-核心基因-中藥活性成分相互作用的網(wǎng)絡圖。
通過R語言affy包對GSE19665數(shù)據(jù)集進行均一化處理,并繪制小提琴圖,結(jié)果如圖1所示。小提琴圖中的橫坐標表示芯片數(shù)據(jù)中的樣本編號,包括10例正常樣本和10例肝癌樣本,縱坐標表示芯片數(shù)據(jù)中樣本的表達值。小提琴圖中央白色條形的范圍即下四分位點到上四分位點,中心的實點表示中位數(shù)值,可見各樣本中位數(shù)基本位于同一水平(1.42左右),說明該芯片數(shù)據(jù)的樣本結(jié)果可靠,可用于下一步分析。
圖1 各樣本標準化處理后小提琴圖
利用GEO 2R在線分析工具對GSE19665數(shù)據(jù)集進行DEGs分析,共納入54 638個基因,初次篩選后得到差異表達基因4 000個,繪制火山圖如圖2所示,其中與肝癌發(fā)病相關的上調(diào)基因874個,下調(diào)基因3 126個。通過比較|log2FC|值進行再次篩選,分別選取上調(diào)基因中排名前100的基因、下調(diào)基因中排名前100的基因,剔除重復值后,繪制聚類熱圖。圖3結(jié)果顯示,其中與肝癌發(fā)病相關的顯著性上調(diào)基因81個,顯著性下調(diào)基因80個。
圖2 肝癌與正常肝組織差異表達基因分布火山圖
圖3 肝癌與正常肝組織顯著性差異表達基因聚類熱圖
表1結(jié)果顯示,肝癌與正常肝組織顯著性DEGs生物學過程(biological process,BP)主要涉及免疫反應、炎癥反應、細胞粘附、細胞趨化作用、適應性免疫應答等;細胞組分(cell component,CC)主要含細胞外區(qū)域、細胞外間隙、蛋白質(zhì)性細胞外基質(zhì)、質(zhì)膜組成部分、細胞外基質(zhì)等;分子功能(molecular function,MF)主要涉及肝素結(jié)合、受體活性、絲氨酸型內(nèi)肽酶活性、糖結(jié)合、血紅素結(jié)合等。
表1 肝癌與正常肝組織顯著性DEGs GO功能富集分析
圖4結(jié)果顯示,GSEA分析篩選出肝癌與正常肝組織顯著性DEGs相關的KEGG通路92條,根據(jù)P值大小排序,最具統(tǒng)計學意義的信號通路主要涉及細胞因子-細胞因子受體相互作用通路、p53信號通路、細胞色素P450相關通路、mTOR信號通路、ErbB信號通路、腫瘤相關通路、JAK-STAT信號通路、MAPK信號通路、Wnt信號通路、Toll樣受體信號通路等。提示這些信號通路異常表達與肝癌的發(fā)病密切相關。
圖4 基于GSEA的肝癌與正常肝組織顯著性DEGs KEGG富集分析
將肝癌與正常肝組織顯著性DEGs導入STRING數(shù)據(jù)庫,得到由111個蛋白節(jié)點和1 284條蛋白相互作用邊所構成的網(wǎng)絡,如圖5A肝癌與正常肝組織顯著性DEGs PPI網(wǎng)絡所示。借助cytohubba插件對該網(wǎng)絡進行篩選,選擇前度值排名前10的基因,結(jié)果如圖5B肝癌致病關鍵基因所示。10個關鍵基因分別為細胞分裂周期蛋白20(cell division cycle 20,CDC20)、胞周期蛋白B2(cyclin B2,CCNB2)、細胞周期蛋白B1(cyclin B1,CCNB1)、有絲分裂關卡基因(budding uninhibited by benzimidazoles 1,BUB1)、桿狀病毒凋亡抑制蛋白5(baculoviral inhibitor of apoptosis repeat-containing protein 5,BIRC5)、極光激酶A(Aurora-A kinase,AURKA)、拓撲異構酶Ⅱα(topoisomerase IIα,TOP2A)、染色體非結(jié)構維持凝聚素I復合亞單位H(Non-structural maintenance of chromosomes condensin I complex subunit H,NCAPH)、Discs大同源物關聯(lián)蛋白5(Discs large-associated protein 5,DLGAP5)、細胞周期蛋白激酶1(cyclin-dependent kinase 1,CDK1)。
將關鍵基因分別導入在線工具Kaplan Meier-Plotter。圖6結(jié)果顯示,與肝癌發(fā)病密切相關的10個關鍵基因高表達組的肝癌患者的總生存期(overall survival,OS)均低于低表達組。CDC20、CCNB2、CCNB1、BUB1、BIRC5、AURKA、TOP2A、NCAPH、DLGAP5、CDK1對應P值分別為0.000 000 51、0.001 3、0.000 034、0.000 058、0.000 000 74、0.001 1、0.000 12、0.000 28、0.000 02、0.000 011,差異均具有統(tǒng)計學意義。
使用在線分析工具UALCAN比較10個關鍵基因的表達水平,結(jié)果表明,10個關鍵基因在肝癌組織的表達水平顯著高于正常組織,差異均具有統(tǒng)計學意義(P<0.05),結(jié)果如圖7所示。10個關鍵基因在1、2、3、4期肝癌組織中的表達的水平均高于正常組織,且在第3期表達水平最高,結(jié)果如圖8所示。運用蛋白表達數(shù)據(jù)庫HPA對10個關鍵基因進行分析,結(jié)果發(fā)現(xiàn),肝癌組織中CDC20、CCNB1、TOP2A、NCAPH的蛋白表達量均高于正常組織,結(jié)果如圖9所示,4個關鍵基因的蛋白染色情況見表2。
表2 核心基因在正常組織和肝癌中的蛋白染色情況
圖7 正常組織和肝癌組織中關鍵基因的表達情況
圖8 關鍵基因在肝癌病理分期中的表達情況
圖9 肝癌致病關鍵基因在正常組織和肝癌組織中的免疫組化圖
利用基因組學在線分析工具cBioPortal數(shù)據(jù)庫對來源于TCGA的373例肝癌樣本中CDC20、CCNB2、CCNB1、BUB1、BIRC5、AURKA、TOP2A、NCAPH、DLGAP5、CDK1等10個關鍵致病基因進行分析。結(jié)果發(fā)現(xiàn)共有34.17%的樣本(126例)中上述基因發(fā)生改變,其中有2.22%的樣本(8例)發(fā)生突變,4.17%的樣本(15例)發(fā)生多種改變,6.67%的樣本(24例)發(fā)生擴增,1.39%的樣本(5例)發(fā)生重度缺失,19.72%的樣本(71例)mRNA表達上調(diào),結(jié)果如圖10A、10B所示。關鍵基因的生存分析結(jié)果顯示,34.17%的樣本(126例)關鍵基因發(fā)生改變,為基因改變組,且關鍵基因改變組的總生存期(overall survival)和無病生存期(disease free survival)均顯著低于未改變組(P<0.05),結(jié)果如圖10C~10D所示。
圖10 關鍵致病基因在肝癌組織中的突變及其生存預后情況
運用R軟件的corrplot包對與肝癌發(fā)病及預后密切相關的10個關鍵基因進行相關性分析,結(jié)果表明,關鍵基因之間的表達呈正相關關系,如圖11所示,且表達的相關性具有統(tǒng)計學意義(P<0.01),統(tǒng)計學檢驗結(jié)果見表3。以上結(jié)果提示,關鍵致病基因相互影響,共同誘導和促進肝癌的發(fā)生、發(fā)展。
圖11 肝癌致病關鍵基因表達相關性示意圖
表3 肝癌致病關鍵基因間相關性的統(tǒng)計學分析結(jié)果
運用免疫浸潤數(shù)據(jù)庫TIMER對10個關鍵基因進行分析,結(jié)果發(fā)現(xiàn),CDC20、CCNB2、CCNB1、BUB1、BIRC5、AURKA、TOP2A、NCAPH、CDK1的表達與肝癌細胞純度呈正相關關系,差異均具有統(tǒng)計學意義(P<0.05)。CDC20、CCNB2、CCNB1、BUB1、BIRC5、AURKA、TOP2A、NCAPH、DLGAP5、CDK1的表達與B細胞、CD8+T細胞、CD4+T細胞、巨噬細胞、中性粒細胞、樹突狀細胞浸潤程度呈正相關關系,差異具有統(tǒng)計學意義(P<0.05),結(jié)果見表4。
表4 肝癌關鍵致病基因與免疫細胞浸潤相關性的統(tǒng)計學分析
借助Coremine Medical數(shù)據(jù)庫、藥物遺傳學(CTD)數(shù)據(jù)庫對10個關鍵基因進行分析,篩選潛在的可用于肝癌治療的中藥、天然活性成分,共得到中藥36種、天然治療成分105種。利用cytoscape軟件繪制潛在治療中藥-核心基因-天然活性成分的相互作用網(wǎng)絡,如圖12所示,靶向作用于關鍵基因兩次及以上的中藥有8種,分別為青蒿、高良姜、冬凌草、雷丸、野馬追、鵝不食草、蟾酥、九香蟲,以P<0.01為篩選條件,共獲得潛在治療肝癌的中藥36種,結(jié)果見表5。靶向作用于6個以上關鍵基因的天然活性成分有白藜蘆醇、金雀異黃素、槲皮素、醫(yī)用棕櫚樹、魚藤酮、金復康、紫杉醇、姜黃素、長春新堿、表沒食子兒茶素沒食子酸酯,共10種。
圖12 潛在治療中藥-核心基因-天然治療成分的作用關系網(wǎng)絡
表5 靶向作用于肝癌致病關鍵基因的中藥信息
肝癌是全球范圍內(nèi)最常見的癌癥之一,每年罹患肝癌的人數(shù)約為84萬,而每年因肝癌死亡的人數(shù)至少為78萬[9]。中國是一個肝炎大國,肝炎發(fā)病率的上升增加了肝癌患者的數(shù)量,世界上約有50%的肝癌患者來自中國[10]。目前,早期肝癌的治療主要采取手術切除、射頻消融和肝臟移植,中期通常采用手術、射頻消融、靶向治療、免疫治療以及化療等多種方式結(jié)合的手段;而晚期大多采取支持治療[11]。肝癌是一種復發(fā)率極高的惡性腫瘤,采取手術切除等根治性治療手段,其5年內(nèi)的復發(fā)率仍高達77%[12],故臨床可考慮采用中西醫(yī)結(jié)合治療、中醫(yī)藥治療的方法。中醫(yī)對肝癌并無具體的稱謂,依據(jù)其癥候表征,多將其歸屬為“癥瘕”“肝積”“黃疸”“臌脹”等疾病范疇。中醫(yī)藥治療肝癌包括中藥復方治療、單位中藥/中成藥治療以及針灸、穴位敷貼等外治法;中西醫(yī)結(jié)合治療主要是中醫(yī)聯(lián)合手術治療、中醫(yī)聯(lián)合射頻消融、中醫(yī)聯(lián)合靶向治療、中醫(yī)聯(lián)合化療等,以達到減少并發(fā)癥、減輕副作用、延緩腫瘤復發(fā)轉(zhuǎn)移的目的[13,14]。本文通過采用生物信息學相關知識,從分子機制層面對肝癌的芯片數(shù)據(jù)集進行分析,挖掘其致病關鍵基因,并分析關鍵基因在肝癌預后中的意義,進一步通過關鍵基因篩選潛在治療肝癌的中藥。本研究旨在為肝癌的鑒別診斷、預后和治療提供科學依據(jù)和參考。
GO功能和KEGG通路富集分析發(fā)現(xiàn),差異表達基因主要參與免疫反應、炎癥反應和細胞粘附等生物學過程,涉及的信號通路包括p53、mTOR、ErbB等。研究表明,腫瘤睪丸抗原和Sal樣蛋白4與特異性T細胞的反應在控制早期肝癌中可能發(fā)揮著重要作用[15];肝臟中核苷酸去結(jié)合寡聚化結(jié)構域2的缺失可通過炎癥反應、DNA損傷和基因組不穩(wěn)定性來誘導肝癌的發(fā)生[16];NK細胞來源的干擾素-γ通過HBV轉(zhuǎn)基因小鼠上皮細胞黏附分子-上皮間充質(zhì)轉(zhuǎn)換過程,可促進肝癌的發(fā)生[17];此外,有研究顯示miR-621可通過激活p53信號通路提高肝癌細胞的放射敏感性[18];高表達水平的蛋白酶體活性亞單位4通過mTOR信號通路可促進肝癌細胞的增殖[19];上皮V樣抗原1能夠上調(diào)ErbB3-PI3K信號通路進而促進肝癌的進展和轉(zhuǎn)移[20]。
蛋白相互作用分析得到10個在肝癌組織中高表達的關鍵基因,分別為CDC20、CCNB2、CCNB1、BUB1、BIRC5、AURKA、TOP2A、NCAPH、CDK1。對此10個關鍵基因進行預后分析發(fā)現(xiàn),關鍵基因高表達組肝癌患者總生存期明顯降低,這些關鍵基因與肝癌的病理分析結(jié)果存在一定的正相關關系。研究表明,CDC20在肝癌組織中的表達高于正常組織(P<0.05),且高表達CDC20的肝癌患者總體的生存率較低[21];研究顯示,高CCNB2水平的肝癌患者5年總生存期和無病生存期均短于低CCNB2水平者[22];另有研究表明,在肝癌組織中可檢測到較高水平的BUB1B,BUB1B過表達與不良的臨床病理表現(xiàn)呈正相關[23]。
進一步對10個關鍵基因進行表達驗證和突變分析發(fā)現(xiàn),關鍵基因在肝癌組織中高表達,其中CDC20、CCNB1、TOP2A、NCAPH在肝癌組織中的蛋白表達量有不同程度的增加;此外,關鍵基因在肝癌組織中存在一定程度的突變,攜帶此突變關鍵基因的肝癌患者有較差的預后。關鍵基因的免疫細胞浸潤分析發(fā)現(xiàn),關鍵基因的表達與B細胞、CD8+T細胞、CD4+T細胞、巨噬細胞、中性粒細胞、樹突狀細胞的浸潤程度呈正相關關系。Yang Gang等采用免疫組織化學法檢測肝癌組織中CDC20的蛋白表達水平,結(jié)果顯示在59.2%的肝細胞癌樣本中觀察到CDC20高表達[24]。Rong Min-Hua等研究發(fā)現(xiàn)CCNB1的mRNA和蛋白在肝細胞癌組織中過度表達,且CCNB1可能通過調(diào)節(jié)DNA復制參與HCC的細胞周期[25]。這些結(jié)果提示本文預測結(jié)果具有較好的可信性與準確性。
潛在治療藥物的篩選結(jié)果發(fā)現(xiàn),CCNB1、BIRC5、CDK1、CDC20篩選出的中藥數(shù)目多,CDK1、CCNB1、BIRC5、TOP2A所結(jié)合的潛在天然治療成分數(shù)量多,CDK1、CCNB1、BIRC5可能為藥物治療的通用靶點。青蒿、高良姜、冬凌草等可作用于2~3個關鍵基因,為潛在治療肝癌的中藥。研究表明,青蒿的有效成分為青蒿素,其可通過EGFR等多種途徑調(diào)節(jié)肝癌細胞的增殖、凋亡、血管生成[26];高良姜的有效成分為高良姜素,其可通過內(nèi)質(zhì)網(wǎng)應激和線粒體依賴性凋亡來預防肝細胞癌[27];冬凌草可通過靶向AKT通路來增強肝癌對索拉非尼抗癌作用的敏感性[28]。中醫(yī)理論認為,肝細胞癌的主要病機為“瘀”“毒”“虛”,中藥在分子水平發(fā)揮扶正祛邪、攻毒抗癌的功效,可達到機體陰陽平衡的狀態(tài)[29]。相較于傳統(tǒng)的西醫(yī)治療,中醫(yī)藥在治療肝細胞癌中具有潛在的優(yōu)勢,具體體現(xiàn)在中藥副作用小,不良反應發(fā)生率低,腫瘤生長減緩,復發(fā)轉(zhuǎn)移減少,患者生存質(zhì)量提升,生存周期延長[30]。
綜上所述,本文研究發(fā)現(xiàn)肝癌的發(fā)生發(fā)展具有多基因、多通路、多功能的特點,共篩選獲得10個肝癌致病關鍵基因;這些基因及其蛋白產(chǎn)物在肝癌患者中的表達水平均有升高,且與肝癌的不良預后、免疫細胞浸潤程度密切相關;進一步挖掘得到青蒿、高良姜、冬凌草等36味潛在的肝癌靶向治療中藥和105個天然活性成分。本文研究結(jié)果可為肝癌的臨床診斷、預后判斷及相關治療提供科學依據(jù)。