范振海 邢時云 馮源
【摘要】目的:采用生物信息學方法篩選出肝癌的關鍵差異表達基因。方法:對GEO公共數(shù)據(jù)庫中獲取的四組肝癌和癌旁組織基因表達芯片數(shù)據(jù)進行生物信息學分析,首先用R數(shù)據(jù)包中的limma程序分別對各數(shù)據(jù)集的差異表達基因進行初篩,再進一步應用Robust rank aggregation( RRA)法篩選出四組數(shù)據(jù)集共同差異表達的關鍵基因。結果:通過篩選共獲得269個差異表達基因,其中上調(diào)基因76個,下調(diào)基因193個,篩選出的差異表達基因與現(xiàn)有文獻報道一致。結論:RRA法是一種對多組基因表達數(shù)據(jù)進行差異表達基因篩選的可靠方法。本研究篩選出的差異表達基因,有望對肝癌發(fā)生的機制研究、腫瘤標志物的篩選以及治療靶點的選擇提供參考。
【關鍵詞】肝癌;差異表達基因;穩(wěn)健排序整合;基因表達譜芯片
原 發(fā) 性肝癌(primary livercancer,PLC)是全世界第六位最常見的惡性腫瘤,也是導致人類死亡的第二大腫瘤。其中大約75%的肝癌發(fā)生在亞洲,僅中國就占全世界50%以上的腫瘤病例[1]。PLC患者預后差,美國平均五年生存率僅為14%[2],而在欠發(fā)達國家患者的預后則更差。因此,深入研究PLC相關的發(fā)生發(fā)展機制將為肝癌的治療及預后提供臨床參考。
隨著基因組學領域的快速發(fā)展,PLC研究領域也出現(xiàn)重大的革新性改變。高通量測序技術的出現(xiàn)使大量的基因表達數(shù)據(jù)不斷涌現(xiàn),使人們發(fā)現(xiàn)肝癌組織和細胞在特定狀態(tài)下的基因表達情況和關鍵基因變化規(guī)律提供了可能。另外,由于各個實驗室實驗條件不同、臨床樣本包含的人群種族差異以及芯片平臺的不同,大量的研究結果呈現(xiàn)出的結果也不盡相同。因此,尋找一種有效評價不同基因表達譜研究結果的方法具有重要的意義。
穩(wěn)健排序整合( Robust rankaggregation,RRA)法是一種利用概率模型整合排序列表的方法。有研究將其用于整合多組芯片數(shù)據(jù)基因列表,取得良好的效果[3,4]。本研究中我們采用RRA法對四組肝癌和癌旁組織基因表達譜數(shù)據(jù)集中差異性表達基因中的關鍵基因進行篩選,旨在為臨床篩選肝癌發(fā)生、發(fā)展的相關分子標志物及藥物治療靶點提供理論依據(jù)。
1 材料與方法
1.1 材料
生物信息學分析涉及數(shù)據(jù)集GSE45267、GSE45436、GSE76427、GSE62232均來自美國國立生物技術信息中心公共數(shù)據(jù)平臺基因表達綜合數(shù)據(jù)庫( Gene Expression Omnibus, GEO), 數(shù)據(jù)的研究類型均為Expression profiling byarray,種屬為人,芯片平臺除GSE76427是GPL10558外,其余均為GPL570(具體數(shù)據(jù)信息見表1)。
1.2 數(shù)據(jù)處理及差異基因分析
各原始數(shù)據(jù)集分別用R語言軟件包進行數(shù)據(jù)處理,通過RMA算法對原始數(shù)據(jù)進行背景校正、標準化及表達值計算。我們以P<0.05和log(差異倍數(shù))>1為標準分別篩選出肝癌與正常組織的差異表達基因。
1.3 肝癌差異表達關鍵基因的篩選
將各數(shù)據(jù)集篩選出的差異表達基因用RRA法進行排序,篩選出差異表達的關鍵基因。
2 結果
2.1 差異表達基因的篩選
在P<0.05和log(差異倍數(shù))>1的條件下,GSE45267、GSE45436、GSE76427和GSE62232分別得到了543、1176、394和1147個差異表達基因,上調(diào)基因分別為181、413、64和461個,下調(diào)基因分別為362、763、330和686個。繪制的差異基因表達火山圖如圖l所示。
2.2 Robust Rank Aggregation法篩選肝癌差異表達的關鍵基因
通過對四組數(shù)據(jù)集的差異表達基因篩選,共獲得269個差異表達基因(肝癌/癌旁正常組織),其中上調(diào)基因76個,下調(diào)基因193個。并分別將排名前10的上調(diào)及下調(diào)差異基因制作差異表達基因的熱圖(圖2)。
3 討論
隨著腫瘤分子醫(yī)學、高通量測序以及基因芯片技術的發(fā)展,越來越多的致病基因被發(fā)現(xiàn),如何從浩如煙海、錯綜復雜的數(shù)據(jù)中篩選出關鍵致病基因作為判斷患者預后指標和臨床治療靶點,成為擺在醫(yī)學科學家面前的一個難題。為篩選可作為肝癌診斷的關鍵基因和治療靶點,本研究利用生物信息學分析方法對GEO數(shù)據(jù)庫下載的四組肝癌和癌旁組織生物芯片數(shù)據(jù)進行分析,分別篩選出肝癌組織與正常組織的差異表達基因,結果發(fā)現(xiàn)不同數(shù)據(jù)集篩選出的差異基因數(shù)量及種類排序都存在很大差異。這與國內(nèi)外其他研究結果類似[5-9]。提示針對肝癌基因芯片數(shù)據(jù)檢測,不同實驗人員、實驗條件和實驗對象可得出的結果存在很大差別,因此,采用一種統(tǒng)計方法篩選出這些實驗共同存在的差異基因,可能對發(fā)現(xiàn)肝癌關鍵的差異表達基因至關重要。
我們進一步通過RRA法共獲得269個差異表達基因,其中上調(diào)基因76個,下調(diào)基因193個。上調(diào)基因包含GPC3、ASPM、CAP2和KIF2 0A等,具體上講,GPC3是一種存在于細胞膜上的硫酸乙酰肝素糖蛋白,它參與調(diào)控細胞生長、繁殖、分化、遷移和粘附等生物學行為,主要表達于中胚層來源的組織,在成熟的組織中低表達或不表達。多項研究結果證實GPC3蛋白在肝癌組織中高表達,而在正常肝組織中不表達或表達量極低[10-13];ASPM也被用來作為肝癌血管侵襲性強、早期復發(fā)以及不良預后的指標[14];CAP2表達升高有望用于早期發(fā)現(xiàn)甲胎蛋白隱性的肝癌患者[15],而KIF20A在肝癌患者中高表達也預示總生存期和無瘤生存期顯著縮短[16]。下調(diào)基因包含HAMP、CLECIB、FCN3和CLEC4G等。HAMP基因編碼的蛋白質(zhì)為鐵調(diào)素,在機體內(nèi)鐵平衡的調(diào)節(jié)中起到負性調(diào)節(jié)的作用,研究發(fā)現(xiàn)它在肝癌組織中低表達[17],CLECIB是血小板相關的分子,與肝癌瘤內(nèi)出血相關,盡管其具體作用仍不清楚,但研究顯示它在肝癌組織中表達下調(diào)[18,19];另外,F(xiàn)CN3和CLEC4G基因在肝癌組織中也呈低表達[20,21]。
綜上所述,本文采用RRA法對四組肝癌基因芯片數(shù)據(jù)進行挖掘分析,篩選出肝癌與癌旁正常組織的關鍵差異表達基因,該研究有望為肝癌發(fā)生的機制研究、腫瘤標志物的篩選及治療靶點的選擇提供參考。在以后的研究中,仍需進一步的分子實驗加以驗證。
參考文獻
[l]McGlynn KA, Petrick JL, LondonWT. Global epidemiology ofhepatocellular carcinoma: anemphasis on demographic andregional variability [J]. ClinLiver Dis, 2015,19(02):223-238.
[2]Cronin KA, Ries LA, Edwards BK.The Surveillance, Epidemiology,and End Results (SEER) Program ofthe National Cancer Institute[J].Cancer, 2014,120 Suppl 23: 3755-3757.
[3]Kolde R, Laur S, Adler P, ViloJ. Robust rank aggregation forgene list integration and Metaanalysis [Jl. Bioinformatics,2012,28 (04): 573-580.
[4]Vosa U, Kolde R, Vilo J, et al.Comprehensive Meta-analysis ofmicroRNA expression using a robustrank aggregation approach [J].Methods Mol Biol, 2014, 1182: 361-373.
[5]白文萱,高健,錢程等,肝癌相關差異表達基因的生物信息學分析[J].中華肝臟病雜志,2017, 25 (06): 435-437.
[6]高冰,寧淑芳,唐艷萍等,人肝癌組織及癌旁正常肝組織的mRNA差異表達譜[J].世界華人消化雜志,2014 (31): 4734-4744.
[7] Mou T, Zhu D, Wei X, et al.Identification and interactionanalysis of key genes and microRNAsin hepatocellular carcinoma bybioinformatics analysis [Jl. WorldJ Surg Oncol, 2017,15 (01):63.
[8] Zhang C, Peng L, Zhang Y,etal. The identification ofkey genes and pathways inhepatocellular carcinoma bybioinformatics analysis ofhigh-throughput data [Jl. MedOncol, 2017, 34 (06): 101.
[9]Shi SQ, Ke JJ, Xu QS, et al.Integrated network analysisto identify the key genes,transcription factors,and microRNAs involved inhepatocellular carcinoma [J] .Neoplasma, 2018, 65 (01) : 66-74.
[lO]El-Wahab NM, Rashed HG, El-Sherif WT, et al. Glypican-3 andMelanoma Antigen Genes l and 3 asTumor Markers for HepatocellularCarcinoma [Jl. Egypt J Immunol,2017,24(02):187-200.
[ll]Liu H, Yang C, Lu W, et al.Prognostic significance ofglypican-3 expression inhepatocellular carcinoma: A Meta-analysis[Jl. Medicine (Baltimore),2018, 97 (04): e9702.
[12]Tahon AM, El-Ghanam MZ, Zaky S,etal. Significance of Glypican-3 inEarly Detection of HepatocellularCarcinoma in CirrhoticPatients [J]. J GastrointestCancer, 2018, [Epub ahead ofprint].
[13]2hang J, Zhang M, Ma H, et al.Overexpression of glypican-3 isa predictor of poor prognosisin hepatocellular carcinoma: Anupdated Meta-analysis [J] . Medicine(Bal t imore) , 2 018, 97 (24) : elll 3 0.
[14]Lin SY, Pan HW, Liu SH, etal. ASPM is a novel markerfor vascular invasion, earlyrecurrence, and poor prognosis ofhepatocellular carcinoma [J]. ClinCancer Res, 2008, 14 (15) : 4814-4820.
[15]Shibata R, Mori T, Du W, etal. Overexpression of cyclase-associated protein 2 in multistagehepatocarcinogenesis [J] .
ClinCancer Res, 2006,12 (18): 5363-5368.
[16]Lu M, Huang X, Chen Y, et al.Aberrant KIF20A expression mightindependently predict pooroverall survival and recurrence-free survival of hepatocellularcarcinoma [J] . IUBMB Life,2018, 70 (04): 328-335.
[17]Kijima H, Sawada T, TomosugiN,et al. Expression of hepcidinmRNA is uniformly suppressed inhepatocellular carcinoma [J]. BMCCancer, 2008, 8: 167.
[18]Critelli R, Milosa F, FaillaciF, et al. Microenvironmentinflammatory infiltrate drivesgrowth speed and outcome ofhepatocellular carcinoma: aprospective clinical study [Jl.Cell Death Dis, 2017, 8 (08) : e3017.
[19] Hu K, Wang ZM, Li JN, et al.CLECIB Expression and PD-Ll Expression Predict ClinicalOutcome in HepatocellularCarcinomawithTumorHemorrhage [J] .
Transl Oncol,2018,11(02): 552-558.
[20]Ho DW, Kai AK, Ng IO. TCGA whole-transcriptome sequencing datareveals significantly dysregulatedgenes and signaling pathways inhepatocellular carcinoma [J]. FrontMed, 2015, 9 (03) : 322-330.
[21]Luo JH, Ren B, Keryanov S, etal. Transcriptomic and genomicanalysis of human hepatocellularcarcinomas and hepatoblastomas [J].Hepatology, 2006, 44 (04): 1012-1024.