周章劍,謝 欣,王 璇,張 昊,黨誠學(xué)
(1. 西安交通大學(xué)第二附屬醫(yī)院腫瘤科,陜西西安 710004;2.西安交通大學(xué)第一附屬醫(yī)院腫瘤外科,陜西西安 710061)
食管腺癌(esophageal adenocarcinoma, EAC)是常見的消化道惡性腫瘤之一,發(fā)展迅速且預(yù)后較差。2018年全球食管癌新發(fā)病例數(shù)約57萬,發(fā)病率列惡性腫瘤第7位;死亡患者約51萬,死亡率位居第6位[1]。EAC的發(fā)生發(fā)展與嗜酒、嗜煙、肥胖及胃食管反流密切相關(guān),但其具體致癌機(jī)制尚不明確。因此,研究EAC發(fā)病的關(guān)鍵基因和通路對(duì)EAC早期篩查及精準(zhǔn)治療具有重要意義。生物信息學(xué)是由多學(xué)科交叉產(chǎn)生的學(xué)科。近年來,運(yùn)用生物信息學(xué)方法在分子水平上進(jìn)行數(shù)據(jù)挖掘,為研究各種疾病的分子機(jī)制提供了新的思路。本研究通過收集GEO(Gene Expression Omnibus)數(shù)據(jù)庫中EAC的芯片數(shù)據(jù),對(duì)EAC發(fā)生發(fā)展的相關(guān)基因進(jìn)行挖掘,并進(jìn)行生物信息學(xué)分析,以期為EAC發(fā)生發(fā)展與早期診斷治療提供新的方向。
1.1 基因表達(dá)數(shù)據(jù)信息以“Esophageal adenocarcinoma”為關(guān)鍵詞在GEO數(shù)據(jù)庫中檢索與EAC相關(guān)的基因表達(dá)譜數(shù)據(jù)。選擇GSE26886芯片數(shù)據(jù)進(jìn)行挖掘,該數(shù)據(jù)由WANG等[2]提供,其中包括EAC標(biāo)本:GSM661741-GSM661761,正常食管組織標(biāo)本:GSM661762-GSM661780。
1.2 差異表達(dá)基因的篩選利用R軟件進(jìn)行差異表達(dá)基因篩選,篩選條件為差異表達(dá)上調(diào)或下調(diào)4倍(log2FC絕對(duì)值>2)以上,且P<0.01。
1.3 差異表達(dá)基因的生物信息學(xué)分析利用R軟件對(duì)篩選出的差異表達(dá)基因進(jìn)行基因本體論(GeneOntology, GO)和京都基因與基因組百科全書(KEEG)分析,并對(duì)篩選出的差異基因進(jìn)行GO注釋、KEGG信號(hào)通路富集注釋。將篩選的差異基因輸入STRING (http://www.string-db.org)數(shù)據(jù)庫進(jìn)行分析,找出差異基因的對(duì)應(yīng)蛋白之間的可能相互作用關(guān)系,構(gòu)建相互作用網(wǎng)絡(luò)結(jié)構(gòu)圖(protein-protein interaction, PPI)。研究中應(yīng)用的R軟件包主要有:GEOquery,reshape2,DESeq2,limma,Affy,ggplot2,pheatmap,topGO,Rgraphviz,pathview,clusterProfiler,org.Hs.eg.db,enrichplot,DOSE。
2.1 標(biāo)本信息標(biāo)準(zhǔn)化處理在對(duì)芯片原始數(shù)據(jù)進(jìn)行背景校正及分位數(shù)標(biāo)準(zhǔn)化后(圖1),在R軟件中采用Affy包[3]中的穩(wěn)固多陣列平均算法(robust multiarray average algorithm, RMA)分析GSE26886芯片原始探針數(shù)據(jù)(.CEL文件),即可得到表達(dá)值。同一基因的多個(gè)探針測量表達(dá)值的平均值即為該基因的表達(dá)值。
2.2 差異表達(dá)基因的篩選由GEO數(shù)據(jù)庫中獲得GSE26886芯片數(shù)據(jù)分析可得,相對(duì)于對(duì)照組正常食管鱗狀上皮,EAC樣本中可篩選出1 383個(gè)差異基因,其中表達(dá)上調(diào)607個(gè),表達(dá)下調(diào)776個(gè)。篩選了該數(shù)據(jù)集中差異表達(dá)水平超過4倍且P<0.01的基因?yàn)楹罄m(xù)研究對(duì)象,并對(duì)差異基因的分布繪制火山圖(圖2)。以下列舉了差異表達(dá)最明顯的前20個(gè)基因(表1),并且進(jìn)一步對(duì)差異表達(dá)前100基因進(jìn)行聚類分析(圖3),探索不同差異基因的潛在共同特征。
圖1 GSE26886數(shù)據(jù)集樣本標(biāo)準(zhǔn)化校正
圖2 GSE26886數(shù)據(jù)集差異表達(dá)基因的篩選
表1 差異表達(dá)最明顯的前20位基因
圖3 GSE26886數(shù)據(jù)集差異表達(dá)基因的聚類分析
2.3 GO基因功能的富集分析GO功能富集分析顯示,上述差異表達(dá)基因在細(xì)胞組分(cellular component, CC)層面主要富集于含膠原的細(xì)胞外基質(zhì)、細(xì)胞間連接、細(xì)胞頂端膜等;在生物學(xué)過程(biological process, BP)層面主要富集于表皮層及皮膚發(fā)育、表皮細(xì)胞分化、多細(xì)胞器官穩(wěn)態(tài)等;在分子功能(molecular function, MF)層面主要富集于抑制酶活性、細(xì)胞外基質(zhì)結(jié)構(gòu)組成、肽酶調(diào)節(jié)活性等(表2,圖4~圖6)。
2.4 KEGG信號(hào)通路的富集分析KEGG信號(hào)通路分析表明,差異表達(dá)的基因參與的主要信號(hào)通路富集于雌激素信號(hào)通路、神經(jīng)鞘脂信號(hào)通路、蛋白消化與吸收等(圖7),體現(xiàn)出EAC發(fā)生發(fā)展過程中較為復(fù)雜且多樣的信號(hào)通路調(diào)控關(guān)系。
2.5 差異表達(dá)基因間PPI網(wǎng)絡(luò)分析將1 383個(gè)差異基因中的差異最顯著的前200個(gè)基因編碼的蛋白使用String數(shù)據(jù)庫在線進(jìn)行PPI分析,結(jié)果表明,上述部分差異基因間存在廣泛的蛋白間相互作用,例如DSC3與PKP1、IVL與SPRR1、IVL與SPRR3、ALDH9A1與BBOX1、LPAR3與GNAI3、MAF與Sox9之間相互作用較為密切,提示編碼這些蛋白的基因可能參與EAC發(fā)生發(fā)展的調(diào)控(圖8)。
2.6 DO分析進(jìn)一步以疾病為中心采用疾病本體論(disease ontology, DO)分析差異基因所導(dǎo)致的疾病富集,結(jié)果表明,上述差異基因在女性生殖系統(tǒng)疾病、皮膚疾病、冠心病、腺癌、胃癌及非小細(xì)胞肺癌等疾病中富集較為明顯(圖9),提示差異基因在惡性腫瘤,特別是腺癌發(fā)生發(fā)展過程中有非常重要的作用。
表2 GO基因功能及KEGG信號(hào)通路富集分析
圖4 差異表達(dá)基因GO細(xì)胞組分富集分析
作為消化道常見的惡性腫瘤,食管癌的發(fā)病率與死亡率一直位居前列。作為食管癌高發(fā)國家,我國因食管癌帶來的社會(huì)及經(jīng)濟(jì)負(fù)擔(dān)較為沉重[4]。食管癌具有起病隱匿、早期診斷困難、惡性程度高、預(yù)后較差等特征,近年來已成為腫瘤基礎(chǔ)研究與臨床診治研究的熱點(diǎn)。依照腫瘤的組織類型,食管癌主要分為食管鱗癌(esophageal squamous cell carcinoma, ESCC)與EAC兩大類。ESCC是食管癌的主要病理類型,約占食管癌患者的90%,亞洲、非洲與南美洲為高發(fā)地區(qū),過度煙酒被視為其危險(xiǎn)因素,食管鱗狀上皮異常增生是重要的癌前病變;而EAC所占比例較低,主要高發(fā)于歐洲與北美洲,男性高發(fā)。近年來的研究表明,與反流性食管炎(reflux esophagitis, RE)及Barrett食管(barrett’s esophagus, BE)密切相關(guān)的胃食管反流病(gastroesophageal reflux disease, GERD)與肥胖被認(rèn)為是EAC的危險(xiǎn)因素,Barrett 食管則為EAC的重要癌前病變[5-6]。我國的一項(xiàng)橫跨24年的研究指出,我國約95%的食管癌為ESCC,而EAC發(fā)病率較低[7]。但近年來隨著經(jīng)濟(jì)的快速增長,飲食、生活方式逐漸西方化,包括RE在內(nèi)的GERD發(fā)病率逐年上升,特別是北京、上海等大城市,而EAC在我國的城市及農(nóng)村地區(qū)發(fā)病率均呈現(xiàn)逐年上升趨勢,值得腫瘤防治研究人員的注意[7-9]。在EAC中,“反流性食管炎-Barrett食管-不典型增生-食管腺癌”是目前公認(rèn)的EAC發(fā)病進(jìn)程,但其發(fā)病過程中具體的分子機(jī)制仍未完全闡明[10]。本研究基于GEO數(shù)據(jù)庫采用多種生物信息學(xué)分析方法探究在EAC發(fā)生發(fā)展過程中發(fā)生差異表達(dá)的基因,初步探索這些差異表達(dá)基因的功能及作用,為后續(xù)基礎(chǔ)研究及臨床早期篩查與靶向治療提供新的方向。
圖5 差異表達(dá)基因GO生物學(xué)過程富集分析
圖6 差異表達(dá)基因GO分子功能富集分析
圖7 差異表達(dá)基因KEGG信號(hào)通路富集分析
圖8 差異表達(dá)基因的PPI網(wǎng)絡(luò)分析
圖9 差異表達(dá)基因的DO分析
EAC的發(fā)生與發(fā)展涉及多種基因的表達(dá)失調(diào)。本研究通過對(duì)包含EAC的GSE26886進(jìn)行分析篩選,發(fā)現(xiàn)了1 383個(gè)差異表達(dá)基因,進(jìn)一步通過GO分析表明,這些差異基因在細(xì)胞外基質(zhì)的構(gòu)成、細(xì)胞分裂增殖、細(xì)胞間連結(jié)、表皮細(xì)胞發(fā)育及酶活性調(diào)節(jié)等方面發(fā)揮重要作用。KEGG信號(hào)通路富集分析表明,包括雌激素信號(hào)通路、IL-17信號(hào)通路等在內(nèi)的多種信號(hào)通路參與了EAC的發(fā)生發(fā)展,體現(xiàn)出EAC發(fā)病過程的復(fù)雜性。
本研究發(fā)現(xiàn)了607個(gè)差異表達(dá)上調(diào)的基因,分析了上調(diào)最為明顯的20個(gè)基因,結(jié)果表明,這些基因可以通過調(diào)控轉(zhuǎn)錄復(fù)合物形成、可變剪切、細(xì)胞分化與死亡、細(xì)胞-基質(zhì)黏附等多種關(guān)鍵生物學(xué)過程。其中,AGR2最初被發(fā)現(xiàn)可通過介導(dǎo)黏液分泌腺及前腦的形成促進(jìn)爪蟾的成熟[11]。近年來的研究顯示,AGR2在EAC癌前病變Barrett食管中表達(dá)量相對(duì)于食管正常上皮顯著上升[12]。WANG等[13]的研究表明,AGR2可通過促進(jìn)細(xì)胞生長、遷移及細(xì)胞轉(zhuǎn)化促進(jìn)EAC的發(fā)生發(fā)展。此外,轉(zhuǎn)錄因子FoxA家族可以通過結(jié)合轉(zhuǎn)錄抑制因子Rfx1共同調(diào)控Cdx2的影增強(qiáng)子(shadow enhancer),進(jìn)而影響EAC的發(fā)展[14]。而在776個(gè)差異表達(dá)下調(diào)的基因中,BNIP3可作為Bcl2的互作蛋白共同促進(jìn)線粒體相關(guān)的細(xì)胞凋亡過程,而其在EAC中的表達(dá)下調(diào),提示其可能在EAC發(fā)展過程中促凋亡過程減弱。另外鈣粘蛋白超家族成員DSC3可參與構(gòu)成細(xì)胞間橋粒連結(jié)結(jié)構(gòu)而抑制細(xì)胞的遷移[15]。研究表明,在EAC中DSC3啟動(dòng)子區(qū)發(fā)生異常高甲基化,繼而導(dǎo)致DSC3表達(dá)沉默,細(xì)胞遷移性增加,并與進(jìn)展期EAC及淋巴結(jié)轉(zhuǎn)移顯著相關(guān)[16]。
在對(duì)EAC差異表達(dá)基因進(jìn)行PPI分析時(shí),發(fā)現(xiàn)以SPRR(small proline-rich protein)蛋白家族成員為中心,包括SPRR1A、SPRR1B、SPRR2B及SPRR3在內(nèi)的多種蛋白存在相互作用,提示其在EAC發(fā)生發(fā)展中的重要作用。在食管正常鱗狀上皮發(fā)育過程中,由角化細(xì)胞后期分化產(chǎn)生的角質(zhì)套膜(cornified cell envelope, CE)結(jié)構(gòu)充當(dāng)鱗狀上皮層的保護(hù)屏障。而SPRR蛋白家族成員則是構(gòu)成CE結(jié)構(gòu)的重要成員[17]。既往多項(xiàng)基于ESCC的研究表明,SPRR家族成員SPRR3表達(dá)水平在由正常食管鱗狀上皮至食管癌中表達(dá)逐漸下調(diào),并可作為一項(xiàng)新的腫瘤標(biāo)記物檢測食管鱗癌的發(fā)生[18-19]。而在EAC研究方面,一項(xiàng)來自美國的研究表明,相較于ESCC,SPRR家族在EAC中表達(dá)下調(diào),且參與細(xì)胞增殖、分化等過程中。與本研究相似,該研究進(jìn)一步發(fā)現(xiàn)SPRR3的表達(dá)水平在EAC組中顯著低于ESCC組,提示SPRR3在食管鱗癌與腺癌發(fā)生發(fā)展過程中存在不同的作用機(jī)制。此外,SPRR3在評(píng)估術(shù)前放化療病理學(xué)完全緩解(pathological complete response, pathCR)與未達(dá)到pathCR方面表現(xiàn)出較高的靈敏度與特異度,體現(xiàn)出SPRR家族在食管腫瘤療效評(píng)估中的作用[20]。然而,一項(xiàng)基于肺鱗癌的高通量轉(zhuǎn)錄組測序分析表明,SPRR3、SPRR1A、SPRR2E、SPRR1B及SPRR2D在肺鱗癌樣本中呈現(xiàn)高表達(dá)狀態(tài),提示SPRR家族的表達(dá)狀態(tài)及功能可能存在癌腫差異[21]。
綜上所述,本研究通過對(duì)GEO食管腺癌芯片數(shù)據(jù)進(jìn)行生物信息學(xué)分析,篩選出在EAC發(fā)生發(fā)展過程中表達(dá)差異的基因及相應(yīng)的信號(hào)通路,其中AGR2、DSC3等基因及SPRR相關(guān)蛋白家族可能在EAC的發(fā)生發(fā)展過程中發(fā)揮重要的作用,并在臨床治療效果評(píng)價(jià)中具有潛在的應(yīng)用價(jià)值。同時(shí),本研究也表明,生物信息學(xué)分析工具在挖掘腫瘤發(fā)生機(jī)制、療效評(píng)價(jià)及預(yù)后預(yù)測方面的巨大應(yīng)用價(jià)值,相信結(jié)合后續(xù)分子生物學(xué)領(lǐng)域的研究,可以為EAC的診斷與治療提供新的思路。
西安交通大學(xué)學(xué)報(bào)(醫(yī)學(xué)版)2021年3期