李梁珊 趙 虎 王詩雯
(復旦大學附屬華東醫(yī)院檢驗科,上海 200040)
結直腸癌(colorectal cancer,CRC)是消化系統(tǒng)惡性腫瘤,有約25%的CRC患者在確診時就已發(fā)生了轉移,預后不佳[1-2]。CRC的主要治療方法包括手術、放療、化療、免疫治療和靶向治療,惡性增殖、侵襲轉移和化療耐藥是CRC復發(fā)和預后不良的主要原因[3-4]。由于大多數(shù)CRC患者在確診時已處于中晚期階段,且治療敏感性普遍較低,因此對CRC的早期診斷和精準治療對改善患者預后至關重要。目前,CRC的發(fā)病機制尚未完全闡明,用于CRC早期診斷和預后評估的生物標志物、治療的分子靶標和靶向藥物仍不足,因此迫切需要深入闡明CRC的發(fā)病機制,并篩選有效的CRC生物標志物和分子治療靶點。加權基因共表達網絡分析(weighted gene co-expression network analysis,WGCNA)是一種系統(tǒng)的生物學分析方法,旨在通過構建基于基因表達矩陣的網絡,探索基因與臨床表型之間的關系,在篩選核心基因上展現(xiàn)出巨大的優(yōu)勢[5-6]。本研究擬采用差異表達基因篩選聯(lián)合WGCNA分析,挖掘與CRC發(fā)生、發(fā)展相關的核心基因,以期為CRC的診斷和預后提供潛在的分子標志物和治療靶點。
從基因表達綜合(Gene Expression Omnibus,GEO)數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/geo/)下載數(shù)據(jù)集GSE33113(芯片平臺GPL570)、GSE44076(芯片平臺GPL13667)、GSE110224(芯片平臺GPL570)和GSE17536(芯片平臺GPL570)的CEL格式原始表達譜芯片數(shù)據(jù),分別包括90例CRC樣本和6例癌旁組織樣本、98例CRC樣本和98例癌旁組織樣本、17例CRC樣本和17例癌旁組織樣本、177例CRC樣本。
使用GSE33113數(shù)據(jù)集,采用R軟件中的affy程序包讀取芯片數(shù)據(jù),通過RMA算法進行標準化,通過impute.knn函數(shù)補充缺失值。采用R軟件中的limma程序包獲取差異表達基因,篩選條件為|log2FC|>1且P<0.05。結果由R軟件中的ggplot2程序包呈現(xiàn)。
采用DAVID 6.8(https://david-d.ncifcrf.gov/tools.jsp)在線工具對差異表達基因進行基因本體論(Gene Ontology,GO)和京都基因與基因組數(shù)據(jù)庫(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路富集分析。
采用R軟件中的WGCNA程序包對GSE33113數(shù)據(jù)集中標準差居前25%的基因構建共表達網絡。剔除離群樣本,選擇合適的軟閾值(β值)構建無尺度網絡。根據(jù)β值獲得鄰接矩陣,轉換為拓撲重疊矩陣(topological overlap matrix,TOM),利用TOM計算基因間的相異度(1-TOM),設定每個模塊最低基因數(shù)為30,采用動態(tài)剪切樹法將表達相似的基因分配到同一模塊中,最后將切割高度設為0.25,合并表達相似的模塊。計算每個模塊的模塊特征基因(module eigengene,ME)與臨床表型的相關系數(shù),將相關系數(shù)較大且P<0.05的模塊定義為核心模塊。計算核心模塊中每個基因的基因顯著性(gene significance,GS)和基因模塊身份(module membership,MM)值。篩選核心模塊中MM >0.8且GS>0.2的基因為關鍵模塊基因。
取關鍵模塊基因與差異表達基因的交集作為候選關鍵基因,采用GEPIA數(shù)據(jù)庫進行檢索,將在CRC組織與癌旁組織中表達有顯著性差異、且與疾病預后相關的基因作為關鍵基因。
在GSE33113數(shù)據(jù)集、GSE44076數(shù)據(jù)集和GSE110224數(shù)據(jù)集中篩選交集的差異表達基因。采用GEPIA數(shù)據(jù)庫驗證關鍵基因在CRC組織中的表達情況及其在預后評估中的價值。采用R軟件pROC程序包繪制受試者工作特征(receiver operating characteristic,ROC)曲線,通過曲線下面積(area under curve,AUC)判斷從GSE23878數(shù)據(jù)集中獲得的關鍵基因診斷CRC的效能。
根據(jù)GSE17536數(shù)據(jù)集EXO1表達量的中位數(shù)將樣本分為高表達組和低表達組。使用MSigDB數(shù)據(jù)庫的c2.cp.kegg.v7.5.1.symbols.gmt [Curated]數(shù)據(jù)集和GSEA 4.2.3軟件,篩選NOM p-val<0.05、FDR q-val<0.05的富集基因集和信號通路。
人正常腸上皮細胞系HIEC和CRC細胞系HCT116、HCT15均購自中國科學院細胞庫。常規(guī)培養(yǎng)細胞。采用RNA提取試劑盒(江蘇康為世紀生物科技股份有限公司)提取細胞總RNA。采用SimpliAmp PCR熱循環(huán)儀(美國ThermoFisher Scientific公司)和逆轉錄試劑盒(南京諾唯贊公司)將RNA逆轉錄為cDNA。以β-actin為內參,采用實時熒光定量聚合酶鏈反應(real-time fluorescence quantitative polymerase chain reaction,RTqPCR)檢測關鍵基因相對表達量,試劑盒購自南京供維贊公司,檢測儀器為QuantStudio 5 qPCR儀(美國ThermoFisher Scientific公司)。反應條件:95 ℃ 10 min;95 ℃ 15 s,60 ℃ 30 s,共40個循環(huán);95 ℃ 15 s,60 ℃1 min,95 ℃ 15 s。引物序列:EXO1上游引物為5'-TGAGGAAGTATAAAGGGCAGGT-3',下游引物為5'-AGTTTTTCAGCACAAGCAATAGC-3';β-actin上游引物為5'-TGACGTGGACATCCGCAAAG-3',下游引物為5'-CTGGAAGGTGGACAGCGAGG-3'。引物由鉑尚生物技術(上海)有限公司合成。
采用RIPA裂解液(上海碧云天生物技術有限公司)提取細胞總蛋白,采用二喹啉甲酸(bicinchoninic acid,BCA)法測定蛋白濃度。取一定量總蛋白進行十二烷基硫酸鈉-聚丙烯酰胺凝膠電泳,轉印至聚偏氟乙烯膜上,室溫條件下用5%脫脂奶粉封閉1 h,用1×TBST緩沖液清洗聚偏氟乙烯膜,加入相應一抗(EXO1抗體購自美國Proteintech公司,β-actin抗體購自杭州華安生物技術有限公司),4 ℃孵育過夜。1×TBST緩沖液洗膜3次,每次10 min,加入二抗(美國Cell Signaling Technology公司),室溫孵育1 h,1×TBST緩沖液洗膜3次,每次10 min,采用ECL發(fā)光液(上海圣爾生物科技有限公司)在Tanon 5200化學發(fā)光成像儀(上海天能公司)上顯影。
采用GraphPad Prism 8.4.3軟件進行統(tǒng)計分析和作圖。多組間比較采用單因素方差分析。以P<0.05為差異有統(tǒng)計學意義。
GSE33113數(shù)據(jù)集共篩選出差異表達基因1 211個,其中表達上調505個、表達下調706個。見圖1。
圖1 GSE33113數(shù)據(jù)集DEGs火山圖
差異表達基因的GO富集分析結果顯示,差異表達基因主要分布在細胞外間隙、胞外區(qū)、細胞外外泌體和細胞外基質,涉及趨化因子介導的信號通路、炎癥應答、細胞分裂、調控細胞增殖和調控細胞生長等生物過程,影響趨化因子活性、細胞外基質結合和CXCR趨化因子受體結合等分子功能。KEGG富集分析結果顯示,差異表達基因主要富集在細胞因子與細胞因子受體的相互作用、細胞周期、過氧化物酶體增殖物激活受體(peroxisome proliferator-activated receptor,PPAR)信號通路和代謝途徑等。見圖2。
圖2 差異表達基因涉及的生物學功能
R軟件WGCNA程序包分析結果顯示,GSE33113數(shù)據(jù)集剔除1個離群樣本,樣本的聚類特征熱圖見圖3(a)。選擇軟閾值(β值)=6(r2=0.87),將基因劃分為20個模塊,在對表達相似的基因模塊進行合并后,得到了18個模塊,其中與CRC臨床特征相關最顯著的模塊為模塊1(r=-0.81,P<0.05)和模塊2(r=0.55,P<0.05),分別有24和96個關鍵模塊基因。見圖3。
圖3 WGCNA的構建
取關鍵模塊基因與差異表達基因的交集,分別獲得24和62個候選關鍵基因。將這些基因在GEPIA數(shù)據(jù)庫上進行檢索,發(fā)現(xiàn)模塊1中的AQP8和模塊2中的PBK、EXO1、CCNB1、DEPDC1B和KPNA2表達在CRC組織與癌旁組織之間差異有統(tǒng)計學意義(P<0.01),且與疾病預后相關(P<0.05),因此確定這6個基因為最終的關鍵基因。見圖4。
圖4 癌組織和癌旁組織6個關鍵基因相對表達量的比較
檢索文獻后發(fā)現(xiàn)CRC中EXO1的相關研究較少,因此選擇EXO1作進一步驗證。EXO1處于GSE33113數(shù)據(jù)集、GSE44076數(shù)據(jù)集和GSE110224數(shù)據(jù)集的交集中。GEPIA數(shù)據(jù)庫分析結果顯示,CRC患者癌組織EXO1 mRNA表達水平顯著高于癌旁組織(P<0.05),且與總生存期(overall survival,OS)顯著相關(P=0.022),但與無病生存期(disease free survival,DFS)和TNM分期無關(P>0.05)。ROC曲線分析結果顯示,EXO1診斷CRC的AUC為0.913。見圖5、圖6。
圖5 關鍵基因表達CRC與OS患者的關系
圖6 關鍵基因EXO1驗證
GSEA分析結果顯示,在EXO1基因高表達的CRC樣本中,EXO1主要富集于細胞周期和DNA復制等基因集上。見圖7。
圖7 EXO1高表達GSEA富集分析結果
CRC細胞系HCT116和HCT15中的EXO1 mRNA和蛋白表達水平均顯著高于人正常腸上皮細胞系HIEC(P<0.05)。見圖8。
圖8 CRC細胞中EXO1的表達情況
CRC的發(fā)病機制復雜,診斷和治療難度較大,因此迫切需要尋找有意義的診斷和預后標志物,以提高CRC患者的早期診治水平[7]。有研究發(fā)現(xiàn),CRC正常組織樣本和腫瘤組織樣本之間的差異表達基因可能對CRC具有診斷和預后評估價值[8]。
本研究利用R語言對GSE33113數(shù)據(jù)集進行分析,篩選出1 211個差異表達基因,其中表達上調505個、表達下調706個。KEGG通路富集分析結果顯示,差異表達基因主要參與細胞因子與細胞因子受體的相互作用、細胞周期、PPAR信號通路和代謝途徑等。細胞周期的正常調控對細胞生長至關重要,包括檢測和修復DNA損傷,阻止不受控制的細胞分裂等[9]。當細胞周期發(fā)生紊亂時,細胞生長失去控制,進而導致腫瘤的發(fā)生。有研究發(fā)現(xiàn),PPAR-γ過表達可抑制上皮-間質轉化過程,有助于CRC患者獲得更好的臨床結局[10]。隨后,PPAR信號通路的腫瘤抑制功能再次被證實[11]。本研究篩選到的差異表達基因可能通過影響細胞因子與細胞因子受體的相互作用、細胞周期、PPAR信號通路和代謝途徑等參與CRC的發(fā)生、發(fā)展。
本研究篩選出6個在CRC組織與癌旁組織之間表達有顯著差異,且與CRC預后相關的關鍵基因(AQP8、PBK、EXO1、CCNB1、DEPDC1B和KPNA2)。因CRC中EXO1的相關研究較少,因此選擇EXO1作進一步分析。EXO1屬于核酸外切酶Rad2家族,具有5'雙鏈DNA核酸外切酶和5'瓣狀核酸內切酶活性,可參與DNA錯配修復、DNA雙鏈斷裂修復、DNA復制、端粒維持、細胞周期調控和核苷酸切除修復等生物進程[12-14]。已有研究證實,EXO1可通過泛素介導的蛋白酶體途徑快速降解,以響應DNA損傷[15]。EXO1已被報道在乳腺癌、肝細胞肝癌和肺腺癌中高表達[14,16-18],是一種潛在的生物標志物。本研究結果顯示,EXO1表達與CRC患者OS顯著相關;ROC曲線分析結果顯示,EXO1對CRC具有較好的診斷價值;GSEA分析結果提示EXO1可能參與細胞周期和DNA復制過程,進而調控CRC的發(fā)生、發(fā)展。RT-qPCR和免疫印跡法結果顯示,CRC細胞系HCT116和HCT15中EXO1表達顯著上調,說明EXO1可能是CRC潛在的生物標志物,或可用于CRC患者的預后評估。
綜上所述,本研究采用WGCNA等生物信息學分析方法篩選出在CRC中高表達,且與疾病預后相關的6個關鍵基因(AQP8、PBK、EXO1、CCNB1、DEPDC1B和KPNA2),其中EXO1或可作為CRC潛在的預后評估生物標志物。本研究結果可為進一步探索相關基因在CRC發(fā)生、發(fā)展中的作用機制提供參考。