(青島大學附屬醫(yī)院胃腸外科,山東 青島 266003)
結(jié)直腸癌(CRC)作為最常見的消化道腫瘤之一,近年來在發(fā)展中國家的發(fā)病率快速增高[1]。我國CRC的發(fā)病率、死亡率近幾年也在逐步上升,已成為巨大的公共健康問題。為了控制這種增長趨勢,通過加強人群篩選來預防和早期發(fā)現(xiàn)高危病人顯得尤為重要,對于我國東部地區(qū)以及60歲以上的高危人群需要更加有效的預防和治療措施[2]。全世界每年約有120萬例新發(fā)CRC病人被確診,其中約50%的病人發(fā)生肝轉(zhuǎn)移,未經(jīng)治療的肝轉(zhuǎn)移病人12個月內(nèi)生存率約為零[3]。2005—2014年,美國的CRC的發(fā)病率每年下降約2%~3%,可能與新的篩選方案有關(guān),也可能與病人較高的根治性切除率相關(guān)[4]。CRC的治療方法包括手術(shù)、放療、化療和靶向治療,當CRC局限于腸道時可通過手術(shù)治愈;然而,對于已經(jīng)擴散的CRC或者術(shù)后復發(fā)的病人通常是無法治愈的[5]。CRCⅠ期病人的10年生存率為90%,但對于無法手術(shù)的Ⅳ期疾病病人,目前生存率只有5%[6]。對于肝轉(zhuǎn)移病人,只有少數(shù)早期的病人適合外科手術(shù)切除治療[7]。美國癌癥聯(lián)合委員會將越來越多的分子標志物用于癌癥精準的風險分層,從而更好地評估患者的治療方案和預后情況[8]。因此,開發(fā)有效的生物標記物進行特異的靶向治療是極其必要的。生物標志物能夠早期提示CRC肝轉(zhuǎn)移的情況,進而提高CRC的預后預測水平。本研究利用生物信息學分析方法從公共基因芯片數(shù)據(jù)庫(GEO)中獲取有關(guān)CRC肝轉(zhuǎn)移的芯片,分析不同階段組織的差異表達基因,從而為CRC肝轉(zhuǎn)移的防治提供新的生物標志物和治療靶點。現(xiàn)將結(jié)果報告如下。
在GEO數(shù)據(jù)庫中檢索與CRC轉(zhuǎn)移密切相關(guān)的AFFY U133 PLUS2.0芯片數(shù)據(jù),選取其中樣本組織分期比較接近,同時數(shù)據(jù)量比較大的數(shù)據(jù)集作為分析數(shù)據(jù)集。其中GSE81980是早期(Ⅰ/Ⅱ)CRC樣本集,主要包含150個樣本信息(100個非轉(zhuǎn)移樣本和50個轉(zhuǎn)移樣本),GSE18105主要是Ⅱ/Ⅲ期腫瘤樣本,包含111個樣本(67個非轉(zhuǎn)移和44個轉(zhuǎn)移樣本)??紤]到兩批樣本腫瘤時期分布不一樣,將兩批樣本混合后隨機拆分為訓練集195個樣本(75%)和驗證集66個樣本(25%)。
1.2.1數(shù)據(jù)預處理 利用Transcriptome Analysis Console軟件對數(shù)據(jù)芯片中提供的原始數(shù)據(jù)(CEL)進行Robust multi-chip average (RMA)歸一化處理,然后利用R-package Combat去除批次效應。根據(jù)AFFY U133 PLUS2.0的基因注釋文件對探針進行過濾,去除同時注釋到多個基因的探針,篩選平均信號值最高的探針信號值作為基因的表達值。然后篩選Average Exp≥6且Max Exp≥7的基因進行后續(xù)分析。
1.2.2生物標志物的篩選 轉(zhuǎn)移組與非轉(zhuǎn)移組間比較采用t檢驗進行統(tǒng)計學分析,以P<0.05作為篩選條件。對篩選基因進行Lasso回歸算法分析,根據(jù)Lasso算法的分值進行重要性排序,篩選重要性排序前12個基因作為潛在的生物標志物。
1.2.3模型的建立 運用邏輯回歸算法,根據(jù)上述12個基因的表達情況進行機器學習分類。其中訓練集195個樣本,驗證集66個樣本(表1)。參數(shù)設(shè)置:最大迭代次數(shù)300,采用L2正則化,正則化系數(shù)λ設(shè)置為0.1。
表1 訓練集和驗證集模型構(gòu)建
TP:真陽性, FN:假陰性,F(xiàn)P:假陽性,TN:真陰性。
1.2.4GSEA分析 采用GSEA 3.0版本進行分析。將GSE81980、GSE18105數(shù)據(jù)集中所有樣品納入GSEA,選擇C2 CGP基因集進行分析。
1.2.5預后分析 使用在線Surv Express(http://bioinformatica.mty.itesm.mx:8080/Biomatec/SurvivaX.jsp)對篩選出的12個生物標志物在CRC病人中的表達與預后的關(guān)系進行分析。
轉(zhuǎn)移組和非轉(zhuǎn)移組通過t檢驗分析,按照P<0.05作為篩選條件篩選到426個基因。用Lasso回歸算法對426個篩選基因進行重要性排序,選重要性排序前12個基因作為潛在的生物標志物,分別為CD163L1、FAM210B、LGR5、LRRC16A、PIK3R3、PLEKHA6、PROSER2、RBBP9、SEMA6D、STOM、THBS1、ZNF544。見表2。
根據(jù)受試者工作特征曲線(ROC曲線),同時兼顧靈敏度和特異度,ROC曲線下面積(AUC)>0.5的情況下,越接近于1,說明診斷效果越好,AUC<0.5時,說明無診斷價值。本研究中訓練集AUC=0.87,驗證集AUC=0.84(圖1),其AUC>0.5,說明兩數(shù)據(jù)集診斷效果非常好。
表2 重要性排序前12個基因
將所有的樣本數(shù)據(jù)進行GSEA富集分析,選擇C2 CGP基因集進行分析。研究結(jié)果顯示,非轉(zhuǎn)移組394/2737基因集上調(diào),轉(zhuǎn)移組2343/2737基因集上調(diào),其中多個轉(zhuǎn)移相關(guān)的基因在轉(zhuǎn)移組中表達上調(diào)。篩選GSEA顯著性基因組時,多個轉(zhuǎn)移相關(guān)基因集上調(diào),以圓圈大小代表基因集的基因數(shù)目(圖3)。腫瘤肝轉(zhuǎn)移基因集:
ROESSLER_LIVER_CANCER_METASTASIS_DN NOMP值=0.002016129,
SWEET_KRAS_TARGETS_DNP值=0.004032258,
LOCKWOOD_AMPLIFIED_IN_LUNG_CANCERP值=0.0186722,
NIKOLSKY_BREAST_CANCER_15Q26_AMPLICONP值=0.018108651(見圖2)。
通過Surv Express網(wǎng)站對與CRC轉(zhuǎn)移相關(guān)的CD163L1、FAM210B、LGR5、LRRC16A、PIK3R3、PLEKHA6、PROSER2、RBBP9、SEMA6D、STOM、THBS1、ZNF544等基因在CRC中的表達與預后的關(guān)系進行分析。結(jié)果表明上述基因高表達的CRC病人預后差。
圖1 訓練集和驗證集AUC
A:Roessler_Liver_Cancer_Metastasis_Dnnom(P=0.002,F(xiàn)DR=1.0,ES=0.512);B:Sweet_Kras_TarGets_Dn(P=0.004,F(xiàn)DR=1.0,ES=0.544);C:Lockwood_Amplified_In_Lung_Cancer(P=0.018,F(xiàn)DR=1.0,ES=0.450);D:Nikolsky_Breast_Cancer_15q26_Amplicon(P=0.018,F(xiàn)DR=1.0,ES=0.743)。富集基因集的顯著性以P<0.05判斷。FDR:錯誤發(fā)現(xiàn)率。ES:富集分數(shù)。
圖2高表達的癌組織GSEA
圈的大小代表基因集的基因數(shù)目,連線表示兩個基因集中共有基因數(shù)目的多少,圈的顏色代表富集的ES值,標紅的標簽為轉(zhuǎn)移相關(guān)的基因集,粉色的標簽為非轉(zhuǎn)移組富集到的基因集。
圖3篩選GSEA顯著性P<0.05的genesets進行網(wǎng)路圖展示
近年來,GEO、TCGA、Array Express等眾多基因表達數(shù)據(jù)庫相繼建立。GEO致力于建立一個基因表達數(shù)據(jù)倉庫和在線資源,支持公共使用和發(fā)布基因表達數(shù)據(jù),用于檢索從任何物種來源的基因表達數(shù)據(jù),是生物信息學依賴的重要資源[9-11]。生物信息學是以計算機為工具對生物信息進行儲存、檢索和分析的科學,研究重點體現(xiàn)在基因組學和蛋白質(zhì)組學兩方面,即從核酸和蛋白質(zhì)序列出發(fā),分析序列表達的結(jié)構(gòu)功能等生物學信息。隨著高通量測序、計算機科學以及生命科學的迅速發(fā)展,生物信息學在基因調(diào)控網(wǎng)絡(luò)和蛋白質(zhì)結(jié)構(gòu)功能研究中的重要性顯得日益突出。本研究從GEO數(shù)據(jù)庫中下載了GSE81980、GSE18105兩套同一平臺上的基因芯片,并用RMA歸一化處理,分析平臺進行差異基因分析等,挖掘出12個基因,為CRC肝轉(zhuǎn)移的預防、診斷、治療提供了新的研究方向。但本研究存在一些不足,首先,研究數(shù)據(jù)是從在線的公共數(shù)據(jù)庫中獲取的,RNA檢測平臺差異是不可避免的因素,可能限制當前結(jié)果的準確性;其次,由于RNA檢測樣品來源的多樣性,因此需要在臨床上收集更多的樣品進行熒光實時定量聚合酶鏈反應檢測。
一般差異分析(GO和Pathway)傾向于比較兩組間的基因表達差異,重點是少數(shù)幾個基因表達的明顯上調(diào)或下調(diào),這些差異分析往往忽略了一些沒有顯著差異表達但具有重要生物學意義的基因。由于忽略了這些基因的生物學特性,基因調(diào)控網(wǎng)絡(luò)與有價值基因功能信息之間的關(guān)系就不可能被揭示。GSEA不需要指定明確的差異基因閾值。該算法根據(jù)實際數(shù)據(jù)的總體趨勢,為當前芯片分析存在的問題提供了合理的解決方案。本研究所有樣本數(shù)據(jù)進行GSEA富集分析,并用C2 KEGG基因集進行進一步分析。489個基因組中有329個在轉(zhuǎn)移表型上調(diào),9個基因集在P<0.05時顯著富集,489個基因集中有160個在無轉(zhuǎn)移表型上調(diào)。
目前,本研究的相關(guān)基因在CRC肝轉(zhuǎn)移中的分子機制及相關(guān)信號轉(zhuǎn)導通路具體機制尚不清楚,KATTAN等[12]研究發(fā)現(xiàn)CD163L1受miRNA的調(diào)控,因此,它可以作為口腔鱗狀細胞癌的生物標志物。SUN等[13]采用細胞增殖、集落形成和侵襲分析的方法評估FAM210B在人癌細胞中的作用,證明FAM210B丟失與癌癥轉(zhuǎn)移顯著相關(guān)。LGR5在肺癌、乳腺癌、宮頸癌、胃癌、CRC、胰腺癌中的表達均有報道,LGR5在血管生成和腫瘤預后中起重要作用[13-19]。WEI等[20]研究發(fā)現(xiàn)LRRC16A在調(diào)節(jié)急性呼吸窘迫綜合征基線血小板計數(shù)中起介導作用。GROSSMANN等[21]發(fā)現(xiàn)PIK3R3參與癌癥相關(guān)信號的傳導和細胞生長。LANGEVIN等[22]發(fā)現(xiàn)PLEKHA6在鑒定頭頸部鱗狀細胞癌血液DNA甲基化標記物中起重要作用。HAMADA等[23]發(fā)現(xiàn)PROSER2在人胎盤生殖細胞DNA甲基化中起印記基因的作用。SHIELDS等[24]認為RBBP9具有胰腺腫瘤形成所需的絲氨酸水解酶活性。PENG等[25]發(fā)現(xiàn)SEMA6D是BMP信號傳導的靶標,并且SEMAPHORIN信號傳導對房室通道中的間充質(zhì)細胞生成發(fā)揮著重要作用,揭示了一種新型調(diào)節(jié)房室間隔的BMP-SEMA6D-Rho軸。PAL等[26]認為THBS1在血管生成和腫瘤進展中起重要作用,THBS1是一種腫瘤特異性細胞外基質(zhì)蛋白,由TGFB1誘導,促進癌細胞的遷移,通過整合素信號刺激MMPS的表達,在口腔鱗狀細胞癌的侵襲中起重要作用。WALTON等[27]認為ZNF544參與DNA甲基化的變異,從而引起多動癥。研究表明篩選出的12個基因,部分基因在相關(guān)癌癥轉(zhuǎn)移中起重要作用,但具體分子機制及相關(guān)信號轉(zhuǎn)導通路仍需進一步研究。
綜上所述,隨著微陣列技術(shù)的日趨完善,研究人員可以進行轉(zhuǎn)錄組研究,尋找感興趣的標記基因;臨床醫(yī)師可參考基因及蛋白質(zhì)組學研究成果,制定個體化的治療方案。目前輔助化療的分子標志物研究還處于初始階段,部分成果僅供參考,但一部分成果已經(jīng)指導臨床實踐,目前,一線和二線姑息治療方法有所改善,輔助治療的生存率有所提高。通過生物標志物來確定治療方案和新輔助療法,將為改善病人預后提供機會。選擇精準的“個體化”化療方案,篩選化療或靶向治療的獲益人群,可使更多CRC肝轉(zhuǎn)移的病人能夠通過篩選進行精準治療,最大限度地避免無效醫(yī)療。隨著基因組學及蛋白組學的快速發(fā)展,CRC肝轉(zhuǎn)移的個體化治療仍有許多問題有待解決,結(jié)合基因的表達情況以選擇合理的治療方式可能是將來精準治療的方向。