国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于WGCNA和機(jī)器學(xué)習(xí)算法探索結(jié)直腸癌肝轉(zhuǎn)移的機(jī)制及其潛在生物標(biāo)志物

2024-08-11 00:00:00張平茜何亞玲李宇陽胡詩(shī)涵高波潘云
右江醫(yī)學(xué) 2024年6期

【摘要】 目的 通過基于加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(WGCNA)和機(jī)器學(xué)習(xí)算法探索結(jié)直腸肝轉(zhuǎn)移(CRCLM)潛在生物標(biāo)志物,為CRCLM的分子機(jī)制研究提供基礎(chǔ)。

方法 從GEO數(shù)據(jù)庫(kù)中收集兩個(gè)CRCLM的微陣列數(shù)據(jù)集(GSE6988和GSE14297),鑒定出CRCLM中的差異表達(dá)基因(DEGs)后進(jìn)行基因本體論(GO)分析、京都基因和基因組百科全書(KEGG)富集分析和基因集富集分析(GSEA)。應(yīng)用WGCNA篩選與CRCLM組相關(guān)性最強(qiáng)的模塊內(nèi)基因,采用機(jī)器學(xué)習(xí)算法最小絕對(duì)值收縮與篩選算子(LASSO)邏輯回歸和支持向量機(jī)-遞歸特征消除(SVM-RFE)鑒定CRCLM的潛在生物標(biāo)志物。比較GSE6988中CRCLM組和對(duì)照組的關(guān)鍵基因表達(dá)量,同時(shí)繪制關(guān)鍵基因診斷CRCLM的受試者工作特征(ROC)曲線,通過曲線下面積(AUC)評(píng)估其診斷效能,并在GSE14297中進(jìn)行驗(yàn)證。

結(jié)果 鑒定出73個(gè) DEGs,包括55個(gè)上調(diào)基因和18個(gè)下調(diào)基因。生物學(xué)功能富集分析表明,DEGs主要富集于血液微粒和趨化因子相關(guān)的通路。WGCNA共得到了5個(gè)基因共表達(dá)模塊,其中黃色模塊與CRCLM相關(guān)性最強(qiáng)(cor=0.72, P=2e-14),其中包含81個(gè)基因。對(duì)黃色模塊基因進(jìn)行LASSO邏輯回歸分析,其中4個(gè)基因(CCL11、SLC26A3、NR4A2、PLA2G2A)被確定為潛在的具有診斷性生物標(biāo)志物,通過SVM-RFE算法,從DEGs中獲得19個(gè)基因(CRP、HP、ORM2、CYP2E1、CCL11、MMP10、AQP3、SERPINA3、ENO3、HAO1、PLG、ENAM、DGUOK、UBE2Q2、HPX、APOA2、ITIH3、ANGPTL3、MMP1)作為潛在的診斷基因,將LASSO算法以及 SVM-RFE算法得到的關(guān)鍵基因取交集。最終嗜酸細(xì)胞活化趨化因子(CCL11)被確定為有希望的生物標(biāo)志物。在訓(xùn)練集及驗(yàn)證集中,CRCLM組的CCL11表達(dá)均顯著低于對(duì)照組(P<0.001)。在訓(xùn)練集和驗(yàn)證集中的ROC曲線分析結(jié)果顯示,CCL11診斷CRCLM的AUC分別為0.936和0.997,顯示出很強(qiáng)的預(yù)測(cè)預(yù)后的能力。

結(jié)論 CCL11在CRCLM中低表達(dá),可能是CRCLM的抑制因素,是CRCLM可能的預(yù)后生物分子標(biāo)志物。CRCLM的發(fā)生發(fā)展可能與腫瘤血管微環(huán)境及趨化因子相關(guān)通路相關(guān)。

【關(guān)鍵詞】 結(jié)直腸癌肝轉(zhuǎn)移;加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析;機(jī)器學(xué)習(xí)算法;生物信息學(xué);嗜酸細(xì)胞活化趨化因子

中圖分類號(hào): R735.3 文獻(xiàn)標(biāo)志碼: A DOI: 10.3969/j.issn.1003-1383.2024.06.001

Investigation of mechanism of liver metastasis in colorectal cancer and its potential biomarkers based on WGCNA and machine learning algorithms

ZHANG Pingxi1a, HE Yaling1a, LI Yuyang1a, HU Shihan1a, GAO Bo1b, PAN Yun1b, 2▲

(1a. School of Basic Medical Sciences, 1b. School of Clinical Medicine, 1. Dali University, Dali 671000, Yunnan, China; 2. Department of Pathology, the First Affiliated Hospital of Dali University, Dali 671000, Yunnan, China)

【Abstract】 Objective To explore the molecular mechanisms and its potential biomarkers of colorectal cancer with liver metastasis (CRCLM) based on weighted gene co-expression network analysis (WGCNA) and machine learning algorithms.Methods Two microarray datasets of CRCLM (GSE6988 and GSE14297) were collected from GEO database. After identifying the differentially expressed genes (DEGs) in CRCLM, gene ontology (GO) analysis, Kyoto encyclopedia of genes and genomes (KEGG) enrichment analysis, and gene set enrichment analysis (GSEA) were performed. WGCNA was employed to select genes within modules with the strongest correlation with CRCLM. Machine learning algorithms, including least absolute shrinkage and selection operator (LASSO) logistic regression and support vector machine-recurive feature elimination(SVM-RFE), were used to identify potential biomarkers of CRCLM. The expression levels of key genes between the CRCLM group and the control group in GSE6988 were compared. At the same time, receiver operating characteristic (ROC) curves for the key genes diagnosis of CRCLM was drawn, and their diagnostic efficacy was assessed through the area under the curve (AUC), and validation was conducted using the GSE14297 dataset.Results A total of 73 DEGs were identified, including 55 upregulated genes and 18 downregulated genes. Biological function enrichment analysis revealed that DEGs were mainly enriched in pathways related to blood particles and chemokines. WGCNA obtained 5 gene co-expression modules, among which the yellow module showed the strongest correlation with CRCLM (cor=0.72, P=2e-14), containing a total of 81 genes. For the genes in the yellow module, LASSO logistic regression analysis identified 4 genes (CCL11, SLC26A3, NR4A2, and PLA2G2A) as potential diagnostic biomarkers. Through SVM-RFE algorithm, 19 genes (CRP, HP, ORM2, CYP2E1, CCL11, MMP10, AQP3, SERPINA3, ENO3, HAO1, PLG, ENAM, DGUOK, UBE2Q2, HPX, APOA2, ITIH3, ANGPTL3, and MMP1) were obtained from DEGs as potential diagnostic genes. The key genes obtained from LASSO algorithm and SVM-RFE algorithm were intersected. Ultimately, CCL11 (eotaxin) was identified as a promising biomarker. In both training and validation sets, the expression of CCL11 in the CRCLM group was significantly lower than that in the control group (P<0.001). ROC curve analysis in the training and validation sets showed that the AUCs for diagnosing CRCLM with CCL11 were 0.936 and 0.997, respectively, demonstrating strong predictive ability for prognosis.Conclusion CCL11 is downregulated in CRCLM and may serve as a suppressor in CRCLM, suggesting its potential as a prognostic biomarker. The occurrence and development of CRCLM may be associated with pathways related to blood microenvironment and chemokines.

【Keywords】 colorectal cancer with liver metastasis(CRCLM); weighted gene co-expression network analysis (WGCNA); machine learning algorithm; bioinformatics; CCL11

原發(fā)性結(jié)直腸癌(colorectal cancer, CRC)是全世界范圍內(nèi)發(fā)病率位居第二且病死率位居第三的惡性腫瘤。中國(guó)人口約占世界人口的五分之一,根據(jù)《2020年全球癌癥統(tǒng)計(jì)》,中國(guó)結(jié)直腸癌新發(fā)病例和死亡病例卻分別占全球的49.3%和58.3%[1]。由于社會(huì)發(fā)展及人口老齡化趨勢(shì)日增,預(yù)計(jì)至2035年,CRC發(fā)病率將增加一倍以上,中國(guó)的癌癥預(yù)防和治療面臨著前所未有的挑戰(zhàn)。盡管篩查手段和治療方法不斷改進(jìn),但仍有約25%的CRC患者在初治時(shí)已發(fā)生轉(zhuǎn)移,約一半CRC患者后續(xù)將發(fā)展為轉(zhuǎn)移性結(jié)直腸癌[2-3]。

目前研究表明,肝臟是結(jié)直腸癌轉(zhuǎn)移最常見的靶器官[4]。16%~26%的CRC患者在初診時(shí)已發(fā)生肝轉(zhuǎn)移,18%~25%的CRC患者即使在原發(fā)病灶徹底切除后也會(huì)發(fā)生肝轉(zhuǎn)移[5]。近幾十年來,在全球范圍內(nèi),結(jié)直腸癌患者生存率顯著提高,無轉(zhuǎn)移的晚期結(jié)直腸癌患者5年生存率約為75.1%,而肝轉(zhuǎn)移患者的5年生存率僅為25.2%。CARLOMAGNO等[2]的研究表明,中國(guó)晚期結(jié)直腸癌無轉(zhuǎn)移患者5年生存率約為57%,而肝轉(zhuǎn)移患者5年相對(duì)生存率降至11%。目前診斷結(jié)直腸癌肝轉(zhuǎn)移(CRC with liver metastasis, CRCLM)的方法主要是影像學(xué)檢查和病理組織活檢,如何在CRC肝轉(zhuǎn)移發(fā)生前就可預(yù)測(cè)并加以防范已成為研究熱點(diǎn)與難點(diǎn)[6-7]。因此,尋找CRCLM新的預(yù)測(cè)與診斷方法迫在眉睫。

加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(weighted gene coexpression network analysis, WGCNA)是一種系統(tǒng)的生物信息學(xué)方法,用于描述跨微陣列樣本的基因之間的相關(guān)模式[8]。WGCNA可將表達(dá)模式相近的基因類聚,并分析模塊與特定性狀或表型之間的關(guān)聯(lián),可獲得與表型相關(guān)性最高的模塊及其樞紐基因。此方法已廣泛用于識(shí)別候選生物標(biāo)志物或治療靶點(diǎn)[9-10]。機(jī)器學(xué)習(xí)算法在研究高維數(shù)據(jù)的潛在關(guān)系方面顯示出巨大的優(yōu)勢(shì)和前景[11]。最近,機(jī)器學(xué)習(xí)算法越來越多地應(yīng)用于分析高維轉(zhuǎn)錄組數(shù)據(jù)和識(shí)別生物學(xué)上重要的特征基因,并取得了較為理想的結(jié)果[12-14],最小絕對(duì)值收縮與篩選算子(least absolute shrinkage and selection operator, LASSO)是由TIBSSHIRAN在1996年首次提出的用來篩選特征的機(jī)器學(xué)習(xí)方法[15],支持向量機(jī)-遞歸特征消除(support vector machine-recurive feature elimination, SVM-RFE)是由GUYON最新提出的機(jī)器學(xué)習(xí)方法,在篩選特征中表現(xiàn)出良好性能[16]。

綜上,我們擬探討CRC和CRCLM之間的差異表達(dá)基因(differentially expressed genes, DEGs),并進(jìn)行多種功能富集分析,包括基因本體論(gene ontology, GO)、京都基因和基因組百科全書(Kyoto encyclopedia of genes and genomes, KEGG), 以及基因集富集分析(gene set enrichment analysis, GSEA)。應(yīng)用機(jī)器學(xué)習(xí)算法LASSO logistic regression 與 SVM-RFE識(shí)別CRCLM的潛在生物標(biāo)志物,并且利用單樣本基因集富集分析(single sample gene set enrichment analysis, ssGSEA)算法評(píng)估CRC和CRCLM之間微環(huán)境中免疫浸潤(rùn)細(xì)胞的差異,鑒定生物標(biāo)志物與免疫細(xì)胞浸潤(rùn)的相關(guān)性。研究結(jié)果有助于揭示CRC發(fā)展為CRCLM的分子機(jī)制,有望為CRCLM的靶向治療和分子機(jī)制研究提供理論基礎(chǔ)。

1 材料與方法

1.1 微陣列數(shù)據(jù)的收集和處理

本研究中CRCLM的微陣列信息(GSE6988 與 GSE14297)都來自基因表達(dá)綜合數(shù)據(jù)庫(kù)(gene expression omnibus, GEO) (http://www.ncbi.nlm.nih.gov/geo/)。GSE6988的平臺(tái)信息是GPL4811[17], GSE14297的平臺(tái)信息是GPL6370[18]。筆者將GSE6988數(shù)據(jù)集(其中有27個(gè)CRC樣本和27個(gè)CRCLM樣本)作為訓(xùn)練集,將GSE14297數(shù)據(jù)集(包括18例CRC、18例CRCLM、7例正常結(jié)腸上皮樣本和5例正常肝組織樣本)作為驗(yàn)證集(表1)。所有數(shù)據(jù)都進(jìn)行了進(jìn)一步的batch effects去除[19]。

1.2 DEGs的鑒別

為了確定CRCLM的特征,我們分析了原發(fā)性CRC組織與肝轉(zhuǎn)移組織之間的DEGs。將探針轉(zhuǎn)換為基因符號(hào),并將平均表達(dá)值作為具有多個(gè)對(duì)應(yīng)探針的基因的唯一值。然后使用log2變換對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換,并在截?cái)嘀祙log2[fold change (FC)]| >2和調(diào)整后的P<0.001處使用limma包識(shí)別DEGs[20]。隨后進(jìn)行了GO富集分析,以研究生物學(xué)過程、分子功能和細(xì)胞成分。用KEGG分析探究與DEGs相關(guān)的信號(hào)通路。GO富集分析和KEGG富集分析使用“Cluster Profiler”R包實(shí)現(xiàn)(P<0.05, FDR<0.05)。最后,使用基于基因間Pearson相關(guān)性的有序基因表達(dá)矩陣進(jìn)行GSEA分析,研究DEGs富集的生物學(xué)途徑。

1.3 基于機(jī)器學(xué)習(xí)算法的CRCLM潛在生物標(biāo)志物識(shí)別

LASSO回歸算法基于R包“glmnet”來消除模塊過擬合。它使用L1懲罰將回歸系數(shù)(λ)限制為零,并且保留系數(shù)非零的基因作為種子基因。將差異基因的表達(dá)譜轉(zhuǎn)移到R平臺(tái)進(jìn)行LASSO回歸分析,該分析基于“glmnet”包,nfolds=10。根據(jù)最小標(biāo)準(zhǔn)選擇最佳λ值。SVM-RFE是一種高效的特征選擇算法,它迭代地去除權(quán)重最小的特征。在每次迭代中,通過k-fold交叉驗(yàn)證對(duì)當(dāng)前SVM-RFE模型進(jìn)行評(píng)估。最后構(gòu)建精度最高的分類器模型,并找到最優(yōu)變量[21]。SVM-RFE算法主要基于“e1071”R包來執(zhí)行[22]。最后,兩種機(jī)器學(xué)習(xí)算法中的共有基因被認(rèn)為是診斷性生物標(biāo)志物。

1.4 診斷性生物標(biāo)志物價(jià)值的評(píng)價(jià)

我們通過基因表達(dá)和ROC曲線評(píng)估診斷性生物標(biāo)志物區(qū)分CRC和CRCLM的能力。用箱線圖表示基因表達(dá)情況,P<0.05表示基因表達(dá)差異有統(tǒng)計(jì)學(xué)意義?;凇皃ROC”包,通過受試者工作特征(receiver operating characteristic, ROC)曲線下面積(area under the curve, AUC)值生成ROC曲線,以評(píng)估篩選出的生物標(biāo)志物的預(yù)測(cè)效能。用測(cè)試隊(duì)列數(shù)據(jù)進(jìn)一步驗(yàn)證篩選出的生物標(biāo)志物表達(dá)差異和預(yù)測(cè)可靠性。

1.5 免疫細(xì)胞浸潤(rùn)分析

我們?cè)u(píng)估了CRC和CRCLM組織中28個(gè)免疫細(xì)胞的浸潤(rùn)情況,并基于ssGSEA繪制熱圖和小提琴圖。此外,為了探索在CRPC轉(zhuǎn)化中發(fā)現(xiàn)的生物標(biāo)志物的免疫相關(guān)機(jī)制,我們進(jìn)一步評(píng)估了基因與免疫細(xì)胞浸潤(rùn)的相關(guān)性。

1.6 統(tǒng)計(jì)學(xué)方法

所有統(tǒng)計(jì)分析均使用R軟件(版本4.3.2)進(jìn)行。兩組數(shù)據(jù)間比較采用t檢驗(yàn),三組及以上數(shù)據(jù)比較采用單因素方差分析。檢驗(yàn)水準(zhǔn):α=0.05,雙側(cè)檢驗(yàn)。

2 結(jié) 果

2.1 CRC與CRCLM差異表達(dá)基因的鑒定

本研究流程圖如圖1所示。通過比較CRCLM與CRC樣本,我們共鑒定出73個(gè)DEGs,其中上調(diào)基因55個(gè),下調(diào)基因18個(gè)(|log2FC|>2, P<0.05),研究結(jié)果用火山圖(圖2A)和熱圖(圖2B)表示。

2.2 GO、 KEGG與GSEA富集分析

進(jìn)行GO、KEGG與GSEA富集分析,研究DEGs的生物學(xué)功能。GO分析表明,這些DEGs主要參與血液微粒、小分子代謝過程和絲氨酸型酶抑制劑活性相關(guān)的生物過程(圖3A)。KEGG富集分析表明,DEGs主要富集在與細(xì)胞因子-細(xì)胞因子受體相互作用相關(guān)的信號(hào)通路中(圖3B)。GSEA結(jié)果顯示,CRC樣本中富集了丁酸甲酯代謝相關(guān)信號(hào)通路,而CRCLM樣本中富集了趨化因子信號(hào)通路相關(guān)的通路(圖3C、3D)。

2.3 WGCNA

為了進(jìn)一步鑒定CRCLM中的關(guān)鍵基因,使用73個(gè)基因進(jìn)行了WGCNA。對(duì)樣本進(jìn)行聚類分析,發(fā)現(xiàn)所有樣本之間存在相關(guān)性,并利用所有樣本中DEGs的表達(dá)矩陣構(gòu)建加權(quán)基因共表達(dá)網(wǎng)絡(luò)。設(shè)置軟閾值為14 (R2 0.86)構(gòu)建無標(biāo)度網(wǎng)絡(luò)(圖4A、4B)。此外,通過結(jié)合相關(guān)性較高的模塊,在加權(quán)基因共表達(dá)網(wǎng)絡(luò)中篩選出5個(gè)共表達(dá)模塊,將最小基因數(shù)設(shè)置為60個(gè)(圖4C)。然后,我們計(jì)算了每個(gè)模塊的特征基因(ME)與CRCLM之間的Pearson相關(guān)性。黃色模塊與CRCLM相關(guān)性和顯著性最高(cor=0.72, P=2e-14),被選為目標(biāo)模塊(圖4D、4E)。最終獲得81個(gè)靶基因,以基因重要性和模塊相關(guān)性作為篩選標(biāo)準(zhǔn)(重要性>0.5,相關(guān)性>0.8)進(jìn)行后續(xù)分析(圖4F)。

2.4 利用機(jī)器學(xué)習(xí)算法鑒定潛在的CRCLM生物標(biāo)志物

為了進(jìn)一步從靶基因中識(shí)別CRCLM的潛在生物標(biāo)志物,使用LASSO邏輯回歸和SVM-RFE兩種機(jī)器學(xué)習(xí)算法。首先,應(yīng)用LASSO回歸算法篩選黃色模塊與差異基因的交集基因中的過擬合基因,其中4個(gè)基因(CCL11、SLC26A3、NR4A2、PLA2G2A)被確定為潛在的具有診斷性生物標(biāo)志物(圖5A、5B)。隨后,通過SVM-RFE算法(圖5C),從DEGs中獲得19個(gè)基因(CRP、HP、ORM2、CYP2E1、CCL11、MMP10、AQP3、SERPINA3、ENO3、HAO1、PLG、ENAM、DGUOK、UBE2Q2、HPX、APOA2、ITIH3、ANGPTL3、MMP1)作為潛在的診斷基因(圖5D)。

2.5 評(píng)估潛在生物標(biāo)志物的表達(dá)水平和診斷能力

CCL11在訓(xùn)練隊(duì)列CRCLM樣本中的表達(dá)顯著低于原發(fā)性結(jié)直腸癌(P<0.001)(圖6A)。通過測(cè)試隊(duì)列數(shù)據(jù)驗(yàn)證得到了相同的結(jié)果(圖6B)。為了評(píng)估診斷性生物標(biāo)志物的預(yù)測(cè)性能,進(jìn)行了ROC分析。CCL11在訓(xùn)練隊(duì)列中的AUC值為0.936,具有可靠的預(yù)測(cè)能力(圖6C)。同時(shí)CCL11在驗(yàn)證隊(duì)列中的AUC值為0.997(圖6D),這些結(jié)果表明CCL11是有效的診斷性生物標(biāo)志物。

2.6 免疫細(xì)胞浸潤(rùn)分析

為了進(jìn)一步分析CRC與CRCLM免疫細(xì)胞浸潤(rùn)的差異,我們通過ssGSEA方法,探討診斷生物標(biāo)志物與免疫細(xì)胞浸潤(rùn)的相關(guān)性。大多數(shù)免疫細(xì)胞浸潤(rùn)在CRC和CRCLM中有顯著差異,大多數(shù)免疫細(xì)胞浸潤(rùn)在原發(fā)性結(jié)直腸癌中比在CRCLM中更多(圖7A、7B)。相關(guān)分析顯示,CCL11與大多數(shù)免疫細(xì)胞呈正相關(guān) (圖7C)。

3 討 論

CRC是全世界癌癥相關(guān)死亡的主要原因之一。CRC的主要特征是侵襲性強(qiáng)、預(yù)后差以及病死率高,而肝轉(zhuǎn)移的高發(fā)生率是結(jié)直腸癌患者死亡的首要危險(xiǎn)因素[23-24]。近年來,研究發(fā)現(xiàn)了與CRCLM發(fā)生和進(jìn)展相關(guān)的因素,包括三級(jí)淋巴結(jié)構(gòu)的定位和密度、血管周圍基質(zhì)的重塑、TRP 通道相關(guān)因子2等[25-27]。然而CRCLM是一個(gè)涉及多種因素和步驟的復(fù)雜生物學(xué)過程,其機(jī)制尚未被完全闡明,因此,迫切需要尋找潛在的CRCLM分子生物標(biāo)志物,以幫助提高CRCLM的診斷和治療效果。近年來,機(jī)器學(xué)習(xí)算法的發(fā)展引起了許多研究者的關(guān)注,對(duì)復(fù)雜的計(jì)算機(jī)算法的分析可以幫助研究人員從大而雜亂的數(shù)據(jù)中找到問題的關(guān)鍵因素。在我們的研究中,同時(shí)采用WGCNA和兩種機(jī)器學(xué)習(xí)算法(LASSO logistic回歸和SVM-RFE)在GEO數(shù)據(jù)庫(kù)中識(shí)別出一個(gè)關(guān)鍵基因CCL11,這個(gè)基因可以作為CRCLM的診斷性生物標(biāo)志物。同時(shí),我們探索了DEGs在CRC和CRCLM中富集的生物學(xué)過程、途徑,并討論了這個(gè)診斷性生物標(biāo)志物與免疫細(xì)胞浸潤(rùn)的相關(guān)性。

本研究中,GO富集分析顯示,大部分的DEGs被富集于與血液微粒相關(guān)的生物學(xué)功能。黃媛等[28]發(fā)現(xiàn)肺癌患者腫瘤轉(zhuǎn)移與血小板計(jì)數(shù)及血漿纖維蛋白原水平相關(guān)。腫瘤微環(huán)境在結(jié)直腸癌轉(zhuǎn)移過程起重要作用,而眾多血液微粒(如血管內(nèi)皮生長(zhǎng)因子、抑制性細(xì)胞、中性粒細(xì)胞等)能調(diào)節(jié)腫瘤血管生成,從而影響腫瘤微環(huán)境[29]。KEGG分析DEGs與細(xì)胞因子-細(xì)胞因子受體相互作用的通路相關(guān)。GSEA顯示,CRC樣本中富集了丁酸甲酯代謝相關(guān)信號(hào)通路,而CRCLM樣本中富集了趨化因子信號(hào)通路。綜上表明,CRC與CRCLM在血液微粒以及細(xì)胞因子和趨化因子信號(hào)通路等方面存在顯著差異,可能引起腫瘤血管微環(huán)境改變,這可能是原發(fā)性結(jié)直腸癌肝轉(zhuǎn)移的機(jī)制之一。

通過WGCNA和兩種不同的機(jī)器學(xué)習(xí)算法確定了診斷性生物標(biāo)志物CCL11。通過訓(xùn)練集和驗(yàn)證集驗(yàn)證,我們發(fā)現(xiàn)CCL11在CRC和CRCLM中的表達(dá)水平存在顯著差異:在CRCLM中CCL11的表達(dá)量顯著低于CRC,這提示CCL11可能作為抑制CRCLM發(fā)生的生物標(biāo)志物。ROC分析顯示CCL11具有較強(qiáng)的預(yù)測(cè)能力,可作為CRCLM的診斷性生物標(biāo)志物。

嗜酸細(xì)胞活化趨化因子即CCL11,也稱為Eotaxin-1, 屬于間分泌β(趨化因子CC)家族。它的主要作用是激活參與炎癥過程的嗜堿性粒細(xì)胞和嗜酸性粒細(xì)胞。由Eotaxin-1激活的特定嗜酸性粒細(xì)胞主要與炎癥性疾病有關(guān),例如特應(yīng)性皮炎、過敏性鼻炎、哮喘和寄生蟲感染[30]。有研究表明,Eotaxin-1在胃腸道黏膜中表達(dá),可能在潰瘍性結(jié)腸炎和其他胃腸道疾病中發(fā)揮作用[31-32]。還有研究證實(shí)了在結(jié)直腸癌中Eotaxin-1 的血漿或血清水平較高[33-34]。在促進(jìn)癌轉(zhuǎn)移的機(jī)制方面,有研究表明CCL11可以通過激活CCR3-ERK通路和上調(diào)基質(zhì)金屬蛋白酶3(MMP-3)來促進(jìn)癌細(xì)胞遷移和侵襲[35]。CCL11在結(jié)直腸癌肝轉(zhuǎn)移中的作用還需要更深入的研究來闡明。

本研究尚存在一定局限性。首先,本研究的訓(xùn)練集與驗(yàn)證集均僅納入了單個(gè)平臺(tái)的單個(gè)數(shù)據(jù)集,GEO數(shù)據(jù)庫(kù)中無更多CRCLM及CRC的數(shù)據(jù)集,使得樣本量偏少, 結(jié)果可能存在一定偏倚;其次,本研究結(jié)果僅能說明CCL11與CRCLM存在相關(guān)性,并不能揭露其相互之間的因果關(guān)系及作用機(jī)制;最后,本研究的所有結(jié)果完全來自GEO數(shù)據(jù)庫(kù)且均是基于生物信息學(xué)分析,未對(duì)CCL11進(jìn)行動(dòng)物、細(xì)胞實(shí)驗(yàn)和臨床試驗(yàn)樣本中的驗(yàn)證來進(jìn)一步確認(rèn)研究結(jié)論。

綜上所述,本研究通過生物信息學(xué)分析先得到CRCLM與CRC的差異基因,再結(jié)合WGCNA與機(jī)器學(xué)習(xí)算法LASSO和SVM-RFE識(shí)別出基因CCL11可作為診斷CRCLM的潛在生物標(biāo)志物,在驗(yàn)證數(shù)據(jù)集同樣發(fā)現(xiàn)CCL11在CRCLM和CRC樣本間存在表達(dá)差異。值得關(guān)注的是,功能富集分析表明CRCLM差異基因與血液微環(huán)境及趨化因子信號(hào)通路相關(guān)。基于以上結(jié)果可以推測(cè),CCL11可能通過影響趨化因子分泌、改變腫瘤血管微環(huán)境等方式參與CRCLM的發(fā)生發(fā)展。未來有必要進(jìn)行進(jìn)一步的動(dòng)物實(shí)驗(yàn)、細(xì)胞實(shí)驗(yàn)和臨床前瞻性研究以證實(shí)以上結(jié)論,最終期待為該病的臨床診療提供新的思路。

參 考 文 獻(xiàn)

[ 1] SUNG H, FERLAY J, SIEGEL R L, et al. Global cancer statistics 2020: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries [J]. CA Cancer J Clin, 2021, 71(3): 209-49.

[ 2] CARLOMAGNO C, DE STEFANO A, ROSANOVA M, et al. Multiple treatment lines and prognosis in metastatic colorectal cancer patients[J]. Cancer Metastasis Rev, 2019, 38(1-2): 307-313.

[ 3] ESMO Guidelines Working Group,VAN CUTSEM E J.Advanced colorectal cancer: ESMO clinical recommendations for diagnosis, treatment and follow-up[J]. Ann Oncol, 2008, 19(5):1027-9.

[ 4] ENGSTRAND J, NILSSON H, STRMBERG C, et al. Colorectal cancer liver metastases - a population-based study on incidence, management and survival [J]. BMC Cancer, 2018, 18(1): 78.

[ 5] HORN S R, STOLTZFUS K C, LEHRER E J, et al. Epidemiology of liver metastases[J]. Cancer Epidemiol, 2020, 67: 101760.

[ 6] ZHOU H, LIU Z, WANG Y, et al. Colorectal liver metastasis: molecular mechanism and interventional therapy[J]. Signal Transduct Target Ther, 2022, 7(1): 70.

[ 7] BAI R, SHI Z, LI D, et al. Gene expression profile of human colorectal cancer identified NKTR as a biomarker for liver metastasis[J]. Aging (Albany NY), 2022, 14(16): 6656-6667.

[ 8] LANGFELDER P, HORVATH S. WGCNA: an R package for weighted correlation network analysis[J]. BMC Bioinformatics, 2008, 9: 559.

[ 9] TRAXLER L, HERDY J R, STEFANONI D, et al. Warburg-like metabolic transformation underlies neuronal degeneration in sporadic Alzheimer's disease [J]. Cell Metab, 2022, 34(9): 1248-1263.e6.

[10] LUO Z, WANG W, LI F, et al. Pan-cancer analysis identifies telomerase-associated signatures and cancer subtypes[J]. Mol Cancer, 2019, 18(1): 106.

[11] TSHITOYAN V, DAGDELEN J, WESTON L, et al. Unsupervised word embeddings capture latent knowledge from materials science literature[J]. Nature, 2019, 571(7763): 95-98.

[12] BOGARD N, LINDER J, ROSENBERG A B, et al. A deep neural network for predicting and engineering alternative polyadenylation[J]. Cell, 2019, 178(1): 91-106.e23.

[13] KACHROO P, ERASO J M, BERES S B, et al. Integrated analysis of population genomics, transcriptomics and virulence provides novel insights into Streptococcus pyogenes pathogenesis[J]. Nat Genet, 2019, 51(3): 548-559.

[14] KANG J, CHOI Y J, KIM I K, et al. LASSO-based machine learning algorithm for prediction of lymph node metastasis in T1 colorectal cancer[J]. Cancer Res Treat, 2021, 53(3): 773-783.

[15] TIBSHIRANI R. Regression shrinkage and selection via the lasso[J]. J R Stat Soc Ser B: Methodol,1996,58:267-288.

[16] SANZ H, VALIM C, VEGAS E, et al. SVM-RFE: selection and visualization of the most relevant features through non-linear kernels[J]. BMC Bioinformatics, 2018, 19(1): 432.

[17] KI D H, JEUNG H C, PARK C H, et al. Whole genome analysis for liver metastasis gene signatures in colorectal cancer[J]. Int J Cancer, 2007, 121(9): 2005-2012.

[18] STANGE D E, ENGEL F, LONGERICH T, et al. Expression of an ASCL2 related stem cell signature and IGF2 in colorectal cancer liver metastases with 11p15.5 gain[J]. Gut, 2010, 59(9): 1236-1244.

[19] PARKER H S, LEEK J T, FAVOROV A V, et al. Preserving biological heterogeneity with a permuted surrogate variable analysis for genomics batch correction[J]. Bioinformatics, 2014, 30(19): 2757-2763.

[20] RITCHIE M E, PHIPSON B, WU D, et al. Limma powers differential expression analyses for RNA-sequencing and microarray studies[J]. Nucleic Acids Res, 2015, 43(7): e47.

[21] LIN X, YANG F, ZHOU L, et al. A support vector machine-recursive feature elimination feature selection method based on artificial contrast variables and mutual information[J]. J Chromatogr B Analyt Technol Biomed Life Sci, 2012, 910: 149-155.

[22] HUANG M L, HUNG Y H, LEE W M, et al. SVM-RFE based feature selection and Taguchi parameters optimization for multiclass SVM classifier [J]. Sci World J, 2014, 2014: 795624.

[23] LIU W, ZHANG W, XU Y, et al. A prognostic scoring system to predict survival outcome of resectable colorectal liver metastases in this modern era[J]. Ann Surg Oncol, 2021, 28(12): 7709-7718.

[24] NISHIOKA Y, KAWAGUCHI Y, KOTHARI A N, et al. Prognostic and therapeutic implications of tumor biology, including gene alterations, in colorectal liver metastases[J]. J Gastrointest Surg, 2021, 25(6): 1591-1600.

[25] ZHANG C, WANG X Y, ZUO J L, et al. Localization and density of tertiary lymphoid structures associate with molecular subtype and clinical outcome in colorectal cancer liver metastases[J]. J Immunother Cancer, 2023, 11(2): e006425.

[26] LI X, PAN J, LIU T, et al. Novel TCF21(high) pericyte subpopulation promotes colorectal cancer metastasis by remodelling perivascular matrix[J]. Gut, 2023, 72(4): 710-721.

[27] LI X, QI Q, LI Y, et al. TCAF2 in pericytes promotes colorectal cancer liver metastasis via inhibiting cold-sensing TRPM8 channel[J]. Adv Sci (Weinh), 2023, 10(30): e2302717.

[28] 黃媛,陳建魁,于農(nóng),等.肺癌患者血小板計(jì)數(shù)與血漿纖維蛋白原水平變化與腫瘤轉(zhuǎn)移的關(guān)系[J].國(guó)際檢驗(yàn)醫(yī)學(xué)雜志,2013, 34(19): 2532-2533.

[29] 韋蕾,胡容.結(jié)腸癌轉(zhuǎn)移機(jī)制及其治療研究進(jìn)展[J].藥物生物技術(shù), 2023, 30(2): 207-215.

[30] ROBINSON S C, COUSSENS L M. Soluble mediators of inflammation during tumor development[J]. Adv Cancer Res, 2005, 93: 159-187.

[31] WGSTER D, LFGREN S, HUGANDER A, et al. Analysis of single nucleotide polymorphism in the promoter and protein expression of the chemokine eotaxin-1 in colorectal cancer patients[J]. World J Surg Oncol, 2007, 5: 84.

[32] ZAJKOWSKA M, KULCZYSKA-PRZYBIK A, DU-LEWICZ M, et al. Eotaxins and their receptor as biomarkers of colorectal cancer[J]. J Clin Med, 2021, 10(12):2675.

[33] YAMAGUCHI M, OKAMURA S, YAMAJI T, et al. Plasma cytokine levels and the presence of colorectal cancer[J]. PLoS One, 2019, 14(3): e0213602.

[34] KOMURA T, YANO M, MIYAKE A, et al. Immune condition of colorectal cancer patients featured by serum chemokines and gene expressions of CD4+ cells in blood[J]. Can J Gastroenterol Hepatol, 2018, 2018: 7436205.

[35] ZHU F, LIU P, LI J, et al. Eotaxin-1 promotes prostate cancer cell invasion via activation of the CCR3-ERK pathway and upregulation of MMP-3 expression [J]. Oncol Rep, 2014, 31(5): 2049-2054.

基金項(xiàng)目: 國(guó)家自然科學(xué)基金(82160044,81960042)

第一作者簡(jiǎn)介: 張平茜,男,醫(yī)學(xué)學(xué)士,在讀碩士研究生,研究方向:病理學(xué)。E-mail:2358514499@qq.com

▲通信作者: 潘云。E-mail:panyun09@163.com

[本文引用格式] 張平茜,何亞玲,李宇陽,等.基于WGCNA和機(jī)器學(xué)習(xí)算法探索結(jié)直腸癌肝轉(zhuǎn)移的機(jī)制及其潛在生物標(biāo)志物[J].右江醫(yī)學(xué),2024,52(6):481-490.

新野县| 平泉县| 黄浦区| 嫩江县| 腾冲县| 泗水县| 和硕县| 诸暨市| 安塞县| 武穴市| 长寿区| 广东省| 永宁县| 罗源县| 桐城市| 陈巴尔虎旗| 岳阳县| 高安市| 南召县| 靖宇县| 洮南市| 德令哈市| 青铜峡市| 江永县| 石楼县| 德阳市| 绥化市| 青神县| 桐庐县| 康定县| 高尔夫| 灵璧县| 平度市| 镇雄县| 阿图什市| 海林市| 无为县| 岢岚县| 凌海市| 安吉县| 凤山市|