基于機器學習的胰腺癌特征基因篩選初步研究

2022-10-12 07:46:26魏偉歐政林竇曉淋張帥唐翎

中國普通外科雜志 2022年9期

魏偉，歐政林，竇曉淋，張帥，唐翎

（中南大學湘雅醫(yī)院 1.普通外科 2.藥學部 3.國家老年疾病臨床醫(yī)學研究中心，湖南長沙 410008）

胰腺癌是一種惡性程度很高的腫瘤，在全世界的發(fā)病率和病死率都很高，全球范圍內(nèi)呈快速上升趨勢，我國發(fā)病率逐年上升并呈年輕化的趨勢，嚴重危害著人類的健康[1-5]。80%的胰腺癌是胰腺導管腺癌，以高侵襲性和早期轉(zhuǎn)移為特點，臨床癥狀出現(xiàn)晚，發(fā)現(xiàn)時已為晚期，雖然放療和化療對延長患者生存期起到了一定的作用，但是患者中位生存期仍小于2年[6-8]。

研究[9-13]表明，胰腺癌病變組織和正常組織之間存在差異表達基因（different expression genes，DEGs），這些DEGs很可能會導致胰腺癌的發(fā)生和發(fā)展。高通量基因芯片和測序技術(shù)作為基因表達分析的工具，已被廣泛應用于識別腫瘤發(fā)生過程中遺傳信息的改變[14-15]。隨著基因芯片技術(shù)的發(fā)展，已經(jīng)產(chǎn)生了大量核酸數(shù)據(jù)，這些數(shù)據(jù)需要經(jīng)過挖掘加工才能夠被有效應用。芯片數(shù)據(jù)挖掘涉及很多方面，如圖像處理、數(shù)據(jù)標準化、DEGs篩選等。GEO（Gene Expression Omnibus）數(shù)據(jù)庫中有豐富的腫瘤相關(guān)基因組及基因表達譜，為研究細胞癌基因表達情況和發(fā)現(xiàn)關(guān)鍵基因的變化規(guī)律提供基礎(chǔ)[16]?；谙嚓P(guān)性的特征選擇（correlationbased feature selection，CFS）變量篩選方法計算特征變量對于目標的整體貢獻來判斷特征變量集的分類能力大小，將與目標的相關(guān)性很低的變量，以及變量之間高度相關(guān)的冗余變量去掉，這種變量篩選方法在生命科學，藥物設計等領(lǐng)域被廣泛用于高維數(shù)據(jù)及特征篩選[17]。

本研究基于GEO數(shù)據(jù)庫中獲得的基因芯片數(shù)據(jù)，通過特征篩選獲得差異表達基因，建立相應的胰腺癌判別模型，結(jié)合GO功能富集分析和KEGG通路富集分析，蛋白質(zhì)交互作用網(wǎng)絡以及生存分析來研究部分導致胰腺癌的關(guān)鍵基因，初步探索胰腺癌潛在的治療靶點，為研究胰腺癌的分子機制提供基礎(chǔ)，為胰腺癌的治療診斷提供參考依據(jù)。

1 資料與方法

1.1 數(shù)據(jù)收集

數(shù)據(jù)庫資料下載本研究中，從GEO數(shù)據(jù)庫下載了GSE16515 mRNA表達譜，該表達譜采用GPL570 [HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array平臺，包含胰腺組織樣本52例，其中36例胰腺癌樣本，16例正常組織樣本。使用線性回歸模型軟件包Limma對不同組的芯片進行差異性計算，歸一化。

1.2 篩選DEGs

利用R語言以|log2FC|＞2，P＜0.05為標準，篩選出DEGs[18]。

1.3 GO功能富集分析和KEGG通路富集分析

GO功能富集分析一般包括生物過程（biological process，BP）、分子功能（molecular function，MF）和細胞成分（cellular component，CC）[19]。將這些DEGs導入到在線工具DAVID數(shù)據(jù)庫中，分別進行GO和KEGG富集分析[20-21]，并利用得到的數(shù)據(jù)繪制氣泡圖。

1.4 蛋白質(zhì)交互作用網(wǎng)絡分析

利用在線數(shù)據(jù)庫STRING構(gòu)建DEGs之間的蛋白-蛋白交互作用（protein-protein interaction，PPI）網(wǎng)絡圖，分析蛋白質(zhì)功能之間的相互作用。隨后應用Cytoscape軟件（3.8.0）在線工具使PPI的網(wǎng)絡模塊可視化[22]。

1.5 生存分析

利用PPI網(wǎng)絡分析篩選出其中的靶基因之后，應用在線工具GEPIA數(shù)據(jù)庫對TCGA數(shù)據(jù)庫中有詳細臨床資料的胰腺癌患者，采用Kaplan-Meier生存分析研究靶基因表達水平與胰腺癌患者總生存期（overall survival，OS）之間的關(guān)系[23]，驗證其在胰腺癌發(fā)生過程中的參與情況。

2 結(jié) 果

2.1 DEGs初步篩選

“差異”在生物學數(shù)據(jù)分析時有兩層含義，一是統(tǒng)計學上的差異，另一個則是生物學上的差異，所以DEGs的選取通常設置至少兩個閾值：統(tǒng)計顯著性量度P值和基因表達變化量（fold change，F(xiàn)C）。在本研究中，通過計算發(fā)現(xiàn)，胰腺癌與對照的基因表達差異比較，滿足P＜0.05及|log2FC|＞2的有1 121個基因（圖1），其中上調(diào)基因834個，下調(diào)基因287個?？梢钥闯?，有較多基因的差異倍數(shù)較高，推測胰腺腫瘤亦可能是從良性腫瘤向惡性腫瘤轉(zhuǎn)變的過程，所以才存在很大的差異性。

圖1 DEGs火山圖（藍色點表示滿足閾值的下調(diào)DEGs，紅色點表示滿足閾值的上調(diào)DEGs，灰色點表示不滿足閾值的DEGs）Figure 1 Volcano plots of DEGs (Blue dots indicating the down-regulated DEGs that meet the threshold, red dots indicating the up-regulated DEGs that meet the threshold, and gray dots indicating DEGs that do not meet the threshold)

2.2 基于CFS特征過濾方法的DEGs篩選

使用CFS算法對2.1部分中篩選出的DEGs進行進一步篩選，通過胰腺癌樣本與正常樣本比較，共篩選出18個DEGs，其中包括了16個上調(diào)基因（BUB1B、 CCNA2、 CCNB1、 CDC20、 CDC6、CDK1、 CKS1B、 CKS2、 EPHA4、 MAD1L1、MAD2L1、MCM2、NDC80、RACGAP1、TTK、ZWINT）和2個下調(diào)基因（ADHFE1、PSMD6）。以該18個DEGs為變量，使用Adaboost算法和Bagging算法，并用4種弱分類器作為基本分類器，分別構(gòu)建胰腺癌判別預測模型（表1）。結(jié)果顯示，兩種算法，使用不同分類器時，預測準確率都高于80%，說明我們篩選得到的18個DEGs，能夠很好地識別腫瘤患者。其中，以RandomForest為弱分類器，采用Adaboost方法所得到的判別模型的預報準確率最高，可以達到92.3%。從表中可以看出，8種算法建立的預測模型中，篩選的18個DEGs，無論選擇何種算法，都能夠較好地區(qū)分胰腺癌與正常樣本。

表1 不同弱分類器對胰腺癌的預測結(jié)果Table 1 Prediction result of different weak classifiers for pancreatic cancer

2.3 DEGs的生物學功能分析

GO功能富集分析結(jié)果顯示，在BP方面中RNA聚合酶Ⅱ啟動子的正/負性轉(zhuǎn)錄調(diào)控（positive/negative regulation of transcription from RNA polymeraseⅡ promoter）和DNA模板的轉(zhuǎn)錄正調(diào)控（positive regulation of transcription，DNA-templated）富集的基因數(shù)量較多；在CC方面，DEGs主要與胞質(zhì)（cytosol）、細胞核（nucleus）和核質(zhì)體（nucleoplasm）富集的基因數(shù)量較多；而DEGs的MF主要集中在蛋白結(jié)合（protein binding）和同樣蛋白結(jié)合（identical protein binding）（圖2）。KEGG通路富集分析表明，它們主要參與癌癥通路（pathways in cancer），Wnt信號通路（Wnt signaling pathway），HIF-1信號通路（HIF-1 signaling pathway）和甲狀腺激素信號通路（thyroid hormone signaling pathway）等途徑（圖3）。

圖2 差異表達基因的GO功能富集分析Figure 2 Functional enrichment analysis of GO for differentially expressed genes

圖3 DEGs的KEGG功能富集分析Figure 3 KEGG functional enrichment analysis of DEGs

2.4 PPI網(wǎng)絡分析

使用在線數(shù)據(jù)庫STRING構(gòu)建DEGs之間PPI網(wǎng)絡。由圖4可知，細胞分裂周期蛋白20（CDC20）結(jié)構(gòu)度最高，和較多其他節(jié)點有互作。其次是細胞周期蛋白A2（CCNA2）、細胞周期蛋白B1（CCNB1）和周期蛋白依賴性激酶1（CDK1）。這些基因可能在胰腺癌的發(fā)生和發(fā)展中起到核心作用。

圖4 DEGs蛋白交互作用網(wǎng)絡圖Figure 4 Protein interaction network of DEGs

2.5 生存分析

為了進一步驗證靶基因與OS的關(guān)系，在利用PPI篩選出靶基因后，使用在線分析工具GEPIA數(shù)據(jù)對TCGA數(shù)據(jù)庫中有詳細資料的胰腺癌患者進行Kaplan-Meier生存分析，研究靶基因表達量與胰腺患者OS之間的關(guān)系。選取基因表達量的中位數(shù)為基線，將其劃分為高表達組和低表達組。其中CDK1（P=0.000 8）、CCNB1（P=0.012）、CSK2（P=0.023）、CKS1B（P=0.001 3）的表達量與患者OS具有相關(guān)性，這些基因表達量越高，患者OS越短（圖5）。

圖5 關(guān)鍵基因表達與胰腺癌患者生存的關(guān)系Figure 5 Relations of the expressions of the hub genes with the survival of pancreatic cancer patients

3 討論

本研究一共篩選出18個DEGs，GO功能富集分析表明這些DEGs在RNA聚合酶Ⅱ啟動子的正/負性轉(zhuǎn)錄調(diào)控、DNA模板的轉(zhuǎn)錄正調(diào)控富集、CC方面，DEGs主要與胞質(zhì)、細胞核，蛋白結(jié)合和同樣蛋白結(jié)合中起到作用。KEGG通路富集分析表明它們主要參與癌癥通路、Wnt信號通路、HIF-1信號通路和甲狀腺激素信號通路等途徑中起作用。

CCNA2和CCNB1編碼的蛋白都屬于細胞周期蛋白家族，其成員的特點是在細胞周期中蛋白豐度具有周期性[24]。細胞周期蛋白作為CDK激酶的調(diào)節(jié)器發(fā)揮作用。不同的細胞周期蛋白表現(xiàn)出不同的表達和降解模式，有助于每個有絲分裂事件的時間協(xié)調(diào)。目前已有有關(guān)CCNA2和CCNB1基因在癌組織中的表達、信號通路和預后關(guān)系相關(guān)的研究[25-27]。

腫瘤細胞以持續(xù)分裂、增殖不受控制為特點，細胞周期蛋白依賴性激酶CDK對腫瘤細胞的生存具有重要意義。CDK1能通過BRCA1的磷酸化促進DNA雙鏈斷裂的同源重組修復過程和細胞周期檢查點激活。因此，CDK1是許多生物學過程中調(diào)控的核心，包括細胞周期調(diào)控、DNA復制、DNA損傷修復等，并將這些生物學過程與細胞周期進程緊密聯(lián)系起來[28-29]。鑒于CDK1對細胞周期的調(diào)控、檢查點的激活、DNA損傷修復發(fā)揮著關(guān)鍵性的作用，CDK1成為信號通路的重要位點，相關(guān)的抑制劑開發(fā)受到了廣泛的關(guān)注，尤其是其臨床研究更多指向胰腺癌[30-33]。

在本研究中，采用CFS算法對胰腺癌的DEGs進行篩選，獲得18個DEGs，在此基礎(chǔ)了使用機器學習方法構(gòu)建了胰腺癌判別模型。通過GO和KEGG生物功能分析，PPI網(wǎng)絡分析和生存率分析，發(fā)現(xiàn)CDK1、CCNA2和CCNB1的可能與胰腺癌的發(fā)生和發(fā)展有關(guān)。

利益沖突：所有作者均聲明不存在利益沖突。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡