王錦淼,王穎,周博昊,王雷,穆偉斌
1 齊齊哈爾醫(yī)學(xué)院醫(yī)學(xué)技術(shù)學(xué)院,黑龍江 齊齊哈爾 161003;2 常熟理工學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院
癌癥已經(jīng)成為全球主要死亡原因之一[1-2]。癌癥是一種由體細(xì)胞突變和克隆選擇導(dǎo)致的細(xì)胞惡性增殖的基因疾病,可直接導(dǎo)致癌癥發(fā)生的基突變即為“驅(qū)動(dòng)突變”[3],而不會(huì)造成癌細(xì)胞增殖的無(wú)直接影響基突變則為“乘客突變”,“乘客突變”對(duì)癌癥的驅(qū)動(dòng)作用很?。?],因此,識(shí)別出對(duì)癌癥具有重要影響的“驅(qū)動(dòng)基因”是目前癌癥發(fā)生機(jī)制的研究重點(diǎn)[5-6],包含驅(qū)動(dòng)突變的基因則為“癌癥驅(qū)動(dòng)基因(Cancer Driver Genes,CDGs)”。CDGs可為癌癥預(yù)防、診斷和精準(zhǔn)治療提供關(guān)鍵信息[7]。結(jié)直腸癌(Colorectal carcinoma,CRC)是全球最常見(jiàn)的惡性腫瘤之一,發(fā)病率逐年上升[8]。CRC 的發(fā)病與多種因素相關(guān),隨著高通量測(cè)序技術(shù)的進(jìn)展,多組學(xué)基因檢測(cè)技術(shù)得到快速發(fā)展,但檢測(cè)常產(chǎn)生成千上萬(wàn)CRC 相關(guān)基因,無(wú)法識(shí)別CRC的CDGs[9-11]。2021年6月起,我們采用多組學(xué)數(shù)據(jù)的組合優(yōu)化方法,篩選CRC 的關(guān)鍵癌癥驅(qū)動(dòng)基因(Cancer Driver Genes,CDGs),并分析其生物學(xué)功能。現(xiàn)將結(jié)果報(bào)告如下。
1.1 CRC 基因數(shù)據(jù)和基因表達(dá)數(shù)據(jù)的下載及預(yù)處理 從癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)數(shù)據(jù)庫(kù)(https://cancergenome. nih. gov/)中搜索并下載CRC 基因[13],一共獲得612 份樣本轉(zhuǎn)錄組分析數(shù)據(jù),其中CRC 患者568 例、正常人44 例,癌基因56 753 個(gè)。從國(guó)際腫瘤基因組協(xié)作組數(shù)據(jù)庫(kù)
(the International Cancer Genome Consortium,ICGC)
(https://dcc. icgc. org/)中搜索并下載CRC 基因表達(dá)數(shù)據(jù)[14],一共獲得548 份數(shù)據(jù),癌基因20 888 個(gè)。對(duì)下載的數(shù)據(jù)庫(kù)數(shù)據(jù)進(jìn)行質(zhì)量控制,對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行預(yù)處理,剔除異常值數(shù)據(jù),去除信息不全、重復(fù)和可能存在錯(cuò)誤的樣本和突變頻率過(guò)高或過(guò)低基因[15],提高數(shù)據(jù)可靠性、準(zhǔn)確性。
1.2 CRC的關(guān)鍵癌癥驅(qū)動(dòng)基因篩選
1.2.1 構(gòu)建CRC 基因突變矩陣與CRC 突變基因表達(dá)矩陣 從基因芯片中提取出樣本原始突變基因和表達(dá)基因,運(yùn)用“python”軟件將數(shù)據(jù)整理為基因-樣本形式的矩陣,將其分為癌癥組和對(duì)照組,將CRC突變基因數(shù)據(jù)整理成突變矩陣(CRC 基因突變矩陣),將突變基因表達(dá)數(shù)據(jù)構(gòu)建成基因表達(dá)矩陣(CRC突變基因表達(dá))。
1.2.2 構(gòu)建CRC 高維突變基因加權(quán)網(wǎng)絡(luò)模型 從STRING 數(shù)據(jù)庫(kù)(Search Tool for the Retrieval of Interacting Genes)[17]中獲取CRC 基因的蛋白質(zhì)相互作用(PPI)網(wǎng)絡(luò),運(yùn)用python 軟件將CRC 基因突變矩陣、CRC突變基因表達(dá)矩陣和PPI數(shù)據(jù)整合交集,以突變基因和PPI 網(wǎng)絡(luò)的score 值分別作為節(jié)點(diǎn)和邊,score值代表了基因之間這種相互作用(既包括蛋白質(zhì)之間直接的物理的相互作用,也包括蛋白質(zhì)間連接功能的相關(guān)性),節(jié)點(diǎn)屬性為突變因子分?jǐn)?shù),兩者結(jié)合建立高維突變基因加權(quán)網(wǎng)絡(luò),共包含14 388個(gè)基因。
1.2.3 CRC 癌癥驅(qū)動(dòng)基因篩選 根據(jù)高維突變基因加權(quán)網(wǎng)絡(luò)模型的結(jié)構(gòu)特征,通過(guò)每個(gè)基因在網(wǎng)絡(luò)中相鄰基因的突變影響,計(jì)算最大基因影響分?jǐn)?shù),基因節(jié)點(diǎn)影響分?jǐn)?shù)最大值即基因最大突變影響分?jǐn)?shù)得分,根據(jù)基因最大突變影響分?jǐn)?shù)得分最終得到CRC癌癥驅(qū)動(dòng)基因。
1.2.4 CRC 關(guān)鍵癌癥驅(qū)動(dòng)基因篩選 CGC(The Cancer Gene Census)[19]數(shù)據(jù)庫(kù)的網(wǎng)址為:https://cancer. sanger. ac. uk/census,其收錄基因是已被醫(yī)學(xué)界和生物界所認(rèn)定與癌癥相關(guān)的驅(qū)動(dòng)基因。從CGC 數(shù)據(jù)中提取已經(jīng)證實(shí)的結(jié)直腸癌癥基因[20-21]與“1.2.3”得到CRC 癌癥驅(qū)動(dòng)基因比較,得到CRC 關(guān)鍵癌癥驅(qū)動(dòng)基因。
1.3 CRC 關(guān)鍵癌癥驅(qū)動(dòng)基因的生物學(xué)功能分析 采用STRING(https://string-db. org)數(shù)據(jù)庫(kù)構(gòu)建CRC 關(guān)鍵癌癥驅(qū)動(dòng)基因的蛋白質(zhì)相互作用網(wǎng)絡(luò)(PPI),互動(dòng)分?jǐn)?shù)設(shè)置為中等置信度0.4 分,該圖由節(jié)點(diǎn)和邊組成,節(jié)點(diǎn)代表蛋白,邊代表關(guān)系,不同的顏色代表不同的數(shù)據(jù)來(lái)源。利用STRING在線分析工具生物注釋將排名前100的顯著差異基因進(jìn)行基因本體(gene ontology,GO)分析和京都基因和基因組數(shù)據(jù)庫(kù)(Kyoto Encyclopedia of Genes and Genomes,KEGG)信號(hào)通路富集分析。GO 功能富集分析是對(duì)基因進(jìn)行注釋和生物學(xué)功能分析的重要工具,Go 功能主要分成三大類:生物學(xué)過(guò)程(BP)、分子功能(MF)和CC細(xì)胞組成(CC),KEGG 信號(hào)通路富集分析可從大規(guī)模分子數(shù)據(jù)集中了解基因的富集通路。
2.1 CRC 關(guān)鍵癌癥驅(qū)動(dòng)基因 最終篩選出22 個(gè)CRC關(guān)鍵癌癥驅(qū)動(dòng)基因,其中排名前20分別為ATM、TTN、PCDHGB3、LRP1B、PCDHA6、PIK3CA、SYNE1、PCDHGB2、KMT2C、BRAF、BMPR1A、PCDHGA8、PCDHGA5、FAT4、PCDHA8、APC、PCDHGA7、PCDHA10、PCDHA9 及FBXW7?;蜃畲笸蛔冇绊懛?jǐn)?shù)得分分別為37 146.55、37 146.55、34 319.47、33 546.18、33 546.18、32 235.49、32 008.97、31 207.03、30 492.44、30 362.73、30 340.14、29 289.54、29 289.54、28 121.02、26 733.33、23 042.20、21 811.26、20 764.04、20 764.04、20 394.35。CRC 關(guān)鍵癌癥驅(qū)動(dòng)基因的相互作用圖見(jiàn)圖1。
圖1 CRC關(guān)鍵癌癥驅(qū)動(dòng)基因的相互作用圖
2.2 CRC 關(guān)鍵癌癥驅(qū)動(dòng)基因的生物學(xué)功能 CRC關(guān)鍵癌癥驅(qū)動(dòng)基因的PPI 網(wǎng)絡(luò)包含100 個(gè)節(jié)點(diǎn),241條邊,平均節(jié)點(diǎn)度為4.82,局部聚類系數(shù)為0.474,PPI 富集P值<1.0e-16。GO 功能富集結(jié)果顯示,CRC 關(guān)鍵癌癥驅(qū)動(dòng)基因的分子功能主要集中在鈣離子結(jié)合、陽(yáng)離子結(jié)合、金屬離子結(jié)合、離子結(jié)合、捆綁、β-連環(huán)蛋白結(jié)合、組蛋白甲基轉(zhuǎn)移酶活性(h3-k4特異性)等;生物過(guò)程主要集中在通過(guò)質(zhì)膜黏附分子的同源性細(xì)胞黏附、通過(guò)質(zhì)膜黏附分子的細(xì)胞-細(xì)胞黏附、細(xì)胞黏附、細(xì)胞間黏附、神經(jīng)系統(tǒng)發(fā)育、解剖結(jié)構(gòu)發(fā)展、心臟發(fā)育、系統(tǒng)開(kāi)發(fā)、多細(xì)胞生物發(fā)育、解剖結(jié)構(gòu)形態(tài)發(fā)生等;細(xì)胞組成主要集中在質(zhì)膜、質(zhì)膜的組成部分、膜、肌原纖維、肌膜、肌節(jié)、膜的組成部分、質(zhì)膜有界細(xì)胞投射、肌原纖維附著點(diǎn)、超分子纖維等。
KEEG 信號(hào)通路富集分析結(jié)果發(fā)現(xiàn),CRC 關(guān)鍵癌癥驅(qū)動(dòng)基因的信號(hào)通路主要集中在大腸癌、子宮內(nèi)膜癌、肝細(xì)胞癌、慢性粒細(xì)胞白血病、FoxO 信號(hào)通路、調(diào)節(jié)干細(xì)胞多能性的信號(hào)通路、胃癌、前列腺癌、乙型肝炎、癌癥中的微小RNA。
癌癥的發(fā)生和發(fā)展與基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、表觀組學(xué)及代謝組學(xué)等多組學(xué)數(shù)據(jù)息息相關(guān)[12]。以往通常是在單個(gè)的大樣本數(shù)據(jù)中找到一些突變率顯著很高的基因作為候選基因,這樣的篩選造成癌癥通路中存在基因之間強(qiáng)異質(zhì)性的問(wèn)題,所以如果單純的對(duì)其中一種組學(xué)數(shù)據(jù)來(lái)進(jìn)行數(shù)據(jù)挖掘和生物研究會(huì)存在明顯的不足與缺陷,那么通過(guò)整合多組學(xué)數(shù)據(jù)并進(jìn)行綜合分析對(duì)癌癥得到了更深層次和更全面的探索,利用生物信息學(xué)技術(shù)鑒定出關(guān)鍵基因及其相關(guān)通路,從病理發(fā)生的分子機(jī)制角度對(duì)CRC 進(jìn)行理解,找到潛在可深入研究的用于診斷生物標(biāo)志物以及治療CRC的分子八項(xiàng)標(biāo)志物。
本研究采用多組學(xué)數(shù)據(jù)的組合優(yōu)化方法,整合體細(xì)胞突變數(shù)據(jù)、基因表達(dá)數(shù)據(jù)以及蛋白質(zhì)相互作用網(wǎng)絡(luò)三種組學(xué)數(shù)據(jù)。首先基于多統(tǒng)計(jì)學(xué)方法的CDGs生物特征提取,計(jì)算基因突變因子和皮爾遜相關(guān)系數(shù),分別構(gòu)建出突變矩陣和基因表達(dá)矩陣。然后以基因的突變頻率和基因表達(dá)水平相關(guān)性為節(jié)點(diǎn)和邊,建立高維突變基因加權(quán)網(wǎng)絡(luò)模型,基于該網(wǎng)絡(luò)模型利用重力學(xué)模型計(jì)算基因與鄰居節(jié)點(diǎn)的突變影響分?jǐn)?shù),根據(jù)節(jié)點(diǎn)的影響分?jǐn)?shù)最大值進(jìn)而得出基因的突變影響因子大小,并在兼顧基因網(wǎng)絡(luò)結(jié)構(gòu)的條件下,以突變影響因子大小為根據(jù)運(yùn)用一種綜合的基因打分方法,最終得出驅(qū)動(dòng)基因的預(yù)測(cè)集。
本研究中構(gòu)建的基因相互作用網(wǎng)絡(luò)信息更加全面,對(duì)于以往單一組學(xué)數(shù)據(jù)研究的缺陷進(jìn)行了彌補(bǔ),在多個(gè)體細(xì)胞突變數(shù)據(jù)集上進(jìn)行評(píng)估,優(yōu)先選擇潛在的癌癥驅(qū)動(dòng)基因,對(duì)識(shí)別出的驅(qū)動(dòng)基因進(jìn)行CGC富集對(duì)比分析并能很好富集到CGC 列表中,利用本方法識(shí)別出的CRC排名靠前出現(xiàn)在CGC基因列表中的 前10 個(gè) 包 括:ATM、TTN、PCDHGB3、LRP1B、PCDHA6、PIK3CA、SYNE1、PCDHGB2、KMT2C 和BRAF,在CRC 組織中均明顯表達(dá)增高,說(shuō)明了這10個(gè)基因均與癌細(xì)胞的發(fā)生發(fā)展密切相關(guān),這些關(guān)鍵基因可以作為CRC診斷和治療的潛在靶標(biāo),也使我們更加全面的了解CRC的發(fā)病機(jī)制和發(fā)展機(jī)理,對(duì)于CRC的預(yù)防和早期診斷、治療具有重要的臨床意義。
對(duì)CRC 的關(guān)鍵癌癥驅(qū)動(dòng)基因進(jìn)行GO 本體論分析和KEGG 通路生物功能分析,結(jié)果發(fā)現(xiàn),CRC關(guān)鍵癌癥驅(qū)動(dòng)基因的分子功能主要集中在鈣離子結(jié)合、陽(yáng)離子結(jié)合、金屬離子結(jié)合、離子結(jié)合、捆綁、β-連環(huán)蛋白結(jié)合、組蛋白甲基轉(zhuǎn)移酶活性(h3-k4 特異性)等;生物過(guò)程主要集中在通過(guò)質(zhì)膜黏附分子的同源性細(xì)胞黏附、通過(guò)質(zhì)膜黏附分子的細(xì)胞-細(xì)胞黏附、細(xì)胞黏附、細(xì)胞間黏附、神經(jīng)系統(tǒng)發(fā)育、解剖結(jié)構(gòu)發(fā)展、心臟發(fā)育、系統(tǒng)開(kāi)發(fā)、多細(xì)胞生物發(fā)育、解剖結(jié)構(gòu)形態(tài)發(fā)生等;細(xì)胞組成主要集中在質(zhì)膜、質(zhì)膜的組成部分、膜、肌原纖維、肌膜、肌節(jié)、膜的組成部分、質(zhì)膜有界細(xì)胞投射、肌原纖維附著點(diǎn)、超分子纖維等。驅(qū)動(dòng)基因都是與質(zhì)膜、肌膜和離子結(jié)合炎癥等生命正常運(yùn)行時(shí)有密切關(guān)聯(lián)的,說(shuō)明這些驅(qū)動(dòng)基因具有重要的生物學(xué)功能。對(duì)KEGG 信號(hào)通路與關(guān)鍵基因關(guān)聯(lián)的分析,本研究中CRC 關(guān)鍵癌癥驅(qū)動(dòng)基因的信號(hào)通路主要集中在大腸癌、子宮內(nèi)膜癌、肝細(xì)胞癌、慢性粒細(xì)胞白血病、FoxO信號(hào)通路、調(diào)節(jié)干細(xì)胞多能性的信號(hào)通路、胃癌、前列腺癌、乙型肝炎、癌癥中的微小RNA,說(shuō)明CRC 關(guān)鍵基因的基因調(diào)控通路可能導(dǎo)致癌癥的發(fā)生發(fā)展,同時(shí)同一驅(qū)動(dòng)基因在不同腫瘤之間產(chǎn)生致癌作用,說(shuō)明癌癥的發(fā)病存在共通之處。
綜上所述,成功篩選出22個(gè)CRC關(guān)鍵癌癥驅(qū)動(dòng)基因,如ATM、TTN、PCDHGB3等。CRC 關(guān)鍵癌癥驅(qū)動(dòng)基因的分子功能主要集中在鈣離子結(jié)合、陽(yáng)離子結(jié)合、金屬離子結(jié)合等;生物過(guò)程主要集中在通過(guò)質(zhì)膜黏附分子的同源性細(xì)胞黏附、通過(guò)質(zhì)膜黏附分子的細(xì)胞-細(xì)胞黏附、細(xì)胞黏附等;細(xì)胞組成主要集中在質(zhì)膜、質(zhì)膜的組成部分、膜等;信號(hào)通路主要集中在大腸癌、FoxO 信號(hào)通路、調(diào)節(jié)干細(xì)胞多能性的信號(hào)通路等。深入了解CRC 關(guān)鍵癌癥驅(qū)動(dòng)基因有助于研究CRC 發(fā)生發(fā)展機(jī)制,同時(shí)可為CRC 提供新的治療靶點(diǎn)。同時(shí),多組學(xué)數(shù)據(jù)分析方法能夠高精度預(yù)測(cè)疾病的驅(qū)動(dòng)基因,為其他癌癥的診療研究提供了一種新方法。