潘可 覃亞倫
關(guān)鍵詞:驅(qū)動(dòng)通路;泛癌;基因集;調(diào)和平均數(shù);粒子群優(yōu)化;元啟發(fā)式
中圖分類(lèi)號(hào):TP301 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2023)20-0023-05
0引言
癌癥是一種復(fù)雜的疾病,其發(fā)病機(jī)制涉及分子水平上的多種因素。因此,從分子層面深入認(rèn)識(shí)癌癥的發(fā)生發(fā)展過(guò)程,對(duì)于提高癌癥的診斷、治療和藥物設(shè)計(jì)等方面的水平具有重要的意義。隨著深度測(cè)序技術(shù)的飛速發(fā)展,科研人員開(kāi)展了癌癥基因組圖譜計(jì)劃[1]、國(guó)際腫瘤基因組協(xié)作組[2]等大型癌癥基因組計(jì)劃,獲得了海量的癌癥數(shù)據(jù)。如何利用這些數(shù)據(jù)來(lái)有效地識(shí)別出促進(jìn)癌癥發(fā)展的驅(qū)動(dòng)基因,已成為生物信息學(xué)中至關(guān)重要的挑戰(zhàn)之一。早期的研究主要致力于識(shí)別單個(gè)驅(qū)動(dòng)基因[3-4],然而由于癌癥基因組具有突變異質(zhì)性[3-5],這類(lèi)方法的識(shí)別效果并不理想。進(jìn)一步的研究發(fā)現(xiàn),癌癥發(fā)生的標(biāo)靶信號(hào)與信號(hào)通路的調(diào)控是由多個(gè)驅(qū)動(dòng)基因共同作用的結(jié)果,驅(qū)動(dòng)通路中任何一個(gè)驅(qū)動(dòng)基因發(fā)生突變均會(huì)導(dǎo)致通路失調(diào),從而引發(fā)癌癥[6]。因此,在通路水平上分析突變,識(shí)別靶向同一通路的基因集合,對(duì)于揭示異質(zhì)性模式和理解癌癥形成更具有生物學(xué)意義[7]。驅(qū)動(dòng)通路識(shí)別問(wèn)題可從單癌和泛癌兩個(gè)層面來(lái)研究[8-11],論文主要關(guān)注泛癌驅(qū)動(dòng)通路識(shí)別問(wèn)題。
識(shí)別不同癌癥之間的公共驅(qū)動(dòng)通路是揭開(kāi)癌癥奧秘的重要問(wèn)題之一,也是研制靶向多種癌癥的藥物的關(guān)鍵所在。近年來(lái),這一問(wèn)題已取得一定的研究進(jìn)展。2017年,Zhang等人[11]提出了ComMDP和SpeMDP兩種數(shù)學(xué)規(guī)劃模型,分別用于從頭識(shí)別不同癌癥的共同及特有驅(qū)動(dòng)基因集。2021年,Wu[12]等人基于人類(lèi)蛋白質(zhì)相互作用網(wǎng)絡(luò)和泛癌體細(xì)胞突變數(shù)據(jù),提出了一種新的驅(qū)動(dòng)模塊識(shí)別方法ECSWalk,以解決突變基因異質(zhì)性問(wèn)題,提高驅(qū)動(dòng)模塊檢測(cè)的準(zhǔn)確性。同年,Wu[13]等人對(duì)R種癌癥的公共驅(qū)動(dòng)模塊識(shí)別問(wèn)題進(jìn)行研究,提出了一種癌癥公共驅(qū)動(dòng)模塊識(shí)別模型,并設(shè)計(jì)求解該模型的識(shí)別方法IDM-SPS。上述方法中,大多數(shù)使用了基因相互作用網(wǎng)絡(luò)、蛋白質(zhì)相互作用網(wǎng)絡(luò)或已知通路信息等先驗(yàn)知識(shí)[12-13],由于目前先驗(yàn)知識(shí)仍然很不完整[8],使用先驗(yàn)知識(shí)來(lái)識(shí)別可能會(huì)阻礙發(fā)現(xiàn)新的突變基因組合。ComMDP算法利用驅(qū)動(dòng)通路的高覆蓋和高互斥特性,首先嘗試從頭識(shí)別方法來(lái)探測(cè)多種癌癥間的公共驅(qū)動(dòng)通路,獲得了若干具有生物學(xué)意義的驅(qū)動(dòng)通路[11]。它將用于單一癌癥的最大權(quán)重子矩陣問(wèn)題[9]擴(kuò)展到多種癌癥問(wèn)題求解,即試圖找到一個(gè)使每種癌癥對(duì)應(yīng)的權(quán)重和最大化的基因集。然而,由于不同癌癥的樣本數(shù)量差異很大,絕對(duì)權(quán)重值可能反映了完全相反的突變狀況,同時(shí)權(quán)重累加和最大不能確保各權(quán)重都最大。針對(duì)這個(gè)問(wèn)題,論文提出了一種基于相對(duì)權(quán)重值和調(diào)和平均數(shù)的新模型CDP(common drive path?way),并設(shè)計(jì)求解該模型的粒子群優(yōu)化算法P-CDP。實(shí)驗(yàn)結(jié)果表明,識(shí)別準(zhǔn)確度主要受到模型的影響,基于模型CDP的識(shí)別方法能夠獲得較基于ComMDP方法更高的識(shí)別準(zhǔn)確度;提出的粒子群優(yōu)化算法在求解大規(guī)模問(wèn)題時(shí)仍具有較好的性能;與ComMDP方法相比,論文提出的識(shí)別方法能夠識(shí)別出被ComMDP方法遺漏且具有生物學(xué)意義的驅(qū)動(dòng)通路。
1 符號(hào)定義及問(wèn)題模型
3.2 CB 數(shù)據(jù)集
在表2中,基于COADREAD和BLCA樣本,針對(duì)參數(shù)k 設(shè)置了8組實(shí)驗(yàn)(3 ≤ k ≤ 10) 。表中字母C和P 分別表示算法ComMDP和P-CDP,后續(xù)表均以此方式表示。
如表2所示,P-CDP方法識(shí)別的基因集W?函數(shù)值較ComMDP方法識(shí)別的基因集W?函數(shù)值要大。P-CDP 方法共識(shí)別12個(gè)基因TP53, HCN1, APC, IFNA6, RB1, POLB, CTNNB1, HRAS, TGFBR2, CHD1, MAP3K1,C10orf71( 加粗基因表示僅被P-CDP方法識(shí)別),其中4個(gè)基因未被ComMDP方法所識(shí)別。ComMDP算法識(shí)別的基因涉及6 個(gè)信號(hào)通路:viral carcinogenesis 通路[17] (HRAS, RB1, CCND1), PI3K-Akt signaling pathway 通路[18] (IFNA6, HRAS, EPHA2, CCND1), thyroid hormonesignaling pathway通路[19] (HRAS, CTNNB1, CCND1), sig?naling pathways regulating pluripotency of stem cells 通路 [20] (APC, HRAS, CTNNB1), FoxO signaling pathway通路[21] (HRAS, CCND1, TGFBR2) 和hippo signaling path?way通路[22] (TGFBR2, APC, CTNNB1, CCND1)。P-CDP 方法能夠識(shí)別出富集在前3 個(gè)通路的新基因:viralcarcinogenesis [17] (TP53, HRAS, RB1, POLB),PI3K-Aktsignaling pathway 通路[18] (TP53, IFNA6, HRAS), thyroidhormone signaling pathway通路[19] (TP53, HRAS, CTNNB1),且其識(shí)別的基因還富集在一個(gè)重要的致癌通路MAPK signaling pathway[23] (TP53, HRAS, TGFBR2,MAP3K1)。由于P 值均小于0.0001,因此在不同k 取值下識(shí)別的基因集均具有統(tǒng)計(jì)顯著性。
3.3 CBB數(shù)據(jù)集
將BRCA 樣本整合至CB 數(shù)據(jù)集構(gòu)建CBB 數(shù)據(jù)集,針對(duì)k 的不同取值識(shí)別公共驅(qū)動(dòng)基因集。識(shí)別結(jié)果如表3所示,與ComMDP方法獲得的基因集相比,P-CDP方法獲得的基因集仍然均具有較大的W?函數(shù)值。P-CDP 方法總共識(shí)別12 個(gè)基因TP53, GATA3, CDH1, MTAP, MAP3K1, HCN1, SDK1, MAGEL2, PIK3R1, DBIL5P, BRCA2, MLL2,其中5 個(gè)基因未被ComMDP方法所識(shí)別。ComMDP方法識(shí)的基因涉及5 個(gè)重要的信號(hào)通路:apoptosis通路 [24] (TP53, PIK3CA),PI3K-Akt signaling pathway 通路[18] (TP53, PIK3CA,TNXB), neurotrophin signaling pathway 通路[25] (TP53,PIK3CA, MAP3K1), bacterial invasion of epithelial cells 通路[26] (PIK3CA, CDH1) 和 MAPK signaling pathway通路[23] (TP53, MAP3K1, NF1)。P-CDP方法能夠識(shí)別富集在前4 個(gè)信號(hào)通路上的新基因:apoptosis 通路 [24](TP53, PIK3R1), PI3K-Akt signaling pathway 通路[18](TP53, PIK3R1), neurotrophin signaling pathway 通路[25](TP53, PIK3R1, MAP3K1), bacterial invasion of epithe?lial cells 通路[26] (PIK3R1, CDH1)。由于P 值均小于0.0001,因此在不同k 取值下識(shí)別的基因集均具有統(tǒng)計(jì)顯著性。
基于上述實(shí)驗(yàn),P-CDP方法共識(shí)別出11個(gè)Com?MDP 方法未識(shí)別的基因:POLB, MTAP, SDK1, PIK3R1, DBIL5P, MLL2, CHKB, GPS2, NFE2L2, CABLES1 和ATM。其中4 個(gè)基因(POLB,PIK3R1, CHKB, ATM) 參與了8個(gè)重要通路,5個(gè)基因(MTAP,MLL2,GPS2, NFE2L2, CABLES1) 已被證實(shí)與多種癌癥的發(fā)病相關(guān)。例如,甲基硫代腺苷磷酸化酶MTAP是一種經(jīng)常被p16編碼的基因,在不同類(lèi)型的腫瘤中,MTAP 缺失與腫瘤侵襲性增加和預(yù)后不良有關(guān);賴(lài)氨酸甲基轉(zhuǎn)移酶KMT2D(也稱(chēng)為MLL2) 是最常見(jiàn)的突變基因之一,其突變可能會(huì)通過(guò)擾動(dòng)控制B細(xì)胞激活通路的抑癌基因的表達(dá)來(lái)促進(jìn)惡性增生;GPS2 參與增殖、凋亡、DNA修復(fù)等許多生理和病理過(guò)程,在脂肪肉瘤中起著抑癌作用;NFE2L2 也稱(chēng)為NRF2,是常見(jiàn)的抑癌基因之一,NRF2的激活會(huì)加快癌細(xì)胞的增殖和生長(zhǎng);CABLES1 是新型垂體腫瘤易感基因,參與腎上腺垂體負(fù)反饋細(xì)胞周期調(diào)節(jié)。
4 結(jié)論
識(shí)別跨多種類(lèi)型癌癥的公共驅(qū)動(dòng)通路是一項(xiàng)極其重要的任務(wù)。論文對(duì)這一問(wèn)題進(jìn)行了深入研究,并取得了兩項(xiàng)重要成果:首先,提出了一種改進(jìn)的數(shù)學(xué)模型,能夠從頭開(kāi)始識(shí)別多種癌癥類(lèi)型之間的公共驅(qū)動(dòng)基因集。該模型采用相對(duì)權(quán)重值代替絕對(duì)權(quán)重值,避免了大樣本量癌癥對(duì)權(quán)重值的決定作用,并引入調(diào)和平均數(shù),使各矩陣平均權(quán)重值較高且差距較小。其次,通過(guò)引入一種短粒子編碼方式,提出了一種求解該模型的粒子群優(yōu)化算法 P-CDP。
利用模擬數(shù)據(jù)和真實(shí)的生物數(shù)據(jù)對(duì)提出的粒子群優(yōu)化算法進(jìn)行了實(shí)驗(yàn)測(cè)試。結(jié)果表明,該算法在求解大規(guī)模問(wèn)題時(shí)仍具有較好的性能。論文對(duì)比分析了ComMDP和P-CDP兩種方法的識(shí)別性能,實(shí)驗(yàn)結(jié)果表明,P-CDP方法能夠識(shí)別出未被ComMDP方法識(shí)別的重要基因。首先,對(duì)于ComMDP方法識(shí)別的基因所富集的生物通路,算法P-CDP可以識(shí)別出富集于這些通路中的新基因;其次,算法P-CDP識(shí)別的基因還富集于其他重要的癌癥相關(guān)生物通路;最后,算法PCDP能夠識(shí)別出在癌癥形成和發(fā)展中起至關(guān)重要作用的基因。
綜上所述,實(shí)驗(yàn)結(jié)果表明,P-CDP能夠成功地識(shí)別出ComMDP所忽略的一些具有重要生物學(xué)意義的驅(qū)動(dòng)通路。因此,它有可能成為一種有效的補(bǔ)充工具,幫助我們更好地識(shí)別癌癥通路。